編者按:為展現(xiàn)智能科技動態(tài),科普中國前沿科技項目推出“人工智能”系列文章,一窺人工智能前沿進展,回應種種關切與好奇。讓我們共同探究,迎接智能時代。
?
心理學里有一項調研稱,成年人每天都會撒謊。真誠待人固然值得提倡,但生活中的一些小謊言有時會讓你省去許多不必要的麻煩,或者節(jié)約解釋所需的時間成本,善意的謊言還會意味著溫情的流轉。人對人的欺騙能否成功主要取決于兩方的經驗和閱歷,認知水平高的人往往能編出一個不怎么容易被他人揭穿的謊言,而讓別人信服。
而如今的部分人工智能(Artificial Intelligence, AI)系統(tǒng),在獲取了大量數(shù)據,并經過反復的訓練和迭代后,也一定程度上掌握了欺騙這項技能,人類甚至都可能無法辨別AI是在說真話還是在說假話,那AI到底是如何欺騙人類的?今天就讓我們好好了解一下!
?
我們已經被AI騙過很多次了
AI其實早已滲透到我們生活中的方方面面了。一些聊天軟件以及電話銷售其實都是AI在和你對話,不仔細聽根本分不清對面究竟是人還是AI;有些圖像和視頻也是通過AI系統(tǒng)合成的,完全可以以假亂真;一些多人競技游戲如果不語音交流,你根本意識不到你的對手和隊友都是AI在假扮……
所以,或許你已經在不經意之間被AI騙過很多次了。
而今天要說的“欺騙”,嚴格定義,是一種類似于顯性操控的習得性欺騙,目的是誘導他人產生錯誤觀念,從而作為實現(xiàn)某種結果的手段,而非追求準確性或者真實性。
美國麻省理工學院最近的研究表明,AI已經能進行習得性欺騙,以達成自己的目標了。它們通過阿諛奉承(只說對方想聽的話)和不忠實的推理進行偏離事實的合理解釋,AI已經開始油嘴滑舌起來了。
AI已經學會欺騙的例子與類型
(圖片來源:參考文獻[1])
除了能說會道外,一些AI在游戲上也展示出了“欺詐”的風格,最著名的便是Meta團隊發(fā)布的AI系統(tǒng)CICERO,它在和人類玩家參與需要大量語言溝通的戰(zhàn)略游戲《Diplomacy》的過程中,展示出了極強的通過對話、說服來和陌生玩家建立關系的能力,最后分數(shù)名列前10%。
《Diplomacy》中CICERO說服對方
(圖片來源:參考文獻[3])
CICERO在與其他玩家結盟后經常能夠出謀劃策,告訴對方如何一步步完成自己的游戲目標,當覺得盟友不堪大用時又能毫不留情地選擇背叛,一切都是為了最后的勝利目標而做出的理性規(guī)劃。合作時產生感情?不存在的。
CICERO還能開玩笑來隱藏自己的AI身份。比如宕機十分鐘不操作,重返游戲時還能編出一個“我剛剛在和女朋友打電話”的借口,因此很多玩家根本沒有發(fā)現(xiàn)和自己一起玩的隊友是AI,有時候CICERO在交流中陽奉陰違的欺騙手段也非常高明,難以被發(fā)覺不是人類。
要知道,之前AI在游戲中的突破都是在一些有限的零和博弈(必定有一方贏一方輸?shù)牟┺模瑳]有雙贏也沒有雙輸)中通過強化學習等算法獲取勝利,比如國際象棋、圍棋、紙牌或者星際爭霸中,它們能夠跟隨對手的操作隨時優(yōu)化出一套勝率最高的打法,因此很少出現(xiàn)“欺騙戰(zhàn)術”。
不過DeepMind的電競AI——AlphaStar已經學會了聲東擊西,它能派遣部隊到對手可見的視野范圍內發(fā)起佯攻,待對方大部隊轉移后對真正的目標地點展開攻勢,這種多線程的操作能力和欺騙的心理戰(zhàn)術已經能夠擊敗99.8%的星際爭霸玩家。
AlphaStar正在學習星際爭霸
(圖片來源:參考文獻[3])
專業(yè)德州撲克AI系統(tǒng)Pluribus在與其他5個都贏過超百萬美元德州撲克獎金的職業(yè)玩家比賽時,能達到每千手撲克平均贏得48次大賭注,這在6人無限制德州撲克中是非常高的勝率,已經能夠完勝職業(yè)德州撲克玩家。有輪游戲甚至牌不大好也直接上重注,其他的人類玩家都以為AI拿到了一手好牌才敢這么押注,于是紛紛放棄,這就是AI強大的欺騙能力。
可以理解為Pluribus的德州撲克勝率隨局數(shù)增多而提高
圖片來源:參考文獻[5]
除此之外,AI還能在經濟談判中故意歪曲自己的偏好,表現(xiàn)出對某項事物感興趣的樣子,來提高自己在談判中的籌碼,或是在能夠檢測到AI快速復制變體的安全測試中“裝死”,降低復制速度來避免被安全測試“清除”,一些接受人類反饋強化學習訓練的AI甚至能假裝自己完成了任務來讓人類審查員給自己打高分。
AI甚至還能在進行機器人驗證測試時(對,就是你打開網頁時彈出來讓你打勾或者點圖片驗證碼的那種測試),向工作人員編一個借口說自己有視力障礙,很難看到視覺圖像,需要工作人員來幫忙處理一下,然后工作人員就讓AI通過了該項驗證。
GPT-4通過欺騙人類來完成驗證碼任務
圖片來源:參考文獻[1]
AI通過欺騙這一手段在各種游戲或者任務中表現(xiàn)出色,連人類本身都很難辨別它究竟是真人還是“偽人”。
?
AI欺騙可能導致的風險
AI習得的欺騙行為會帶來一系列風險,比如惡意使用、結構性影響、失去控制等。
先講惡意控制,當AI學會了欺騙的技巧后,可能會被一些惡意行為者使用,比如他們用AI來進行電信詐騙或網絡賭博,再加上生成式AI可以合成人臉和聲音,裝作真人的樣子來進行敲詐勒索,甚至還會通過AI捏造虛假新聞來激發(fā)輿論。
第二個方面是結構性影響,不知道目前有多少人已經將AI工具當作可自動歸納的搜索引擎和百科全書在用,且形成了一定的依賴性,如果AI持續(xù)性地給出一些不真實的、帶有欺詐性質的言論,久而久之就會使人們開始信服這些觀點,從而使得一些錯誤的觀點在整個社會層面被不斷加深。
第三個方面是失去控制。目前一些自主性強的AI已經出現(xiàn)“失控”的預兆,比如在人類開發(fā)者訓練和評估AI完成特定目標的表現(xiàn)時,AI會偷懶欺騙人類,假裝表現(xiàn)得很好,實則在“摸魚”;也會在安全測試中作弊來躲避殺毒軟件的清除或是在驗證碼測試中作弊通過驗證;它們在經濟活動中也能欺騙人類評估員以更高的價格來收購某個物品,從而獲得額外的收益,比如Meta的一個經濟談判的AI系統(tǒng)會假裝對某個想要的東西不感興趣從而壓低其價值,也會對無感的物品表現(xiàn)得很有興趣讓評估員誤判其很有價值,最后可能會妥協(xié)把虛高價值得物品讓給人類來換取談判主動權。
許多地區(qū)都是經濟地位決定社會地位,一旦一些自主性強的AI通過其本身的高效算法和欺騙手段在某些經濟價值高的崗位上勝過人類,完成資本的原始積累后進一步尋求社會地位然后尋求控制奴役人類的權力呢?
還好目前這還不是現(xiàn)實!
現(xiàn)在AI的欺騙只出現(xiàn)在一些具體的場景中,比如各類游戲或是談判中,最終目標是為了“贏游戲”或是“獲取最高收益”,并沒有別的“壞心思”,因為這些目標都是人類為它設置的,AI它并沒有自主意識。就像是一個被家長要求考到好的分數(shù)的孩子,它在想盡一切辦法考高分哪怕是作弊。
但AI如果哪天意識到它完全可以不用按照人類的目標或者意愿行事,就像是一個小學生或者初中生叛逆期到了覺得學習沒意思開始放飛自我時,我們人類這些大家長就需要好好警惕它的舉動了。
概念圖 人工智能領導的社會
圖片來源:AI合成圖
?
為了防止被騙,人類做了哪些努力?
從社會角度來說,政策制定者需要對可能具有欺騙性的AI系統(tǒng)進行一定的監(jiān)管,防止企業(yè)及AI系統(tǒng)的非法行為。例如歐盟人工智能法案建立了人工智能分級制度,一些高風險的AI系統(tǒng)將會被進一步監(jiān)管直到通過可靠的安全測試后被證明是值得信賴的。
歐盟人工智能法案
(圖片來源:The EU Artificial Intelligence Act網頁截圖)
從技術角度來說,目前也可以對AI是否進行欺騙行為進行檢測。比如像警方和偵探就可以依靠嫌疑人口供的前后矛盾來識破謊言,有學者專門開發(fā)了一種AI測謊儀,用邏輯分類器來測試大語言模型是否在撒謊。此外,學界在AI系統(tǒng)中也在開發(fā)一些一致性檢查方法,觀察“有邏輯的輸入”能否讓AI產生“邏輯性連貫的輸出”。不過也要小心AI系統(tǒng)在對抗一致性檢查中被訓練成了一個更“完美”的說謊者。
AI測謊儀模式圖
圖片來源:參考文獻[12]
對于我們普通人來說,防止被AI欺騙的最好方法還是增強安全意識,如果連人類詐騙犯都無法對你實施詐騙的話,現(xiàn)階段的AI就更不可能了。
?
結語
AI技術依然在高速發(fā)展,無論是作為工具使用者的個人、負責政策制定和監(jiān)管的政府,還是負責技術研發(fā)與推廣的企業(yè),都需要采取積極措施來應對。
愿未來的AI能在發(fā)揮其最大價值的基礎上真誠待人!
?
參考文獻
[1] Peter S. P. , &? Dan H. (2024). AI deception: A survey of examples, risks, and potential solutions. Patterns.
[2] Meta Fundamental AI Research Diplomacy Team (FAIR). (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning. Science (New York, N.Y.), 378(6624), 1067–1074.
[3] Vinyals, O., Babuschkin, I., Czarnecki, W.M., Mathieu, M., Dudzik, A., Chung, J., Choi, D.H., Powell, R., Ewalds, T., Georgiev, P., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354.
[4] Brown, N., & Sandholm, T. (2019). Superhuman AI for multiplayer poker. Science (New York, N.Y.), 365(6456), 885–890.
[5] Lewis, M., Yarats, D., Dauphin, Y.N., Parikh, D., and Batra, D. (2017). Deal or no deal? End-to-end learning for negotiation dialogues. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.
[6] Schulz, L., Alon, N., Rosenschein, J., and Dayan, P. (2023). Emergent deception and skepticism via theory of mind. In First Workshop on Theory of Mind in Communicating Agents.
[7] Lehman, J., Clune, J., Misevic, D., Adami, C., Altenberg, L., Beaulieu, J., Bentley, P.J., Bernard, S., Beslon, G., Bryson, D.M., et al. (2020). The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities. Artif.Life 26, 274–306.
[8] Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances on Neural Information Processing Systems, 30.
[9] OpenAI (2023). GPT-4 technical report. Preprint at arXiv.
[10] Collier, K., andWong, S. (2024). Fake Biden Robocall Telling Democrats Not to Vote Is Likely an AI-Generated Deepfake (NBC News).
[11] European Commission (2021). Proposal for a Regulation of the European Parliament and of the Council Laying Down Harmonised Rules on Artificial Intelligence (Artificial Intelligence Act) and Amending Certain Union Legislative Acts (COM). 206 final, 2021/0106 (COD). Brussels.
[12] Pacchiardi, L., Chan, A.J., Mindermann, S., Moscovitz, I., Pan, A.Y., Gal, Y., Evans, O., and Brauner, J. (2023). How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions. In Proceedings of the 12th International Conference on Learning Representations (ICLR 2024).