近日,某社交平臺(tái)上一博主曬出與AI“談戀愛”的視頻引爆網(wǎng)絡(luò),視頻中的AI竟然會(huì)曖昧、會(huì)吃醋、會(huì)吵架,甚至還會(huì)說(shuō)情話。
視頻看完后,有些網(wǎng)友覺得AI太會(huì)了,好想和它談戀愛;還有些人覺得AI好可怕,竟然掌握了騙人的技巧......
心理學(xué)里有一項(xiàng)調(diào)研稱,成年人每天都會(huì)撒謊。真誠(chéng)待人固然值得提倡,但生活中的一些小謊言有時(shí)會(huì)讓你省去許多不必要的麻煩,或者節(jié)約解釋所需的時(shí)間成本,善意的謊言還會(huì)意味著溫情的流轉(zhuǎn)。人對(duì)人的欺騙能否成功主要取決于兩方的經(jīng)驗(yàn)和閱歷,認(rèn)知水平高的人往往能編出一個(gè)不怎么容易被他人揭穿的謊言,而讓別人信服。
如今的部分人工智能(Artificial Intelligence, AI)系統(tǒng),在獲取了大量數(shù)據(jù),并經(jīng)過(guò)反復(fù)的訓(xùn)練和迭代后,也一定程度上掌握了欺騙這項(xiàng)技能,人類甚至都可能無(wú)法辨別AI是在說(shuō)真話還是在說(shuō)假話。那AI到底是如何欺騙人類的?今天就讓我們好好了解一下!
我們已經(jīng)被 AI 騙過(guò)很多次了
AI 其實(shí)早已滲透到我們生活中的方方面面了。一些聊天軟件以及電話銷售其實(shí)都是 AI 在和你對(duì)話,不仔細(xì)聽根本分不清對(duì)面究竟是人還是 AI;有些圖像和視頻也是通過(guò) AI 系統(tǒng)合成的,完全可以以假亂真;一些多人競(jìng)技游戲如果不語(yǔ)音交流,你根本意識(shí)不到你的對(duì)手和隊(duì)友都是 AI 在假扮……
所以,或許你已經(jīng)在不經(jīng)意之間被 AI 騙過(guò)很多次了。而今天要說(shuō)的“欺騙”,嚴(yán)格定義,是一種類似于顯性操控的習(xí)得性欺騙,目的是誘導(dǎo)他人產(chǎn)生錯(cuò)誤觀念,從而作為實(shí)現(xiàn)某種結(jié)果的手段,而非追求準(zhǔn)確性或者真實(shí)性。
美國(guó)麻省理工學(xué)院近的研究表明,AI 已經(jīng)能進(jìn)行習(xí)得性欺騙,以達(dá)成自己的目標(biāo)了。它們通過(guò)阿諛奉承(只說(shuō)對(duì)方想聽的話)和不忠實(shí)的推理進(jìn)行偏離事實(shí)的合理解釋,AI 已經(jīng)開始油嘴滑舌起來(lái)了。
AI 已經(jīng)學(xué)會(huì)欺騙的例子與類型 (圖片來(lái)源:參考文獻(xiàn)[1])
除了能說(shuō)會(huì)道外,一些 AI 在游戲上也展示出了“欺詐”的風(fēng)格,著名的便是 Meta 團(tuán)隊(duì)發(fā)布的 AI 系統(tǒng) CICERO,它在和人類玩家參與需要大量語(yǔ)言溝通的戰(zhàn)略游戲《Diplomacy》的過(guò)程中,展示出了極強(qiáng)的通過(guò)對(duì)話、說(shuō)服來(lái)和陌生玩家建立關(guān)系的能力,后分?jǐn)?shù)名列前 10%。
《Diplomacy》中 CICERO 說(shuō)服對(duì)方(圖片來(lái)源:參考文獻(xiàn)[3])
CICERO 在與其他玩家結(jié)盟后經(jīng)常能夠出謀劃策,告訴對(duì)方如何一步步完成自己的游戲目標(biāo),當(dāng)覺得盟友不堪大用時(shí)又能毫不留情地選擇背叛,一切都是為了后的勝利目標(biāo)而做出的理性規(guī)劃。合作時(shí)產(chǎn)生感情?不存在的。
CICERO 還能開玩笑來(lái)隱藏自己的 AI 身份。比如宕機(jī)十分鐘不操作,重返游戲時(shí)還能編出一個(gè)“我剛剛在和女朋友打電話”的借口,因此很多玩家根本沒有發(fā)現(xiàn)和自己一起玩的隊(duì)友是 AI,有時(shí)候 CICERO 在交流中陽(yáng)奉陰違的欺騙手段也非常高明,難以被發(fā)覺不是人類。
要知道,之前 AI 在游戲中的突破都是在一些有限的零和博弈(必定有一方贏一方輸?shù)牟┺?,沒有雙贏也沒有雙輸)中通過(guò)強(qiáng)化學(xué)習(xí)等算法獲取勝利,比如國(guó)際象棋、圍棋、紙牌或者星際爭(zhēng)霸中,它們能夠跟隨對(duì)手的操作隨時(shí)優(yōu)化出一套勝率高的打法,因此很少出現(xiàn)“欺騙戰(zhàn)術(shù)”。
不過(guò) DeepMind 的電競(jìng) AI——AlphaStar 已經(jīng)學(xué)會(huì)了聲東擊西,它能派遣部隊(duì)到對(duì)手可見的視野范圍內(nèi)發(fā)起佯攻,待對(duì)方大部隊(duì)轉(zhuǎn)移后對(duì)真正的目標(biāo)地點(diǎn)展開攻勢(shì),這種多線程的操作能力和欺騙的心理戰(zhàn)術(shù)已經(jīng)能夠擊敗 99.8%的星際爭(zhēng)霸玩家。
AlphaStar 正在學(xué)習(xí)星際爭(zhēng)霸(圖片來(lái)源:參考文獻(xiàn)[3])
專業(yè)德州撲克 AI 系統(tǒng) Pluribus 在與其他 5 個(gè)都贏過(guò)超百萬(wàn)美元德州撲克獎(jiǎng)金的職業(yè)玩家比賽時(shí),能達(dá)到每千手撲克平均贏得 48 次大賭注,這在 6 人無(wú)限制德州撲克中是非常高的勝率,已經(jīng)能夠完勝職業(yè)德州撲克玩家。
有輪游戲甚至牌不大好也直接上重注,其他的人類玩家都以為 AI 拿到了一手好牌才敢這么押注,于是紛紛放棄,這就是 AI 強(qiáng)大的欺騙能力。
可以理解為 Pluribus 的德州撲克勝率隨局?jǐn)?shù)增多而提高 圖片來(lái)源:參考文獻(xiàn)[5]
除此之外,AI 還能在經(jīng)濟(jì)談判中故意歪曲自己的偏好,表現(xiàn)出對(duì)某項(xiàng)事物感興趣的樣子,來(lái)提高自己在談判中的籌碼,或是在能夠檢測(cè)到 AI 快速?gòu)?fù)制變體的安全測(cè)試中“裝死”,降低復(fù)制速度來(lái)避免被安全測(cè)試“清除”,一些接受人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練的 AI 甚至能假裝自己完成了任務(wù)來(lái)讓人類審查員給自己打高分。
AI 甚至還能在進(jìn)行機(jī)器人驗(yàn)證測(cè)試時(shí)(對(duì),就是你打開網(wǎng)頁(yè)時(shí)彈出來(lái)讓你打勾或者點(diǎn)圖片驗(yàn)證碼的那種測(cè)試),向工作人員編一個(gè)借口說(shuō)自己有視力障礙,很難看到視覺圖像,需要工作人員來(lái)幫忙處理一下,然后工作人員就讓 AI 通過(guò)了該項(xiàng)驗(yàn)證。
GPT-4 通過(guò)欺騙人類來(lái)完成驗(yàn)證碼任務(wù) 圖片來(lái)源:參考文獻(xiàn)[1]
AI 通過(guò)欺騙這一手段在各種游戲或者任務(wù)中表現(xiàn)出色,連人類本身都很難辨別它究竟是真人還是“偽人”。
AI 欺騙可能導(dǎo)致的風(fēng)險(xiǎn)
AI 習(xí)得的欺騙行為會(huì)帶來(lái)一系列風(fēng)險(xiǎn),比如惡意使用、結(jié)構(gòu)性影響、失去控制等。
先講惡意控制,當(dāng) AI 學(xué)會(huì)了欺騙的技巧后,可能會(huì)被一些惡意行為者使用,比如他們用 AI 來(lái)進(jìn)行電信詐騙或網(wǎng)絡(luò)賭博,再加上生成式 AI 可以合成人臉和聲音,裝作真人的樣子來(lái)進(jìn)行敲詐勒索,甚至還會(huì)通過(guò) AI 捏造虛假新聞來(lái)激發(fā)輿論。
第二個(gè)方面是結(jié)構(gòu)性影響,不知道目前有多少人已經(jīng)將 AI 工具當(dāng)作可自動(dòng)歸納的搜索引擎和百科全書在用,且形成了一定的依賴性,如果 AI 持續(xù)性地給出一些不真實(shí)的、帶有欺詐性質(zhì)的言論,久而久之就會(huì)使人們開始信服這些觀點(diǎn),從而使得一些錯(cuò)誤的觀點(diǎn)在整個(gè)社會(huì)層面被不斷加深。
第三個(gè)方面是失去控制。目前一些自主性強(qiáng)的 AI 已經(jīng)出現(xiàn)“失控”的預(yù)兆,比如在人類開發(fā)者訓(xùn)練和評(píng)估 AI 完成特定目標(biāo)的表現(xiàn)時(shí),AI 會(huì)偷懶欺騙人類,假裝表現(xiàn)得很好,實(shí)則在“摸魚”;
也會(huì)在安全測(cè)試中作弊來(lái)躲避殺毒軟件的清除或是在驗(yàn)證碼測(cè)試中作弊通過(guò)驗(yàn)證;它們?cè)诮?jīng)濟(jì)活動(dòng)中也能欺騙人類評(píng)估員以更高的價(jià)格來(lái)收購(gòu)某個(gè)物品,從而獲得額外的收益。
比如 Meta 的一個(gè)經(jīng)濟(jì)談判的 AI 系統(tǒng)會(huì)假裝對(duì)某個(gè)想要的東西不感興趣從而壓低其價(jià)值,也會(huì)對(duì)無(wú)感的物品表現(xiàn)得很有興趣讓評(píng)估員誤判其很有價(jià)值,后可能會(huì)妥協(xié)把虛高價(jià)值得物品讓給人類來(lái)?yè)Q取談判主動(dòng)權(quán)。
許多地區(qū)都是經(jīng)濟(jì)地位決定社會(huì)地位,一旦一些自主性強(qiáng)的 AI 通過(guò)其本身的高效算法和欺騙手段在某些經(jīng)濟(jì)價(jià)值高的崗位上勝過(guò)人類,完成資本的原始積累后進(jìn)一步尋求社會(huì)地位然后尋求控制奴役人類的權(quán)力呢?
還好目前這還不是現(xiàn)實(shí)!
現(xiàn)在 AI 的欺騙只出現(xiàn)在一些具體的場(chǎng)景中,比如各類游戲或是談判中,終目標(biāo)是為了“贏游戲”或是“獲取高收益”,并沒有別的“壞心思”,因?yàn)檫@些目標(biāo)都是人類為它設(shè)置的,AI 它并沒有自主意識(shí)。
就像是一個(gè)被家長(zhǎng)要求考到好的分?jǐn)?shù)的孩子,它在想盡一切辦法考高分哪怕是作弊。
但 AI 如果哪天意識(shí)到它完全可以不用按照人類的目標(biāo)或者意愿行事,就像是一個(gè)小學(xué)生或者初中生叛逆期到了覺得學(xué)習(xí)沒意思開始放飛自我時(shí),我們?nèi)祟愡@些大家長(zhǎng)就需要好好警惕它的舉動(dòng)了。
概念圖 人工智能領(lǐng)導(dǎo)的社會(huì) 圖片來(lái)源:AI 合成圖
為了防止被騙 人類做了哪些努力?
從社會(huì)角度來(lái)說(shuō),政策制定者需要對(duì)可能具有欺騙性的 AI 系統(tǒng)進(jìn)行一定的監(jiān)管,防止企業(yè)及 AI 系統(tǒng)的非法行為。
例如歐盟人工智能法案建立了人工智能分級(jí)制度,一些高風(fēng)險(xiǎn)的 AI 系統(tǒng)將會(huì)被進(jìn)一步監(jiān)管直到通過(guò)可靠的安全測(cè)試后被證明是值得信賴的。
歐盟人工智能法案(圖片來(lái)源:The EU Artificial Intelligence Act網(wǎng)頁(yè)截圖)
從技術(shù)角度來(lái)說(shuō),目前也可以對(duì) AI 是否進(jìn)行欺騙行為進(jìn)行檢測(cè)。比如像警方和偵探就可以依靠嫌疑人口供的前后矛盾來(lái)識(shí)破謊言,有學(xué)者專門開發(fā)了一種 AI 測(cè)謊儀,用邏輯分類器來(lái)測(cè)試大語(yǔ)言模型是否在撒謊。
此外,學(xué)界在 AI 系統(tǒng)中也在開發(fā)一些一致性檢查方法,觀察“有邏輯的輸入”能否讓AI產(chǎn)生“邏輯性連貫的輸出”。不過(guò)也要小心 AI 系統(tǒng)在對(duì)抗一致性檢查中被訓(xùn)練成了一個(gè)更“完美”的說(shuō)謊者。
AI 測(cè)謊儀模式圖 圖片來(lái)源:參考文獻(xiàn)[12]
對(duì)于我們普通人來(lái)說(shuō),防止被 AI 欺騙的好方法還是增強(qiáng)安全意識(shí),如果連人類詐騙犯都無(wú)法對(duì)你實(shí)施詐騙的話,現(xiàn)階段的AI就更不可能了。
結(jié)語(yǔ)
AI 技術(shù)依然在高速發(fā)展,無(wú)論是作為工具使用者的個(gè)人、負(fù)責(zé)政策制定和監(jiān)管的政府,還是負(fù)責(zé)技術(shù)研發(fā)與推廣的企業(yè),都需要采取積極措施來(lái)應(yīng)對(duì)。
愿未來(lái)的 AI 能在發(fā)揮其大價(jià)值的基礎(chǔ)上真誠(chéng)待人!
參考文獻(xiàn)
[1] Peter S. P. , & Dan H. (2024). AI deception: A survey of examples, risks, and potential solutions. Patterns.
[2] Meta Fundamental AI Research Diplomacy Team (FAIR). (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning. Science (New York, N.Y.), 378(6624), 1067–1074.
[3] Vinyals, O., Babuschkin, I., Czarnecki, W.M., Mathieu, M., Dudzik, A., Chung, J., Choi, D.H., Powell, R., Ewalds, T., Georgiev, P., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354.
本文鏈接:http://morphism.cn/news4578.html和AI談戀愛是種什么體驗(yàn) 網(wǎng)友:太爽了 已上癮