AI 都會和人類談判了?Meta AI 最新研究登上 Science,LeCun 稱里程碑式成果
AI 都學會和人類談判了?還能成功說服人類聽它安排?
本文引用地址:http://www.ex-cimer.com/article/202211/440783.htm話術(shù)一流到人類完全分辨不出它是 AI。
這就是 Meta AI 的最新成果 ——AI 模型 CICERO(西塞羅),現(xiàn)已登上 Science。
嗯,就是和古羅馬著名政治家、演說家西塞羅同名。
研究人員讓這個 AI 西塞羅隱藏身份加入到一個外交游戲里,82 名人類玩家在 40 場游戲中,都沒有懷疑過它其實是個 AI。
而且還戰(zhàn)績斐然,全程平均分達到 25.8%,是人類玩家平均分的 2 倍,并且最終排名為前 10%。
成果一經(jīng)發(fā)布,就在網(wǎng)上引發(fā)熱議。
有人評價:這意味著 AI 在最具人類特點的游戲里戰(zhàn)勝人類,超乎想象…
LeCun 都稱它為:里程碑式的研究!
目前,模型代碼已在 GitHub 上開源。
真有 AI 縱橫家那感覺了
AI 嘮嗑其實一直都引人詬病,更別提外交這種需要超高話術(shù)的場景了。
它需要理解對方的語言、動機,制定自己的話術(shù)策略,并調(diào)整好措辭。
有時甚至還需要“耍心眼”,故意說一些假話給對方設(shè)套。
這種超高難度任務,怎么挑戰(zhàn)?
俗話說一口吃不成胖子。
Meta AI 就想到了先從游戲場景來切入(畢竟 AI 在玩游戲上是老手了)。
不過和之前棋類或競技游戲不同,外交游戲并沒有那么強的規(guī)則性,運籌帷幄、隨機應變的環(huán)節(jié)不少。
實驗中用到的游戲是 webDiplomacy(以下用“外交游戲”指代它)。
這款游戲的背景是 1901 年的歐洲,7 位玩家每人控制一個大國,通過相互合作、協(xié)商,盡可能地占領(lǐng)更多領(lǐng)土。
西塞羅的核心是由一個對話引擎和一個戰(zhàn)略推理引擎共同驅(qū)動的。
簡單理解,這里的對話引擎和 GPT-3、LaMDA 類似,戰(zhàn)略推理引擎和 AlphaGo 相近。
用到的對話模型,是從一個類似于 2.7 億參數(shù)的 BART 模型訓練而來。
BART 吸收了 GPT 和 BERT 各自的特點,它比 BERT 更適合文本生成的場景,還能雙向理解上下文語境信息。
具體來看,研究人員先從互聯(lián)網(wǎng)上獲取文本訓練對話模型,然后再在實際的外交游戲場景中微調(diào)。
戰(zhàn)略推理引擎用到的是一個規(guī)劃算法(planning algorithm)。
該算法能夠基于現(xiàn)況計算出一個最優(yōu)選擇。再通過強化學習訓練,懲罰模型做出的“不像人”的策略,以此讓模型給出的策略更合理。
畢竟,在外交游戲中是和人打交道,讓 AI 更像人也是最基本的要求之一。
而且強化學習這種迭代式的訓練,可以不斷改進 AI 做出的策略預測。比傳統(tǒng)方法中常用的監(jiān)督學習(即打標簽的方式)效果更好。
實操中,西塞羅首先會根據(jù)目前為止的游戲狀態(tài)和對話,對每個人的會采取的動作做一個初步預判。
接下來,在不斷地協(xié)商過程中,它都會不斷地改進預測,然后使用這些預測為自己和合作伙伴設(shè)置一個共同的目標。
其次,它會根據(jù)局勢狀態(tài)、對話及其目標,從對話模型中生成幾個候選消息,使用分類器等過濾機制過濾掉無意義的,生成最終的高質(zhì)量輸出文本。
例如,以下圖為例,在這一局中,西塞羅扮演“奧地利”。
當玩家“意大利”向它詢問意見,自己是否應該攻擊土耳其時,西塞羅會根據(jù)場上局勢 —— 土耳其正在攻擊俄羅斯,判斷出這是一個兩面夾擊的好機會,然后勸意大利跟進攻打土耳其。
這一步既建立了與意大利的伙伴關(guān)系,又消滅了一個潛在的對手。
不僅如此,談判也是西塞羅的拿手好戲。
這次西塞羅扮演的是“德國”,與玩家“法國”一直在交戰(zhàn)。這時法國南部同時受到了意大利的攻擊,于是向西塞羅請求和談。
西塞羅則趁機獅子大開口,要求法國歸還侵略的領(lǐng)土,并保證不攻擊荷蘭。雙方在討價還價中順利達成了協(xié)議。
就像上述展示的例子一樣,兩個月間,西塞羅共參與了 40 場外交游戲,與 82 名人類參賽者交鋒。
在每場比賽中,西塞羅都會發(fā)送和接收平均 130 條消息。
其游戲水平甚至強過了人類:平均得分是人類玩家的 2 倍以上,甚至在玩過一場以上游戲的參與者中也能排到前 10% 。
網(wǎng)友:雖然它表現(xiàn)好但我很害怕
看完西塞羅在外交上的精彩表現(xiàn),有網(wǎng)友感慨 AI 的發(fā)展速度:
Deep Blue 擊敗了卡斯帕羅夫,Watson 擊敗了智力競賽的兩位人類冠軍,現(xiàn)在輪到 Meta AI 敲響馬基雅維利(近代政治思想奠基人)的大門了。
還有人表示,這難道是邁向通識語言大模型的第一步嗎?
LeCun 給出了肯定回復:
至少語言是基于事實的。
不過由于這款外交游戲以爾虞我詐著稱,不少人也對此表示擔憂:
這是直接鼓勵研究人員開發(fā)更多擅長騙人的模型。
有網(wǎng)友就表示,玩這游戲甚至會失去朋友哦。
而從 AI 西塞羅的戰(zhàn)績來看,它可以迷惑人類玩家,并且說服人類聽從它的策略。
所以有人就表示,這不是 AI 控制人類的選擇乃至生活?
不過 Meta AI 表示,AI 西塞羅不是全沒有失誤的。
并且游戲中也還有很多需要和人類協(xié)作的環(huán)節(jié),西塞羅的表現(xiàn)同樣很好。
目前,它還只被放在游戲場景中測試過,并沒有嘗試過在開放語境下和人類談判。
參考鏈接:
[1]https://www.science.org/doi/10.1126/science.ade9097
[2]https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/
[3]https://twitter.com/ylecun/status/1595081004108206088
評論