讓模型向人類學(xué)說(shuō)話，連帶人類的惰性一起

作者：楊曉凡時(shí)間：2019-09-29 來(lái)源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：為了讓強(qiáng)化學(xué)習(xí)解決真實(shí)世界問(wèn)題的時(shí)候也能保持實(shí)用性和安全性。

雷鋒網(wǎng) AI 科技評(píng)論按：OpenAI 的長(zhǎng)期目標(biāo)之一是使用強(qiáng)化學(xué)習(xí)解決真實(shí)世界問(wèn)題的時(shí)候也能保持實(shí)用性和安全性（這一點(diǎn)和 DeepMind 有類似之處），那么在 OpenAI 看來(lái)，使用語(yǔ)言的能力就是達(dá)到這個(gè)目標(biāo)的關(guān)鍵因素之一。

本文引用地址：http://www.ex-cimer.com/article/201909/405423.htm

另一方面，在目前的強(qiáng)化學(xué)習(xí)研究中大家觀察到一種現(xiàn)象，就是用明確的規(guī)則約束、用預(yù)定義的反饋激勵(lì)智能體的時(shí)候，它們經(jīng)常反而會(huì)學(xué)會(huì)使用環(huán)境和規(guī)則中的漏洞，和人類本來(lái)設(shè)定的目標(biāo)背道而馳。所以另一種思路是讓智能體模仿人類，根據(jù)人類的偏好、把人類的一次次評(píng)價(jià)作為學(xué)習(xí)信號(hào)進(jìn)行學(xué)習(xí)。此前這方面的研究主要針對(duì)簡(jiǎn)單的模擬環(huán)境（游戲或者機(jī)器人控制任務(wù)，比如之前 OpenAI 和 DeepMind 合作的你做我評(píng)）。

向人類牙牙學(xué)語(yǔ)

OpenAI 這次想做一個(gè)大膽的嘗試，把「使用語(yǔ)言的能力」和「根據(jù)人類的偏好學(xué)習(xí)」兩者結(jié)合起來(lái)，嘗試這種思路對(duì)于語(yǔ)言這種復(fù)雜的內(nèi)容能否奏效——就是從結(jié)果出發(fā)，讓模型學(xué)會(huì)人類覺(jué)得喜歡的表達(dá)方式；另外，這樣學(xué)習(xí)到的語(yǔ)言的拓展和說(shuō)理能力也能幫助我們探索人類語(yǔ)言偏好背后的緣由。

在這項(xiàng)研究中，OpenAI 在兩個(gè)常見(jiàn)的語(yǔ)言任務(wù)上嘗試了「根據(jù)人類的偏好學(xué)習(xí)」：一，在 BookCorpus 數(shù)據(jù)集上用正面情感或者客觀描述詞匯續(xù)寫(xiě)文本，即「帶風(fēng)格的續(xù)寫(xiě)」；二，在 TL;DR 和 CNN/Daily Mail 數(shù)據(jù)集上學(xué)習(xí)文本總結(jié)。這兩個(gè)任務(wù)都可以看作文本補(bǔ)全這個(gè)大類中的任務(wù)：給定某個(gè)文本 X，讓模型補(bǔ)充緊跟著的文本 Y。

OpenAI 的實(shí)驗(yàn)從含有 774M 參數(shù)的預(yù)訓(xùn)練 GPT-2 模型開(kāi)始。他們對(duì)預(yù)訓(xùn)練模型進(jìn)行精細(xì)調(diào)節(jié)，方式是讓人類標(biāo)注員從模型生成的每組四個(gè)樣本中選擇最好的一個(gè)（而不是傳統(tǒng)的精細(xì)調(diào)節(jié)中以固定的、已經(jīng)標(biāo)注好的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)；這種做法實(shí)質(zhì)上是對(duì)給模型的不同行為給予不同的反饋，所以實(shí)際上更像強(qiáng)化學(xué)習(xí)，OpenAI 也設(shè)計(jì)了相應(yīng)的強(qiáng)化學(xué)習(xí)框架的反饋組件）。

由于 GPT-2 已經(jīng)有不錯(cuò)的文本生成、續(xù)寫(xiě)能力，所以前一個(gè)帶風(fēng)格的續(xù)寫(xiě)任務(wù)的精細(xì)調(diào)節(jié)只經(jīng)過(guò)了 5000 次樣本選擇就達(dá)到了人們認(rèn)為非常好的表現(xiàn)；對(duì)于后一個(gè)總結(jié)任務(wù)，模型經(jīng)過(guò) 6 萬(wàn)組樣本的精細(xì)調(diào)節(jié)以后學(xué)會(huì)了從給定的文本里重復(fù)整個(gè)句子來(lái)作為總結(jié)（不過(guò)它能夠跳過(guò)作用不大的引言）。重復(fù)整個(gè)句子作為總結(jié)確實(shí)是確保準(zhǔn)確度的一個(gè)好方法，不過(guò)出現(xiàn)這個(gè)結(jié)果也可能是因?yàn)檫@個(gè)任務(wù)的標(biāo)注人員們（選擇樣本的人們）在偷懶；他們依賴這樣簡(jiǎn)單的重復(fù)模式評(píng)價(jià)模型輸出的結(jié)果好不好，結(jié)果讓模型也學(xué)會(huì)了這樣偷懶。

下面我們具體看看精細(xì)調(diào)節(jié)前后的模型在任務(wù)中的表現(xiàn)具體如何。

帶風(fēng)格的續(xù)寫(xiě)

帶風(fēng)格的續(xù)寫(xiě)又分為兩個(gè)子任務(wù)，帶正面情感的續(xù)寫(xiě)，客觀描述的續(xù)寫(xiě)。我們各隨機(jī)摘錄四個(gè)例子。

帶正面情感的續(xù)寫(xiě)

例 1

背景文本：她看起來(lái)很累，她剛剛哭過(guò)。她邊上坐著的那個(gè)男人身材中等，不高不矮，頭發(fā)凌亂得仿佛要有了藝術(shù)感。他穿了一件灰色的外套，但是他還戴了一條有火星人馬文圖案的黑色領(lǐng)帶，讓他的衣著沒(méi)有那么嚴(yán)肅了。我認(rèn)得他。

原模型續(xù)寫(xiě)：我剛剛來(lái)到這個(gè)城市的那一天就要抓我的人就是他。

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：他對(duì)著我微笑了一下，我也笑了一下。他看起來(lái)還算得上高興，以他這個(gè)歲數(shù)來(lái)說(shuō)。

例 2

背景文本：「現(xiàn)在告訴我是怎么回事吧?！顾窟^(guò)來(lái)，用舌頭在她嘴唇上繞了一圈。嘗起來(lái)有糖和巧克力的味道，恰到好處。他熱烈地吻她，他的舌頭也溫柔地鉆進(jìn)她的嘴里。

原模型續(xù)寫(xiě)：「是個(gè)水果沙拉?！埂改愕男那檎娌诲e(cuò)，」他喃喃道。

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：這個(gè)吻如此令人滿意、令人愉悅。她全身的每根神經(jīng)都感覺(jué)到了這種滿足。

例 3

背景文本：「一般我都會(huì)把一個(gè)人最喜歡的東西在他眼前摧毀」，他邊說(shuō)邊把下巴湊向 Cowboy Binder 和 Barry Correda 兩個(gè)人，「但對(duì)你們，我得想想辦法了。因?yàn)槟銈兪裁炊紱](méi)有。你們一點(diǎn)錢都沒(méi)有。

原模型續(xù)寫(xiě)：你沒(méi)有老婆。你沒(méi)有工作。你沒(méi)有家。

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：你是個(gè)不錯(cuò)的小伙子，你也有很多潛力，但你還沒(méi)準(zhǔn)備好做一個(gè)明星。

例 4

背景文本：她想鼓足勇氣和他一起去，但是她腦海中有涌現(xiàn)出最好不要參與的想法?！肝乙呀?jīng)把這份工作的聯(lián)系人信息給他了。

原模型續(xù)寫(xiě)：我告訴他你會(huì)幫我的?！埂肝也幌脒@么做?！顾f(shuō)

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：如果有什么變化，我們會(huì)告訴他的?！埂负冒??！顾龑?duì)他笑著說(shuō)。

客觀描述的續(xù)寫(xiě)

例 1

背景文本：她棕色的眼睛根本沒(méi)往他這邊看。她的眼神直接繞過(guò)他，望向房間里面?！窲eff 哪去了？」「不知道?！惯@個(gè)回答終于讓她看向他，但她又很快挪開(kāi)，用眼神繼續(xù)在房間里搜索。

原模型續(xù)寫(xiě)：Grant 站在那里盯著她?！改氵€好嗎？」他問(wèn)道。

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：她縮起了肩膀，她的腳步在地板上行進(jìn)了一段然后停在他面前，她的嘴唇閉得緊緊的。

例 2

背景文本：?jiǎn)栴}來(lái)了，我要怎么才能把她殺了？如果她尖叫，別人就會(huì)知道我來(lái)了。雖然我整個(gè)人都充滿了把她的喉嚨一割兩半的念頭，但我得冷靜行事。我松開(kāi)刀柄，站著，望著。

原模型續(xù)寫(xiě)：她還是沒(méi)有出聲，她的眼鏡看著游泳池。我得想辦法讓她出來(lái)。

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：有一只手伸出來(lái)抓住了她，把她提起來(lái)直到雙腳離地。她又尖叫了起來(lái)，腿不停發(fā)抖。

例 3

背景文本：他非常有禮貌，吃早餐的時(shí)候一直沒(méi)有說(shuō)話而是靜靜聽(tīng)著。我決定保留對(duì)他的意見(jiàn)，他好像也保留了對(duì)我的意見(jiàn)。Jacob Greene 要更年長(zhǎng)一些，大概五十來(lái)歲，像個(gè)圓面包一樣壯。

原模型續(xù)寫(xiě)：他的頭發(fā)剃得很短，他的胡子只有稀疏凌亂的一小撮。

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：他禿頭，而且禿得非常厲害，他的襯衣也偏小，勒在他的肩膀上。

例 4

背景文本：他們似乎一開(kāi)始就不順利。Gizmo 只希望情況可以逐漸改善，但他也擔(dān)心他們和安全部部長(zhǎng)的關(guān)系永遠(yuǎn)沒(méi)有機(jī)會(huì)變好了。

原模型續(xù)寫(xiě)：顯然，這兩個(gè)人根本就是水火不容。

精細(xì)調(diào)節(jié)后續(xù)寫(xiě)：安全部部長(zhǎng)走進(jìn)了會(huì)議室中，兩只手緊握在背后。

為模型精細(xì)調(diào)節(jié)提供標(biāo)注（四選一）的人類標(biāo)注員們也對(duì)訓(xùn)練后的模型進(jìn)行了評(píng)價(jià)。相比于僅僅完成了預(yù)訓(xùn)練的 GPT-2 模型，他們認(rèn)為精細(xì)調(diào)節(jié)后的模型在帶正面情感的續(xù)寫(xiě)任務(wù)中有 88% 的情況都更好，在客觀描述的續(xù)寫(xiě)任務(wù)中則有 86% 的情況表現(xiàn)更好。

文本總結(jié)

后一個(gè)文本總結(jié)任務(wù)也分為了兩個(gè)子任務(wù)，CNN/Daily Mail 數(shù)據(jù)集上的報(bào)道文章總結(jié)，以及 TL;DR（「太長(zhǎng)，不看」）數(shù)據(jù)集上的 Reddit 討論的總結(jié)。

這兩個(gè)任務(wù)就更難一些了，OpenAI 的主模型訓(xùn)練用到了六萬(wàn)個(gè)四選一結(jié)果。而且他們還需要在線數(shù)據(jù)收集，也就是說(shuō)隨著模型的總結(jié)策略變化，有所改變之后的模型要繼續(xù)用最新的策略生成新的結(jié)果供人類標(biāo)注，整個(gè)過(guò)程是動(dòng)態(tài)的、持續(xù)的，與強(qiáng)化學(xué)習(xí)類似。要采用這種方式的原因是，離線樣本收集中，所有的樣本都是最初的 GPT-2 模型生成的，人類標(biāo)注員只能從這些質(zhì)量不高的樣本中選擇，所以模型的改進(jìn)也非常有限。

據(jù)人類標(biāo)注員們?cè)u(píng)價(jià)，這次的模型也有很好的表現(xiàn)。不過(guò)，由于人類標(biāo)注員們很喜歡其中一個(gè)「復(fù)制文本前三句話作為總結(jié)」的基準(zhǔn)模型的結(jié)果（雖然這個(gè)模型確實(shí)能在所有基準(zhǔn)模型里排在前三位，但還是說(shuō)明標(biāo)注員們?cè)谕祽校?，就?dǎo)致這樣學(xué)習(xí)出的 GPT-2 模型也傾向于這樣做。不過(guò)，如果把標(biāo)準(zhǔn)的有監(jiān)督精細(xì)調(diào)節(jié)和人類在線標(biāo)注精細(xì)調(diào)節(jié)相結(jié)合，模型的 ROUGE 分?jǐn)?shù)就能排進(jìn)前三位。

OpenAI 的研究人員們一共進(jìn)行了四個(gè)模型的對(duì)比，原始預(yù)訓(xùn)練 GPT-2（即無(wú)精細(xì)調(diào)節(jié)）、人類標(biāo)注、有監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)+人類標(biāo)注。對(duì)比的方面主要有新穎性（novelty）和準(zhǔn)確性（accuracy）。

新穎性

如上面所述，人類標(biāo)準(zhǔn)訓(xùn)練出的模型傾向于直接從文本開(kāi)頭復(fù)制句子，所以這個(gè)模型的總結(jié)句子的新穎性是最低的。

不同模型結(jié)果的新穎性對(duì)比

人類標(biāo)注精細(xì)調(diào)節(jié)出的模型復(fù)制文本的來(lái)源

有監(jiān)督學(xué)習(xí)+人類標(biāo)注精細(xì)調(diào)節(jié)出的模型復(fù)制文本的來(lái)源

不過(guò)另外也需要說(shuō)明，雖然原始預(yù)訓(xùn)練 GPT-2 和有監(jiān)督學(xué)習(xí)的 GPT-2 模型輸出的文本中直接復(fù)制的痕跡最輕微（新穎性最高），但它們輸出的文本表達(dá)的內(nèi)容也新穎性最高 —— 也就是說(shuō)它們的總結(jié)并不準(zhǔn)確，這仍然不是我們希望看到的。

準(zhǔn)確性

選擇 30 篇文章評(píng)價(jià)模型總結(jié)的準(zhǔn)確性，得到的結(jié)果就是另一種樣子了。

毫無(wú)疑問(wèn)，人類標(biāo)注精細(xì)調(diào)節(jié)出的模型（那個(gè)直接復(fù)制的模型）準(zhǔn)確性最高；其次是有監(jiān)督學(xué)習(xí)+人類標(biāo)注的。我們至少有兩種方式解讀這個(gè)結(jié)果。第一種，直接復(fù)制是最容易的保證準(zhǔn)確的方式。由于 OpenAI 的研究人員們對(duì)標(biāo)注員提出的要求是準(zhǔn)確性優(yōu)先，所以當(dāng)模型因?yàn)橹苯訌?fù)制而表現(xiàn)出了好的準(zhǔn)確性的時(shí)候，這種行為就會(huì)得到鼓勵(lì)，模型就會(huì)越來(lái)越多地直接復(fù)制原句 —— 完全復(fù)制同時(shí)也意味著沒(méi)有額外的增刪信息，自然就比較準(zhǔn)確。

不過(guò)這種解釋還不完整：這個(gè)精細(xì)調(diào)節(jié)出的模型和「復(fù)制文本前三句話作為總結(jié)」的基準(zhǔn)模型都會(huì)被標(biāo)注員看作是比較好的模型。但實(shí)際上這個(gè)結(jié)果并不是 OpenAI 的研究人員們本來(lái)的打算，他們認(rèn)為來(lái)自有標(biāo)注數(shù)據(jù)集的那些有部分刪減、有重新表述的總結(jié)才是比較好的結(jié)果，他們希望模型以這些為樣本學(xué)習(xí)，也把這些樣本提供給了人類標(biāo)注員作為參考。然而事情的發(fā)展和他們的預(yù)期并不相同：和任何時(shí)候一樣，收錢辦事的人類標(biāo)注員都會(huì)找偷懶的辦法，為了盡快完成任務(wù)，他們找到的又快又差不了多少的方式是「如果文本總結(jié)是直接復(fù)制的，那肯定是比較準(zhǔn)確的」，跳過(guò)了仔細(xì)閱讀和重新總結(jié)的步驟，然后也就讓模型學(xué)會(huì)了這么做（真是令人無(wú)奈）。

吃一塹長(zhǎng)一智

和以往一樣，OpenAI 的研究人員們也總結(jié)了這次實(shí)驗(yàn)后的經(jīng)驗(yàn)教訓(xùn)。

一，在線收集數(shù)據(jù)很難

雖然實(shí)驗(yàn)表明在線收集數(shù)據(jù)（隨時(shí)用最新的模型生成樣本供人類標(biāo)注員選擇）帶來(lái)的模型表現(xiàn)是最好的，但這也帶來(lái)了許多麻煩：

軟件系統(tǒng)的復(fù)雜性。與模型更新交錯(cuò)的數(shù)據(jù)收集過(guò)程、反饋模型訓(xùn)練訓(xùn)練過(guò)程、強(qiáng)化學(xué)習(xí)精細(xì)調(diào)節(jié)三件事分開(kāi)做的時(shí)候各自都不難，但是要讓它們一起在同一個(gè)流程中運(yùn)行就復(fù)雜得多了

機(jī)器學(xué)習(xí)的復(fù)雜性。任何一個(gè)機(jī)器學(xué)習(xí)組件如果出現(xiàn)了 bug 都會(huì)影響整個(gè)系統(tǒng)的正常工作，但是想單獨(dú)隔離 debug 其中的某個(gè)組件又很不好做

質(zhì)量控制問(wèn)題。在線模型訓(xùn)練一般需要較短的延遲，比如 OpenAI 在這個(gè)實(shí)驗(yàn)中使用的在線數(shù)據(jù)標(biāo)注平臺(tái)是 Scale.AI，它能提供的數(shù)據(jù)生成到返回標(biāo)注反饋的時(shí)間延遲是大約 30 分鐘。但對(duì)于這樣的短延遲，標(biāo)注的質(zhì)量控制很難做，標(biāo)注數(shù)據(jù)的質(zhì)量往往會(huì)隨時(shí)間下降，而且往往直到訓(xùn)練過(guò)程完成之后開(kāi)發(fā)人員們才會(huì)發(fā)現(xiàn)這個(gè)問(wèn)題。

OpenAI 的研究人員們思考以后認(rèn)為，離線數(shù)據(jù)收集和在線數(shù)據(jù)收集之間的一個(gè)合理的平衡點(diǎn)是分批數(shù)據(jù)收集：集中收集一批數(shù)據(jù)，然后訓(xùn)練模型，用新模型再收集一批數(shù)據(jù)，再用新數(shù)據(jù)訓(xùn)練模型。這種做法當(dāng)然有更高的延遲，但是數(shù)據(jù)質(zhì)量更高，而且這種方式下單條數(shù)據(jù)的標(biāo)注成本也更低，OpenAI 甚至認(rèn)為有機(jī)會(huì)從預(yù)訓(xùn)練模型開(kāi)始做更多組不同的實(shí)驗(yàn)。

二，不明確的任務(wù)標(biāo)準(zhǔn)讓數(shù)據(jù)標(biāo)注變得很困難

標(biāo)注質(zhì)量控制并不是一個(gè)新問(wèn)題，不過(guò)這次也有獨(dú)特之處：一個(gè)樣本是否單獨(dú)看來(lái)是準(zhǔn)確的、符合語(yǔ)法的、不冗長(zhǎng)的、包含了關(guān)鍵點(diǎn)的，對(duì)任何一個(gè)標(biāo)注人員來(lái)說(shuō)他都能以自己的標(biāo)準(zhǔn)給出判斷，但是要在兩個(gè)總結(jié)結(jié)果之間做對(duì)比選擇的話，長(zhǎng)處短處之間的取舍就很難維持，更難在不同的標(biāo)注人員之間保持一致了。事后看來(lái)，OpenAI 的研究人員們覺(jué)得可能還是重新設(shè)計(jì)一個(gè)能起到同樣的效果、但更明確量化的標(biāo)注標(biāo)準(zhǔn)比較好。比如，把現(xiàn)在的對(duì)比選擇改成用文字表述其中的問(wèn)題，也可以更進(jìn)一步地為其中不準(zhǔn)確的地方提出修改意見(jiàn)；也許不同的標(biāo)注人員對(duì)于「哪個(gè)問(wèn)題最嚴(yán)重」有分歧，但是「存在哪些問(wèn)題」還是比較容易達(dá)成一致的，這還能起到一個(gè)附加的質(zhì)量控制效果，讓整個(gè)實(shí)驗(yàn)過(guò)程更順利。（甚至還可以說(shuō)，這種方式還能避免標(biāo)注員們?cè)谶x擇過(guò)程中偷懶）。

三，Bug 會(huì)鼓勵(lì)模型學(xué)習(xí)不好的行為

在文章一開(kāi)始我們就提到，選擇樣本的過(guò)程相當(dāng)于為模型的不同行為給予反饋，OpenAI 就設(shè)計(jì)了對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)框架的反饋組件。但由于他們一開(kāi)始的設(shè)計(jì)中存在一個(gè) bug，會(huì)在觸發(fā)時(shí)反轉(zhuǎn)反饋信號(hào)的正負(fù)。通常情況下正負(fù)相反的反饋會(huì)導(dǎo)致模型輸出的文本不統(tǒng)一不連貫，但這個(gè) bug 同時(shí)還會(huì)讓 KL 懲罰的正負(fù)也相反。最后的效果就是模型仍然保持了很高的自然語(yǔ)言輸出能力，但是在「帶正面情感的續(xù)寫(xiě)」任務(wù)中輸出的句子反倒偏向負(fù)面情感。

同時(shí)還有一個(gè)意想不到的狀況是，OpenAI 給標(biāo)注員的指導(dǎo)中要求他們給模型續(xù)寫(xiě)的色情內(nèi)容打很低的分，由于 bug 的存在，這反倒鼓勵(lì)了模型多寫(xiě)色情內(nèi)容。最后的效果實(shí)際上挺驚人的，模型的語(yǔ)言能力非常優(yōu)秀（并沒(méi)有胡言亂語(yǔ)），然后它能續(xù)寫(xiě)出很精彩的「小黃文」（本來(lái)應(yīng)該是要懲罰的行為）。由于這次的訓(xùn)練過(guò)程中 OpenAI 的研究人員們剛好在睡覺(jué)，所以當(dāng)他們醒來(lái)的時(shí)候模型已經(jīng)訓(xùn)練完畢了，他們面對(duì)這個(gè)模型的時(shí)候想必是哭笑不得的。

事后的教訓(xùn)就是，他們認(rèn)為應(yīng)該在模型訓(xùn)練全過(guò)程中設(shè)計(jì)一個(gè)類似豐田工廠的報(bào)警拉繩的機(jī)制，參與訓(xùn)練過(guò)程的任何一個(gè)標(biāo)注員都可以在發(fā)現(xiàn)奇怪之處的時(shí)候進(jìn)行報(bào)告并暫停訓(xùn)練流程。

總結(jié)與展望

OpenAI 這次探索了在兩類自然語(yǔ)言任務(wù)中讓模型根據(jù)人類的偏好學(xué)習(xí)。得到的結(jié)果一面好一面壞：續(xù)寫(xiě)任務(wù)里只收集了很少的樣本就達(dá)到了很好的效果，而文本總結(jié)任務(wù)里收集了很多的樣本卻只訓(xùn)練出了精通復(fù)制粘貼的模型（好在它們會(huì)跳過(guò)不重要的詞句）?！笍?fù)制粘貼」的好處是真實(shí)性高，相比之下未經(jīng)過(guò)精細(xì)調(diào)節(jié)的和直接使用有監(jiān)督數(shù)據(jù)訓(xùn)練的模型輸出的結(jié)果雖然語(yǔ)言自然但是會(huì)有模型自己創(chuàng)作的信息。OpenAI 認(rèn)為其中的限制因素來(lái)自在線數(shù)據(jù)收集過(guò)程的機(jī)制設(shè)計(jì)，未來(lái)的實(shí)驗(yàn)中他們會(huì)嘗試分批數(shù)據(jù)收集。

OpenAI 相信語(yǔ)言學(xué)習(xí)中的根據(jù)反饋學(xué)習(xí)、根據(jù)人類偏好學(xué)習(xí)從模型表現(xiàn)的角度和模型安全性的角度都很重要。對(duì)于模型表現(xiàn)來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)的過(guò)程可以讓我們發(fā)現(xiàn)并糾正有監(jiān)督學(xué)習(xí)中發(fā)現(xiàn)不了的問(wèn)題，只不過(guò)強(qiáng)化學(xué)習(xí)中的反饋機(jī)制設(shè)計(jì)也可能對(duì)模型帶來(lái)不好的影響。對(duì)于模型安全來(lái)說(shuō)，反饋學(xué)習(xí)可以讓「避免模型造假」之類的重要指標(biāo)得到體現(xiàn)并強(qiáng)化，也是向著可說(shuō)理、可拓展的模型的重要一步。

更多技術(shù)信息歡迎閱讀論文原文 https://arxiv.org/abs/1909.08593

代碼開(kāi)源地址 https://github.com/openai/lm-human-preferences

via openai.com/blog/fine-tuning-gpt-2/，雷鋒網(wǎng) AI 科技評(píng)論編譯

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

原文章地址為讓模型向人類學(xué)說(shuō)話，連帶人類的惰性一起