聯(lián)邦政府任命“AI末日論者”負責美國AI安全研究所
美國AI安全研究所——隸屬于國家標準技術(shù)研究所(NIST)——在經(jīng)過多方猜測后,終于宣布了其領(lǐng)導(dǎo)團隊。
被任命為AI安全負責人的是Paul Christiano,一位前OpenAI研究員,他開創(chuàng)了一種基礎(chǔ)AI安全技術(shù),稱為從人類反饋中學習的強化學習(RLHF),但他也因預(yù)測“AI發(fā)展有50%的機會以‘末日’結(jié)束”而聞名。盡管Christiano的研究背景令人印象深刻,但一些人擔心通過任命所謂的“AI末日論者”,NIST可能會鼓勵許多批評者視為純粹猜測的非科學思維。
有傳言稱,NIST工作人員反對此次任命。VentureBeat上個月發(fā)表的一篇有爭議的報道引用了兩位匿名消息人士的說法,聲稱由于Christiano的所謂“AI末日論”觀點,NIST工作人員“發(fā)生了動蕩”。VentureBeat報道稱,一些工作人員和科學家聲稱威脅要辭職,擔心“Christiano的關(guān)聯(lián)”與有效利他主義和“長期主義可能會損害該機構(gòu)的客觀性和完整性?!?/p>
NIST的使命根植于推動科學發(fā)展,通過推動測量科學、標準和技術(shù)的發(fā)展,促進美國創(chuàng)新和工業(yè)競爭力的提升,從而增強經(jīng)濟安全并改善我們的生活質(zhì)量。有效利他主義者相信“利用證據(jù)和理性來找出如何盡可能多地造福他人”,長期主義者則認為“我們應(yīng)該更多地保護未來幾代人的利益”,這兩者都更具主觀性和意見性。
在Bankless播客上,Christiano去年分享了他的觀點,稱“AI接管”的機會大約有“10-20%”,這將導(dǎo)致人類死亡,而“總體而言,一旦你擁有人類水平的AI系統(tǒng),你可能會更接近50-50的‘末日’機會?!?/p>
“我們死亡的最可能方式不是AI突然出現(xiàn)并殺死所有人,而是我們已經(jīng)在各處部署了大量的AI……[而且]如果不幸,所有這些AI系統(tǒng)都試圖殺死我們,它們肯定會殺死我們,”Christiano說道。
所謂“AI末日論者”的批評者警告稱,將注意力集中在任何潛在夸大的對假想的殺手AI系統(tǒng)或存在主義AI風險的討論上,可能會阻止人類將注意力集中在當前AI的實際危害上,包括環(huán)境、隱私、道德和偏見問題。華盛頓大學計算語言學教授Emily Bender曾警告稱,由于“怪異的AI末日論話語”被包含在喬·拜登的AI行政命令中,“NIST已被指示擔心這些幻想般的情景”,而“這就是導(dǎo)致Christiano被任命的根本問題”。
Bender告訴Ars說:“我認為NIST可能有機會將其研究引向不同的方向,”“但遺憾的是他們沒有。”
作為AI安全負責人,Christiano似乎將不得不監(jiān)測當前和潛在的風險。美國商務(wù)部的新聞稿稱,他將“設(shè)計和執(zhí)行前沿AI模型的測試,重點關(guān)注具有國家安全關(guān)切的模型評估”,引導(dǎo)評估流程,并實施“風險緩解措施,以增強前沿模型的安全性和安全性”。
Christiano在減輕AI風險方面有豐富的經(jīng)驗。他離開OpenAI創(chuàng)立了Alignment Research Center(ARC),美國商務(wù)部將其描述為“一個非營利性研究機構(gòu),旨在通過推進理論研究,將未來的機器學習系統(tǒng)與人類利益保持一致。” ARC的使命之一是測試AI系統(tǒng)是否在演變?yōu)椴倏v或欺騙人類,ARC的網(wǎng)站上寫道。ARC還進行研究,幫助AI系統(tǒng)“優(yōu)雅地擴展”。
由于Christiano的研究背景,一些人認為他是領(lǐng)導(dǎo)安全研究所的不錯選擇,比如美國科學家聯(lián)合會新興技術(shù)與國家安全副主任Divyansh Kaushik。在X(前稱Twitter)上,Kaushik寫道,安全研究所的目標是從AI中減輕化學、生物、放射和核風險,而Christiano“非常合格”于測試這些AI模型。不過,Kaushik警告說,“如果有關(guān)NIST科學家因Christiano的任命而威脅要辭職”的消息屬實,“那顯然將是嚴重的事情。”
美國商務(wù)部不對其人員進行評論,因此目前尚不清楚是否有人因為Christiano的任命而辭職或計劃辭職。自宣布后,Ars并未找到任何NIST工作人員公開宣布他們可能考慮辭職的公告。
除了Christiano之外,安全研究所的領(lǐng)導(dǎo)團隊還包括Mara Quintero Campbell,一位在COVID應(yīng)對和CHIPS法案實施方面領(lǐng)導(dǎo)項目的商務(wù)部官員,擔任代理首席運營官和首席幕僚。Adam Russell,一位專注于人工智能團隊合作、預(yù)測和集體智能的專家,將擔任首席視覺官。Rob Reich,一位來自斯坦福大學的以人為本的AI專家,將擔任高級顧問。而Mark Latonero,一位曾擔任白宮全球AI政策專家,幫助起草了拜登的AI行政命令,將擔任國際事務(wù)負責人。
美國商務(wù)部長吉娜·雷蒙多在新聞稿中表示:“為了保護我們在負責任的AI領(lǐng)域的全球領(lǐng)導(dǎo)地位,并確保我們能夠履行我們減輕AI風險并利用其好處的使命,我們需要國家能提供的頂級人才?!薄斑@正是我們選擇這些在其領(lǐng)域最優(yōu)秀的人士加入美國AI安全研究所執(zhí)行領(lǐng)導(dǎo)團隊的原因?!?/p>
VentureBeat的報道聲稱,雷蒙多直接任命了Christiano。
Bender告訴Ars說,NIST在研究“政府和非政府機構(gòu)如何使用自動化技術(shù)”的過程中包含“末日情景”沒有任何優(yōu)勢。
Bender告訴Ars說:“AI安全敘事的根本問題在于它將人從圖景中剔除了,”“但我們需要擔心的是人們?nèi)绾卫眉夹g(shù),而不是技術(shù)自主地做些什么?!?/p>
Christiano解釋了他對AI末日的看法Ars無法立即聯(lián)系到Christiano評論,但他已經(jīng)解釋了他對AI末日和負責任的AI擴展的看法。
在LessWrong上發(fā)布的一篇博客中,他解釋了導(dǎo)致人們對他的AI末日看法產(chǎn)生困惑的兩個區(qū)別。
第一個區(qū)別“是死亡(‘滅絕風險’)和有一個糟糕的未來(‘存在風險’)之間的區(qū)別”,澄清說他認為“在沒有滅絕的情況下存在糟糕的未來的機會很大,例如,AI系統(tǒng)接管但并不殺死每個人?!币粋€“糟糕的未來”的版本將是“世界由AI系統(tǒng)統(tǒng)治,而我們無法建造與我們的價值觀相符或關(guān)心幫助我們的AI系統(tǒng)”,Christiano說,“這可能甚至不是一個客觀糟糕的未來。”
“但這確實意味著人類放棄了對自己命運的控制,我認為從期望值來看,這是相當糟糕的,”Christiano寫道。
另一個區(qū)別是“現(xiàn)在死亡和以后死亡之間”,Christiano說,澄清說死亡以后可能并不完全“來自AI”,而是來自AI進步之后的環(huán)境。
“我認為我們不會因為AI而死亡,但是AI和其他技術(shù)可能會加速世界變化的速度,所以在不久的將來有些其他事物會殺死我們,”Christiano寫道。
在那篇文章中,Christiano詳細說明了他估計的AI接管(22%)的可能性,即“在建立強大的AI使勞動變得過時后的10年內(nèi),大多數(shù)”人會死亡(20%),以及“在建立強大的AI后的10年內(nèi),人類以某種方式已經(jīng)不可逆地破壞了我們的未來”(46%)。
他澄清說,這些概率僅用于“量化和傳達我相信的東西,而不是聲稱我有某種校準模型來產(chǎn)生這些數(shù)字。”他說這些數(shù)字基本上是猜測,經(jīng)常因為他收到新信息而改變。
“只有一個這些猜測甚至與我的日常工作相關(guān)(15%的AI系統(tǒng)由人類構(gòu)建將接管的概率),”Christiano寫道?!皩τ谄渌麊栴},我只是一個稍微經(jīng)過一點思考的人。我不建議依靠15%,但絕對不建議依靠其他任何東西。”
在2023年,Christiano的非營利組織ARC幫助測試了OpenAI的GPT-4是否會接管世界,并最終得出結(jié)論,即GPT-4并不構(gòu)成滅絕風險,因為它在“自主復(fù)制方面”“無效”。由于ARC擔心AI系統(tǒng)操縱人類,Christiano曾在LessWrong上發(fā)表評論,稱增強功能研究在AI系統(tǒng)變得更加智能時變得更加重要。這表明他在評估系統(tǒng)方面的工作將是一項關(guān)鍵工作。
“在這一點上,似乎我們面臨的風險更大,來自低估模型能力并走向危險,而不是在評估過程中造成事故,”Christiano寫道?!叭绻覀冃⌒墓芾盹L險,我認為我們可以使這種比率非常極端,盡管當然,這需要我們真正做這項工作。”
Christiano對暫停AI發(fā)展的看法Christiano并不是唯一一個警告AI存在的滅絕風險的人。在過去一年中,從OpenAI高管到28個國家的領(lǐng)導(dǎo)人,所有人都對潛在的“災(zāi)難性”AI危害發(fā)出警告。但是像Meta首席AI科學家Yann LeCun這樣的批評者則反駁說,圍繞滅絕風險的整個辯論是“嚴重夸大和非常過早的”。
在AI安全研究所,Christiano將有機會在建造、測試和投資于AI的人聲稱AI發(fā)展的速度正在超越風險評估的時候,減輕實際的AI風險。如果埃隆·馬斯克所說的有一定道理的話,即AI“可能會在明年底之前比任何一個人類都聰明?!?/p>
為了減少意外,Christiano的團隊將需要完善風險評估,因為他預(yù)計模型將變得更加智能,并且微調(diào)它們將變得更加危險。去年十月,在有效利他主義論壇上,Christiano寫道,需要法規(guī)來約束AI公司。
“足夠好的負責任的擴展政策(RSPs)可以通過”為關(guān)鍵保護措施創(chuàng)建緊迫性并增加“如果這些措施不能迅速實施,暫停[AI發(fā)展]的概率”,從而顯著減少風險,Christiano解釋道。
即使有關(guān)擴展的法規(guī),Christiano警告說,“快速AI發(fā)展的風險非常大,即使非常好的RSPs也不會完全消除這種風險。”
盡管一些擔心AI存在滅絕風險的批評者在過去一年中呼吁暫停AI前沿的發(fā)展,直到保護措施得到改進,但Christiano辯稱,只有全球統(tǒng)一的暫停才會沒有顯著的成本。
目前,Christiano表示不需要暫停,因為“當前的風險水平低到足以證明,如果公司或國家有一個足夠好的計劃來檢測和應(yīng)對風險的增加,他們可以繼續(xù)發(fā)展AI?!?/p>
評論