OpenAI如何叩響AGI之門:12場直播秀出哪些新肌肉
當(dāng)?shù)貢r間12月5日-20日,人工智能巨頭OpenAI完成了連續(xù)12個工作日的12場直播,從首日的滿血版o1模型重磅發(fā)布,再到期待許久的Sora Turbo正式發(fā)布,最終又以新一代推理模型o3收官,OpenAI CEO山姆·奧特曼(Sam Altman)還在四場直播中現(xiàn)身站臺,我們似乎離AGI(Artificial General Intelligence,通用人工智能)又更近了一步。
本文引用地址:http://www.ex-cimer.com/article/202412/465746.htmCNBC評價稱,這次連續(xù)12天直播的噱頭是OpenAI將焦點轉(zhuǎn)向其技術(shù)并為其產(chǎn)品造勢的一種方式。這是公司積極發(fā)展計劃的一部分,因為它要與創(chuàng)業(yè)公司和科技巨頭爭奪生成式人工智能市場的更大份額。不過,這次活動在某些方面因其強有力的年終宣傳而受到稱贊,但也有人批評其炒作成分多于實質(zhì)內(nèi)容。
《紐約》雜志評價稱,目前OpenAI正面臨內(nèi)部領(lǐng)導(dǎo)層變動、與微軟的資源緊張關(guān)系,以及對AGI進(jìn)展的爭論,此次活動在展示新產(chǎn)品和功能的同時,也表現(xiàn)出一定的防御性。
讓我們來一起回顧OpenAI叩響AGI之門的這12天。
第1天(當(dāng)?shù)貢r間12月5日):滿血版o1模型和ChatGPT Pro
山姆·奧特曼現(xiàn)身首場直播
正式版o1提升了推理邏輯能力??梢越鉀Q國際數(shù)學(xué)奧林匹克資格考試中83%的問題(GPT-4o在該測試中的得分只有13%)。
響應(yīng)時間得到改善。在演示中,研究人員向o1提了一個問題:列出羅馬帝國在公元2世紀(jì)的統(tǒng)治者,包含其在位時間和成就。o1花了將近18秒來回答,遠(yuǎn)低于4o模型,比o1-preview的速度提高了約60%。
解鎖多模態(tài)圖像識別功能。能夠轉(zhuǎn)錄筆跡、測算相對大小,甚至可以解釋如何將隨機零件裝入更大的機器中。
滿血版o1的響應(yīng)時間得到改善
同時,當(dāng)天還推出了ChatGPT Pro訂閱計劃,每月200美元,提供了無次數(shù)限制使用o1、高級語音模式等模型的權(quán)限。
大部分評論對完整版o1的推出表現(xiàn)得較為積極,不過也有用戶吐槽在缺少高級功能的現(xiàn)在,o1仍然只是一個“預(yù)覽版”,也有用戶對當(dāng)天的更新中沒有免費產(chǎn)品表示了不滿。
對于ChatGPT Pro,有分析指出,這進(jìn)一步證明了大模型的“燒錢”速度,在愈發(fā)激烈的AI競賽中,OpenAI急需通過o1模型來證明自己。
第2天(當(dāng)?shù)貢r間12月6日):強化學(xué)習(xí)微調(diào)(RFT,Reinforcement Fine-Tuning)
用戶能夠利用少量的訓(xùn)練數(shù)據(jù),也能在特定領(lǐng)域快速構(gòu)建專家級模型。
OpenAI的研究員稱,強化微調(diào)并不是單單教模型輸出,它的運作方式是,當(dāng)模型發(fā)現(xiàn)一個問題的時候,研究者給模型空間仔細(xì)思考這個問題,然后評估模型給出的最終解答,運用強化學(xué)習(xí),研究者可以強化產(chǎn)生正確答案的思路,抑制產(chǎn)生錯誤答案的思路。
強化微調(diào)后的o1-mini,在top@1(正確答案在列表第1個位置的概率)、top@5(正確答案在列表前5個位置的概率)和top@max(輸出中包含正確答案的概率)指標(biāo)上,表現(xiàn)都明顯勝過性能更加強大的o1。
強化微調(diào)后的o1-mini與o1性能對比
OpenAI高級副總裁Mark Chen表示,強化微調(diào)能力預(yù)示著小體量模型也能“從高中水平躍升至專家水平”,為企業(yè)和科研單位提供了強大的工具。
第3天(當(dāng)?shù)貢r間12月9日):Sora Turbo正式發(fā)布
OpenAI發(fā)布Sora Turbo
Sora Turbo可以生成1080p、最長20秒的視頻,支持橫屏(16:9)、正方形(1:1)和豎屏(9:16)多種常見比例,并且可以對生成的視頻進(jìn)行Remix(重混):替換、刪除或重構(gòu)視頻中的元素,Re-cut(重新切割):找到最佳的一幀再進(jìn)行延展,循環(huán)剪輯,混合:將兩個視頻進(jìn)行無縫合并剪輯,故事板剪輯:精準(zhǔn)指定每個幀的輸入,風(fēng)格預(yù)設(shè):預(yù)設(shè)創(chuàng)建視頻的風(fēng)格等操作。
Sora的視頻Re-cut功能演示(00:15)
奧特曼表示,最令他興奮的一點是與其他人共同創(chuàng)作的便捷性,感覺就像是一個有趣的新事物。大家可以將Sora看作視頻版的GPT-1。
由Sora生成的視頻(00:10)
根據(jù)網(wǎng)友實測反饋,對物理規(guī)律的理解并不夠好,仍會出現(xiàn)人的手部不自然、文字亂碼、動物跑著跑著就飛起來等情況。
也有外媒指出,Sora發(fā)布未能達(dá)到最初預(yù)期,盡管OpenAI努力推出更快、更實惠的版本,但最終產(chǎn)品缺乏預(yù)期的高級功能。與ChatGPT的早期階段進(jìn)行比較,Sora目前更像視頻編輯軟件,而非突破性的AI。
美聯(lián)社則指出,像Sora這樣的文生視頻AI工具被認(rèn)為是制作新的娛樂和營銷視頻時節(jié)省成本的方式,但也引發(fā)了人們對其在政治和其他領(lǐng)域是否容易冒充真人的擔(dān)憂。OpenAI發(fā)布Sora限制了對人物的描繪,防止了如冒充和深度偽造等濫用情況的出現(xiàn)。
第4天(當(dāng)?shù)貢r間12月10日):Canvas升級
Canvas是OpenAI在今年10月推出的全新功能,OpenAI將其定義為 “使用 ChatGPT 編寫和編碼的全新工作方式”。
Canvas在單獨的窗口中打開,用戶和ChatGPT就項目進(jìn)行協(xié)作,不僅僅是通過對話,而是共同創(chuàng)作和完善想法。
可以協(xié)作編輯文檔,修改標(biāo)題、添加表情符號、調(diào)整文本長度等。
Canvas還支持Python代碼運行和調(diào)試,能直接查看文本和圖形輸出,并且ChatGPT能輔助調(diào)試并提供修改建議,用戶可以快速迭代代碼。
Canvas界面
外媒對Canvas都給予了積極評價,認(rèn)為有效提升了用戶與AI在寫作和編碼方面的協(xié)作體驗,標(biāo)志著AI工具在人機交互領(lǐng)域的又一進(jìn)步。
第5天(當(dāng)?shù)貢r間12月11日):ChatGPT正式集成到蘋果系統(tǒng)
ChatGPT正式接入蘋果系統(tǒng)
ChatGPT正式集成到蘋果系統(tǒng)中,用戶可通過Siri訪問ChatGPT功能,并支持語音控制設(shè)備。
當(dāng)Siri判斷ChatGPT能夠更好地滿足用戶請求時,會自動將請求轉(zhuǎn)發(fā)給OpenAI的系統(tǒng)。用戶操作前需先啟用該功能,以便保障隱私。
蘋果的智能寫作工具引入ChatGPT能力。用戶不僅能優(yōu)化、總結(jié)文檔,提取關(guān)鍵信息,還能從零開始創(chuàng)作全新文檔,甚至結(jié)合DALL-E圖像生成技術(shù)在撰寫過程中融入圖片。
用戶還可以輕觸蘋果的“相機控制”按鈕完成視覺智能相關(guān)任務(wù),例如快速識別眼前物品,或深入了解所看到的內(nèi)容,進(jìn)行翻譯、總結(jié)等。
路透社指出,此次發(fā)布正值圣誕節(jié)假日購物旺季,也是公司一年中銷售利潤最豐厚的時期,或許對于蘋果產(chǎn)品的銷售帶來影響。目前蘋果智能功能的推出速度緩慢,也引發(fā)了一些投資者對iPhone 16銷售周期力度的擔(dān)憂。
第6天(當(dāng)?shù)貢r間12月12日):增強ChatGPT高級語音模式
GPT-4o多模態(tài)能力得到進(jìn)一步加強
GPT-4o增強多模態(tài)能力,推出實時視頻理解功能,還推出限時圣誕老人語音模式。
用戶可直接輸入音頻,理解并直接輸出音頻,可以把手機圖片或短信等展示給ChatGPT,它將解讀并分析這些內(nèi)容,協(xié)助用戶回復(fù)消息、工作等。
第7天(當(dāng)?shù)貢r間12月13日):Projects功能發(fā)布
Project界面
Project(項目)支持用戶將文件、聊天記錄等信息集中到一個“Project”中,與OpenAI競爭對手Anthropic此前推出的Claude新功能有異曲同工之處。
可進(jìn)行文件上傳、設(shè)定個性化指令等操作,也支持將過往聊天記錄添加到項目中,定制ChatGPT的對話。創(chuàng)建新對話時也能自動搜索項目中的其他信息,進(jìn)行更精準(zhǔn)的回答。此外,還支持Canvas界面,能通過ChatGPT Search輕松接入互聯(lián)網(wǎng)。
第8天(當(dāng)?shù)貢r間12月16日):ChatGPT Search開放
ChatGPT Search正式向所有用戶開放,優(yōu)化了搜索速度和準(zhǔn)確性,新增語音搜索功能與地圖集成,全球同步上線,提升實時信息獲取體驗。
以更自然、更會話的方式提問,ChatGPT可以選擇用網(wǎng)絡(luò)信息進(jìn)行回復(fù)。如果深入追問,ChatGPT會考慮您聊天的全部上下文,提供更好的答案。
ChatGPT Search演示對話
新媒體集團VoxMedia總裁評價稱,ChatGPT Search有望更好地突出值得信賴的新聞來源的信息并對其進(jìn)行歸屬,使受眾受益,同時擴大提供優(yōu)質(zhì)新聞的出版商的影響力。
第9天(當(dāng)?shù)貢r間12月17日):o1 API正式版
OpenAI稱o1 API為功能更強大的模型、新的定制工具,可提高性能、靈活性和成本效益的升級。
支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和視覺功能;更新支持低延遲自然對話體驗Realtime API,可進(jìn)行簡單的WebRTC集成,GPT-4o音頻的定價降60%,GPT-4o mini音頻費率降為1/10;支持偏好微調(diào),可根據(jù)用戶和開發(fā)人員的偏好更輕松地定制模型;同時還推出了新的Go和Java SDK測試版。
Realtime API界面
OpenAI給這一天的發(fā)布取名為“為開發(fā)人員準(zhǔn)備的節(jié)日禮物”。
第10天(當(dāng)?shù)貢r間12月18日):推出ChatGPT熱線
只要電話撥通免費號碼就能免費使用ChatGPT15分鐘
發(fā)布1-800-CHAT-GPT服務(wù),支持WhatsApp即時通訊,同時只要電話撥通免費號碼,OpenAI將通過熱線提供15分鐘的免費ChatGPT使用時間。
OpenAI首席產(chǎn)品官凱文·韋爾(Kevin Weil)在表示:“我們才剛剛開始讓每個人都能更方便地使用 ChatGPT。”
有外媒試用了該服務(wù)后報道稱,AI語音非常逼真,但通話時間限制為每月15分鐘,且或許會存在隱私安全問題。
第11天(當(dāng)?shù)貢r間12月19日):ChatGPT桌面版新增跨應(yīng)用訪問功能
ChatGPT桌面版支持跨應(yīng)用訪問
ChatGPT桌面版可讀取其他應(yīng)用程序中的數(shù)據(jù),實現(xiàn)實時協(xié)作。新增了更多編程環(huán)境和生產(chǎn)力工具的支持,可以與 Apple Notes等無縫對接,并支持在使用桌面應(yīng)用時開啟高級語音模式(該功能需要用戶手動為每個應(yīng)用開啟)。
第12天(當(dāng)?shù)貢r間12月20日):o3模型發(fā)布?
OpenAI的12天12場直播收官發(fā)布推理模型o3系列
發(fā)布最新推理模型o3和o3-mini,推理能力大幅提升,支持多模式推理。
據(jù)介紹,在編碼測試SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces競技編程中得分為2727分,相當(dāng)于位列第175名的人類選手,甚至超過了OpenAI的首席科學(xué)家(2655分);在數(shù)學(xué)競賽AIME 2024和專家級科學(xué)問題基準(zhǔn)測試GPQA Diamond中成績都得到明顯提升;而在令很多AI和數(shù)學(xué)家都束手無策的最難數(shù)學(xué)和推理挑戰(zhàn)FrontierMath中,o3解決了25.2%的問題,其他模型均未超過2%。
OpenAI還表示正使用一種新技術(shù)“慎重對齊”(deliberative alignment),來使o3等模型符合其安全原則。
弗朗索瓦·肖萊對于o3不同計算模式的測試結(jié)果
ARC-AGI(通用人工智能抽象與推理語料庫)發(fā)起者、Keras(用Python編寫的高級神經(jīng)網(wǎng)絡(luò)API)之父弗朗索瓦·肖萊(Francois Chollet)認(rèn)為,雖然o3給人留下了深刻印象,是邁向AGI的一個重要里程碑,但并不就是AGI,仍然有相當(dāng)多非常簡單的ARC-AGI-1的任務(wù)是o3無法解決的,同時還有跡象表明ARC-AGI-2對o3來說仍極具挑戰(zhàn)性,“這表明在不涉及專業(yè)知識的情況下,創(chuàng)建對人類來說容易但對人工智能來說不可能的不飽和、有趣的基準(zhǔn)仍然是可行的。當(dāng)創(chuàng)建這樣的測試變得完全不可能時,我們將擁有AGI”。
路透社對此評價稱,o3的發(fā)布表明了OpenAI與谷歌等競爭對手的競爭日趨激烈,雙方都在努力創(chuàng)造能夠解決復(fù)雜問題的更智能模型。谷歌在12月早些時候發(fā)布了第二代人工智能模型Gemini,旨在能夠在人工智能技術(shù)競賽中奪回領(lǐng)先地位。
此外,在OpenAI發(fā)布o(jì)3后,華爾街日報發(fā)表了一篇名為 “人工智能的下一次重大飛躍落后于時間表,而且昂貴得令人發(fā)指 ”的文章,指出OpenAI在其代號為 “獵戶座 ”的新人工智能項目中遇到了諸多問題,項目進(jìn)度落后,而且耗資巨大。文章也指出了對于“數(shù)據(jù)瓶頸”的擔(dān)憂:“目前尚不清楚何時或能否成功,世界上可能沒有足夠的數(shù)據(jù)讓它變得足夠聰明”。
奧特曼則轉(zhuǎn)發(fā)了該篇文章表達(dá)了不滿之情。
第13天的彩蛋(當(dāng)?shù)貢r間12月22日):Plus用戶Sora限時(圣誕假期)無限使用
奧特曼宣布,12月下旬,隨著圣誕假期的到來,人們從工作中解脫出來,OpenAI的算力將不再緊張,因此將在假期內(nèi)為所有Plus用戶提供無限的Sora訪問權(quán)限。
山姆·奧特曼的推文
在OpenAI連續(xù)密集發(fā)布的新品中,不難發(fā)現(xiàn),ChatGPT Pro的推出進(jìn)一步證明了大模型的“燒錢”速度,多模態(tài)、定制化、隱私這些“安全易用”相關(guān)內(nèi)容被多次強調(diào),也體現(xiàn)出OpenAI急需通過更強的模型產(chǎn)品來證明自己。
可以看到的是,AI競賽愈發(fā)激烈。谷歌、Pika等競爭對手也在這12天內(nèi)發(fā)布了各自的新產(chǎn)品進(jìn)行“狙擊”,而OpenAI面臨的最大挑戰(zhàn)莫過于曾經(jīng)的聯(lián)合創(chuàng)始人埃隆·馬斯克(Elon Musk),馬斯克目前旗下?lián)碛辛巳斯ぶ悄艹鮿?chuàng)公司xAI,并準(zhǔn)備在特朗普政府中發(fā)揮重要影響。
評論