蘋(píng)果Microsoft縮小人工智能模型以改進(jìn)它們
科技公司已經(jīng)陷入了一場(chǎng)構(gòu)建最大的大型語(yǔ)言模型(LLM)的競(jìng)賽中。例如,今年 4 月,Meta 宣布了 4000 億參數(shù)的 Llama 3,它包含的參數(shù)數(shù)量(或決定模型如何響應(yīng)查詢的變量)是 OpenAI 2022 年原始 ChatGPT 模型的兩倍。雖然尚未得到證實(shí),但 GPT-4 估計(jì)有大約 1.8 萬(wàn)億個(gè)參數(shù)。
然而,在過(guò)去的幾個(gè)月里,包括蘋(píng)果和Microsoft在內(nèi)的一些最大的科技公司已經(jīng)推出了小型語(yǔ)言模型(SLM)。這些模型的規(guī)模只是 LLM 對(duì)應(yīng)模型的一小部分,但在許多基準(zhǔn)測(cè)試中,它們可以與它們相媲美,甚至優(yōu)于它們。
6 月 10 日,在蘋(píng)果全球開(kāi)發(fā)者大會(huì)上,該公司宣布了其“Apple Intelligence”模型,該模型具有大約 30 億個(gè)參數(shù)。4 月下旬,Microsoft 發(fā)布了 Phi-3 系列 SLM,其型號(hào)包含 38 億至 140 億個(gè)參數(shù)。
OpenAI 的首席執(zhí)行官 Sam Altman 認(rèn)為,我們正處于巨型模型時(shí)代的末期。
在一系列測(cè)試中,Microsoft最小的模型 Phi-3-mini 可與 OpenAI 的 GPT-3.5(1750 億個(gè)參數(shù))相媲美,后者為 ChatGPT 的免費(fèi)版本提供支持,并優(yōu)于谷歌的 Gemma(70 億個(gè)參數(shù))。這些測(cè)試通過(guò)提示模型有關(guān)數(shù)學(xué)、哲學(xué)、法律等問(wèn)題來(lái)評(píng)估模型對(duì)語(yǔ)言的理解程度。更有趣的是,Microsoft 的 Phi-3-small 擁有 70 億個(gè)參數(shù),在許多基準(zhǔn)測(cè)試中的表現(xiàn)明顯優(yōu)于 GPT-3.5。
在波士頓東北大學(xué)研究語(yǔ)言模型的亞倫·穆勒(Aaron Mueller)對(duì)SLM可以在選定的函數(shù)中與LLM并駕齊驅(qū)并不感到驚訝。他說(shuō),這是因?yàn)榭s放參數(shù)數(shù)量并不是提高模型性能的唯一方法:在更高質(zhì)量的數(shù)據(jù)上訓(xùn)練它也可以產(chǎn)生類似的結(jié)果。
Mueller 說(shuō),Microsoft 的 Phi 模型是在微調(diào)的“教科書(shū)質(zhì)量”數(shù)據(jù)上訓(xùn)練的,這些數(shù)據(jù)具有更一致的風(fēng)格,比 LLM 通常依賴的來(lái)自互聯(lián)網(wǎng)的高度多樣化的文本更容易學(xué)習(xí)。同樣,蘋(píng)果公司只在更豐富、更復(fù)雜的數(shù)據(jù)集上訓(xùn)練其SLM。
SLM 的興起正值 LLM 之間的性能差距正在迅速縮小,科技公司希望偏離標(biāo)準(zhǔn)擴(kuò)展定律并探索其他性能升級(jí)途徑。在 4 月份的一次活動(dòng)中,OpenAI 的首席執(zhí)行官 Sam Altman 表示,他相信我們正處于巨型模型時(shí)代的終結(jié)?!拔覀儠?huì)以其他方式讓它們變得更好?!?br/>由于 SLM 消耗的能量幾乎不如 LLM,因此它們還可以在智能手機(jī)和筆記本電腦等設(shè)備(而不是在云中)本地運(yùn)行,以保護(hù)數(shù)據(jù)隱私并針對(duì)每個(gè)人進(jìn)行個(gè)性化設(shè)置。今年3月,谷歌在該公司的Pixel系列智能手機(jī)中推出了Gemini Nano。SLM 可以匯總錄音,并在沒(méi)有 Internet 連接的情況下對(duì)對(duì)話生成智能回復(fù)。預(yù)計(jì)蘋(píng)果將在今年晚些時(shí)候效仿。
更重要的是,SLM可以使對(duì)語(yǔ)言模型的訪問(wèn)民主化,Mueller說(shuō)。到目前為止,人工智能開(kāi)發(fā)一直集中在幾家有能力部署高端基礎(chǔ)設(shè)施的大公司手中,而其他較小的運(yùn)營(yíng)和實(shí)驗(yàn)室則被迫以高額費(fèi)用獲得許可。
Mueller 說(shuō),由于 SLM 可以很容易地在更實(shí)惠的硬件上進(jìn)行訓(xùn)練,因此對(duì)于那些資源有限但仍然足以滿足特定應(yīng)用的人來(lái)說(shuō),它們更容易獲得。
此外,雖然研究人員一致認(rèn)為,要克服幻覺(jué)還有很多工作要做,但精心策劃的SLM使他們更接近于構(gòu)建負(fù)責(zé)任的人工智能,該人工智能也是可解釋的,這可能使研究人員能夠調(diào)試特定的LLM問(wèn)題,并在源頭上修復(fù)它們。
對(duì)于蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)的計(jì)算機(jī)科學(xué)研究員亞歷克斯·沃斯塔特(Alex Warstadt)這樣的研究人員來(lái)說(shuō),SLM還可以為一個(gè)長(zhǎng)期存在的科學(xué)問(wèn)題提供新的、引人入勝的見(jiàn)解:兒童如何獲得他們的第一語(yǔ)言。Warstadt與包括東北大學(xué)的Mueller在內(nèi)的一組研究人員一起組織了BabyLM挑戰(zhàn)賽,參與者在小數(shù)據(jù)上優(yōu)化語(yǔ)言模型訓(xùn)練。
SLM不僅有可能解開(kāi)人類認(rèn)知的新秘密,而且還有助于改進(jìn)生成式AI。到13歲時(shí),他們已經(jīng)接觸到大約1億個(gè)單詞,并且在語(yǔ)言方面比聊天機(jī)器人更好,只能訪問(wèn)0.01%的數(shù)據(jù)。Warstadt說(shuō),雖然沒(méi)有人知道是什么讓人類如此高效,但“在小規(guī)模上對(duì)高效的類人學(xué)習(xí)進(jìn)行逆向工程,當(dāng)擴(kuò)展到LLM規(guī)模時(shí),可能會(huì)帶來(lái)巨大的改進(jìn)。
評(píng)論