浪潮之下的大語言模型以及我國未來大語言模型的發(fā)展
不知不覺之間,我們已經(jīng)距離ChatGPT引爆全網(wǎng)的爆發(fā)點已經(jīng)過去了一年多。隨著OpenAI證明了LLM(大語言模型)AI行得通之后,目前市場上的各類LLM 已經(jīng)如雨后春筍般爭搶涌出。不言自明,現(xiàn)在的大模型已經(jīng)成為AI領(lǐng)域的一個重要趨勢。據(jù)數(shù)據(jù),2023年,我國AI大模型行業(yè)市場規(guī)模為147億元,預(yù)計2024年將增長至216億元。隨著技術(shù)的不斷進步和應(yīng)用場景的拓展,相信AI大模型將在未來發(fā)揮更加重要的作用,推動中國人工智能產(chǎn)業(yè)的持續(xù)發(fā)展和創(chuàng)新。本篇文章,就重點針對我國以及全球的大語言模型的實力和其市場應(yīng)用情況做一個相對全面的梳理和分析,讓我們一起撥云見日,看清這百家爭鳴的大語言模型AI市場。
本文引用地址:http://www.ex-cimer.com/article/202405/458500.htm大語言模型,是一種基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,能夠生成自然語言文本,深入理解文本含義,并處理各種自然語言任務(wù),如文本摘要、問答、翻譯等。它的底層使用多個轉(zhuǎn)換器模型,這些轉(zhuǎn)換器由具有自注意力功能的編碼器和解碼器組成,可以從一系列文本中提取含義,并理解其中的單詞和短語之間的關(guān)系。目前被廣泛應(yīng)用與AI 機械學(xué)習(xí)領(lǐng)域,就從目前的使用效果上來看,是智能水平最高的AI 產(chǎn)品之一。
1 浪潮之下,國內(nèi)外大語言模型的發(fā)展現(xiàn)狀
我們縱觀全球,目前重要的大語言模型產(chǎn)品有:OpenAI的ChatGPT、百度的文心一言、阿里巴巴Qwen-Max、谷歌的PaLM 2 AI 模型、Meta 的LLaMA模型等等。我國大語言模型從數(shù)量上看,百家爭鳴,但是對于大語言模型的性能上來看,我國整體上成追趕態(tài)勢。
根據(jù)上海市人工智能實驗室發(fā)布了2023 年度大模型評測榜單。經(jīng)過大模型開源開放評測體系“司南”(OpenCompass2.0)對國內(nèi)外主流大模型的全面評測診斷,中英雙語評測前十名揭曉:OpenAI 研發(fā)的GPT-4Turbo位居第一,排名第二至第五的依次是:智譜清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0、阿里巴巴Qwen-72B-Chat。
在中英雙語評測中,OpenAI的GPT-4 Turbo以顯著優(yōu)勢位居榜首。這一結(jié)果再次證明了OpenAI在大模型技術(shù)領(lǐng)域的領(lǐng)先地位,也反映出其在復(fù)雜推理和綜合能力方面的卓越表現(xiàn);而在詳細分析評測結(jié)果時,我們發(fā)現(xiàn)國內(nèi)大模型在中文場景下展現(xiàn)出了獨特優(yōu)勢。這得益于國內(nèi)企業(yè)在中文語言理解、中文知識和中文創(chuàng)作等方面的深厚積累。在一些維度上,國內(nèi)商業(yè)模型甚至實現(xiàn)了對GPT-4 Turbo 的超越,這充分展示了國內(nèi)大模型在特定領(lǐng)域的競爭力。
如果說,從國內(nèi)機構(gòu)的測試結(jié)果來看,我國的大語言模型的性能似乎“還可以”,但是在剔除了中文優(yōu)勢等特定的優(yōu)勢來綜合評價之時,我國的大語言模型對比其他國外的模型,特別是來自美國的同類產(chǎn)品之時,其劣勢就十分明顯了。
在人工智能和自然語言處理領(lǐng)域,SuperCLUE 基準測試是衡量模型性能的重要指標之一。在近期的測試之中,目前世界上最好的大語言模型毫無爭議的是來自O(shè)penAI的GPT4,其以高達87.08 的得分遙遙領(lǐng)先,充分展示了其在自然語言處理領(lǐng)域的強大實力。Claude2和GPT3.5也分別以72.46和71.12的得分緊隨其后,展現(xiàn)出了不俗的性能。
相比之下, 國內(nèi)代表模型在SuperCLUE基準測試中的得分雖然普遍較低,但也取得了一定的成績。vivoLM和Moonshot分別以70.74和70.42的得分位列國內(nèi)模型前列,與其他國內(nèi)模型相比表現(xiàn)出了一定的優(yōu)勢。文心一言4.0、SenseChat3.0等模型也展現(xiàn)出了良好的性能,但與國外模型相比仍有一定的差距。
面對目前的不小差距,筆者借用上海人工智能實驗室領(lǐng)軍科學(xué)家林達華教授的話來說:“大模型評測的最大意義并不在于榜單名次,而是通過評測結(jié)果來指導(dǎo)改進工作。”那么接下來我們就來進一步看看,ChatGPT為什么行?
2 ChatGPT為什么能如此成功?
首先,我們要承認,ChatGPT是一次在海量資源加持的前提之下,團隊保持初心,并且嚴格按照長期主義思想指導(dǎo)的一次成功。自2015年底OpenAI成立,到2018年初代GPT誕生,再到2022年底GPT-3走向商業(yè)化,OpenAI的幾位創(chuàng)始人,其初心十分明確,他們以造福全人類為宗旨,希望能夠研發(fā)出能夠安全可控,人類可以放心使用的高水平AI技術(shù)。在這一初心的指引下,OpenAl創(chuàng)始人兼CTO不斷用第一性原理的思維定位研發(fā)方向,走出技術(shù)瓶頸,才讓OpenAI得以成為今天通用AI領(lǐng)域的重要力量。
站在技術(shù)的角度上來說,OpenAI團隊基于Transformer網(wǎng)絡(luò),使得機器人能夠更好地模擬人類的語言行為,從而提高了交流的流暢性和準確性。ChatGPT的深度學(xué)習(xí)模型經(jīng)過大規(guī)模的預(yù)訓(xùn)練,學(xué)習(xí)到了大量的語言模式和語法規(guī)則,我們以GPT-3為例,其訓(xùn)練數(shù)據(jù)達45TB,相當(dāng)于閱讀了數(shù)千萬本文學(xué)巨著,再加上近乎“無限”的硬件平臺支持,據(jù)國盛證券的測算,在訓(xùn)練階段,微軟Azure就為GPT-3準備的訓(xùn)練研發(fā)平臺在2020年時共部署英偉達V100超過1萬塊,置換為A100,則所需GPU算力約為3000-5000塊英偉達A100;而在正式投入運營之時,支持每日2500 萬人訪問量的巨大流量,在考慮算法優(yōu)化后保守估計在1 萬片A100 左右。巨大的資金支持+ 最好的硬件支持+ 優(yōu)秀的人才團隊,這一切造就了如今ChatGPT 的成功,讓它成了AI 領(lǐng)域的“iPhone 時刻”。
而站在市場化的角度來說,ChatGPT的成功也在于其廣泛的應(yīng)用場景。無論是作為智能客服解決用戶問題,還是作為個人助手幫助用戶管理日程,ChatGPT都能提供精準、個性化的服務(wù)。在醫(yī)療、教育、電商、旅游等多個行業(yè),ChatGPT 也展現(xiàn)出了巨大的應(yīng)用價值。例如,在醫(yī)療領(lǐng)域,ChatGPT能夠幫助醫(yī)生進行疾病診斷,提供治療建議,提高治療效果;在教育領(lǐng)域,它可以作為學(xué)習(xí)輔助工具,為學(xué)生提供答疑解惑,提高學(xué)習(xí)效率。這些廣泛的應(yīng)用場景,不僅使得ChatGPT 得到了市場的廣泛認可,也為其帶來了持續(xù)的發(fā)展動力。
根據(jù)國外Business.com 網(wǎng)站所發(fā)起的一次“您在工作中如何使用 chatGPT ?”調(diào)查顯示,ChatGPT 在工作之中幾乎被廣泛的應(yīng)用,書面溝通是ChatGPT 在工作場所中最流行的用途,占據(jù)了23% 的比例;創(chuàng)意幫助、研究和數(shù)據(jù)分析、內(nèi)容創(chuàng)作和行政支持也是較為常見的使用場景,分別占據(jù)了18%、17%、13% 和13% 的比例。這些統(tǒng)計足見大語言模型無限的發(fā)展空間和潛力。
而另一項調(diào)查之中,也顯示了大部分美國人對于ChatGPT 持十分樂于接受的積極態(tài)度。參加這項調(diào)查的人群一共1000 人,平均年齡37 歲,年收入中位數(shù)在70000~79999 美元之間。45% 的受訪者是女性,55%是男性。其中白人占75%,7% 亞裔,9% 黑人,剩下的是其他種族背景。
使用ChatGPT 是一種懶惰的行為:14% 的人這么認為,73% 的人不這么認為;
工作中使用ChatGPT 是一種欺騙,并不是真正工作:16% 的人這么認為,71% 的人反對這個觀點;
在工作中使用ChatGPT 將帶來低質(zhì)量的工作績效:13% 的人這么認為,60% 的人反對這個觀點:ChatGPT 搶走了老實人的工作:19% 的人這么認為,58% 的人反對這個觀點;
使用ChatGPT 的工作者更聰明地工作,而不是更辛苦地工作:74% 的人認可這個觀點,10% 的人反對這個觀點。
我們最后總結(jié)一下,ChatGPT 的成功是技術(shù)、人才與應(yīng)用共同推動的結(jié)果。它不僅在技術(shù)上實現(xiàn)了重大突破,也在應(yīng)用上展現(xiàn)出了巨大的潛力。而OpenAI 團隊也即使抓住了機會,就目前ChatGPT 的商業(yè)模式來看,其已經(jīng)清晰地確定了API、訂閱制和戰(zhàn)略合作(如嵌入微軟Bing、Office 等軟件)三種營收方式,并在用戶數(shù)據(jù)積累、產(chǎn)品布局和生態(tài)建設(shè)方面取得了顯著領(lǐng)先。
3 我國大語言模型能否追趕?
上文提到,我國國內(nèi)目前存在著許許多多的大語言模型,呈現(xiàn)百花齊放的態(tài)勢。百度首發(fā)了“文心一言”,360、阿里和商湯等公司也相繼發(fā)布了自己的大語言模型,如360 的大語言模型、阿里的“通義千問”和商湯的“商量”。盡管在對話和文本生成的直觀體驗上,ChatGPT表現(xiàn)出色, 但Google等國外大廠克隆ChatGPT的技術(shù)壁壘并不高。目前,它們的暫時落后主要源于公司戰(zhàn)略和技術(shù)理念的差異,選擇了不同的技術(shù)路線。然而,隨著各家在技術(shù)探索和新方法應(yīng)用上的不斷進步,對GPT 系列模型實現(xiàn)趕超的可能性仍然存在。對于百度等國內(nèi)大廠來說,數(shù)據(jù)、算力和工程化能力等方面的不足是當(dāng)前的短板,因此在短期內(nèi)難以趕超國外領(lǐng)先的大模型,更多地扮演著跟隨者的角色。但從長遠來看,國內(nèi)AI 全產(chǎn)業(yè)鏈的整體進化將是實現(xiàn)趕超的關(guān)鍵。
從國家層面來說,我國也有充足的動力去推動大語言模型領(lǐng)域的發(fā)展。就目前來看,我國高度強調(diào)自主可控,這是保障網(wǎng)絡(luò)安全、信息安全的前提,自研基石模型具有高度戰(zhàn)略意義。
技術(shù)上壁壘并不高、國內(nèi)也有推動其發(fā)展的重要力量。有行業(yè)專家預(yù)測,到2027 年,中國的語言大模型市場規(guī)模有望達到600 億元。此外,生成式人工智能的企業(yè)采用率也呈現(xiàn)出強勁的增長勢頭。筆者認為,未來的國內(nèi)大語言模型市場,將分化為通用基礎(chǔ)大模型、垂直基礎(chǔ)大模型、應(yīng)用開發(fā)和工具層廠商四大類。由于上文提到,資金、人才、數(shù)據(jù)、算力等等的客觀條件的存在,通用基礎(chǔ)大模型是只有少數(shù)廠商才有資格入場的游戲,而其他更多的大語言模型產(chǎn)品,不是在大浪淘沙之中被篩選淘汰,就只能退而求其次,深耕垂直基礎(chǔ)大模型領(lǐng)域。而在可以預(yù)見的未來,隨著大模型的通用和泛化性提高,掌握通用基礎(chǔ)大模型的巨頭企業(yè)可能會逐步侵占垂直領(lǐng)域廠商的市場份額。這種競爭壓力從長期來看確實不容忽視。然而,大模型與產(chǎn)品的結(jié)合,特別是在非檢索或開放域交互等復(fù)雜場景中,并非簡單的技術(shù)疊加。它需要深度融合垂直領(lǐng)域的數(shù)據(jù)、應(yīng)用場景和用戶反饋,以及強大的端到端工程化能力。這意味著,垂直領(lǐng)域與應(yīng)用層的廠商在面臨巨頭挑戰(zhàn)的同時,也擁有獨特的競爭優(yōu)勢和發(fā)展空間。因此,最終,市場之中還將催生出一批專注于提供開發(fā)平臺服務(wù)的工具型或平臺型廠商。這些廠商將幫助客戶更便捷地實現(xiàn)AIGC 應(yīng)用的開發(fā)與落地,進一步推動整個產(chǎn)業(yè)的繁榮與發(fā)展。
(本文來源于《EEPW》2024.5)
評論