開源大模型超越 GPT-3.5!爆火 MoE 實測結果出爐,網友:OpenAI 越來越沒護城河了
一條神秘磁力鏈接引爆整個 AI 圈,現在,正式測評結果終于來了:
本文引用地址:http://www.ex-cimer.com/article/202312/453814.htm首個開源 MoE 大模型 Mixtral 8x7B,已經達到甚至超越了 Llama 2 70B 和 GPT-3.5 的水平。
(對,就是傳聞中 GPT-4 的同款方案。)
并且由于是稀疏模型,處理每個 token 僅用了 12.9B 參數就做到了這般成績,其推理速度和成本也與 12.9B 的密集模型相當。
消息一出,再次在社交媒體上掀起討論熱潮。
OpenAI 創始成員 Andrej Karpathy 第一時間趕到現場整理起了筆記,還高亮出了重點:這家“歐版 OpenAI”透露出的最強模型,還只是“中杯”。
p.s. Mixtral 8×7B 甚至只是小杯……
英偉達 AI 科學家 Jim Fan 則贊說:
每個月都會有十幾個新的模型冒出來,但真正能經得住檢驗的卻寥寥無幾,能引發大家伙熱烈關注的就更少了。
并且這波啊,不僅是模型背后公司 Mistral AI 大受關注,也帶動 MoE(Mixture of Experts)再次成為開源 AI 社區的最火議題。
HuggingFace 官方就趁熱發布了一篇 MoE 的解析博文,同樣打出了“轉發如潮”的效果。
值得關注的是,Mistral AI 的最新估值已經沖破 20 億美元,在短短 6 個月中增長了 7 倍多……
基本超越 Llama 2 70B
說起來,Mistral AI 這家公司也是不走尋常路。隔壁大廠前腳剛轟轟烈烈搞發布會,慢慢悠悠發模型,他們可倒好,直接來了個程序顛倒:
先甩鏈接開放下載,又給 vLLM 項目(一個大模型推理加速工具)提了 PR,最后才想起來發布技術博客給自家模型整了個正經官宣。
△ 模型一開始是醬嬸發布的
那么還是先來看看,官方給出了哪些信息,與這兩天吃瓜群眾自己扒出來的細節有何不同。
首先,官方自信地表示:
Mixtral 8×7B 在大多數基準測試中都優于 Llama 2 70B,推理速度快了 6 倍。
它是最強大的、具有寬松許可的開放權重模型,也是最佳性價比之選。
具體來說,Mixtral 采用了稀疏混合專家網絡,是一個 decoder-only 的模型。在其中,前饋塊會從 8 組不同的參數組中進行選擇 ——
也就是說,實際上,Mixtral 8×7B 并不是 8 個 7B 參數模型的集合,僅僅是 Transformer 中的前饋塊有不同的 8 份。
這也就是為什么 Mixtral 的參數量并不是 56B,而是 46.7B。
其特點包括以下幾個方面:
在大多數基準測試中表現優于 Llama 2 70B,甚至足以擊敗 GPT-3.5
上下文窗口為 32k
可以處理英語、法語、意大利語、德語和西班牙語
在代碼生成方面表現優異
遵循 Apache 2.0 許可(免費商用)
具體測試結果如下:
另外,在幻覺問題方面,Mixtral 的表現也由于 Llama 2 70B:
在 TruthfulQA 基準上的成績是 73.9% vs 50.2%;在 BBQ 基準上呈現更少的偏見;在 BOLD 上,Mixtral 顯示出比 Llama 2 更積極的情緒。
此次與 Mixtral 8×7B 基礎版本一起發布的,還有 Mixtral 8x7B Instruct 版本。后者經過 SFT 和 DPO 優化,在 MT-Bench 上拿到了 8.3 的分數,跟 GPT-3.5 差不多,優于其他開源大模型。
目前,Mistral 官方已經宣布上線 API 服務,不過還是邀請制,未受邀用戶需要排隊等待。
值得關注的是,API 分為三個版本:
小小杯(Mistral-tiny),對應模型是 Mistral 7B Instruct;
小杯(Mistral-small),對應模型是這次發布的 Mixtral 8×7B;
中杯(Mistral-medium),對應的模型尚未公布,但官方透露其在 MT-Bench 上的得分為 8.6 分。
有網友直接把 GPT-4 拉過來對比了一下??梢钥吹?,中杯模型在 WinoGrande(常識推理基準)上的得分超過了 GPT-4。
價格方面,小小杯到中杯的輸入和輸出價格分別是每一百萬 token0.14~2.5 歐元和 0.42~7.5 歐元不等,嵌入模型則是 0.1 歐元每百萬 token(1 歐元約合 7.7 人民幣)。
而在線版本,目前還只能到第三方平臺(Poe、HuggingFace 等)體驗。
能看懂中文,但不太愿意說
雖然官方通告中并沒有說支持中文,但我們實測(HuggingFace Chat 中的在線版,模型為 Instruct 版本)發現,Mixtral 至少在理解層面上已經具備一定中文能力了。
生成層面上,Mixtral 不太傾向于用中文來回答,但如果指明的話也能得到中文回復,不過還是有些中英混雜的情況。
面對更多的“弱智吧”問題,Mixtral 的回答雖中規中矩,但看上去至少已經理解了字面含義。
數學方面,面對經典的雞兔同籠問題,Mixtral 的回答從過程到結果都完全正確。
即使是高等數學問題,比如復雜的函數求導,Mixtral 也能給出正確答案,更難能可貴的是過程沒什么問題。
而此次的官方通告中專門強調了 Mixtral 的代碼能力很強,所以也受到了我們的重點考察。
一道困難難度的 LeetCode 下來,Mixtral 給出的代碼一次就通過了測試。
給你一個未排序的整數數組 nums,請你找出其中沒有出現的最小的正整數。
請你實現時間復雜度為 O (n) 并且只使用常數級別額外空間的解決方案。
但隨著我們繼續提問,Mixtral 的回答一不小心暴露了自己可能專門針對 LeetCode 做過訓練,而且還是中文版 LC。
為了更加真實地展示 Mixtral 的代碼能力,我們轉而讓它編寫實用程序 —— 用 JS 寫一個 Web 版計算器。
經過幾輪調整之后,雖然按鈕的布局有些奇怪,但基本的四則運算已經可以完成了。
此外我們會發現,如果在同一個對話窗口中不斷補充新的要求,Mixtral 的表現可能會有所下降,出現代碼格式混亂等問題,開啟新一輪對話后則會恢復正常。
除了 API 和在線版本,Mistral AI 還提供了模型下載服務,可以用
評論