<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 挑戰(zhàn)DeepSeeK 「AI教母」打造AI模型訓練成本不到50美元

挑戰(zhàn)DeepSeeK 「AI教母」打造AI模型訓練成本不到50美元

作者：時間：2025-02-08 來源：中時電子報

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

DeepSeek強敵來了！被譽為「AI教母」的知名華裔美籍科學家李飛飛領導的團隊，以低于50美元的云計算成本，成功訓練出名為「s1」的人工智能推理模型。此模型在數(shù)學和編碼能力測驗中的表現(xiàn)，據(jù)稱媲美OpenAI o1和DeepSeek R1等尖端推理模型。

本文引用地址：http://www.ex-cimer.com/article/202502/466749.htm

科創(chuàng)板日報、新浪科技報道，李飛飛團隊的s1模型并非從頭訓練，而是建立在阿里巴巴的Qwen2.5 和 Google DeepMind的Gemini 2.0 Flash Thinking的基礎之上。他們搜集了1000個精心挑選的問題及其解答，并通過記錄 Gemini 2.0 Flash 的思考過程，建立訓練資料集，利用這些資料，微調了Qwen2.5-32B-Instruct模型，創(chuàng)造出s1。

大陸某知名大模型公司CEO表示，李飛飛團隊的成就實際上是利用從 Google 模型中擷取的 1000 個樣本來微調通義千問模型。這種微調的成本固然低廉，但其優(yōu)異表現(xiàn)仍有賴于既有模型的基礎。

上海交通大學人工智能學院副教授謝偉迪指出，s1以通義千問模型為基礎，因此即使使用有限的樣本資料，也能產生新的推理模型。然而，如果更換其他基礎模型，新模型的效能并不會提升。因此，真正在背后發(fā)揮效能的關鍵是Qwen模型，而非 s1。

阿里云證實，李飛飛團隊通過利用阿里開源的Qwen2.5-32B-Instruct模型進行監(jiān)督微調，在16個英偉達H100 GPU上僅花費26分鐘就訓練出s1-32B模型，其數(shù)學和編碼能力與OpenAI o1和DeepSeek R1等尖端推理模型不相上下。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： DeepSeeK AI模型 李飛飛

評論

相關推薦

觀察AI模型的隱空間狀態(tài)，探索潛在因子

智能計算 202410 AI模型隱空間 | 2024-10-16

李飛飛團隊低成本AI模型實為基于阿里云Qwen模型監(jiān)督微調而成

智能計算李飛飛 openAI | 2025-02-07

DeepSeek低成本AI模型促光收發(fā)模塊出貨量年增56.5%

網(wǎng)絡與存儲 TrendForce 集邦咨詢 DeepSeek 低成本AI 光通信光收發(fā)模塊 | 2025-02-07

中小AI芯片企業(yè)感謝DeepSeek R1：給了我們機會和訂單

智能計算 AI DeepSeek R1 | 2025-02-08

挑戰(zhàn)DeepSeeK 「AI教母」打造AI模型訓練成本不到50美元

智能計算 DeepSeeK AI模型李飛飛 | 2025-02-08

國產大模型 DeepSeek-V3 開源：6710 億參數(shù)自研 MoE，性能和 GPT-4o 不分伯仲

智能計算 DeepSeek-V3 AI 大語言模型人工智能 | 2024-12-27

DeepSeek引爆 AI，國產 GPU 集體撐腰

智能計算 DeepSeek | 2025-02-08

AI基建需求續(xù)成長，DeepSeek崛起凸顯產業(yè)將更注重高成本效益

智能計算 AI 基建 DeepSeek | 2025-02-07

JFrog收購Qwak AI，致力于簡化AI模型從開發(fā)到生產的全流程

智能計算 JFrog Qwak AI AI模型 | 2024-07-01

OpenAI新模型性能或超GPT-4百倍！阿爾特曼緊急辟謠

智能計算 OpenAI AI模型 GPT-4 | 2024-10-28

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();