<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 讓AI用視覺認(rèn)識世界，豆包發(fā)布并開源VideoWorld視頻生成模型

讓AI用視覺認(rèn)識世界，豆包發(fā)布并開源VideoWorld視頻生成模型

作者：時間：2025-02-11 來源：福布斯中國

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

2月10日，豆包大模型團(tuán)隊聯(lián)合北京交通大學(xué)、中國科學(xué)技術(shù)大學(xué)，發(fā)布了視頻生成模型——VideoWorld，并且已開源代碼與模型。

本文引用地址：http://www.ex-cimer.com/article/202502/466831.htm

與Sora、DALL-E等主流多模態(tài)模型不同，VideoWorld開辟了新的路徑，打破對語言模型的依賴，實現(xiàn)僅靠“視覺信息”認(rèn)知世界。就像幼兒能在不依賴語言的情況下理解真實世界一樣，VideoWorld通過瀏覽視頻數(shù)據(jù)，讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。在僅有300M參數(shù)量時，它就已展現(xiàn)出可觀的性能，達(dá)到專業(yè)5段9x9圍棋水平，還能在多種環(huán)境中執(zhí)行機(jī)器人任務(wù)。

在模型構(gòu)建方面，團(tuán)隊構(gòu)建了視頻圍棋對戰(zhàn)和視頻機(jī)器人模擬操控兩個實驗環(huán)境。訓(xùn)練時，模型通過“觀看”包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集進(jìn)行學(xué)習(xí)。其架構(gòu)采用樸素自回歸模型，包含VQ-VAE編碼器-解碼器和自回歸Transformer架構(gòu)。

不過，研究初期發(fā)現(xiàn)視頻序列知識挖掘效率低于文本形式，為此團(tuán)隊引入潛在動態(tài)模型（LDM）。LDM夠?qū)g視覺變化壓縮為緊湊的潛在編碼，提升知識挖掘效率，還能保留豐富視覺信息，讓VideoWorld可以捕捉視覺序列中的長期依賴關(guān)系，從而更好地進(jìn)行長期推理和規(guī)劃。

通過細(xì)致分析，團(tuán)隊發(fā)現(xiàn)LDM不僅能建模訓(xùn)練集的數(shù)據(jù)模式，還能幫助模型在測試時進(jìn)行前向規(guī)劃，并且生成因果相關(guān)的編碼。盡管VideoWorld在圍棋和模擬機(jī)器人操控場景中表現(xiàn)卓越，但團(tuán)隊也清醒地認(rèn)識到，在真實世界的應(yīng)用中，它還面臨高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。不過，團(tuán)隊已明確未來將聚焦這些難題，致力于讓視頻生成模型成為真實世界的通用知識學(xué)習(xí)器。

當(dāng)下，DeepSeek掀起的行業(yè)變革浪潮持續(xù)發(fā)酵，不僅在人工智能產(chǎn)業(yè)鏈內(nèi)引發(fā)連鎖反應(yīng)，還向其他行業(yè)滲透。它的火爆并非源于性能優(yōu)勢，而是憑借創(chuàng)新性技術(shù)路線，以超低算力成本實現(xiàn)超預(yù)期效果輸出，為行業(yè)發(fā)展帶來全新思路。無獨有偶，此次豆包發(fā)布的VideoWorld視覺模型同樣開辟了全新技術(shù)路徑，打破對語言模型的依賴，僅靠視覺信息就讓機(jī)器實現(xiàn)對世界的認(rèn)知并掌握復(fù)雜能力，有望進(jìn)一步夯實了國產(chǎn)大模型在多模態(tài)領(lǐng)域的技術(shù)實力。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： VideoWorld 模型 機(jī)器視覺

評論

相關(guān)推薦

基于移動靶機(jī)器視覺測量系統(tǒng)的標(biāo)定

資源下載移動靶機(jī)器視覺測量系統(tǒng) | 2007-04-19

科天?。浩占皺C(jī)器視覺，每日一帖

隨風(fēng)搖擺 | 2015-11-19

以高性能圖像傳感器加速機(jī)器視覺應(yīng)用落地

物聯(lián)網(wǎng)與傳感器高性能圖像傳感器機(jī)器視覺 | 2024-07-24

一大波機(jī)器視覺應(yīng)用案例正在靠近

隨風(fēng)搖擺 | 2015-11-03

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計算安森美 AI 機(jī)器視覺 | 2024-07-31

讓AI用視覺認(rèn)識世界，豆包發(fā)布并開源VideoWorld視頻生成模型

智能計算 VideoWorld 模型機(jī)器視覺 | 2025-02-11

VisionChina2024（深圳）機(jī)器視覺展盛大開幕

工控自動化 VisionChina2024 機(jī)器視覺 | 2024-10-23

解決方案-基于機(jī)器視覺的變電站智能機(jī)器人

視頻解決方案，機(jī)器視覺，變電站智能機(jī)器人 | 2024-07-02

助您快速開發(fā)機(jī)器視覺應(yīng)用視頻

視頻 NI 機(jī)器視覺 VBAI | 2009-03-25

機(jī)器視覺原理及應(yīng)用

dolphin | 2014-06-12

貿(mào)澤開售用于機(jī)器人和機(jī)器視覺的STMicroelectronics B-CAMS-IMX模塊

機(jī)器人貿(mào)澤機(jī)器人機(jī)器視覺攝像頭模塊 | 2024-11-25

機(jī)器視覺解決方案

設(shè)計方案機(jī)器視覺攝像頭 | 2015-01-27

基于機(jī)器視覺的條播排種器性能檢測及分析

資源下載機(jī)器視覺條播排種器性能檢測 | 2007-04-19

基于 LabVIEW 和 YOLOv8-Pose 的跳繩計數(shù)裝置

消費電子機(jī)器視覺自動計數(shù) LabVIEW | 2025-02-10

細(xì)節(jié)捕手：Teledyne DALSA Linea Lite 8k相機(jī)的超清探索

物聯(lián)網(wǎng)與傳感器精密檢測機(jī)器視覺線掃相機(jī) | 2024-10-11

高性能圖像傳感器如何選？關(guān)鍵在于這7大維度

物聯(lián)網(wǎng)與傳感器機(jī)器視覺圖像傳感器 HDR | 2024-09-09

機(jī)器視覺——基于立體視覺的變形測量

隨風(fēng)搖擺 | 2015-09-28

有需要機(jī)器視覺應(yīng)用案例詳細(xì)資料的請進(jìn)來

隨風(fēng)搖擺 | 2015-09-25

機(jī)器視覺如何辨別「黑白」

機(jī)器視覺圖像分割全局閾值局部閾值二值化 | 2024-08-13

基于機(jī)器視覺的BGA連接器焊球檢測

資源下載 BGA 連接器焊球檢測機(jī)器視覺檢測算法 | 2007-04-19

制造商如何通過云技術(shù)優(yōu)化深度學(xué)習(xí)機(jī)器視覺運作方式

智能計算云技術(shù) 機(jī)器視覺斑馬技術(shù) | 2024-10-22

機(jī)器視覺照明穩(wěn)壓器電路圖

設(shè)計方案機(jī)器視覺照明穩(wěn)壓器 MDA102 MC14093 | 2012-11-29

基于集成DSP的視頻處理卡在機(jī)器視覺中的應(yīng)用

設(shè)計方案視頻處理機(jī)器視覺 DSP | 2015-07-01

TMS320DM642在機(jī)器視覺中的應(yīng)用研究

設(shè)計方案 TMS320DM642 機(jī)器視覺 | 2015-06-27

機(jī)器視覺車流量檢測技術(shù)，智能交通的最好體現(xiàn)

設(shè)計方案機(jī)器視覺宏觀調(diào)控監(jiān)控中心 | 2015-06-26

真邊緣人工智能：通過電池供電實現(xiàn)機(jī)器視覺

視頻 ADI MAX78000 機(jī)器視覺 | 2023-02-14

賈云得《機(jī)器視覺》全書下載下冊

資源下載賈云得機(jī)器視覺 Marr視覺計算理論 | 2007-04-19

復(fù)雜幾何形狀零件自動檢測

資源下載自動檢測在線檢測 CCD技術(shù) 機(jī)器視覺計算機(jī)視覺 | 2007-04-19

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();