讓AI用視覺認(rèn)識世界,豆包發(fā)布并開源VideoWorld視頻生成模型
2月10日,豆包大模型團(tuán)隊聯(lián)合北京交通大學(xué)、中國科學(xué)技術(shù)大學(xué),發(fā)布了視頻生成模型——VideoWorld,并且已開源代碼與模型。
本文引用地址:http://www.ex-cimer.com/article/202502/466831.htm與Sora、DALL-E等主流多模態(tài)模型不同,VideoWorld開辟了新的路徑,打破對語言模型的依賴,實現(xiàn)僅靠“視覺信息”認(rèn)知世界。就像幼兒能在不依賴語言的情況下理解真實世界一樣,VideoWorld通過瀏覽視頻數(shù)據(jù),讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。在僅有300M參數(shù)量時,它就已展現(xiàn)出可觀的性能,達(dá)到專業(yè)5段9x9圍棋水平,還能在多種環(huán)境中執(zhí)行機(jī)器人任務(wù)。
在模型構(gòu)建方面,團(tuán)隊構(gòu)建了視頻圍棋對戰(zhàn)和視頻機(jī)器人模擬操控兩個實驗環(huán)境。訓(xùn)練時,模型通過“觀看”包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集進(jìn)行學(xué)習(xí)。其架構(gòu)采用樸素自回歸模型,包含VQ-VAE編碼器-解碼器和自回歸Transformer架構(gòu)。
不過,研究初期發(fā)現(xiàn)視頻序列知識挖掘效率低于文本形式,為此團(tuán)隊引入潛在動態(tài)模型(LDM)。LDM夠?qū)g視覺變化壓縮為緊湊的潛在編碼,提升知識挖掘效率,還能保留豐富視覺信息,讓VideoWorld可以捕捉視覺序列中的長期依賴關(guān)系,從而更好地進(jìn)行長期推理和規(guī)劃。
通過細(xì)致分析,團(tuán)隊發(fā)現(xiàn)LDM不僅能建模訓(xùn)練集的數(shù)據(jù)模式,還能幫助模型在測試時進(jìn)行前向規(guī)劃,并且生成因果相關(guān)的編碼。盡管VideoWorld在圍棋和模擬機(jī)器人操控場景中表現(xiàn)卓越,但團(tuán)隊也清醒地認(rèn)識到,在真實世界的應(yīng)用中,它還面臨高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。不過,團(tuán)隊已明確未來將聚焦這些難題,致力于讓視頻生成模型成為真實世界的通用知識學(xué)習(xí)器。
當(dāng)下,DeepSeek掀起的行業(yè)變革浪潮持續(xù)發(fā)酵,不僅在人工智能產(chǎn)業(yè)鏈內(nèi)引發(fā)連鎖反應(yīng),還向其他行業(yè)滲透。它的火爆并非源于性能優(yōu)勢,而是憑借創(chuàng)新性技術(shù)路線,以超低算力成本實現(xiàn)超預(yù)期效果輸出,為行業(yè)發(fā)展帶來全新思路。無獨有偶,此次豆包發(fā)布的VideoWorld視覺模型同樣開辟了全新技術(shù)路徑,打破對語言模型的依賴,僅靠視覺信息就讓機(jī)器實現(xiàn)對世界的認(rèn)知并掌握復(fù)雜能力,有望進(jìn)一步夯實了國產(chǎn)大模型在多模態(tài)領(lǐng)域的技術(shù)實力。
評論