當(dāng)前位置首頁 > 中國(guó)制造 > 企業(yè) >

智源研究院發(fā)布悟界Emu3.5，開啟多模態(tài)世界大模型新紀(jì)元

中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2025-10-31

　　2025年10月30日，智源研究院在北京舉辦“悟界?Emu系列技術(shù)交流會(huì)”，智源研究院院長(zhǎng)王仲遠(yuǎn)、多模態(tài)大模型負(fù)責(zé)人王鑫龍，發(fā)布了Emu3.5多模態(tài)世界大模型。這項(xiàng)工作的發(fā)布開啟了人工智能從語言學(xué)習(xí)向多模態(tài)世界學(xué)習(xí)演進(jìn)的新紀(jì)元，率先指明了多模態(tài)Scaling的新范式。而Emu作為“悟界”系列模型的重要組成部分，標(biāo)志著AI正加速?gòu)臄?shù)字世界邁向物理世界的關(guān)鍵一步。

　　2024年10月，智源研究院發(fā)布了全球首個(gè)原生多模態(tài)世界模型Emu3，該模型只基于下一個(gè)token預(yù)測(cè)，無需擴(kuò)散模型或組合方法，實(shí)現(xiàn)圖像、文本、視頻的大一統(tǒng)。模型一經(jīng)上線便在技術(shù)社區(qū)引發(fā)了熱議。

　　一年后，智源發(fā)布Emu3.5，在“Next-Token Prediction”范式的基礎(chǔ)上，模擬人類自然學(xué)習(xí)方式，以自回歸架構(gòu)實(shí)現(xiàn)了對(duì)多模態(tài)序列的“Next-State Prediction (NSP)”，獲得了可泛化的世界建模能力。

　　王仲遠(yuǎn)表示：“通過Emu3我們驗(yàn)證了自回歸架構(gòu)實(shí)現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性，Emu3.5則開啟了多模態(tài) Scaling 的新時(shí)代。更重要的是，它為通往更通用的、能夠理解并與物理世界交互的通用人工智能，提供了一條堅(jiān)實(shí)的、可度量的實(shí)踐路徑?！?/p>

　　Emu3.5在超過10萬億token的大規(guī)模多模態(tài)數(shù)據(jù)基礎(chǔ)上展開訓(xùn)練，其視頻數(shù)據(jù)訓(xùn)練量時(shí)長(zhǎng)實(shí)現(xiàn)從15年到790年的躍升，參數(shù)量從8B上升至34B，揭示了原生多模態(tài)Scaling范式。其推理時(shí)，創(chuàng)新性地提出“離散擴(kuò)散自適應(yīng)”（Discrete Diffusion Adaptation，DiDA）技術(shù)，這一高效的混合推理預(yù)測(cè)方法，可以在不犧牲性能的前提下，將每張圖片的推理速度提升了近20倍，首次使自回歸模型的生成效率媲美頂尖的閉源擴(kuò)散模型。

　　王鑫龍介紹：“EMU3.5突破了原生多模態(tài)的大規(guī)模預(yù)訓(xùn)練、大規(guī)模強(qiáng)化學(xué)習(xí)和高效推理，指出了多模態(tài)世界模型的一種簡(jiǎn)單易擴(kuò)展的Scaling范式?！?/p>

　　EMU3.5模型開始具備學(xué)習(xí)現(xiàn)實(shí)世界物理動(dòng)態(tài)與因果的能力，為探索通用世界模型奠定了堅(jiān)實(shí)的基礎(chǔ)。它具備三大重要特點(diǎn)。一是從意圖到規(guī)劃，模型能夠理解高層級(jí)的人類意圖（如“如何制作一艘宇宙飛船”“如何做咖啡拉花”），并自主生成詳細(xì)、連貫的多步驟行動(dòng)路徑。二是動(dòng)態(tài)世界模擬，模型在統(tǒng)一框架內(nèi)無縫融合了對(duì)世界的理解、規(guī)劃與模擬，能夠預(yù)測(cè)物理動(dòng)態(tài)、時(shí)空演化和長(zhǎng)時(shí)程因果關(guān)系。三是可成為泛化交互基礎(chǔ)：其涌現(xiàn)出的因果推理和規(guī)劃能力，為AI與人類及物理環(huán)境進(jìn)行泛化交互（如具身操控）提供了關(guān)鍵的認(rèn)知基礎(chǔ)。

　　這些特點(diǎn)這讓新一代世界模型具備從“理解”到“行動(dòng)”的全面智能能力，可生成行動(dòng)指南、進(jìn)行圖文編輯，并且同時(shí)具備物理直覺可開展多場(chǎng)景的探索。

Emu3.5能以精準(zhǔn)可控的方式完成文圖生成

展現(xiàn)出基于視覺理解的圖像生成能力

Emu3.5的多模態(tài)指導(dǎo)能力：輸入“如何做芹菜餃子”，模型輸出有步驟的圖文指導(dǎo)

　　Emu3.5在多模態(tài)指導(dǎo)中展現(xiàn)出卓越的時(shí)序一致性與步驟推理能力，讓復(fù)雜任務(wù)的執(zhí)行過程一目了然。多模態(tài)敘事能力上，Emu 3.5能圍繞任意主題生成沉浸式的故事體驗(yàn)，釋放無限想象力。此外模型可實(shí)現(xiàn)跨場(chǎng)景的具身操作，具備泛化的動(dòng)作規(guī)劃與復(fù)雜交互能力，并能在世界探索中保持長(zhǎng)距離一致性與可控交互，兼顧真實(shí)與虛擬的動(dòng)態(tài)環(huán)境，實(shí)現(xiàn)自由探索與精準(zhǔn)控制。

Emu 3.5能圍繞任意主題生成沉浸式的體驗(yàn)，上面是宇航員在探索中遇到皮卡丘的故事

只需一句“疊衣服”的簡(jiǎn)單指令，Emu3.5便能自主規(guī)劃、拆解任務(wù)，并精確生成機(jī)器人完成一整套復(fù)雜的折疊動(dòng)作

Emu3.5能夠完成復(fù)雜的圖文編輯任務(wù)：進(jìn)行時(shí)空變換后，依舊保持物體與場(chǎng)景的高度一致

　　同時(shí)，圖文編輯方面，它既能通過自然語言實(shí)現(xiàn)任意指令的圖片編輯與時(shí)空變換，也能以精準(zhǔn)、智能、可控且富有創(chuàng)意的方式完成文圖生成，讓文字與視覺內(nèi)容的融合更加自然與高保真。在基準(zhǔn)測(cè)試中，Emu3.5的表現(xiàn)超越了眾多知名的閉源模型。

　　王仲遠(yuǎn)總結(jié)，以第一性原理看大模型未來，我們相信AI的下一次躍遷，將來自模型對(duì)現(xiàn)實(shí)世界的深層表征與可泛化行動(dòng)指導(dǎo)的能力。我們期待與更多科研機(jī)構(gòu)與產(chǎn)業(yè)伙伴一起，開創(chuàng)多模態(tài)世界大模型新范式，探索通往AGI的演進(jìn)之路。

　　轉(zhuǎn)自：中國(guó)財(cái)富網(wǎng)

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

科技賦能玫瑰產(chǎn)業(yè)升級(jí) 校企合作共筑鄉(xiāng)村振興新篇章

熱點(diǎn)新聞

智源研究院發(fā)布悟界Emu3.5，開啟多模態(tài)世界大模型新紀(jì)元

熱點(diǎn)視頻

熱點(diǎn)新聞

微信公眾號(hào)

智源研究院發(fā)布悟界Emu3.5，開啟多模態(tài)世界大模型新紀(jì)元