日前,記者從北京市科委、中關(guān)村管委會(huì)獲悉,智源多模態(tài)大模型成果“Multimodal learning with next-token prediction for large multimodal models(通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型)”在1月28日上線國(guó)際頂級(jí)學(xué)術(shù)期刊Nature,預(yù)計(jì)2月12日紙質(zhì)版正式刊發(fā),這是我國(guó)科研機(jī)構(gòu)主導(dǎo)的大模型成果首次在Nature正刊發(fā)表。
2018年以來(lái),GPT采用“預(yù)測(cè)下一個(gè)詞元”的自回歸路線,實(shí)現(xiàn)了語(yǔ)言大模型重大突破,開啟了生成式人工智能浪潮。
而多模態(tài)模型主要依賴對(duì)比學(xué)習(xí)、擴(kuò)散模型等專門路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài),一直是未解之謎。
智源這項(xiàng)成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型,對(duì)于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。
Nature編輯點(diǎn)評(píng)這項(xiàng)研究:智源提出的Emu3僅基于預(yù)測(cè)下一個(gè)詞元,實(shí)現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其在生成與感知任務(wù)上的性能可與使用專門路線相當(dāng),這一成果對(duì)構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。
據(jù)介紹,智源Emu系列模型自2022年啟動(dòng)研發(fā)以來(lái),圍繞“原生多模態(tài)”這一核心技術(shù)主線持續(xù)迭代,每一個(gè)版本均在關(guān)鍵能力與方法論上實(shí)現(xiàn)突破。下一步,智源將繼續(xù)圍繞智能與物理世界的深層關(guān)聯(lián),推進(jìn)面向下一代人工智能的科研創(chuàng)新。
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2026 中國(guó)高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號(hào)-5
電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證060344號(hào)主辦單位:《中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司