“未來(lái)要真正達(dá)到AGI,還需要解決很多技術(shù)難題,包括多模態(tài)大模型的基礎(chǔ)能力、Agent智能體的核心功能模塊、數(shù)據(jù)世界的連接與操作、物理世界的交互與控制等等。”
文 |動(dòng)點(diǎn)科技
作者|黃塵
排版|Miziko
本文預(yù)計(jì)閱讀時(shí)長(zhǎng)6分鐘
當(dāng)通用人工智能(AGI)的浪潮逼近現(xiàn)實(shí),我們究竟站在技術(shù)進(jìn)化的哪個(gè)臨界點(diǎn)?6月19日,在上海世界移動(dòng)通信大會(huì)(MWC2025上海)的主旨演講中,榮耀與阿里巴巴的兩位大佬揭開(kāi)了關(guān)鍵謎底——AGI的突破不再囿于實(shí)驗(yàn)室模型的精進(jìn),而在于跨越從“思考”到“行動(dòng)”的鴻溝,在于仍應(yīng)繼續(xù)探索多模態(tài)大模型的發(fā)展。
讓AI走入生活
如何讓AI真正走入生活?榮耀CEO李健通過(guò)“三個(gè)轉(zhuǎn)變、三個(gè)打通、三個(gè)開(kāi)放”來(lái)分享思考。
OpenAI的CEO奧特曼提出了一個(gè)關(guān)于AGI的五層框架理論,將AGI的發(fā)展分為五個(gè)階段,李健認(rèn)為目前AI的發(fā)展正處于第二層到第三層的過(guò)渡階段。在AGI的第2層,AI具備基本的邏輯推理能力,能夠分析復(fù)雜信息并進(jìn)行推斷。這一層次的AI能夠處理更具挑戰(zhàn)性的任務(wù),例如理解復(fù)雜語(yǔ)義結(jié)構(gòu)、識(shí)別邏輯關(guān)系并作出合乎邏輯的回應(yīng)。它不僅依賴(lài)于預(yù)設(shè)知識(shí),還可以結(jié)合輸入信息進(jìn)行初步推理分析。許多現(xiàn)有的AI模型,如編程助手和數(shù)學(xué)推理工具,均屬于這一階段。
在AGI的第3層,AI具備理解復(fù)雜指令的能力,并能夠在多任務(wù)環(huán)境中自主決策和靈活應(yīng)對(duì)。它能夠在動(dòng)態(tài)環(huán)境中整合不同信息源,自主判斷并選擇合適的行動(dòng)方案。這一層次的AI具備高度的情境感知能力和自主執(zhí)行力,不再依賴(lài)于逐步指令或外部控制。
為了盡快過(guò)渡到第三層,李健指出當(dāng)前我們應(yīng)該從思考向行動(dòng)跨越,讓AI解決問(wèn)題,讓用戶(hù)用起來(lái),才能釋放AI的潛力。
首先,他談了三個(gè)轉(zhuǎn)變。第一,AI的競(jìng)爭(zhēng)焦點(diǎn)在轉(zhuǎn)變,從模型能力到落地能力轉(zhuǎn)變;其次是AI 的價(jià)值定位在轉(zhuǎn)變,從工具效率到結(jié)果閉環(huán)的轉(zhuǎn)變,“真正的AI應(yīng)用,它不是你點(diǎn)擊它,然后它做了什么,而是它主動(dòng)替你完成的,能不能夠跑出一個(gè)完整的流程,能不能夠結(jié)果能不能夠自主的學(xué)習(xí)和進(jìn)化,能不能夠越用越好越好用”。第三,從過(guò)去的云端計(jì)算到現(xiàn)在的貼身存在的轉(zhuǎn)變,真正的AI產(chǎn)品,不應(yīng)該是你去找它,而是它就在你身邊。
另外,AI落地需要兩個(gè)大支柱,第一個(gè)是硬件,硬件是核心載體,它不再只是承載模型的外殼而是內(nèi)在人格的延伸,與用戶(hù)共處共感共生。第二個(gè)是AI Agent,他是核心入口,它不是執(zhí)行任務(wù)的應(yīng)用,而是理解用戶(hù)意圖,自主執(zhí)行任務(wù)與結(jié)果交互閉環(huán)的生態(tài)入口,是用戶(hù)的知己、智囊、伙伴,是用戶(hù)的第二個(gè)自我。
李健認(rèn)為,當(dāng)前仍然存在的商業(yè)矛盾在于場(chǎng)景、性能和信任這三方面沒(méi)有形成有效的閉環(huán)。首先場(chǎng)景方面,仍然存在著斷層、碎片和割裂的問(wèn)題,比如用戶(hù)場(chǎng)景實(shí)際上是割裂的,當(dāng)前的設(shè)備之間仍然存在無(wú)法高效的評(píng)估,AI無(wú)法高效地在不同設(shè)備之間流轉(zhuǎn),人沒(méi)有辦法靈活調(diào)用的問(wèn)題。
第二性能方面,仍然存在算力、時(shí)延和功耗的問(wèn)題。比如說(shuō)當(dāng)前的端側(cè)算力普遍較小,內(nèi)存普遍偏低,難以承載7b以上模型,難以支撐復(fù)雜任務(wù)的推理需求。
第三就是信任問(wèn)題。當(dāng)前仍然存在幻覺(jué)、隱私和倫理問(wèn)題。
針對(duì)如何才能有效的打通的問(wèn)題,李健強(qiáng)調(diào)需“打破”數(shù)據(jù)孤島、服務(wù)孤島、設(shè)備孤島,來(lái)打通場(chǎng)景閉環(huán);再用端云協(xié)同、軟硬協(xié)同、算網(wǎng)協(xié)同打通性能閉環(huán);最后以技術(shù)共創(chuàng)、標(biāo)準(zhǔn)共建、行業(yè)共治打通信任閉環(huán)。
李健指出,為加速AI落地,實(shí)現(xiàn)需求閉環(huán),未來(lái)應(yīng)該秉持開(kāi)放的規(guī)范、開(kāi)放的思想和開(kāi)放的理念,基于GSMA平臺(tái),共建開(kāi)放的AI終端生態(tài)聯(lián)盟,旨在集結(jié)AI模型企業(yè)、運(yùn)營(yíng)商、AI終端企業(yè)、互聯(lián)網(wǎng)企業(yè)四方力量,通過(guò)緊密協(xié)作與優(yōu)勢(shì)互補(bǔ),引領(lǐng)全行業(yè)變革。
多模態(tài)大模型的技術(shù)演進(jìn)與挑戰(zhàn)
阿里巴巴集團(tuán)副總裁、智能信息事業(yè)群首席科學(xué)家許主洪在演講中指出,多模態(tài)大模型是實(shí)現(xiàn)通用人工智能(AGI)的必經(jīng)之路,通過(guò)整合文本、圖像、音頻、視頻等多種信息,可以提供更加豐富的上下文理解能力,也能提升整體模型性能與準(zhǔn)確率、降低幻覺(jué)。此外,多模態(tài)也會(huì)帶來(lái)更加自然的人機(jī)交互體驗(yàn),提供更多樣的生成能力,也因此會(huì)有更加豐富的應(yīng)用場(chǎng)景。
在演講中,許主洪將多模態(tài)大模型技術(shù)分為理解與生成兩大類(lèi),多模態(tài)理解任務(wù)要解決的技術(shù)難點(diǎn)包括多模態(tài)模態(tài)編碼、對(duì)齊、融合、語(yǔ)義理解和推理等。多模態(tài)生成任務(wù)需要解決如何有效遵循輸入指令、如何生成和輸出高質(zhì)量的多模態(tài)內(nèi)容,比如圖片、視頻、語(yǔ)音等。
他指出,在過(guò)去幾年,多模態(tài)理解模型技術(shù)發(fā)展經(jīng)歷了多個(gè)不同的發(fā)展階段。目前主流的技術(shù)是基于預(yù)訓(xùn)練大語(yǔ)言模型(LLM)作為主干網(wǎng)絡(luò)來(lái)連接和融合多種模態(tài)。不同的多模態(tài)大模型主要的差異是在連接器的設(shè)計(jì)和模態(tài)的對(duì)齊與融合方法上。
主流多模態(tài)理解模型是基于自回歸AR模型框架,而目前主流多模態(tài)生成模型主要是基于擴(kuò)散模型Diffusion Models。而擴(kuò)散模型有兩個(gè)核心模塊:一個(gè)是主干網(wǎng)絡(luò)的設(shè)計(jì),一般是基于卷積神經(jīng)網(wǎng)絡(luò)比如U-Net的結(jié)構(gòu),或者基于Transformer的網(wǎng)絡(luò)、也就是目前主流的DiT框架。另一個(gè)是Conditions模塊,把輸入的文本指令或圖片信息通過(guò)Conditions模塊注入到去噪過(guò)程,從而達(dá)到可控輸出目標(biāo)圖片的目的。
許主洪認(rèn)為,未來(lái)的多模態(tài)大模型將逐步向理解與生成統(tǒng)一的方向演進(jìn),但還有很多開(kāi)放性的問(wèn)題,比如主干網(wǎng)絡(luò)到底是基于自回歸AR模型,還是擴(kuò)散模型,或者是混合模型框架。另外,各種模態(tài)的編碼、解碼、模態(tài)對(duì)齊和融合等都需要更多深入研究。
除了統(tǒng)一多模態(tài)大模型,另外一個(gè)熱門(mén)研究課題就是多模態(tài)推理模型。大家耳熟能詳?shù)腛penAI O系列和Deekseek R1的推理模型,不僅帶來(lái)性能的提升,而是帶來(lái)一種新Scaling Law的范式。因此業(yè)界希望把這種范式應(yīng)用到多模態(tài)場(chǎng)景,也就是構(gòu)建多模態(tài)的思維鏈來(lái)提升多模態(tài)推理能力。
除了多模態(tài)基座模型,許主洪還提到了多模態(tài)Agent智能體。通常一個(gè)智能體的典型架構(gòu)包括感知、推理、執(zhí)行與記憶等模塊,GUI Agent的核心還是基于多模態(tài)基座模型VLM的感知和推理能力。盡管已經(jīng)有不少探索,整個(gè)領(lǐng)域還處于比較早期的階段,這類(lèi)產(chǎn)品目前整體技術(shù)成熟度不是很高,還需要更多的研發(fā)探索,但是有非常廣泛的應(yīng)用前景。
GUI Agent主要是用在數(shù)字世界或者虛擬世界執(zhí)行任務(wù),類(lèi)似技術(shù)也可以用到物理世界,這就是機(jī)器人領(lǐng)域非常熱的具身智能體。基本原理就是應(yīng)用多模態(tài)模型VLM來(lái)訓(xùn)練機(jī)器人的行動(dòng),通過(guò)視覺(jué)和語(yǔ)言來(lái)控制機(jī)器人的動(dòng)作,這樣的模型也叫Vision-Language-Action(VLA)模型。
最后,許主洪表示多模態(tài)Agent AI時(shí)代才剛剛開(kāi)始,未來(lái)要真正達(dá)到AGI,還需要解決很多技術(shù)難題,包括多模態(tài)大模型的基礎(chǔ)能力、Agent智能體的核心功能模塊、數(shù)據(jù)世界的連接與操作、物理世界的交互與控制等等。盡管有很多的挑戰(zhàn),但是他認(rèn)為這也是未來(lái)多模態(tài)大模型行業(yè)的機(jī)會(huì)。
本文為動(dòng)點(diǎn)科技記者原創(chuàng)文章,未經(jīng)授權(quán)不得轉(zhuǎn)載,如需轉(zhuǎn)載或開(kāi)白請(qǐng)?jiān)诤笈_(tái)回復(fù)“轉(zhuǎn)載”。
- - - - - - - - END - - - - - - - -
互動(dòng)話(huà)題
如何讓AI真正走入生活?
快來(lái)評(píng)論區(qū)留下你的觀點(diǎn)吧!
*想要獲取行業(yè)資訊、和志同道合的科技愛(ài)好者們分享心得,那就趕快掃碼添加“動(dòng)點(diǎn)君”加入群聊吧!群里更有不定期福利發(fā)放!
精彩好文值得推薦!
一鍵轉(zhuǎn)發(fā),戳個(gè)在看!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.