端側(cè)GPT-4o水平模型,成色如何?
作者|王藝??
編輯|王博
“今年年初我們讓GPT-3水平的模型上了端,9月份讓GPT-3.5水平的模型上了端,未來(lái)會(huì)讓GPT-4o及更高水平模型上端。”在上個(gè)月舉辦的2024甲子引力年終盛典上,面壁智能聯(lián)合創(chuàng)始人、CEO李大海說(shuō)。
一個(gè)月后的今天,面壁智能就把GPT-4o水平的模型MiniCPM-o 2.6帶到了端側(cè)。
而現(xiàn)在距離OpenAI GPT-4o的發(fā)布,也就過(guò)去了8個(gè)月。
作為面壁智能最新一代端側(cè)模型,MiniCPM-o 2.6的參數(shù)量?jī)H有8B,采用了全面對(duì)標(biāo)GPT-4o的“全模態(tài)實(shí)時(shí)流式視頻理解+高級(jí)語(yǔ)音對(duì)話”技術(shù),不僅支持視頻、語(yǔ)音、文本輸入以及語(yǔ)音、文本輸出,還具備人類(lèi)級(jí)別的低延遲實(shí)時(shí)交互。
基于VLMEvalKit等工具包的評(píng)測(cè)結(jié)果顯示,MiniCPM-o 2.6取得了實(shí)時(shí)流式全模態(tài)開(kāi)源模型SOTA(當(dāng)前最佳),性能比肩GPT-4o、Claude-3.5-Sonnet;在語(yǔ)音方面,取得了理解、生成開(kāi)源雙SOTA;而在此前就較為擅長(zhǎng)的視覺(jué)領(lǐng)域,MiniCPM-o 2.6也有優(yōu)異的表現(xiàn)。
“MiniCPM-o 2.6吹響了端側(cè)全模態(tài)的號(hào)角,”在今天的媒體溝通會(huì)上李大海說(shuō),“我們希望用面壁的模型幫助設(shè)備廠商,讓他們的用戶(hù)得到更好的體驗(yàn)。”
1.端側(cè)GPT-4o水平模型,成色如何?
既然聲稱(chēng)是“端側(cè)GPT-4o”,那就有必要好好比一比。
首先是參數(shù)量。OpenAI目前并未公布GPT-4和GPT-4o的真實(shí)參數(shù)量,此前有人推測(cè)其參數(shù)量遠(yuǎn)超GPT-3的175B參數(shù),不過(guò)近期也有爆料文章援引一篇微軟在醫(yī)學(xué)領(lǐng)域的論文稱(chēng):GPT-4參數(shù)量約為1760B、GPT-4o參數(shù)量約為200B、GPT-4o mini參數(shù)量約8B。
巧合的是,MiniCPM-o 2.6的參數(shù)量也是8B,不過(guò)MiniCPM-o 2.6對(duì)標(biāo)的是參數(shù)量遠(yuǎn)高于它的GPT-4o。
接下來(lái)看看實(shí)際測(cè)試情況。
以GPT-4o主打的視頻理解功能為例,GPT-4o發(fā)布后,不少模型也上了視頻理解功能,比如Claude-3.5-Sonnet、Gemini 1.5 Pro等。
然而,「甲子光年」了解到,市面上主流的視頻理解模型很多是對(duì)靜態(tài)“照片”的理解,僅在用戶(hù)提問(wèn)后才開(kāi)始對(duì)視頻進(jìn)行靜態(tài)的圖片抽幀,缺乏對(duì)前文情境的感知,無(wú)法捕捉用戶(hù)提問(wèn)之前的畫(huà)面。
MiniCPM-o 2.6則可以實(shí)現(xiàn)對(duì)用戶(hù)提問(wèn)之前畫(huà)面和聲音的“持續(xù)感知”,通過(guò)持續(xù)對(duì)實(shí)時(shí)視頻和音頻流進(jìn)行建模的方式,MiniCPM-o 2.6做到了讓模型對(duì)視頻的“觀測(cè)理解”更接近人眼的自然交互。
比如在三仙歸洞、記憶卡牌等游戲中,MiniCPM-o 2.6不僅能猜中游戲中小球藏到了哪個(gè)杯子,還能記住翻牌游戲中相似圖案卡片的細(xì)節(jié)。
在音頻的理解上,MiniCPM-o 2.6不僅能做到理解人們說(shuō)話的聲音,更是對(duì)翻書(shū)、倒水、敲門(mén)聲等背景音也能精準(zhǔn)識(shí)別,而這是GPT-4o這樣的模型“聽(tīng)不到”的。
此外,在人機(jī)對(duì)話場(chǎng)景,MiniCPM-o 2.6能生成具備豐富情感和語(yǔ)氣表達(dá)的真人質(zhì)感音頻,不僅延遲更低,還能夠克隆別人的音色。比如輸入一段文字,MiniCPM-o 2.6生成了惟妙惟肖的模仿特朗普和麥當(dāng)勞叔叔說(shuō)話的聲音。
MiniCPM-o 2.6還能在被打斷后及時(shí)作出反應(yīng)、并用不同的情緒、語(yǔ)調(diào)回復(fù)。
最后看看榜單成績(jī)。
在實(shí)時(shí)流式視頻理解能力的代表榜單StreamingBench上,MiniCPM-o 2.6實(shí)現(xiàn)了比肩GPT-4o、Claude-3.5-Sonnet的分?jǐn)?shù)。
實(shí)時(shí)流式視頻理解能力比肩GPT-4o、Claude 3.5 Sonnet。(注:GPT-4o API 無(wú)法同時(shí)輸入語(yǔ)音和視頻,目前定量評(píng)測(cè)輸入文本和視頻)
在語(yǔ)音理解方面,MiniCPM-o 2.6的得分超越了Qwen2-Audio-7B-Instruct,實(shí)現(xiàn)通用模型開(kāi)源SOTA(包括ASR、語(yǔ)音描述等任務(wù));在語(yǔ)音生成方面,MiniCPM-o 2.6超越GLM-4-Voice 9B,實(shí)現(xiàn)通用模型開(kāi)源SOTA。
音頻理解能力SOTA,超越Qwen2-Audio 7B-Instruct
音頻生成能力SOTA,超越GLM-4-Voice 9B
MiniCPM-o 2.6視覺(jué)理解能力也達(dá)到端側(cè)全模態(tài)模型最佳水平。
視覺(jué)理解能力SOTA,超越 GPT-4o、Claude-3.5-Sonnet
「甲子光年」發(fā)現(xiàn),為了證明MiniCPM-o 2.6圖片理解和推理能力,面壁智能特意在其Github上放了兩個(gè)案例。
第一個(gè)是解數(shù)學(xué)題的場(chǎng)景。給MiniCPM-o 2.6一張兩個(gè)函數(shù)曲線相交的圖,讓其求交點(diǎn)坐標(biāo),它給出了完整的函數(shù)公式、解題步驟和準(zhǔn)確的結(jié)果。
第二個(gè)是調(diào)整自行車(chē)座椅的場(chǎng)景。MiniCPM-o 2.6不僅給出了“安全提示”“使用合適的工具”“松開(kāi)螺栓”等步驟,更是在測(cè)試人員提出二次確認(rèn)的時(shí)候準(zhǔn)確指出了螺栓的位置,還在測(cè)試人員上傳的工具箱圖片中找出了合適的扳手。
多模態(tài)模型的訓(xùn)練并不是一樁易事,除了需要處理多種類(lèi)型的數(shù)據(jù),模型結(jié)構(gòu)復(fù)雜、參數(shù)量大難壓縮之外,模態(tài)之間的語(yǔ)義鴻溝和時(shí)間同步問(wèn)題也是困擾很多訓(xùn)練團(tuán)隊(duì)的難題。
那么,面壁智能MiniCPM-o 2.6是如何將多模態(tài)模型的參數(shù)量壓縮到8B的同時(shí),還成功將各個(gè)模態(tài)對(duì)齊、并實(shí)現(xiàn)高效理解和生成的?
答案是“端到端全模態(tài)架構(gòu)”和“全模態(tài)流式機(jī)制”。
2.面壁智能的秘籍
MiniCPM-o 2.6基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構(gòu)建,共8B參數(shù),通過(guò)端到端方式訓(xùn)練和推理。
這里的“端到端”指的是什么?
傳統(tǒng)的語(yǔ)音和視頻模型多采用級(jí)聯(lián)工作方式,如語(yǔ)音模型中,模型在處理聲音時(shí)會(huì)先把聲音轉(zhuǎn)換為文本,然后對(duì)文本進(jìn)行處理輸出聲音;視頻模型中,也有團(tuán)隊(duì)先使用ViT提取視頻幀特征,再通過(guò)級(jí)聯(lián)網(wǎng)絡(luò)(如RNN或另一個(gè) Transformer)進(jìn)行時(shí)序建模。
然而,級(jí)聯(lián)的工作方式會(huì)造成信息的損耗,比如丟失掉聲音本身富含的不同音色、聲調(diào)和情緒信息,或者丟掉部分視頻幀,這些都會(huì)讓模型的音視頻理解和生成效果大打折扣。
比如說(shuō)“啊”,不同的聲調(diào)表達(dá)的意思是完全不同的,就更別說(shuō)一些“陰陽(yáng)怪氣”的表達(dá),光看文字是無(wú)法準(zhǔn)確理解的。
為了避免上述問(wèn)題,面壁智能技術(shù)團(tuán)隊(duì)采用了端到端、全模態(tài)的訓(xùn)練架構(gòu),通過(guò)將不同模態(tài)的離線編/解碼器改造為適用于流式輸入/輸出的在線模塊,讓語(yǔ)音和視頻信息充分被模型理解和利用。
MiniCPM-o 2.6采用ViT等模型進(jìn)行視覺(jué)和語(yǔ)音編碼,用自回歸語(yǔ)音解碼模塊實(shí)現(xiàn)語(yǔ)音生成。整體模型以端到端方式,通過(guò)連續(xù)稠密表示連接,實(shí)現(xiàn)端到端的聯(lián)合學(xué)習(xí),從而支撐較高的模型能力上限。
「甲子光年」制圖
通過(guò)這種架構(gòu),視覺(jué)及語(yǔ)音輸入中非自然語(yǔ)言可描述的模態(tài)信息,也可通過(guò)端到端方式傳遞到語(yǔ)音生成的內(nèi)容中,從而實(shí)現(xiàn)了生成內(nèi)容的較高自然度和可控性。
MiniCPM-o 2.6模型架構(gòu)
“全模態(tài)流式機(jī)制”也是面壁智能打造MiniCPM-o 2.6的秘籍。
面壁智能針對(duì)大語(yǔ)言模型基座設(shè)計(jì)了時(shí)分復(fù)用的全模態(tài)流式信息處理機(jī)制,將平行的不同模態(tài)的信息流拆分重組為周期性時(shí)間片序列,實(shí)現(xiàn)了低延遲的模態(tài)并發(fā)。
具體而言,面壁智能首先將時(shí)間域切分成周期循環(huán)的時(shí)間切片,在每個(gè)時(shí)間切片中,分別對(duì)視覺(jué)和音頻輸入信號(hào)進(jìn)行流失編碼,并對(duì)主動(dòng)輸出語(yǔ)義時(shí)機(jī)進(jìn)行判斷,并通過(guò)基座模型對(duì)用戶(hù)語(yǔ)音結(jié)束時(shí)機(jī)進(jìn)行高級(jí)語(yǔ)義判斷,從而避免了用戶(hù)輸入語(yǔ)音后的長(zhǎng)時(shí)間回復(fù)等待。
尤其是在端側(cè),用戶(hù)對(duì)模型響應(yīng)速度會(huì)更加敏感,多一秒的等待都可能會(huì)失去用戶(hù)。
「甲子光年」查閱了Github上MiniCPM-o 2.6的介紹資料,還發(fā)現(xiàn)了這兩個(gè)“秘籍”之外的“巧思”。
面壁技術(shù)團(tuán)隊(duì)設(shè)計(jì)了新的多模態(tài)系統(tǒng)提示,包含傳統(tǒng)的文本系統(tǒng)提示詞、和用于指定模型聲音的語(yǔ)音系統(tǒng)提示詞,模型可在推理時(shí)靈活地通過(guò)文字或語(yǔ)音例控制聲音風(fēng)格,并支持端到端的聲音克隆和音色創(chuàng)建等高級(jí)能力。
這也是MiniCPM-o 2.6能夠模仿特朗普演講、在打碎花盆、修復(fù)花盆的情境下能夠用慌張、激動(dòng)和驚恐的語(yǔ)氣表達(dá)的原因。
值得一提的是,針對(duì)視頻理解任務(wù)中“冗余信息過(guò)多”的難題,MiniCPM-o 2.6沿用了MiniCPM-V系列模型中的超高多模態(tài)像素密度技術(shù),可以通過(guò)對(duì)視頻幀的極致壓縮,讓模型以更低的成本看更多的幀,從而最大程度獲取視頻的信息。
通常的視頻理解模型需要2000~2500個(gè)Token才能編碼一張180萬(wàn)像素的圖片,而MiniCPM-o 2.6只需使用640個(gè)Token就可以編碼一張同規(guī)格的圖片。
“這還只是一張圖片,如果是視頻的話,在這么大的Token開(kāi)銷(xiāo)下,模型很快就會(huì)爆顯存。”清華大學(xué)博士后、MiniCPM-o技術(shù)負(fù)責(zé)人姚遠(yuǎn)介紹,這也是為什么很多模型只能接受單幀、或者極少數(shù)幀的原因。
MiniCPM-o 2.6能夠處理比較長(zhǎng)的視頻,除了基于模型原生記憶、存在上下文的context之外,還會(huì)通過(guò)RAG的方式管理輸入的Token。“每看完一部分就集成起來(lái),這也是符合技術(shù)發(fā)展規(guī)律的,因?yàn)槟P筒豢赡軆?chǔ)存一天的視頻信息,只要能夠高效地找到準(zhǔn)確的信息、滿(mǎn)足用戶(hù)的需求就可以。”姚遠(yuǎn)說(shuō)。
3.應(yīng)用場(chǎng)景在哪里?
在剛剛結(jié)束的CES 2025上,AI硬件獲得了極高的關(guān)注度,而與AI硬件密切相關(guān)的端側(cè)模型,也進(jìn)入了更多人的視野。
把更高效低成本的大模型,放到離用戶(hù)最近的地方,一直是面壁智能追求的目標(biāo)。
就在上周,李大海前往CES 2025現(xiàn)場(chǎng),展示了MiniCPM端側(cè)模型在實(shí)際設(shè)備上的運(yùn)行效果,以及在AI Phone、AI PC、智能座艙、智能家居與具身機(jī)器人等領(lǐng)域的落地案例。
面壁智能也是為數(shù)不多的參加今年CES的國(guó)內(nèi)大模型企業(yè)。
在CES現(xiàn)場(chǎng),李大海很直接地對(duì)「甲子光年」表示:“端側(cè)模型在2025年必然會(huì)迎來(lái)一個(gè)非常大的爆發(fā)。”
他還分享道,在CES上看到了大模型賦能的AI定義汽車(chē)、具身智能、AIPC、AI眼鏡、AI玩具,大模型跟主流和新興硬件結(jié)合,正在飛入千家萬(wàn)戶(hù)、千行百業(yè),“我仿佛看到了10年之后,大模型‘無(wú)處不在’的未來(lái)。”
而在上個(gè)月,面壁智能還提出了大模型的密度定律(Densing Law)——模型能力隨時(shí)間呈指數(shù)級(jí)增長(zhǎng),2023年以來(lái)能力密度約每3.3個(gè)月翻一倍(詳見(jiàn))。
面壁智能通過(guò)追求更高原創(chuàng)性的、更加前沿的探索,在Densing Law指引下,讓模型能力密度跨越規(guī)模應(yīng)用的一個(gè)又一個(gè)階梯,打開(kāi)一個(gè)又一個(gè)巨大市場(chǎng)。
一方是廣闊的AI硬件市場(chǎng),一方是越來(lái)越高效的端側(cè)模型,面壁智能端側(cè)模型的落地場(chǎng)景呼之欲出。
在今年舉行的媒體溝通會(huì)上,李大海很堅(jiān)定地認(rèn)為“端側(cè)模型+AI硬件”是未來(lái)發(fā)展的方向,未來(lái)的每一個(gè)硬件都應(yīng)該是智能化的。
具體到合作方式上,李大海介紹:“第一,我們會(huì)跟各種能力強(qiáng)的AI芯片公司合作,讓面壁的模型跑在這些芯片上;第二,基于跟芯片結(jié)合的基礎(chǔ)能力,去賦能更多的設(shè)備,MiniCPM-o 2.6將重點(diǎn)關(guān)注具身化屬性較強(qiáng)的設(shè)備。”
“具身化屬性”與具身智能相關(guān),智能汽車(chē)和機(jī)器人就是具身化屬性很強(qiáng)的設(shè)備,其關(guān)鍵是在沒(méi)有人類(lèi)指導(dǎo)的情況下,產(chǎn)品能自主理解他們所處的物理和環(huán)境限制,自主做出決策并執(zhí)行行動(dòng)。
2024年下半年,面壁智能MiniCPM端側(cè)模型加速落地,先后與華為云、加速進(jìn)化機(jī)器人、大象機(jī)器人、梧桐科技、長(zhǎng)城汽車(chē)、聯(lián)發(fā)科技、百度智能云、英特爾建立合作關(guān)系,業(yè)務(wù)版圖延伸至智能座艙,機(jī)器人、端云協(xié)同等多個(gè)領(lǐng)域。
可以看出,面壁智能并沒(méi)有局限在手機(jī)端,而是瞄準(zhǔn)了更多的智能終端。「甲子光年」分析,這背后有兩點(diǎn)原因:一是包括蘋(píng)果在內(nèi)的各家手機(jī)廠商都在自研端側(cè)模型;二是AI手機(jī)上跑的模型目前還比較“初級(jí)”,手機(jī)還無(wú)法實(shí)現(xiàn)真正具身智能產(chǎn)品那樣的“靈活性”和“自主性”。
“智能體絕大部分被動(dòng)的信息都是通過(guò)視覺(jué)和聽(tīng)覺(jué)完成的,面壁的模型是一個(gè)全模態(tài)的模型,不僅有文字,還能通過(guò)視覺(jué)和聽(tīng)覺(jué)感知世界,讓設(shè)備像人一樣感知周?chē)沫h(huán)境,因此我們要落地的具身化設(shè)備和AI手機(jī)是兩個(gè)完全不同的物種。”李大海在媒體溝通會(huì)上說(shuō)。
那么,理想的AI設(shè)備或者智能終端應(yīng)該是什么樣子?
“要有靈魂,”在上周的CES上,李大海對(duì)「甲子光年」說(shuō),“最重要的是,它能夠很好地去感知環(huán)境,跟環(huán)境互動(dòng),做出反應(yīng),同時(shí)還有記憶,這些結(jié)合在一起,它就是有靈魂的。”
*文中圖片和視頻來(lái)源面壁智能
(封面圖來(lái)源:「甲子光年」CES 2025現(xiàn)場(chǎng)拍攝)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.