機(jī)器之心原創(chuàng)
作者:張倩
對于百度而言,既要保持長期主義的戰(zhàn)略定力,也要在技術(shù)路徑上靈活應(yīng)變,這種「變與不變」的平衡或許正是其在這輪科技革命中的制勝之道。
2025 年,模型能力的重要性依然無需多言。
從預(yù)訓(xùn)練的角度來看,雖然連 OpenAI 前首席科學(xué)家 Ilya Sutskever 都說,預(yù)訓(xùn)練數(shù)據(jù)即將用盡,但海量的圖像、視頻等多模態(tài)數(shù)據(jù)資源依然有待挖掘。
從后訓(xùn)練的角度來看,強(qiáng)化學(xué)習(xí)新范式正在讓 Scaling Law 煥發(fā)新生, 新一代的推理模型在數(shù)學(xué)、代碼、長程規(guī)劃等問題上不斷取得新進(jìn)展。
對于 AI 公司來說,保持對基礎(chǔ)模型研發(fā)的投入依然非常必要?,F(xiàn)階段來看,這仍然是攀登智能高峰的本質(zhì)所在。
而在這個領(lǐng)域,百度一直是一個不可忽視的力量。從 2019 年發(fā)布文心大模型 1.0 至今,文心大模型從知識和數(shù)據(jù)融合學(xué)習(xí),到知識增強(qiáng)、知識點(diǎn)增強(qiáng),從檢索增強(qiáng)、對話增強(qiáng)、邏輯推理增強(qiáng),到慢思考、多模態(tài)的技術(shù)演進(jìn)并非偶然,而是早期技術(shù)探索形成的「積淀」持續(xù)推動的結(jié)果。正是這份「積淀」引領(lǐng)百度打造出超越 GPT-4o 的多模態(tài)大模型文心 4.5 Turbo,以及領(lǐng)先 DeepSeek R1、V3 的深度思考模型文心 X1 Turbo。這些技術(shù)發(fā)展,體現(xiàn)了百度在基礎(chǔ)研究上「不變」的堅持與在 AI 快速迭代環(huán)境中適時求「變」的進(jìn)取。
在前兩天的百度 AI Day 上,百度集團(tuán)副總裁吳甜深入解讀了文心最新模型的創(chuàng)新技術(shù),并回應(yīng)了業(yè)界對百度文心大模型的諸多關(guān)注。通過她的分享,我們得以一窺百度在基礎(chǔ)模型研發(fā)領(lǐng)域堅持的核心理念與技術(shù)演進(jìn)路徑,也更加清晰地認(rèn)識到了評測數(shù)據(jù)背后那個真實且充滿活力的飛槳文心生態(tài)
進(jìn)擊的文心
在 AI Day 現(xiàn)場,吳甜演示了一個文心 X1 Turbo 解題的案例。這道題不光有文字描述,還有幾何圖,需要模型綜合多模態(tài)信息進(jìn)行推理。
從文心 X1Turbo 的回答來看,它思考解答這個題目的思路非常清晰,能夠自主規(guī)劃,識別圖片中的明面信息和隱藏含義,再思考分析,反思每個選項答案的準(zhǔn)確性,最后綜合給出解題步驟和答案。這在一些權(quán)威基準(zhǔn)測試中也得到了驗證。文心 X1 Turbo 整體效果領(lǐng)先 DeepSeek R1、V3 最新版,略低于 OpenAI o1 滿血版。
此外,來自中國信通院的大模型推理能力評估也顯示,文心 X1 Turbo 在 24 項能力測試中表現(xiàn)突出 ——16 項獲 5 分、7 項獲 4 分、1 項獲 3 分,綜合評級達(dá)到「4 + 級」,成為國內(nèi)首款通過該測評的大模型。評估結(jié)果還表明,該模型在邏輯推理、代碼推理、推理效果優(yōu)化等技術(shù)能力及工具支持度、安全可靠度等應(yīng)用能力均獲得滿分。這樣一個來自第三方的評測意味著,文心 X1 Turbo 已經(jīng)站穩(wěn)了國內(nèi)推理模型的第一梯隊。
除了推理能力,文心 X1 Turbo 和之前的文心 X1 之所以出圈,和它們的成本優(yōu)勢也密不可分。在能力相當(dāng)?shù)那闆r下,文心 X1 把價格打到了 DeepSeek R1 的一半;X1 Turbo 則更進(jìn)一步,把價格打到了 DeepSeek-R1 的 25%,這讓一些海外開發(fā)者羨慕不已。
一個搭建多年的全棧技術(shù)體系
用吳甜的話來說,無論是多模態(tài)還是深度思考,想做出好的效果都不是「一招制勝」,而是通盤的問題。好在,在百度多年構(gòu)建起來的技術(shù)棧中,文心有很多「招式」可以用。
從多模態(tài)深度語義理解到多模態(tài)大模型
在國內(nèi),百度是最早開展多模態(tài)研究的 AI 公司之一。他們 2018 年就在「多模態(tài)深度語義理解」方面有所突破,例如視覺語義化和語音語義一體化。以此為基礎(chǔ),他們的技術(shù)路線一路演進(jìn),進(jìn)入多模態(tài)大模型的時代。
吳甜提到,多模態(tài)大模型的核心難點(diǎn)之一在于如何有效地對多模態(tài)進(jìn)行建模。圍繞這一問題,他們從多個方向?qū)で笸黄?,研制了?/p>
- 多模態(tài)異構(gòu)專家建模:充分照顧到不同模態(tài)的特性;
- 自適應(yīng)分辨率視覺編碼:解決不同分辨率視頻在視覺編碼上的差異化要求;
- 時空重排列的三維旋轉(zhuǎn)位置編碼:充分利用視頻數(shù)據(jù)中的時空、時序信息;
- 自適應(yīng)模態(tài)感知損失計算:根據(jù)不同模態(tài)的特性動態(tài)調(diào)整損失計算方式,解決模態(tài)間差異問題。
采用了這些技術(shù)之后,模型在訓(xùn)練過程中學(xué)習(xí)效率提高了 1.98 倍,多模態(tài)理解效果提升了 31.21%。
在她看來,多個模態(tài)之間是有相互增益的,多模態(tài)是大模型的一個發(fā)展趨勢。
可以看出,百度對于多模態(tài)的技術(shù)投入將是長期而堅定的。
從慢思考到深度思考
長期追蹤百度技術(shù)發(fā)展的朋友可能還記得,早在 2023 年 10 月,百度就發(fā)布過基于「系統(tǒng) 2」的慢思考技術(shù),X1 和 X1 Turbo 便是以此為基礎(chǔ)進(jìn)化而來。此外,2018 年、2019 年左右,百度就在強(qiáng)化學(xué)習(xí)方向有所突破,構(gòu)建了 PARL 強(qiáng)化學(xué)習(xí)框架等基礎(chǔ)設(shè)施,這也推動了今天的深度思考模型的研發(fā)。
然而,早期的強(qiáng)化學(xué)習(xí)所解決的問題和今天有所不同,之前的模型主要聚焦于解決單一任務(wù),而今天的模型是解決大量通用任務(wù)。
為了迎接新的挑戰(zhàn),百度進(jìn)行了多項技術(shù)創(chuàng)新,包括:
- 自反饋增強(qiáng)技術(shù)框架:建立了「訓(xùn)練 - 生成 - 評估 - 增強(qiáng)」的閉環(huán),讓模型能夠基于自身的生成和評估反饋能力不斷自我迭代。
- 融合偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí):結(jié)合用戶偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí),提升模型對高質(zhì)量結(jié)果的感知能力和數(shù)據(jù)利用效率。
- 多元統(tǒng)一的獎勵機(jī)制:融合多種評價標(biāo)準(zhǔn)(如結(jié)果正確性、執(zhí)行反饋、思想深度、指令遵循等)對模型表現(xiàn)進(jìn)行評判,引導(dǎo)模型向更優(yōu)方向發(fā)展。
- 思考與行動融合的復(fù)合思維鏈:模擬人類不同的思維模式(邊思考邊行動、先思考后行動、先行動再反思等),通過強(qiáng)化學(xué)習(xí)讓模型在不同任務(wù)上探索出適合的思維鏈和行動鏈組合,提高解決真實長程復(fù)雜任務(wù)的能力。
這些解決方案的出現(xiàn)也是技術(shù)演進(jìn)的自然結(jié)果。吳甜解讀到,當(dāng)前基礎(chǔ)模型的泛化能力很強(qiáng),意味著模型自己可以在多任務(wù)上做探索,給模型輸出結(jié)果的反饋,通過強(qiáng)化學(xué)習(xí)技術(shù),讓模型自行調(diào)試方向不斷進(jìn)化,這是讓模型效果提升的重要方式。
復(fù)雜的數(shù)據(jù)建設(shè)
當(dāng)模型進(jìn)化到多模態(tài)、深度推理,數(shù)據(jù)建設(shè)的難度也在隨之增大。吳甜提到,多模態(tài)數(shù)據(jù)的建設(shè)本身比純文本數(shù)據(jù)的建設(shè)難度、復(fù)雜性都要高。另外是現(xiàn)在大量的多模態(tài)的任務(wù)所依賴的輸入,是一種經(jīng)過加工或中間處理的狀態(tài)。 比如說圖的生成要給模型一個 Prompt,現(xiàn)在讓文生圖模型去畫圖用的 Prompt,要想達(dá)到好的生圖效果,并不是天然日常所用的文字表達(dá)方式,往往要增加一些比如「紙質(zhì)紋理」、「丁達(dá)爾效應(yīng)」、圖片的比例等等這些設(shè)計用語。所以需要借助一些技術(shù)方法去挖掘、合成。
另外一個難點(diǎn)是稀缺數(shù)據(jù)的建設(shè)。天然的數(shù)據(jù)分布并不是像我們所希望的那樣能夠和知識體系匹配起來,這個時候?qū)τ谝恍┫∪睌?shù)據(jù)要進(jìn)行挖掘。
在解決這些問題的過程中,百度之前研究多年的知識圖譜幫助他們構(gòu)建了完備的知識體系,為稀缺數(shù)據(jù)的挖掘提供了理論支撐和實踐指導(dǎo)。
此外,他們打造了「數(shù)據(jù)挖掘與合成 - 數(shù)據(jù)分析與評估 - 模型能力反饋」的數(shù)據(jù)建設(shè)閉環(huán),為模型訓(xùn)練源源不斷地生產(chǎn)知識密度高、類型多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù)。
從「飛槳」、「文心」到「飛槳文心」
文心的每一次性能提升,都離不開與飛槳的深度協(xié)同和聯(lián)合優(yōu)化,這也是百度和其他 AI 公司非常不同的一點(diǎn)。
作為國內(nèi)第一個功能完備的開源深度學(xué)習(xí)平臺,飛槳從 2018 年起一直在不斷進(jìn)化,如今已經(jīng)迭代到了飛槳框架 3.0 版本。
在百度 AI 的技術(shù)架構(gòu)中,它扮演的是關(guān)鍵的「腰部」角色—— 通過向上與模型層協(xié)同解決多模態(tài)統(tǒng)一和 MoE 專家均衡等問題,向下與算力層協(xié)同提升訓(xùn)練并行效率和推理性能,從而實現(xiàn)大模型的降本增效。
此外,吳甜還提到,飛槳和文心的持續(xù)進(jìn)步,離不開百度在持續(xù)構(gòu)建的 AI 生態(tài)系統(tǒng)的貢獻(xiàn)。通過多年積累,百度在全國多地落地產(chǎn)業(yè)賦能中心、數(shù)據(jù)生態(tài)中心和教育創(chuàng)新中心,依托飛槳深度學(xué)習(xí)平臺和文心大模型,借助廣泛的伙伴體系連接千行百業(yè),接觸到更多元化的行業(yè)需求,也賦能當(dāng)?shù)氐漠a(chǎn)業(yè)智能化升級。
更重要的是,這一生態(tài)形成了數(shù)據(jù)反哺的閉環(huán)機(jī)制。那些沉睡在各行業(yè)中的稀缺數(shù)據(jù),無法通過純技術(shù)手段獲取,只能通過深度的生態(tài)合作逐步挖掘整合,為文心大模型的持續(xù)進(jìn)化提供了源源不斷的養(yǎng)分。
長期主義的賽道選擇:AI 馬拉松
站在 2025 年這個時間節(jié)點(diǎn)回望,百度在 AI 領(lǐng)域的布局體現(xiàn)出明顯的長期主義特征。從昆侖芯片到飛槳框架,到文心大模型,再到最上層的應(yīng)用,百度走的是一條「全棧布局、自主研發(fā)」的技術(shù)路線。在接下來的賽程中,這種全方位的準(zhǔn)備將成為其在競爭中坐穩(wěn)牌桌的關(guān)鍵所在。
展望未來,兩個技術(shù)方向是更被百度看好的:多模態(tài)和智能體。智能體是建立在基礎(chǔ)模型上的復(fù)合 AI 系統(tǒng),它將大模型從單純的理解和生成工具,升級為能夠進(jìn)行多步驟思考、自主規(guī)劃并調(diào)用工具的行動系統(tǒng)。未來,智能體將成為在應(yīng)用中解決大量問題的主要方式。而基礎(chǔ)模型多模態(tài)、深度思考能力的提升可以更好地托舉智能體能力。
在提升模型能力的同時,百度還在模型的技術(shù)普惠上發(fā)力,文心 X1 Turbo 的超低定價就是這一努力的代表。只有把模型的成本降得足夠低,行業(yè)內(nèi)的廣大開發(fā)者才能在應(yīng)用領(lǐng)域盡情施展,創(chuàng)造出一個蓬勃發(fā)展的大模型應(yīng)用生態(tài)。
現(xiàn)階段,整個 AI 生態(tài)仍在經(jīng)歷深刻變革,技術(shù)影響如漣漪般向外擴(kuò)散。百度文心「變與不變」的平衡或許正是其在這輪科技革命中的制勝之道。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.