網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一場文心大模型的「AI馬拉松」

2025-05-22 19:10:15　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心原創(chuàng)

作者：張倩

對于百度而言，既要保持長期主義的戰(zhàn)略定力，也要在技術(shù)路徑上靈活應(yīng)變，這種「變與不變」的平衡或許正是其在這輪科技革命中的制勝之道。

2025 年，模型能力的重要性依然無需多言。

從預(yù)訓(xùn)練的角度來看，雖然連 OpenAI 前首席科學(xué)家 Ilya Sutskever 都說，預(yù)訓(xùn)練數(shù)據(jù)即將用盡，但海量的圖像、視頻等多模態(tài)數(shù)據(jù)資源依然有待挖掘。

從后訓(xùn)練的角度來看，強(qiáng)化學(xué)習(xí)新范式正在讓 Scaling Law 煥發(fā)新生，新一代的推理模型在數(shù)學(xué)、代碼、長程規(guī)劃等問題上不斷取得新進(jìn)展。

對于 AI 公司來說，保持對基礎(chǔ)模型研發(fā)的投入依然非常必要?，F(xiàn)階段來看，這仍然是攀登智能高峰的本質(zhì)所在。

而在這個領(lǐng)域，百度一直是一個不可忽視的力量。從 2019 年發(fā)布文心大模型 1.0 至今，文心大模型從知識和數(shù)據(jù)融合學(xué)習(xí)，到知識增強(qiáng)、知識點(diǎn)增強(qiáng)，從檢索增強(qiáng)、對話增強(qiáng)、邏輯推理增強(qiáng)，到慢思考、多模態(tài)的技術(shù)演進(jìn)并非偶然，而是早期技術(shù)探索形成的「積淀」持續(xù)推動的結(jié)果。正是這份「積淀」引領(lǐng)百度打造出超越 GPT-4o 的多模態(tài)大模型文心 4.5 Turbo，以及領(lǐng)先 DeepSeek R1、V3 的深度思考模型文心 X1 Turbo。這些技術(shù)發(fā)展，體現(xiàn)了百度在基礎(chǔ)研究上「不變」的堅持與在 AI 快速迭代環(huán)境中適時求「變」的進(jìn)取。

在前兩天的百度 AI Day 上，百度集團(tuán)副總裁吳甜深入解讀了文心最新模型的創(chuàng)新技術(shù)，并回應(yīng)了業(yè)界對百度文心大模型的諸多關(guān)注。通過她的分享，我們得以一窺百度在基礎(chǔ)模型研發(fā)領(lǐng)域堅持的核心理念與技術(shù)演進(jìn)路徑，也更加清晰地認(rèn)識到了評測數(shù)據(jù)背后那個真實且充滿活力的飛槳文心生態(tài)

進(jìn)擊的文心

在 AI Day 現(xiàn)場，吳甜演示了一個文心 X1 Turbo 解題的案例。這道題不光有文字描述，還有幾何圖，需要模型綜合多模態(tài)信息進(jìn)行推理。

從文心 X1Turbo 的回答來看，它思考解答這個題目的思路非常清晰，能夠自主規(guī)劃，識別圖片中的明面信息和隱藏含義，再思考分析，反思每個選項答案的準(zhǔn)確性，最后綜合給出解題步驟和答案。這在一些權(quán)威基準(zhǔn)測試中也得到了驗證。文心 X1 Turbo 整體效果領(lǐng)先 DeepSeek R1、V3 最新版，略低于 OpenAI o1 滿血版。

此外，來自中國信通院的大模型推理能力評估也顯示，文心 X1 Turbo 在 24 項能力測試中表現(xiàn)突出 ——16 項獲 5 分、7 項獲 4 分、1 項獲 3 分，綜合評級達(dá)到「4 + 級」，成為國內(nèi)首款通過該測評的大模型。評估結(jié)果還表明，該模型在邏輯推理、代碼推理、推理效果優(yōu)化等技術(shù)能力及工具支持度、安全可靠度等應(yīng)用能力均獲得滿分。這樣一個來自第三方的評測意味著，文心 X1 Turbo 已經(jīng)站穩(wěn)了國內(nèi)推理模型的第一梯隊。

除了推理能力，文心 X1 Turbo 和之前的文心 X1 之所以出圈，和它們的成本優(yōu)勢也密不可分。在能力相當(dāng)?shù)那闆r下，文心 X1 把價格打到了 DeepSeek R1 的一半；X1 Turbo 則更進(jìn)一步，把價格打到了 DeepSeek-R1 的 25%，這讓一些海外開發(fā)者羨慕不已。

一個搭建多年的全棧技術(shù)體系

用吳甜的話來說，無論是多模態(tài)還是深度思考，想做出好的效果都不是「一招制勝」，而是通盤的問題。好在，在百度多年構(gòu)建起來的技術(shù)棧中，文心有很多「招式」可以用。

從多模態(tài)深度語義理解到多模態(tài)大模型

在國內(nèi)，百度是最早開展多模態(tài)研究的 AI 公司之一。他們 2018 年就在「多模態(tài)深度語義理解」方面有所突破，例如視覺語義化和語音語義一體化。以此為基礎(chǔ)，他們的技術(shù)路線一路演進(jìn)，進(jìn)入多模態(tài)大模型的時代。

吳甜提到，多模態(tài)大模型的核心難點(diǎn)之一在于如何有效地對多模態(tài)進(jìn)行建模。圍繞這一問題，他們從多個方向?qū)で笸黄?，研制了?/p>

多模態(tài)異構(gòu)專家建模：充分照顧到不同模態(tài)的特性；
自適應(yīng)分辨率視覺編碼：解決不同分辨率視頻在視覺編碼上的差異化要求；
時空重排列的三維旋轉(zhuǎn)位置編碼：充分利用視頻數(shù)據(jù)中的時空、時序信息；
自適應(yīng)模態(tài)感知損失計算：根據(jù)不同模態(tài)的特性動態(tài)調(diào)整損失計算方式，解決模態(tài)間差異問題。

采用了這些技術(shù)之后，模型在訓(xùn)練過程中學(xué)習(xí)效率提高了 1.98 倍，多模態(tài)理解效果提升了 31.21%。

在她看來，多個模態(tài)之間是有相互增益的，多模態(tài)是大模型的一個發(fā)展趨勢。

可以看出，百度對于多模態(tài)的技術(shù)投入將是長期而堅定的。

從慢思考到深度思考

長期追蹤百度技術(shù)發(fā)展的朋友可能還記得，早在 2023 年 10 月，百度就發(fā)布過基于「系統(tǒng) 2」的慢思考技術(shù)，X1 和 X1 Turbo 便是以此為基礎(chǔ)進(jìn)化而來。此外，2018 年、2019 年左右，百度就在強(qiáng)化學(xué)習(xí)方向有所突破，構(gòu)建了 PARL 強(qiáng)化學(xué)習(xí)框架等基礎(chǔ)設(shè)施，這也推動了今天的深度思考模型的研發(fā)。

然而，早期的強(qiáng)化學(xué)習(xí)所解決的問題和今天有所不同，之前的模型主要聚焦于解決單一任務(wù)，而今天的模型是解決大量通用任務(wù)。

為了迎接新的挑戰(zhàn)，百度進(jìn)行了多項技術(shù)創(chuàng)新，包括：

自反饋增強(qiáng)技術(shù)框架：建立了「訓(xùn)練 - 生成 - 評估 - 增強(qiáng)」的閉環(huán)，讓模型能夠基于自身的生成和評估反饋能力不斷自我迭代。
融合偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí)：結(jié)合用戶偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí)，提升模型對高質(zhì)量結(jié)果的感知能力和數(shù)據(jù)利用效率。
多元統(tǒng)一的獎勵機(jī)制：融合多種評價標(biāo)準(zhǔn)（如結(jié)果正確性、執(zhí)行反饋、思想深度、指令遵循等）對模型表現(xiàn)進(jìn)行評判，引導(dǎo)模型向更優(yōu)方向發(fā)展。
思考與行動融合的復(fù)合思維鏈：模擬人類不同的思維模式（邊思考邊行動、先思考后行動、先行動再反思等），通過強(qiáng)化學(xué)習(xí)讓模型在不同任務(wù)上探索出適合的思維鏈和行動鏈組合，提高解決真實長程復(fù)雜任務(wù)的能力。

這些解決方案的出現(xiàn)也是技術(shù)演進(jìn)的自然結(jié)果。吳甜解讀到，當(dāng)前基礎(chǔ)模型的泛化能力很強(qiáng)，意味著模型自己可以在多任務(wù)上做探索，給模型輸出結(jié)果的反饋，通過強(qiáng)化學(xué)習(xí)技術(shù)，讓模型自行調(diào)試方向不斷進(jìn)化，這是讓模型效果提升的重要方式。

復(fù)雜的數(shù)據(jù)建設(shè)

當(dāng)模型進(jìn)化到多模態(tài)、深度推理，數(shù)據(jù)建設(shè)的難度也在隨之增大。吳甜提到，多模態(tài)數(shù)據(jù)的建設(shè)本身比純文本數(shù)據(jù)的建設(shè)難度、復(fù)雜性都要高。另外是現(xiàn)在大量的多模態(tài)的任務(wù)所依賴的輸入，是一種經(jīng)過加工或中間處理的狀態(tài)。比如說圖的生成要給模型一個 Prompt，現(xiàn)在讓文生圖模型去畫圖用的 Prompt，要想達(dá)到好的生圖效果，并不是天然日常所用的文字表達(dá)方式，往往要增加一些比如「紙質(zhì)紋理」、「丁達(dá)爾效應(yīng)」、圖片的比例等等這些設(shè)計用語。所以需要借助一些技術(shù)方法去挖掘、合成。

另外一個難點(diǎn)是稀缺數(shù)據(jù)的建設(shè)。天然的數(shù)據(jù)分布并不是像我們所希望的那樣能夠和知識體系匹配起來，這個時候?qū)τ谝恍┫∪睌?shù)據(jù)要進(jìn)行挖掘。

在解決這些問題的過程中，百度之前研究多年的知識圖譜幫助他們構(gòu)建了完備的知識體系，為稀缺數(shù)據(jù)的挖掘提供了理論支撐和實踐指導(dǎo)。

此外，他們打造了「數(shù)據(jù)挖掘與合成 - 數(shù)據(jù)分析與評估 - 模型能力反饋」的數(shù)據(jù)建設(shè)閉環(huán)，為模型訓(xùn)練源源不斷地生產(chǎn)知識密度高、類型多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù)。

從「飛槳」、「文心」到「飛槳文心」

文心的每一次性能提升，都離不開與飛槳的深度協(xié)同和聯(lián)合優(yōu)化，這也是百度和其他 AI 公司非常不同的一點(diǎn)。

作為國內(nèi)第一個功能完備的開源深度學(xué)習(xí)平臺，飛槳從 2018 年起一直在不斷進(jìn)化，如今已經(jīng)迭代到了飛槳框架 3.0 版本。

在百度 AI 的技術(shù)架構(gòu)中，它扮演的是關(guān)鍵的「腰部」角色—— 通過向上與模型層協(xié)同解決多模態(tài)統(tǒng)一和 MoE 專家均衡等問題，向下與算力層協(xié)同提升訓(xùn)練并行效率和推理性能，從而實現(xiàn)大模型的降本增效。

此外，吳甜還提到，飛槳和文心的持續(xù)進(jìn)步，離不開百度在持續(xù)構(gòu)建的 AI 生態(tài)系統(tǒng)的貢獻(xiàn)。通過多年積累，百度在全國多地落地產(chǎn)業(yè)賦能中心、數(shù)據(jù)生態(tài)中心和教育創(chuàng)新中心，依托飛槳深度學(xué)習(xí)平臺和文心大模型，借助廣泛的伙伴體系連接千行百業(yè)，接觸到更多元化的行業(yè)需求，也賦能當(dāng)?shù)氐漠a(chǎn)業(yè)智能化升級。

更重要的是，這一生態(tài)形成了數(shù)據(jù)反哺的閉環(huán)機(jī)制。那些沉睡在各行業(yè)中的稀缺數(shù)據(jù)，無法通過純技術(shù)手段獲取，只能通過深度的生態(tài)合作逐步挖掘整合，為文心大模型的持續(xù)進(jìn)化提供了源源不斷的養(yǎng)分。

長期主義的賽道選擇：AI 馬拉松

站在 2025 年這個時間節(jié)點(diǎn)回望，百度在 AI 領(lǐng)域的布局體現(xiàn)出明顯的長期主義特征。從昆侖芯片到飛槳框架，到文心大模型，再到最上層的應(yīng)用，百度走的是一條「全棧布局、自主研發(fā)」的技術(shù)路線。在接下來的賽程中，這種全方位的準(zhǔn)備將成為其在競爭中坐穩(wěn)牌桌的關(guān)鍵所在。

展望未來，兩個技術(shù)方向是更被百度看好的：多模態(tài)和智能體。智能體是建立在基礎(chǔ)模型上的復(fù)合 AI 系統(tǒng)，它將大模型從單純的理解和生成工具，升級為能夠進(jìn)行多步驟思考、自主規(guī)劃并調(diào)用工具的行動系統(tǒng)。未來，智能體將成為在應(yīng)用中解決大量問題的主要方式。而基礎(chǔ)模型多模態(tài)、深度思考能力的提升可以更好地托舉智能體能力。

在提升模型能力的同時，百度還在模型的技術(shù)普惠上發(fā)力，文心 X1 Turbo 的超低定價就是這一努力的代表。只有把模型的成本降得足夠低，行業(yè)內(nèi)的廣大開發(fā)者才能在應(yīng)用領(lǐng)域盡情施展，創(chuàng)造出一個蓬勃發(fā)展的大模型應(yīng)用生態(tài)。

現(xiàn)階段，整個 AI 生態(tài)仍在經(jīng)歷深刻變革，技術(shù)影響如漣漪般向外擴(kuò)散。百度文心「變與不變」的平衡或許正是其在這輪科技革命中的制勝之道。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.