金磊 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
“我們已經過渡到了可以進行復雜推理的下一個模型范式。”
OpenAI CEO奧特曼在年度總結中,給出了他關于大模型未來發展的論斷。
推理模型的重要性正在上升,成為了繼基礎模型之后各家廠商廝殺的新戰場。
推理模型百家爭鳴,究竟哪家能力更強?最近,這個問題有了答案。
近期,中國信息通訊研究院(信通院)發布了一項最新的大模型推理能力評估成績,結果顯示——
文心X1 Turbo在24項能力評估中,16項達5分、7項達4分、1項達3分,綜合評級獲當前最高級“4+級”。
而且還是國內首款,也是唯一通過該測評的大模型。
為什么文心能夠入圍“4+級”?
在百度剛剛舉辦的AI Day活動中,百度集團副總裁吳甜深入淺出地對其最新大模型,從模型、數據、應用等諸多方面做了深度解析和科普,我們也與她進行了一番對話。
不妨從中來挖掘這個問題的答案。
△百度集團副總裁,吳甜
多模態融合,模仿人類思考
演講中,吳甜介紹了文心大模型最新進展,也就是其在上個月發布的文心4.5 Turbo和文心X1 Turbo:
- 文心4.5 Turbo,主打多模態,是在文心4.5的基礎之上而來,不僅效果更佳,而且成本更低。
- 文心X1 Turbo,側重深度思考,從X1升級而來,性能提升的同時,具備更先進的思維鏈,問答、創作、邏輯推理、工具調用和多模態能力進一步增強。
兩個新模型的核心亮點,也代表了文心大模型發展的兩個關鍵詞——多模態和深度思考。
先看多模態,文心大模型在這個方向上所采取的一項關鍵技術就是多模態混合訓練。
具體而言,就是對文本、圖像和視頻模態進行了統一建模與融合訓練。
為應對不同模態在結構、規模與知識密度方面的差異性,百度研制并采用了多模態異構專家建模、自適應分辨率視覺編碼、時空重排列的三維旋轉位置編碼、自適應模態感知損失計算等關鍵技術。
這些技術在充分挖掘各模態特征的同時,顯著提升了模型跨模態學習的效率和融合表現,整體訓練效率提升近2倍,多模態理解能力提升超過30%。
在后訓練階段,文心大模型使用的一項關鍵技術,是引入具有自主學習能力的自反饋增強技術框架。
它是在模型本身的生成與評估能力的基礎上,構建出的一套“訓練—生成—反饋—增強”的迭代閉環機制。
通俗來說,自反饋增強技術框架會讓大模型能夠像人類一樣在實踐中自我提升。
這個機制可以說是不僅解決了大模型對齊過程中,數據生產難度大、成本高、速度慢等問題,而且顯著降低了模型幻覺,模型理解和處理復雜任務的能力大幅提升。
進一步地,通過融合偏好學習的強化學習技術,文心大模型實現多元統一獎勵機制,提升了對結果質量判別的準確率。
在對離線偏好學習和在線強化學習統一優化之后,進一步提升了數據利用效率和訓練穩定性,并增強了模型對高質量結果的感知。
此外,通過偏好信號與獎勵信號的融合運用,模型的理解、生成、邏輯和記憶等能力也得到了全面提升。
△融合偏好學習的強化學習
在此基礎之上,深度思考模型文心X1 Turbo突破了傳統僅依賴線性思維鏈的范式。
它將工具調用融入到模型的思考路徑,構建出了集思考與行動于一體的復合型思維鏈。
在人類的思維和行動過程當中,思考鏈和行為鏈是有非常多種不同的路徑的,文心將這樣的模式遷移到了思考模型中。
在實際應用中,模型可以根據任務需求選擇“邊思考邊行動”、“先思考后執行”或“嘗試后反思”等多種策略路徑。
這就會讓模型在輸出過程更接近人類解決問題的思維過程,讓模型在解決真實的長程、復雜性的任務上有更好的表現。
再配合多元獎勵機制的端到端優化訓練,便極大增強了模型在處理跨領域、復雜任務時的思維廣度與邏輯深度,整體效果提升超22%。
從以上技術當中可以看到,文心在多模態和深度思考上采取的技術路線,匹配了大模型進化的兩個重要方向——一方面是不同模態的融合,另一方面是對人類思維過程的模仿。
除了在模型算法上下功夫,文心大模型也在數據和模型基礎設施上進行了大量的技術攻關。
例如在數據構建方面,文心大模型則是構建了一套貫穿“數據挖掘與合成—數據分析與評估—模型能力反饋”的全鏈路閉環機制。
這個機制不僅確保了高質量、多樣化、知識密度豐富的數據持續供給,也具備良好的可擴展性,能快速適配新的數據類型和任務場景。
在這一體系之下,數據的構造不僅強調事實性與覆蓋廣度,也注重遵循第一性原理以保障語義本質的還原。
此外,系統性引入稀缺知識點驅動的數據挖掘機制、融合線上真實交互反饋的自動化數據構建流程,以及多模態平行數據的高效構建策略,共同支撐了模型能力的持續演進。
基礎設施層面,百度相較于其它大模型玩家來說,一個獨樹一幟的特點,便是自家的飛槳。
在底層技術上,百度通過框架與模型、框架與算力的協同優化實現了降本增效。
文心4.5 Turbo在飛槳框架支持下,訓練吞吐效率達到文心4.5的5.4倍,推理吞吐能力提升至8倍以上。
據了解,飛槳框架3.0的發布進一步強化了對異構芯片的適配、多模態大模型的支持及并行訓練效率。
因此,從這次分享來看,百度在大模型訓練、推理性能提升的優化路徑便非常清晰了——
算力、框架、模型,三位一體,深度協同優化。
而且從目前披露出來的“成績”來看,這種優化路徑是已見成效的那種:
文本方面,文心4.5 Turbo在涵蓋中文、數學、代碼等內容的14個數據集上取得了80分的平均成績,超過了GPT-4.5和DeepSeek-V3;
文心4.5 Turbo的多模態能力,也領先于GPT-4.1和GPT-4o:
深度思考方面,文心X1 Turbo無論是各個數據集還是平均成績,都超過了DeepSeek-R1。
場景的適配與實用的AI
評測成績也只能說是“療效”的數字化形式,若想更直觀地感受,應當再來看下大模型在實際場景中的應用。
比如學習場景中的解物理題,文心X1 Turbo也是只需看一眼題目,便可“唰唰唰”推理出精準的解析過程和答案:
也正如剛才提到的自反饋機制等,在這個案例中,我們可以清晰地感受到文心X1 Turbo像人一樣作答的思維過程。
自然語言是人類溝通交流的工具,也是人類思維的載體;而形式語言則是人工定義的,具有嚴密的邏輯,是計算機可執行的。從自然語言到形式語言,大模型都能夠建模并運用,架起了從思考到執行的橋梁。
在代碼場景上,基于文心大模型的語言和代碼能力,百度研制了代碼智能體以及智能代碼助手——文心快碼。
百度每天新增的代碼中,AI生成占比已超過40%,代碼服務已累計服務760萬開發者。
在更加復雜的應用場景中,百度也有一些布局。
以數字人為例,超擬真數字人需要具備出色的表現力、吸引人的內容、數字人與場景、物品的互動等,需要綜合運用多模態AI技術。
百度的“劇本”驅動多模協同的超擬真數字人技術,實現了語言、聲音、形象的協調一致。
目前這套技術已經支持超過10萬數字人主播,直播轉化率達31%,降低80%直播開播成本。
從行業上看,百度展示的這屆應用場景,都是大模型應用的熱門方向——
比如教育層面,根據貝哲斯報告的預測,到2029年,全球在線教育市場中,僅K-12教育的規模,就會達到8991.59億元,年均復合增長率7.89%,在這之中大模型將扮演重要的推手角色。
代碼就更不必多說,單是在大模型評估當中,代碼能力就是一項不可或缺的重要指標,實際當中,更是大模型,特別是推理模型的主要應用場景。
數字人方面,中國互聯網協會預計,今年的數字人核心市場規模將達到480.6億元,是2022年的近4倍,同時還將帶動產業市場規模達到6402.7億元。
可見,百度不僅擁有獨特的技術優勢,更是成功將這些優勢轉化成了熱門場景應用。
從這些技術和應用布局當中,也可以看到百度的大模型之道正在清晰顯現。
六年九大版本,全棧技術能力帶文心大模型走向決賽
從2019年的文心1.0,時隔6年時間,到現在的文心4.5 Turbo/X1 Turbo,文心大模型已經有了9個大版本的迭代。
文心4.5 Turbo和文心X1 Turbo在其中僅是百度大模型技術版圖的“單點”,要想了解全貌,還需進一步以“線、面”的方式來探索。
技術層面上來看,文心大模型在多模態和深度思考兩個方向上布局較深,用強化學習讓模型自己學會調優,同時靠全棧技術能力和數據積累來支撐。
從多粒度知識融合學習、知識和數據融合學習,到知識增強、知識點增強,從檢索增強、對話增強、邏輯推理增強,到慢思考、深度思考、多模態,模型的效果和效率不斷提升,能力的邊界也在持續地拓展。
那么隨之而來的一個問題便是:
百度的大模型之道,應當是什么樣的?
我們細扒后,發現:
- 文心大模型自2019年3月發布以來,其技術框架的核心原則始終保持一脈相承。其中,預訓練始終是模型建設的重要環節之一,奠定了其能力基礎。
- 同時,始終堅持對事實性、時效性和知識性的高度重視,并通過知識增強技術來強化這一特性。
- 在這一框架下,文心大模型逐步發展出智能體技術(即模型的思考能力),并結合工具使用能力,以解決現實世界中的復雜問題。這些核心技術方向一直是文心持續貫徹的重點。
- 當然,具體的技術方法也在不斷演進。除了預訓練階段,后訓練(如強化學習)的重要性正不斷提升,推動模型在原有體系下持續優化和升級。
而置身于“速度與激情”并存的大模型發展大環境中,在量子位與吳甜的交流過程中,她也談及了文心大模型之道的態度:
- 首先,行業的高速發展是預料之中的,這是新一輪科技革命周期,而非短期風口。回顧歷史,任何一次科技革命都會經歷較長的演進周期,大模型技術也不例外——它將在未來多年持續推動各行業工作方式和思維模式的深刻變革。
- 其次,技術的影響是層層擴散的:從技術突破到應用落地,再到最終改變人們的日常生活,這一過程如同漣漪般逐步展開。因此,我們始終以動態的眼光看待發展,既關注當下的快速迭代,更注重技術的長期價值。
- 基于此,文心大模型團隊始終聚焦技術深耕與前瞻探索。我們看到未來仍有諸多方向值得突破,并將持續推動技術向更高目標邁進,為下一階段的行業變革做好準備。
一言蔽之,百度的態度就是既保持敏銳,也堅持長期視角。
更宏觀角度來看,從“百模大戰”至今,大模型這個牌局已初步展現收斂的態勢,但終局必然是未至;未來更多玩家被淘汰的概率依舊不小。
不過可以肯定的一點是,百度、在技術積累和全棧能力,尤其是從底層框架飛槳到上層應用的完整技術棧,將是讓其入圍決賽圈的殺手锏。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.