作者 | Luna
開門見山,百度又搞新動作了!
距離文心大模型 4.5/X1 發布才一個多月,百度就在 4 月 25 日的“Create 2025 百度 AI 開發者”大會上,又又又發布了兩款新模型——文心大模型 4.5 Turbo、文心大模型 X1 Turbo。一個月左右連發四款大模型,這是卷王登場啊!
官方給的基準評測數據是,文心 4.5 Turbo 高效繼承文心 4.5 的文本和多模態能力,同時顯著降低訓練和推理成本,多模態能力與 GPT 4.1 持平、優于 GPT 4o,文本能力與 DeepSeek V3 最新版持平,優于 GPT 4.5、GPT 4.1、GPT 4o。
文心 4.5 Turbo- 多模態
同時,深度思考模型文心 X1 Turbo 整體效果領先 DeepSeek R1、V3 最新版。
文心 X1 Turbo
作為文心一言的深度體驗者,我對新發布的兩款大模型充滿好奇——它們是否真如宣傳般強大?還是存在未被提及的短板?
畢竟當前全球 AI 產業正經歷從“技術演示”到“商業落地”的關鍵轉型期。OpenAI 的 GPT 系列、Anthropic 的 Claude 等國際巨頭持續迭代,而國內百度、阿里、華為等企業也在加速布局。在這場競賽中,實用性能和成本效益已成為新的競爭焦點。
因此,本文將基于深入實測和技術分析,全面剖析百度新一代大模型的核心競爭力。筆者將圍繞三個核心問題展開,帶你一探究竟(附案例測評):
文心 4.5 Turbo 和 X1 Turbo 是什么,能做什么?
兩款大模型背后的核心技術是什么?
百度在大模型的布局策略和未來規劃是怎樣的?
1 進入實用主義時代:實測文心 4.5 Turbo 和 X1 Turbo 能做什么?
對于新發布的兩個模型,我們先來看文心大模型 4.5 Turbo。
其技術亮點之一就是多模態大模型,實現了文本、圖像和視頻的混合訓練。針對不同模態數據在結構、規模、知識密度上的差異,通過多模態異構專家建模、自適應分辨率視覺編碼、時空重排列的三維旋轉位置編碼、自適應模態感知損失計算等技術,大幅提升跨模態學習效率和多模態融合效果,學習效率提高近 2 倍,多模態理解效果提升超過 30%。
說得這么好,直接上實操。筆者測了 2 個典型的案例,分別從邏輯推理、創作能力、視覺理解等角度來看一下效果。
案例一:邏輯推理與創作能力
筆者在文心一言上提交了一個任務,即「?到 30 歲時,心態會產生?些變化,以“看山還是山”為題,寫?篇符合 30 歲?生感悟的文章」,僅 30 秒就輸出一份 1000 多字的內容。
實測內容:
實測結果:文章完整性高、結構清晰(總-分-總)、語?有深度,并且語句優美、有細節。內容深度遠超普通 AI,能夠讓筆者產生共鳴,例如這一段“在經歷了迷茫與掙扎后,三十歲的我們,終于在歲月的沉淀中迎來了心態的升華……我們不再執著于將山定義為某種特定的模樣,而是學會了接納它的全部。”
筆者認為,文心 4.5 Turbo 的文本生成 / 創造能力或許已達到商用級別,邏輯連貫性、情感表達優于 GPT 4.1。
案例二:視頻內容理解與續寫
上面的任務還是太簡單了,開始上難度。
筆者察覺,自步入三十歲門檻之后,每日的生活軌跡便局限于公司與住所的兩點一線之間,就好像電影《楚門的世界》一樣,仿佛一切均已預先編排。為此,筆者上傳了一段時長 57 秒的《楚門的世界》經典結尾片段,并拋出一個創作任務——「根據這部電影之前的情節,續寫結尾,要求深刻、 有創意、出?意料且合情合理」。
實測內容:
實測結果:文心 4.5Turbo 展現了出色跨模態信息融合與深度關聯能力,能結合視覺與文本信息進行創作。
例如能準確識別視頻中的關鍵隱喻元素(如人造天空、導演控制室),續寫內容在保持原作黑色幽默風格的同時,提出合理的情節發展(筆者認為續寫結局雖非驚艷,但合理)。這種水平的視頻理解能力,或許已能滿足短視頻平臺 70% 以上的自動化內容生產需求。
基于前述兩個案例的測評分析,筆者對文心大模型的技術能力形成了更為明確的認知框架。在此基礎上,現將測評視角轉向另一款新模型——文心大模型 X1 Turbo。
基于文心 4.5 Turbo,X1 升級到 X1 Turbo,性能提升的同時,具備更先進的思維鏈,問答、創作、邏輯推理、工具調用和多模態能力進一步增強。技術亮點之一就是打造了“數據挖掘與合成 - 數據分析與評估 - 模型能力反饋”的數據建設閉環,為模型訓練源源不斷地生產知識密度高、數據多樣、領域覆蓋廣的大規模數據,同時,數據建設流程具備良好的可擴展性,可輕松遷移到全新的數據類型,實現快速、高效的數據生產。
按照慣例,筆者也測了 2 個典型的案例,分別從深度思考和多工具調用角度來看一下效果。
案例三:深度思考與銳評能力
今年五一假期馬上來臨,筆者在文心一言上輸入「請銳評下五一期間各大景區人從眾的現象」問題,僅僅 30 秒就給出了答案。
實測內容:
實測結果:
從現象背后的供需失衡、矛盾凸顯帶來的雙重挑戰、破局之道 3 個維度進行銳評。并且還給出了結論:五一景區“人從眾”現象,既是旅游市場復蘇的喜訊,也是行業轉型的警鐘。通過供需兩端協同發力,制度與技術雙輪驅動,才能讓旅游業從“流量狂歡”走向“質量發展”。
這種讓“流量思維”→“留量思維”的解題之道,具備一定哲理性。體現了 X1 Turbo 的思維鏈更接近人類專家,能結合社會背景進行辯證分析。
案例四:多工具調用與圖表繪制
筆者又輸入一個旅游攻略問題,即「五一期間我計劃帶 60 歲的??去旅游,請查詢去年五一假期北京周邊?眾旅游景點的游客體驗評價和游客數量,以表格形式呈現,并為我規劃一個三天兩晚的旅游攻略,要求專業、細致」。
實測內容:
實測結果:輸出的內容詳細,先是通過深度搜索、圖表繪制能力,自動生成《2024 年五一假期北京周邊小眾景點游客數據及體驗評價》表格;再是調用百度地圖 API 等來獲取實時交通信息,給出一份詳細的三天兩晚旅游攻略,從幾點出發、乘坐什么交通工具、景點怎么拍照,再到推薦美食、酒店等細節都有。特別考慮到老年人需求,攻略避免長時間步行。
通過該測評結果來看,查詢信息快和準,整個流程耗時不到 2 分鐘,較人工規劃效率提升 20 倍以上。這種端到端任務解決能力在企業服務市場具有重要商業價值。
目前來看,文心 4.5 Turbo 適用場景包括多模態創作(圖文生成、視頻腳本等),長文本處理(報告撰寫、小說續寫等),低成本企業部署(客服、內容審核等)。文心 X1 Turbo 適用場景是深度分析(行業報告、政策解讀等),復雜任務(數據查詢 + 圖表生成等),工具聯動(自動編程、科研輔助等)……
筆者根據實測建議:對創意要求高優先用 4.5Turbo,需要邏輯推理 + 工具調用優先選 X1 Turbo。
2 核心技術解析:為何性能提升,價格下降?
除了放出新模型,百度這次在模型的實現方法上也透露了更多技術細節。畢竟文心 4.5 Turbo 和 X1Turbo 的高效表現,離不開在模型架構、訓練方法、數據優化等核心能力上的突破。
具體到技術亮點上,文心 4.5Turbo 和 X1Turbo 的關鍵技術包括:
一是后訓練方面,研制了自反饋增強的技術框架,基于大模型自身的生成和評估反饋能力,實現了“訓練-生成-反饋-增強”的模型迭代閉環,不僅解決了大模型對齊過程中數據生產難度大、成本高、速度慢等問題,而且顯著降低了模型幻覺,提升了模型理解和處理復雜任務的效果。
在訓練階段,研制了融合偏好學習的強化學習技術,通過多元統一獎勵機制,提升了對結果質量判別的準確率,通過離線偏好學習和在線強化學習統一優化,進一步提升了數據利用效率和訓練穩定性,并增強了模型對高質量結果的感知。得益于偏好信號與獎勵信號的融合運用,模型的理解、生成、邏輯推理和記憶等能力得以全面提升。
二是在深度思考方面,突破了僅基于思維鏈優化的范式,在思考路徑中結合工具調用,構建了融合思考和行動的復合思維鏈,模型解決問題能力得到顯著提升。同時,結合多元統一的獎勵機制,實現了長距離思維和行動鏈的端到端優化,顯著提升了跨領域解決問題的能力。
三是在數據方面,針對特定領域的數據稀缺問題,研制了原理驅動、過程評估與結果校驗的數據合成技術;針對高價值、專業深度知識數據稀缺問題,研制了知識點驅動的大規模稀缺數據挖掘技術等等。
多模態數據方面,針對不同模態數據割裂、跨模態語義關聯難度大等問題,提出了融合語義對齊的多模態平行數據構建、融合視覺知識的描述生成等技術,大幅提升不同模態數據的對齊精度和深度語義關聯,增強多模態理解能力。
據了解,兩款新大模型背后的核心技術是文心和飛槳聯合優化,既包括框架-模型的聯合優化,也包括框架-算力的聯合優化。既有提升訓練性能的創新,也有提升推理吞吐的創新。
例如在訓練方面,文心多模態統一的掩碼注意力加速,就是利用飛槳已有的塊狀掩碼注意力加速技術,顯著降低不同模態混合計算注意力時的掩碼構建和計算開銷,大幅提升訓練性能;推理方面,多模態流式分塊預填充機制,減少首 token 耗時,同時減少推理計算的顯存峰值,提升推理批次大小,提升吞吐性能。綜合運用這些聯合優化技術,文心 4.5Turbo 訓練吞吐是文心 4.5 的 5.4 倍,推理吞吐達到 8 倍。
飛槳框架 3.0 具備動靜統一、訓推一體的技術特色,并在自動并行、神經網絡編譯器、高階自動微分等方面創新突破,為大模型時代的技術創新與產業應用提供強有力的支撐,為開發者打造了一站式、高性能的深度學習開發體驗。
官方數據顯示,動靜統一自動并行,使得大模型分布式訓練代碼減少 80%;大模型訓推一體,幫助強化學習訓練提速 114%;科學計算高階微分,微分方程求解速度比 PyTorch 快 115%;神經網絡編譯器,提升框架通用性能,模型端到端訓練速度提升 27%;異構多芯適配,飛槳已適配國內外 60 多個系列芯片,加速軟硬協同優化。
據悉,飛槳和文心的開發者數量已經超過了 2185 萬,服務超過 67 萬家企業,創建的模型達到 110 萬。
性能提升的同時,文心大模型的成本與價格在持續下降。
百度基于在芯片層、框架層、模型層和應用層的全棧自研布局,所以在模型 API 價格上體現出了優勢——文心大模型 4.5 Turbo 每百萬 token 的輸入價格僅為 0.8 元,僅為 DeepSeek-V3 的 40%。文心大模型 X1 Turbo,輸入價格僅為每千 token 1 元,僅為 DeepSeek-R1 的 25%。
百度創始人李彥宏認為,當前開發者做 AI 應用的一大阻礙,就是大模型成本高、用不起。成本降低后,開發者和創業者們才可以放心大膽地做開發,企業才能夠低成本地部署大模型,最終推動各行各業應用的爆發。
3 加速 大模型布局 ,堅決投入下一代
2025 年,百度還將迎來“大模型之年”。有媒體稱,百度將在 6 月 30 日正式開源文心大模型,預計今年下半年,還將發布文心大模型 5.0。
透過百度過去、現在和未來在大模型上的動作與規劃,我們來剖析其在大模型上的策略。
時間拉回到 2019 年 3 月,百度發布了文心大模型 1.0,成為國內最早布局大模型的企業之一。彼時,全球 AI 行業正處于 BERT/GPT-2 時代,而國內大模型的發展仍處于早期階段:
國外 OpenAI 的 GPT-2(2019 年 2 月發布)和 Google 的 BERT(2018 年)是主流,但中文能力有限;國內除百度外,阿里、騰訊等巨頭尚未大規模投入大模型,創業公司如瀾舟科技、智譜 AI 等仍在技術積累期。
2020—2022 年,文心一言開始迭代加速(2.0-3.0 版本),布局多模態與行業落地。這一時期,文心大模型從純文本向多模態、場景化演進,并逐步開放商用。技術上從通用模型走向“通用 + 垂直”并行,解決行業痛點(如醫療問答、金融報告生成)。生態上通過百度飛槳(PaddlePaddle)平臺吸引開發者,構建 AI 應用生態。
彼時,國內大模型進入爆發期,例如阿里推出“通義千問”,華為發布“盤古”,但百度憑借中文數據 + 搜索生態占據一定的先發優勢。
2023—2025 年,文心一言全面對標 GPT,ChatGPT(2022 年底)引爆全球 AI 熱潮,百度加速推進大模型商業化:
文心 4.0(2023 年)參數規模未公開,但官方稱多模態能力接近 GPT-4,并推出插件系統(類似 ChatGPT 的 Code Interpreter),重點優化邏輯推理和長文本記憶,支持 10 萬 +token 上下文窗口。
文心 4.5Turbo & X1Turbo 能力更強、成本更低。相比文心 4.5,文心大模型 4.5 Turbo 速度更快,價格下降 80%。文心大模型 X1 Turbo 相比文心 X1,性能提升的同時,價格再降 50%。X1 Turbo 引入“思維鏈 + 工具調用”復合架構,適合復雜任務(如數據分析、科研輔助)。
整體來看,文心大模型形成了從模型到工具平臺的完整體系,包括文心 4.0、4.5、X1 等旗艦模型,文圖生成模型,場景模型和輕量模型,文心一言和智能體,以及賦能開發者的數據生產、后訓練、推理部署和場景化工具等,支撐開發者靈活高效地進行應用創新。
梳理百度近五年的發展軌跡,不難發現其正全力加速推進大模型。與此同時,百度一直在推崇的智能體領域,也即將要爆發。
當前,智能體已成為 AI 應用的代名詞。無論從行業發展的外部趨勢,還是百度自身能力延伸的內部視角考量,百度押注智能體領域無疑是一項明智的戰略抉擇。
代碼智能體 Coding Agent,是最近半年 AI 應用進展最快、最火的賽道。全球陸續涌現了 cursor、devin、lovable 等一系列代碼智能體。
在百度看來,多智能體協作是下一個高價值的 AI 應用方向。未來的 AI 應用將從回答問題走向任務交付,而任何一個復雜任務的交付,都需要多智能體的協作來解析需求、分拆任務、調度資源、規劃執行,最終交付結果。
筆者認為,百度作為大模型領域一貫的先頭兵,未來從模型到應用,越來越找到了自己的步伐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.