網易首頁 > 網易號 > 正文申請入駐

文心X1/4.5 Turbo深度測評：真干活 AI，又強又全！

2025-04-25 19:46:17　來源: InfoQ

北京舉報

分享至

作者 | Luna

開門見山，百度又搞新動作了！

距離文心大模型 4.5/X1 發布才一個多月，百度就在 4 月 25 日的“Create 2025 百度 AI 開發者”大會上，又又又發布了兩款新模型——文心大模型 4.5 Turbo、文心大模型 X1 Turbo。一個月左右連發四款大模型，這是卷王登場啊！

官方給的基準評測數據是，文心 4.5 Turbo 高效繼承文心 4.5 的文本和多模態能力，同時顯著降低訓練和推理成本，多模態能力與 GPT 4.1 持平、優于 GPT 4o，文本能力與 DeepSeek V3 最新版持平，優于 GPT 4.5、GPT 4.1、GPT 4o。

文心 4.5 Turbo- 多模態

同時，深度思考模型文心 X1 Turbo 整體效果領先 DeepSeek R1、V3 最新版。

文心 X1 Turbo

作為文心一言的深度體驗者，我對新發布的兩款大模型充滿好奇——它們是否真如宣傳般強大？還是存在未被提及的短板？

畢竟當前全球 AI 產業正經歷從“技術演示”到“商業落地”的關鍵轉型期。OpenAI 的 GPT 系列、Anthropic 的 Claude 等國際巨頭持續迭代，而國內百度、阿里、華為等企業也在加速布局。在這場競賽中，實用性能和成本效益已成為新的競爭焦點。

因此，本文將基于深入實測和技術分析，全面剖析百度新一代大模型的核心競爭力。筆者將圍繞三個核心問題展開，帶你一探究竟（附案例測評）：

文心 4.5 Turbo 和 X1 Turbo 是什么，能做什么？
兩款大模型背后的核心技術是什么？
百度在大模型的布局策略和未來規劃是怎樣的？

1 進入實用主義時代：實測文心 4.5 Turbo 和 X1 Turbo 能做什么？

對于新發布的兩個模型，我們先來看文心大模型 4.5 Turbo。

其技術亮點之一就是多模態大模型，實現了文本、圖像和視頻的混合訓練。針對不同模態數據在結構、規模、知識密度上的差異，通過多模態異構專家建模、自適應分辨率視覺編碼、時空重排列的三維旋轉位置編碼、自適應模態感知損失計算等技術，大幅提升跨模態學習效率和多模態融合效果，學習效率提高近 2 倍，多模態理解效果提升超過 30%。

說得這么好，直接上實操。筆者測了 2 個典型的案例，分別從邏輯推理、創作能力、視覺理解等角度來看一下效果。

案例一：邏輯推理與創作能力

筆者在文心一言上提交了一個任務，即「?到 30 歲時，心態會產生?些變化，以“看山還是山”為題，寫?篇符合 30 歲?生感悟的文章」，僅 30 秒就輸出一份 1000 多字的內容。

實測內容：

實測結果：文章完整性高、結構清晰（總－分－總）、語?有深度，并且語句優美、有細節。內容深度遠超普通 AI，能夠讓筆者產生共鳴，例如這一段“在經歷了迷茫與掙扎后，三十歲的我們，終于在歲月的沉淀中迎來了心態的升華……我們不再執著于將山定義為某種特定的模樣，而是學會了接納它的全部。”

筆者認為，文心 4.5 Turbo 的文本生成 / 創造能力或許已達到商用級別，邏輯連貫性、情感表達優于 GPT 4.1。

案例二：視頻內容理解與續寫

上面的任務還是太簡單了，開始上難度。

筆者察覺，自步入三十歲門檻之后，每日的生活軌跡便局限于公司與住所的兩點一線之間，就好像電影《楚門的世界》一樣，仿佛一切均已預先編排。為此，筆者上傳了一段時長 57 秒的《楚門的世界》經典結尾片段，并拋出一個創作任務——「根據這部電影之前的情節，續寫結尾，要求深刻、有創意、出?意料且合情合理」。

實測內容：

實測結果：文心 4.5Turbo 展現了出色跨模態信息融合與深度關聯能力，能結合視覺與文本信息進行創作。

例如能準確識別視頻中的關鍵隱喻元素（如人造天空、導演控制室），續寫內容在保持原作黑色幽默風格的同時，提出合理的情節發展（筆者認為續寫結局雖非驚艷，但合理）。這種水平的視頻理解能力，或許已能滿足短視頻平臺 70% 以上的自動化內容生產需求。

基于前述兩個案例的測評分析，筆者對文心大模型的技術能力形成了更為明確的認知框架。在此基礎上，現將測評視角轉向另一款新模型——文心大模型 X1 Turbo。

基于文心 4.5 Turbo，X1 升級到 X1 Turbo，性能提升的同時，具備更先進的思維鏈，問答、創作、邏輯推理、工具調用和多模態能力進一步增強。技術亮點之一就是打造了“數據挖掘與合成 - 數據分析與評估 - 模型能力反饋”的數據建設閉環，為模型訓練源源不斷地生產知識密度高、數據多樣、領域覆蓋廣的大規模數據，同時，數據建設流程具備良好的可擴展性，可輕松遷移到全新的數據類型，實現快速、高效的數據生產。

按照慣例，筆者也測了 2 個典型的案例，分別從深度思考和多工具調用角度來看一下效果。

案例三：深度思考與銳評能力

今年五一假期馬上來臨，筆者在文心一言上輸入「請銳評下五一期間各大景區人從眾的現象」問題，僅僅 30 秒就給出了答案。

實測內容：

實測結果：

從現象背后的供需失衡、矛盾凸顯帶來的雙重挑戰、破局之道 3 個維度進行銳評。并且還給出了結論：五一景區“人從眾”現象，既是旅游市場復蘇的喜訊，也是行業轉型的警鐘。通過供需兩端協同發力，制度與技術雙輪驅動，才能讓旅游業從“流量狂歡”走向“質量發展”。

這種讓“流量思維”→“留量思維”的解題之道，具備一定哲理性。體現了 X1 Turbo 的思維鏈更接近人類專家，能結合社會背景進行辯證分析。

案例四：多工具調用與圖表繪制

筆者又輸入一個旅游攻略問題，即「五一期間我計劃帶 60 歲的??去旅游，請查詢去年五一假期北京周邊?眾旅游景點的游客體驗評價和游客數量，以表格形式呈現，并為我規劃一個三天兩晚的旅游攻略，要求專業、細致」。

實測內容：

實測結果：輸出的內容詳細，先是通過深度搜索、圖表繪制能力，自動生成《2024 年五一假期北京周邊小眾景點游客數據及體驗評價》表格；再是調用百度地圖 API 等來獲取實時交通信息，給出一份詳細的三天兩晚旅游攻略，從幾點出發、乘坐什么交通工具、景點怎么拍照，再到推薦美食、酒店等細節都有。特別考慮到老年人需求，攻略避免長時間步行。

通過該測評結果來看，查詢信息快和準，整個流程耗時不到 2 分鐘，較人工規劃效率提升 20 倍以上。這種端到端任務解決能力在企業服務市場具有重要商業價值。

目前來看，文心 4.5 Turbo 適用場景包括多模態創作（圖文生成、視頻腳本等），長文本處理（報告撰寫、小說續寫等），低成本企業部署（客服、內容審核等）。文心 X1 Turbo 適用場景是深度分析（行業報告、政策解讀等），復雜任務（數據查詢 + 圖表生成等），工具聯動（自動編程、科研輔助等）……

筆者根據實測建議：對創意要求高優先用 4.5Turbo，需要邏輯推理 + 工具調用優先選 X1 Turbo。

2 核心技術解析：為何性能提升，價格下降？

除了放出新模型，百度這次在模型的實現方法上也透露了更多技術細節。畢竟文心 4.5 Turbo 和 X1Turbo 的高效表現，離不開在模型架構、訓練方法、數據優化等核心能力上的突破。

具體到技術亮點上，文心 4.5Turbo 和 X1Turbo 的關鍵技術包括：

一是后訓練方面，研制了自反饋增強的技術框架，基于大模型自身的生成和評估反饋能力，實現了“訓練－生成－反饋－增強”的模型迭代閉環，不僅解決了大模型對齊過程中數據生產難度大、成本高、速度慢等問題，而且顯著降低了模型幻覺，提升了模型理解和處理復雜任務的效果。

在訓練階段，研制了融合偏好學習的強化學習技術，通過多元統一獎勵機制，提升了對結果質量判別的準確率，通過離線偏好學習和在線強化學習統一優化，進一步提升了數據利用效率和訓練穩定性，并增強了模型對高質量結果的感知。得益于偏好信號與獎勵信號的融合運用，模型的理解、生成、邏輯推理和記憶等能力得以全面提升。

二是在深度思考方面，突破了僅基于思維鏈優化的范式，在思考路徑中結合工具調用，構建了融合思考和行動的復合思維鏈，模型解決問題能力得到顯著提升。同時，結合多元統一的獎勵機制，實現了長距離思維和行動鏈的端到端優化，顯著提升了跨領域解決問題的能力。

三是在數據方面，針對特定領域的數據稀缺問題，研制了原理驅動、過程評估與結果校驗的數據合成技術；針對高價值、專業深度知識數據稀缺問題，研制了知識點驅動的大規模稀缺數據挖掘技術等等。

多模態數據方面，針對不同模態數據割裂、跨模態語義關聯難度大等問題，提出了融合語義對齊的多模態平行數據構建、融合視覺知識的描述生成等技術，大幅提升不同模態數據的對齊精度和深度語義關聯，增強多模態理解能力。

據了解，兩款新大模型背后的核心技術是文心和飛槳聯合優化，既包括框架－模型的聯合優化，也包括框架－算力的聯合優化。既有提升訓練性能的創新，也有提升推理吞吐的創新。

例如在訓練方面，文心多模態統一的掩碼注意力加速，就是利用飛槳已有的塊狀掩碼注意力加速技術，顯著降低不同模態混合計算注意力時的掩碼構建和計算開銷，大幅提升訓練性能；推理方面，多模態流式分塊預填充機制，減少首 token 耗時，同時減少推理計算的顯存峰值，提升推理批次大小，提升吞吐性能。綜合運用這些聯合優化技術，文心 4.5Turbo 訓練吞吐是文心 4.5 的 5.4 倍，推理吞吐達到 8 倍。

飛槳框架 3.0 具備動靜統一、訓推一體的技術特色，并在自動并行、神經網絡編譯器、高階自動微分等方面創新突破，為大模型時代的技術創新與產業應用提供強有力的支撐，為開發者打造了一站式、高性能的深度學習開發體驗。

官方數據顯示，動靜統一自動并行，使得大模型分布式訓練代碼減少 80%；大模型訓推一體，幫助強化學習訓練提速 114%；科學計算高階微分，微分方程求解速度比 PyTorch 快 115%；神經網絡編譯器，提升框架通用性能，模型端到端訓練速度提升 27%；異構多芯適配，飛槳已適配國內外 60 多個系列芯片，加速軟硬協同優化。

據悉，飛槳和文心的開發者數量已經超過了 2185 萬，服務超過 67 萬家企業，創建的模型達到 110 萬。

性能提升的同時，文心大模型的成本與價格在持續下降。

百度基于在芯片層、框架層、模型層和應用層的全棧自研布局，所以在模型 API 價格上體現出了優勢——文心大模型 4.5 Turbo 每百萬 token 的輸入價格僅為 0.8 元，僅為 DeepSeek-V3 的 40%。文心大模型 X1 Turbo，輸入價格僅為每千 token 1 元，僅為 DeepSeek-R1 的 25%。

百度創始人李彥宏認為，當前開發者做 AI 應用的一大阻礙，就是大模型成本高、用不起。成本降低后，開發者和創業者們才可以放心大膽地做開發，企業才能夠低成本地部署大模型，最終推動各行各業應用的爆發。

3 加速大模型布局，堅決投入下一代

2025 年，百度還將迎來“大模型之年”。有媒體稱，百度將在 6 月 30 日正式開源文心大模型，預計今年下半年，還將發布文心大模型 5.0。

透過百度過去、現在和未來在大模型上的動作與規劃，我們來剖析其在大模型上的策略。

時間拉回到 2019 年 3 月，百度發布了文心大模型 1.0，成為國內最早布局大模型的企業之一。彼時，全球 AI 行業正處于 BERT/GPT-2 時代，而國內大模型的發展仍處于早期階段：

國外 OpenAI 的 GPT-2（2019 年 2 月發布）和 Google 的 BERT（2018 年）是主流，但中文能力有限；國內除百度外，阿里、騰訊等巨頭尚未大規模投入大模型，創業公司如瀾舟科技、智譜 AI 等仍在技術積累期。

2020—2022 年，文心一言開始迭代加速（2.0-3.0 版本），布局多模態與行業落地。這一時期，文心大模型從純文本向多模態、場景化演進，并逐步開放商用。技術上從通用模型走向“通用 + 垂直”并行，解決行業痛點（如醫療問答、金融報告生成）。生態上通過百度飛槳（PaddlePaddle）平臺吸引開發者，構建 AI 應用生態。

彼時，國內大模型進入爆發期，例如阿里推出“通義千問”，華為發布“盤古”，但百度憑借中文數據 + 搜索生態占據一定的先發優勢。

2023—2025 年，文心一言全面對標 GPT，ChatGPT（2022 年底）引爆全球 AI 熱潮，百度加速推進大模型商業化：

文心 4.0（2023 年）參數規模未公開，但官方稱多模態能力接近 GPT-4，并推出插件系統（類似 ChatGPT 的 Code Interpreter），重點優化邏輯推理和長文本記憶，支持 10 萬 +token 上下文窗口。
文心 4.5Turbo & X1Turbo 能力更強、成本更低。相比文心 4.5，文心大模型 4.5 Turbo 速度更快，價格下降 80%。文心大模型 X1 Turbo 相比文心 X1，性能提升的同時，價格再降 50%。X1 Turbo 引入“思維鏈 + 工具調用”復合架構，適合復雜任務（如數據分析、科研輔助）。

整體來看，文心大模型形成了從模型到工具平臺的完整體系，包括文心 4.0、4.5、X1 等旗艦模型，文圖生成模型，場景模型和輕量模型，文心一言和智能體，以及賦能開發者的數據生產、后訓練、推理部署和場景化工具等，支撐開發者靈活高效地進行應用創新。

梳理百度近五年的發展軌跡，不難發現其正全力加速推進大模型。與此同時，百度一直在推崇的智能體領域，也即將要爆發。

當前，智能體已成為 AI 應用的代名詞。無論從行業發展的外部趨勢，還是百度自身能力延伸的內部視角考量，百度押注智能體領域無疑是一項明智的戰略抉擇。

代碼智能體 Coding Agent，是最近半年 AI 應用進展最快、最火的賽道。全球陸續涌現了 cursor、devin、lovable 等一系列代碼智能體。

在百度看來，多智能體協作是下一個高價值的 AI 應用方向。未來的 AI 應用將從回答問題走向任務交付，而任何一個復雜任務的交付，都需要多智能體的協作來解析需求、分拆任務、調度資源、規劃執行，最終交付結果。

筆者認為，百度作為大模型領域一貫的先頭兵，未來從模型到應用，越來越找到了自己的步伐。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.