智東西
坐著 王涵
編輯 漠影
智東西5月20日報道,繼2025年4月25日百度在Create 2025 AI開發者大會上發布文心大模型4.5 Turbo及X1 Turbo后,百度于今日針對相關技術成果進行了深度解讀與數據更新。
在此次活動中,百度集團副總裁吳甜、中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰及用戶代表,圍繞文心大模型最新技術進展、全球大模型發展趨勢、大模型能力測評及文心大模型的使用體驗等內容展開分享。
回溯至4月25日,百度創始人李彥宏在Create 2025百度AI開發者大會上正式發布了文心大模型4.5 Turbo及X1 Turbo兩個新版本。他提到,當時市場上的部分模型仍存在模態單一、幻覺率高、響應速度慢及使用成本高等問題。為突破這些瓶頸,百度推出了具備多模態交互能力、強推理性能及低成本優勢的新一代文心大模型。
時隔一個月,百度通過AI開放日活動進一步披露了新模型的技術要點。吳甜在解讀中強調,文心大模型4.5Turbo在多模態訓練效率上實現1.98倍提升,其代碼智能體已為超過700萬名開發者提供服務支持。中國信通院主任曹峰還當場宣布,文心大模型X1 Turbo成為國內首個通過可信AI大模型推理能力評估的大模型。
一、學習效果提高1.98倍,多模態理解效果提升31.21%
文心大模型4.5 Turbo是基于4.5版本的多模態大模型,針對不同模態數據在結構、規模、知識密度上的差異,通過多模態異構專家建模、自適應分辨率視覺編碼、時空重排列的三維旋轉位置編碼、自適應模態感知損失計算等技術的全面升級。
百度集團副總裁吳甜分享到,這一升級大幅提升跨模態學習效率和多模態融合效果,學習效率提高1.98倍,多模態理解效果提升31.21%。
▲百度集團副總裁吳甜就技術創新進行講解
在后訓練方面,吳甜稱百度研制了自反饋增強的技術框架,基于大模型自身的生成和評估反饋能力,實現了“訓練-生成-反饋-增強”的模型迭代閉環。
她還講到,在訓練階段,文心通過融合偏好學習的強化學習技術,實現多元統一獎勵機制,提升了對結果質量判別的準確率。其中,多元統一的獎勵機制涵蓋了答案正確性、執行反饋、思想深度、指令遵循、工具調用合理性及回答多樣性等維度,指導模型行為向更優方向發展。
另外,深度思考模型訓練則模擬人類思維模式,設計了邊思考邊行動、先思考后行動、行動后反思調整等多種路徑,結合多元統一的獎勵機制,實現了思考和行動鏈的端到端優化,大幅提升了跨領域的問題解決能力。
數據建設是模型訓練的重要基礎。吳甜分享稱,文心大模型通過數據挖掘、合成、分析與評估的閉環流程,結合第一性原理驅動、稀缺數據挖掘及線上反饋數據融合,構建高質量訓練數據。多模態數據建設方面,動態平行數據構建和視覺知識引入進一步增強了模態間的信息共享。
在會上,吳甜還用多個應用案例,展現了文心大模型4.5 Turbo的多模態處理與理解能力,包括精準OCR與翻譯、復雜畫圖任務處理、視頻內容解析及多模態解題能力。
二、代碼智能體已服務700多萬名開發者,飛槳3.0框架提升異構多芯適配能力
吳甜在演講中提到,大模型的能力進一步拓展、效率進一步提升之后,可以探索更前瞻、更有想象力的創新應用。
在代碼場景上,基于文心大模型的語言和代碼能力,百度研制了代碼智能體和智能代碼助手——文心快碼。會上了解到,百度每天新增的代碼中,文心快碼生成的代碼占比已超過40%。據悉,文心快碼向全社會開放,截至目前已累計服務760萬名開發者。
數字人場景下,吳甜分享稱,百度研制了“劇本”驅動多模協同的超擬真數字人技術,實現了語言、聲音、形象的協調一致。目前該技術已應用于10萬以上的數字人主播,直播轉化率提升31%,直播開播成本下降80%。
她還特別強調,文心大模型的能力拓展和效率提升,得益于飛槳文心的聯合優化,包括框架模型的聯合優化,也包括框架算力的聯合優化。通過訓練和推理的技術創新,文心4.5 Turbo訓練吞吐達到文心4.5的5.4倍,推理吞吐達到8倍。
據悉,飛槳與文心生態已擁有2185萬名開發者、67萬家企事業單位及110萬個模型,并落地了7個產業賦能中心、7個教育創新中心和2個數據生態中心。
三、從分析到生成:全球大模型能力演進現狀
中國信通院人工智能研究所平臺與工程化部主任曹峰,就全球大模型能力演進現狀和趨勢進行了分享,還特別解讀了文心大模型的推理能力測評結果。
曹峰分享稱,自2017年起,人工智能在多個領域已超越人類能力。至2022年,大模型技術興起,推動人工智能能力快速演進,尤其在多元任務理解、代碼以及多模態理解等方面顯著提升。大模型不僅增強了基礎能力,還衍生出新的能力,如文檔編寫、代碼生成與融合、視頻和圖像生成等。
▲中國信通院人工智能研究所平臺與工程化部主任曹峰就全球大模型能力演進現狀和趨勢進行演講
大模型在文檔編寫領域實現了從簡單文案生成到復雜論文撰寫的全面覆蓋,顯著提升了內容創作的效率與質量。曹峰講到,在代碼編寫方面,大模型已超越基礎編程范疇,深度融入軟件工程流程,涵蓋代碼解釋、注釋添加、錯誤檢查以及測試用例生成等關鍵環節,極大增強了軟件開發的智能化水平。
此外,大模型在科研領域亦展現出巨大潛力,特別是在生物醫藥和材料研發等前沿領域得到廣泛應用,有效推動了科研進程,并顯著提升了自動駕駛仿真技術的精準度與可靠性。
四、大模型發展趨勢:更聰明、更便宜、更專業
曹峰認為,大模型的發展趨勢表現為大模型更聰明、訓練和推理成本更低、涌現出大量更專業的模型,推理模型內置思維鏈以及大模型向多模態方向發展。
他分析稱,基礎模型的規模與性能增長穩定,而推理模型的復雜推理和數學題解決能力顯著提升。通過架構優化,大模型的訓練和推理成本大幅降低,推理成本較初期下降了至少90%。
隨著技術的演進,行業內出現大量專業模型,如代碼模型、科學模型等,這些專業模型擅長解決特定領域問題;推理模型將人類思考過程融入模型本身,從而提升專業知識和輸出能力;多模態模型融合生成與理解能力,并探索強化學習融入,以提升慢思考能力。
盡管當前大模型的能力顯著增強,但其仍存在不可解釋性、在確定性要求高的場景下容易出現幻覺問題、面臨動態場景下的實時學習挑戰,以及在特定場景下存在數據獲取困難等諸多問題。
五、國內首款!文心X1 Turbo通過可信AI大模型推理能力評估
曹峰在演講中提到,大模型輸出結果評估方法正加速演進。在大模型基準測試中,對模型結果進行評估最為關鍵,評估方法一般分為人工評估、自動化評估與大模型作為裁判三種形式,其中能力最強的大模型代替人工評估的方式得到廣泛關注。
大模型評測機制和體系圍繞大模型發展不斷創新,其測試關鍵技術創新包括模型缺陷自動挖掘、真實性場景測試、高水平測試數據以及人機對齊的裁判模型。
曹峰認為基礎模型沿多維方向持續拓展。回顧2024年,大模型已實現從語言大模型向深度復雜推理及多模態側多維度能力拓展,包括多模態拓展能力邊界、端側部署加快模型應用等。展望2025年,他預測到,隨著大模型技術的創新發展,多模態與復雜推理將持續突破,端側加速落地,垂直領域精準深耕,具身智能嶄露頭角,合力驅動產業升級。
在最后,曹峰還特別展示了百度文心大模型X1 Turbo的測評結果,并頒發中國信通院可信AI大模型推理能力評估證書。
百度文心大模型X1 Turbo在24項能力評估中,16項達5分、7項達4分、1項達3分,綜合評級獲當前最高級“4+級”,成為國內首款通過該測評的大模型。
他進一步解釋稱,評估結果表明,文心X1 Turbo擅長結構化的邏輯思考,并具備平衡模型能力與效率的優化技術,其有效的數據機制保障了模型的可信及可用程度,其推理服務能廣泛支持各類應用。文心X1 Turbo強化推理泛化能力,拓寬工具鏈應用生態,加強安全機制建設,構筑可信應用保障壁壘。
▲中國信通院可信AI大模型推理能力評估證書
結語:技術的價值最終體現在用戶身上
在大會尾聲環節,百度特別邀請一位16歲的大語言模型用戶作為嘉賓出席。該用戶結合自身經歷,闡述了使用大語言模型對其生活產生的具體影響。
在人工智能技術發展初期,社會各界曾就其潛在影響展開討論,主要關注點包括人工智能是否可能替代人類工作崗位,甚至引發對人類社會主導權的擔憂。而此次受邀用戶的分享,以個體視角呈現了人工智能技術對普通民眾日常生活的實際改變。
當大模型學會像人類一樣感知世界,像人類一樣思考和行動并自我進化,技術進步便真正轉化為普惠的社會紅利。正如該用戶所說:“技術真正的魅力不是驚艷誰,而是真正解決一個又一個真實的問題……AI的大門已經打開,就看你愿不愿意走進去。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.