金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
一個大模型有了火星圖片,能做什么?
瞧,火星圖片在大模型的加持下,可以生成多視角圖片/視頻,構建出一個4D空間:
而且啊,這還是業界首個支持點云與視頻模態同時生成的大模型:
在空間漫游視圖下,也是可以做到全局3D一致,可以實時交互漫游:
并且全局光照編輯和動態互動效果生成也是不在話下:
那么這個要上火星的大模型,到底是何許AI也?
不賣關子,它就是華為云今天全新發布的基于盤古多模態大模型的世界模型。
這還僅僅是其中一隅,在華為開發者大會2025上,華為云對五大基礎模型都來了一波升級,包括:
盤古NLP大模型、盤古多模態大模型、盤古預測大模型、盤古科學計算大模型和盤古CV大模型。
那么盤古大模型5.5究竟在能力上提升了多少,我們這就深入了解一波。
國內領先,全球追平
我們先來看下新升級的盤古NLP大模型。
其中有兩項新技術特別值得關注——Pangu DeepDiver和低幻覺新方案,可以說是此次自身能力大幅提升的“殺手锏”。
首先是Pangu DeepDiver。
簡單而言,DeepDiver以Search Intensity Scaling(SIS)技術為核心,極大地提升了LLM和搜索引擎的交互效果。
因為傳統的LLM搜索增強訓練環境(如Wiki)過于“純凈”,缺乏真實互聯網中的噪聲與信息沖突,這就會導致模型在面對復雜實際問題時高階信息檢索和推理能力不足。
這種受限的訓練數據和環境,讓大語言模型難以學會根據實際情況動態決定何時何地進行搜索,也無法掌握根據需求調整搜索深度和頻率的技巧。
但借助SIS,模型就能根據問題的難易程度,動態調整搜索的頻率和深度,而不是勉強接受驗證不充分的答案。
因此,研究團隊認為,只有在真實的互聯網環境中,利用真實的網絡數據進行探索式訓練,才能讓模型真正具備高階的信息檢索和推理能力。
而Pangu DeepDiver正是通過在真實互聯網環境下進行探索式訓練,讓模型學會根據問題難度動態調整搜索頻率和深度。
在WebPuzzle和多項基準測試中,7B規模的DeepDiver表現出與671B DeepSeek-R1相當的能力。
這一成果驗證了該技術的有效性,也使得盤古NLP大模型在開域信息獲取能力上實現了質的飛躍,與其它大模型形成了明顯的差異化優勢。
其次是低幻覺新方案——多層次幻覺防御體系+閉環質量保證體系。
在數據層方面,作為解決大模型幻覺的基礎,華為通過控制數據質量、多樣性、知識含量及領域相關性減少幻覺誘因。
具體包括數據清洗預處理(去重、降噪、提升純凈度)、數據去重與高質量樣本選擇、知識密集型文本篩選、行業數據合成及權威知識庫構建。
在模型優化層,華為基于行業幻覺樣本,通過RL驅動進行幻覺抑制對齊訓練。
從事實準確性、邏輯一致性、溯源可靠性來評估思考過程,從結果準確性、內容一致性、用戶需求匹配度去綜合評估輸出;并采用 “幻覺懲罰為主、結果/偏好獎勵為輔” 策略,按 “事實校正→邏輯增強→風格優化” 路徑分層強化訓練。
在搜索增強層(RAG),華為從多維度消減幻覺:
- 檢索環節自研召回與精排模型(超越國際SOTA),創新SFT增強技術構建抗噪聲訓練數據;
- 輕量化集成搜索規劃算法(時延僅為主流方案10%);
- Table RAG彌補結構化數據問答短板;
- 支持多模態輸出(突破文本限制)。
在推理優化層,則是通過多種方式實時干預生成過程,包括:
解碼策略優化(優先高置信度輸出)、約束解碼(如Chain-of-Verification轉化可驗證子問題、Step-Back Prompting抽象原則指導推理)、溫度調度動態調節隨機性、結構化提示框架引導輸出結構,以及通過Self-Consistency多路徑推理投票、Token熵值分析檢測不確定性等自我反思驗證機制。
除了多層次幻覺防御體系之外,華為的低幻覺方案還包括人機協同、數據飛輪持續學習、評測中心、行業中控等環節,形成閉環質量保障體系;通過持續監控與優化、回歸測試等,確保模型在實際應用中不斷提升性能,維持低幻覺率。
那么在這兩套技術組合拳的加持之下,效果又如何呢?
以通用領域為例,華為Pangu Ultra MoE 718B深度思考模型在知識推理、開放式對話、工具調用、數學、代碼等領域的開源評測集中,均取得了國內領先的成績,達到與全球主流大模型持平的能力水平。
這得益于其獨特的架構設計和高效的訓練策略,模型在昇騰NPU平臺上全流程開發,通過系統級模擬器進行架構搜索,實現了計算效率、存儲約束與通信開銷的良好平衡,在預訓練和RL后訓練階段均展現出卓越的性能。
一句話概括,那就是——不依賴國外的芯片,我們也有實力打造出世界一流大模型!
已經扎進千行萬業
華為云此次升級并非紙上談兵,而是已經把盤古大模型應用到大量的行業場景中。
例如面對復雜的農業科學問題,中國農科院與華為云合作,共同打造了一個農業科學發現大模型。
這個大模型能夠精準推薦水稻株型改良的基因編輯位點,將方案設計時間從數月縮短到數周,同時保持極高的預測準確性。
農業科學發現大模型集成了知識計算引擎、數據分析引擎,以及大模型驅動的智能交互等核心模塊。
實現從“AI讀文獻篩選候選基因”到“AI分析多組學數據驗證基因功能”,再到“AI輔助設計實驗方案”的全流程數智化閉環。
相比傳統的方式,它對育種帶來顯著變革,集中體現在株型改良、流程優化與效率提升三個方面。
在性狀改良上,中國農科院利用大模型對水稻材料進行優化,改良后的水稻株高與常規品種相比降低約25%,抗倒伏能力大幅增強,同時產量不受影響。
在流程優化和效率提升方面,農業科學發現大模型在基因研究領域實現“數據驅動—智能預測—精準設計—高效驗證”新范式。
例如,針對水稻的某個重要基因,大模型可以通過預測編輯不同位點后基因功的變化,智能推薦多個高潛力編輯靶點。在農業科學早期研發階段可有效降低研發試錯成本,并顯著提升種質創制效率。
再如盤古預測大模型,它采用業界首創的Triplet Transformer統一預訓練架構,具備三大核心優勢:
- 多源數據融合能力:可將不同行業的異構數據(如工藝參數的表格數據、設備運行日志的時間序列數據、產品檢測的圖片數據等),統一轉化為三元組編碼格式;
- 高效處理框架:在同一架構內完成多模態數據的聯合處理與預訓練,顯著提升模型預測精度;
- 強泛化性優勢:通過跨行業、跨場景的統一訓練,大幅增強模型在不同工業場景中的適配能力。
目前,盤古預測大模型已在水泥、鋼鐵、有色金屬、供熱等多個工業領域落地應用,通過為客戶提供工藝優化與系統尋優解決方案,切實推動工業生產效率提升與智能化升級。
具體而言,海螺集團采用華為云盤古預測大模型,使用海螺集團100多個廠全部的生產數據進行預訓練,形成海螺M-MoE熟料強度預測大模型,實現了在所有不同廠區、不同產線都能達到85%以上的準確率。
這就使得海螺集團在生產的過程更加穩定,產品質量得到了有效保障,同時降低了能源消耗,為企業節省大量成本。
還有盤古CV大模型,這次華為云發布的全新MoE架構的300億參數視覺大模型,是目前業界最大的視覺模型,而且全面支持圖像,紅外、激光點云、光譜、雷達等多維度、泛視覺的感知、分析與決策。
另外,通過跨維度生成模型,能夠構建各個工業場景中稀缺的泛視覺故障樣本庫,極大提升了業務場景的可識別種類與精度。
例如中國石油便基于此打造了昆侖大模型,在勘探開發、煉油化工、裝備制造等100多個專業領域開展人工智能深度應用。
在裝備制造領域,攻克輸送管氣孔、裂紋等亞毫米級缺陷識別難題,缺陷識別效率提升40%,人工強度降低25%。
而且華為云憑借在30多個行業、500多個場景的豐富落地經驗,還沉淀了深厚的行業知識(Know-How);通過其ModelArts Studio大模型開發平臺,提供完備的AI工具鏈,包括基礎及行業大模型、預訓練和后訓練語料、數據工程工具集、模型訓練工具集、行業裁判模型、行業評測平臺等。
在華為云看來,企業不必重復造輪子,不必從零打造自己的企業大模型。于是,華為云以工程化的方式,向客戶提供了一條便捷、高效地通往行業智能化的路徑。
在數據準備階段,華為云構建了行業數據工程管線,以一站式數據工程平臺為依托,集成了數據清洗、增強、標注等豐富的算子及工作流。
這使得行業模型訓練所需的數據能夠快速、高質量地準備就緒,為模型訓練奠定了良好基礎。
模型增訓環節,華為云提供了開箱即用的行業模型增訓工作流,涵蓋行業基礎模型、SFT配比經驗、行業優化算法等關鍵流程與經驗參數。同時,針對不同場景,還提供了相應的行業獎勵模型,覆蓋主流行業規則偏好的專家評分機制。
在同等精度下,行業模型增訓工作流將訓練周期與成本降低60%,助力客戶高效、低門檻構建高質量的專屬大模型。
在模型評測環節,華為云打造的行業模型評測中心發揮了重要作用。
該中心沉淀了覆蓋金融、政務、油氣、礦山等8大行業、具備三層評測體系的評測集,并提供行業裁判模型。
客戶在進行模型調優時,有了明確的標準和依據,實現用AI訓練AI,不斷將專家評測經驗融入評測模型中。
整體看下來,華為云正以“技術創新+模型升級+行業深度落地”三輪驅動,讓 AI 從實驗室走向生產線,成為推動千行萬業智能化的核心引擎。
這不僅是技術的勝利,更是用智能重構產業價值的時代答卷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.