華為態度兩極反轉,從“絕不開源”到主動開放
短短兩年,華為對盤古大模型的態度,來了個180 度大轉彎。
還記得2023年,華為云開發者大會上,華為常務董事、華為云CEO張平安正式發布盤古3.0大模型時,明確表示盤古大模型不會開源。
圖源:抖音
做出這一決定,在當時對華為來說并不是任性而為。
彼時,國際科技競爭激烈,“卡脖子”風險高懸頭頂。
而華為盤古大模型走的是全棧自研路線,從底層芯片到模型算法,每一步都是華為自己研發出來的,沒有采用任何開源技術。
并且,據張平安介紹,盤古大模型定位是行業賦能,深度應用在礦山、電力等眾多領域,涉及大量客戶機密數據,開源可能會帶來數據泄露的安全隱患。
直到今天,2025年6月30日,華為畫風突變,正式宣布開源盤古70億參數的稠密模型以及盤古Pro MoE 720億參數的混合專家模型,還一并開源了基于昇騰的模型推理技術。
圖源:微信
今時不同往日,華為的這一決策背后,是外部環境變化、技術成熟度的提升以及對生態建設的深遠考量。
此次開源的盤古70億參數的稠密模型,具有參數量適中、性能均衡、部署門檻較低的特點。它在智能客服、知識庫等多種場景中均可應用,能夠為不同行業的企業提供高效、靈活的解決方案。
模型的開源,意味著更多的開發者和企業可以基于它進行二次開發和創新,從而推動人工智能在更多領域的應用落地。
而盤古Pro MoE 720億參數的混合專家模型,更是“王炸”級別的存在。
它獨創MoGE(分組混合專家)架構,通過動態激活專家網絡,僅需160億激活參數,就能媲美千億級模型的性能。
比如在SuperCLUE 2025年5月的開源模型排行榜上,盤古Pro MoE 72B名列前茅,與阿里的Qwen3-32B(Thinking)一齊成為千億以下超強性能的國產開源大模型。
圖源:SuperCLUE官網
再說說基于昇騰平臺的模型推理技術。
據華為方面介紹:“我們以前很少對外發聲,盤古也沒有開源,所以大家對昇騰算力具體的情況不是特別了解,對模型的情況也不了解,外界就充滿了猜疑。甚至認為昇騰訓練不出來先進的大模型?!?/p>
“昇騰算力能夠訓練出世界一流的大模型,訓練高效率,推理高性能,系統高可用。第三方模型遷移到昇騰上可以做到:Day0遷移,一鍵部署。”
值得注意的是,華為此前曾強調盤古大模型與ChatGPT不在同一軌道。
ChatGPT 走的是 Transformer 架構的“暴力美學”路線,更偏向消費級對話場景;而盤古采用Encoder - Decoder架構,在多模態融合和物理推理上優勢明顯,聚焦工業、氣象等垂直領域。
就拿氣象預測來說,盤古的氣象模型預測速度比傳統方法快1萬倍,還被歐洲中期天氣預報中心采用,這是兩者的本質區別。
華為開源背后的戰術考量
其實,今年以來,中國AI 行業掀起了一股開源熱潮,多家企業都改變了閉源的思路,其中就包括大家耳熟能詳的OpenAI,還有百度。
要說是什么讓這些大佬紛紛轉變態度,DeepSeek的橫空出世居功至偉。
秉持著開源理念的DeepSeek用更小的訓練成本卻帶來了性能媲美國內外頂尖模型的DeepSeek-R1,并將推理模型向全球數十億用戶普及,給了以往堅持“閉源才是王道”的企業足夠的心靈沖擊。
圖源:抖音
在這樣的背景下,華為此次宣布開源盤古大模型,可以說是順應潮流,但其背后也有自己的考量。
華為官方表示,開源盤古大模型是踐行昇騰生態戰略的關鍵舉措,旨在推動大模型技術的研究與創新發展,加速人工智能在千行百業的應用與價值創造。
從華為的角度來看,這一決策確實能為其帶來不少潛在好處。
一方面,盤古模型深度依賴昇騰芯片,開源后企業若想更好的落地應用,就需要采購昇騰服務器或云服務,這能大大加速昇騰芯片的規模化滲透,搶占國產算力市場;
圖源:開源開發者平臺GitGo
另一方面,不同規模的開源模型能吸引不同需求的開發者,例如盤古70億模型適合高??蒲?,而Pro MoE模型則更吸引企業開發者。
通過開源吸引更多ISV(獨立軟件開發商)加入昇騰生態,形成“模型-工具-應用”的正向循環;
再者,開源能夠加速人工智能技術的普及和應用。隨著盤古大模型的開源,企業和開發者又多了一種以低的成本獲取強大AI技術實力的方式,從而推動人工智能在更多行業的應用和落地。
此外,開源還能夠提升華為在國際AI領域的影響力和話語權。一舉多得,何樂而不為?
中國AI百花齊放,百家爭鳴
如今的中國AI 領域,可謂是百花齊放、百家爭鳴,幾家領先的人工智能企業都在各自賽道上發力,不斷推陳出新。
阿里通義千問持續升級迭代。先是在5月9日發布通義千問2.5版本,相比之前,理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%。
前幾天又發布了多模態統一理解與生成模型Qwen VLo,支持文本、圖像、視頻多模態理解與生成,在電商領域,還能自動生成商品詳情頁和營銷文案,效率提升300%,妥妥的“全能王”。
圖源:微博
字節跳動豆包也是動作頻頻。6月11日,火山引擎發布豆包大模型1.6、豆包視頻生成模型Seedance 1.0 pro、豆包語音播客模型,并升級Agent開發平臺等AI云原生服務。
而同樣在今天,豆包公眾號宣布“深入研究”功能在App、網頁端、電腦版開啟測試,不斷拓展應用場景,力爭成為場景化的“爆款制造機”。
圖源:豆包
百度文心一言同樣在今天放出大招,正式開源文心大模型4.5系列10款模型,涵蓋47B、3B激活參數的混合專家(MoE)模型,與0.3B參數的稠密模型等,并實現了預訓練權重和推理代碼的完全開源。
文心大模型4.5系列在多文本和多模態基準測試中達到了SOTA水平(當前最高水平),尤其在指令遵循、世界知識記憶、視覺理解和多模態推理任務上表現出色。
圖源:微博
當然,華為的盤古大模型的最新成果也并沒有停留在上述提到的盤古Pro MoE 72B。
6月20日,盤古大模型迎來了5.5版本的發布,該版本的自然語言處理(NLP)能力比肩國際一流模型,并在多模態世界模型方面做到全國首創。
盤古大模型5.5包含了五大基礎模型,分別面向NLP、多模態、預測、科學計算、CV領域,進一步推動了大模型成為行業數智化轉型的核心動力。
盤古Ultra MoE、盤古Pro MoE、盤古Embedding等一系列模型的推出,不僅展示了華為在AI領域的深厚技術積累,也為行業提供了更多高效、實用的解決方案。
更為關鍵的是,盤古Ultra MoE是718B(7180億)參數的MoE深度思考模型。也就是說,華為甚至還小藏了一手,估計后續會有更重磅的開源。
所以DeepSeek呢?上面提到這么多優秀企業的發展進度,DeepSeek怎么樣了?
隨著2025年已經過去了一半,AI行業的蓬勃發展讓人們對DeepSeek R2的期待愈發強烈。DeepSeek的上一次更新,還停留在上個月。
5月底,DeepSeek R1迎來重磅更新,這次更新增強了模型的思維深度和推理能力,提升了響應速度和對話穩定性,減少了“遺忘設定”或“跑題”的情況。詳情可以關注我們的《》這篇文章。
而據多方消息透露,DeepSeek-R2的訓練成本有望降至0.07美元/百萬token,推理速度還能比R1快上2倍,并支持代碼、數學、法律等專業領域深度推理。
一旦發布,必將再次震撼整個行業。
作者 | 劉峰
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.