“不去想困難,干就完了,一步一步往前走。”
作者 |小葳
圖片來源|攝圖
“芯片問題其實沒必要擔心”、“我們用數學補物理、非摩爾補摩爾,用群計算補單芯片,在結果上也能達到實用狀況。”
不久前,華為首席執行官任正非接受媒體采訪的內容,引發科技界廣泛關注。其中“用群計算補單芯片”的技術突破指的就是昇騰384超節點。
今年5月,華為在鯤鵬昇騰開發者大會推出昇騰384超節點。其原理是通過華為自研的高速總線互聯技術,創新提出了對等計算架構,并把總線從服務器內部,擴展到整機柜、甚至跨機柜,將384張昇騰卡無縫集成為一個集群。通過超高通信帶寬和納秒級通信時延,昇騰384超節點能夠讓一個集群如同單一計算機般協同工作,其首次實現了在一個超節點域內即可完成DeepSeek V3/R1所有的專家并行(EP)。
這一突破的意義遠超技術本身。
人工智能是全球科技競爭的關鍵領域。當對手試圖通過切斷先進芯片供應、乃至全球禁止使用昇騰芯片來遏制我們的AI產業發展時,從DeepSeek到昇騰384超節點都一再證明:即使在面臨核心制約的逆風局下,通過算力架構創新、算法結構創新,中國科技企業不僅能實現模型與算力的雙突破,更從根本上動搖了外部技術封鎖的有效性。
對于今年中國人工智能產業的一系列突破,不久前美國主流媒體報道稱“這是個讓人很難接受的現實,但中國科技的確在封鎖中取得進步,因為中國企業家找到了用較少資源實現更多目標的創新之道。”
昇騰384超節點破局的底氣來自華為在根技術、根生態的深耕。它不僅提供了當下可用的算力解決方案,更開啟了一條依托系統工程與集群智能,實現AI算力自主可控并持續躍升的產業新范式。
路徑創新,中國AI產業不容小覷的后發優勢
從DeepSeek到昇騰384超節點,回顧中國AI力量的發展會發現,每一次重大技術突破都是依靠路徑創新。
DeepSeek通過高效模型架構、高效強化學習、高效算力利用等一系列工程與算法協同創新,實現更強推理能力并大幅降低了模型訓練成本。這背后是混合專家架構DeepSeek MoE、群組相對策略優化(GRPO)、多頭潛在注意力機制(MLA)、多Token預測(MTP)等一系列技術的綜合運用。
比如,此前以GPT為代表的模型,需要大量人工標注的高質量數據進行監督微調,再通過人類反饋的強化學習(RLHF)指導模型改進。而DeepSeek探索出了一條全新的道路,通過群組相對策略優化(GRPO)等技術,可以不依賴大量人工標注數據,單純通過強化學習(RL),讓模型獲得同樣強大的推理能力。
昇騰384超節點同樣打破了原有規則,開拓了一條全新的道路。
CPU時代的服務器通過以太網絡進行跨機互聯,通信帶寬較低。這種通信架構到了GPU/NPU/XPU為主的AI時代,服務器跨機帶寬已成為訓練的核心阻礙。尤其是當MoE模型成為主流的模型架構,TP/PP/SP/EP等混合并行策略日益復雜,傳統通信架構更加捉襟見肘。
基于華為在ICT領域的根技術積累,昇騰384超節點創新提出對等計算架構,替代以CPU為中心的馮諾依曼架構。在一個超節點范圍內,用高速總線互聯替代傳統以太網絡,將通信帶寬提升了15倍;單跳通信時延也從2微秒降低到200納秒,降低了10倍。經過硅基流動實測,單用戶 20 TPS 水平前提下,昇騰384超節點單卡 Decode 吞吐突破 1920 Tokens / s,可比肩 H100 部署性能。
前沿科技領域,先發者的確有制定規則、引領技術發展的優勢,但其技術路線不一定一直是最優解,后發者也不一定會一直落后。只有架構創新,才能讓后發者打破領先者既定的游戲規則和玩法,重新開一局。
然而架構創新并非一蹴而就,以昇騰384超節點為例,筆者認為其技術突破的背后離不開幾個核心因素。
首先,持續投入基礎研究,是架構創新的前提。
基礎研究需要長期主義的時間耐力與資金定力,缺一不可。過去10年華為累計研發投入12490億,平均每年超千億。2024年華為研發總投入1800億,其中600億投入基礎理論研究,不設考核指標。
任正非也一直強調基礎研究的重要性,“基礎研究不止5—10年,一般要10年、20年或更長的時間。如果不搞基礎研究,就沒根。即使葉茂,欣欣向榮,風一吹就會倒的。”超節點技術的突破,正是華為在ICT、芯片、光通信等領域數十年技術積累的厚積薄發。
其次,布局AI算力產業的戰略級定力。
架構創新是貫穿昇騰計算產業發展的戰略級方向之一。早在2018年,華為首次發布AI發展戰略時,排在首位的就是投資基礎研究,這也為后續架構創新指明方向。2019年,華為發布整體計算戰略時,就把架構創新作為四大戰略舉措之首,提出用創新的處理器架構來匹配算力的增速。2023年,華為發布All Intelligence戰略,提出持續投入,不斷探索,構建起根技術優勢。
第三,抓住計算系統結構性變革機遇。
隨著模型參數規模和結構復雜度不斷升級,算力集群規模也從千卡邁入萬卡、10萬卡時代。由此引發計算系統發生結構性變革,歷經單芯片——多芯片互聯——集群通信的演進,算力基礎設施已經從“強單體”升級為“強系統”。對于企業等AI需求側,更加關注的是系統算力性能,而不再是單處理器性能,這也為昇騰“超節點+集群”系統算力解決方案提供了創新空間。
深度開放,擴大中國AI全球朋友圈
正是超節點等核心技術的突破,讓競爭對手看到了昇騰的強大,出臺各種禁令。筆者認為,相比技術,讓對手更慌的其實是我們的AI產業生態。
2025年5月,在臺北國際電腦展期間,英偉達首席執行官黃仁勛就在媒體采訪中表達了對中國AI生態的警惕。
“眼下正值競爭對手迅速追趕、加速布局的關鍵時刻,我們卻選擇限制自身技術在全球的擴散,是搬起石頭砸自己的腳”、“如果我們選擇放棄參與,讓中國構建出一個完整而繁榮的本土生態系統,而美國企業又完全缺席,那么未來主導這個新平臺的就將不再是美國。”
顯然,AI時代的計算產業生態,領先者恒強的模式已經被打破,技術封鎖只會故步自封,誰更開放、誰更創新,誰才能夠在未來的產業版圖中占據不敗之地。
過去6年來,昇騰加速構建起一套全面對標的AI生態體系,并且以更加開放創新的戰略,加速躍遷到開源開放生態的發展階段:
在編程語言方面,2023年5月AscendC語言發布,通過開發者友好的方式,提供基于昇騰AI硬件高效開發算子的全新語言;
在AI框架方面,2020年3月昇思MindSpore開源,其高效分布式并行、圖算深度融合等關鍵特性一直在持續演進;
在計算架構方面,2023年起CANN堅持深度開放,目前已開源算子加速庫、通信算法、Ascend C、集合通信庫等核心組件,同時發布CATLASS算子模板庫、開放190+Runtime運行時接口等,進一步降低開發門檻,提升開發體驗;
在編譯器方面,畢昇編譯器已將Ascend NPU IR接口開放,實現無感對接Triton、FlagTree等基于Python 的算子編程框架;
算子加速庫方面,昇騰AOL算子加速庫通過基礎算子和融合算子,為開發者提供豐富的參考樣例,提升創新效率。
雖然目前昇騰生態還在發展初期,但已展現出強大生命力。正是通過開放創新戰略,不斷降低開發者使用門檻、提升開發效率,昇騰贏得越來越多AI開發者的青睞。
目前昇騰全球開發者突破330萬,核心開發者達到5萬。在中國通過與眾多高校合作,昇騰累計培養了40多萬名學昇騰、懂昇騰的學生,如今他們已經步入千行萬業,成為中國AI產業發展的中堅力量。
同樣,只有開放創新,才能讓一個計算產業生態在全球獲得越來越廣的朋友圈。近年來,昇騰不斷加大與主流第三方AI生態的兼容,比如目前Pytorch、vLLM全面支持昇騰。昇騰通過開展大量技術和生態合作,為全球開發者提供了極致開發體驗的同時,也為全球AI開源生態持續貢獻中國力量。
結語
當記者問到,面對外部封鎖打壓心里怎么想時,任正非的回答是:“沒有想過,想也沒有用。不去想困難,干就完了,一步一步往前走。”
歷史證明,封鎖從未扼殺進步,只會加速創新范式的迭代。
從DeepSeek到昇騰384超節點,不僅是技術突破,更是中國式創新的隱喻:中國正從技術追趕者變為新框架的探索者與構建者。
放眼未來,我們期待全球AI產業見證更多中國創新力量的崛起。
本文為「智能進化論」原創作品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.