99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不會吧!OpenAI 發(fā)布新 O3 和 4o-mini,居然得看算力基礎設施的臉色?

0
分享至

作者|ZOMI 醬,華為昇騰生態(tài)技術首席

編輯|羅燕珊

2025 年 4 月伊始,正值中國清明假期,太平洋彼岸的 Meta 公司便發(fā)布了 Llama 4 模型。該模型參考了 DeepSeek 的技術,采用 FP8 精度訓練的 MoE 架構,并且是訓練原生的多模態(tài)模型。此次發(fā)布包含兩種尺寸的模型,盡管如此,其實際測試效果卻不盡如人意,這在 AI 圈內引發(fā)了軒然大波。緊接著,Google 推出了 A2A 協(xié)議(Agent2Agent),旨在解決未來多智能體之間如何溝通協(xié)作的問題。一時間,關于 MCP 與 A2A 是否可替代、能否互競的討論再度升溫。4 月 16 日,OpenAI 再接再厲,正式發(fā)布了兩款全新的人工智能推理模型,o3 與 o4-mini,開啟 AI“看圖思考”能力。


將時間線稍微拉長,回溯到 2025 年春節(jié)以來的短短數(shù)月,足以讓我們深切感受到 AI 領域變化之迅猛。曾經(jīng)的“各領風騷三五月”,如今已縮短為“只領風騷兩三周”的節(jié)奏,并且這種加速的趨勢仍在持續(xù)。

  1. 模型方面:

  • LLM 與多模態(tài)領域:阿里的 Qwen 系列、Google 的 Gemini 系列、OpenAI 的 GPT 系列,以及 DeepSeek 的多篇前沿論文(如 NSA、GRM)和 KIMI 與 DeepSeek“撞車”的 MoBA 模型,紛紛“你方唱罷我登場”,各展風采。

  • AI4S、具身智能等方向:雖然探索從未停歇,但與大語言模型領域不同,尚未收斂到一個統(tǒng)一的架構上持續(xù)深化、優(yōu)化,仍在時序模型、圖神經(jīng)網(wǎng)絡(GNN)、圖注意力網(wǎng)絡(GAT)、擴散模型、時空變換網(wǎng)絡(STTN)等多個方向持續(xù)探索。

  • 類 Sora 文生視頻模型:包括快手的可靈、字節(jié)的即夢、阿里的萬象等,基本都圍繞擴散模型范式展開,發(fā)展節(jié)奏介于 LLM 和 AI4S 之間。國內傳媒院校以及奧美等 4A 級廣告公司也開始涉足應用,抖音、快手等平臺上已有大量 AI 生成的短視頻,其觀看流量迅速增長。看似“百花齊放春滿園”,實際滿園一種花。

智能體方面:

  • 繼 Open AI 發(fā)布 DeepResearch,Google 和 xAI 也發(fā)布了各自對標的 DeepSearch 后,真正將 Agent 熱潮點燃的是 Monica 與 3 月 6 日凌晨發(fā)布的 Manus。緊接著,開源復刻的 OpenManus、OWL 相繼問世,并進一步帶動了 MCP(Model Context Protocol)及智能體間通信協(xié)議(如 ANP、如 IEEE SA-P3394 標準等)的科普。

AI 原生應用方面:

  • 騰訊公司低調發(fā)布了 IMA 應用(手機應用商店可下載),并迅速在年輕知識工作者中形成了良好的口碑效應。


本文將基于以上快速變化的背景,聚焦于推動 AI 技術飛躍發(fā)展背后的關鍵引擎——大模型訓練過程。無論是備受矚目的 Llama 4 發(fā)布、智能體領域協(xié)議之爭,還是迅速迭代的大模型架構背后,都離不開強大的算力基礎設施作為支撐。事實上,當前的人工智能競賽早已進入到算力驅動時代,算力的規(guī)模、效率與穩(wěn)定性直接決定了大模型迭代速度與效果。

接下來,我們將深入介紹大模型訓練的一般流程,探討其面臨的具體挑戰(zhàn)、技術細節(jié)以及未來發(fā)展的關鍵趨勢。

算力基礎設施與生態(tài)系統(tǒng)的構建已成為推動大模型發(fā)展的關鍵。6 月 27—28 日,在 2025 AICon 全球人工智能開發(fā)與應用大會(北京站),我們特別策劃了 【AI 基礎設施與生態(tài)構建】 專題,由華為昇騰生態(tài)技術首席 ZOMI 醬出品,邀請了來自阿里、螞蟻以及 SGLang 等組織 / 企業(yè)的資深技術專家和實踐者,分享他們在實際項目中的一線經(jīng)驗。歡迎業(yè)界同仁關注并參與交流,欲了解更多內容,可訪問大會官網(wǎng):

https://aicon.infoq.cn/2025/beijing/schedule

大模型訓練的一般流程

所有的大模型和智能,都離不開算力。而我們離理想中的完美大模型訓練系統(tǒng)還很遙遠。實際上訓練算法團隊、模型團隊、AIInfra 團隊需要深度地融合,逐步實現(xiàn)從百卡、千卡、萬卡、十萬卡的突破。大模型訓練是一個復雜且資源密集的過程,涉及多個階段:

模型研究和初啟動階段

在這個階段,模型研究團隊通過單點研究完成模型設計,并將大模型部署到集群上進行初步訓練。初期可能會遇到數(shù)據(jù)吞吐、數(shù)據(jù)對齊等問題,但這些問題通常在模型啟動初期就能被發(fā)現(xiàn)并解決。例如,數(shù)據(jù)對齊問題可能導致模型在不同節(jié)點上的梯度計算不一致,從而影響訓練效果。但是這些問題很快就被發(fā)現(xiàn)了,因為在模型啟動初期。便開始繼續(xù)訓練。

邊開車邊修車——應對災難性問題

在研發(fā)過程中,大模型團隊可能會遇到“災難性問題”,如隱藏的小 bug 導致集群頻繁報錯。這些問題需要在不停止訓練的情況下“邊修邊訓”來解決。例如,一個隱藏的小 bug 可能導致集群在訓練到 40% 時頻繁崩潰,這需要團隊快速定位問題并進行修復,同時保持訓練的連續(xù)性。


模型能力加速階段

經(jīng)過災難性地邊開車邊修車的過程,大模型團隊會積累豐富的全棧技術,使得復刻下一個版本的大模型變得更加高效。例如,DeepSeek 從 V1、V2、V3、R1 的過程,模型能力的加速會越來越快;OpenAI 的模型從 GPT-4 至 GPT-4.5 的模型能力提升約為 10 倍,獲得了“難以量化但全方位增強的智能”。在這個階段,團隊通常會優(yōu)化模型架構和訓練算法,以提高訓練效率和模型性能。

聚焦提升性能和效率

在經(jīng)歷了模型能力的加速期后,會發(fā)現(xiàn) Scaling Law(規(guī)模定律)依然發(fā)揮著重要作用。要實現(xiàn)下一個 10 倍乃至百倍的性能提升,關鍵在于數(shù)據(jù)效率,即能夠利用更多算力,從同樣數(shù)量的數(shù)據(jù)中學到更多知識的方法。

Transformer 架構的挑戰(zhàn)與機遇

Transformer 架構之所以廣泛應用,是因為它在利用數(shù)據(jù)方面非常高效,能夠吸收和壓縮信息,并實現(xiàn)泛化。它最大的特點就是能用計算資源高效地吸收信息。然而,其潛在瓶頸也逐漸凸顯出來:

  • Transformer 從數(shù)據(jù)中獲得有用信息的深度是有限的,當計算能力快速增長,而數(shù)據(jù)增長相對緩慢時,數(shù)據(jù)就會成為這種標準模式的瓶頸。這就需要算法創(chuàng)新,開發(fā)出能夠利用更多算力從同樣數(shù)量的數(shù)據(jù)中學到更多知識的方法。

  • Transformer 架構的一個主要優(yōu)勢是其在數(shù)據(jù)效率方面的表現(xiàn)。它能夠通過 Self Attention 自注意力機制有效地捕捉長距離依賴關系,從而在處理大規(guī)模數(shù)據(jù)集時表現(xiàn)出色。然而,隨著模型規(guī)模的增加,數(shù)據(jù)效率的提升變得越來越困難。例如,一個擁有 1000 億參數(shù)的模型可能需要數(shù)百萬個訓練樣本才能達到最佳性能,而數(shù)據(jù)的增長速度往往無法跟上模型規(guī)模的增長。

  • 在訓練過程中,損失曲線的監(jiān)控是確保模型正常運行的關鍵。通過實時監(jiān)控 Loss 損失曲線,可以及時發(fā)現(xiàn)訓練過程中的異常趨勢,并采取相應的優(yōu)化措施。例如,如果損失曲線在訓練過程中出現(xiàn)波動,可能是因為權重數(shù)據(jù)在多卡之間分布不均勻導致計算聚合的時候溢出,這種問題其實在 infra 層面排查是挺困難的,算法上看上去沒什么問題。

除了上述內容,我們還需要持續(xù)優(yōu)化整個大模型的訓練系統(tǒng),彌補訓練啟動前算法團隊和 Infra 團隊未能完成的協(xié)同設計(co-design)。例如密切監(jiān)控訓練過程中的各類統(tǒng)計指標,確保不會出現(xiàn)預期外的異常情況。


此外,除了數(shù)據(jù)和算力的增長,Transformer 架構中的算法改進對性能的影響也是疊加式的。每次算法性能提高 10% 或 20%,疊加在數(shù)據(jù)效率上就會帶來顯著的提升效果。目前能看到的是 OpenAI 和 DeepSeek 正在進入 AI 研究的新階段,將開始積累數(shù)據(jù)效率方面的成果。

大模型訓練新紀元與硬件需求的演變

事實上,在大規(guī)模并行集群,也就是到萬卡和十萬卡的 AI 集群上會遇到的許多問題,并非規(guī)模擴大后才出現(xiàn),而是從一開始就存在的。這些問題大多在小規(guī)模階段就能被觀察到,只是隨著規(guī)模擴大,它們會演變成災難性問題。

  • 預訓練與強化學習的數(shù)據(jù)矛盾。預訓練數(shù)據(jù)集通常追求廣度和多樣性。但當涉及模型強化學習,也就是 LLM+RL 時,若要讓模型獲得清晰的獎勵信號 Reward 和良好的訓練環(huán)境,就很難同時保持數(shù)據(jù)集的廣度。預訓練本質上是一個數(shù)據(jù)壓縮的過程,旨在發(fā)現(xiàn)不同事物之間的聯(lián)系。它更側重于類比和抽象層面的學習。而推理 Reasoning 則是一種需要謹慎思考的特定能力,能夠幫助解決多種類型的問題。通過跨領域的數(shù)據(jù)壓縮,預訓練模型能夠掌握更高層次的抽象知識。

  • Scaling Law 尚未觸及理論極限。從機器學習和算法發(fā)展的角度來看,我們尚未觸及明確 Scaling Law 和 Transformer 架構的理論上限。不同代的模型架構(或者說不同參數(shù)規(guī)模的模型)本質上是模型規(guī)格演進的必然結果。例如,我們無法簡單地用 30B 模型的架構和數(shù)據(jù)量直接訓練一個 160B 的模型。當計算需求超出單集群的承載能力時,就不得不轉向多集群訓練架構,所以現(xiàn)在出現(xiàn)了很多 AIInfra 研究異構場景的技術點。


構建萬卡甚至十萬卡規(guī)模的集群系統(tǒng)并非最終目標,真正的核心在于其實際產(chǎn)出價值——即能否訓練出一個優(yōu)秀的大模型。OpenAI 已經(jīng)跨過了大模型訓練的四個階段,進入了一個新的算力紀元。對于 OpenAI 和 DeepSeek 這樣的團隊來說,計算資源已不再是主要瓶頸。這一轉變對行業(yè)和公司自身的影響是深遠的,畢竟從 2022 年開始,進入了百模型大戰(zhàn),到 DeepSeek 出來大殺四方這段時間期間,大部分算法和模型廠商來說都是長期處于計算資源受限的環(huán)境中。

那么在萬卡集群的整體層面,什么會限制進行模型大規(guī)模訓練?是芯片、處理器、內存、網(wǎng)絡還是電源?既然國內很多團隊處于轉型階段,那么對芯片、處理器等的需求是什么?

在大模型訓練過程中,系統(tǒng)層面的瓶頸并非單一因素所致,而是計算、存儲、通信、能源等多維度的綜合挑戰(zhàn)。也就是對于大模型來說,AIInfra 扮演著重要的角色。

計算與存儲:芯片、內存與帶寬的平衡

計算芯片(如 GPU/TPU)的性能直接影響訓練效率,包括算力密度(TFLOPS)、顯存容量(如 HBM 帶寬)和高速互聯(lián)能力(NVLink/RDMA)。例如,千億參數(shù)模型的訓練需要 TB 級顯存存儲參數(shù)和中間狀態(tài),而顯存帶寬不足會導致計算單元閑置,形成"內存墻"。此外,隨著模型規(guī)模擴大,單集群的計算能力可能無法滿足需求,迫使團隊轉向多集群架構,此時狀態(tài)同步和通信開銷成為新瓶頸。

內存系統(tǒng)的優(yōu)化同樣關鍵。除了顯存,主機內存(DRAM)和存儲(SSD/HDD)的層級協(xié)同也影響數(shù)據(jù)吞吐。例如,訓練過程中的檢查點(checkpoint)保存和加載需要高效的內存管理,而存儲 I/O 延遲可能拖慢整體流程。因此,現(xiàn)代訓練系統(tǒng)需要顯存、內存和存儲之間的帶寬匹配,避免某一環(huán)節(jié)成為短板。

通信與網(wǎng)絡:跨節(jié)點協(xié)作的效率

在大規(guī)模分布式訓練中,網(wǎng)絡通信往往是主要瓶頸之一。AllReduce 等集合操作需要高效的跨節(jié)點數(shù)據(jù)傳輸,而低帶寬或高延遲的網(wǎng)絡(如傳統(tǒng)以太網(wǎng))會導致同步時間大幅增加。當前,800Gbps RDMA 網(wǎng)絡正在成為超算集群的標配,但拓撲設計(如 Dragonfly、Fat-Tree)和通信調度算法(如拓撲感知的 AllReduce)仍需優(yōu)化,以避免網(wǎng)絡擁塞。


此外,多集群訓練引入了更復雜的通信問題。例如,跨數(shù)據(jù)中心的訓練可能受限于廣域網(wǎng)(WAN)帶寬,而一致性協(xié)議(如參數(shù)服務器的同步策略)的選擇會影響訓練穩(wěn)定性和速度。因此,國內團隊在構建萬卡級集群時,不僅需要高速互聯(lián)硬件,還需軟件層面的通信優(yōu)化,如梯度壓縮、異步訓練等。

能源與散熱:高密度計算的可持續(xù)性

隨著計算密度提升,電源和散熱成為不可忽視的限制因素。單機柜功率已從傳統(tǒng)的 10kW 提升至 30kW 以上,而風冷散熱效率接近極限,液冷技術(如冷板、浸沒式)逐漸普及。這不僅涉及硬件改造(如供電冗余、冷卻管路設計),還需軟件層面的功耗管理,如動態(tài)電壓頻率調整(DVFS)和任務調度優(yōu)化,以降低整體能耗。

在算力受限情況下,通過低精度訓練(FP8/BF16)、動態(tài)稀疏化等技術提升硬件利用率。萬卡級集群的穩(wěn)定性要求硬件級容錯(如自動恢復)、全局內存一致性(CXL 技術)等特性。目前,行業(yè)正在探索 3D 封裝、存算一體、光互聯(lián)等新技術,以突破傳統(tǒng)架構限制。


總的來說,大模型訓練的瓶頸本質是系統(tǒng)級的挑戰(zhàn),需從芯片、網(wǎng)絡、能源到軟件棧的全棧優(yōu)化。當前的算力基礎設施對大模型訓練起到關鍵性作用,而我們離理想中的完美大模型訓練系統(tǒng)還很遙遠。

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術前沿和行業(yè)落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態(tài)、場景應用、大模型架構創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
他出身黑道,曾是高官的司機和白手套,迎娶小燕子,后花十年洗白

他出身黑道,曾是高官的司機和白手套,迎娶小燕子,后花十年洗白

阿胡
2024-04-29 11:49:43
清理門戶!廣廈奪冠!北京隊大洗牌,這6人或將離隊,周琦攤牌了

清理門戶!廣廈奪冠!北京隊大洗牌,這6人或將離隊,周琦攤牌了

大國侃球
2025-05-21 13:08:09
美股收盤:美債雷聲滾滾 三大指數(shù)均創(chuàng)一個月來最大跌幅

美股收盤:美債雷聲滾滾 三大指數(shù)均創(chuàng)一個月來最大跌幅

財聯(lián)社
2025-05-22 06:25:12
聽我一句勸,銷量大跌40%,問界被拋棄?

聽我一句勸,銷量大跌40%,問界被拋棄?

三農(nóng)老歷
2025-05-15 15:49:22
羅文利,升副部

羅文利,升副部

新京報政事兒
2025-05-21 19:24:51
“屎”無前例!狼來了,青海兩男子駕車鬧肚子就地解決,遭遇尷尬

“屎”無前例!狼來了,青海兩男子駕車鬧肚子就地解決,遭遇尷尬

火山詩話
2025-05-21 08:53:47
中國替華為出頭,通告197國誰配合打誰,不到一天美國怕了

中國替華為出頭,通告197國誰配合打誰,不到一天美國怕了

阿策聊實事
2025-05-22 00:04:16
上海海港單場進6球,蒯紀聞為外援更換指明方向

上海海港單場進6球,蒯紀聞為外援更換指明方向

米奇兔
2025-05-21 21:59:10
麥迪遜效仿特里換球衣慶祝熱刺奪冠:我和隊友一樣配得上這枚獎牌

麥迪遜效仿特里換球衣慶祝熱刺奪冠:我和隊友一樣配得上這枚獎牌

直播吧
2025-05-22 08:11:26
曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

萱小蕾o
2025-05-18 17:43:01
打虎!四川省副省長、省公安廳廳長葉寒冰被查

打虎!四川省副省長、省公安廳廳長葉寒冰被查

新京報政事兒
2025-05-21 17:11:42
足浴的最佳時間是什么時候?網(wǎng)友:歡迎各位老司機交流心得

足浴的最佳時間是什么時候?網(wǎng)友:歡迎各位老司機交流心得

解讀熱點事件
2025-05-16 00:15:03
許家印為保命全部交代!供出背后三大靠山都是誰?

許家印為保命全部交代!供出背后三大靠山都是誰?

三農(nóng)老歷
2025-05-04 08:13:35
被年輕人的“住酒店智慧”驚呆了,換個思路后,就解決了很多痛點

被年輕人的“住酒店智慧”驚呆了,換個思路后,就解決了很多痛點

阿離家居
2025-05-22 07:33:56
馬卡報民調:43%的人認為皇馬需先賣前鋒,引進尼科才有意義

馬卡報民調:43%的人認為皇馬需先賣前鋒,引進尼科才有意義

直播吧
2025-05-22 09:05:08
感謝印度神助攻,中國3天打了美國一個2:0,美國霸權或將徹底終結

感謝印度神助攻,中國3天打了美國一個2:0,美國霸權或將徹底終結

文史道
2025-05-16 12:38:30
3名女子給男同事下藥,并帶他們到酒店強奸,被捕后:好帥

3名女子給男同事下藥,并帶他們到酒店強奸,被捕后:好帥

跳跳歷史
2025-05-20 14:43:45
5G-A 套餐費用來了,網(wǎng)友炸了!

5G-A 套餐費用來了,網(wǎng)友炸了!

果粉俱樂部
2025-05-21 12:13:42
湖北19歲小伙認42歲上司為干媽,去其家中蹭飯借宿引發(fā)悲劇

湖北19歲小伙認42歲上司為干媽,去其家中蹭飯借宿引發(fā)悲劇

歷史八卦社
2025-04-09 23:26:26
突發(fā)!又不退市了?16天16板,還有4個地天板!8萬股東忍不住哭了

突發(fā)!又不退市了?16天16板,還有4個地天板!8萬股東忍不住哭了

風風順
2025-05-22 02:18:11
2025-05-22 09:31:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術資訊。
856文章數(shù) 80關注度
往期回顧 全部

科技要聞

蘋果設計靈魂投奔OpenAI 十年淘汰iPhone?

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統(tǒng) 馬斯克也在場

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統(tǒng) 馬斯克也在場

體育要聞

32歲孫興慜哭成淚人:熱刺10年首冠 亞洲第5人

娛樂要聞

中國國家話劇院發(fā)訃告:沉痛悼念朱媛媛

財經(jīng)要聞

中國,拋售美債!

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態(tài)度原創(chuàng)

房產(chǎn)
藝術
數(shù)碼
游戲
軍事航空

房產(chǎn)要聞

??谧〗ü傩合迌r商品房上市交易細則要來了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

Marshall發(fā)布首款回音壁產(chǎn)品Heston 120:售7999元

2025夢幻西游賺錢第一步,選對服務器才是一切的基礎!

軍事要聞

巴基斯坦與印度互相驅逐對方一名外交官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永寿县| 洛宁县| 平阳县| 东光县| 铁岭市| 长子县| 两当县| 田东县| 武威市| 宝清县| 酒泉市| 嘉兴市| 盘锦市| 武陟县| 达日县| 扬州市| 内黄县| 新兴县| 陆良县| 会宁县| 柳河县| 浙江省| 新乡市| 丽水市| 台江县| 曲靖市| 阜南县| 温泉县| 郓城县| 鄄城县| 浑源县| 岳池县| 渝北区| 沂南县| 肥东县| 天峻县| 上饶县| 方正县| 旅游| 兴海县| 炉霍县|