大模型價值的主戰場正在向后訓練轉移。
作者|王藝
北京時間7月10日,xAI正式發布Grok 4模型。
這款被馬斯克稱之為“宇宙最強模型”的大模型由20萬塊GPU組成的Colossus超級計算機集群訓練而成,擁有25.6萬tokens的上下文窗口,主打多模態功能,支持更復雜的交互形式,同時具備更快的推理速度和改進的用戶界面。同時,Grok 4通過動態MoE+AdaLoRA技術訓練而成,模型的顯存占用減少70%。
在“人類最后的考試”(Humanity's Last Exam)中,Grok 4拿到了38.6%的準確率,超過了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3的21%。多智能體版本Grok 4 Heavy拿到了44.4%,如果進一步使用工具輔助,則能達到50.7%。
在和OpenAI o3、Gemini 2.5 pro、Claude 4 Opus的各項基準測試中,Grok 4的跑分結果也均居于前列。
圖源:X@xAI
“Grok 4是在所有學科里都達到研究生水平的,甚至比大多數PhD都強。”在發布會的現場,馬斯克說道。
那么,Grok 4是如何實現如此驚人性能的呢?xAI的答案似乎指向了一個愈發關鍵的領域:后訓練(Post-training)。
1.超越預訓練:后訓練成為價值主戰場
經歷了2023年的百模大戰、2024年的“六小虎”爭霸與多模態巨浪,再到2025上半年DeepSeek掀起的推理模型風潮和Manus引爆的智能體(Agent)革命,大模型行業的敘事正在發生深刻轉變。當基礎模型的性能逼近物理極限,算力成本成為不可承受之重,喧囂終于褪去。進入2025下半年,行業共識重回理性:AI的價值不僅在于模型本身,更在于其改造產業的深度與廣度。
「甲子光年」觀察到,隨著基礎大模型在通用能力上的邊際效益逐漸遞減、大模型技術紅利向產業端滲透,AI的技術范式也開始從原來的注重“預訓練”向注重“后訓練”轉移。后訓練(Post-training),正從過去錦上添花的“調優”環節,演變為決定模型最終價值的“主戰場”。
那么,后訓練具體指的是什么,其對于大模型的價值又體現在何處?
大模型的訓練過程大致可分為兩個階段:預訓練和后訓練。預訓練階段通常依賴大規模語料庫來預測下一個token,后訓練階段則通常包括多輪微調和對齊。后訓練機制的目標是通過優化模型行為,實現與人類意圖的對齊,包括減少偏見和不準確度。
要讓大模型適應特定領域的任務,通常涉及到微調(SFT)等技術。這些技術雖然可以實現針對具體任務的學習,但也存在過擬合的風險,并且還會產生高計算成本。
為了解決這些難題,強化學習(RL)被引入進來,這能讓模型使用動態的反饋和優化序列決策來提升適應能力。
此外,包括思維鏈(CoT)、思維樹(ToT)、低秩適應(LoRA)、適配器和檢索增強生成(RAG)、測試時擴展(Test-Time-Scaling,TTS)在內的規模擴展技術(scaling)均被應用于模型的后訓練階段,用以提高模型的計算效率和準確性。
因此,如果要讓我們對后訓練技術的核心價值做一個總結,我們認為它體現在以下三個維度:
知識精煉:修正預訓練階段的知識偏差與事實錯誤(微調)
能力對齊:使模型輸出符合人類價值觀和任務需求(強化學習)
推理增強:賦予模型多步推理、邏輯驗證等高級認知能力(規模拓展)
后訓練方法分類圖譜 圖源:《A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS》
這些策略加上分布式訓練框架,促進了大規模部署,并進一步提高了大模型在不同應用中的可用性。通過這些目標明確的后訓練技術,大模型可以更好地與人類意圖和道德倫理要求對齊,最終提高其在現實世界中的適用性。
Pokee.ai創始人、Meta應用強化學習部門前負責人朱哲清表示,后訓練的本質是在預訓練(Pre-training)階段在自回歸模型(Auto-regressive Model)或擴散模型(Diffusion Model)上訓練完LLM之后,用強化學習(Reinforcement Learning,RL)的方式去訓練模型,讓它能夠和用戶的意圖或需求對齊。對齊的必要性在于,如果用戶有某種目標需要語言模型來完成,通過后訓練可以讓模型不只是對用戶的需求進行相關性的回復,而是真正完成這個目標。從某種意義上來說,現在后訓練是大模型訓練和研究最重要的一環。
而對于追求極致推理能力的新一代模型而言,后訓練階段的算力消耗,已經開始與預訓練階段分庭抗禮,甚至大有超越之勢。
以Grok 4為例,Grok 4之所以能有如此強大的推理能力,得益于其在強化學習方面的巨大投入。在其他公司還在用僅10%-20%的算力做強化學習的時候,xAI團隊就決定All in RL,在Grok 4的強化學習階段投入了之前Grok 3十倍的算力。
Grok 4在強化學習階段投入了Grok 3十倍的算力 圖源:Grok 4發布會
Grok 4的成功,可以看作是大模型領域后訓練重要性超越預訓練的最有力的說明。
2.產業落地之困:通用模型的深度適配難題
后訓練不僅是大模型技術發展的必然趨勢,更是AI技術和產業數字化落地的必然要求。
當我們將目光從技術本身投向產業應用,會發現,在出行、住房、教育等與我們生活密切相關的領域,訓練大模型時,都不約而同地遇到了一些難題:
首先是大模型知識斷層的難題。
由于通用大模型是在各個領域的知識基礎上訓練而成的,不是某一領域的專家,被問及專業領域問題的時候容易產生幻覺。
某汽車門戶網站在訓練大模型的時候中,就面臨著模型“大而全”的挑戰。其核心場景是為用戶提供精準的車型信息問答和導購。通用大模型雖然知識廣博,但在面對“某款車型的具體參配”、“不同車型的優劣對比”等專業問題時,準確率僅有50%,幻覺嚴重。
某房產類互聯網公司同樣遇到了此類問題。該公司的核心訴求之一,是打造一個能理解用戶模糊需求、并主動挖掘其潛在偏好的“AI經紀人”。其大模型算法總監表示:“我們需要客戶說要學區房時,它(AI經紀人)會追問是應試教育還是素質教育;當客戶說要素質教育,它需要知道要關注跳舞、鋼琴等具體品類。”這種對用戶深層意圖的精準挖掘,要求模型具備極強的領域知識和對話邏輯。但現在的通用大模型還無法達成。
其次是模型無法在缺乏明確反饋的情況下,學習和對齊用戶的隱性偏好。
以招聘行業為例。在采訪過程中,很多招聘公司的算法負責人都提到了“人崗匹配”這一核心場景。其復雜性在于,“匹配”本身是一個非常主觀的概念。一個崗位,推薦給A候選人可能非常合適,但B候選人可能完全無感。模型即使給出了看似合理的推薦理由(“你有相關經驗”),也未必符合候選人的真實偏好。
“我們會發現它匹配或者不匹配都可以給到你,告訴你看上去很有道理的理由,比如可能說雖然專業不符合,但是這個人有這方面的經驗,也是可以的。 單純做SFT沒法達到要求,只能讓模型對齊我們設置的目標、對齊平臺數據。但對于用戶的行為和偏好到底是什么樣子,模型的反饋比較稀疏。”某招聘公司算法負責人告訴「甲子光年」。
教育行業同樣存在這一問題。
「甲子光年」從幾位教育行業的大模型負責人口中得知,教育場景的模型需要被嚴格控制,不能“超綱”;此外,教育模型不僅要知識準確,更要符合教學規范,比如解題步驟、書寫格式等,但現在的經過預訓練后的通用模型還無法達到這些要求。
“我們的用戶對于整個大模型輸出的質量要求很高,需要跟K12的大綱和K12的課程標準非常一致,比如乘號不能是星號,比如說1/2,這個分號應該是除號,以及包括通過方程解決和通過算術法去解決,這些都是需要分開的。但是我們發現通用模型并不是非常關心具體解析時候的解法以及是否超綱、書寫是否規范,需要我們做精細化的指標去拆解。就有點像普通的985的學生知識儲備都足夠、能力也夠,但是真正去邁向教師崗位需要跟學生講課的時候,那些規范都需要重新學習。”某教育行業的大模型負責人表示。
該負責人表示,盡管行業內有一些知識圖譜供大模型去學習,但是模型經過幾層知識圖譜的學習后準確率依然很低,目前測完六層之后的準確率只有大概5%,還需要做大規模的適配。“這還只是在語言模型的層面,多模態模型的效果差得更多。 ”
第三是在現在大熱的自動駕駛、具身智能等領域,需要更加強大的多模態模型和更加有空間感知能力的“世界模型”來訓練汽車和機器人,但現在這類基礎模型發展還不是很完善。
某智能駕駛公司大模型負責人告訴「甲子光年」,視覺模型現在的發展水平仍然趕不上語言模型,會有運動模糊等明顯的缺陷。“如果是動漫場景,需要一幀一幀畫出來,不會有運動模糊這種情況存在;但是視覺模型經過很多真實數據的訓練,本身會帶這些模糊,我們就需要一些檢測模糊的Reward把這些模糊點修掉。還有就是視頻2D的模型經常憑空出現或者憑空消失一些物體,這些東西在2D里面不是那么好判斷,但是如果換到3D模型就能很好地解決和修復。”該負責人表示。
而在具身智能行業,存在的問題則是通用大模型無法理解機器人的物理本體(如不同關節、傳感器)和環境交互的復雜性,因此無法直接作為“機器人大腦”的基座;此外,具身任務需“多目標優化”(如抓取需平衡速度/力度),預訓練模型直接后訓練反而退化;與此同時,不同機器人本體的需求差異大,單一的規則無法覆蓋全部的機器人訓練。
“我們自己做具身智能通用模型,會發現有各種各樣的局限性,比如說不同機器人的本體對社區來說其實是不一樣的,但是語言模型的Base Model完全沒法理解,從這個角度來講,我們才不得不從頭開始去訓練具身的大模型,再基于自己的模型做后訓練。”某具身智能企業大模型負責人表示。
時代呼喚知識儲備更強、輸出更精準、更能理解用戶意圖和需求的大模型。
而后訓練,是解決上述問題、獲得更好大模型的根本途徑。
面對挑戰,業界也在積極探索解決方案。
比如,為了解決大模型的知識斷層問題,上述汽車門戶網站和房產類互聯網企業都在嘗試通過“增量預訓練+SFT+知識圖譜”的方法訓練大模型,讓大模型獲得更多行業知識;該具身智能公司則選擇從頭開始做基礎模型,同時在預訓練階段去任務、去場景化,之后再做后訓練。
而在獎勵的構建方面,該汽車門戶網站也在用“配置參數必須100%準確”等規則項和“用戶點贊/完讀率”等模型項構建獎勵模型,先用高質量標注數據做Long-CoT,再逐步放開RL訓練。某具身智能研究機構則通過訓練結果獎勵模型、通過機器人的運動軌跡讓模型判斷是否完成任務。
3.從Grok 4到夸克:頂級玩家的后訓練“方法論”
產業的痛點,是技術進化的最佳催化劑。當汽車、房產、教育等行業紛紛暴露出通用模型的“最后一公里”難題時,一個明確的信號已經出現:傳統的后訓練已經不足以應對未來的挑戰。
在后訓練的“上半場”,一個經典的“入門級套餐”統治了市場:企業通常會采用一個中等規模的稠密(Dense)模型,通過監督微調(SFT)的方式注入少量業務數據,并使用BF16精度在前幾代GPU上進行訓練。 這個組合拳幫助許多企業邁出了模型定制化的第一步。
然而,當應用走向深水區,這套“入門裝備”的瓶頸也日益凸顯。在后訓練領域,「甲子光年」發現了一些新趨勢。
首先,在訓練方法上,不再局限于SFT,而是正在轉向SFT+RL或者純RL的訓練范式。
SFT雖然能讓模型學會特定領域的知識和對話格式,但它本質上是一種“模仿學習”,模型只是在模仿標注數據的“標準答案”,卻很難真正理解人類復雜的、模糊的偏好。例如,當面對一個開放式問題時,什么答案是“更好”的?哪個回答更“有幫助”、“更安全”或“更風趣”的?SFT很難回答這些問題。
為了讓模型能與人類的價值觀和偏好對齊(Alignment),強化學習(Reinforcement Learning, RL)應運而生,其中最經典的范式便是從人類反饋中強化學習(RLHF)。RLHF通常分為三個步驟:
監督微調(SFT):首先,和傳統方法一樣,使用高質量的標注數據對預訓練模型進行SFT,讓模型初步具備所需的能力。
訓練獎勵模型(Reward Model, RM):這是RLHF的核心。針對同一個Prompt,讓SFT模型生成多個不同的回答。然后,由人類標注員對這些回答進行排序,告訴模型哪個更好,哪個次之。接下來,用這些“人類偏好”數據來訓練一個獎勵模型。這個獎勵模型的任務就是給任何一個“提示-回答”對打分,分數高低代表了其符合人類偏好的程度。
通過強化學習優化語言模型:最后,將語言模型本身視為一個“智能體(Agent)”,它生成的回答就是“行動”。獎勵模型則充當“環境”,不斷給語言模型的回答打分。通過像PPO(Proximal Policy Optimization,近端策略優化)這樣的強化學習算法,不斷優化語言模型的策略,使其生成的回答能在獎勵模型那里獲得更高的分數。最終目標是讓語言模型在不偏離SFT階段所學知識太多的前提下,其輸出能最大程度地獲得獎勵模型的高分,從而與人類偏好對齊。
然而,傳統的RLHF流程復雜、訓練不穩定且成本高昂。因此,業界又進一步探索出了強化學習更高效的對齊方法,如直接偏好優化(DPO)。
DPO巧妙地繞過了訓練獨立獎勵模型的步驟,它通過一個簡單的分類目標,直接利用人類的偏好數據(比如“回答A比回答B好”)來調整語言模型本身,使其更傾向于生成人類偏好的內容,而抑制不被偏好的內容。這種方法不僅簡化了訓練流程,降低了計算成本,還在許多任務上取得了與RLHF相當甚至更好的效果。
xAI就采用了RL+DPO相結合的方法做Grok 4的后訓練。他們先是在傳統RLHF基礎上引入了合成辯論對和50億人類投票數據,通過多輪迭代優化模型輸出;接著跳過獎勵模型訓練步驟,直接利用人類偏好數據微調模型。
而擴展到動態環境,他們則采用了PPO的方法優化策略梯度,讓模型在復雜任務中的表現更接近人類專家水平。
其次在模型的選擇上,越來越多公司傾向于用MoE模型作為基礎模型。
Dense模型在推理時所有參數均參與計算,導致計算量和顯存占用隨模型規模線性增長。MoE模型具有部分專家激活、專家間可并行、計算過程可共享等特點,可實現推理速度的顯著提升。例如,DeepSeek MoE 16b與LLaMA2-7b效果相當,但前者推理速度是后者的2.5倍。
同時,由于每次推理只激活少數幾個專家,相比傳統的大規模深度神經網絡,MoE架構在推理時的延遲和計算成本相對較低,特別適合需要高效推理的場景,如在線推薦系統、語音識別等。
此外,Dense模型固定計算路徑缺乏動態調整能力,而MoE模型則可更快進行多任務學習、多模態融合,實現應用場景適配。
同樣以Grok 4為例,其架構延續了MoE設計,但進行了重大優化。獨立報告推測其總參數達 1.7 萬億,其中活躍參數約480億。在專業層面,Grok 4的MoE設計采用了動態路由算法,其中路由器使用softmax激活函數選擇專家,以最小化負載不均衡損失、優化計算效率。
第三,在數據精度的選擇上,相較于BF16/FP16,FP8可以在精度幾乎無損的情況下大幅提升訓練和推理效率。
FP8使用更少的指數位和尾數位,能提供兩倍的計算吞吐量,如在英偉達的H100 GPU上,FP8的TFLOPS是BF16的兩倍。此外,相較于BF16,FP8能節省50%-75%的內存占用,還能保持訓練和推理階段模型性能及數據算法的一致性,避免額外的精度矯正。
Grok 4在前向傳播的過程中使用FP8類型的數據,在梯度計算過程中則使用了BF16類型的數據,這是一種被稱為“混合精度訓練”的先進技術,其核心思想是在不犧牲模型收斂穩定性的前提下,最大化訓練效率。具體來說,FP8負責加速計算密集但對精度不那么敏感的前向傳播和權重梯度計算,而動態范圍更廣的BF16則用于梯度的累加和權重的更新,有效防止了梯度消失或爆炸的問題,確保了訓練的穩定性和最終模型的精度。
作為另一個引領行業趨勢的模型,DeepSeek-V3的訓練過程也深度整合了FP8技術。通過在兼容的硬件上全面擁抱FP8,DeepSeek能夠在控制成本的同時,高效地訓練出性能強大的模型。
可以說,Grok 4的成功不僅證明了“后訓練”的重要性,其采用的MoE模型、強化學習的訓練方式、FP8精度的數據等更是逐漸成為行業內做后訓練的共識。
夸克就在這種后訓練路徑下,用高考大模型交出了一份“最佳實踐”的答卷。
夸克高考大模型以通義千問系列的MoE模型為基座,其后訓練階段由增量預訓練(CPT)、監督微調(SFT)、可驗證獎勵的獎勵強化學習(RLVR)和人類反饋強化學習(RLHF)構成:
在指令微調階段,夸克高考志愿大模型將數百名資深高考志愿規劃師的溝通、決策過程進行結構化。圍繞他們與考生或家長的多輪真實對話,提取出完整分析路徑與語言風格。通過將上萬條真實專家“推理鏈”轉化為高質量監督數據,夸克高考志愿大模型得以深度學習人類專家的分析過程;
夸克高考志愿大模型還在復雜推理任務中生成了中間可驗證結構,顯著降低了幻覺率、增強跨模態演繹能力,并實現了分布外泛化魯棒性,可以解決各種需要專業知識的復雜問題;
最后通過基于人類偏好強化學習(RLHF)精化策略層,夸克高考志愿大模型構建了一個閉環優化機制,將“模擬填報 → 專家反饋 → 策略評分”引入到模型迭代過程中。
夸克高考大模型后訓練流程 圖源:夸克
經過后訓練的模型會基于模擬的考生檔案生成志愿填報方案,隨后這些方案將被提交給多位高考志愿專家進行評估。
評估標準包括:專業建議是否準確易懂、排序邏輯是否貼合考生特征、是否兼顧分數與興趣、是否充分提示風險并給出可行應對策略等。通過引入數萬條人類志愿專家推理數據進行訓練,結合RLHF和RLVR的方式,夸克在后訓練階段構建了一個“專家反饋-策略評分-策略再優化”的完整閉環。
夸克高考志愿報告 圖源:夸克
截至7月8日,夸克高考服務了全國考生及家長超4000萬人,累計生成了超過1200萬份AI志愿報告,為考生和家長提供考生情況分析、填報策略設計、志愿表解讀、風險提示等覆蓋全面的信息,輔助志愿填報。
夸克算法負責人蔣冠軍對「甲子光年」表示,RLVR提供確定性獎勵,基于可驗證的規則或標準答案給反饋;RLHF則引入人類主觀反饋,用于捕捉難以規則化的質量維度。兩者互補,既保證事實正確性,又兼顧人類偏好。現在將RLVR與RLHF結合做強化學習已經成為了業界做推理模型的大勢所趨,具體怎么混合要根據模型給的結果反推。
蔣冠軍還表示,今年大模型領域尤其關注兩件事情:一是后訓練,二是Agent RL。“關于后訓練的發展趨勢,一是確定性答案的推理自動化,這需要更加廣泛、更加復雜的數據,但是數據來源仍然是個問題;第二是多模態的推理。Agent RL屬于剛起步,因為現在大家連Agent能否調用起來的問題都還沒解決,RL的工作怎么做更是無從談起。我認為第二個會比較慢,但第一個大家今年的爭奪會非常激烈。”蔣冠軍說。
4.后訓練的五大關鍵要素及平臺化破局
大型語言模型(LLM)的后訓練過程日益關鍵,它涵蓋了從數據處理到評估、獎勵機制、擴展技術以及底層基礎設施等多個相互關聯的要素,共同決定了模型的最終性能和產業落地能力。
后訓練有五大關鍵要素需要重點關注,分別是數據(Data)、評估(Evaluation)、獎勵機制(Reward)、可擴展性(Scaling)、基礎設施(Infra)。
第一是數據(Data)。數據是后訓練的基石,貫穿整個流程的始終。高效地清洗、標注和管理海量的多模態數據,并構建從線上業務到線下訓練的“數據飛輪”是企業面臨的首要挑戰 。例如,具身智能領域的一些數據需要生成或合成,而語言和多模態模型則依賴于用戶標注和線上數據的回流補充 。這個過程涉及數據回流、接入、預處理、樣本生成和管理等復雜環節,需要多領域技術棧的聯合解決方案 。高質量的數據能有效糾正預訓練階段的知識偏差和事實錯誤,為模型的知識精煉提供基礎 。
第二是評估(Evaluation)。Evaluation是驗證后訓練效果的關鍵環節,它需要快速、可靠地衡量模型表現 。自動化評估流程,并根據評估結果調整訓練樣本和參數,是提升迭代效率的核心。例如,教育行業的模型不僅需要知識準確,還要符合教學規范,如解題步驟和書寫格式,這些都需要通過精細化的指標進行評估 。有效的評估機制能夠確保模型輸出符合人類意圖和任務需求,減少幻覺和不準確度 。MoE模型的分布式訓練、RL的穩定高效收斂,對訓練框架的能力、易用性和效率提出了前所未有的要求。
第三是獎勵機制(Reward)。Reward和Evaluation相關,也是強化學習在后訓練中實現模型與人類意圖對齊的核心 。從Evaluation轉換到模型訓練的Reward是提升效果的有效途徑,包括其中Reward方法、Reward Model的訓練等等。Grok 4的成功便得益于在強化學習方面的巨大投入。夸克高考大模型則結合了可驗證獎勵強化學習(RLVR)和RLHF,既保證了事實正確性,又兼顧了人類偏好 。
第四是可擴展性(Scaling)。擴展能力是后訓練在行業落地的關鍵挑戰之一,作為放大器,需要確保上述數據處理、模型訓練、評測反饋的整個流程,都能在萬卡級別的大規模集群上穩定、高效地運行。同時,通過分布式訓練和模型壓縮等技術,可以顯著提升模型的擴展性。
第五是基礎設施(Infra)。強大的infra是后訓練得以順利進行的基礎。這包括根據不同負載(如SFT、RL、推理)彈性提供算力資源,確保最優的算力配比和成本效益 。分布式訓練框架,如阿里云的PAI-ChatLearn,為MoE模型和強化學習的穩定高效收斂提供了支持 。它解決了開源框架靈活性過高、缺乏工程優化和穩定性差等痛點,顯著提升了訓練效率和成功率 。此外,完善的數據底座和部署閉環,如阿里云提供的數據處理方案和分布式推理服務,也確保了模型訓練后的高效服務和快速迭代 。云計算平臺提供的原生能力,如向量數據庫、彈性伸縮和安全防護,正成為AI應用從“可用”走向“可靠”與“好用”的基石。
可以看到,在AI加速重塑千行百業的浪潮中,作為提升模型業務適配力的關鍵步驟,“后訓練”不僅關乎算法層的優化,更依賴底層算力、平臺能力與應用層協同,確保全鏈路的可行性與穩定性。
阿里云智能集團副總裁、大數據AI平臺事業部負責人汪軍華在采訪中說:“RL非常的脆弱,微小的變化就可能會導致模型無法收斂。所以我們技術團隊會不停地盯著收斂曲線,隨時進行數據和策略的調整。由于RL的策略及超參有很多組合,很多時候算法團隊也會無所適從,不知道如何用好強化學習。”
面對這些復雜的系統性工程挑戰,企業最需要的是一個穩定、高效、全能的平臺,將自己從繁重的底層工程中解放出來,專注于業務創新。而阿里云正通過其全棧AI能力,為企業提供從算力到平臺的“后訓練”一體化支撐。
在基礎設施層,阿里云部署遍布全球的基礎設施,可根據SFT、RL、推理等不同負載彈性提供算力資源,確保不同階段的訓練任務都能獲得最優的算力配比和成本效益,從而為復雜的后訓練、及推理服務流程提供穩定且經濟的算力基座。
在模型層,通義千問系列基礎模型能力領先,支持多模態、多尺寸、多架構,客戶無需預訓練即可啟動后訓練,快速適配業務場景,顯著降低開發門檻與周期。
而當客戶完成算力和模型選型、進入后訓練階段后,阿里云則通過人工智能平臺PAI(Platform of Artificial Intelligence),圍繞“數據-訓練-推理-AI應用”的全生命周期,為客戶提供高效、低成本的端到端后訓練、模型服務技術支撐:
阿里云智能集團后訓練解決方案架構 圖源:阿里云智能集團
首先卓越的模型基座。在人工智能PAI平臺上,企業進行后訓練無需從零開始。阿里云提供了通義千問(Qwen)系列大模型作為高質量基座,在PAI-Model Gallery中,已集成Qwen、Kimi K2、DeepSeek等300+頂尖模型,可0代碼實現微調、部署與評測,覆蓋金融、汽車、教育、具身等多行業需求。尤其是Qwen3支持混合推理(快慢思考),用戶可以利用Qwen3強大的通用知識和推理能力作為起點,將精力聚焦于業務場景的精調,極大地降低了后訓練的門檻和成本。
其次是強大的訓練框架。PAI提供了靈活、易用、高效的大規模強化學習訓練框架PAI-ChatLearn:ChatLearn原生支持RLHF、DPO、GRPO等多種先進的Alignment訓練算法,并能支持300B+300B量級的Policy和Reward模型協同訓練和任意模型的后訓練任務快速配置,萬卡規模MoE架構訓練MFU達35%-40%;同時,通過將復雜的RL流程封裝為易用的模塊,ChatLearn顯著降低了RL的落地門檻。其訓練性能對比業界SOTA系統,在不同規模的模型上實現了2-3倍的訓練加速,極大地提升了迭代效率;此外,結合阿里云底層硬件和通信庫的深度優化,ChatLearn解決了開源框架常見的穩定性問題,保障了長周期訓練任務的高成功率。
PAI-ChatLearn的技術架構和特點 圖源:阿里云智能集團
最后是堅實的數據底座與完善的部署閉環。在數據層面,阿里云提供面向AI場景的多模態數據處理方案,通過MaxCompute MaxFrame+PAI-EAS+Flink等產品實現統一的數據處理體驗,整體數據處理效率提升10倍以上,數據處理推理任務優化提速1倍以上,相同資源產能提升1倍;
阿里云智能集團數據預處理算子引擎Data-Juicer 圖源:阿里云智能集團
在評測與部署層面,針對MoE等模型的部署難題,人工智能平臺PAI提供了分布式推理服務,通過創新的多機Prefill-Decode-EP分離架構,結合LLM智能路由,能夠高效分配計算資源,做到首token生成響應時間降低92%,端到端服務吞吐提升5倍+。
Grok 4的成功揭示了后訓練的巨大潛力,而其背后復雜的系統工程也為行業敲響了警鐘。對于絕大多數企業而言,重復造輪子去解決數據、評估、獎勵機制、擴展方法和基礎設施的問題,無異于將寶貴的資源投入到一場沒有終點的消耗戰中。
隨著大模型的發展從“規模的軍備競賽”走向“深度適配業務場景的價值創造”, 越來越多企業認識到:唯有“云+AI”的融合,才能從底層資源到應用層全面釋放AI的價值。從向量數據庫的構建與檢索增強,到應對高并發請求的彈性伸縮,再到企業級的安全防護,云平臺所提供的這些原生能力,正成為AI應用從“可用”走向“可靠”與“好用”的基石。
因此,真正的分水嶺已經出現。阿里云的全棧AI能力正在將后訓練從一個復雜的“工程問題”重新定義為一個清晰的“業務問題”。將復雜的工程挑戰交還給平臺,將寶貴的精力聚焦于核心業務的創新——這不僅是更明智的選擇,更是抓住AI時代機遇的關鍵路徑。
(封面圖來源:AI工具生成)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.