前腳 AMD 剛剛收購加拿大 AI 初創公司 Untether AI,后腳英偉達就斥資 4 億美元收購了一家華人 95 后和導師聯合創辦的加拿大 AI 初創公司CentML[1]。這位青年名叫王尚,此前擔任 CentML 的聯合創始人兼 CTO。據了解,王尚出生于山東省青島市,高中就讀于青島二中。2018 年其本科畢業于加拿大多倫多大學,后又在該校先后獲得碩士學位和博士學位。他的碩博導師都是多倫多大學的根納季·佩基門科(Gennady Pekhimenko)教授,而佩基門科教授本人則是 CentML 的聯合創始人兼 CEO。值得注意的是,更早之前王尚還在谷歌、英特爾和華為加拿大分公司實習過。
圖 | 王尚(來源:http://www.cs.toronto.edu/~wangsh46/)
在收購 CentML 之前,英偉達擊敗了競標者并成為最終贏家。據介紹,CentML 開發的軟件能在 AI 模型和芯片之間運行,從而利用尚未得到充分利用的硬件容量,并能采用其他技巧使系統運行得更好。CentML 通過出售軟件的訂閱服務來盈利,其還與云服務提供商簽訂了收入分成協議,進而將其技術捆綁到服務方案中,旨在幫助客戶確定到底使用哪些硬件可以提高機器學習模型的性能并降低其成本,進而幫助客戶從現有硬件中獲得更多價值。
圖 | CentML 公司官網(來源:https://centml.ai/)
據了解,CentML 于 2025 年 6 月 6 日終止了其加拿大聯邦商業注冊。一封發給 CentML 客戶的電子郵件被曝光在社交媒體上,郵件顯示 CentML 的運營將于 2025 年 7 月 17 日正式結束。與此同時,該公司更新了它的注冊信息、董事以及通信地址。新列出的董事是三名英偉達高管,其通信地址為英偉達位于美國加利福尼亞的總部。
事實上,這次收購可謂謀劃已久。英偉達首次涉足 CentML 是在 2023 年 10 月,當時它為 CentML 提供了一筆 2700 萬美元的種子輪融資。該輪融資由谷歌旗下專注于 AI 的 Gradient Ventures 基金領投,德勤創投、湯森路透創投和 Radical Ventures 等知名風投公司跟投。當時,這筆資金曾用于在 2024 年底前將 CentML 的 32 人團隊擴大一倍。
據一位消息人士告訴外媒,CentML 的出售對其投資者和股東而言價值遠超 3 億美元。但另一位消息人士表示,考慮到包括以“達到業績目標為條件的承諾”在內的因素,該交易的總價值可能升至 4 億美元以上,因此這筆交易可能會為 CentML 的早期投資者帶來豐厚回報。
圖 | CentML 的四位聯合創始人(來源:資料圖)
其實,王尚和英偉達的淵源頗深。在聯合創辦 CentML 之前,他曾在英偉達擔任工程師,主要工作任務是幫助優化訓練工作負載以便提高 GPU 性能,也就是說他第一次在英偉達負責的工作內容和后來所創立的 CentML 的業務內容大致類似。2022 年,他參與創辦了 CentML,并由自己的導師佩基門科擔任 CEO。佩基門科目前仍在加拿大多倫多大學擔任副教授一職,并指導著將近 20 名學生。在 CentML 的四名主要創始成員中,除了佩基門科之外,其余三位創始成員中有兩名都是自己的學生,而其中一名便是王尚。那么,他為何選擇王尚一起創辦了 CentML?王尚有著怎樣的技術成果?關于此,從王尚的兩篇代表論文或許可以窺斑見豹。這兩篇論文分別于 2020 年和 2021 年發表在機器學習與系統會議(MLSys,Machine Learning and Systems)上。手握至少兩篇頂會一作論文以及成果具有較高的應用性,可能是自己得以和導師共同創業的原因。那么,這兩篇論文分別講了什么?
(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2020 年的一作論文中,王尚和同事旨在提高反向傳播的可擴展性,為此他和同事將反向傳播重新表述為一種掃描操作。掃描操作是一種原語,它按順序對一系列值進行聚合,并返回每一步的中間結果。然后,通過改進之后的布萊洛克掃描算法(Blelloch scan algorithm),在并行系統上擴展這種反向傳播的重新表述形式。研究中,他們使用合成數據集針對基礎循環神經網絡進行了訓練評估,并使用 IRMAS 數據集針對帶有門控循環單元的循環神經網絡進行了訓練評估,結果顯示這一方法在整體訓練時間上實現了高達 2.75 倍的速度提升,在反向傳播上實現了 108 倍的速度提升,并證明針對剪枝后的網絡進行重新訓練可以作為這一方法的實際應用場景。
(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2021 年的一作論文中,王尚等人分析了來自頂尖研究機構的 GPU 集群使用統計數據,以深入了解典型深度學習訓練任務所實現的硬件效率。這一研究表明,當單加速器訓練任務被重復啟動時,例如當用于超參數調優時,它們可能會在集群范圍內的資源消耗中占據主導地位,同時卻在很大程度上并未充分利用硬件。研究中,王尚等人觀察到這類工作負載具有以下獨特特征:一是工作中的模型通常具有相同類型和形狀的算子,二是這類算子的模型間水平融合等同于其他已經過良好優化的算子。因此,為了幫助業內人士有效提高深度學習訓練工作負載的硬件利用率,王尚等人在這項研究中提出了水平融合訓練陣列(HFTA,Horizontally Fused Training Array)。HFTA 是一個深度學習框架擴展庫,它能夠橫向融合來自不同重復性任務的模型,直至算子級別,然后在共享加速器上實現同步訓練。研究中,王尚等人將 HFTA 用于在當時最新 GPU 和 TPU 上訓練的六個深度學習模型。結果表明,與在單獨的加速器上運行每個作業的標準做法相比,HFTA 在提高硬件利用率方面非常有效,其訓練吞吐量可提高高達 15.1 倍。
(來源:http://www.cs.toronto.edu/~wangsh46/)
由此可見,王尚在五年前就開始關注大模型,并在提高 GPU 利用率上做出了一定成果。而在 2025 年 5 月,也就是 CentML 被英偉達收購的不久之前,王尚接受一家外媒采訪并介紹了 CentML 的業務進展。
在上述采訪中,王尚表示 CentML 的開源機器學習編譯器 Hidet 可以直接對接該公司基于 vLLM 的服務引擎 CServe,進而與 CentML 的一體化 AI 基礎設施方案實現順暢集成。借助 CentML 平臺,開發者能夠選擇 Llama、Mistral 或 DeepSeek 等任何開源模型,并將其部署在任何硬件上(從英偉達 H100、AMD MI300X 到 TPU 均可),后續的性能優化和部署工作則由該技術棧自動完成。王尚表示,通過 CentML 平臺,他和同事對于經 AWQ 量化的 DeepSeek-R1 模型進行了優化和部署。在 GPU 內核層面,CentML 借助 Hidet 編譯器的領域特定語言 Hexcute,為 DeepSeek -R1 的關鍵組成部分——混合專家層構建了一個全融合 GPU 內核。相比基于 Triton 編譯器打造的同類最佳方案,這一做法將 MoE 層的速度提升了 2 到 11 倍。此外,在推理引擎層面,CentML 構建了 EAGLE 推測式解碼技術,該技術利用一個更小的草稿模型來減少原始大模型的工作量并助力其實現并行化,從而能夠實現 1.5 到 2 倍的速度提升。
同樣是在上述采訪中,王尚還介紹了 CentML 團隊發表在 2025 年機器學習與系統會議的一篇論文。該論文介紹了一款名為 Seesaw 的大模型推理引擎,其專門針對吞吐量導向型任務優化打造而來。Seesaw 的核心思想是動態模型重分片,該技術能夠促進不同階段間并行化策略的動態重構,從而在兩個階段均實現吞吐量最大化。為了減輕重分片開銷以及優化計算效率,CentML 團隊采用了分層 KV 緩存緩沖和過渡最小化調度的方法。這些方法通過協同作用能夠減少因頻繁的階段轉換所帶來的開銷,同時還能確保批處理效率的最大化。評估結果表明,與目前應用最廣泛的頂尖大模型推理引擎 vLLM 相比,Seesaw 的吞吐量最高提升 1.78 倍(平均提升 1.36 倍)。
(來源:https://arxiv.org/pdf/2503.06433)
而此次 CentML 被英偉達收購以后,包含王尚在內的幾位 CentML 創始人均已入職英偉達。原 CEO 佩基門科目前在英偉達擔任 AI 軟件高級總監,同時仍在多倫多大學擔任教職;作為原 CTO 的王尚目前在英偉達擔任 AI 軟件系統經理;原首席架構師阿南德·賈亞拉詹(Anand Jayarajan)目前在英偉達擔任工程經理;原 COO 阿克巴·努爾利巴耶夫(Akbar Nurlybayev)目前在英偉達擔任 AI 軟件高級經理。綜合媒體報道和職業網站信息,英偉達此次還從 CentML 收編了十幾名技術人員。總的來說,等待王尚等人的將是一個新的職業生涯。
參考資料:
1、https://thelogic.co/news/exclusive/nvidias-deal-centml-us400m/
http://www.cs.toronto.edu/~wangsh46/
https://thelogic.co/news/exclusive/centml-nvidia-acquisition-canada-ai/
https://www.theglobeandmail.com/business/article-nvidia-acquires-canadian-machine-learning-company-centml/
https://arxiv.org/abs/2402.16731
https://arxiv.org/abs/2102.02344
https://arxiv.org/abs/1907.10134
https://www.linkedin.com/in/anandj91/
https://www.linkedin.com/in/gpekhimenko/
https://www.linkedin.com/in/akbarnurlybayev/?originalSubdomain=ca
https://www.linkedin.com/in/shang-sam-wang-52851489/
https://centml.ai/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.