這一周,杭州城里,DeepSeek 連續五天公布代碼,阿里通義接連放出三個開源模型“王炸”。
DeepSeek的開源周剛過半,同城的阿里巴巴開始推波助瀾,前一日宣布了Qwen2.5-Max與推理版QwQ-Max的開源計劃,第二天又正式開源了Wan2.1(萬相)視頻模型。
Qwen2.5-Max對標DeepSeek V3的旗艦MOE模型,QwQ-Max是對標DeepSeek R1的深度推理模型,都屬于通義千問(Qwen)模型家族;Wan2.1是視頻生成模型,對標OpenAI的Sora,屬于通義萬相(Wan)模型家族。至此,阿里巴巴的開源大模型,實現了全模態、全尺寸的生態布局。
杭州正在從互聯網之城轉為AI開源之城。在互聯網時代,免費就是一種競爭策略,有利于應用場景的規模落地,形成網絡效應,建成平臺經濟;阿里巴巴也一直開源其微服務架構。在人工智能時代,開源與閉源,也日益成為AI創新與應用的兩條路線之爭。因為開源,DeepSeek已經改變了全球大模型前沿競爭與市場應用的游戲規則,阿里巴巴則要推動一種更加普惠的AGI。硅谷在閉源中發明萬能的AGI時,中國要主導AI開源生態,成為廉價好用的世界AI工廠。
阿里巴巴通往開源AGI之路
在DeepSeek前,阿里千問(Qwen)是中國開源模型的最強代表,迄今已覆蓋了視覺模型VL,音頻模型Audio,代碼模型Coder,數學模型Math,推理模型QwQ,視覺推理模型QvQ;尺寸往往小至1.5B,可以塞進手機,大至110B,追趕前沿閉源大模型。令人眼花繚亂。
與DeepSeek近乎橫空出世不同,阿里巴巴的大模型開源之路更有跡可循。自2023年8月首次開源通義千問Qwen以來,在全球最大AI開源社區Hugging Face上,基于Qwen的開源大模型的衍生模型數量已突破 10 萬,把Llama甩在了身后,穩居全球最大開源模型榜首;本周首次開源另一個系列的通義萬相(Wan),也將延續這一趨勢。
中國開源模型追近前沿封閉模型
(說明,按發布時間呈現不同模型的科學問答基準測評得分。OpenAI旗下模型為粉色,DeepSeek旗下模型為藍色,阿里巴巴旗下模型為橙色。QwQ-Max等部分模型暫未取得相應測評官方得分。)
阿里巴巴豪言要在未來三年投入至少520億美元在AI及其基礎設施上,希望能為整個大模型生態開源出通往AGI之路。從董事長蔡崇信到CEO吳泳銘,都認為AGI可能并不是某個全面超越人類能力的大模型,而是AI能靈活地部署到對人類有價值的各場景中,讓天下沒有難用的AI。
在2022年底ChatGPT時刻之前,阿里巴巴的大模型迭代相對緩慢。2020年,阿里達摩院啟動M6項目,即“通義”大模型系列的前身。后者于2022年9月發布,同時,它的底座模型M6-OFA,以及多項關鍵技術與核心能力面向全球開發者開源。2個月后,阿里巴巴聯手中國計算機學會(CCF)開源發展委員會共同推出了魔搭社區 ModelScope,成為國內開源生態的一部分。
2023年是勉力追趕的一年。2023年4月,通義千問Qwen大模型發布,與ChatGPT3.5相比還有較大差距。到了8月,阿里巴巴開源了其中的通用模型Qwen-7B和對話模型Qwen-7B-Chat,支持量化,支持用戶在消費級顯卡上部署和運行模型,成為國內首個宣布開源自研模型的科技巨頭。
此后,Qwen系列每個月都會有些進展。9月,Qwen-14B及其對話模型開源。11月,Qwen-72B及其對話模型開源,足以對抗當年7月Meta開源的Llama 2-70B;同時開源的還有Qwen-1.8B系列,推理2K長度文本內容僅需3G顯存,甚至可以裝進智能手機,以及音頻模型 Qwen-Audio。阿里巴巴開始以“全尺寸、全模態”的開源力度挑戰Meta的開源生態,進入國際開發者視野。
與DeepSeek瘋狂迭代一樣,2024年也是阿里巴巴開源模型狂飆突進的一年。在這一年里,阿里巴巴幾乎發布即開源,迅速從Qwen1.5迭代到Qwen2乃至當前主力Qwen2.5系列。
2月,趕在春節前,Qwen1.5系列模型上線,參數規模最小0.5B,最大110B,還包括Qwen系列的首個MoE模型Qwen1.5-MoE-A2.7B。盡管Qwen1.5系列仍然落后于當時的GPT-4-Turbo,但最大參數規模版本已經超越了GPT-3.5-Turbo-0613,在當時LMsys的chatbot-arena上排到第十;它的MOE模型也可以媲美Mistral 7B。阿里巴巴自評,到了這一階段,終于躋身開源模型第一梯隊。
6月,Qwen2系列模型開源。相比上一代的Qwen1.5,Qwen2在邏輯推理、多語言能力、長文本處理、代碼、數學等能力獲得了全面提升。其中,Qwen2-72B一躍成為當時全球性能最強的開源模型,基準測試超過美國最強開源模型Llama3-70B,也超過一眾中國閉源大模型。Meta的Llama3-70B發布于4月,當時趕超了Gemini Pro 1.5,成為開源社區的分水嶺,開始與閉源模型在前沿較量。據Qwen2的技術報告,當時全尺寸模型都使用了上一代模型個別尺寸中得以驗證的GQA技術,大大降低了顯存占有,加快了模型推理速度。Qwen2火速得到了Ollama等全球重要的開源生態伙伴的支持。
全球大模型開源社區Hugging Face首席執行官Clem Delangue總結道:Qwen 72B 稱王,中國開源模型總體上占主導地位。這也是通義Qwen系列模型首次登上Hugging Face開源模型排行榜榜首。
開源的生態,最終服務于阿里云,與通義大模型適配到一起。阿里也提出,要打造AI時代最開放的云;而模型開源,也對齊了阿里“讓天下沒有難做的生意”的使命。
9月的阿里云棲大會上,Qwen2.5系列模型發布,多數立即開源,涵蓋了多個尺寸的語言模型、多模態模型、數學模型和代碼模型。每個尺寸都有基礎版本、指令跟隨版本和量化版本,總計上架了 100 多個模型,刷新了業界紀錄。其中,開源模型Qwen2.5-72B性能超越了Llama 3.1-405B。Qwen2.5系列也是目前阿里巴巴對外提供對話服務與API服務的主力。
根據阿里云CTO周靖人的介紹,通義開源模型累計下載量已經突破4000萬,通義原生模型和衍生模型總數超過5萬,成為僅次于Meta旗下開源模型Llama系列的世界級模型群。
12月,深度推理模型QwQ-32B-Preview與多模態推理模型QVQ-72B-Preview先后開源,代表開源生態,加入到與OpenAI o1推理模型的競爭中。
2025年剛過去不到兩個月,阿里巴巴幾乎端出了手上所有的王牌。多模態與推理與智能體是重頭戲。
1月,Qwen2.5-VL與Qwen2.5-1M開源。前者是Qwen家族的旗艦視覺語言模型,具備操作電腦和手機的視覺智能體的潛力。剛開源不久的QVQ-72B,正是基于上一代的Qwen2-VL-72B研發的。這次,阿里巴巴直接把最新的都開源出來了,增強了對時間和空間尺度的感知能力。后者則是可能支持百萬token上下文的開源模型。
同月,阿里巴巴發布Qwen2.5-Max,這是超大規模的MOE架構的旗艦模型,使用超過20萬億tokens的預訓練數據,超越了同為MOE架構的DeepSeek的V3,以及最大開源稠密模型Llama-3.1-405B。
2月25日,阿里巴巴宣布將在不久的將來,以Apache 2.0許可協議開源發布Qwen2.5-Max,以及基于Qwen2.5-Max構建的深度思考模型QwQ-Max-Preview。后者支持聯網,不僅推理能力更強,同時在智能體相關工作流中也有不錯的表現。
相比之下,DeepSeek采用的是更為開放的MIT許可,它對用戶幾乎沒有限制,允許幾乎任何形式的使用、修改和分發,甚至可以將代碼用于閉源項目。 Apache許可增加了專利授權和衍生作品的限制。
2月26日,阿里巴巴宣布視覺生成基座模型Wan2.1開源。它包括1.3B與14B兩個尺寸,各自擁有覆蓋文本生成視頻(T2V)和圖像生成視頻(I2V)任務的具體模型。其中,前者僅需8GB多的顯存,就能生成480P視頻,用RTX 4090的話,4分鐘內生成5秒長短的視頻。對比一下,谷歌去年12月發布的視頻生成模型Veo 2,每秒收費50美分。
通義萬相圖像生成大模型于2023年7月首次亮相,于2024年9月全面升級,并免費向所有用戶開放體驗。Wan2.1的開源,標志著阿里云實現了全模態、全尺寸的開源。
杭州,開源AI之都
世界上三個最前沿的開源模型,Llama, DeepSeek, Qwen,已經有兩個在中國,就在杭州。開源創新,正在成為AI的杭州精神。
本周前四天,DeepSeek分別開源了FlashMLA、DeepEP、DeepGEMM,以及DualPipe、EPLB、ProfileData,與以往注重分享模型優化理念不同,本輪開源聚焦于人工智能基礎設施的優化。
FlashMLA是專為英偉達Hopper架構GPU設計的高效 MLA(多頭潛在注意力)解碼內核。DeepSeek在V2模型中引入了MLA機制,主要解決推理時KV Cache(鍵值緩存)占用過多內存導致的性能瓶頸。開源FlashMLA,有助于開源社區以更低的成本獲得更好的推理。
DeepEP是面向MoE模型訓練與推理的開源EP通信庫,同樣專為英偉達Hopper架構GPU設計。以往,MOE架構的不同專家模塊之間的通信效率,直接影響到整個模型的訓練和推理速度。開源DeepEP,相當于加速全球的大模型訓練,也就相當于加速創新迭代;加快推理速度,也就是相當于加速應用落地。
DeepGEMM是一個支持密集和MoE GEMM(通用矩陣乘)的FP8GEMM庫。通常,使用FP8(8位浮點數)格式是犧牲一些精度去換取更高的速度與效率,但DeepGEMM通過精細的縮放技術,盡可能地減少了精度問題。它的核心計算函數僅約 300 行代碼,被其他開發者譽為比英偉達還懂GPU。
DualPipe、EPLB、ProfileData是三套并行優化策略,前兩者分別解決流水線并行、專家并行的通信效率與負載平衡,第三個則是性能分析數據,以更好地優化與執行前兩套工具。傳統的流水線并行會出現執行各自任務過程中,一個GPU等待另一個GPU的間隙,DeepSeek就是要擠出這些“氣泡”。
同為杭州“六小龍”的宇樹科技,去年底至今,也陸續開源了從訓練到模擬再到真機運行的整個強化學習套件RL GYM。此外,宇樹科技針對開源機器人系統R(obot)OS推出的模擬包、使用蘋果Vision Pro對G1進行遙操作控制的工具及訓練數據集等,都在Github獲得追捧。
開源、共享、加速
阿里巴巴與DeepSeek的開源,已經改變了大模型的全球競爭格局,也將改變大模型應用市場的發展方向,
更高性價比的開源模型,正在推動基于前沿閉源大模型的AI服務大幅降價,惠及更多用戶。OpenAI的DeepResearch,現在將從Pro用戶(每月200美元)向所有Plus用戶(每月20美元)開放,每月10 次權限,Pro 用戶的權限則從每月100次增加到120次。在發布3天后,馬斯克也將Grok 3免費開放使用,直至服務器崩潰為止。微軟也向所有Copilot用戶,無限免費提供Copilot語音和深度思考模式。IBM本周也發布了針對企業的開源的推理模型Granite 3.2。
閉源模型廠商的策略,則是閉源最新一代模型,并開源上一代模型。奧特曼承認在開源問題上OpenAI站在了歷史的錯誤一方,并開放投票,讓用戶決定,下一個是開放o3-mini還是手機端側模型。這意味著OpenAI沒有明確的開源路線圖。谷歌目前的策略是閉源最強大的Gemini系列,但開放稍弱一點的Gemma模型。馬斯克的 xAI于去年 3 月發布了 Grok 1 推理時間代碼的開源版本 ,并最近承諾在未來幾周內發布 Grok 2 的開源版本。
在國內,DeepSeek的巨大成功,讓開源幾乎成為了必選項。騰訊混元的Hunyuan-Large已經開源,擁有 389B 總參數和 52B 激活參數,略強于DeepSeek-V2.5,接近 LLama3.1-405B。百度則宣布了將陸續推出文心大模型4.5系列,并于6月30日起正式開源。字節跳動則開源了小體積的多模態模型Valley等。此外,智譜、百川智能、零一萬物、階躍星辰、月之暗面與MiniMax也都開源了部分模型;有些玩家已經退出了前沿模型的角逐,開始追求商業化。
中國大模型創新不斷縮短與美國前沿閉源大模型的差距,如今,兩個月內就可以基本復現出接近或相當水平。相應地,大模型服務的成本卻以每年十倍的幅度下降。在更強度性價比的商業化面前,閉源模型早已沒有護城河。為平抑API需求高峰,DeepSeek本周又宣布推出最高75%的錯峰折扣。
在規模市場上快速應用創新不斷取得成功的中國,將再次成為開源模型的最大受益者。最近,人民日報刊發中國工程院院士、鵬城實驗室主任高文的評論文章,呼吁“構建人工智能開源開放創新體系”,著眼點之一,正是“人工智能開源共享是加速技術創新并助推產業升級的強力推手”。開源推動了廣泛的二次開發可能性;降低了應用門檻,拓展了業務需求邊界;同時提高技術透明度與可解釋性,有利于推動技術標準化。
中國在開源模型創新上的成功將隨著應用于服務擴散至全球。Nature點評稱,中國的大模型戰略,并非一定要取得全球領先,而是利用底層技術開發出價格實惠、具有商業可行性的業務解決方案。這也許是中國對于AGI的主張,通用意味著普惠。
這與過去十年中國先進制造改變世界如出一轍。未來十年,中國AI平權也將惠及全球用戶。這條新的絲路的起點,很可能就在杭州。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.