99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek五連發,通義三“王炸”,杭州成了開源之都

0
分享至

這一周,杭州城里,DeepSeek 連續五天公布代碼,阿里通義接連放出三個開源模型“王炸”。

DeepSeek的開源周剛過半,同城的阿里巴巴開始推波助瀾,前一日宣布了Qwen2.5-Max與推理版QwQ-Max的開源計劃,第二天又正式開源了Wan2.1(萬相)視頻模型。

Qwen2.5-Max對標DeepSeek V3的旗艦MOE模型,QwQ-Max是對標DeepSeek R1的深度推理模型,都屬于通義千問(Qwen)模型家族;Wan2.1是視頻生成模型,對標OpenAI的Sora,屬于通義萬相(Wan)模型家族。至此,阿里巴巴的開源大模型,實現了全模態、全尺寸的生態布局。

杭州正在從互聯網之城轉為AI開源之城。在互聯網時代,免費就是一種競爭策略,有利于應用場景的規模落地,形成網絡效應,建成平臺經濟;阿里巴巴也一直開源其微服務架構。在人工智能時代,開源與閉源,也日益成為AI創新與應用的兩條路線之爭。因為開源,DeepSeek已經改變了全球大模型前沿競爭與市場應用的游戲規則,阿里巴巴則要推動一種更加普惠的AGI。硅谷在閉源中發明萬能的AGI時,中國要主導AI開源生態,成為廉價好用的世界AI工廠。

阿里巴巴通往開源AGI之路

在DeepSeek前,阿里千問(Qwen)是中國開源模型的最強代表,迄今已覆蓋了視覺模型VL,音頻模型Audio,代碼模型Coder,數學模型Math,推理模型QwQ,視覺推理模型QvQ;尺寸往往小至1.5B,可以塞進手機,大至110B,追趕前沿閉源大模型。令人眼花繚亂。

與DeepSeek近乎橫空出世不同,阿里巴巴的大模型開源之路更有跡可循。自2023年8月首次開源通義千問Qwen以來,在全球最大AI開源社區Hugging Face上,基于Qwen的開源大模型的衍生模型數量已突破 10 萬,把Llama甩在了身后,穩居全球最大開源模型榜首;本周首次開源另一個系列的通義萬相(Wan),也將延續這一趨勢。

中國開源模型追近前沿封閉模型


(說明,按發布時間呈現不同模型的科學問答基準測評得分。OpenAI旗下模型為粉色,DeepSeek旗下模型為藍色,阿里巴巴旗下模型為橙色。QwQ-Max等部分模型暫未取得相應測評官方得分。)

阿里巴巴豪言要在未來三年投入至少520億美元在AI及其基礎設施上,希望能為整個大模型生態開源出通往AGI之路。從董事長蔡崇信到CEO吳泳銘,都認為AGI可能并不是某個全面超越人類能力的大模型,而是AI能靈活地部署到對人類有價值的各場景中,讓天下沒有難用的AI。

在2022年底ChatGPT時刻之前,阿里巴巴的大模型迭代相對緩慢。2020年,阿里達摩院啟動M6項目,即“通義”大模型系列的前身。后者于2022年9月發布,同時,它的底座模型M6-OFA,以及多項關鍵技術與核心能力面向全球開發者開源。2個月后,阿里巴巴聯手中國計算機學會(CCF)開源發展委員會共同推出了魔搭社區 ModelScope,成為國內開源生態的一部分。

2023年是勉力追趕的一年。2023年4月,通義千問Qwen大模型發布,與ChatGPT3.5相比還有較大差距。到了8月,阿里巴巴開源了其中的通用模型Qwen-7B和對話模型Qwen-7B-Chat,支持量化,支持用戶在消費級顯卡上部署和運行模型,成為國內首個宣布開源自研模型的科技巨頭。

此后,Qwen系列每個月都會有些進展。9月,Qwen-14B及其對話模型開源。11月,Qwen-72B及其對話模型開源,足以對抗當年7月Meta開源的Llama 2-70B;同時開源的還有Qwen-1.8B系列,推理2K長度文本內容僅需3G顯存,甚至可以裝進智能手機,以及音頻模型 Qwen-Audio。阿里巴巴開始以“全尺寸、全模態”的開源力度挑戰Meta的開源生態,進入國際開發者視野。

與DeepSeek瘋狂迭代一樣,2024年也是阿里巴巴開源模型狂飆突進的一年。在這一年里,阿里巴巴幾乎發布即開源,迅速從Qwen1.5迭代到Qwen2乃至當前主力Qwen2.5系列。

2月,趕在春節前,Qwen1.5系列模型上線,參數規模最小0.5B,最大110B,還包括Qwen系列的首個MoE模型Qwen1.5-MoE-A2.7B。盡管Qwen1.5系列仍然落后于當時的GPT-4-Turbo,但最大參數規模版本已經超越了GPT-3.5-Turbo-0613,在當時LMsys的chatbot-arena上排到第十;它的MOE模型也可以媲美Mistral 7B。阿里巴巴自評,到了這一階段,終于躋身開源模型第一梯隊。

6月,Qwen2系列模型開源。相比上一代的Qwen1.5,Qwen2在邏輯推理、多語言能力、長文本處理、代碼、數學等能力獲得了全面提升。其中,Qwen2-72B一躍成為當時全球性能最強的開源模型,基準測試超過美國最強開源模型Llama3-70B,也超過一眾中國閉源大模型。Meta的Llama3-70B發布于4月,當時趕超了Gemini Pro 1.5,成為開源社區的分水嶺,開始與閉源模型在前沿較量。據Qwen2的技術報告,當時全尺寸模型都使用了上一代模型個別尺寸中得以驗證的GQA技術,大大降低了顯存占有,加快了模型推理速度。Qwen2火速得到了Ollama等全球重要的開源生態伙伴的支持。

全球大模型開源社區Hugging Face首席執行官Clem Delangue總結道:Qwen 72B 稱王,中國開源模型總體上占主導地位。這也是通義Qwen系列模型首次登上Hugging Face開源模型排行榜榜首。

開源的生態,最終服務于阿里云,與通義大模型適配到一起。阿里也提出,要打造AI時代最開放的云;而模型開源,也對齊了阿里“讓天下沒有難做的生意”的使命。

9月的阿里云棲大會上,Qwen2.5系列模型發布,多數立即開源,涵蓋了多個尺寸的語言模型、多模態模型、數學模型和代碼模型。每個尺寸都有基礎版本、指令跟隨版本和量化版本,總計上架了 100 多個模型,刷新了業界紀錄。其中,開源模型Qwen2.5-72B性能超越了Llama 3.1-405B。Qwen2.5系列也是目前阿里巴巴對外提供對話服務與API服務的主力。

根據阿里云CTO周靖人的介紹,通義開源模型累計下載量已經突破4000萬,通義原生模型和衍生模型總數超過5萬,成為僅次于Meta旗下開源模型Llama系列的世界級模型群。

12月,深度推理模型QwQ-32B-Preview與多模態推理模型QVQ-72B-Preview先后開源,代表開源生態,加入到與OpenAI o1推理模型的競爭中。

2025年剛過去不到兩個月,阿里巴巴幾乎端出了手上所有的王牌。多模態與推理與智能體是重頭戲。

1月,Qwen2.5-VL與Qwen2.5-1M開源。前者是Qwen家族的旗艦視覺語言模型,具備操作電腦和手機的視覺智能體的潛力。剛開源不久的QVQ-72B,正是基于上一代的Qwen2-VL-72B研發的。這次,阿里巴巴直接把最新的都開源出來了,增強了對時間和空間尺度的感知能力。后者則是可能支持百萬token上下文的開源模型。

同月,阿里巴巴發布Qwen2.5-Max,這是超大規模的MOE架構的旗艦模型,使用超過20萬億tokens的預訓練數據,超越了同為MOE架構的DeepSeek的V3,以及最大開源稠密模型Llama-3.1-405B。

2月25日,阿里巴巴宣布將在不久的將來,以Apache 2.0許可協議開源發布Qwen2.5-Max,以及基于Qwen2.5-Max構建的深度思考模型QwQ-Max-Preview。后者支持聯網,不僅推理能力更強,同時在智能體相關工作流中也有不錯的表現。

相比之下,DeepSeek采用的是更為開放的MIT許可,它對用戶幾乎沒有限制,允許幾乎任何形式的使用、修改和分發,甚至可以將代碼用于閉源項目。 Apache許可增加了專利授權和衍生作品的限制。

2月26日,阿里巴巴宣布視覺生成基座模型Wan2.1開源。它包括1.3B與14B兩個尺寸,各自擁有覆蓋文本生成視頻(T2V)和圖像生成視頻(I2V)任務的具體模型。其中,前者僅需8GB多的顯存,就能生成480P視頻,用RTX 4090的話,4分鐘內生成5秒長短的視頻。對比一下,谷歌去年12月發布的視頻生成模型Veo 2,每秒收費50美分。

通義萬相圖像生成大模型于2023年7月首次亮相,于2024年9月全面升級,并免費向所有用戶開放體驗。Wan2.1的開源,標志著阿里云實現了全模態、全尺寸的開源。

杭州,開源AI之都

世界上三個最前沿的開源模型,Llama, DeepSeek, Qwen,已經有兩個在中國,就在杭州。開源創新,正在成為AI的杭州精神。

本周前四天,DeepSeek分別開源了FlashMLA、DeepEP、DeepGEMM,以及DualPipe、EPLB、ProfileData,與以往注重分享模型優化理念不同,本輪開源聚焦于人工智能基礎設施的優化。

FlashMLA是專為英偉達Hopper架構GPU設計的高效 MLA(多頭潛在注意力)解碼內核。DeepSeek在V2模型中引入了MLA機制,主要解決推理時KV Cache(鍵值緩存)占用過多內存導致的性能瓶頸。開源FlashMLA,有助于開源社區以更低的成本獲得更好的推理。

DeepEP是面向MoE模型訓練與推理的開源EP通信庫,同樣專為英偉達Hopper架構GPU設計。以往,MOE架構的不同專家模塊之間的通信效率,直接影響到整個模型的訓練和推理速度。開源DeepEP,相當于加速全球的大模型訓練,也就相當于加速創新迭代;加快推理速度,也就是相當于加速應用落地。

DeepGEMM是一個支持密集和MoE GEMM(通用矩陣乘)的FP8GEMM庫。通常,使用FP8(8位浮點數)格式是犧牲一些精度去換取更高的速度與效率,但DeepGEMM通過精細的縮放技術,盡可能地減少了精度問題。它的核心計算函數僅約 300 行代碼,被其他開發者譽為比英偉達還懂GPU。

DualPipe、EPLB、ProfileData是三套并行優化策略,前兩者分別解決流水線并行、專家并行的通信效率與負載平衡,第三個則是性能分析數據,以更好地優化與執行前兩套工具。傳統的流水線并行會出現執行各自任務過程中,一個GPU等待另一個GPU的間隙,DeepSeek就是要擠出這些“氣泡”。

同為杭州“六小龍”的宇樹科技,去年底至今,也陸續開源了從訓練到模擬再到真機運行的整個強化學習套件RL GYM。此外,宇樹科技針對開源機器人系統R(obot)OS推出的模擬包、使用蘋果Vision Pro對G1進行遙操作控制的工具及訓練數據集等,都在Github獲得追捧。

開源、共享、加速

阿里巴巴與DeepSeek的開源,已經改變了大模型的全球競爭格局,也將改變大模型應用市場的發展方向,

更高性價比的開源模型,正在推動基于前沿閉源大模型的AI服務大幅降價,惠及更多用戶。OpenAI的DeepResearch,現在將從Pro用戶(每月200美元)向所有Plus用戶(每月20美元)開放,每月10 次權限,Pro 用戶的權限則從每月100次增加到120次。在發布3天后,馬斯克也將Grok 3免費開放使用,直至服務器崩潰為止。微軟也向所有Copilot用戶,無限免費提供Copilot語音和深度思考模式。IBM本周也發布了針對企業的開源的推理模型Granite 3.2。

閉源模型廠商的策略,則是閉源最新一代模型,并開源上一代模型。奧特曼承認在開源問題上OpenAI站在了歷史的錯誤一方,并開放投票,讓用戶決定,下一個是開放o3-mini還是手機端側模型。這意味著OpenAI沒有明確的開源路線圖。谷歌目前的策略是閉源最強大的Gemini系列,但開放稍弱一點的Gemma模型。馬斯克的 xAI于去年 3 月發布了 Grok 1 推理時間代碼的開源版本 ,并最近承諾在未來幾周內發布 Grok 2 的開源版本。

在國內,DeepSeek的巨大成功,讓開源幾乎成為了必選項。騰訊混元的Hunyuan-Large已經開源,擁有 389B 總參數和 52B 激活參數,略強于DeepSeek-V2.5,接近 LLama3.1-405B。百度則宣布了將陸續推出文心大模型4.5系列,并于6月30日起正式開源。字節跳動則開源了小體積的多模態模型Valley等。此外,智譜、百川智能、零一萬物、階躍星辰、月之暗面與MiniMax也都開源了部分模型;有些玩家已經退出了前沿模型的角逐,開始追求商業化。


中國大模型創新不斷縮短與美國前沿閉源大模型的差距,如今,兩個月內就可以基本復現出接近或相當水平。相應地,大模型服務的成本卻以每年十倍的幅度下降。在更強度性價比的商業化面前,閉源模型早已沒有護城河。為平抑API需求高峰,DeepSeek本周又宣布推出最高75%的錯峰折扣。

在規模市場上快速應用創新不斷取得成功的中國,將再次成為開源模型的最大受益者。最近,人民日報刊發中國工程院院士、鵬城實驗室主任高文的評論文章,呼吁“構建人工智能開源開放創新體系”,著眼點之一,正是“人工智能開源共享是加速技術創新并助推產業升級的強力推手”。開源推動了廣泛的二次開發可能性;降低了應用門檻,拓展了業務需求邊界;同時提高技術透明度與可解釋性,有利于推動技術標準化。

中國在開源模型創新上的成功將隨著應用于服務擴散至全球。Nature點評稱,中國的大模型戰略,并非一定要取得全球領先,而是利用底層技術開發出價格實惠、具有商業可行性的業務解決方案。這也許是中國對于AGI的主張,通用意味著普惠。

這與過去十年中國先進制造改變世界如出一轍。未來十年,中國AI平權也將惠及全球用戶。這條新的絲路的起點,很可能就在杭州。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“成筐的充電寶被攔”!有機場已經提前執行新規定

“成筐的充電寶被攔”!有機場已經提前執行新規定

上觀新聞
2025-06-27 07:34:08
600分無緣211,690無緣清北,特控線全國最高,心疼這個高考大省

600分無緣211,690無緣清北,特控線全國最高,心疼這個高考大省

史書無明
2025-06-25 22:29:55
一天打8小時零工,過了40歲的我,“還沒讓自己認輸” | 深度報道

一天打8小時零工,過了40歲的我,“還沒讓自己認輸” | 深度報道

北青深一度
2025-06-26 16:06:50
不想被電車背刺的人,都去搶小米YU7了

不想被電車背刺的人,都去搶小米YU7了

源Auto
2025-06-26 21:57:28
以色列證實地面部隊進入伊朗!德黑蘭確認最高指揮官身亡

以色列證實地面部隊進入伊朗!德黑蘭確認最高指揮官身亡

項鵬飛
2025-06-26 22:11:12
家庭聚餐要報備?餐館冷清!新華社:基層整治跑偏,普通人遭了殃

家庭聚餐要報備?餐館冷清!新華社:基層整治跑偏,普通人遭了殃

春序娛樂
2025-06-27 11:42:25
徹底涼涼?保時捷銷量暴跌42%、降40萬沒人買,網友:誰當冤大頭

徹底涼涼?保時捷銷量暴跌42%、降40萬沒人買,網友:誰當冤大頭

劉曠
2025-06-27 10:02:19
小米YU7九色全開箱!實拍無濾鏡,哪個是你的

小米YU7九色全開箱!實拍無濾鏡,哪個是你的

葡萄說娛
2025-06-27 10:09:30
68歲大爺全身重彩刺青腸子悔青了:身份證辦不了親戚躲著走

68歲大爺全身重彩刺青腸子悔青了:身份證辦不了親戚躲著走

大象新聞
2025-06-27 09:43:27
29歲女孩跑網約車,一天掙夠500元才收工

29歲女孩跑網約車,一天掙夠500元才收工

瀟湘晨報
2025-06-27 11:44:12
27歲河南女子“李福貴”走村賣貨吸粉600多萬,自學英語、會開拖拉機,面對流量她痛哭稱壓力太大

27歲河南女子“李福貴”走村賣貨吸粉600多萬,自學英語、會開拖拉機,面對流量她痛哭稱壓力太大

極目新聞
2025-06-27 14:12:35
確實接受不了!很多北大學生退學,竟是醫學部調劑學生到護理專業

確實接受不了!很多北大學生退學,竟是醫學部調劑學生到護理專業

火山詩話
2025-06-27 12:36:37
1歲工作22歲退休?山西一疾控中心職工,領69萬養老金

1歲工作22歲退休?山西一疾控中心職工,領69萬養老金

大象新聞
2025-06-26 17:30:59
太尷尬了!女兒高考成績662分,朋友圈集體沉默,只收獲幾個贊…

太尷尬了!女兒高考成績662分,朋友圈集體沉默,只收獲幾個贊…

火山詩話
2025-06-27 05:43:50
伊朗看到朝鮮的滾筒洗衣機陣列,會流下羨慕嫉妒恨的口水吧?

伊朗看到朝鮮的滾筒洗衣機陣列,會流下羨慕嫉妒恨的口水吧?

科羅廖夫
2025-06-26 13:20:13
足協開始慌了?蘇超除了球技有點業余,這幾點已經完美碾壓中超!

足協開始慌了?蘇超除了球技有點業余,這幾點已經完美碾壓中超!

田先生籃球
2025-06-27 11:59:43
1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

揚子晚報
2025-06-27 10:38:28
安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

大笑江湖史
2025-06-26 17:55:06
帝國的挽歌與鋼軌上的黎明,從中伊鐵路看歐亞陸權重構與霸權黃昏

帝國的挽歌與鋼軌上的黎明,從中伊鐵路看歐亞陸權重構與霸權黃昏

小皮霸2025
2025-06-27 11:32:21
突發!83歲蔡瀾離世消息瘋傳!港星邵音音發文悼念,官方尚未回應

突發!83歲蔡瀾離世消息瘋傳!港星邵音音發文悼念,官方尚未回應

大笑江湖史
2025-06-27 09:19:51
2025-06-27 16:12:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
134文章數 38關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

網傳白玉蘭最佳男女主獎將“爆冷”

財經要聞

1萬就能刪行政處罰?信用修復江湖起底

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

時尚
親子
旅游
教育
軍事航空

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

親子要聞

腸漏是怎么形成的應該如何修復

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

小升初重難點:正方形面積是2,求圓的面積?

軍事要聞

美媒揭美軍37小時奔襲伊朗細節

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 凤阳县| 石城县| 缙云县| 桐城市| 京山县| 青田县| 南岸区| 奉贤区| 江山市| 宜宾市| 连平县| 高台县| 武城县| 新化县| 陇西县| 堆龙德庆县| 古蔺县| 北碚区| 石泉县| 扬州市| 黎川县| 泸州市| 望谟县| 恩平市| 丁青县| 黄石市| 景东| 淅川县| 霸州市| 腾冲县| 萨嘎县| 昆山市| 亚东县| 新巴尔虎右旗| 临沂市| 尼玛县| 高邑县| 蕉岭县| 渑池县| 康定县| 集贤县|