99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

搶先DeepSeek R2,阿里通義正式發布國內首個通用推理模型 | 電廠

0
分享至


記者 董溫淑

編輯 高宇雷

Qwen 3模型即將發布的消息,已經流傳了一個月的時間;特別是最近一周內,坊間對Qwen 3的猜測不斷在“憋個大的”與“最終難產”之間反復橫跳。

直到4月29日凌晨,這款備受關注的模型終于亮相,號稱全面超越DeepSeek R1。

杭州一家中廠的算法從業者告訴「電廠」:“近幾個月網上不少DeepSeek R2的泄露信息,有人說R2要在5月份發。Qwen 3(這個時間發布)肯定是想搶個先機。”

在一家國產大模型開放平臺工作的劉露則透露,其所在的團隊提前不到12小時獲知Qwen3的發布消息,團隊成員連夜完成了Qwen 3系列模型在該平臺的部署上線。

無論如何,Qwen 3的亮相都意味著開源AI大模型的技術能力再次被刷新;與之相繼的,將是產業鏈下游應用者迎來一次新的生態選擇。

「電廠」注意到,Qwen 3發布僅10小時,已經有開發者發布了套殼Qwen 3系列模型的ChatBot類產品。


基于Qwen 3的第三方ChatBot類產品,圖源/網絡 ?


國內首個混合推理模型,成本/性能超越DeepSeek R1

根據阿里云通義千問團隊官宣,Qwen3系列開源了8個模型,其中包含2個MoE(混合專家)大模型和6個Dense(稠密)大模型。

本次Qwen3系列模型尤為值得關注的創新是該模型支持思考模式、非思考模式兩種運行方式。

在思考模式下,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法適合需要深入思考的復雜問題;在非思考模式中,模型會提供快速、近乎即時的響應,適用于對速度要求高于深度的簡單問題。

換句話說,Qwen3打破了DeepSeek R1等思維鏈模型慢思考的單一模式,而是為用戶賦予靈活選擇的權利。這也是如今全球大模型市場發展的重要方向之一。


不同Benchmark下Qwen3兩種思考模式對比,圖源/阿里云通義 ?

今年2月份,由部分OpenAI前員工創辦的Anthropic在全球范圍內率先發布了名為Claude 3.7 Sonnet的混合推理模型,被視為融合了DeepSeek V3(適于通用任務)與R1(適于推理任務)模型的各自優勢。

這種混合模式引起了業界的廣泛關注。OpenAI創始人Sam Altman就曾表示,OpenAI接下來將研發“它能夠知道什么時候應該長時間思考,并且通常適用于廣泛任務”的模型。而Qwen3是國內首個混合推理模型。

性能及成本優化方面,Qwen3系列也表現驚人。

比如本次開源的兩個MoE模型,權重分別為Qwen3-235B-A22B,是一個擁有 2350 多億總參數和220多億激活參數的大模型;另一個為Qwen3-30B-A3B,一個擁有約300億總參數和30億激活參數的小型MoE模型。

MoE(混合專家模型)混合包含多個專家網絡,每個專家通常是一個子模型、也可以是神經網絡的一個子模塊,擁有不同的能力或專長,能夠處理不同類型的輸入數據。在運行時,不同任務會被進行分類、輸送到相應的“專家”處進行解決。

DeepSeek V3與R1都屬于MoE模型。這種架構的優勢是其能夠,并且在解決任務時僅調動與之相應的模塊、節省計算成本。這也是“AI界拼多多”DeepSeek提升性價比的殺手锏之一。作為與Qwen3的對比,DeepSeek V3與R1總參數規模為6710億參數,激活參數為370億。

性能方面,官方信息顯示,Qwen旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比,均展現出優勢。

小型MoE模型Qwen3-30B-A3B ,相比DeepSeek V3、GPT 4o、谷歌Gemma3-27B-1T等模型同樣表現優異。

六個開源的Dense模型均適用于通用任務解決,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。

值得一提的是參數量極低的Qwen3-4B模型,也在不少任務中展現出來相比GPT 4o更為優異的成績。

上述模型均在 Apache 2.0 許可下開源。這是一種較為寬松的許可證,允許代碼修改和再發布(作為開源或商業軟件)。

Qwen3模型還支持 119 種語言和方言,并優化了Agent和代碼能力、加強了對MCP的支持。


開源大模型“城頭變換大王旗”

Qwen3的發布,距離DeepSeek R1的亮相已過去了3個多月。

1月20日,憑借比肩OpenAI o1的性能、低廉的成本,以及對大模型研發范式的改變,R1一經發布就榮膺開源大模型世界的“無冕之王”至今。

在此期間,包含科大訊飛(星火X1)、百度(文心X1)、OpenAI(o3 mini)、阿里(Qwen-QwQ-32B)、字節(豆包1.5深度思考)在內的玩家紛紛下場推理模型,但至多是接近R1性能或實現部分超越,未能真正挑動后者的位置。

在大模型的世界里,數月的時間已足夠一代新王換舊王。正是這樣的背景下,關注的目光落到了Qwen3身上。

與許多國內玩家不同的是,早在2024年8月,阿里就公開站到了開源自研模型的大廠陣營之中。在這條最終被DeepSeek驗證可行的市場之路上,Qwen可以說已經提前拿到了不少牌。

至今Qwen系列產品已在不少開源榜單中排名靠前。如據全球最大AI開源社區Huggingface 4月29日顯示,在audio-text-to-text任務類目下,Qwen的兩款模型熱度居前。

Huggingface 于2月10日發布的開源大模型榜單“Open LLM Leaderboard”也顯示,排名前十的開源大模型全部是基于Qwen開源模型二次訓練的衍生模型。


圖源/Huggingface ?

在生態活躍度方面,Qwen也處于全球前列。據官方數據顯示,從2024年下半年開始至2025年1月底,基于Qwen系列的衍生模型數量超過了美國Llama系列,超過9萬個,已是全球最大的AI模型家族,超過了Meta 旗下的Llama家族。

不過對比Llama系列,Qwen系列開源模型在下載量方面與前者仍有差距。據Meta首席執行官Zuck Burg在今年3月份宣布,Llama的下載量已達到10億次;而Qwen系列的下載量還在千萬級別。

在Qwen3發布這一天,周靖人接受了“晚點”的采訪,他講道,判斷“開源生態跑出來了”的指標主要有兩點“一是看開發者的選擇,二是看性能指標”。

本次隨著Qwen3的發布,這款新模型通過在性能指標和成本方面超越DeepSeek R1,以及創新的混合推理模式,登頂為全球最強大的開源大模型,又為Qwen增添了一張好牌。

但在這之后,還有更多的挑戰等待著它。接下來DeepSeek R2的亮相,也將為整個市場增添新的變數。

在貫徹“第一通吃(winner-takes-all)”定律的開源市場,競爭遠未到達終局、誰能成為最終的“winner”還充滿未知,無論是DeepSeek,還是Qwen和Llama,都仍需要為不下牌桌而持續努力。

不過值得欣慰的是,雖然戰程未半,至少當下的開源大模型“桂冠”仍歸屬于國產玩家。

(注:文中劉露為化名)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
內塔尼亞胡:今天也許輪到猶太人解放波斯人了

內塔尼亞胡:今天也許輪到猶太人解放波斯人了

仗劍看世界
2025-06-18 14:11:00
東北燒烤店贊助蘇超爆火,廣告與京東并列,老板娘回應堪稱高情商

東北燒烤店贊助蘇超爆火,廣告與京東并列,老板娘回應堪稱高情商

涵豆說娛
2025-06-23 16:32:28
顏色王炸!小米YU7又一新配色公布!

顏色王炸!小米YU7又一新配色公布!

大象新聞
2025-06-23 21:26:26
事實證明,輸光筆畫的常州已經贏麻了

事實證明,輸光筆畫的常州已經贏麻了

藍鯨新聞
2025-06-24 10:38:02
總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

小lu侃侃而談
2025-06-10 20:06:43
1979年越南副主席黃文歡拒絕反華,選擇投奔中國,最終結局如何?

1979年越南副主席黃文歡拒絕反華,選擇投奔中國,最終結局如何?

蓮花盛開
2024-11-26 21:25:23
伊朗和以色列宣布正式停火

伊朗和以色列宣布正式停火

數據寶
2025-06-24 11:32:57
35歲以下,身高180以上,月工資3500元!鄭大招聘保安引發關注…

35歲以下,身高180以上,月工資3500元!鄭大招聘保安引發關注…

火山詩話
2025-06-24 11:08:46
上海下周梅雨反撲!后天暴雨連場,種菜種稻的老鄉快防這3件事

上海下周梅雨反撲!后天暴雨連場,種菜種稻的老鄉快防這3件事

寧檬資訊
2025-06-24 08:25:17
上海暴雨后迎高溫 未來三天天氣大反轉

上海暴雨后迎高溫 未來三天天氣大反轉

巫淺淺
2025-06-24 08:25:21
79年448團事件,從副軍長到普通戰士犯了哪些錯,才釀成最終慘劇

79年448團事件,從副軍長到普通戰士犯了哪些錯,才釀成最終慘劇

阿燕姐說育兒
2025-06-23 18:02:05
歐盟感慨中方太會打牌,致命弱點已被抓住,只求中方滿足一個條件

歐盟感慨中方太會打牌,致命弱點已被抓住,只求中方滿足一個條件

劍哥的思政課
2025-06-24 10:40:18
已經很棒啦!王欣瑜社媒:感謝自己在很多艱難的時刻沒有放棄

已經很棒啦!王欣瑜社媒:感謝自己在很多艱難的時刻沒有放棄

直播吧
2025-06-23 18:51:14
荒唐!清華大學經管學院院長也敢冒充?涉事人無碼照片曝光

荒唐!清華大學經管學院院長也敢冒充?涉事人無碼照片曝光

平老師666
2025-06-23 23:28:02
晚點獨家丨美團優選退出虧損省份,小象超市成為新希望

晚點獨家丨美團優選退出虧損省份,小象超市成為新希望

晚點LatePost
2025-06-23 21:17:23
衛報:世界杯時國際足聯可以把伊朗安排在墨西哥,以避開美國

衛報:世界杯時國際足聯可以把伊朗安排在墨西哥,以避開美國

懂球帝
2025-06-24 08:20:19
上海一姑娘,因“工位養花”被約談,引全員效仿,領導:啪啪打臉

上海一姑娘,因“工位養花”被約談,引全員效仿,領導:啪啪打臉

瓜哥的動物日記
2025-06-20 04:45:54
重慶市紀委監委:吳凌云、皮文靜接受審查調查

重慶市紀委監委:吳凌云、皮文靜接受審查調查

魯中晨報
2025-06-23 14:31:36
AI造謠“政府工作人員因買方便面被通報”,一男子被采取刑事強制措施

AI造謠“政府工作人員因買方便面被通報”,一男子被采取刑事強制措施

新京報
2025-06-24 07:49:07
小車停在商鋪門口“沒空挪”,老板一怒之下電焊封堵;中山警方:司機自行開走了

小車停在商鋪門口“沒空挪”,老板一怒之下電焊封堵;中山警方:司機自行開走了

大風新聞
2025-06-23 19:41:08
2025-06-24 11:59:00
電廠 incentive-icons
電廠
探索科技公司的未知,為你充電
1656文章數 1042關注度
往期回顧 全部

科技要聞

特斯拉股價飆漲8%,但Robotaxi小違章不斷

頭條要聞

以伊停火最新進展:伊朗已認可方案 以色列先同意停火

頭條要聞

以伊停火最新進展:伊朗已認可方案 以色列先同意停火

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

名校不是護身符,李雪琴更多黑料被扒

財經要聞

以色列和伊朗同意全面停火!

汽車要聞

漢DM-i同款外觀,新款比亞迪e9申報圖曝光

態度原創

健康
親子
本地
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

親子要聞

孩子:無恥 你征信沒問題嗎?

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:以伊完全同意全面停火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高州市| 河间市| 伊通| 宁陵县| 望都县| 鸡东县| 清水河县| 丹阳市| 建平县| 华亭县| 剑阁县| 安徽省| 进贤县| 高陵县| 合肥市| 乌鲁木齐市| 包头市| 和平区| 福贡县| 大同县| 十堰市| 虞城县| 镇巴县| 青龙| 堆龙德庆县| 淳化县| 叙永县| 宜宾市| 安阳市| 施秉县| 莱州市| 大洼县| 隆子县| 利津县| 杂多县| 汉川市| 安新县| 宝清县| 宁强县| 朝阳县| 韶关市|