99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清晨重磅!阿里發(fā)布并開(kāi)源Qwen3,無(wú)縫集成思考模式、多語(yǔ)言、便于Agent調(diào)用

0
分享至

阿里巴巴周一發(fā)布并開(kāi)源通義千問(wèn)3.0(Qwen3)系列模型,并稱其在數(shù)學(xué)和編程等多個(gè)方面均可與DeepSeek的性能相媲美。與其他主流模型相比,Qwen3還顯著降低了部署成本。阿里表示,Qwen3無(wú)縫集成兩種思考模式,支持119種語(yǔ)言,便于Agent調(diào)用。


性能媲美DeepSeek R1、OpenAI o1,全部開(kāi)源

Qwen3系列包括兩個(gè)專家混合 (MoE) 模型和另外六個(gè)模型。阿里巴巴表示,最新發(fā)型的旗艦?zāi)P蚎wen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級(jí)模型相比,表現(xiàn)出極具競(jìng)爭(zhēng)力。

此外,被稱為“專家混合”(MoE,Mixture-of-Experts)模型的Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%,表現(xiàn)更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。這類系統(tǒng)模擬人類解決問(wèn)題的思維方式,將任務(wù)劃分為更小的數(shù)據(jù)集,類似于讓一組各有所長(zhǎng)的專家分別負(fù)責(zé)不同部分,從而提升整體效率。



同時(shí),阿里巴巴還開(kāi)源了兩個(gè)MoE模型的權(quán)重:擁有2350多億總參數(shù)和220多億激活參數(shù)的Qwen3-235B-A22B,以及擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE 模型Qwen3-30B-A3B。此外,六個(gè)Dense模型也已開(kāi)源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0許可下開(kāi)源。



“混合型”模型,兩種思考模式

阿里巴巴表示,Qwen 3系列是“混合型”模型,既可以花時(shí)間“推理”以解決復(fù)雜問(wèn)題,也可以快速回答簡(jiǎn)單請(qǐng)求,分別叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能夠有效地進(jìn)行自我事實(shí)核查,類似于OpenAI的o3模型,但代價(jià)是推理過(guò)程中的延遲時(shí)間較高。

Qwen團(tuán)隊(duì)在博客文章中寫(xiě)道:

這種靈活性使用戶能夠根據(jù)具體任務(wù)控制模型進(jìn)行“思考”的程度。例如,復(fù)雜的問(wèn)題可以通過(guò)擴(kuò)展推理步驟來(lái)解決,而簡(jiǎn)單的問(wèn)題則可以直接快速作答,無(wú)需延遲。
至關(guān)重要的是,這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力。如上文所述,Qwen3展現(xiàn)出可擴(kuò)展且平滑的性能提升,這與分配的計(jì)算推理預(yù)算直接相關(guān)。
這樣的設(shè)計(jì)讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算,在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。


訓(xùn)練數(shù)據(jù)量是Qwen2.5的兩倍,便于Agent調(diào)用

阿里巴巴表示,Qwen3系列支持119種語(yǔ)言,并基于近36萬(wàn)億個(gè)token(標(biāo)記)進(jìn)行訓(xùn)練,使用的數(shù)據(jù)量是Qwen2.5的兩倍。Token是模型處理的基本數(shù)據(jù)單元,約100萬(wàn)個(gè)token相當(dāng)于75萬(wàn)英文單詞。阿里巴巴稱,Qwen3的訓(xùn)練數(shù)據(jù)包括教材、問(wèn)答對(duì)、代碼片段等多種內(nèi)容。

據(jù)介紹,Qwen3預(yù)訓(xùn)練過(guò)程分為三個(gè)階段。在第一階段(S1),模型在超過(guò)30萬(wàn)億個(gè)token上進(jìn)行了預(yù)訓(xùn)練,上下文長(zhǎng)度為4K token。這一階段為模型提供了基本的語(yǔ)言技能和通用知識(shí)。

在第二階段(S2),訓(xùn)練則通過(guò)增加知識(shí)密集型數(shù)據(jù)(如 STEM、編程和推理任務(wù))的比例來(lái)改進(jìn)數(shù)據(jù)集,隨后模型又在額外的5萬(wàn)億個(gè)token上進(jìn)行了預(yù)訓(xùn)練。在最后階段則使用高質(zhì)量的長(zhǎng)上下文數(shù)據(jù)將上下文長(zhǎng)度擴(kuò)展到32K token,確保模型能夠有效地處理更長(zhǎng)的輸入。


阿里巴巴表示,由于模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法,Qwen3 Dense基礎(chǔ)模型的整體性能與參數(shù)更多的Qwen2.5基礎(chǔ)模型相當(dāng)。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分別與Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。特別是在 STEM、編碼和推理等領(lǐng)域,Qwen3 Dense基礎(chǔ)模型的表現(xiàn)甚至超過(guò)了更大規(guī)模的Qwen2.5 模型。對(duì)于Qwen3 MoE基礎(chǔ)模型,它們?cè)趦H使用10%激活參數(shù)的情況下達(dá)到了與Qwen2.5 Dense基礎(chǔ)模型相似的性能,顯著節(jié)省了訓(xùn)練和推理成本。

而在后訓(xùn)練階段,阿里使用多樣的的長(zhǎng)思維鏈數(shù)據(jù)對(duì)模型進(jìn)行了微調(diào),涵蓋了數(shù)學(xué)、代碼、邏輯推理和 STEM 問(wèn)題等多種任務(wù)和領(lǐng)域,為模型配備基本的推理能力。然后通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí),利用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)增強(qiáng)模型的探索和鉆研能力。

阿里巴巴表示,Qwen3在調(diào)用工具(tool-calling)、執(zhí)行指令以及復(fù)制特定數(shù)據(jù)格式等能力方面表現(xiàn)出色,推薦用戶使用Qwen-Agent來(lái)充分發(fā)揮Qwen3的Agent能力。Qwen-Agent內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器,大大降低了代碼復(fù)雜性。

除了提供下載版本外,Qwen3還可以通過(guò)Fireworks AI、Hyperbolic等云服務(wù)提供商使用。

目標(biāo)仍對(duì)準(zhǔn)AGI

OpenAI、谷歌和Anthropic近期也陸續(xù)推出了多款新模型。OpenAI近日表示,也計(jì)劃在未來(lái)幾個(gè)月發(fā)布一款更加“開(kāi)放”的模型,模仿人類推理方式,這標(biāo)志著其策略出現(xiàn)轉(zhuǎn)變,此前DeepSeek和阿里巴巴已經(jīng)率先推出了開(kāi)源AI系統(tǒng)。

目前,阿里巴巴正以Qwen為核心,構(gòu)建其AI版圖。今年2月,首席執(zhí)行官吳泳銘表示,公司目前的“首要目標(biāo)”是實(shí)現(xiàn)通用人工智能(AGI)——即打造具備人類智力水平的AI系統(tǒng)。

阿里表示,Qwen3代表了該公司在通往通用人工智能(AGI)和超級(jí)人工智能(ASI)旅程中的一個(gè)重要里程碑。展望未來(lái),阿里計(jì)劃從多個(gè)維度提升模型,包括優(yōu)化模型架構(gòu)和訓(xùn)練方法,以實(shí)現(xiàn)幾個(gè)關(guān)鍵目標(biāo):擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長(zhǎng)上下文長(zhǎng)度、拓寬模態(tài)范圍,并利用環(huán)境反饋推進(jìn)強(qiáng)化學(xué)習(xí)以進(jìn)行長(zhǎng)周期推理。

開(kāi)源社區(qū)振奮

阿里Qwen3的發(fā)布讓AI社區(qū)感到激動(dòng),有網(wǎng)友獻(xiàn)上經(jīng)典Meme:


有網(wǎng)友說(shuō),

在我的測(cè)試中,235B在高維張量運(yùn)算方面的表現(xiàn)相當(dāng)于Sonnet。
這是一個(gè)非常出色的模型,
感謝你們。


有網(wǎng)友對(duì)Qwen3贊不絕口:

如果不是親眼看到屏幕上實(shí)時(shí)生成的tokens,我根本不會(huì)相信那些基準(zhǔn)測(cè)試結(jié)果。???? 簡(jiǎn)直像魔法一樣????


而開(kāi)源AI的支持者則更加興奮。有網(wǎng)友說(shuō):

“有了一個(gè)開(kāi)源32B大模型,性能跟Gemini 2.5 Pro不相上下。”
“我們徹底殺回來(lái)了!”


網(wǎng)友感謝阿里積極推動(dòng)開(kāi)源:


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
真希望這樣的明星別再來(lái)廣西南寧了!一個(gè)灣灣的過(guò)氣明星兼網(wǎng)紅。

真希望這樣的明星別再來(lái)廣西南寧了!一個(gè)灣灣的過(guò)氣明星兼網(wǎng)紅。

觀察鑒娛
2025-05-01 10:31:10
情商太低了,詹姆斯賽后發(fā)言引發(fā)爭(zhēng)議,得罪東契奇還得罪管理層

情商太低了,詹姆斯賽后發(fā)言引發(fā)爭(zhēng)議,得罪東契奇還得罪管理層

鄒維體育
2025-05-01 14:26:23
突然,降息25基點(diǎn)!

突然,降息25基點(diǎn)!

中國(guó)基金報(bào)
2025-05-01 08:18:05
張家輝坐地鐵去參加金像獎(jiǎng)?lì)C獎(jiǎng)典禮,內(nèi)娛永遠(yuǎn)做不到

張家輝坐地鐵去參加金像獎(jiǎng)?lì)C獎(jiǎng)典禮,內(nèi)娛永遠(yuǎn)做不到

西樓知趣雜談
2025-05-01 09:38:12
朱立倫已低頭認(rèn)慫,王鴻薇承認(rèn)罷賴是假議題,國(guó)民黨面臨滅黨之災(zāi)

朱立倫已低頭認(rèn)慫,王鴻薇承認(rèn)罷賴是假議題,國(guó)民黨面臨滅黨之災(zāi)

獵火照狼山
2025-05-01 21:46:21
嚇人!北京機(jī)場(chǎng)高速發(fā)生惡劣事件!

嚇人!北京機(jī)場(chǎng)高速發(fā)生惡劣事件!

美麗大北京
2025-05-01 23:22:29
京哈高速又又又大堵車(chē),堪比大型停車(chē)場(chǎng),部分路段堵車(chē)10小時(shí)起!

京哈高速又又又大堵車(chē),堪比大型停車(chē)場(chǎng),部分路段堵車(chē)10小時(shí)起!

阿燕姐說(shuō)育兒
2025-05-01 14:12:25
物業(yè)費(fèi)超過(guò)3年不用交??jī)?nèi)行曝行業(yè)潛規(guī)則:90%業(yè)主白送錢(qián)

物業(yè)費(fèi)超過(guò)3年不用交??jī)?nèi)行曝行業(yè)潛規(guī)則:90%業(yè)主白送錢(qián)

巢客HOME
2025-05-01 12:35:03
全程干瞪眼面無(wú)表情,38歲劉詩(shī)詩(shī)以這種方式,給青年演員上了一課

全程干瞪眼面無(wú)表情,38歲劉詩(shī)詩(shī)以這種方式,給青年演員上了一課

科學(xué)發(fā)掘
2025-05-02 00:42:05
朱同志晚年捐款4000萬(wàn),巨款從何而來(lái)?

朱同志晚年捐款4000萬(wàn),巨款從何而來(lái)?

年代回憶
2025-05-01 20:53:30
從董襲瑩看中國(guó)社會(huì)上層:就是這樣混亂,就是這樣別有洞天

從董襲瑩看中國(guó)社會(huì)上層:就是這樣混亂,就是這樣別有洞天

苗苗情感說(shuō)
2025-05-01 01:58:17
關(guān)稅戰(zhàn):為何說(shuō)它將改寫(xiě)2027年中國(guó)人的命運(yùn)

關(guān)稅戰(zhàn):為何說(shuō)它將改寫(xiě)2027年中國(guó)人的命運(yùn)

老友科普
2025-04-29 16:08:30
中冶建研院回應(yīng)網(wǎng)傳董某瑩父親情況

中冶建研院回應(yīng)網(wǎng)傳董某瑩父親情況

現(xiàn)代快報(bào)
2025-04-30 23:03:38
2025年中國(guó)大學(xué)100強(qiáng)發(fā)布!哈工大位列第6,南開(kāi)僅排名30

2025年中國(guó)大學(xué)100強(qiáng)發(fā)布!哈工大位列第6,南開(kāi)僅排名30

教育導(dǎo)向分享
2025-05-01 19:21:05
卡內(nèi)達(dá):執(zhí)教王鈺棟是幸運(yùn),我不知道他的上限在哪里

卡內(nèi)達(dá):執(zhí)教王鈺棟是幸運(yùn),我不知道他的上限在哪里

懂球帝
2025-05-01 21:41:43
詹姆斯在更衣室以隊(duì)友的口吻向布朗尼告別:好好度過(guò)休賽期,我們下次見(jiàn)面時(shí)再見(jiàn)

詹姆斯在更衣室以隊(duì)友的口吻向布朗尼告別:好好度過(guò)休賽期,我們下次見(jiàn)面時(shí)再見(jiàn)

雷速體育
2025-05-01 14:04:12
馬卡:皇馬后衛(wèi)三年缺陣超2000天,本賽季嘗試過(guò)27種后防組合

馬卡:皇馬后衛(wèi)三年缺陣超2000天,本賽季嘗試過(guò)27種后防組合

懂球帝
2025-05-02 02:59:04
湖南一景區(qū)推出海拔1600米懸崖睡床:對(duì)年齡、體重有要求

湖南一景區(qū)推出海拔1600米懸崖睡床:對(duì)年齡、體重有要求

封面新聞
2025-05-01 00:25:04
韓國(guó)將中國(guó)稀土賣(mài)給美國(guó),阿根廷將美國(guó)大豆賣(mài)給中國(guó),這就是下跪

韓國(guó)將中國(guó)稀土賣(mài)給美國(guó),阿根廷將美國(guó)大豆賣(mài)給中國(guó),這就是下跪

驊駿老師張
2025-05-01 07:09:30
萬(wàn)斯投出關(guān)鍵一票,民主黨叫停特朗普關(guān)稅失敗,3名共和黨人倒戈

萬(wàn)斯投出關(guān)鍵一票,民主黨叫停特朗普關(guān)稅失敗,3名共和黨人倒戈

爆笑大聰明阿衿
2025-05-01 16:26:31
2025-05-02 03:48:49
華爾街見(jiàn)聞官方 incentive-icons
華爾街見(jiàn)聞官方
中國(guó)領(lǐng)先的金融商業(yè)信息提供商
129261文章數(shù) 2649086關(guān)注度
往期回顧 全部

科技要聞

DeepSeek新數(shù)學(xué)模型刷爆記錄

頭條要聞

魯比奧將兼任美總統(tǒng)國(guó)家安全顧問(wèn) 沃爾茲被提名美大使

頭條要聞

魯比奧將兼任美總統(tǒng)國(guó)家安全顧問(wèn) 沃爾茲被提名美大使

體育要聞

無(wú)敵17歲vs飛翔泥頭車(chē),歐冠史詩(shī)對(duì)決

娛樂(lè)要聞

梅婷慶50歲生日,兒女和她一起許愿

財(cái)經(jīng)要聞

知情人士:美方正多渠道主動(dòng)與中方接觸

汽車(chē)要聞

預(yù)售32.98萬(wàn)起 魏牌高山家族將于5月13日上市

態(tài)度原創(chuàng)

藝術(shù)
家居
教育
本地
公開(kāi)課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

家居要聞

輕奢婚房 自由隨性生活

教育要聞

告訴你a-b和a乘b的值,求a+b的平方等于多少

本地新聞

春色滿城關(guān)不住 | 花漾千陽(yáng)!塬上秘境藏幾重詩(shī)意?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 永城市| 法库县| 西藏| 石阡县| 沙雅县| 商河县| 茂名市| 扎兰屯市| 珲春市| 玛多县| 承德市| 黔南| 石家庄市| 白山市| 运城市| 疏勒县| 万山特区| 温宿县| 桃江县| 鄄城县| 仪陇县| 松滋市| 孙吴县| 彭水| 八宿县| 西平县| 临漳县| 昆明市| 绥化市| 博罗县| 三河市| 理塘县| 抚松县| 澄迈县| 宁安市| 大姚县| 广丰县| 叶城县| 卢湾区| 马龙县| 开鲁县|