你沒看錯,千問3(Qwen3)的這次更新不是一個模型,而是一堆模型,Dense模型一共6款,大小從0.6B到32B不等;MoE混合專家模型有兩個,30B和235B。
我上手就先用235B這個旗艦版測試了一下代碼性能,用的是這個Prompt:
Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
目的是生成25個粒子在圓柱形的真空環境里彈跳,小球每個使用不同顏色,顯示軌跡,同時還要附加一個外部的球形容器,以及緩慢的運動和視角變化,是一個很復雜的Prompt,因為它涉及到了很多方面的知識需求。
這是我用Qwen3-235B-A22B的實現效果,可以說非常好,跟在編程領域的隱形王者Claude3.5不相上下。
同時我也用30B的MoE模型又測試了一下,效果也出乎意料的不錯,雖然不如235B,但是仔細看的話,基本上也滿足了Prompt的要求。
從Github上公布的模型性能也可見一斑,尤其是 235B-MoE,已經在數學推理和算法競賽級別的編程任務中領先優勢很明顯。
現在Qwen Chat已經可以免費使用了,我建議你也可以試試看,可以用30B和235B的MoE模型和32B的Dense模型。
更多的資源也可以從這里面,比如Github,Huggingface等。
Qwen Chat: https://chat.qwen.ai/
Github: https://github.com/QwenLM/Qwen3
HuggingFace:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
魔搭:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
Kaggle: https://www.kaggle.com/models/qwen-lm/qwen-3
我這次分別嘗試了本地部署和云端 Qwen Chat兩種方式來用千問3,本地部署主要是針對與小于等于30B的模型,對于旗艦版235B就只能用云端了。
這次的一大亮點就是混合推理模型,也就是說推理模式是可以手動開啟和關閉的,千問3的所有模型都原生支持這個特性,最小的0.6B模型也不例外,部署起來非常的簡單,這是用huggingface提供的transformers庫部署的千問3。
這是我用的0.6B小模型做的測試,問題是:請簡要的描述下大語言模型。
第一個是開啟了推理的回答,可以看到enable_thinking=Ture(第一個紅框),第二個紅框內的內容包含了兩部分內容,分別是thinking content和content,代表了推理思考內容和最終的輸出內容。
你仔細看的話,即使是這個最小的模型,推理邏輯也很完整,輸出的答案也非常不錯。
下面這個就是手動關閉推理模式后的回答,可以看到thinking content那里是空的,答案也不差。
這種模式的好處非常大,因為對于一些非推理型的問題,比如簡單的數學題1+1=?,開啟推理模式后反而有可能會失敗。
這個時候,只需要對于題目加一層篩選模式,然后自動的開啟或者關閉推理模型,不僅可以加速輸出,同時還能省不少的token,真降本增效!這個特性暫時我只在閉源的Claude-3.7上看到過,在開源模型中還是頭一號!
這次大版本更新把它大模型源神的稱號坐實了,畢竟一次性放8個模型可謂是空前絕后,特別是這次的更新幾乎把所有的大模型要素都集齊了。
1全尺寸開源且同級別領先:從0.6B 到235B,涵蓋了端側超小模型到B端友好的模型尺寸。
0.6B的推理模型,還是可以任意切換是否開啟推理的模型,包括手機在內的很多端側模型估計迎來一大波更新。
對第一個測試,我用DeepSeek R1也試了下,671B的模型效果比起235B的千問3差點意思,不過現在才R1,提升空間也很大,畢竟是中國的開源大模型雙子星。
小型MoE模型,總大小30B激活參數3B。32B的Dense模型非常的符合直覺,畢竟Qwen家族的32B模型在業內的威望有目共睹,不管是QwQ的32B模型在Marketing和Finance領域力壓Google,OpenAI和Anthropic的一眾大模型。
還是DeepSeek嚴選的蒸餾模型,千問系列的32B跟Llama的70B性能不相上下,但是模型足足小了一倍還多,可以看得出Dense模型在“智能密度”這個維度上的得分高的嚇人。
而這次的30B的MoE模型更是有講究的,可以說是目前最強的可以在消費級顯卡上部署的MoE大模型,因為就拿qwq這個模型來舉例,32b的模型在經過4bit量化后,顯存占用20GB,而英偉達的90系顯卡正好有24GB顯存,一塊顯卡就能正好讓模型跑起來,再加上性能足夠,基本上可以讓很多想要本地部署的個人和小型企業都滿足需求。
千問3的性能可以說是全尺寸都很強,我看到@劉聰NLP測試了這么一個問題:生蠔煮熟了叫什么?
30B以上的大模型都能答得對,對他們沒什么難度,我試了下本地部署的0.6B模型,照樣也可以做對。
而最小尺寸的deepseek r1 1.5b蒸餾版,答案不太對。
而同樣是開源的Gemma 4B,給出的回答更是讓人哭笑不得。
可以說,不管是百B以上的大模型,還是可以部署在端側的超小模型,千問3表現出來的效果都非常的好。
并且從官方介紹可以看到,千問3還同時對于Agent和MCP能力做了優化,再加上其可以本地部署的最大優勢,可以說是現在大模型市場最稀缺的能力。
性能好,型號多,所以我宣布,千問3才是真正的源神!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.