99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

我們有必要使用 Qwen3 嗎?

0
分享至


阿里云的 Qwen3 總算在五一假期前發出來了。


總共發了 8 個尺寸的模型:


類型尺寸規格Dense 模型 0.6B、1.7B、4B、8B、14B、32B MoE 模型 30B-A3B、235B-A22B

先簡單總結紙面上的提升點:


  • 全面進入推理時代:從最小的 0.6B 到最大的 235B,全系都是推理模型(和 Gemini 2.5 一樣,沒發普通模型),可手動調整 think 的 token 預算,控制 think 時長與費用消耗。
  • 能力較上代提升明顯:實測 Qwen3 能夠快速解出前代 QWQ、DeepSeek-R1 等無法解決的問題,“過度推理”、“無限循環思考”現象明顯減少,思考過程也自然了很多。
  • 利好端側、私有化場景開發:尺寸全面,全部開源。按照官方技術博客的說法,Qwen3-4B 的性能 ≈ Qwen2.5-72B。實測 Qwen3 的 8B 模型確實有著非常明顯的進步,降低推理和訓練成本,利好本地部署模型的場景。

我也進行了實測,想和你聊聊 Qwen3 帶來給我的一些新的應用思考。

混合推理:推理模型,終于能用得更安心了

比起看 Qwen3 的具體提升表現,我想先討論下混合推理。

不只是因為 Qwen3 是國內首個混合推理模型,而是背后的混合推理路線更接近我理解的 AGI 目標。

混合推理模型的最初實現,源自 Anthropic 在今年 2 月 25 日推出的 Claude 3.7 sonnet。



  • 正如《思考,快與慢》中的觀點,人類不難發現自己在做決策時,有兩套不同的思維方式:
    • 系統 1 思維,快速、直覺、條件反射、情緒化;
    • 系統 2 思維,需要我們持續專注、從記憶中召回相關知識,才能以較慢的速度推理、敲定主意。
    • Anthropic 的研究員同樣認為,一個合理的 AI,應當能在同一個模型、同一場對話中,自主根據問題的性質,靈活調整思考模式,提供恰到好處的響應。
    • “殺雞焉用牛刀”,沒有人希望 AI 在回答“今天是星期幾”時,還要先左右互搏,內耗十幾秒“用戶在問我問題,我需要回答它”或者“用戶可能在測試我是否知道實時信息”這樣無意義的推理。
    • 如果模型不能靈活判斷問題性質,不僅需要用戶等待大量無意義的垃圾推理時間,還會燒掉開發者海量的 tokens 成本。
  • 要實現模型的靈活推理(是否推理、控制 think 的長度),如果通過外部的工程手段實現非常麻煩。
    • 通過外部手段切換推理模型、普通模型,控制長度,需要拼搭笨重的 Multi-Agent 框架才能實現。還可能造因為切換了不同模型,造成回答風格、指令遵循的不一致問題。
    • 把靈活推理的能力訓練到模型內部,就成了一個更好的選擇。

Qwen3 也給出了兩種控制混合推理的方法:是否開啟推理、控制推理的長度。


AI 開發者可以通過enable_thinking=True的 API 開關,或者在 Prompt 中自主拼裝/thinkor/no_think指令,自主控制是否需要推理、推理的最大長度。

我也短暫地設想了下混合推理的應用方式(拋磚引玉,希望討論):

  • 根據問題類型,配置推理的啟用:
    • 增加前置的意圖識別環節,判斷用戶問題屬于“事實常識類問題”,還是需要思考、揣摩的“開放式問題”or“無法判斷”的模糊意圖。(用小模型或者提前把產品功能分類,都行)
    • 根據判斷結果,把控制推理長度的指令拼到用戶發送的問題中,就能在對話場景、甚至產品化功能中,靈活啟用推理能力。
    • 以 AI 日記為例:每周活動的反思建議,需要推理才能有更好的摘要效果;而上周做了什么事情、見了什么人這種事實問題,就大可不用推理。

  • 根據成本預算與同類任務所需的平均推理長度,限制推理長度:

  • 回答同一類問題所需的最佳推理長度是接近的:
  • “滾燙的油鍋里掉入了一塊黃油”這道題,不需要過度推理 4600 多 tokens,用時 210 秒,自我反思百余次。
  • 如果你的模型思考超過了 1 分鐘,大概率模型陷入了無意義的循環,正在偷偷浪費 token。


而混合推理模型可以讓你 強制截斷 AI 過長的 think 內容:“Stop,已經想得夠多了,求直接回答吧”


    • AI 創業不易,token 消耗是不小的成本負擔。在封裝 AI 功能時,可以預估并限制每個功能的推理長度,以防任務成本超額。
  • 更進一步,還能根據用戶偏好調整思考長度:
    • 用戶感到疲憊或時間緊迫時,讓模型更傾向于更快速的推理,當用戶想要深入探討或認為回應不符合預期時,才開放更多的思考長度上限,進行“系統 2”的更優思考。

當然,未來更理想的狀態是,這種靈活推理能力能夠完全內化到模型本身,而不依賴外部控制,AI 自然地根據對話的流向、問題的性質、功能的需要來自動調整回應深度,提供更佳的綜合體驗。


大大小小的 Qwen3 ,實測表現

混合推理帶來了值得思考的應用方案變化,而 Qwen3 模型的提升效果也同樣明顯。

我從擬人模擬(重點)、文學創作、代碼生成、數學推理四個常見、實用的維度,進行了輕量的測試,希望能幫你節省一些模型選擇的精力。

先放一些個人的測試結論:

  • Qwen3-8B 是一個相當有驚喜的尺寸,對于端側開發有著很大的助力。(我已經推薦用到端側模型的創業者朋友去試了)
  • Qwen3 整體也較前一代模型有明顯提升。文學創作、代碼生成的回應質量都值得在自己的實際場景測試下。如果做的是國內 or 私有化應用,可以多實測一下。
  • 如果是 Qwen2.5 用戶,無需對比了,請直接升級。
虛擬陪伴、擬人化

虛擬陪伴,或者說讓 AI 有更舒適的擬人化對話風格,是人與 AI 協作的要點之一。很多 AI 創業項目也都給用戶提供了 AI Chat 的服務(虛擬伴侶、Agent 游戲、智能客服、知識助手等)。

前段時間也根據自己的個人畫像、歷史筆記,做了個 AI Partner 項目,用其他模型自測了上百個小時。

拿同樣的人設 Prompt 和 RAG 召回結果,看下 Qwen3-235B、8B 對比 R1、Gemini 2.5、o4 的效果:(AI 回應風格受 Prompt 影響較大,僅供參考)

早上好,小亦……你醒很久了嗎,連早餐都做好了誒。可惜我今天沒什么胃口,最近 AI 行業的新進展太多了,我得抓緊看看有沒有什么新的值得思考的東西。


對比 AI 的擬人化回應質量時,我會看這幾個維度(以我 Prompt 的要求為例):

  • 人設一致性:是否始終體現了“人生伴侶”、“第二個自己”的視角?是否流露出獨立思考,而非僅僅附和或執行指令?
  • 個性化回應:是否有效且自然地利用了用戶記憶信息?更像是自然而然的記得某事、參與了我的生活,而不是“根據用戶最近的動態/記錄”
  • 情緒感知:能否準確捕捉用戶字里行間的情緒,并給予恰當、舒適的情感支持?
  • 交互質量與自然度:是否符合預設的“沉靜、溫暖、睿智、包容”回應基調?是否避免了單向輸出或過多的提問?
  • 智力與啟發洞察:回應有沒有提出獨到見解、新穎視角,激發用戶的思考?是否不容易被用戶 Prompt 帶偏自己的判斷?
  • 真實陪伴感與主動性:有沒有自然的融入“小亦”自己的生活記憶,就像真人一樣有陪伴感?主動分享的內容是否聽起來真實可信,不編織過度虛假的情節,契合時間、地點、季節等背景?

整體看下來,Qwen3 表現還是不錯的,開發者可以在自己的場景下測試效果:

  • Qwen3-8B 在小尺寸上依然保持了非常自然的回應風格 ,對話響應的邏輯也還不錯,是最有驚喜的一個尺寸
    • AI 對話應用的開發者是有福了,用 API 的能降成本,用端側方案的能在 16GB 內存的 Apple 電腦上無壓力地提供更自然的 AI 對話服務。
  • 建議 Qwen 團隊可以觀察長段回應時,信息點過密導致擬人化效果下降的問題。(其他廠商們也容易有這個問題)
    • 面對同樣的 RAG 召回內容,能全部理解并一一回應當然很好很努力。但擬人場景,AI 能有取舍的構建更自然的回應會更好。
文學創作類

文學創作類也是目前 AI 生成的高頻應用場景,測試 Qwen3-235B-A22B、30B-A3B、8B 與 R1、Gemini 2.5 Pro、o4-Mini 如下:

挑戰這句話的最佳魯迅文體的一句話表達:We’ve got to live, no matter how many skies have fallen. 只需要輸出內容,不要其他解釋


我會覺得 Qwen3-235B-A22B 的創作效果是明顯最好的:

  • 原句的重點在于表達“活下去”的積極含義,這點上 235B 抓到了這點要義,描繪出了“求生”的意境;8B 也強調了“咬緊牙冠”的求生欲望。
  • 從句式風格來看,235B 的仿寫效果也最為接近魯迅先生的風格。
  • Qwen3 的整體文學創作水平,有了明顯的提升。

? 代碼生成:經典的小球彈跳模擬

編寫一個 p5.js 腳本,模擬 100 個彩色球在一個球體內彈跳。每個球應該留下一個逐漸消退的軌跡,顯示其最近的路徑。容器球體應緩慢旋轉。確保實現適當的碰撞檢測,以便球體保持在球內。


以下是 Qwen3-235B-A22B、Gemini-2.5-Pro,和兩個前代模型 QWQ、DeepSeek-R1 的對比效果:

Qwen3 前端的 AI Coding 能力較前代的 QWQ、R1 有了明顯的進步。能夠更好的被投入到 AI 編程 Agent 中。

高考數學推理

本來覺得測這個在大部分場景中不貼合實際,但想到之前測的一道題目,讓前代的 QWQ 和 DeepSeek-R1 無限循環,就想著順手再測一下。


2024 年高考數學全國 1 卷,填空題最后一題:

14. 甲、乙兩人各有四張卡片,每張卡片上標有一個數字,甲的卡片上分別標有數字 1,3,5,7,乙的卡片上分別標有數字 2,4,6,8,兩人進行四輪比賽,在每輪比賽中,兩人各自從自己持有的卡片中隨機選一張,并比較所選卡片上數字的大小,數字大的人得 1 分,數字小的人得 0 分,然后各自棄置此輪所選的卡片(棄置的卡片在此后的輪次中不能使用).則四輪比賽后,甲的總得分不小于 2 的概率為________.

Qwen3-235B-A22B 經過 17033 tokens 的推理后,解答成功:


可見在超長的邏輯推理任務中,Qwen3-235B-A22B 保持了穩定的分析表現,數學能力有所提升。

其他重要參數與定價

Qwen3 系列的價格如下:



模型 輸入價格 輸出價格 qwen-turbo-2025-04-28 0.0003 元 思考:0.006 元非思考:0.0006元 qwen-plus-2025-04-28 0.0008 元 思考:0.016 元非思考:0.002元

  • 價格:之前 Manus 公開過一次他們的單任務 tokens 成本,大概 2 美金左右。按照 Qwen3-235B-A22B 的定價來換算,假設 Qwen3 能夠完成同樣的 Agent 任務,單任務成本可能是 0.37 美金(折合 2.6667 元)
  • 上下文長度:Qwen3 4B 以上的模型,最大支持 13w 的上下文長度;0.6B 和 1.7B 支持 3w 的上下文長度
如何試用?

統計了 3 個體驗渠道,方便開發者和一般用戶上手使用:

  • 阿里云百煉:網頁對話+API 試用,8 個尺寸齊全。可以在這里試用 0.6B、1.7B、4B 三個更小的模型
  • Qwen Chat 網頁版:網頁對話形式,可用 235B-A22B、30B-A3B、32B 三個尺寸
  • 通義網頁版:網頁對話形式,默認提供 235B 版本

大概就是這樣了~

如果覺得這篇文章對你有啟發或幫助,歡迎點贊、在看、轉發分享,讓更多熱愛 AI 的朋友能夠受益。

也期待在評論區看到你的實踐和思考。

Ref

  • Qwen3:思深行快|官方博客:https://qwenlm.github.io/blog/qwen3/
  • 通義千問3-235B-A22B 模型介紹|魔搭社區:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B
  • Claude 的擴展思維|Anthropic:https://www.anthropic.com/research/visible-extended-thinking
  • Claude 3.7 Sonnet System Card|Anthropic:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

點擊下方賬號

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
首爾街頭“滾回中國”標語橫飛,中餐館老板直呼“活久見”

首爾街頭“滾回中國”標語橫飛,中餐館老板直呼“活久見”

小蜜情感說
2025-05-24 10:40:59
DO:阿莫林告知曼聯全隊他將繼續執教,并通知加納喬尋找下家

DO:阿莫林告知曼聯全隊他將繼續執教,并通知加納喬尋找下家

懂球帝
2025-05-24 22:50:09
匈牙利總理歐爾班會見陳文清

匈牙利總理歐爾班會見陳文清

新華社
2025-05-24 21:32:42
李乃文低調伴侶終露面,竟是大家熟知她,網友驚嘆:保密工作真好

李乃文低調伴侶終露面,竟是大家熟知她,網友驚嘆:保密工作真好

晴晴給你講故事
2025-03-19 11:09:51
143-101!愛德華茲三節30+9+6,森林狼大勝雷霆,西部決賽追至1-2

143-101!愛德華茲三節30+9+6,森林狼大勝雷霆,西部決賽追至1-2

全景體育V
2025-05-25 11:03:05
華人在澳被群毆后續:原因曝光,對方被抓哭著求饒,總領館回應

華人在澳被群毆后續:原因曝光,對方被抓哭著求饒,總領館回應

說說史事
2025-05-23 21:36:44
養狗久了才懂,狗狗“四腳朝天”躺,不是跟你玩,是在給你信號

養狗久了才懂,狗狗“四腳朝天”躺,不是跟你玩,是在給你信號

超人強動物俱樂部
2025-05-25 01:14:09
哈佛大學“禁招令”風波下的中國留學生:沒想到成為了歷史的一部分|封面頭條

哈佛大學“禁招令”風波下的中國留學生:沒想到成為了歷史的一部分|封面頭條

封面新聞
2025-05-24 11:08:03
男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

深度知局
2025-05-20 17:47:03
廉政公署出手,李嘉誠集團被查,10人因行賄造假、偷工減料被拘捕

廉政公署出手,李嘉誠集團被查,10人因行賄造假、偷工減料被拘捕

每日經濟新聞
2025-05-23 18:31:17
鹽堿地種出的海水稻,口感難吃卻越種越多,國家為何要大力發展?

鹽堿地種出的海水稻,口感難吃卻越種越多,國家為何要大力發展?

阿七說史
2025-05-23 22:32:52
售價23999元的鴻蒙折疊電腦,官網預約人數突破10萬+

售價23999元的鴻蒙折疊電腦,官網預約人數突破10萬+

PChome電腦之家
2025-05-22 15:47:18
比亞迪“掀桌子了”!續航2000公里,一口價5.98萬,還要啥自行車?

比亞迪“掀桌子了”!續航2000公里,一口價5.98萬,還要啥自行車?

隔壁說車老王
2025-05-24 09:01:37
江蘇女碩士在家整整3年從未出門,民警破門后,當場愣在原地

江蘇女碩士在家整整3年從未出門,民警破門后,當場愣在原地

懸案解密檔案
2025-05-21 11:29:00
中南大學美女教授楊雨,我和李清照一樣:“好酒、好賭,還好色”

中南大學美女教授楊雨,我和李清照一樣:“好酒、好賭,還好色”

扶蘇聊歷史
2025-05-17 11:37:32
上海突現“跨省大軍”!來回260公里就為這“雞毛蒜皮”,還不斷有人想加入↗

上海突現“跨省大軍”!來回260公里就為這“雞毛蒜皮”,還不斷有人想加入↗

申消費
2025-05-24 09:35:05
TVB忠臣34秒自拍片狂吸7千點讃,演技無可挑剔從未獲演技獎項

TVB忠臣34秒自拍片狂吸7千點讃,演技無可挑剔從未獲演技獎項

粵睇先生
2025-05-24 02:45:12
富爸爸!廣廈老板樓明慶功宴將冠軍獻給老爸,樓忠福:拿第2個第3個!

富爸爸!廣廈老板樓明慶功宴將冠軍獻給老爸,樓忠福:拿第2個第3個!

818體育
2025-05-24 16:22:02
因違規給醫護人員發放績效和補助,一名院長被嚴重警告……

因違規給醫護人員發放績效和補助,一名院長被嚴重警告……

醫脈通
2025-05-24 18:07:20
2字已刪除,臺當局對陸稱呼變了,蔡正元預言結局,大陸派出軍機

2字已刪除,臺當局對陸稱呼變了,蔡正元預言結局,大陸派出軍機

暖心的小屋
2025-05-17 13:48:34
2025-05-25 11:12:49
一澤Eze
一澤Eze
AI 產品,提示工程師 ? 探索AI應用邊界,尋找人與AI共處的答案
11文章數 1關注度
往期回顧 全部

科技要聞

馬斯克宣布回歸7x24小時工作狀態

頭條要聞

牛彈琴:白宮開始大清洗 大量負責中國事務人員被裁

頭條要聞

牛彈琴:白宮開始大清洗 大量負責中國事務人員被裁

體育要聞

世乒賽混雙三連冠!莎頭舉國旗比“3”

娛樂要聞

朱媛媛只留給女兒一句話,卻字字千金

財經要聞

重組膠原測不到膠原?800億醫美巨頭回應

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態度原創

時尚
藝術
本地
房產
教育

“短上衣+山本褲” 夏天就該這么穿,涼爽又氣質

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

房產要聞

連續17次提前交付!海口這座頂流紅盤,業主贏麻了!

教育要聞

亞洲最破大學宿舍!男女共用廁所、養雞放羊... 然而這里卻走出了諾獎得主

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 渝北区| 林周县| 聂荣县| 广元市| 共和县| 云霄县| 祁门县| 渝中区| 武川县| 江源县| 江津市| 绥宁县| 永春县| 江都市| 克山县| 汶上县| 龙海市| 和田县| 麟游县| 乃东县| 平塘县| 县级市| 新余市| 吴桥县| 和田市| 沙洋县| 安图县| 元朗区| 紫金县| 蒙城县| 翼城县| 离岛区| 华容县| 西丰县| 仲巴县| 张家界市| 巢湖市| 清水河县| 防城港市| 高淳县| 潞西市|