大家好,我是 Ai 學(xué)習(xí)的老章
快手最近開源了一個(gè)自動(dòng)思考大模型——KwaiCoder-AutoThink-preview
創(chuàng)新點(diǎn)是將思考和非思考能力融合到一個(gè)檢查點(diǎn)中,并根據(jù)輸入的難度動(dòng)態(tài)調(diào)整其推理深度。
形象點(diǎn)說(shuō):DeepSeek-V3 & R1 合體
看了測(cè)評(píng)報(bào)告
官方報(bào)告找了 8 個(gè)基準(zhǔn),分思考和非思考基準(zhǔn):
Gsm8k: 用于衡量小學(xué)數(shù)學(xué)問(wèn)題的解決能力。
**MBPP **: 評(píng)估模型生成 Python 代碼的能力,通常關(guān)注基礎(chǔ)編程問(wèn)題。
Math 500: 另一個(gè)數(shù)學(xué)問(wèn)題解決能力的基準(zhǔn)測(cè)試。
HumanEval: 評(píng)估模型根據(jù)文檔字符串生成 Python 函數(shù)的能力,是衡量代碼生成能力的重要指標(biāo)。
drop: 一個(gè)閱讀理解基準(zhǔn),需要模型進(jìn)行離散推理,例如加法、排序或計(jì)數(shù)。
LiveCodeBench: 一個(gè)代碼生成基準(zhǔn),專注于模型在實(shí)際編程競(jìng)賽問(wèn)題上的表現(xiàn)。
AIME 2024: 美國(guó)數(shù)學(xué)邀請(qǐng)賽(American Invitational Mathematics Examination)的題目,用于評(píng)估高級(jí)數(shù)學(xué)推理能力。
GPQA diamond: Google-Proof Q&A 的一個(gè)子集,包含需要專業(yè)知識(shí)且難以通過(guò)搜索引擎直接找到答案的問(wèn)題,用于評(píng)估模型的深度知識(shí)和推理能力。
最牛逼的自然是 DeepSeek R1 0528,平均 89.52,領(lǐng)先所有其他模型。在所有三項(xiàng)推理任務(wù) (LiveCodeBench, AIME 2024, GPQA diamond) 中均取得了最高分,尤其在 AIME 2024 (91.4) 和 GPQA diamond (81) 上表現(xiàn)突出,在非推理任務(wù)中的 MBPP passk (95.60) 也拔得頭籌。
Kwaipilot V1-40B (Auto think)平均分85.59:
非推理任務(wù)表現(xiàn)卓越:Kwaipilot 在多個(gè)非推理基準(zhǔn)測(cè)試中名列前茅。
在衡量小學(xué)數(shù)學(xué)應(yīng)用題解題能力的
Gsm8k
測(cè)試中,以96 分的高分位居榜首。在需要離散推理的閱讀理解基準(zhǔn)
drop
測(cè)試中,取得了91 分的優(yōu)異成績(jī),并列第一。在評(píng)估代碼生成能力的
HumanEval
測(cè)試中,也獲得了96.8 分的高分,非常接近榜首。其標(biāo)注的 "Auto think" 特性,可能暗示了其在理解和執(zhí)行這類任務(wù)時(shí)具備獨(dú)特的優(yōu)化機(jī)制,使其表現(xiàn)出色。
相較于參數(shù)量較小的 Qwen3 32B (平均分 80.54),Kwaipilot 在各項(xiàng)非推理任務(wù)及平均分上均有明顯優(yōu)勢(shì)。
看紙面數(shù)據(jù),確實(shí)不錯(cuò)
但是看過(guò)模型文件后,直接傻眼了
80 多 GB 的模型,這不要搞 2 張 A100 才能運(yùn)行起來(lái)?成本太高了吧
沒(méi)有試用的地方,我最大的好奇點(diǎn):真就小勝DeepSeek-V3
,大勝Qwen3:32B
?
但總感覺(jué)還是有點(diǎn)雞肋,有能力部署DeepSeek-V3
的公司,也有能力部署R1-0528
,KwaiCoder-AutoThink
全面打不過(guò)R1。KwaiCoder-AutoThink
也沒(méi)有斷崖式領(lǐng)先可以低成本的Qwen3:32
,更別說(shuō)還有更低成本,。
制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.