為什么李飛飛團隊經(jīng)常cue通義千問？

2025-04-12 10:13:10　來源: 硅星人

北京舉報

分享至

　　作者｜ summer
郵箱｜ huangxiaoyi@pingwest.com

　　Qwen 3還未發(fā)布，但已發(fā)布的Qwen系列含金量還在上升。

　　2個月前，李飛飛團隊基于Qwen2.5-32B-Instruct 模型，以不到50美元的成本訓練出新模型 S1-32B，取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型數(shù)學及編碼能力相當?shù)男ЧＨ缃瘢麄兊囊暰€再次投向了這個國產(chǎn)模型。

　　在李飛飛聯(lián)合領(lǐng)導的斯坦福大學以人為本人工智能研究所（Stanford HAI）最新發(fā)布的《2025年人工智能指數(shù)報告》（Artificial Intelligence Index Report 2025）中，Qwen系列再度引人注目。

　　作為人工智能最權(quán)威的資源之一，AI Index已經(jīng)發(fā)布了八版，隨著人工智能對社會、經(jīng)濟和全球治理的影響力不斷加強，今年的報告也成為迄今為止最為全面的版本。其中，提到的一個重要觀察就是：中美頂級大模型的差距急劇縮小。

　　結(jié)合多個榜單來看，在MMLU測試中，中美性能差異從2023年底的17.5%，銳減至2024年底的0.3%；數(shù)學能力測試MATH差異從24.3%縮至1.6%；代碼能力評估HumanEval差異從31.6%降至僅3.7%；在Chatbot Arena平臺上，2024年1月的9.26%差距，到2025年2月僅剩1.70%。

　　而DS 和Qwen，就是中國模型性能提升的重要力量。

　　報告評選出的2024年重要大模型（Notable Models）中，國產(chǎn)大模型一共5家，分別是阿里、字節(jié)、DeepSeek、騰訊、智譜。其中，阿里以6款模型入選，位列全球貢獻第三，僅次于谷歌和OpenAI的7款。

　　在多個維度的全球AI發(fā)展比較中，Qwen都占據(jù)著重要位置，成為了繼DeepSeek之后被提及最多的中國AI模型。

　　不斷被Cue的Qwen，正在憑借模型性能、開源力度、生態(tài)適配贏得更多的認可。

　　多個模型被評，Qwen扛起國產(chǎn)大旗

　　該報告由Research and Development、Technical Performance、Responsible Al、Economy、Science and Medicine、Policy and Governance、Education、Public Opinion十個核心章節(jié)構(gòu)成，每個章節(jié)深入分析了AI領(lǐng)域的特定維度，并提煉出相應(yīng)領(lǐng)域的關(guān)鍵趨勢結(jié)論。

　　總體來看，AI發(fā)展呈現(xiàn)出明顯的“更大、更多、更強”趨勢，但中美模型在技術(shù)路徑上卻展現(xiàn)出不同特點。

　　參數(shù)維度上，自2010 年代初以來，參數(shù)數(shù)量始終在急劇增加。這反映了大模型的架構(gòu)日益復雜、數(shù)據(jù)可用性的提高、硬件的改進以及Scaling Law的有效性。特別是，相比學術(shù)和產(chǎn)學結(jié)合領(lǐng)域，大參數(shù)模型在工業(yè)領(lǐng)域尤為引人注目，顯示出工業(yè)界有著充足的可覆蓋訓練成本的資金實力。

　　隨著模型參數(shù)數(shù)量的增加，用于訓練 AI 系統(tǒng)的數(shù)據(jù)量也在暴漲。從時間線來看，引發(fā)了大型語言模型革命的Transformer模型于2017年發(fā)布，使用了約 20 億個tokens進行訓練，2020年支撐原始 ChatGPT 模型之一的GPT-3，使用了3740億tokens，再到2024年Llama 3.3，使用了15萬億tokens。據(jù)Epoch AI統(tǒng)計，LLM訓練數(shù)據(jù)集大小約每8個月翻一番。

　　在報告列出的重要大模型中，Llama3.1-405B和Qwen2.5-72B、DeepSeek-V3訓練數(shù)據(jù)量幾乎并列第一。

　　在這一背景下，一個有趣的現(xiàn)象出現(xiàn)了：美國頂級AI模型的訓練計算資源通常遠高于中國模型。根據(jù)Epoch AI的數(shù)據(jù)，中國前10名模型的計算資源擴張速度約為每年3倍，顯著低于全球平均水平的每年5倍。

　　廣為人知的是DeepSeek V3的出圈，正是因為其極高的性能，但只需要遠少于許多領(lǐng)先LLM的計算資源。實際上，不止V3，國產(chǎn)模型中的Qwen2.5-72B、Doubao-pro都顯著低于Claude 3.5 Sonnet、Grok-2等等。

　　除此之外，Qwen2.5-Coder-32B、Qwen2.5-plus-1127的代碼領(lǐng)域，Qwen-Max-0428的復雜任務(wù)處理、Qwen2 (72B)的上下文能力，Qwen1.5 Chat (72B)的模型安全性領(lǐng)域，均獲得了關(guān)注。

　　有一個值得討論的模型還不夠，Qwen有一堆。

　　曾經(jīng)Qwen和Llama二分的天下，現(xiàn)在是Qwen的了？

　　比起冰冷的數(shù)據(jù)說明，開發(fā)者堆Qwen的偏愛來得更早更直接。

　　李飛飛團隊基于Qwen模型復刻R1的成員之一Niklas也曾在社交平臺上贊嘆：“Qwen is amazing!”

　　此外，在R1的復現(xiàn)方案里，大部分都是基于Qwen的，包括simpleRL-reason、open-r1、tinyzero、oatzero、open-thought、logit-rl和Open-Reasoner-Zero等等。這一現(xiàn)象不僅體現(xiàn)了研究人員對Qwen基礎(chǔ)能力的高度認可，也從側(cè)面證明了其在推理能力上的優(yōu)越性。

　　在更廣泛的開源社區(qū)中，Qwen系列模型幾乎占據(jù)了熱門榜單前列，成為開發(fā)者的首選工具。截至目前，Qwen在全球的衍生模型數(shù)量已突破10萬，超越美國Llama成為世界第一開源大模型。

　　這一成就不僅體現(xiàn)在數(shù)量上，更反映在多樣性上。自2023年8月首次開源以來，阿里通義實驗室已推出200多款模型，覆蓋了從基礎(chǔ)模型、對話模型到強化學習模型和多模態(tài)模型的全方位布局，覆蓋從0.5B到110B等的“全尺寸”，幾乎囊括了所有可能的應(yīng)用場景，獲得了企業(yè)端客戶的青睞。

　　“我們在各個場景都用到了Qwen系列的模型。”匯智智能提到，按模型和業(yè)務(wù)的匹配程度劃分，“Qwen-Turbo作為性價比超高的模型，適用于構(gòu)建使用量大的聊天助手；Qwen-Max最為旗艦產(chǎn)品，回答效果與能力突出，適用于B端商戶，提升服務(wù)質(zhì)量；Qwen-QwQ用于推理場景，而且尺寸32B適用于企業(yè)的本地化部署；Qwen-VL和Qwen-Audio、Qwen-Omni識別多模態(tài)信息，和用戶互動。”

　　特別是豐富的小尺寸模型選擇，為實際開發(fā)提供了極高的性價比方案。

　　“模型太大跑不動，也沒有必要，100B以下的模型在實際應(yīng)用中更具優(yōu)勢。比如QwQ-32B，對很多企業(yè)場景而言，已經(jīng)夠用了，并且部署資源是DeepSeek R1的1/10。”一位中小企業(yè)技術(shù)人員提到。

　　年初，DeepSeek的出現(xiàn)，推動了市場需求的爆發(fā)和商業(yè)化落地的進程，但在實際場景中，Qwen的尺寸靈活性成為顯著優(yōu)勢。“以前，企業(yè)端的模型市場基本是Qwen和Llama的天下，但Llama已經(jīng)比不上Qwen了。"一位企業(yè)開發(fā)者說道。

　　模型尺寸的靈活選擇、基礎(chǔ)能力的可靠表現(xiàn)、生態(tài)工具的完善支持、企業(yè)級應(yīng)用中的實際效果......這種偏好背后是多種因素的綜合考量，企業(yè)們在選擇或切換模型時，比起性能指標，更看重與業(yè)務(wù)場景的適配性和長期的迭代潛力。

　　而這恰恰是Qwen的優(yōu)勢，開發(fā)者們正在用腳投票做出自己的選擇。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.