網易首頁 > 網易號 > 正文申請入駐

誰是開源大模型之王？Llama、DeepSeek還是Qwen？

2025-07-18 11:44:14　來源: 藍鯨新聞

上海舉報

分享至

文｜數據猿

"友商，你們拿什么和我比？"

"友商，你們拿什么和我比？"這不是哪家公司的狂妄宣言，而是當前AI戰場最真實的寫照。IDC預測，2024年，全球各組織將在人工智能上投入2350億美元，2028年這?數字將增長近三倍，超過6300億美元。這預示著未來?年的復合年增長率（CAGR）將接近30%。開源大模型以其開放、透明、可定制的特性，成為驅動AI加速創新進程的核心引擎，它們讓全球的開發者和企業能夠以前所未有的速度參與到AI的研發和應用中來。

不過我們也不能簡單的認為就是各科技廠商之間的技術比拼，其背后更是各國較量科技實力的無聲戰場。還記不記得當時DeepSeek爆紅引發的各種質疑，當時的外媒報道中充斥著大量對DeepSeek的質疑。今日頭條的一篇文章中說"一個去年7月成立的公司，剛剛成立一年半，僅有4人繳納社保，竟然能開發出全球頂尖的AI大模型，你們信嗎？它就是——深度求索，開發了DeepSeek的公司。"

"大佬"的進階之路

說一千道一萬，回到日常生活，Meta的Llama 2以開源之名橫掃全球，Qwen系列背靠阿里云勢頭迅猛，DeepSeek以恐怖的技術指標席卷各大版面成功演繹什么叫"后來居上"。真正的實力面前，從來沒有謙讓，反而是對技術自信的張狂。很多用戶可能會問，"這么多大模型公司，該怎么看誰更厲害呢？"今天，我們就來看看他們到底都看什么！先來整體梳理下這三家公司的發展腳步，大致如下圖：

圖：DeepSeek、Llama、Qwen三家發展梳理圖來源：數據猿經查找網絡資料后制作

1. DeepSeek：后來居上，不是鬧著玩的

DeepSeek作為中國AI領域的新興力量，在開源大模型賽道上展現出了令人矚目的發展速度和技術實力，其發展時間線清晰且迭代迅速，在技術創新和市場響應上極具敏捷性。據大量新聞報道，今年1月26日晚，游戲科學創始人、CEO馮驥發文，稱"DeepSeek，可能是個國運級別的科技成果"。他還表示，如果有一個AI大模型做到了以下任何一條，都是超級了不起的突破，DeepSeek全部同時做到了。

圖：馮驥評DeepSeek 來源：微博

DeepSeek的旅程始于2023年，深度求索公司正式成立。隨后，在短短一年多的時間里，系列模型經歷了多次關鍵迭代。

·2023年7月：DeepSeek公司正式成立，標志著其在AI大模型賽道的布局。

·2024年1月：DeepSeek發布了首個通用語言模型DeepSeek LLM，開啟了技術追趕的序幕。

·2024年5月：DeepSeek-V2發布，總參數達2360億，采用MoE架構優化，大幅降低成本并開源，迅速引發市場關注。

·2024年9月：DeepSeek-V2.5發布，融合代碼生成與對話能力，拓展了多場景應用。

·2024年12月：DeepSeek-V3發布，總參數提升至6710億，訓練成本僅為557.6萬美元，性能在多項評測中超越Owen2.5-72B和LLaMA 3.1-405B。

·2025年1月：DeepSeek-R1發布，性能媲美OpenAI，應用全球上線，全球和美國的日活躍用戶數增長超110%，登頂蘋果應用商店免費下載排行榜。

·2025年1月：DeepSeek-Janus-Pro發布，支持文生圖與多模態理解，挑戰OpenAI DALL·E和Midjourney。

·2025年2月：DeepSeek應用持續登頂蘋果中國和美國應用商店，在超過140個國家中排行第一位。

圖：DeepSeek模型迭代與發展歷史沿革

來源:梳理網絡信息及國信證券《電子AI+系列專題報告（六）——DeepSeek重塑開源大模型生態，AI應用爆發持續推升算力需求》后制作

2. Llama：開源世界的"鯰魚"

自2023年2月首次亮相以來，Meta的Llama系列大語言模型（LLM）在AI領域掀起了巨大的波瀾。從最初的Llama-1到如今即將發布的Llama-4，這一系列模型不僅在技術上不斷突破，更在開源社區和商業應用中展現出強大的影響力。

·2023年2月24日：Meta首次推出Llama-1，包含7B、13B、30B和65B四個參數版本。Llama-1憑借其出色的性能和開源特性，迅速成為開源社區的焦點。然而，由于開源協議限制，該版本不可免費商用。

·2023年7月：Meta發布Llama-2，進一步擴充了模型規模至70B，并引入了分組查詢注意力機制（GQA），同時將上下文長度翻倍至4096。Llama-2不僅性能更強，還首次實現了免費可商用。

·2023年8月：基于Llama-2，Meta發布了專注于代碼生成的Code-Llama，進一步拓展了Llama的應用場景。

·2024年4月：Llama-3正式發布，包含8B和70B兩個版本，并支持8K長文本輸入。該版本在多個基準測試中表現優異，超越了同期的多個先進模型。

·2024年7月：Llama-3.1發布，推出了4050億參數的超大型模型，并將上下文長度提升至128K tokens。

·2024年12月：Llama-3.3發布，僅70億參數的模型在性能上比肩Llama-3.1的4050億參數版本，同時大幅降低了推理和部署成本。

·2025年4月：Llama-4發布多次推遲，據新浪財經，關鍵原因是技術基準測試未達內部預期，如推理和數學任務有短板，模擬人類語音對話不及OpenAI。

3. Qwen：阿里云的"生態王牌"

Qwen（通義千問）是阿里巴巴達摩院研發的大語言模型系列。其命名源自中文"通義千問"，寓意著致力于通過技術回答人類的各種問題。

·2023 年 4 月：通義千問上線并邀請用戶測試體驗，是國內最早一批類ChatGPT大模型產品。

·2023 年 6 月：聚焦音視頻內容的工作學習AI助手"通義聽悟"上線。

·2023 年 7 月：AI繪畫創作大模型"通義萬相"開啟定向邀測。

·2023 年 8 月：通義千問70億參數模型Qwen-7B開源，阿里巴巴成為國內首個開源自研大模型的大型科技企業。

·2023 年 9 月：通義千問正式向公眾開放。

·2023 年 10 月：通義千問升級到2.0版本，參數規模達千億級。

·2024 年 6 月：Qwen2系列發布，包含0.5B到72B多個尺寸。

·2024 年 9 月：Qwen2.5系列發布，涵蓋0.5B到72B多個尺寸。

·2025 年 4 月：Qwen3系列發布，包含0.6B到235B多個尺寸。

圖：通義千問對話頁面來源：阿里云

性能PK

Llama副總裁Ahmad AI-Dahle于今年4月6日在社交媒體平臺X發布了一張測試圖片，并配文"截至今天，Llama4 Maverick提供了一流的性能與成本比，其實驗性聊天版本在LMArena上的ELO得分為1417。"這位副總裁還感慨道幾年前的Llama還是一個研究項目，真是令人難以置信。

1、ELO評分

讓我們來看看他發的這張圖表，該圖展示了不同語言模型在LMArena平臺上的ELO評分與成本之間的關系。ELO評分是什么？它通常用于衡量棋手的水平，這里被用來衡量語言模型的性能，成本則是指運行這些模型所需的費用。圖中的每個點代表一個特定的語言模型，橫軸表示成本（從$0.00到$100.00），縱軸表示ELO評分（從1200到1425）。

來源：Ahmad Al-Dahle的X賬號

我們可以從圖片中看到Llama 4 & Maverick 03-26 Experimental和GPT-4.0 (Mar 25) 位于圖的右上角，表明它們具有較高的ELO評分和成本，意味著他們在性能上非常出色，但運行成本也相對較高；而DeepSeek V3.1 (Mar 25) 和 DeepSeek RT位于圖的中間偏上位置，處于中等偏高的ELO評分和成本，因此，DeepSeek可能在性能和成本之間的平衡比較好。最后，Qwen 2.5 Max和a3-mini (high)位于圖的左下角，顯示出較低的ELO評分和成本，意思是這類模型可能在性能上不如高成本模型，但運行成本較低，可能更適合預算有限的應用場景。不過，圖中也列了一些可能會影響模型性能和成本的假設條件，如分布式推理、特定硬件配置、緩存等。以上測試結果也可能已經受環境影響得到優化。

圖：主流大模型信息對比來源：國信證券《電子AI+系列專題報告（六）——DeepSeek重塑開源大模型生態，AI應用爆發持續推升算力需求》

2、MMUL/s分數

根據國信證券匯總報告中已測試過的MMUL/s分數，這三大模型均在開源領域處于領先地位，且性能已能與部分閉源模型匹敵：

·Llama3-405B達到了85.2分，性能卓越

·Qwen2-72B更是達到了驚人的86.1分，在開源模型中處于頂尖水平

·DeepSeek-V2-236B也取得了78.8分，在保持大規模的同時兼顧了效率

高MMUL/s分數意味著模型在推理任務上具有更高的效率和更快的響應速度，對實際應用，尤其是需要低延遲和高并發的商業場景至關重要。

在Meta-Llama官網中，我們看到它根據一系列不同語言的通用基準評估了模型性能，測試了編碼、推理、知識、視覺理解、多語言和長上下文

圖：基準來源：Llama官網

3、Artificial Analysis發布的"AI智能指數"

4月8日，Artificial Analysis更新了AI智能指數，該指數對目前領先的AI模型進行綜合評估，結合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam等七項嚴苛的基準測試。在此次的結果中，Llama 4系列模型表現尤為搶眼，逼近榜首。

圖：Artificial Analysis Intelligence Index 來源：Artificial Analysis的X賬號（4月8日）

根據Artificial Analysis的最新數據，Meta的Llama 4 Scout和Llama 4 Maverick模型在智能指數上取得了顯著進步。Llama 4 Scout指數從36躍升至43，而Llama 4 Maverick則從49提升至50。

值得注意的是，在最初的評估中，Artificial Analysis發現他們測量的結果與Meta聲稱的MMLU Pro和GPQA Diamond分數存在差異。進一步實驗審查后，他們調整了評估原則，允許Llama 4模型在回答多項選擇題時，即使答案格式與預期不同（例如，以"最佳答案是 A"的形式），只要內容正確，也視為有效答案。盡量避免不公平地懲罰那些以不同風格呈現答案但內容正確的模型，進而更準確地反映Llama 4系列的實際能力，這也就促成了Scout和Maverick智能指數的大幅提升。

來源：Artificial Analysis的X賬號（4月8日）

☆DeepSeek V3仍領跑，但Llama 4 Maverick效率驚人

盡管DeepSeek V3 (0324) 以53分的成績仍保持微弱領先，但Llama 4 Maverick（50分）的表現同樣令人印象深刻。Maverick在參數效率上展現了巨大優勢，即它僅使用了DeepSeek V3大約一半的活動參數（170億vs370億），并且總參數量也只有DeepSeek V3的約60%（4020億vs6710億）。更難得的是，Maverick還支持圖像輸入。Llama 4 Maverick可以在更精簡的體量下實現接近頂級性能的能力，對那些追求高效部署和資源優化的開發者來說，無疑是吸引力滿滿呀。【備注：Artificial Analysis強調，所有測試均基于Hugging Face發布的Llama 4權重版本進行，并通過一系列第三方云服務提供商進行了測試，以確保評估的公正性和廣泛性。他們特別指出，評估結果不基于Meta提供的實驗性聊天調優模型（Llama-4-Maverick-03-26-Experimental），強化評估的獨立性。

用戶數據對比

DeepSeek的全球表現令人驚艷，根據aitools.xyz在2025年5月發布的"最受歡迎AI工具"榜單，DeepSeek成功位列全球第四名，月訪問量達到580,248次，環比增長1.32%。DeepSeek的Web流量增長軌跡更是有說服力，2024年全年DeepSeek的Web總訪問量為2140萬次，獨立訪問量545萬次；至2025年5月，DeepSeek的Web總訪問量飆升至 4.261億次，獨立訪問量達到7250萬次。驚人的數據表明DeepSeek在不到一年的時間里，其總訪問量實現了近20倍的驚人增長，獨立訪問量也增長了約13倍。進一步看，DeepSeek在全球開源大模型市場的應用份額不斷擴大。

圖：DeepSeek web流量數據統計（左：2024年全年，右：2025年5月）來源：aitools.xyz

再來看Llama，在今年3月時，副總裁Ahmad AI-Dahle發文祝賀Llama下載量超10億次，根據相關數據，這比2024年12月初報告的6.5億次下載量有了顯著增長，在短短三個月內增長了約53%。

它在2024年全球總訪問量達到233.02K，獨立訪問量為165.72K，相較于此前分別增加了120.59K和77.57K，實現了高達107.26%的同比增長，在大型語言模型市場份額上，從之前的基礎增長了0.12%，達到了0.22%。2025年5月，Llama的Web流量軌跡出現了顯著的下行趨勢。該月總訪問量降至15.33K，獨立訪問量為12.53K，相比此前分別減少了7.66K和7.91K，月環比下降了33.33%。這一驟降也反映在其市場地位上，大型語言模型的市場份額回落至0.14%，下降了0.09%。盡管全球排名略有改善（從2779上升至2669），但美國排名和大型語言模型排名仍在持續下降，這可能預示著在關鍵市場和核心領域競爭的加劇。

圖：Meta Llama流量數據統計（左：2024年全年，右：2025年5月）來源：aitools.xyz

此外，我們還對比了三家在GitHub上的星標數和fork數，這是GitHub上衡量項目受歡迎程度和參與度的兩個重要指標。星標數代表了項目受到的關注程度，用戶可以通過點擊項目頁面上的"Star"按鈕來為項目添加星標。

來源：GitHub"Meta-Llama"

來源：GitHub"QwenLM"

來源：Github"DeepSeek-ai"

在關注者數量上，DeepSeek以78k遙遙領先，顯示出其在多模態理解領域的廣泛影響力。Meta Llama和Qwen雖然在關注者數量上不及DeepSeek，但它們的項目同樣在各自的領域內具有顯著的影響力；在項目受歡迎程度上，DeepSeek的DeepSeek-V3和DeepSeek-R1項目星標數遠超其他兩個組織，顯示出其在社區中的極高人氣。Meta Llama的llama和llama3項目也表現出色，其在語言模型領域有強大的吸引力，Qwen的星標數則相對較低；在項目多樣性上，DeepSeek的項目更側重于多模態理解，Meta Llama的項目集中在語言模型的開發和應用。而Qwen則在大語言模型和多模態模型方面有著更多的探索。

整體來看，DeepSeek、Qwen和Llama在GitHub上的表現各有千秋，它們分別在多模態理解、大語言模型和語言模型領域展現了強大的技術實力和創新能力。Llama的成功在于其極致的開放策略和強大的全球社區凝聚力；DeepSeek 則以其驚人的技術迭代速度和在全球用戶側的爆發式增長，迅速崛起為中國乃至全球開源大模型領域的一股重要力量；而Qwen則憑借阿里巴巴的強大生態支持和在國內市場的深厚根基，成為中國AI應用領域的核心引擎。隨著技術的不斷進步，我們可以預見這些模型持續賦能千行百業，但是不斷優化模型架構、提升推理效率的同時，實在應當更加注重用戶隱私和倫理問題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.