文|數據猿
"友商,你們拿什么和我比?"
"友商,你們拿什么和我比?"這不是哪家公司的狂妄宣言,而是當前AI戰場最真實的寫照。IDC預測,2024年,全球各組織將在人工智能上投入2350億美元,2028年這?數字將增長近三倍,超過6300億美元。這預示著未來?年的復合年增長率(CAGR)將接近30%。開源大模型以其開放、透明、可定制的特性,成為驅動AI加速創新進程的核心引擎,它們讓全球的開發者和企業能夠以前所未有的速度參與到AI的研發和應用中來。
不過我們也不能簡單的認為就是各科技廠商之間的技術比拼,其背后更是各國較量科技實力的無聲戰場。還記不記得當時DeepSeek爆紅引發的各種質疑,當時的外媒報道中充斥著大量對DeepSeek的質疑。今日頭條的一篇文章中說"一個去年7月成立的公司,剛剛成立一年半,僅有4人繳納社保,竟然能開發出全球頂尖的AI大模型,你們信嗎?它就是——深度求索,開發了DeepSeek的公司。"
"大佬"的進階之路
說一千道一萬,回到日常生活,Meta的Llama 2以開源之名橫掃全球,Qwen系列背靠阿里云勢頭迅猛,DeepSeek以恐怖的技術指標席卷各大版面成功演繹什么叫"后來居上"。真正的實力面前,從來沒有謙讓,反而是對技術自信的張狂。很多用戶可能會問,"這么多大模型公司,該怎么看誰更厲害呢?"今天,我們就來看看他們到底都看什么!先來整體梳理下這三家公司的發展腳步,大致如下圖:
圖:DeepSeek、Llama、Qwen三家發展梳理圖來源:數據猿經查找網絡資料后制作
1. DeepSeek:后來居上,不是鬧著玩的
DeepSeek作為中國AI領域的新興力量,在開源大模型賽道上展現出了令人矚目的發展速度和技術實力,其發展時間線清晰且迭代迅速,在技術創新和市場響應上極具敏捷性。據大量新聞報道,今年1月26日晚,游戲科學創始人、CEO馮驥發文,稱"DeepSeek,可能是個國運級別的科技成果"。他還表示,如果有一個AI大模型做到了以下任何一條,都是超級了不起的突破,DeepSeek全部同時做到了。
圖:馮驥評DeepSeek 來源:微博
DeepSeek的旅程始于2023年,深度求索公司正式成立。隨后,在短短一年多的時間里,系列模型經歷了多次關鍵迭代。
·2023年7月:DeepSeek公司正式成立,標志著其在AI大模型賽道的布局。
·2024年1月:DeepSeek發布了首個通用語言模型DeepSeek LLM,開啟了技術追趕的序幕。
·2024年5月:DeepSeek-V2發布,總參數達2360億,采用MoE架構優化,大幅降低成本并開源,迅速引發市場關注。
·2024年9月:DeepSeek-V2.5發布,融合代碼生成與對話能力,拓展了多場景應用。
·2024年12月:DeepSeek-V3發布,總參數提升至6710億,訓練成本僅為557.6萬美元,性能在多項評測中超越Owen2.5-72B和LLaMA 3.1-405B。
·2025年1月:DeepSeek-R1發布,性能媲美OpenAI,應用全球上線,全球和美國的日活躍用戶數增長超110%,登頂蘋果應用商店免費下載排行榜。
·2025年1月:DeepSeek-Janus-Pro發布,支持文生圖與多模態理解,挑戰OpenAI DALL·E和Midjourney。
·2025年2月:DeepSeek應用持續登頂蘋果中國和美國應用商店,在超過140個國家中排行第一位。
圖:DeepSeek模型迭代與發展歷史沿革
來源:梳理網絡信息及國信證券《電子AI+系列專題報告(六)——DeepSeek重塑開源大模型生態,AI應用爆發持續推升算力需求》后制作
2. Llama:開源世界的"鯰魚"
自2023年2月首次亮相以來,Meta的Llama系列大語言模型(LLM)在AI領域掀起了巨大的波瀾。從最初的Llama-1到如今即將發布的Llama-4,這一系列模型不僅在技術上不斷突破,更在開源社區和商業應用中展現出強大的影響力。
·2023年2月24日:Meta首次推出Llama-1,包含7B、13B、30B和65B四個參數版本。Llama-1憑借其出色的性能和開源特性,迅速成為開源社區的焦點。然而,由于開源協議限制,該版本不可免費商用。
·2023年7月:Meta發布Llama-2,進一步擴充了模型規模至70B,并引入了分組查詢注意力機制(GQA),同時將上下文長度翻倍至4096。Llama-2不僅性能更強,還首次實現了免費可商用。
·2023年8月:基于Llama-2,Meta發布了專注于代碼生成的Code-Llama,進一步拓展了Llama的應用場景。
·2024年4月:Llama-3正式發布,包含8B和70B兩個版本,并支持8K長文本輸入。該版本在多個基準測試中表現優異,超越了同期的多個先進模型。
·2024年7月:Llama-3.1發布,推出了4050億參數的超大型模型,并將上下文長度提升至128K tokens。
·2024年12月:Llama-3.3發布,僅70億參數的模型在性能上比肩Llama-3.1的4050億參數版本,同時大幅降低了推理和部署成本。
·2025年4月:Llama-4發布多次推遲,據新浪財經,關鍵原因是技術基準測試未達內部預期,如推理和數學任務有短板,模擬人類語音對話不及OpenAI。
3. Qwen:阿里云的"生態王牌"
Qwen(通義千問)是阿里巴巴達摩院研發的大語言模型系列。其命名源自中文"通義千問",寓意著致力于通過技術回答人類的各種問題。
·2023 年 4 月:通義千問上線并邀請用戶測試體驗,是國內最早一批類ChatGPT大模型產品。
·2023 年 6 月:聚焦音視頻內容的工作學習AI助手"通義聽悟"上線。
·2023 年 7 月:AI繪畫創作大模型"通義萬相"開啟定向邀測。
·2023 年 8 月:通義千問70億參數模型Qwen-7B開源,阿里巴巴成為國內首個開源自研大模型的大型科技企業。
·2023 年 9 月:通義千問正式向公眾開放。
·2023 年 10 月:通義千問升級到2.0版本,參數規模達千億級。
·2024 年 6 月:Qwen2系列發布,包含0.5B到72B多個尺寸。
·2024 年 9 月:Qwen2.5系列發布,涵蓋0.5B到72B多個尺寸。
·2025 年 4 月:Qwen3系列發布,包含0.6B到235B多個尺寸。
圖:通義千問對話頁面 來源:阿里云
性能PK
Llama副總裁Ahmad AI-Dahle于今年4月6日在社交媒體平臺X發布了一張測試圖片,并配文"截至今天,Llama4 Maverick提供了一流的性能與成本比,其實驗性聊天版本在LMArena上的ELO得分為1417。"這位副總裁還感慨道幾年前的Llama還是一個研究項目,真是令人難以置信。
1、ELO評分
讓我們來看看他發的這張圖表,該圖展示了不同語言模型在LMArena平臺上的ELO評分與成本之間的關系。ELO評分是什么?它通常用于衡量棋手的水平,這里被用來衡量語言模型的性能,成本則是指運行這些模型所需的費用。圖中的每個點代表一個特定的語言模型,橫軸表示成本(從$0.00到$100.00),縱軸表示ELO評分(從1200到1425)。
來源:Ahmad Al-Dahle的X賬號
我們可以從圖片中看到Llama 4 & Maverick 03-26 Experimental和GPT-4.0 (Mar 25) 位于圖的右上角,表明它們具有較高的ELO評分和成本,意味著他們在性能上非常出色,但運行成本也相對較高;而DeepSeek V3.1 (Mar 25) 和 DeepSeek RT位于圖的中間偏上位置,處于中等偏高的ELO評分和成本,因此,DeepSeek可能在性能和成本之間的平衡比較好。最后,Qwen 2.5 Max和a3-mini (high)位于圖的左下角,顯示出較低的ELO評分和成本,意思是這類模型可能在性能上不如高成本模型,但運行成本較低,可能更適合預算有限的應用場景。不過,圖中也列了一些可能會影響模型性能和成本的假設條件,如分布式推理、特定硬件配置、緩存等。以上測試結果也可能已經受環境影響得到優化。
圖:主流大模型信息對比 來源:國信證券《電子AI+系列專題報告(六)——DeepSeek重塑開源大模型生態,AI應用爆發持續推升算力需求》
2、MMUL/s分數
根據國信證券匯總報告中已測試過的MMUL/s分數,這三大模型均在開源領域處于領先地位,且性能已能與部分閉源模型匹敵:
·Llama3-405B達到了85.2分,性能卓越
·Qwen2-72B更是達到了驚人的86.1分,在開源模型中處于頂尖水平
·DeepSeek-V2-236B也取得了78.8分,在保持大規模的同時兼顧了效率
高MMUL/s分數意味著模型在推理任務上具有更高的效率和更快的響應速度,對實際應用,尤其是需要低延遲和高并發的商業場景至關重要。
在Meta-Llama官網中,我們看到它根據一系列不同語言的通用基準評估了模型性能,測試了編碼、推理、知識、視覺理解、多語言和長上下文
圖:基準 來源:Llama官網
3、Artificial Analysis發布的"AI智能指數"
4月8日,Artificial Analysis更新了AI智能指數,該指數對目前領先的AI模型進行綜合評估,結合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam等七項嚴苛的基準測試。在此次的結果中,Llama 4系列模型表現尤為搶眼,逼近榜首。
圖:Artificial Analysis Intelligence Index 來源:Artificial Analysis的X賬號(4月8日)
根據Artificial Analysis的最新數據,Meta的Llama 4 Scout和Llama 4 Maverick模型在智能指數上取得了顯著進步。Llama 4 Scout指數從36躍升至43,而Llama 4 Maverick則從49提升至50。
值得注意的是,在最初的評估中,Artificial Analysis發現他們測量的結果與Meta聲稱的MMLU Pro和GPQA Diamond分數存在差異。進一步實驗審查后,他們調整了評估原則,允許Llama 4模型在回答多項選擇題時,即使答案格式與預期不同(例如,以"最佳答案是 A"的形式),只要內容正確,也視為有效答案。盡量避免不公平地懲罰那些以不同風格呈現答案但內容正確的模型,進而更準確地反映Llama 4系列的實際能力,這也就促成了Scout和Maverick智能指數的大幅提升。
來源:Artificial Analysis的X賬號(4月8日)
☆DeepSeek V3仍領跑,但Llama 4 Maverick效率驚人
盡管DeepSeek V3 (0324) 以53分的成績仍保持微弱領先,但Llama 4 Maverick(50分)的表現同樣令人印象深刻。Maverick在參數效率上展現了巨大優勢,即它僅使用了DeepSeek V3大約一半的活動參數(170億vs370億),并且總參數量也只有DeepSeek V3的約60%(4020億vs6710億)。更難得的是,Maverick還支持圖像輸入。Llama 4 Maverick可以在更精簡的體量下實現接近頂級性能的能力,對那些追求高效部署和資源優化的開發者來說,無疑是吸引力滿滿呀。【備注:Artificial Analysis強調,所有測試均基于Hugging Face發布的Llama 4權重版本進行,并通過一系列第三方云服務提供商進行了測試,以確保評估的公正性和廣泛性。他們特別指出,評估結果不基于Meta提供的實驗性聊天調優模型(Llama-4-Maverick-03-26-Experimental),強化評估的獨立性。
用戶數據對比
DeepSeek的全球表現令人驚艷,根據aitools.xyz在2025年5月發布的"最受歡迎AI工具"榜單,DeepSeek成功位列全球第四名,月訪問量達到580,248次,環比增長1.32%。DeepSeek的Web流量增長軌跡更是有說服力,2024年全年DeepSeek的Web總訪問量為2140萬次,獨立訪問量545萬次;至2025年5月,DeepSeek的Web總訪問量飆升至 4.261億次,獨立訪問量達到7250萬次。驚人的數據表明DeepSeek在不到一年的時間里,其總訪問量實現了近20倍的驚人增長,獨立訪問量也增長了約13倍。進一步看,DeepSeek在全球開源大模型市場的應用份額不斷擴大。
圖:DeepSeek web流量數據統計(左:2024年全年,右:2025年5月)來源:aitools.xyz
再來看Llama,在今年3月時,副總裁Ahmad AI-Dahle發文祝賀Llama下載量超10億次,根據相關數據,這比2024年12月初報告的6.5億次下載量有了顯著增長,在短短三個月內增長了約53%。
它在2024年全球總訪問量達到233.02K,獨立訪問量為165.72K,相較于此前分別增加了120.59K和77.57K,實現了高達107.26%的同比增長,在大型語言模型市場份額上,從之前的基礎增長了0.12%,達到了0.22%。2025年5月,Llama的Web流量軌跡出現了顯著的下行趨勢。該月總訪問量降至15.33K,獨立訪問量為12.53K,相比此前分別減少了7.66K和7.91K,月環比下降了33.33%。這一驟降也反映在其市場地位上,大型語言模型的市場份額回落至0.14%,下降了0.09%。盡管全球排名略有改善(從2779上升至2669),但美國排名和大型語言模型排名仍在持續下降,這可能預示著在關鍵市場和核心領域競爭的加劇。
圖:Meta Llama流量數據統計(左:2024年全年,右:2025年5月)來源:aitools.xyz
此外,我們還對比了三家在GitHub上的星標數和fork數,這是GitHub上衡量項目受歡迎程度和參與度的兩個重要指標。星標數代表了項目受到的關注程度,用戶可以通過點擊項目頁面上的"Star"按鈕來為項目添加星標。
來源:GitHub"Meta-Llama"
來源:GitHub"QwenLM"
來源:Github"DeepSeek-ai"
在關注者數量上,DeepSeek以78k遙遙領先,顯示出其在多模態理解領域的廣泛影響力。Meta Llama和Qwen雖然在關注者數量上不及DeepSeek,但它們的項目同樣在各自的領域內具有顯著的影響力;在項目受歡迎程度上,DeepSeek的DeepSeek-V3和DeepSeek-R1項目星標數遠超其他兩個組織,顯示出其在社區中的極高人氣。Meta Llama的llama和llama3項目也表現出色,其在語言模型領域有強大的吸引力,Qwen的星標數則相對較低;在項目多樣性上,DeepSeek的項目更側重于多模態理解,Meta Llama的項目集中在語言模型的開發和應用。而Qwen則在大語言模型和多模態模型方面有著更多的探索。
整體來看,DeepSeek、Qwen和Llama在GitHub上的表現各有千秋,它們分別在多模態理解、大語言模型和語言模型領域展現了強大的技術實力和創新能力。Llama的成功在于其極致的開放策略和強大的全球社區凝聚力;DeepSeek 則以其驚人的技術迭代速度和在全球用戶側的爆發式增長,迅速崛起為中國乃至全球開源大模型領域的一股重要力量;而Qwen則憑借阿里巴巴的強大生態支持和在國內市場的深厚根基,成為中國AI應用領域的核心引擎。隨著技術的不斷進步,我們可以預見這些模型持續賦能千行百業,但是不斷優化模型架構、提升推理效率的同時,實在應當更加注重用戶隱私和倫理問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.