網易首頁 > 網易號 > 正文申請入駐

某公司宣布開源大模型，但它的大模型多少含金量？不值一提

2025-05-02 12:10:55　來源: 一楨見血

福建舉報

分享至

估計大家看到了，某個公司宣布開源了自己的模型?？瓷先ゴ蠹以评镬F里的，我給大家說明一下。

先看圖，這個公司推出的大模型呢，和他發布會一樣是很多定語的。它只在數學推理和代碼競賽方面表現優異。這是個什么意思呢？

在大模型領域，有個技術叫“模型蒸餾”。什么意思呢？就是把一些開源的大型復雜模型的知識高效遷移到小型高效模型中。直白一點說，大型復雜模型叫老師模型，是很全能的，它在各個方面的能力都很突出。但是這個小型高效模型叫學生模型，它模型老師的輸出，只訓練某個方面的能力。

然后我們就發現，這個世界的大模型其實分為兩類。第一類是基座型大模型。這一種大模型參數量龐大、訓練數據廣泛、任務泛化能力強。說白了，這種大模型是全能的，全場景適用的，不是偏科的。這些基本需要頂級大公司長期的培育和大投入才行，比如阿里的通義千問、華為的盤古大模型等。

第二類就是很多蒸餾型大模型。這類蒸餾型大模型有個好處，就是成本低廉，能在某些方面專精。說白了就是完全偏科，老師模型是琴棋書畫樣樣精通，但是學生型可能只會畫畫，但是這些蒸餾模型比較簡單，所以在一些特定場景的能力上會有輕裝上陣的優勢。嚴格意義上說，這個DeepSeek早期就是蒸餾型大模型，DeepSeek早期蒸餾6個模型，其中有4個是阿里的，兩個是谷歌的。

這種蒸餾型大模型的成本有多低呢？在2025年初，斯坦福教授李飛飛以50美元的成本，蒸餾提煉谷歌的模型，又以阿里模型為基座，成功訓練出世界一流模型。也就是說，一個做蒸餾大模型的企業就是另一個版本的拿來主義。它們做出來的所謂大模型一般只能贏老版本或者閹割版本，而沒辦法和基座型大模型的旗艦模型匹敵。

就比如，阿里在2025年4月發布了Qwen3系列，新增了8個開源版本，持續強化數學、代碼等專項能力。而這家公司現在展示的是它的模型只是超越了Qwen2.5的版本。而且OpenAI01-mini版本也是OpenAI滿血版本蒸餾出來的只需要推理不需要廣泛世界知識的應用。也就是說，這個OpenAI01-mini版本其實優勢不在數學推理和代碼競賽。

通過以上分析，我們知道了，這個公司的大模型說白了，應該是把阿里通義千問和DeepSeek的開源大模型拿來蒸餾提煉以后的產物。然后這個公司去學了畫畫，然后現在把數據擺出來，說我現在的畫畫能力比老師嬰兒時期的能力強，我現在畫畫能力比一個只會彈琴的人的強。這本質上也是一種神奇的對比法則。

所以，我就一直強調一件事，這家公司的營銷是無敵的！用各種神奇的對比法則來彰顯自己的能力，說好聽是營銷，說不好聽其實就是騙人！

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.