估計大家看到了,某個公司宣布開源了自己的模型。看上去大家云里霧里的,我給大家說明一下。
先看圖,這個公司推出的大模型呢,和他發(fā)布會一樣是很多定語的。它只在數(shù)學(xué)推理和代碼競賽方面表現(xiàn)優(yōu)異。這是個什么意思呢?
在大模型領(lǐng)域,有個技術(shù)叫“模型蒸餾”。什么意思呢?就是把一些開源的大型復(fù)雜模型的知識高效遷移到小型高效模型中。直白一點說,大型復(fù)雜模型叫老師模型,是很全能的,它在各個方面的能力都很突出。但是這個小型高效模型叫學(xué)生模型,它模型老師的輸出,只訓(xùn)練某個方面的能力。
然后我們就發(fā)現(xiàn),這個世界的大模型其實分為兩類。第一類是基座型大模型。這一種大模型參數(shù)量龐大、訓(xùn)練數(shù)據(jù)廣泛、任務(wù)泛化能力強。說白了,這種大模型是全能的,全場景適用的,不是偏科的。這些基本需要頂級大公司長期的培育和大投入才行,比如阿里的通義千問、華為的盤古大模型等。
第二類就是很多蒸餾型大模型。這類蒸餾型大模型有個好處,就是成本低廉,能在某些方面專精。說白了就是完全偏科,老師模型是琴棋書畫樣樣精通,但是學(xué)生型可能只會畫畫,但是這些蒸餾模型比較簡單,所以在一些特定場景的能力上會有輕裝上陣的優(yōu)勢。嚴格意義上說,這個DeepSeek早期就是蒸餾型大模型,DeepSeek早期蒸餾6個模型,其中有4個是阿里的,兩個是谷歌的。
這種蒸餾型大模型的成本有多低呢?在2025年初,斯坦福教授李飛飛以50美元的成本,蒸餾提煉谷歌的模型,又以阿里模型為基座,成功訓(xùn)練出世界一流模型。也就是說,一個做蒸餾大模型的企業(yè)就是另一個版本的拿來主義。它們做出來的所謂大模型一般只能贏老版本或者閹割版本,而沒辦法和基座型大模型的旗艦?zāi)P推场?/p>
就比如,阿里在2025年4月發(fā)布了Qwen3系列,新增了8個開源版本,持續(xù)強化數(shù)學(xué)、代碼等專項能力。而這家公司現(xiàn)在展示的是它的模型只是超越了Qwen2.5的版本。而且OpenAI01-mini版本也是OpenAI滿血版本蒸餾出來的只需要推理不需要廣泛世界知識的應(yīng)用。也就是說,這個OpenAI01-mini版本其實優(yōu)勢不在數(shù)學(xué)推理和代碼競賽。
通過以上分析,我們知道了,這個公司的大模型說白了,應(yīng)該是把阿里通義千問和DeepSeek的開源大模型拿來蒸餾提煉以后的產(chǎn)物。然后這個公司去學(xué)了畫畫,然后現(xiàn)在把數(shù)據(jù)擺出來,說我現(xiàn)在的畫畫能力比老師嬰兒時期的能力強,我現(xiàn)在畫畫能力比一個只會彈琴的人的強。這本質(zhì)上也是一種神奇的對比法則。
所以,我就一直強調(diào)一件事,這家公司的營銷是無敵的!用各種神奇的對比法則來彰顯自己的能力,說好聽是營銷,說不好聽其實就是騙人!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.