DeepSeek一共有三個方向的大模型:
?DeepSeek V3對標(biāo)的是GPT4o,代表的是大模型最根本的通用智能程度。
?DeepSeek R1對標(biāo)的OpenAI o1,這個是現(xiàn)在AI大模型領(lǐng)域最炙手可熱的方向,代表了最尖端的研究儲備。
?DeepSeek Janus補的是多模態(tài)能力,因為是補,就是個添頭,暫時不出彩。
DeepSeek V3
V3論文鏈接:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfgithub.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
榜單成績,比GPT4o大多數(shù)情況都強(前兩天Qwen2.5-Max榜單成績超過了V3)
但重點是GPT4大概率是個超大規(guī)模的模型,而DeepSeekV3的模型大小僅為671B,并且采用了MoE結(jié)構(gòu),每次推理的激活函數(shù)只有37B。
這就意味著,V3在推理成本遠小于GPT4o的前提下,接近甚至在一些領(lǐng)域超越了GPT4o,這才是V3最大的貢獻。
DeepSeek R1
論文鏈接:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfgithub.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
R1是一個推理Reasoning模型,對標(biāo)的OpenAI最引以為豪的OpenAI o系列推理模型,從性能上看,R1絲毫不落于o1下風(fēng)。
不過OpenAI手里還有o3這張牌,從刷榜成績上看,R1比不過o3,但是差距有多大不好說,特別是o3的一些成績都是在閉源榜單上刷的,很難比較。
但這個性能不是重點,重點有兩個。
1 開源
R1是完全開源的,意味著只要你有足夠的設(shè)備,就可以自己部署一個,這就讓OpenAI很難堪,自己引以為豪的用來賺錢的模型,別人是開源的,甚至免費給全世界人用。
這一點兒,R1的口碑世界第一。
2 便宜
中國的AI整體受到美國的打壓,特別是訓(xùn)練用的顯卡被禁售。
DeepSeek自創(chuàng)的FP8精度訓(xùn)練,說白了就是窮鬼訓(xùn)練方法,只有在顯卡不足的時候才會考慮的方法,卡多的大廠根本不屑于考慮這種方法,算是被美國倒逼出來的創(chuàng)新。
也正在是卡不足的前提下,搞出來的創(chuàng)新自帶一種特有的平易近人特質(zhì)。
比動不動需要非常多卡的大模型的資源都需要的少。
這兩點,幾乎奠定了DeepSeek現(xiàn)在巨大的威望。
說實在的,DeepSeek的模型并不是世界頂尖,但這玩意原本的目的是就是跟陽光空氣水一樣的便宜且易獲取,OpenAI徹底閉源搞得社區(qū)烏煙瘴氣,DeepSeek就像個武功不算頂尖,但是樂于把自己不俗的死穴成才的武功心得分享出去的老哥。
致敬老哥。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.