你知道嗎?就在2024年最后幾天,一個來自中國的AI大模型,竟然霸榜了美國各大社交平臺,而且收獲了一片好評。
美國AI獨角獸Scale AI的CEO說:“它的出現讓人驚嘆。它的性能可媲美OpenAI的GPT-4o ,和剛剛得到40億美金投資的Claude 3.5 Sonnet。而它訓練所消耗的算力,僅僅是它們的十分之一。這反映出的‘殘酷真相’是,當美國休息時,中國在努力工作,并以更低的成本、更快的速度和更強的實力實現追趕。”
美國AI教育專家Nate Jones說:“過去,大模型訓練成本是以億來計算的。但它的出現,讓這個成本平均下降了十幾倍。最夸張的對比是,Meta的大模型訓練投資超過了5億美金。而它僅花費了約500多萬美金。”
在美國,被對手下場稱贊的情況,還是比較少見的。除非這個產品,真的很強。
這個大模型就是由中國AI公司“深度求索”推出的:DeepSeek-V3,我們簡稱V3。
海外有很多AI工程師對V3做了專業數據測評,測試結果顯示:
在AI圈里非常權威的“Aider多語言編程測試排行榜”中,V3僅輸給了OpenAI的最強版本ChatGPT-o1,在全部AI大模型里排第二名。
在測試編程和編碼能力的LiveCodeBench測試中,DeepSeek-V3超越了迄今為止所有開源模型。有程序員小哥表示:我感覺機器里住了個能夠讀懂人心的幽靈。
問題來了,V3為什么這么厲害呢?
我翻閱了大量報告后發現,答案集中在了四個字——“投入模式”。
其實,圍繞AI發展的3個關鍵詞是:算法、算力和數據。
受貿易戰限制,國內大模型公司可以使用的芯片非常有限。所以,我們在算力和數據上,一直都處于劣勢。
我們只能集中力量解決算法,通過優化算法,來降低對算力的依賴;通過提升算法的水平,來降低對算力的消耗,間接減少對錢的消耗。
也就是說,V3的階段性勝出,本質上就是算法的勝出。
V3的母公司公開了長達53頁的技術報告,通篇寫的都是算法創新。
過去的算法叫:Scaling law。它的優勢是:模型性能會隨著參數量的增加而增強。
但它的問題也很明顯。有測算數據顯示,訓練一個5000億參數規模的Dense模型,基礎算力設施投入約為10億美金,如果無故障運行21個月,電費約為5.3億美金。這樣的算力投入,現階段也只有極少數大企業能承擔。
而DeepSeek-V3用的是自研的MoE模型。
怎么理解這個模型呢?
簡單講就是,一個機構有不同的部門,比如市場、人力、技術、財務等等;而每個部門都有擅長各個方向的專家,每個專家都有自己精通的領域,但他們不需要處理所有工作。
也就是說,在MoE模型支配下的V3,里面有各個領域中的專家,他們專門處理特定類型的任務,遇上任務時,能夠智能地調動最合適的專家來解決特定問題。
這就是V3高效、精準、省錢的原因。公開資料顯示:V3的正式服務價格是:每百萬輸入tokens 0.5元-2元,每百萬輸出tokens 8元。這個價格只有GPT-4o的十分之一,性能卻不相上下。這也讓DeepSeek收獲了“AI界拼多多”和“大模型價格屠夫”的稱號。
我認為,DeepSeek-V3的出現,對我們來說,至少有三點啟示。
首先,它的出現,讓已經跑在前面的AI公司不敢偷懶。不管是國外的,還是國內的AI公司,它們都要時刻準備來自新玩家的挑戰,它們要意識到一個問題:
AI領域,算法始終要在算力前面。AI研究,并不是規模越大,性能就越好;投入的錢越多,質量就越高。只有不斷研發,持續做到技術創新,才能在AI時代站穩腳跟。
其次,高性價比AI產品的誕生,可以真正做到技術普惠。其實,早在今年5月,DeepSeek發布的V2開源模型,就因其史無前例的低定價,讓各個AI大廠紛紛降價。只是說當時V2的性能還不夠突出。而V3這一波,同等性能里,它價格最低,同等價格里,它性能最強,大概率又會引發一波AI“降價潮”。受惠的是廣大用戶。
最后,DeepSeek這家公司非常值得我們學習。他們的幕后團隊,在低配硬件的基礎上,用遠低于AI巨頭的成本,通過算法創新開發出了一個性能過硬的開源AI大模型。這種在不利條件下,努力找出路的創新精神,非常值得我們每個人學習。
關于國產大模型,你有什么思考呢,咱們評論區聊聊吧。
嘉賓商學創辦人吳婷校長
參考資料:
[1]深度求索. DeepSeek-V3 正式發布.DeepSeek.2024
[2]屠敏.重磅!“AI界拼多多”再發力,國產大模型DeepSeek-V3開源后刷屏,總訓練成本557萬美元,性能比肩GPT-4o.CSDN.2024
[3]都保杰.國產之光刷屏AI圈!DeepSeek-V3成當前最強開源大模型.頭部科技.2024
[4]周春媚.95后AI“天才少女”刷屏!雷軍千萬年薪挖角!.證券時報.2024
[5]王智遠.爆火的DeepSeek-V3強在哪. 王智遠.2024
[6]機器之心編輯部.國產大模型DeepSeek-V3一夜火爆全球,《DeepSeek-V3技術報告》,53頁pdf.機器之心編輯部.2024
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.