昨晚美股市場突遭猛烈拋售
有人講外界關(guān)注中國六代機成功首飛傳聞,被中國的六代機嚇到了。
有人講是四川艦下水,意味著中國航母和類航母的巨大優(yōu)勢,中美在最高軍事技術(shù)的斗爭中,中國取得了壓倒性勝利。
有人講是被中國宇樹的機器人震撼了(而波士頓機器人被日本軟銀收購后又被轉(zhuǎn)賣給了韓國現(xiàn)代)。
其實上面這些都不是主要原因
真實情況是號稱AI界的拼多多!國產(chǎn)AI大模型DeepSeek-V3版本正式發(fā)布
它不僅便宜,而且完全開源,僅需2000張GPU計算卡,兩個月的訓(xùn)練時間就匹敵了美國OpenAI公司花費數(shù)百倍成本的最先進大模型GPT-4o,訓(xùn)練成本僅556萬美元。
于是 這對大多數(shù)美國人的震驚程度真的不亞于中國六代機領(lǐng)先美國首飛,特別是那些對武器裝備不感興趣的老外們,他們把這件事稱為“斯普尼特時刻”,這對美國經(jīng)濟和科技圈的影響也遠遠大于六代機首飛。
其實這事真的挺震撼的,我們一個國產(chǎn)大模型能在世界上大殺四方。
不僅訓(xùn)練成本比國外一眾大模型低的離譜,效果還出奇的好。
具體有多強呢?
DeepSeek V3 是一個6710億參數(shù)的開源大模型。
作為對比,我們熟知的阿里開源的 Qwen 2.5 系列最大的模型參數(shù)量是720億。
Meta開源的 Llama 3.1 系列最大的模型參數(shù)量是4050億。
重點來了,DeepSeek V3 在參數(shù)量如此巨大的情況下,只用了2048塊 H800 GPU,花費了僅僅550萬美金左右的訓(xùn)練成本,要知道,Llama 3.1 的訓(xùn)練成本是 DeepSeek V3 的11倍。
而且,DeepSeek V3 在多個評測成績排名上,不僅超越了 Qwen 2.5 和 Llama 3.1,甚至還能和最頂尖的閉源模型 GPT-4o 和 Claude-3.5-Sonnet 打打排位。
簡直強到離譜。
OpenAI可是燒了幾個億才燒出 GPT-4o 這樣逆天的模型,而 DeepSeek 只花了區(qū)區(qū) 550萬,零頭都不到。
這還沒完,DeepSeek 不僅把模型毫無保留地開源了,還發(fā)布了一份53頁的技術(shù)報告,所有的細節(jié)掰開揉碎了給你講清楚那種,生怕一眾友商們學(xué)不會。
因為以前從來沒有論文,能把大模型的秘密解釋得這么清楚。OpenAI弄出東西了,但是論文根本沒說細節(jié),云山霧罩的,背離了業(yè)界的開源傳統(tǒng)。
現(xiàn)在很多人以為美國干出了什么黑科技,其實不是,論文說的很清楚,就是這么弄出來的。
DeepSeek沒有選擇「1→10」而逆向選擇了「0→1」,其提出了一種嶄新的MLA(一種新的多頭潛在注意力機制)架構(gòu)。
也正是這種獨特架構(gòu),其把顯存占用降到了過去最常用的MHA架構(gòu)的5%-13%。
同時,它獨創(chuàng)的DeepSeekMoESparse結(jié)構(gòu),也把計算量降到極致,所有這些最終促成了成本的下降,宣布了行業(yè)震驚的定價方案——API定價為每百萬tokens輸入1元、輸出2元,價格顯著低于當前市場上的其他同類產(chǎn)品。
套用QLoRA一作大佬的話說,這模型簡直“優(yōu)雅”到家了!
然而更抽象的是,如此厲害的大模型,竟然不是互聯(lián)網(wǎng)科技巨頭研發(fā)的,而是來自金融領(lǐng)域的頭部量化——幻方量化。
你看看國內(nèi)做量化的,竟然能對模型訓(xùn)練的資金控制這么嚴,硬生生逼出來一個新一代模型了,遠超一眾大舉投入數(shù)百億的互聯(lián)網(wǎng)公司
幾乎所有投資者圈層都在問:幻方De-e-p-s-e-ek v3只用了2048卡的H800,訓(xùn)練兩個月就完成了。你們公司買了10萬張卡,單集群萬卡,都搞出什么成果來了?有人質(zhì)疑Op-e-n-AI干什么去了。
然后今天這些機構(gòu),大資金跑的比誰都快。
因為在 DeepSeek V3 發(fā)布之前,所有人都以為大模型要做到頂流,一定要堆參數(shù),堆GPU,大廠的軍備競賽變成了誰擁有最多的GPU,誰就是王者的氪金游戲。
而 DeepSeek V3 告訴大家,在人工智能時代,我們?nèi)匀灰戎腔郏葎?chuàng)新,不是誰燒的錢多,誰就會贏得一切。
假如DeepSeek V3 模型的訓(xùn)練這么節(jié)省顯卡,且數(shù)據(jù)是真實準確的,那么意味著市場上的算力GPU卡已經(jīng)過剩,英偉達卡在未來幾年的出貨量將會斷崖下降。
如果大家有興趣的話,可以去他們官網(wǎng)試著玩一玩。
DeepSeek V3體驗網(wǎng)址:https://chat.deepseek.com/
看到這里,不少網(wǎng)友可能就會發(fā)出感嘆:怪不得炒股賺不到錢,原來自己做交易的對手竟然是電腦,論計算,普通人怎么比得過電腦?
還有網(wǎng)友直接將其比作是:核動力鐮刀。
不過,幻方量化此前曾多次澄清,探索AGI并不是用來炒股,是做 GTP 相關(guān)的大模型,與金融無關(guān)。
相反,正是由于2024年10月,監(jiān)管政策加近期市場環(huán)境的變化,幻方認為中性量化策略不賺錢,逐步降低倉位,縮減私募規(guī)模至200~300億。如下新聞記錄。
不搞量化了,這么多卡用來干啥呢?
于是,幻方的deepseek大模型橫空出世。
目前老美的科創(chuàng)能力還是很堅實和領(lǐng)先的。咱這邊局部趕上了一些。但還有差距。
正如DeepSeek創(chuàng)始人梁文峰所說:「中國也要逐步成為貢獻者,而不是一直搭便車。」
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.