Deepseek無(wú)疑是這幾天爆火的關(guān)鍵詞,不僅僅是國(guó)內(nèi)的各個(gè)社交群體熱議,美國(guó)主流媒體Forbes,華盛頓郵報(bào),紐約時(shí)報(bào),彭博社都紛紛報(bào)道了這家公司,DeepSeek 的 R1 模型發(fā)布后,對(duì)美國(guó)股市產(chǎn)生了巨大影響,英偉達(dá)股價(jià)今天暴跌18%,市值蒸發(fā)465個(gè)Billion,是它歷史上股票下跌最多的一天。
其他芯片公司如博通等也下跌18%,谷歌母公司 Alphabet、微軟和特斯拉等科技巨頭的股票也明顯下跌,納斯達(dá)克指數(shù)整體下降3.44%。
而這之前,許多人聽(tīng)都沒(méi)聽(tīng)說(shuō)過(guò)這家公司,這無(wú)疑是匹來(lái)自紅色中國(guó)的黑馬。它最令人驚嘆的是它在提供高性能的同時(shí)兼有低成本的 AI 開(kāi)發(fā)方式。
DeepSeek的R1模型在數(shù)學(xué)問(wèn)題解決、編程和自然語(yǔ)言推理等方面表現(xiàn)出色。在數(shù)學(xué)問(wèn)題解決方面,R1模型的準(zhǔn)確率達(dá)到97%,在編程測(cè)試中超過(guò)96%的人類(lèi)水平。
但它的開(kāi)發(fā)成本很低。R1模型的訓(xùn)練成本僅為560萬(wàn)美元,而 OpenAI 的 GPT-4 模型的訓(xùn)練成本估計(jì)在 1 億至 2 億美元之間。R1 模型的訓(xùn)練成本是 GPT-4 訓(xùn)練成本的 1/18到1/36之間,遠(yuǎn)遠(yuǎn)低于ChatGPT。
我家老大也是學(xué)數(shù)學(xué)和計(jì)算機(jī)的,他很早就關(guān)注了這家公司,他認(rèn)為deepseek之所以能成本這么低是因?yàn)?full stack optimization ( algorithm + hardware in tandem),算法的優(yōu)化指的是DeepSeek用的算法比較高效,本身就需要較少的計(jì)算能力和時(shí)間來(lái)訓(xùn)練。hardware in tandem指的是多個(gè)硬件設(shè)備一起協(xié)同工作,比如使用在性能與成本之間提供良好平衡的 GPU 和 TPU,比如用可擴(kuò)展的云基礎(chǔ)設(shè)施,動(dòng)態(tài)分配資源等等。
另外deepseek對(duì)數(shù)據(jù)做了優(yōu)化,相比別的模型把數(shù)據(jù)一股腦輸入,deepseek用模型事先優(yōu)化和清洗了數(shù)據(jù),這樣數(shù)據(jù)輸入量顯著減少,也減少了對(duì)算力的要求。DeepSeek 還使用遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)等先進(jìn)技術(shù)提高數(shù)據(jù)效率,通過(guò)較少的數(shù)據(jù)實(shí)現(xiàn)高性能。
再有就是DeepSeek 經(jīng)常用基于開(kāi)源的框架訓(xùn)練模型進(jìn)行開(kāi)發(fā),減少了從頭開(kāi)始訓(xùn)練的需求,降低了成本。
很多投資者擔(dān)心,DeepSeek 的低成本 AI 開(kāi)發(fā)方式可能會(huì)減少對(duì)高端芯片的需求,而這些芯片是 英偉達(dá)等公司的主要收入來(lái)源,再加上對(duì)美國(guó)AI公司競(jìng)爭(zhēng)力的擔(dān)心,造成了今天美國(guó)相關(guān)科技股暴跌。不知道大家是否還記得Chatgpt 剛出來(lái)的時(shí)候,百度的同類(lèi)產(chǎn)品也被迫上場(chǎng),但是表現(xiàn)令人失望,以至于許多人認(rèn)為中國(guó)的AI技術(shù)遠(yuǎn)落后于美國(guó)。
但這次Deepseek無(wú)疑是來(lái)勢(shì)兇猛,真的是令人刮目相看。此外,DeepSeek的API定價(jià)也相對(duì)低廉,約為OpenAI同類(lèi)服務(wù)成本的三十分之一。
這些優(yōu)勢(shì)使得DeepSeek在用戶中迅速獲得廣泛關(guān)注,在App store的免費(fèi)應(yīng)用App排行榜上超越了ChatGPT,排在了第一。今天和我家老大又說(shuō)起這家公司,他說(shuō)我一個(gè)月前就跟你們說(shuō)了,你們那時(shí)候沒(méi)當(dāng)回事。
DeepSeek 是一家總部位于杭州的AI初創(chuàng)公司,成立于2023年,母公司是幻方量化,一家知名的量化私募公司。創(chuàng)始人梁文鋒1985年出生在廣東省湛江市吳川市。2002年考入浙江大學(xué)電子信息工程專(zhuān)業(yè)。
梁文鋒在2008年開(kāi)始使用機(jī)器學(xué)習(xí)等技術(shù)探索自動(dòng)量化交易,2015年成立幻方量化,2019年其資金管理規(guī)模突破百億元。就在人們認(rèn)為他將在量化股票交易的道路上高歌猛進(jìn)的時(shí)候,他于2023年創(chuàng)立了人工智能公司DeepSeek,專(zhuān)注于大語(yǔ)言模型的開(kāi)發(fā)。現(xiàn)在公司大約有一百人左右,大多來(lái)自北大清華,浙大北航北郵等國(guó)內(nèi)知名院校,幾乎都是本土人才,鮮有海歸。梁文鋒提到他招人最看重的是能力和是否擁有好奇心和探索心。
當(dāng)然,褒贊的同時(shí)肯定有質(zhì)疑聲。比如Scale AI 的首席執(zhí)行官 Alexandr Wang 周四在接受 CNBC 采訪時(shí)表示,雖然沒(méi)有證據(jù),但 DeepSeek 擁有 50,000 塊 Nvidia H100 芯片,他聲稱(chēng)如果公開(kāi)這一信息,將違反華盛頓的出口管制法令,因?yàn)檫@些先進(jìn)的 AI 芯片是禁止出售給中國(guó)的公司的。DeepSeek 對(duì)此沒(méi)有立即做出回應(yīng)。
Bernstein的分析師也在周一的研究報(bào)告中說(shuō),DeepSeek V3 模型的總訓(xùn)練成本還不清楚,但遠(yuǎn)高于他們自己說(shuō)的 560 萬(wàn)美元。
我也下載了這個(gè)App,親測(cè)了一下,我先是測(cè)試了幾個(gè)文本問(wèn)答題目,回答的還不錯(cuò),接著我把2023 AIME I Problems的第一道題直接喂給了它。標(biāo)準(zhǔn)答案是191.
Problem 1
Five men and nine women stand equally spaced around a circle in random order. The probability that every man stands diametrically opposite a woman is $\frac{m}{n},$ where $m$ and $n$ are relatively prime positive integers. Find $m+n.$
Deepseek 霹靂吧啦打出一堆的演算,只是最后給的答案是錯(cuò)誤的。我說(shuō)“wrong”,它道歉,又算了一次,答案還是錯(cuò)的。
我又把第15題喂給它,它也是霹靂吧啦好幾頁(yè)的演算,但最后居然沒(méi)有給出答案,不知道是不是用它的人太多。感興趣的朋友也可以測(cè)試一下。
不管怎樣,deepseek的成績(jī)還是非常振奮人心的。正好今天是除夕,這真的是一份亮眼的新春獻(xiàn)禮。當(dāng)然,這大概也意味著川普更要制裁中國(guó)的科技公司了。只是,資本是逐利的,是否也會(huì)像國(guó)家之間這樣互相防范?他們是哪里能賺錢(qián)就往哪里跑,全球化的趨勢(shì)并不是那么好阻擋的。
而且這次,deepseek很多核心技術(shù)是開(kāi)源的,而OpenAI許多核心技術(shù)是閉源的。如果開(kāi)源戰(zhàn)勝閉源,這波AI浪潮勢(shì)必超越國(guó)與國(guó)之間的界限,共同把人類(lèi)的AI技術(shù)推到一個(gè)新的高度。AI科技的發(fā)展如此迅猛,真是令人又激動(dòng)又膽寒。
作者簡(jiǎn)介
二湘,喜歡碼字,著有長(zhǎng)篇小說(shuō)《暗涌》《狂流》,小說(shuō)集《重返2046》,最新小說(shuō)集《心的形狀》。
平臺(tái)原創(chuàng)文章均為作者授權(quán)微信首發(fā),文章僅代表作者觀點(diǎn),與本平臺(tái)無(wú)關(guān)。
~the end~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.