1月27日,一家中國人工智能(AI)初創公司DeepSeek(“深度求索”)橫空出世般震驚了全球AI界。鋪天蓋地的DeepSeek媒體報道成為了中國農歷新年里的重磅頭條,掀起全球AI科創界的熱議。DeepSeek究竟是一家什么樣的公司?它為何與眾不同?它對全球AI下一步的發展又可能產生什么樣的影響?對中國的AI發展有什么特殊意義?中歐國際工商學院億緯鋰能經濟學與決策科學教席教授、中歐AI與管理創新研究中心主任方躍分享了他的洞見。
DeepSeek在DeepSeek V3的基礎上發布了推理模型DeepSeek R1,其表現被認為可以與其更知名的競爭對手——OpenAI最新的o1等相媲美。DeepSeek模型的質量和成本效益受到行業包括硅谷高管和美國科技公司工程師在內的行業人士的好評。DeepSeek R1發布的當天,其下載量旋升,登頂蘋果中國地區和美國地區應用商店免費App下載排行榜。
同一天,美國科技股遭受重創。AI芯片供應商英偉達(NVDA)股價下跌近17%,市值損失5888億美元。Meta(META)和Alphabet(GOOGL),以及Marvell、Broadcom、Palantir、Oracle等科技巨頭的股價也出現大幅下挫,導致以科技股為主的納斯達克指數暴跌3.1%。
由于投資者擔心DeepSeek帶來的新技術可能使AI模型需要更少的能源來運行,一些能源相關股票也出現暴跌,生產風能和燃氣輪機的GE Vernova股價暴跌21%,而發電商Vistra股價暴跌28%。之后幾個交易日,英偉達等公司的股價繼續呈現大幅波動,市場仍在評估DeepSeek對美股相關股票和AI行業發展的潛在影響。
同時,DeepSeek也引發了投資者質疑對美國公司在AI領域的領先優勢的質疑,圍繞大型科技公司在構建AI模型和數據中心上的巨額支出是否可以避免展開了激烈討論。
01
DeepSeek是一家什么樣的公司?
DeepSeek成立于2023年7月,總部位于中國杭州,創始人梁文鋒是浙江大學信息和電子工程專業的校友。DeepSeek由梁文鋒于2015年創立的對沖基金High-Flyer孵化。
High-Flyer于2023年3月在其官方微信公眾號上宣布“重新出發”,超越交易,集中資源打造“全新的獨立研究小組,探索AGI(人工智能通用智能)的本質”。
DeepSeek于同年晚些時候創建。目前尚不清楚High-Flyer向DeepSeek投資了多少。根據公司的公開信息,High-Flyer與DeepSeek位于同一棟大樓內,它還擁有與用于訓練AI模型的芯片集群相關的專利。
對技術公司來講,企業的愿景至關重要。DeepSeek同OpenAI的薩姆·奧爾特曼(Sam Altman)一樣,也是希望構建AGI。與包括Anthropic和Perplexity在內的其他著名AI初創公司相似,DeepSeek在過去一年中發布了各種有競爭力的AI模型。但相比Anthropic和Perplexity,DeepSeek此前并未廣泛為世人所知,行業關注度不高。
此次DeepSeek發布的DeepSeek R1,由于其出色的表現,加上公司來自中國,且“鮮為人知”,給全球AI社區帶來了不小的“驚訝”,這也是美股市場出現“恐慌”的重要原因之一。
02
DeepSeek哪里與眾不同?
DeepSeek采用了創新的架框,在AI算法方面取得了重大突破,模型表現出很強的競爭性,其產品達到了GPT-4的級別。迄今為止,DeepSeek研究論文中所描述的性能基本被其他公司的不同基準測試所驗證。
DeepSeek并非采用“蒸餾”(多被形容小型AI開發團隊,利用有限的資金,基于他人大模型來構建擅長某個領域的專業模型)的簡單進化,而是以一種開創性的通用的方式,將模型分解成多個子專家模型,通過專家混用模型系統不斷迭代。
另外,對推理層面的任務,DeepSeek的架構不需要做SFT(監督微調Supervised Fine-Tuning,一種重要的模型優化技術,是指在已經預訓練模型的基礎上,通過使用有標注的特定任務數據進一步訓練,以提升模型的性能和遵循指令的能力)。
DeepSeek R1的出色表現表明,這種基于算法優化和新架構的方法可以有效突破計算能力不足的束縛,甚至有可能提高數據的利用效率和迭代速度,最終直接帶來了模型開發成本的大幅下降。
坦率地講,DeepSeek R1并非硅谷最尖端的前沿模型,但其較低的成本和極為高效的探索速度,成功嘗試了行業尚未探索的技術路徑,是“一項出色的人工智能進步”(英偉達發言人1月27日的評價)。才能非凡的團隊、優質的訓練數據和出色的創新工作——DeepSeek向我們展示了如何用更少的資金和資源實現更多的可能性的新AI技術路徑。
正如Perplexicy CEO阿爾文·斯里尼瓦斯(Arvind Srinivas)近日在接受美國媒體采訪時所表示的:“之所以它(DeepSeek R1)如此令人大開眼界,而且眾多研究者被DeepSeek所取得的成就所吸引,原因在于這是一個非常有趣的進展,它展示了在如此少的資本投入下,能夠以多快的速度接近或達到技術前沿。”
最后,AI大語言模型訓練成本的不斷降低符合行業發展趨勢。DeepSeek通過一系列工程效率的創新,相比全球目前能力相媲美的模型,成本要低得多。但值得注意的是,DeepSeek的V3模型總訓練成本尚不清楚,同樣廣受贊譽的R1模型的訓練成本沒有披露。AI訓練成本每年都在大幅下降,簡單將DeepSeek的訓練成本同一些科技巨頭早期前沿探路的巨額開發成本相比不一定合理。
03
DeepSeek對全球AI下一步的發展
可能產生什么樣的影響?
首先是擴展定律(Scaling Law)
Scaling Law在大模型發展中起著非常重要的作用,是OpenAI研究人員在2020年提出的AI開發概念,即通過大幅增加構建新模型所需的計算量和數據量,可以開發出更好的AI系統,而這需要越來越多的芯片和大量高質量的數據。
OpenAI首席執行官薩姆·奧爾特曼去年曾表示,AI行業將需要數萬億美元的投資來支持高需求芯片的開發。當DeepSeek用如此小的成本,而且在功能較差的芯片上實現強大的AI模型功能,人們不禁要問:Scaling Law是否不成立了?我們是否還需要投資昂貴的AI基礎設施?
我認為,AI的發展方向一定是消耗更少的能源且更具成本效益,但對算力和數據的需求不會降低。DeepSeek R1的成功會導致華爾街開始重新評估AI行業,比如,英偉達的股價是否有泡沫?是否不需要如此多的AI數據中心?
DeepSeek創新的算法路徑一定會對AI行業的供應鏈產生影響。不過,雖然DeepSeek可能會挑戰OpenAI等美國公司的主導地位,但強大的芯片和計算能力仍然是未來AI發展的一個重要且不可缺少的優勢,多路徑發展可能成為未來趨勢。
AI開源社區受到鼓舞
與OpenAI的ChatGPT等閉源的模型不同,DeepSeek是開源的。不夸張地說,DeepSeek的成功是一項意義非凡的“平等突破”,是開源社區相對閉源的一次勝利。
過去兩年,越來越多的中國公司加入AI開源社區。阿里云發布了100多個新的開源AI模型,支持29種語言,可滿足各種應用程序的需求,包括編碼和數學。
同樣,Minimax和01.AI等初創公司也開源了自己的模型。DeepSeek的成功有可能在一定程度上改變目前開閉源的AI發展格局。
當然,DeepSeek在讓整個AI社區感到興奮的同時,也吸引了開源社區內各競爭對手的關注。據The Information報道,Meta已經建立了許多“作戰室”來弄清楚DeepSeek是如何變得如此高效的。這將有助于“眾人拾柴火焰高”,進一步推動開源模型的繁榮,導致與閉源模型基本同步發展。
對應用落地的影響
目前還不確定DeepSeek的發展將在多大程度上影響AI行業,但我認為會對AI的對應用落地產生積極的促進作用。我也相信,AI大模型相關的長期收入和成本可能會降低。
需要提醒的是,用更少的錢訓練一個大型語言模型是一回事,大規模應用落地、對社會產生價值是另外一回事,滿足AI技術消費的巨大需求仍然需要大量的基礎設施和時間。
04
DeepSeek對中國的AI發展
有什么特殊意義?
根據中國信息通信研究院2024年發布的白皮書,在全球1328個AI個大語言模型中,36%源自中國,這使中國成為僅次于美國的第二大AI貢獻者。
但過去兩年,國內公司陸續發布了不少中國版的ChatGPT類產品,總體表現多少讓市場有些失望。DeepSeek的發展可能會激發中國AI公司的“斗志“,提升AI創新公司和行業的信心。
除了非常耗費資源外,構建AI大語言基礎模型是一個復雜的工程項目。
在2024年7月接受中國媒體36氪采訪時,梁文鋒表示,除了芯片制裁之外,中國公司面臨的另一個挑戰是AI工程技術往往效率較低。“我們(大多數中國公司)必須消耗兩倍的計算能力才能獲得相同的結果。再加上數據效率差距,這可能意味著需要高達4倍的計算能力。我們的目標是不斷縮小這些差距。”DeepSeek的實踐,在工程效率的創新等很多方面為其他AI公司提供了有益的經驗。
我相信,同OpenAI的ChatGPT等一樣,DeepSeek的DeepSeek R1也只是AI時代拉開序幕的又一重要“預熱節目”。“他們(DeepSeek)構建的模型很棒,但也不是奇跡,”Bernstein分析師斯泰西·拉斯貢(Stacy Rasgon)在評論DeepSeek時說道,“他們沒有使用任何未知或秘密或類似的東西,這些是每個人都在試驗的東西。但DeepSeek以更少的資源做更多的事情,風靡了市場。”
正是因為人類在不斷追求用更少的資源做更多的事情,AI未來幾年的驚喜將不斷出現!
教授簡介
方躍教授是中歐國際工商學院經濟學與決策科學教授、經濟學和決策科學系系主任、中歐AI與企業管理研究領域主任。方躍教授于2018年在中歐創辦大數據研究中心,并擔任研究中心首屆主任,并于2024年初在中歐成立并負責AI與管理創新研究中心,重點關注AI對企業管理及產業發展的影響和如何打造AI驅動型組織,致力于構建具有商學院特色的AI產學研平臺,及AI與管理創新的高端智庫。
加入中歐之前,他作為終身教授曾執教于美國多所大學,并擔任麻省理工學院國際金融服務研究中心(IFSRC)、麻省理工學院制造業領袖項目(LFM)以及美國能源部能源信息管理局(EIA)研究員。方躍教授自2005年到2018年長期擔任美國一家能源對沖基金的執行董事,并為包括AT&T、GE Capital、Intel Capital在內的多家跨國公司和中國企業提供人工智能、數智化轉型、大數據和金融科技等方面的咨詢服務。
創意圖片已獲視覺中國授權。
編輯| 李鈺婷
責編| 岳頂軍
歡迎點擊小程序,全方位了解中歐!
你還可以在這些平臺關注中歐
關注中歐官方視頻號
點擊咨詢中歐課程
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.