99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

又是來自浙大,“大模型屆的拼多多”要刺破英偉達泡沫?

0
分享至


一個來自中國的開源模型,讓整個AI圈再次驚呼“來自東方的神秘力量”。

昨天,國內知名大模型創業公司“深度求索”通過官方公眾號宣布上線并同步開源 DeepSeek-V3模型,并公布了長達53頁的訓練和技術細節。

和許多報告語焉不詳相比,這份報告做到了真正的開源。不僅透露得到大幅升級的V3模型是在一個“難以想象”的預算下訓練完成的:整個訓練僅花費了557.6萬美元,在2048xH800集群上運行55天完成,還很坦誠地公布了技術細節。


真正的花小錢辦大事

這筆費用是什么概念呢?Anthropic CEO Dario Amodei曾透露,GPT-4o這樣的模型訓練成本約為1億美元。

換句話說,與 Llma、GPT 或 Claude 這些全球知名大模型相比,DeepSeek-V3的這個成本幾乎可以忽略不計。

成本低不代表效果差,DeepSeek羅列了若干個指標:

百科知識:DeepSeek-V3在知識類任務上的水平相比前代 DeepSeek-V2.5顯著提升,接近當前表現最好的模型 Claude-3.5-Sonnet-1022。

長文本: 在長文本測評中,DROP、FRAMES和 LongBench v2上,DeepSeek-V3平均表現超越其他模型。

代碼:DeepSeek-V3在算法類代碼場景(Codeforces),遠遠領先于市面上已有的全部非o1類模型;并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

數學: 在美國數學競賽(AIME 2024, MATH)上,DeepSeek-V3得分 為90.2%,而Claude-3.5-Sonnet為 78.3%,GPT-4o為 74.6%。

中文能力:DeepSeek-V3與Qwen2.5-72B在教育類測評C-Eval和代詞消歧等評測集上表現相近,但在事實知識 C-SimpleQA上更為領先。

簡單說,從技術報告公布的性能指標上來看,這個開源MoE模型,已經在性能上對齊甚至在一些方面顯著超越了海外領軍的閉源模型。


對此,OpenAI創始成員Karpathy點評:DeepSeek-V3讓在有限算力預算上進行模型預訓練這件事變得容易。它看起來比Llama 3 405B更強,訓練消耗的算力卻僅為后者的1/11。

Meta科學家田淵棟感慨:這是非常偉大的工作。


創始人畢業于浙大,曾是量化基金大佬

說起國產大模型,很多人聽說過“五虎”和“四小龍”,但很少有人聽說過深度求索DeepSeek。因為他們是唯一一家沒有做2C應用的公司,選擇了開源路線,至今沒有融過資。

這也不是深度求索第一次展現神奇的力量。在硅谷,深度求索DeepSeek很早被稱作“來自東方的神秘力量”。


今年5月,深度求索DeepSeek發布發DeepSeekV2,因為創新的模型架構和史無前例的性價比,火爆出圈:推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,因此深度求索DeepSeek被稱為“大模型界的拼多多”,從而引發了字節、阿里、百度等大廠的大模型價格大戰,不約而同地調整價格。

DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse結構,大幅降低了模型的計算量和顯存占用,從而降低了推理成本。

在轟炸AI圈之前,深度求索DeepSeek背后的操盤手梁文鋒是金融江湖成名已久的高手。他成立的幻方量化,是國內量化私募“四巨頭”之一。

低調的梁文鋒個80后,出生在廣東的一個五線城市,父親是一名小學老師。他畢業于浙江大學,主修軟件工程,人工智能方向。有同事評價梁文鋒:完全不像一個老板,而更像一個極客。因為作為老板,他本人每天都在寫代碼、跑代碼,學習能力驚人。

從公開的工作經歷和職業生涯來看,梁文鋒從2008年開始致力于量化對沖領域的研究,2015年創立幻方量化,開始在量化投資領域嶄露頭角。

2016年,幻方量化首次上線運行AI策略。2023年7月,梁文鋒創立深度求索DeepSeek,專注于AI大模型的研究和開發,公司就在杭州。


早在2019年,幻方和它背后的資金,就開始大手筆投入深度學習訓練平臺,到了2021年幻方量化對超算集群系統的投入增加到10億元,并且搭載了超1萬張英偉達A100顯卡。

所以有人開玩笑,中國持有高性能GPU最多的機構不是人工智能公司,而是幻方。

梁文鋒曾在《西蒙斯傳》的序言中寫道,“和很多新技術一樣,量化投資剛出現的時候也是被嘲笑的對象,沒有人相信計算機可以像人類一樣進行投資。”

傳記的主角西蒙斯,是數學家、物理學家、密碼學家,創立了文藝復興科技公司,用技術讓投資業績遠超巴菲特等人,被譽為“量化投資之父”。

這么看梁文鋒的職業生涯多有致敬前輩的意思。


并不是誰燒錢多就理所應當的贏得一切

除了將AI用于投資,梁文鋒一直對AGI和人工智能浪潮有深入的思考。

他認為,無論是API還是AI,都應該是普惠的,人人可以用得起的。他強調技術應該服務于大眾,而不是僅僅為了商業利益。這種理念體現在DeepSeek的定價策略上,他們通過降低大模型的API價格,推動了整個行業的價格戰,使得更多人能夠負擔得起AI技術。

但和其他競爭對手不一樣,深度求索并沒有用“燒錢”的方式來競爭。“我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”梁文鋒說。

OpenAI前政策主管、Anthropic聯合創始人Jack Clark曾這樣評價深度求索DeepSeek:“雇傭了一批高深莫測的奇才”,還認為中國制造的大模型,“將和無人機、電動汽車一樣,成為不容忽視的力量。”

不過在一次采訪中,梁文鋒曾透露,DeepSeek并沒有什么高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。

“V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”

他曾在訪談中提到,過去30多年的IT浪潮,中國基本上沒有參與到真正的技術創新,扮演的是追隨者的角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者,而不是一直依賴別人的成果。”

現在,V3的橫空出世至少讓整個AI圈看到一種可能,即創業公司可以不必用比拼資源的方式和OpenAI競爭。雖然訓練大模型依然需要很多很多的顯卡集群,但并不是誰燒錢多就理所應當地贏得一切。

甚至有網友戲稱:“想快進到英偉達泡沫破裂的時刻。”

文|沈積慧 梁應杰

VIEW MORE

@一群浙大博士正在攻占各大直播間 >>

@36年教齡的語文老師用AI讓孩子變成作文高手>>

@藏在山里的機器人基地 >>

@全球打響“百鏡大戰”>>

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又一次全國大拆遷!這次和10年前暴富的那次有什么不一樣?

又一次全國大拆遷!這次和10年前暴富的那次有什么不一樣?

巢客HOME
2025-06-01 00:22:40
十個美宜佳,“九個虧”?

十個美宜佳,“九個虧”?

于見專欄
2025-06-01 08:23:08
2025年4月:國航痛失亞洲霸主寶座!

2025年4月:國航痛失亞洲霸主寶座!

民航之翼
2025-06-01 13:14:39
2-1!鄭欽文三喜臨門,獎金359萬,但下一場卻更難了

2-1!鄭欽文三喜臨門,獎金359萬,但下一場卻更難了

體育就你秀
2025-06-02 01:00:03
繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

侃侃兒談
2025-05-05 09:49:14
美延長關稅豁免,這些板塊要起飛!速速觀看收藏!

美延長關稅豁免,這些板塊要起飛!速速觀看收藏!

風風順
2025-06-02 00:32:10
經國務院批準,陜西省省長趙剛率團出訪

經國務院批準,陜西省省長趙剛率團出訪

新京報
2025-06-01 16:00:08
中國博主偶遇波多爾斯基,自稱合影時遭后者種族歧視

中國博主偶遇波多爾斯基,自稱合影時遭后者種族歧視

懂球帝
2025-06-01 17:28:27
他曾是香港最紅風水師,臨終前留給信命之人的三句話,值得借鑒

他曾是香港最紅風水師,臨終前留給信命之人的三句話,值得借鑒

混沌錄
2025-06-01 19:45:15
法國傳來消息太驚人:印度損失的陣風戰機不是3架,很可能是6架

法國傳來消息太驚人:印度損失的陣風戰機不是3架,很可能是6架

張斌說
2025-05-31 22:51:05
馬筱梅帶汪小菲回娘家過端午!張蘭與姐妹在小院吃火鍋!各過各的

馬筱梅帶汪小菲回娘家過端午!張蘭與姐妹在小院吃火鍋!各過各的

史書無明
2025-06-01 21:25:35
35歲女子相親猛撩26歲鮮肉,小伙找不著北,網友:我都心動了

35歲女子相親猛撩26歲鮮肉,小伙找不著北,網友:我都心動了

農村情感故事
2025-06-01 07:42:03
烏克蘭襲擊海參崴:俄軍第155海軍陸戰旅駐地被炸

烏克蘭襲擊海參崴:俄軍第155海軍陸戰旅駐地被炸

鷹眼Defence
2025-05-31 17:11:29
撒貝寧一家端午節千島湖度假游玩,6歲女兒扎著臟辮,兒子帶墨鏡

撒貝寧一家端午節千島湖度假游玩,6歲女兒扎著臟辮,兒子帶墨鏡

阿芒娛樂說
2025-06-01 10:15:19
宜家哪些“個位數”小物值得買?別看這12件都是便宜貨,但真實用

宜家哪些“個位數”小物值得買?別看這12件都是便宜貨,但真實用

平祥生活日志
2025-06-02 00:25:42
蘇超第三輪全部戰罷,新一輪“梗王大賽”又拉滿了!

蘇超第三輪全部戰罷,新一輪“梗王大賽”又拉滿了!

現代快報
2025-06-02 00:02:09
為什么越來越多的男性,不再愿意給女性花錢

為什么越來越多的男性,不再愿意給女性花錢

加油丁小文
2025-05-29 09:30:03
火箭10號簽+格林換西部第二分衛,申京、阿門迎超級巨星搭檔

火箭10號簽+格林換西部第二分衛,申京、阿門迎超級巨星搭檔

埃文凱爾
2025-06-02 00:55:33
洪秀柱赴陸促統,不到24小時,沉默7天的解放軍,突然在臺海行動

洪秀柱赴陸促統,不到24小時,沉默7天的解放軍,突然在臺海行動

曹興教授TALK
2025-06-01 11:11:49
為何越發達的國家,越不流行移動支付?周小川一語說破

為何越發達的國家,越不流行移動支付?周小川一語說破

巢客HOME
2025-05-31 09:55:02
2025-06-02 05:35:00
九千光年 incentive-icons
九千光年
在技術奇點,和影響未來的人看“星辰大海”
1747文章數 5531關注度
往期回顧 全部

科技要聞

熱搜!雷軍疑回應余承東

頭條要聞

選舉臨近 尹錫悅、文在寅、樸槿惠、李明博均出面站臺

頭條要聞

選舉臨近 尹錫悅、文在寅、樸槿惠、李明博均出面站臺

體育要聞

一邊倒的歐冠決賽,青春無敵的新科冠軍

娛樂要聞

等等小花給鄧超拍雜志 插畫由小花繪制

財經要聞

油價繼續下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩居新勢力前三

態度原創

家居
旅游
本地
數碼
公開課

家居要聞

原木純白 邂逅自然本真

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

數碼要聞

首發4999元起,機械革命星耀 14 筆記本開售

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无锡市| 崇仁县| 南涧| 高密市| 鹿邑县| 正宁县| 大港区| 南投市| 寿阳县| 宜君县| 涿鹿县| 印江| 芮城县| 元朗区| 上杭县| 阳曲县| 禄丰县| 雷州市| 敦煌市| 从化市| 洪洞县| 油尖旺区| 安福县| 鹿泉市| 确山县| 砚山县| 曲麻莱县| 焦作市| 张家口市| 包头市| 茶陵县| 清原| 苏尼特左旗| 东安县| 阿克苏市| 建阳市| 黎平县| 加查县| 昂仁县| 香格里拉县| 安泽县|