99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

深夜突襲!DeepSeek-R1 重磅升級:媲美 OpenAl 最高 o3 模型,編碼能力直逼 Claude 4

0
分享至

大數據文摘出品

5月28日凌晨,DeepSeek 在 Hugging Face 上開源了其更新版的 R1 模型。

此次更新并未更改名稱,只在模型路徑中標注“0528”以作區分。


圖源deepseek

官方稱這是一次“minor update”,但社區反饋卻指向另一種結論:在代碼生成、長時推理、格式控制等任務上,這個版本的 R1 的能力已經“近乎o3級別”。

而官方的口風是:“DeepSeek-R1 的性能據稱已對齊 OpenAI 的 o1 正式版本,其蒸餾出的輕量模型甚至在多個任務上超越了 o1-mini。”


圖注:推特網友在經典物理模擬測試中,對DeepSeek-R1新舊版本的對比

經國內微博用戶實測:編碼能力已經可以和Claude 4 掰手腕了


此外,此次發布不僅涵蓋了權重、配置與模型文檔,也同步上線了 App、官網及 API 調用服務,接口對開發者開放。R1 使用 MIT 許可證發布,允許商用,也允許使用其輸出結果進行模型蒸餾。


圖注:官方稱,在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。圖源deepseek

這是中國大模型廠商中,少數同時在算法、產品與授權層面做“全棧開源”的公司之一。

從 R1 到 R1-0528:推理能力的重點優化

據官方信息,此次更新的 R1 模型(標注版本為0528)參數規模約為660B,在訓練后期大量采用強化學習技術,以少量標注數據優化模型在數學、編程和語言推理等任務上的表現。

雖然官方并未披露系統性基準測試結果,但多個國內外開發者社區實測顯示,R1-0528 在代碼生成和復雜推理任務中具備穩定輸出能力。

根據用戶測試,在 LiveCodeBench 編程測試環境中,R1-0528 在多個任務上表現接近OpenAI o3-mini(High 模式)和 o4-mini(Medium 模式)。不過,目前尚無該基準的官方排行榜對這一說法予以印證。


圖注:推特用戶測試

尤其在長鏈條邏輯題中,開發者觀察到模型可進行多達20余步的符號化推理,且過程中結構一致性較好。在部分測試場景中,模型思考處理時間可持續數十分鐘。

與多數開源模型不同,DeepSeek-R1 的另一特征在于其明確允許并鼓勵“模型蒸餾”。

官方同步開源了兩個660B規模的大模型(DeepSeek-R1 與 DeepSeek-R1-Zero),并基于其推理輸出訓練了6個不同規模的子模型,其中 32B 與 70B 兩個中型版本,在多個通用能力維度上據稱“可對標 OpenAI o1-mini”。不過相關測試細節與完整評估方法尚未公開,仍待進一步驗證。


開源了6個小模型。圖源deepseek

對比之下,這種“從大模型生成小模型”的思路,也讓 DeepSeek 的開源策略更貼近“可部署”的實際場景,而非僅停留在評測表現層。

目前,這些模型均已上傳至 Hugging Face,且標注為 MIT License,意味著任何企業與開發者均可在不經授權的前提下用于商用或二次開發。


論文鏈接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

在產品層面,用戶可通過“深度思考”模式直接體驗 R1 推理能力,在 App 或網頁端完成任務調用。API 接入方式為 model='deepseek-reasoner',并提供明確定價策略:百萬 tokens 的輸入成本為 1 元(緩存命中)至 4 元(未命中),輸出成本為每百萬 tokens 16 元


抱抱臉鏈接:https://huggingface.co/deepseek-ai

關于Deepseek:爭氣的國產AI

今年,DeepSeek突然登上全球AI舞臺。

它的聊天應用一度沖上蘋果和安卓商店的榜首,背后的模型在多個基準測試中超越Meta Llama和OpenAI GPT-4o,吸引了華爾街分析師和硅谷技術官員的罕見一致關注。微軟將其接入Azure,英偉達CEO稱其“創新出色”。

DeepSeek起初并不做 AI 模型,它的母公司是量化基金“九坤投資”,創始人梁文鋒是浙江大學出身的 AI 愛好者。2015年開始試水交易系統,2019年正式設立對沖基金。在量化交易中摸索多年的算法團隊,成為日后DeepSeek模型訓練的基礎。


2023年,九坤成立DeepSeek Lab,作為科研獨立體。彼時正值中國AI創業熱潮復燃,百度、字節、阿里、MiniMax、月之暗面先后發布通用大模型。DeepSeek一開始就選了一條不一樣的路:自建數據中心、強調計算效率,并迅速在一年內迭代三代模型。

DeepSeek V2于2024年春天發布,以“推理能力”突出出圈。相比同行更重堆參數、跑分的路徑,DeepSeek強調模型在復雜任務下的“思考能力”——數學、物理、代碼,正是V2和后續R1模型發力的重點。

V3版本上線于2024年末,DeepSeek宣稱它在內測中超越了OpenAI的GPT-4o。2025年1月,DeepSeek-R1問世,定位為“reasoning model”。它在 Hugging Face 上以MIT協議發布,成為業內少見能商業化改造的高性能模型之一。

一方面,DeepSeek通過模型架構優化和訓練效率提升,大幅壓縮了推理成本。另一方面,它在市場價格上極為激進:不少模型免費開放、接口調用價格低于行業平均值,甚至迫使阿里、字節等國內玩家降價或免費開放部分模型。

這也引發了對其商業模式的質疑。截至目前,DeepSeek并未公開融資輪次,也尚未啟動商業化路徑。據接近公司人士透露,其運營主要依賴母公司九坤提供的算力和資金資源。相比依靠云廠商和VC支持的AI創業者,DeepSeek的路線更像是“實驗室模式”。

這種不以盈利為目的的打法,引發了一系列連鎖反應:2025年1月,受DeepSeek影響,英偉達股價單日下跌近18%;3月,美國政府多次點名DeepSeek,建議封禁;5月,微軟在參議院聽證會上明確禁止員工使用DeepSeek產品,理由是“數據安全”和“宣傳內容風險”。


圖注:來自抱抱臉聯合創始人的認可

從社區反饋來看,DeepSeek模型的可用性極高。截至今年5月,開發者基于R1模型創建的“衍生模型”已超過500個,總下載量突破250萬次。這種“實用主義開源”反而提升了模型影響力。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你以為是上火,實際卻是腫瘤!頻繁出現5種癥狀,一定要提高警惕

你以為是上火,實際卻是腫瘤!頻繁出現5種癥狀,一定要提高警惕

觀星賞月
2025-06-11 15:11:15
于東來:胖東來每周工作時間將不超過36小時,年休假將不低于40天,今年員工稅后平均月收入九千元左右

于東來:胖東來每周工作時間將不超過36小時,年休假將不低于40天,今年員工稅后平均月收入九千元左右

每日經濟新聞
2025-06-11 12:04:36
A股今天上漲是什么原因?明天,將要迎來變盤?

A股今天上漲是什么原因?明天,將要迎來變盤?

明心
2025-06-11 14:45:41
國內媒體:國足此前因預算錯過最心儀教練,伊萬憑報價及履歷上任

國內媒體:國足此前因預算錯過最心儀教練,伊萬憑報價及履歷上任

直播吧
2025-06-11 16:13:06
韓旭:律師不應成為違規吃喝的整頓對象

韓旭:律師不應成為違規吃喝的整頓對象

記錄劉杰
2025-06-10 13:28:01
怒了!梅西賽前拒絕與J羅握手,怒懟:是你說裁判幫我們拿到美洲杯!

怒了!梅西賽前拒絕與J羅握手,怒懟:是你說裁判幫我們拿到美洲杯!

818體育
2025-06-11 15:28:50
武漢29歲女老師去世:孩子才7~8個月大,兩天前還在監考

武漢29歲女老師去世:孩子才7~8個月大,兩天前還在監考

教師吧
2025-06-11 10:37:53
上海一保姆隱藏身份工作13年,業主發現她真正身份后,從30樓跳下去

上海一保姆隱藏身份工作13年,業主發現她真正身份后,從30樓跳下去

故事秘棧
2025-05-26 19:16:38
北京四部門聯合發通告,不限制果木在傳統烤鴨制作工藝中合理使用

北京四部門聯合發通告,不限制果木在傳統烤鴨制作工藝中合理使用

新京報
2025-06-11 13:17:12
2025年全國高考結束了,給1335萬考生潑三盆涼水

2025年全國高考結束了,給1335萬考生潑三盆涼水

教師吧
2025-06-10 20:57:00
不買賬!球迷吐槽拜仁新球衣:史上最糟糕球衣,感覺尊嚴被侮辱

不買賬!球迷吐槽拜仁新球衣:史上最糟糕球衣,感覺尊嚴被侮辱

直播吧
2025-06-10 17:09:13
重罰!考辛斯被停賽至本賽季結束,面臨最高1萬美元罰款

重罰!考辛斯被停賽至本賽季結束,面臨最高1萬美元罰款

雷速體育
2025-06-11 09:15:03
大亂斗!南美積分榜:5隊爭3個直通世界杯名額!智利連續三屆無緣

大亂斗!南美積分榜:5隊爭3個直通世界杯名額!智利連續三屆無緣

直播吧
2025-06-11 11:32:08
《長安的荔枝》10位演員都是外國籍,國籍五花八門引熱議,絕了

《長安的荔枝》10位演員都是外國籍,國籍五花八門引熱議,絕了

趣文說娛
2025-06-10 10:12:45
蘋果新品官宣:7月14日,正式推出!

蘋果新品官宣:7月14日,正式推出!

Q科技基地
2025-06-11 10:55:48
國臺辦回應“中正路”改名:改路名不如改“道路”

國臺辦回應“中正路”改名:改路名不如改“道路”

新京報
2025-06-11 11:06:04
1夜4筆重磅轉會!利物浦破英超紀錄 曼城第4簽 德布勞內下家誕生

1夜4筆重磅轉會!利物浦破英超紀錄 曼城第4簽 德布勞內下家誕生

阿超他的體育圈
2025-06-11 05:39:25
《東極島》定檔,若票房破40億,將會發生許多事

《東極島》定檔,若票房破40億,將會發生許多事

影視高原說
2025-06-11 13:26:01
中方領導人下周訪問哈薩克斯坦?外交部:會及時發布消息

中方領導人下周訪問哈薩克斯坦?外交部:會及時發布消息

財聯社
2025-06-11 15:29:10
澤連斯基徹底玩脫,莫斯科已通知華盛頓,俄:核爆摧毀烏四大目標

澤連斯基徹底玩脫,莫斯科已通知華盛頓,俄:核爆摧毀烏四大目標

不吃草de兔子
2025-06-09 18:54:49
2025-06-11 18:07:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6656文章數 94425關注度
往期回顧 全部

科技要聞

華為Pura80 Ultra最高定價10999元

頭條要聞

重慶首富身家縮水1000億 靠代理九價HPV疫苗霸榜多年

頭條要聞

重慶首富身家縮水1000億 靠代理九價HPV疫苗霸榜多年

體育要聞

一位中國老板,復興了歐洲百年俱樂部

娛樂要聞

那爾那茜定向委培違約事件 持續發酵

財經要聞

中美經貿磋商機制首次會議在英國倫敦舉行

汽車要聞

5萬級5座純電微型車 奇瑞QQ多米正式上市

態度原創

房產
親子
時尚
本地
藝術

房產要聞

曝光!食堂問題頻發,海口這所名校被重罰百萬!

親子要聞

福建省廈門市日光幼兒園:學前教育法六一起施行

618大匯總|| 不亂買!精挑細選的超全功課都在這了

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乃东县| 漳平市| 平罗县| 甘南县| 锡林浩特市| 张家川| 龙南县| 九龙县| 连山| 松原市| 鄄城县| 蓝山县| 麻江县| 民乐县| 屏东市| 中超| 武义县| 灵川县| 遂昌县| 托里县| 宣恩县| 隆化县| 双流县| 沈阳市| 安多县| 宁德市| 延川县| 宁都县| 马尔康县| 齐齐哈尔市| 玉树县| 台州市| 西平县| 安塞县| 维西| 建阳市| 理塘县| 遵义县| 凤庆县| 布尔津县| 鄂尔多斯市|