99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

深夜突襲!DeepSeek-R1 重磅升級:媲美 OpenAl 最高 o3 模型,編碼能力直逼 Claude 4

0
分享至

大數據文摘出品

5月28日凌晨,DeepSeek 在 Hugging Face 上開源了其更新版的 R1 模型。

此次更新并未更改名稱,只在模型路徑中標注“0528”以作區分。


圖源deepseek

官方稱這是一次“minor update”,但社區反饋卻指向另一種結論:在代碼生成、長時推理、格式控制等任務上,這個版本的 R1 的能力已經“近乎o3級別”。

而官方的口風是:“DeepSeek-R1 的性能據稱已對齊 OpenAI 的 o1 正式版本,其蒸餾出的輕量模型甚至在多個任務上超越了 o1-mini。”


圖注:推特網友在經典物理模擬測試中,對DeepSeek-R1新舊版本的對比

經國內微博用戶實測:編碼能力已經可以和Claude 4 掰手腕了


此外,此次發布不僅涵蓋了權重、配置與模型文檔,也同步上線了 App、官網及 API 調用服務,接口對開發者開放。R1 使用 MIT 許可證發布,允許商用,也允許使用其輸出結果進行模型蒸餾。


圖注:官方稱,在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。圖源deepseek

這是中國大模型廠商中,少數同時在算法、產品與授權層面做“全棧開源”的公司之一。

從 R1 到 R1-0528:推理能力的重點優化

據官方信息,此次更新的 R1 模型(標注版本為0528)參數規模約為660B,在訓練后期大量采用強化學習技術,以少量標注數據優化模型在數學、編程和語言推理等任務上的表現。

雖然官方并未披露系統性基準測試結果,但多個國內外開發者社區實測顯示,R1-0528 在代碼生成和復雜推理任務中具備穩定輸出能力。

根據用戶測試,在 LiveCodeBench 編程測試環境中,R1-0528 在多個任務上表現接近OpenAI o3-mini(High 模式)和 o4-mini(Medium 模式)。不過,目前尚無該基準的官方排行榜對這一說法予以印證。


圖注:推特用戶測試

尤其在長鏈條邏輯題中,開發者觀察到模型可進行多達20余步的符號化推理,且過程中結構一致性較好。在部分測試場景中,模型思考處理時間可持續數十分鐘。

與多數開源模型不同,DeepSeek-R1 的另一特征在于其明確允許并鼓勵“模型蒸餾”。

官方同步開源了兩個660B規模的大模型(DeepSeek-R1 與 DeepSeek-R1-Zero),并基于其推理輸出訓練了6個不同規模的子模型,其中 32B 與 70B 兩個中型版本,在多個通用能力維度上據稱“可對標 OpenAI o1-mini”。不過相關測試細節與完整評估方法尚未公開,仍待進一步驗證。


開源了6個小模型。圖源deepseek

對比之下,這種“從大模型生成小模型”的思路,也讓 DeepSeek 的開源策略更貼近“可部署”的實際場景,而非僅停留在評測表現層。

目前,這些模型均已上傳至 Hugging Face,且標注為 MIT License,意味著任何企業與開發者均可在不經授權的前提下用于商用或二次開發。


論文鏈接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

在產品層面,用戶可通過“深度思考”模式直接體驗 R1 推理能力,在 App 或網頁端完成任務調用。API 接入方式為 model='deepseek-reasoner',并提供明確定價策略:百萬 tokens 的輸入成本為 1 元(緩存命中)至 4 元(未命中),輸出成本為每百萬 tokens 16 元


抱抱臉鏈接:https://huggingface.co/deepseek-ai

關于Deepseek:爭氣的國產AI

今年,DeepSeek突然登上全球AI舞臺。

它的聊天應用一度沖上蘋果和安卓商店的榜首,背后的模型在多個基準測試中超越Meta Llama和OpenAI GPT-4o,吸引了華爾街分析師和硅谷技術官員的罕見一致關注。微軟將其接入Azure,英偉達CEO稱其“創新出色”。

DeepSeek起初并不做 AI 模型,它的母公司是量化基金“九坤投資”,創始人梁文鋒是浙江大學出身的 AI 愛好者。2015年開始試水交易系統,2019年正式設立對沖基金。在量化交易中摸索多年的算法團隊,成為日后DeepSeek模型訓練的基礎。


2023年,九坤成立DeepSeek Lab,作為科研獨立體。彼時正值中國AI創業熱潮復燃,百度、字節、阿里、MiniMax、月之暗面先后發布通用大模型。DeepSeek一開始就選了一條不一樣的路:自建數據中心、強調計算效率,并迅速在一年內迭代三代模型。

DeepSeek V2于2024年春天發布,以“推理能力”突出出圈。相比同行更重堆參數、跑分的路徑,DeepSeek強調模型在復雜任務下的“思考能力”——數學、物理、代碼,正是V2和后續R1模型發力的重點。

V3版本上線于2024年末,DeepSeek宣稱它在內測中超越了OpenAI的GPT-4o。2025年1月,DeepSeek-R1問世,定位為“reasoning model”。它在 Hugging Face 上以MIT協議發布,成為業內少見能商業化改造的高性能模型之一。

一方面,DeepSeek通過模型架構優化和訓練效率提升,大幅壓縮了推理成本。另一方面,它在市場價格上極為激進:不少模型免費開放、接口調用價格低于行業平均值,甚至迫使阿里、字節等國內玩家降價或免費開放部分模型。

這也引發了對其商業模式的質疑。截至目前,DeepSeek并未公開融資輪次,也尚未啟動商業化路徑。據接近公司人士透露,其運營主要依賴母公司九坤提供的算力和資金資源。相比依靠云廠商和VC支持的AI創業者,DeepSeek的路線更像是“實驗室模式”。

這種不以盈利為目的的打法,引發了一系列連鎖反應:2025年1月,受DeepSeek影響,英偉達股價單日下跌近18%;3月,美國政府多次點名DeepSeek,建議封禁;5月,微軟在參議院聽證會上明確禁止員工使用DeepSeek產品,理由是“數據安全”和“宣傳內容風險”。


圖注:來自抱抱臉聯合創始人的認可

從社區反饋來看,DeepSeek模型的可用性極高。截至今年5月,開發者基于R1模型創建的“衍生模型”已超過500個,總下載量突破250萬次。這種“實用主義開源”反而提升了模型影響力。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
發狠了!印度狂砸1萬億,在藏南修建15座大壩

發狠了!印度狂砸1萬億,在藏南修建15座大壩

阿器談史
2025-07-26 15:01:02
“中產丑菜”,賣爆了?

“中產丑菜”,賣爆了?

中國新聞周刊
2025-07-26 15:41:11
為什么一直強調要少喝飲料?這些飲料正在悄悄 “謀殺” 你的健康

為什么一直強調要少喝飲料?這些飲料正在悄悄 “謀殺” 你的健康

詩意世界
2025-07-25 11:27:32
預售破7000萬,觀眾暴怒下單,陳佩斯的“絕地反擊”,遲到了45年

預售破7000萬,觀眾暴怒下單,陳佩斯的“絕地反擊”,遲到了45年

洲洲影視娛評
2025-07-24 15:06:41
史上最年輕的過億游資之一涅盤重生,4年從100萬做到1億

史上最年輕的過億游資之一涅盤重生,4年從100萬做到1億

小蜜情感說
2025-07-26 12:28:23
很多人只看到清朝丟失了很多領土,但沒有看到它打下的千萬疆土!

很多人只看到清朝丟失了很多領土,但沒有看到它打下的千萬疆土!

薦史
2025-07-25 16:42:30
這才是真實的宗馥莉:買頂級珠寶不眨眼,玩超跑,工作中平易近人

這才是真實的宗馥莉:買頂級珠寶不眨眼,玩超跑,工作中平易近人

鋭娛之樂
2025-07-26 11:20:46
“花心和尚”釋永信沒逃過因果報應

“花心和尚”釋永信沒逃過因果報應

深度財線
2025-07-27 08:30:44
伊朗通過柬埔寨秘密走私5架波音777客機

伊朗通過柬埔寨秘密走私5架波音777客機

桂系007
2025-07-27 02:54:13
你有過合租社死的經歷嗎?網友:大家心中默念,非禮勿視!

你有過合租社死的經歷嗎?網友:大家心中默念,非禮勿視!

解讀熱點事件
2025-07-16 00:15:03
2025殯葬大變局!從農村到全國,這項改革為何突然擴大范圍?

2025殯葬大變局!從農村到全國,這項改革為何突然擴大范圍?

好賢觀史記
2025-07-06 22:26:34
遼寧調整2025年基本養老金,年滿70周歲工齡40年,能漲100元嗎?

遼寧調整2025年基本養老金,年滿70周歲工齡40年,能漲100元嗎?

碎月導師
2025-07-27 06:20:03
王思聰首度回應黃一鳴:理解她的艱難,反對蹭熱度,不要模仿韋雪

王思聰首度回應黃一鳴:理解她的艱難,反對蹭熱度,不要模仿韋雪

翰林濤濤
2025-07-27 02:14:39
地球局|泰柬沖突源于世界遺產?教科文組織不背這個鍋

地球局|泰柬沖突源于世界遺產?教科文組織不背這個鍋

齊魯壹點
2025-07-26 17:31:15
侯永永本賽季聯賽已打入3球,創個人單賽季中超進球數新高

侯永永本賽季聯賽已打入3球,創個人單賽季中超進球數新高

懂球帝
2025-07-26 23:12:19
馬刺新帥何許人也 竟能接棒波波維奇 他拯救了一名NBA球星的人生

馬刺新帥何許人也 竟能接棒波波維奇 他拯救了一名NBA球星的人生

籃球小煙花
2025-07-27 08:00:03
哪賽季的勇士最強?庫里:15-16&16-17賽季的勇士 那就是巔峰時刻

哪賽季的勇士最強?庫里:15-16&16-17賽季的勇士 那就是巔峰時刻

直播吧
2025-07-26 18:25:05
心疼!廣東一男童肛門大出血!瀕臨休克!竟是因為家長掐斷了腫物…

心疼!廣東一男童肛門大出血!瀕臨休克!竟是因為家長掐斷了腫物…

廣東活動
2025-07-26 12:19:43
突然!美國宣布:解除制裁

突然!美國宣布:解除制裁

上觀新聞
2025-07-26 06:42:02
東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

冰點歷史
2025-07-15 09:33:13
2025-07-27 09:04:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6714文章數 94448關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

美或要在"關系人類的事"上大反轉 被指是"國家的恥辱"

頭條要聞

美或要在"關系人類的事"上大反轉 被指是"國家的恥辱"

體育要聞

楊瀚森效力NBA期間 青島男籃將暫存球隊15號球衣

娛樂要聞

董璇首談保釋前夫細節!高云翔突然不回消息

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

時尚
游戲
手機
旅游
本地

2025年最爛大街的6套穿搭!看看你踩雷了嗎?

服了,被白絲眼鏡娘硬控在家一個周末……"/> 主站 商城 論壇 自運營 登錄 注冊 服了,被白絲眼鏡娘硬控在家一個周末…… 廉頗 2025-07-26 ...

手機要聞

蘋果砍掉的3D Touch,要回來了?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 濮阳市| 札达县| 介休市| 池州市| 宜丰县| 白银市| 仙居县| 新巴尔虎右旗| 精河县| 沙河市| 资阳市| 阳高县| 重庆市| 陕西省| 竹山县| 宣武区| 静宁县| 辽阳市| 高雄市| 石楼县| 会理县| 武义县| 日土县| 吉首市| 资兴市| 衢州市| 湛江市| 岚皋县| 保定市| 新巴尔虎左旗| 江陵县| 桑植县| 齐齐哈尔市| 涡阳县| 拉萨市| 南华县| 西乌| 静安区| 渭源县| 宜城市| 许昌市|