DeepSeek剛剛在自己的公眾號發了篇文章去闡述昨晚新發布的R1-0528版本的一些特性DeepSeek-R1 更新,思考更深,推理更強
最主要的幾個信息如下:
1、這次訓練用的基座模型不是V3-0324模型,也不是V4或任何新模型,而是和R1用的完全相同的12月底的V3模型,但是跑分卻大幅度提升,這說明DeepSeek在后訓練上還有很多了不得的新認知,想象一下如果給DeepSeek一個類似Grok3的大尺寸基座模型會怎么樣?所以未來還完全可期
2、按現在的節奏,我們真正該期待的下一個模型是V4,而不是R2,畢竟這個基座模型已經過去接近半年,該到更新時刻了;
3、模型的推理能力大幅提升,這主要得益于模型進行了更長token的深度思考,這倒是沒什么顛覆認知的東西;
4、模型的幻覺下降50%,寫作能力大幅度改善,用DeepSeek開始自媒體內容創作,或者出海電商、SEO內容撰寫等方面有更多機會了;
5、工具調用能力大幅度提升,但是比Claude4有差距,那說明現在最好的結合IDE的編程模型還會是Claude4;
6、官方的網站、app和api最長上下文token是64k(我估計是為了成本考慮,但確實太短了,沒法用來復雜項目編程),開源模型第三方部署后支持的上下文長度是128k,屬于正常但不那么夠用的長度,希望下個階段能改善。
感謝DeepSeek的這一波端午大禮,期待他們的下一次發布。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.