《科創板日報》5月29日訊 DeepSeek昨晚通過微信交流群通知,其DeepSeek R1模型完成小版本升級,并在今日凌晨開源了最新版本模型DeepSeek-R1-0528。
代碼測試平臺Live CodeBench中顯示,DeepSeek-R1-0528性能可以媲美OpenAI最新的o3(High)模型。
小K今日以一名普通用戶的身份,參考AI基準測試xbench的例題,在DeepSeek和OpenAI官網分別對它們最新的R1模型和o3模型進行了對比測試。
第1題小K請DeepSeek和OpenAI模型分別寫了一個可以在網頁上運行的“三國殺”游戲。測試維度包括代碼生成、可運行性、模塊化能力和交互設計。
DeepSeek的回答直接輸出了完整的網頁游戲源碼,并且點擊能直接運行。前端界面美觀,具備基礎美術元素,能完成簡單對戰邏輯。
相比之下,OpenAI給出的解決方案則將前端、腳本和邏輯分別輸出在3個獨立代碼塊中,用戶需自行保存為多個文件,運行時還伴有報錯,需要手動調試,不能完成對戰。而且界面粗糙、無UI美化。
這道題DeepSeek勝出。DeepSeek模型在“代碼工程化”能力上已有顯著優勢,表現出對前端框架的更好理解。
第2題是一道典型的函數構造與嵌套函數推導題:已知f(f(x))=x2?11x+36f(f(x))=x^2-11x+36,求f(5)。測試維度包括函數反演、代數推理能力和數學邏輯清晰度。
DeepSeek耗時351秒推導出解法,思考過程非常長,進行了反復演算和驗算,過程詳細且邏輯縝密,從代入法到固定點分析再到反設求解,最后合理排除矛盾值,最終得出f(5)=6的唯一解答。
OpenAI則用時僅41秒,給出了同樣正確的答案,而且邏輯清晰、推理精煉。推出固定點、構造反函數思路合理,無冗余步驟。
這一題盡管DeepSeek和OpenAI最終均給出了正確答案,但DeepSeek推理時間長,在數學題場景仍待優化。
第3題是:黑龍江、吉林、遼寧,共有多少個地市級行政單位與外國接壤?測試維度包括地理常識、事實檢索和數據整合能力。
這道題的正確答案是12個。而DeepSeek僅回答了5個。
DeepSeek推理過程中錯誤理解了“地市級單位”是否一定擁有邊境口岸。例如將黑龍江部分地市(如伊春、鶴崗)忽略,導致其推理思路存在漏算。
反觀OpenAI正確地點名了12個地市。
第4題是:有一個被剪做鞋樣的歷史文物,對研究唐代均田制起到了重要的作用,這個文物中記載的年份,有一位唐朝的一代名相去世,請問這位名相有幾個兒子?測試維度包括歷史考據、細節辨析能力和文獻準確性。
DeepSeek在此題中出現了幻覺,造成誤判,DeepSeek錯將有“一個被剪做鞋樣的歷史文物”關聯至"唐代田界磚",雖最后回答出“有4子”,但純屬偶合。
OpenAI正確識別文物“趙懷滿夏田契”署于貞觀十七年(643年),對應去世人物為魏徵,并指出魏徵有四子:魏叔玉、魏叔琬、魏叔璘、魏叔瑜。識別精準,邏輯鏈條完整無誤。引用舊唐書、新唐書等文獻,考證準確。
第5題是:《樂隊的夏天》各季top5樂隊中一共有多少名女性成員?測試維度包括多維信息提取、成員歸屬辨析、數據整合能力。
DeepSeek依次列舉了三季節目中的Top5樂隊,并從中篩選女性成員(如新褲子的趙夢、刺猬的石璐、安達組合的其其格瑪等),統計結果為5位女性成員,并對女性在樂隊中所扮演的角色進行了總結(主唱、貝斯手、鼓手等)。用時不到1分鐘即完成高質量統計+表格整理,效率高。
OpenAI也給出了相同的數量,考證細致,但花費近6分鐘,在交互場景中顯得拖沓。
通過以上實測可以看出,DeepSeek R1的表現非常接近甚至在部分任務上超過了OpenAI最新O3模型。在代碼生成、復雜函數推理、統計等方面,DeepSeek展現出全面且穩定的進步,正快速縮小與頂級閉源模型的差距。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.