網易首頁 > 網易號 > 正文申請入駐

o3模型基準測試分數僅為10%，遠低于OpenAI宣傳的25%

2025-04-21 15:34:49　來源: 站長之家

福建舉報

分享至

這并不意味著 OpenAI 在說謊！

站長之家(ChinaZ.com) 4月21日消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基準測試結果上存在差異，這也引發了人們對該公司透明度和模型測試實踐的質疑。去年 12 月， OpenAI 的 o3 模型首次亮相，當時，該公司宣稱這款模型能夠解答 FrontierMath（一組極具挑戰性的數學問題）中超過 25% 的題目 —— 這個成績遠超競爭對手 —— 第二名的正確率約為 2%。

“目前，市面上所有AI產品在 FrontierMath 上的得分都低于 2%，”OpenAI 首席研究官馬克?陳（Mark Chen）在一次直播中表示，“我們（在內部測試中）發現，在激進的測試計算條件下，o3 能夠達到超過 25% 的正確率。”

但事實證明，這個數字很可能是上限，實現這一成績的 o3 版本所使用的計算資源比 OpenAI 上周公開推出的模型得多得多。

上周五，FrontierMath 所屬研究機構 Epoch AI 公布了針對 o3 的獨立基準測試結果。他們發現，o3 的得分約為 10% —— 遠低于 OpenAI 所宣稱的 25%。

當然，這并不意味著 OpenAI 在說謊 —— OpenAI 在去年 12 月公布的基準測試結果還游一個“下限得分”，這個“下限”與 Epoch 觀察到的得分相符。Epoch 還指出，其測試設置可能與 OpenAI 的不同，并且在評估中使用了更新版的 FrontierMath。

Epoch 寫道：“我們的結果與 OpenAI 的結果存在差異，可能是因為 OpenAI 使用了更強大的內部架構進行評估，在測試時使用了更多計算資源，或者是因為這些結果是在 FrontierMath 的不同子集上運行得出的（FrontierMath - 2024 - 11 - 26 中的 180 道題與 FrontierMath - 2025 - 02 - 28 - private 中的 290 道題）。”

曾測試過 o3 預覽版的 ARC Prize Foundation 在 X 上發帖稱，公開的 o3 模型 “是另一個為聊天 / 產品使用場景進行調優的模型”，這證實了 Epoch 的報告。ARC Prize 寫道：“所有已發布的 o3 計算層級都比我們（做基準測試時使用的）版本要小。” 一般來說，計算層級越高，基準測試得分可能越好。

上周，OpenAI 的技術人員 Wenda Zhou 在一次直播中表示，與 12 月展示的 o3 版本相比，投入實際應用的 o3 “針對現實應用場景和速度進行了更多優化”。他補充說，因此可能會出現基準測試 “差異”。“我們進行了（優化），讓（模型）更具成本效益，總體上更有用，” Zhou 說，“我們仍然希望 —— 也依舊認為 —— 這是一個更好的模型…… 當你提問時，不需要那么久的等待時間，對于這類模型來說，這很重要。”

這再次提醒人們，對于 AI 基準測試結果，最好不要輕信表面數據 —— 尤其是當數據來源是一家要推銷服務的公司時。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.