這并不意味著 OpenAI 在說謊!
站長之家(ChinaZ.com) 4月21日 消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基準測試結果上存在差異,這也引發了人們對該公司透明度和模型測試實踐的質疑。去年 12 月, OpenAI 的 o3 模型首次亮相,當時,該公司宣稱這款模型能夠解答 FrontierMath(一組極具挑戰性的數學問題)中超過 25% 的題目 —— 這個成績遠超競爭對手 —— 第二名的正確率約為 2%。
“目前,市面上所有AI產品在 FrontierMath 上的得分都低于 2%,”OpenAI 首席研究官馬克?陳(Mark Chen)在一次直播中表示,“我們(在內部測試中)發現,在激進的測試計算條件下,o3 能夠達到超過 25% 的正確率。”
但事實證明,這個數字很可能是上限,實現這一成績的 o3 版本所使用的計算資源比 OpenAI 上周公開推出的模型得多得多。
上周五,FrontierMath 所屬研究機構 Epoch AI 公布了針對 o3 的獨立基準測試結果。他們發現,o3 的得分約為 10% —— 遠低于 OpenAI 所宣稱的 25%。
當然,這并不意味著 OpenAI 在說謊 —— OpenAI 在去年 12 月公布的基準測試結果還游一個“下限得分”,這個“下限”與 Epoch 觀察到的得分相符。Epoch 還指出,其測試設置可能與 OpenAI 的不同,并且在評估中使用了更新版的 FrontierMath。
Epoch 寫道:“我們的結果與 OpenAI 的結果存在差異,可能是因為 OpenAI 使用了更強大的內部架構進行評估,在測試時使用了更多計算資源,或者是因為這些結果是在 FrontierMath 的不同子集上運行得出的(FrontierMath - 2024 - 11 - 26 中的 180 道題與 FrontierMath - 2025 - 02 - 28 - private 中的 290 道題)。”
曾測試過 o3 預覽版的 ARC Prize Foundation 在 X 上發帖稱,公開的 o3 模型 “是另一個為聊天 / 產品使用場景進行調優的模型”,這證實了 Epoch 的報告。ARC Prize 寫道:“所有已發布的 o3 計算層級都比我們(做基準測試時使用的)版本要小。” 一般來說,計算層級越高,基準測試得分可能越好。
上周,OpenAI 的技術人員 Wenda Zhou 在一次直播中表示,與 12 月展示的 o3 版本相比,投入實際應用的 o3 “針對現實應用場景和速度進行了更多優化”。他補充說,因此可能會出現基準測試 “差異”。“我們進行了(優化),讓(模型)更具成本效益,總體上更有用,” Zhou 說,“我們仍然希望 —— 也依舊認為 —— 這是一個更好的模型…… 當你提問時,不需要那么久的等待時間,對于這類模型來說,這很重要。”
這再次提醒人們,對于 AI 基準測試結果,最好不要輕信表面數據 —— 尤其是當數據來源是一家要推銷服務的公司時。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.