99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3模型基準測試分數僅為10%,遠低于OpenAI宣傳的25%

0
分享至



這并不意味著 OpenAI 在說謊!

站長之家(ChinaZ.com) 4月21日 消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基準測試結果上存在差異,這也引發了人們對該公司透明度和模型測試實踐的質疑。去年 12 月, OpenAI 的 o3 模型首次亮相,當時,該公司宣稱這款模型能夠解答 FrontierMath(一組極具挑戰性的數學問題)中超過 25% 的題目 —— 這個成績遠超競爭對手 —— 第二名的正確率約為 2%。

“目前,市面上所有AI產品在 FrontierMath 上的得分都低于 2%,”OpenAI 首席研究官馬克?陳(Mark Chen)在一次直播中表示,“我們(在內部測試中)發現,在激進的測試計算條件下,o3 能夠達到超過 25% 的正確率。”

但事實證明,這個數字很可能是上限,實現這一成績的 o3 版本所使用的計算資源比 OpenAI 上周公開推出的模型得多得多。

上周五,FrontierMath 所屬研究機構 Epoch AI 公布了針對 o3 的獨立基準測試結果。他們發現,o3 的得分約為 10% —— 遠低于 OpenAI 所宣稱的 25%。



當然,這并不意味著 OpenAI 在說謊 —— OpenAI 在去年 12 月公布的基準測試結果還游一個“下限得分”,這個“下限”與 Epoch 觀察到的得分相符。Epoch 還指出,其測試設置可能與 OpenAI 的不同,并且在評估中使用了更新版的 FrontierMath。

Epoch 寫道:“我們的結果與 OpenAI 的結果存在差異,可能是因為 OpenAI 使用了更強大的內部架構進行評估,在測試時使用了更多計算資源,或者是因為這些結果是在 FrontierMath 的不同子集上運行得出的(FrontierMath - 2024 - 11 - 26 中的 180 道題與 FrontierMath - 2025 - 02 - 28 - private 中的 290 道題)。”

曾測試過 o3 預覽版的 ARC Prize Foundation 在 X 上發帖稱,公開的 o3 模型 “是另一個為聊天 / 產品使用場景進行調優的模型”,這證實了 Epoch 的報告。ARC Prize 寫道:“所有已發布的 o3 計算層級都比我們(做基準測試時使用的)版本要小。” 一般來說,計算層級越高,基準測試得分可能越好。



上周,OpenAI 的技術人員 Wenda Zhou 在一次直播中表示,與 12 月展示的 o3 版本相比,投入實際應用的 o3 “針對現實應用場景和速度進行了更多優化”。他補充說,因此可能會出現基準測試 “差異”。“我們進行了(優化),讓(模型)更具成本效益,總體上更有用,” Zhou 說,“我們仍然希望 —— 也依舊認為 —— 這是一個更好的模型…… 當你提問時,不需要那么久的等待時間,對于這類模型來說,這很重要。”

這再次提醒人們,對于 AI 基準測試結果,最好不要輕信表面數據 —— 尤其是當數據來源是一家要推銷服務的公司時。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一覺醒來,都沉默了!美國財長這次見中國,終于不繞彎子了

一覺醒來,都沉默了!美國財長這次見中國,終于不繞彎子了

別人都叫我阿腈
2025-05-07 06:06:11
低位無球大神——科爾至今為止,還沒找到巴特勒最正確的打開方式

低位無球大神——科爾至今為止,還沒找到巴特勒最正確的打開方式

籃球掃地僧
2025-05-08 20:58:48
前頂流遺棄孩子?鹿晗度假散心?曹駿拉踩男主?陳志朋混短劇圈?姨太問答

前頂流遺棄孩子?鹿晗度假散心?曹駿拉踩男主?陳志朋混短劇圈?姨太問答

毒舌扒姨太
2025-05-07 22:29:32
教育局通報:情況屬實,教師休假離崗,校長被免職!

教育局通報:情況屬實,教師休假離崗,校長被免職!

大愛三湘
2025-05-08 20:16:22
現成的廣告來了!7000萬美元中國戰機擊落2.8億美元西方頂級戰機

現成的廣告來了!7000萬美元中國戰機擊落2.8億美元西方頂級戰機

凱撒談兵
2025-05-07 11:19:46
4個小時3680元,臺球女助教提供“特殊服務”,記者暗訪7天曝詳情

4個小時3680元,臺球女助教提供“特殊服務”,記者暗訪7天曝詳情

漢史趣聞
2025-05-08 10:12:32
西方突然意識到:只要中國下狠手,美國可能連仗都沒法打下去

西方突然意識到:只要中國下狠手,美國可能連仗都沒法打下去

小lu侃侃而談
2025-04-15 20:16:36
20歲烏克蘭美女嫁給南京富豪,6年寄1.8億回家,丈夫探親后愣住了

20歲烏克蘭美女嫁給南京富豪,6年寄1.8億回家,丈夫探親后愣住了

青青會講故事
2025-05-06 16:14:08
殲10CE擊落陣風,臺島內一整天鴉雀無聲,賴清德否認“脫陸入北”

殲10CE擊落陣風,臺島內一整天鴉雀無聲,賴清德否認“脫陸入北”

獵火照狼山
2025-05-08 19:04:28
厲害了!6天新公司拿下水庫經營權,1500萬認繳資本撬動2.6億項目

厲害了!6天新公司拿下水庫經營權,1500萬認繳資本撬動2.6億項目

火山詩話
2025-05-07 13:41:25
遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

書畫藝術收藏
2025-03-15 19:15:05
我駐蘇丹使館建議在蘇中國公民盡快撤離

我駐蘇丹使館建議在蘇中國公民盡快撤離

財聯社
2025-05-08 18:27:14
這一炮從此讓世界對中國刮目相看!結束了一個時代的恥辱!

這一炮從此讓世界對中國刮目相看!結束了一個時代的恥辱!

蕭遙笙
2025-05-03 09:29:12
外交部:中方堅定支持埃及政府和人民捍衛主權和正當權益

外交部:中方堅定支持埃及政府和人民捍衛主權和正當權益

新華社
2025-05-07 18:20:01
不帶娃就別生!看完17歲謝振軒對弟弟的管教,才知什么是長兄如父

不帶娃就別生!看完17歲謝振軒對弟弟的管教,才知什么是長兄如父

清游說娛
2025-05-07 10:16:21
女子在酒店健身房更衣時被偷拍,南京維景國際大酒店回應

女子在酒店健身房更衣時被偷拍,南京維景國際大酒店回應

現代快報
2025-05-08 14:55:16
男神劉德華斷崖式衰老,滿頭白發,一臉皺紋,讓人唏噓

男神劉德華斷崖式衰老,滿頭白發,一臉皺紋,讓人唏噓

鄉野小珥
2025-05-07 12:11:24
越想越窩囊,印度最大反對黨施壓莫迪:聽你瞎指揮讓我們吃敗仗

越想越窩囊,印度最大反對黨施壓莫迪:聽你瞎指揮讓我們吃敗仗

大道無形我有型
2025-05-07 18:09:59
72年女知青生下兒子后獨自回城,50年后兒子去上海尋親,淚崩當場

72年女知青生下兒子后獨自回城,50年后兒子去上海尋親,淚崩當場

獅拓一葉知秋
2025-05-01 23:54:07
里夫斯拒絕4年續約合同 沒有2億頂薪不留湖人 未來出場時間或受限

里夫斯拒絕4年續約合同 沒有2億頂薪不留湖人 未來出場時間或受限

籃球話題團
2025-05-08 01:35:02
2025-05-08 23:03:00
站長之家
站長之家
致力為創業者提供動力
11484文章數 3319關注度
往期回顧 全部

科技要聞

理想L煥新版來了,輔助駕駛芯片全系升級

頭條要聞

"美要準備好取消單邊加征關稅"言下之意為何 林劍回應

頭條要聞

"美要準備好取消單邊加征關稅"言下之意為何 林劍回應

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態度原創

時尚
本地
手機
健康
軍事航空

學會這5個萬能公式,好看一整個夏天

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風箏藏多少絕活

手機要聞

三星正在研發專為折疊式 iPhone 設計的新型顯示屏

唇皰疹和口腔潰瘍是"同伙"嗎?

軍事要聞

山東艦航母現身菲北部海域 國防部回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大厂| 龙南县| 沧源| 木兰县| 永靖县| 泸西县| 常熟市| 山阳县| 宜兴市| 昌邑市| 吴川市| 西昌市| 金昌市| 大邑县| 富阳市| 太湖县| 莲花县| 胶州市| 尤溪县| 濮阳县| 长沙市| 绵阳市| 南安市| 铁岭县| 凉城县| 达尔| 德保县| 英山县| 尉氏县| 将乐县| 汉沽区| 漳浦县| 伊宁县| 云阳县| 鄂州市| 凤台县| 和顺县| 临夏县| 普定县| 勃利县| 克拉玛依市|