ARC-AGI測(cè)試是一項(xiàng)旨在衡量人工智能抽象和推理能力的基準(zhǔn)測(cè)試,被認(rèn)為是評(píng)估通用人工智能(AGI)進(jìn)展的關(guān)鍵工具之一
o3 Pro 在 ARC-AGI 半私有最新評(píng)估結(jié)果性能表現(xiàn)
ARC-AGI-1:(難度相對(duì)小一點(diǎn)),正確率
* 低:44%,每任務(wù) $1.64
* 中:57%,每任務(wù) $3.18
* 高:59%,每項(xiàng)任務(wù) 4.16 美元
ARC-AGI-2:(全新基準(zhǔn),測(cè)試數(shù)據(jù)集難度很大)
* 所有推理工作:正確率都<5%,每項(xiàng)任務(wù) 4-7 美元
主要結(jié)論:
* o3-pro high性能竟然不如o3 high
* o3 和o3pro推理價(jià)格大幅降低,o3比GPT 4o還要便宜20%左右
從這個(gè)測(cè)試看o3 pro 可能被降智
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.