網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI再扔出“王炸”！全新推理模型可達(dá)人類博士水平

2024-09-13 17:47:25　來(lái)源: HawkInsight

廣東舉報(bào)

分享至

9月12日，OpenAI宣布將推出一系列用于解決難題的全新推理模型，該系列的第一個(gè)模型名為OpenAI o1，其預(yù)覽版即日起開(kāi)始使用。

OpenAI表示，與之前推出模型相比，o1模型可以推理復(fù)雜的任務(wù)，解決比以前的科學(xué)、編碼和數(shù)學(xué)模型更難的問(wèn)題。

“這些模型花更多時(shí)間思考問(wèn)題，然后再做出反應(yīng)，就像人類一樣。”O(jiān)penAI介紹道，“通過(guò)訓(xùn)練，它們學(xué)會(huì)完善自己的思維過(guò)程，嘗試不同的策略，并認(rèn)識(shí)到自己的錯(cuò)誤。”

o1模型有多強(qiáng)大？

o1模型有多厲害呢，該模型在編程能力比賽Codeforces中拿到89%百分位的成績(jī)，在2024美國(guó)數(shù)學(xué)邀請(qǐng)賽（American Invitational Mathematics Examinatio，AIME）預(yù)選賽中獲得83.3%的準(zhǔn)確率，躋身美國(guó)前500名學(xué)生之列。

相比之下，GPT-4o在Codeforces僅拿到11%百分位的成績(jī)，在AIME中的準(zhǔn)確率只有13.4%。

此外，在一個(gè)研究生級(jí)別的谷歌問(wèn)答基準(zhǔn)測(cè)試——GPQA（Grade School Physics Question Answering）中，o1模型的表現(xiàn)也十分驚人。GPQA是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集，包含數(shù)百道生物學(xué)、物理學(xué)和化學(xué)領(lǐng)域?qū)＜揖帉懙亩囗?xiàng)選擇題。

通常來(lái)說(shuō)，在相應(yīng)領(lǐng)域擁有或正在攻讀博士學(xué)位的專家在GPQA的準(zhǔn)確率在70%上下，而o1模型在該測(cè)試中達(dá)到了78%的準(zhǔn)確率，也就是說(shuō)，o1模型已經(jīng)達(dá)到人類博士生的水平。

除了上述這些高難度的測(cè)試，在一些廣泛的基準(zhǔn)測(cè)試中，o1模型的表現(xiàn)也要比GPT-4o好。比如在大規(guī)模多任務(wù)語(yǔ)言理解（MMLU）測(cè)試的57個(gè)子類別中，o1模型有54個(gè)子類別勝過(guò)GPT-4o。

得益于o1模型更強(qiáng)大的推理能力，其對(duì)編碼和數(shù)學(xué)等推理能力較強(qiáng)的問(wèn)題上的回答也更好。

OpenAI表示，在一項(xiàng)人類偏好評(píng)估中，對(duì)于o1-preview和GPT-4o提供的匿名回答，人類訓(xùn)練師更喜歡o1預(yù)覽版的回答，特別是在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理能力較強(qiáng)的類別中，o1預(yù)覽版的受歡迎程度遠(yuǎn)遠(yuǎn)高于gpt-4o。不過(guò)，o1預(yù)覽版在某些自然語(yǔ)言任務(wù)上表現(xiàn)略為遜色，這表明該模型并不適合所有的使用情況。

更強(qiáng)，也更貴

作為一個(gè)針對(duì)需要廣泛常識(shí)的復(fù)雜任務(wù)而設(shè)計(jì)的新推理模型，o1模型的價(jià)格要比普通模型貴得多。

據(jù)OpenAI官網(wǎng)，o1預(yù)覽版模型每百萬(wàn)個(gè)輸入tokens的定價(jià)為15美元，每百萬(wàn)個(gè)輸出tokens的價(jià)格為60美元，分別是GPT-4o的3倍和4倍。

OpenAI提到，o1模型會(huì)更適合正在解決科學(xué)、編碼、數(shù)學(xué)和類似領(lǐng)域復(fù)雜問(wèn)題的用戶。如，醫(yī)療研究人員可以使用o1模型來(lái)注釋細(xì)胞測(cè)序數(shù)據(jù)，物理學(xué)家可以使用o1模型來(lái)生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式等。不過(guò)，OpenAI也很貼心地提供了一個(gè)更便宜的版本——o1-mini。

o1-mini是一個(gè)速度更快、成本更低的推理模型，專門針對(duì)涉及編碼、數(shù)學(xué)和科學(xué)等使用情況。作為一款較小的模型，o1-mini比o1預(yù)覽版模型要便宜80%。

不管是o1預(yù)覽版還是o1-mini，都具有128K上下文窗口，其知識(shí)均截止至2023年10月。

ChatGPT Plus和Team用戶從9月12日起即可開(kāi)始可以訪o1預(yù)覽版和o1-mini。OpenAI 表示，公司計(jì)劃后續(xù)向ChatGPT的所有免費(fèi)用戶提供o1-mini訪問(wèn)權(quán)限，但具體日期還尚未確定。

盡管目前o1模型的推理能力相對(duì)較慢，而且使用成本高昂，但是對(duì)于人工智能研究人員來(lái)說(shuō)，破解推理是邁向人類智能的重要一步。他們認(rèn)為，如果一個(gè)模型的能力不僅限于模式識(shí)別，那么它就可以在醫(yī)學(xué)和工程等領(lǐng)域取得突破。

“我們花了好幾個(gè)月研究推理，因?yàn)槲覀冋J(rèn)為這實(shí)際上是一個(gè)關(guān)鍵的突破。”O(jiān)penAI首席研究官Bob McGrew在接受采訪時(shí)說(shuō)道，“從根本上說(shuō)，這是一種新的模型模式，能夠解決真正困難的問(wèn)題，從而達(dá)到與人類相似的智能水平。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.