9月12日,OpenAI宣布將推出一系列用于解決難題的全新推理模型,該系列的第一個(gè)模型名為OpenAI o1,其預(yù)覽版即日起開(kāi)始使用。
OpenAI表示,與之前推出模型相比,o1模型可以推理復(fù)雜的任務(wù),解決比以前的科學(xué)、編碼和數(shù)學(xué)模型更難的問(wèn)題。
“這些模型花更多時(shí)間思考問(wèn)題,然后再做出反應(yīng),就像人類一樣。”O(jiān)penAI介紹道,“通過(guò)訓(xùn)練,它們學(xué)會(huì)完善自己的思維過(guò)程,嘗試不同的策略,并認(rèn)識(shí)到自己的錯(cuò)誤。”
o1模型有多強(qiáng)大?
o1模型有多厲害呢,該模型在編程能力比賽Codeforces中拿到89%百分位的成績(jī),在2024美國(guó)數(shù)學(xué)邀請(qǐng)賽(American Invitational Mathematics Examinatio,AIME) 預(yù)選賽中獲得83.3%的準(zhǔn)確率,躋身美國(guó)前500名學(xué)生之列。
相比之下,GPT-4o在Codeforces僅拿到11%百分位的成績(jī),在AIME中的準(zhǔn)確率只有13.4%。
此外,在一個(gè)研究生級(jí)別的谷歌問(wèn)答基準(zhǔn)測(cè)試——GPQA(Grade School Physics Question Answering)中,o1模型的表現(xiàn)也十分驚人。GPQA是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,包含數(shù)百道生物學(xué)、物理學(xué)和化學(xué)領(lǐng)域?qū)<揖帉懙亩囗?xiàng)選擇題。
通常來(lái)說(shuō),在相應(yīng)領(lǐng)域擁有或正在攻讀博士學(xué)位的專家在GPQA的準(zhǔn)確率在70%上下,而o1模型在該測(cè)試中達(dá)到了78%的準(zhǔn)確率,也就是說(shuō),o1模型已經(jīng)達(dá)到人類博士生的水平。
除了上述這些高難度的測(cè)試,在一些廣泛的基準(zhǔn)測(cè)試中,o1模型的表現(xiàn)也要比GPT-4o好。比如在大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)測(cè)試的57個(gè)子類別中,o1模型有54個(gè)子類別勝過(guò)GPT-4o。
得益于o1模型更強(qiáng)大的推理能力,其對(duì)編碼和數(shù)學(xué)等推理能力較強(qiáng)的問(wèn)題上的回答也更好。
OpenAI表示,在一項(xiàng)人類偏好評(píng)估中,對(duì)于o1-preview和GPT-4o提供的匿名回答,人類訓(xùn)練師更喜歡o1預(yù)覽版的回答,特別是在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理能力較強(qiáng)的類別中,o1預(yù)覽版的受歡迎程度遠(yuǎn)遠(yuǎn)高于gpt-4o。不過(guò),o1預(yù)覽版在某些自然語(yǔ)言任務(wù)上表現(xiàn)略為遜色,這表明該模型并不適合所有的使用情況。
更強(qiáng),也更貴
作為一個(gè)針對(duì)需要廣泛常識(shí)的復(fù)雜任務(wù)而設(shè)計(jì)的新推理模型,o1模型的價(jià)格要比普通模型貴得多。
據(jù)OpenAI官網(wǎng),o1預(yù)覽版模型每百萬(wàn)個(gè)輸入tokens的定價(jià)為15美元,每百萬(wàn)個(gè)輸出tokens的價(jià)格為60美元,分別是GPT-4o的3倍和4倍。
OpenAI提到,o1模型會(huì)更適合正在解決科學(xué)、編碼、數(shù)學(xué)和類似領(lǐng)域復(fù)雜問(wèn)題的用戶。如,醫(yī)療研究人員可以使用o1模型來(lái)注釋細(xì)胞測(cè)序數(shù)據(jù),物理學(xué)家可以使用o1模型來(lái)生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式等。不過(guò),OpenAI也很貼心地提供了一個(gè)更便宜的版本——o1-mini。
o1-mini是一個(gè)速度更快、成本更低的推理模型,專門針對(duì)涉及編碼、數(shù)學(xué)和科學(xué)等使用情況。作為一款較小的模型,o1-mini比o1預(yù)覽版模型要便宜80%。
不管是o1預(yù)覽版還是o1-mini,都具有128K上下文窗口,其知識(shí)均截止至2023年10月。
ChatGPT Plus和Team用戶從9月12日起即可開(kāi)始可以訪o1預(yù)覽版和o1-mini。OpenAI 表示,公司計(jì)劃后續(xù)向ChatGPT的所有免費(fèi)用戶提供o1-mini訪問(wèn)權(quán)限,但具體日期還尚未確定。
盡管目前o1模型的推理能力相對(duì)較慢,而且使用成本高昂,但是對(duì)于人工智能研究人員來(lái)說(shuō),破解推理是邁向人類智能的重要一步。他們認(rèn)為,如果一個(gè)模型的能力不僅限于模式識(shí)別,那么它就可以在醫(yī)學(xué)和工程等領(lǐng)域取得突破。
“我們花了好幾個(gè)月研究推理,因?yàn)槲覀冋J(rèn)為這實(shí)際上是一個(gè)關(guān)鍵的突破。”O(jiān)penAI首席研究官Bob McGrew在接受采訪時(shí)說(shuō)道,“從根本上說(shuō),這是一種新的模型模式,能夠解決真正困難的問(wèn)題,從而達(dá)到與人類相似的智能水平。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.