出品|虎嗅科技組
作者|余楊
編輯|苗正卿
頭圖|視覺(jué)中國(guó)
6月10日晚,Sam Altman 首先在X上宣布了o3模型降價(jià)80%,并暗戳戳預(yù)告了o3-pro版本的性價(jià)比。模型發(fā)布的同時(shí),他寫(xiě)下了題為《溫和的奇點(diǎn)》的文章。并表示,這可能是他最后一篇完全沒(méi)有AI幫助的文章了。
6個(gè)小時(shí)之后,OpenAI 正式宣告了o3-pro 版本的登場(chǎng)。
o3-pro 是OpenAI 目前最智能的模型 o3 的一個(gè)版本,使用與 o3 相同的底層模型。與 o3 一樣,o3-pro 可以使用 ChatGPT 所需的工具——它可以搜索網(wǎng)頁(yè)、分析文件、推理視覺(jué)輸入、使用 Python、利用記憶個(gè)性化響應(yīng)等等。在此基礎(chǔ)上,o3-pro提供了更可靠的響應(yīng)。
也因此,它的響應(yīng)通常需要更長(zhǎng)的時(shí)間才能完成。官方建議將其用于棘手問(wèn)題,主打可靠性,而不是速度。
即日起,o3-pro 將在 Pro 和 Team 用戶的型號(hào)選擇器中可用,取代 o1-pro。企業(yè)和教育用戶將于下周獲得訪問(wèn)權(quán)限。
據(jù)模型發(fā)布說(shuō)明,OpenAI 通過(guò)專家評(píng)估、學(xué)術(shù)評(píng)估、“4/4 可靠性”評(píng)估三個(gè)指標(biāo)來(lái)衡量o3-pro 版本的表現(xiàn)。
在專家評(píng)估中,評(píng)論者在所有測(cè)試類別中始終更青睞 o3-pro,尤其是在科學(xué)、教育、編程、商業(yè)和寫(xiě)作幫助等關(guān)鍵領(lǐng)域。評(píng)論者還一致認(rèn)為 o3-pro 在清晰度、全面性、指令遵循性和準(zhǔn)確性方面均獲得更高的評(píng)價(jià)。
學(xué)術(shù)評(píng)估則表明,o3-pro 的表現(xiàn)始終優(yōu)于 o1-pro 和 o3。
“4/4 可靠性”評(píng)估的考核標(biāo)準(zhǔn)是:當(dāng)只有在四次嘗試中(而不是一次)正確回答問(wèn)題,模型才被視為成功。
在這個(gè)維度,OpenAI 的表現(xiàn)也可圈可點(diǎn)。
美國(guó)經(jīng)濟(jì)學(xué)家Tyler Cowen很快發(fā)文表示:“o3-pro非常非常好”。Sam Altman 也很較真,隨即回復(fù)到:有多好?
并給大家舉了個(gè)例子,轉(zhuǎn)發(fā)了o3-pro “使用經(jīng)驗(yàn)貼”。
具體來(lái)說(shuō),前 Apple 人機(jī)界面設(shè)計(jì)、現(xiàn) Raindrop AI首席技術(shù)官Ben Hylak提前體驗(yàn)了 o3-pro。
起初,他覺(jué)得 o1/o1-pro 并不好用。后來(lái)他發(fā)現(xiàn)自己用錯(cuò)了它。而使用的關(guān)鍵在于:不要和它聊天,而是要把它當(dāng)成一個(gè)報(bào)告生成器。
賦予它背景,設(shè)定目標(biāo),然后盡情發(fā)揮。
具體的操作上,他和他的聯(lián)合創(chuàng)始人 Alexis 花時(shí)間整理了過(guò)去在Raindrop的所有規(guī)劃會(huì)議記錄,記錄了所有的目標(biāo),甚至還錄制了語(yǔ)音備忘錄:然后請(qǐng) o3-pro 制定計(jì)劃。
結(jié)果讓Ben和Alexis很震撼,因?yàn)閛3-pro給出了他一直希望法學(xué)碩士能夠創(chuàng)建的那種具體的計(jì)劃和分析——包括目標(biāo)指標(biāo)、時(shí)間表、優(yōu)先事項(xiàng)以及絕對(duì)要削減的內(nèi)容的嚴(yán)格指示。
“o3 給我們的計(jì)劃是可行的、合理的;但 o3-pro 給我們的計(jì)劃是具體的、足夠根深蒂固的,它實(shí)際上改變了我們對(duì)未來(lái)的看法。”Ben表示。
也就是說(shuō),如今的模型在獨(dú)立測(cè)試中表現(xiàn)非常出色,以至于簡(jiǎn)單的測(cè)試已經(jīng)用完了。而真正的挑戰(zhàn)也隨即到來(lái):如何讓它們?nèi)谌肷鐣?huì),融入具體的現(xiàn)實(shí)情境?
“一個(gè)智商很高的12歲孩子去上大學(xué)。他們可能很聰明,但如果無(wú)法融入社會(huì),就無(wú)法成為有用的員工。”Ben說(shuō)到。
目前,大模型的集成主要體現(xiàn)在工具調(diào)用上:模型與人類、外部數(shù)據(jù)和其他人工智能的協(xié)作效果如何。它是一位優(yōu)秀的思考者,但還需要進(jìn)一步發(fā)展成為一位優(yōu)秀的行動(dòng)者。
Ben認(rèn)為,o3-pro 在這方面取得了顯著的進(jìn)步:它能夠更有效地識(shí)別自身環(huán)境;能夠準(zhǔn)確地傳達(dá)其可以使用的工具;能夠何時(shí)詢問(wèn)外部世界(而不是假裝擁有相關(guān)信息/訪問(wèn)權(quán)限);能夠選擇合適的工具來(lái)完成工作。
他在帖子中還附上了自己的使用對(duì)比:o3-pro(左)與 o3(右)。
可以看到,o3-pro(左)能夠更清楚地了解其環(huán)境的限制。
不過(guò),o3-pro的缺點(diǎn)也很明顯。例如,o3-pro 不支持圖像生成,也不支持 Canvas。用戶目前仍然需要使用 GPT-4o、OpenAI o3 或 OpenAI o4-mini 來(lái)生成圖像。
在搶先版使用體驗(yàn)中,Ben也注意到:如果你不給它足夠的背景信息,它確實(shí)容易想得太多。它非常擅長(zhǎng)分析,擅長(zhǎng)使用工具做事,但不太擅長(zhǎng)直接做事。有些 ClickHouse SQL 問(wèn)題 o3 顯然做得更好,因人而異,也因任務(wù)而異。
未來(lái),OpenAI將花費(fèi)更多時(shí)間在open-weights model上,預(yù)計(jì)它會(huì)在今年夏天晚些時(shí)候推出。
“我們的研究團(tuán)隊(duì)做了一些意想不到的、非常了不起的事情,我們認(rèn)為它非常值得等待,但需要更長(zhǎng)的時(shí)間。”Sam Altman 在X中說(shuō)到。
Sam Altman似乎對(duì)o3-pro有著很深的寄托。“我為自己能用老套的方式寫(xiě)出‘從相對(duì)論的角度來(lái)看,奇點(diǎn)是一點(diǎn)一點(diǎn)產(chǎn)生的,融合是緩慢發(fā)生的’而感到自豪。”Sam Altman寫(xiě)到。
以下是《溫和的奇點(diǎn)》全文:
我們已經(jīng)越過(guò)了事件視界;騰飛已經(jīng)開(kāi)始。人類即將打造數(shù)字超級(jí)智能,而且至少到目前為止,它遠(yuǎn)沒(méi)有看起來(lái)那么奇怪。
機(jī)器人還沒(méi)有在街上行走,我們大多數(shù)人也還沒(méi)有整天和人工智能對(duì)話。人們?nèi)匀粫?huì)死于疾病,我們?nèi)匀粺o(wú)法輕易進(jìn)入太空,宇宙中還有很多我們未解之謎。
然而,我們最近構(gòu)建的系統(tǒng)在很多方面都比人類更聰明,能夠顯著提升使用者的產(chǎn)出。這項(xiàng)工作中最不可能的部分已經(jīng)過(guò)去;成就 GPT-4 和 o3 等系統(tǒng)的科學(xué)洞見(jiàn)來(lái)之不易,但將引領(lǐng)我們走得更遠(yuǎn)。
人工智能將在諸多方面為世界作出貢獻(xiàn),但人工智能推動(dòng)科學(xué)進(jìn)步和生產(chǎn)力提升,對(duì)生活質(zhì)量的提升將是巨大的;未來(lái)將遠(yuǎn)比現(xiàn)在更加美好。科學(xué)進(jìn)步是推動(dòng)整體進(jìn)步的最大動(dòng)力;想想我們還能取得怎樣的進(jìn)步,就令人興奮不已。
從某種意義上來(lái)說(shuō),ChatGPT 已經(jīng)比任何人類都強(qiáng)大。數(shù)億人每天都依賴它,并完成日益重要的任務(wù);一個(gè)小小的新功能就能帶來(lái)巨大的積極影響;一個(gè)小小的偏差乘以數(shù)億人,就能造成巨大的負(fù)面影響。
2025 年,我們會(huì)看到能夠進(jìn)行真正認(rèn)知工作的代理的出現(xiàn);編寫(xiě)計(jì)算機(jī)代碼將不再是以前的樣子。2026 年,我們可能會(huì)看到能夠得出新穎見(jiàn)解的系統(tǒng)的出現(xiàn)。2027 年,我們可能會(huì)看到能夠在現(xiàn)實(shí)世界中執(zhí)行任務(wù)的機(jī)器人的出現(xiàn)。
將會(huì)有更多的人能夠創(chuàng)造軟件和藝術(shù)。但世界對(duì)軟件和藝術(shù)的需求遠(yuǎn)超于此,只要專家能夠接受新工具,他們可能仍然比新手更優(yōu)秀。總的來(lái)說(shuō),到2030年,一個(gè)人能夠完成的工作量將遠(yuǎn)超2020年,這將是一個(gè)顯著的變化,許多人將會(huì)找到從中受益的方法。
從最重要的方面來(lái)看,2030年代或許不會(huì)有太大的不同。人們?nèi)匀粫?huì)愛(ài)家人,發(fā)揮創(chuàng)造力,玩游戲,在湖里游泳。
但在一些仍然非常重要的方面,2030年代很可能與以往任何時(shí)期都截然不同。我們尚不清楚人類智能究竟能超越到何種程度,但我們即將找到答案。
2030年代,智力和能源——?jiǎng)?chuàng)意以及將創(chuàng)意付諸實(shí)踐的能力——將變得異常豐富。長(zhǎng)期以來(lái),這兩者一直是人類進(jìn)步的根本制約因素;有了豐富的智力和能源(以及良好的治理),理論上我們什么都可以擁有。
我們已經(jīng)生活在令人難以置信的數(shù)字智能之中,在最初的震驚之后,大多數(shù)人都已經(jīng)習(xí)以為常。很快,我們就會(huì)從驚嘆人工智能能夠?qū)懗鰞?yōu)美的文字,轉(zhuǎn)變?yōu)楹闷嫠螘r(shí)也能寫(xiě)出一部?jī)?yōu)美的小說(shuō);或者,從驚嘆它能夠做出救命的醫(yī)療診斷,轉(zhuǎn)變?yōu)楹闷嫠螘r(shí)能夠研發(fā)出治愈方法;或者,從驚嘆它能夠編寫(xiě)一個(gè)小型計(jì)算機(jī)程序,轉(zhuǎn)變?yōu)楹闷嫠螘r(shí)能夠創(chuàng)建一家全新的公司。奇點(diǎn)就是這樣:奇跡變成日常,然后成為起點(diǎn)。
我們已經(jīng)聽(tīng)到科學(xué)家說(shuō),他們的生產(chǎn)力比人工智能出現(xiàn)之前提高了兩到三倍。高級(jí)人工智能之所以引人注目,原因有很多,但或許沒(méi)有什么比我們能夠利用它更快地開(kāi)展人工智能研究更重要。我們或許能夠發(fā)現(xiàn)新的計(jì)算基礎(chǔ)、更好的算法,以及其他未知的成果。如果我們能在一年或一個(gè)月內(nèi)完成十年的研究成果,那么進(jìn)步的速度顯然會(huì)截然不同。
從現(xiàn)在開(kāi)始,我們已經(jīng)構(gòu)建的工具將幫助我們獲得進(jìn)一步的科學(xué)洞見(jiàn),并幫助我們創(chuàng)建更好的人工智能系統(tǒng)。當(dāng)然,這與完全自主更新自身代碼的人工智能系統(tǒng)不同,但無(wú)論如何,這都是遞歸式自我改進(jìn)的雛形。
還有其他自我強(qiáng)化的循環(huán)在起作用。經(jīng)濟(jì)價(jià)值的創(chuàng)造已經(jīng)啟動(dòng)了一個(gè)飛輪,不斷增加基礎(chǔ)設(shè)施的建設(shè),以運(yùn)行這些日益強(qiáng)大的人工智能系統(tǒng)。而能夠構(gòu)建其他機(jī)器人的機(jī)器人(從某種意義上說(shuō),能夠構(gòu)建其他數(shù)據(jù)中心的數(shù)據(jù)中心)的實(shí)現(xiàn)也并非遙不可及。
如果我們必須以老式的方式制造出第一批一百萬(wàn)個(gè)人形機(jī)器人,但隨后它們可以操作整個(gè)供應(yīng)鏈——挖掘和提煉礦物、駕駛卡車、運(yùn)營(yíng)工廠等——來(lái)建造更多的機(jī)器人,從而可以建造更多的芯片制造設(shè)施、數(shù)據(jù)中心等,那么進(jìn)步的速度顯然會(huì)大不相同。
隨著數(shù)據(jù)中心生產(chǎn)自動(dòng)化,智能成本最終應(yīng)該會(huì)趨近于電力成本。(人們常常好奇 ChatGPT 查詢耗電多少;平均每次查詢耗電約 0.34 瓦時(shí),相當(dāng)于烤箱一秒多一點(diǎn)的耗電量,或高效燈泡幾分鐘的耗電量。此外,它還會(huì)消耗約 0.000085 加侖水;大約相當(dāng)于十五分之一茶匙的水。)
技術(shù)進(jìn)步的速度將持續(xù)加快,人們幾乎能夠適應(yīng)任何事物,這一點(diǎn)將持續(xù)下去。雖然會(huì)有一些非常艱難的部分,比如整個(gè)行業(yè)的工作崗位將消失,但另一方面,世界將以如此快的速度變得更加富裕,以至于我們能夠認(rèn)真考慮過(guò)去從未考慮過(guò)的新政策理念。我們或許不會(huì)一下子就采納一項(xiàng)新的社會(huì)契約,但幾十年后回首往事,這些漸進(jìn)式的變革將產(chǎn)生巨大的影響。
如果歷史可以借鑒,我們會(huì)發(fā)現(xiàn)新事物、新需求,并迅速掌握新工具(工業(yè)革命后的工作變動(dòng)就是一個(gè)典型的例子)。期望會(huì)上升,但能力也會(huì)同樣快速提升,我們都會(huì)擁有更好的產(chǎn)品。我們將為彼此創(chuàng)造更加美好的事物。人類比人工智能擁有一個(gè)長(zhǎng)期重要且令人好奇的優(yōu)勢(shì):我們天生就關(guān)心他人以及他們的想法和行為,而我們不太關(guān)心機(jī)器。
一千年前,一位自給自足的農(nóng)民會(huì)看著我們?cè)S多人所做的工作,說(shuō)我們所做的工作是虛假的,認(rèn)為我們只是在玩游戲自?shī)首詷?lè),因?yàn)槲覀冇谐渥愕氖澄锖碗y以想象的奢侈品。我希望一千年后,我們看待這些工作時(shí),會(huì)認(rèn)為它們非常虛假,而且我毫不懷疑,從事這些工作的人會(huì)感到無(wú)比重要和滿足。
新的奇跡將以驚人的速度不斷涌現(xiàn)。今天甚至很難想象到2035年我們會(huì)有怎樣的發(fā)現(xiàn);或許我們今年解決了高能物理難題,明年就開(kāi)始了太空殖民;又或許我們今年在材料科學(xué)上取得重大突破,明年就實(shí)現(xiàn)了真正的高帶寬腦機(jī)接口。許多人會(huì)選擇以類似的方式生活,但至少有些人可能會(huì)選擇“融入生活”。
展望未來(lái),這聽(tīng)起來(lái)難以理解。但經(jīng)歷這一切或許會(huì)讓人印象深刻,但并非不可避免。從相對(duì)論的角度來(lái)看,奇點(diǎn)是一點(diǎn)一點(diǎn)出現(xiàn)的,融合也是緩慢發(fā)生的。我們正在攀登技術(shù)進(jìn)步的長(zhǎng)弧;它總是向前看是垂直的,向后看是平坦的,但它是一條平滑的曲線。(回想一下2020年,如果2025年能實(shí)現(xiàn)接近通用人工智能,那聽(tīng)起來(lái)會(huì)是什么樣,而過(guò)去五年的實(shí)際情況又如何呢?)
在巨大的機(jī)遇和挑戰(zhàn)面前,我們也面臨著嚴(yán)峻的挑戰(zhàn)。我們確實(shí)需要從技術(shù)和社會(huì)層面解決安全問(wèn)題,但考慮到其經(jīng)濟(jì)影響,廣泛普及超級(jí)智能的使用權(quán)也至關(guān)重要。最佳的前進(jìn)方向或許是這樣的:
解決對(duì)齊問(wèn)題,這意味著我們可以強(qiáng)有力地保證人工智能系統(tǒng)能夠?qū)W習(xí)并采取行動(dòng),實(shí)現(xiàn)我們長(zhǎng)期真正想要的目標(biāo)(社交媒體信息流就是錯(cuò)位人工智能的一個(gè)例子;支持這些算法的算法非常善于讓你繼續(xù)滾動(dòng)并清楚地了解你的短期偏好,但它們是通過(guò)利用你大腦中某種超越你長(zhǎng)期偏好的東西來(lái)做到這一點(diǎn)的)。
然后,專注于讓超級(jí)智能變得廉價(jià)、廣泛可用,并且不會(huì)過(guò)于集中于任何個(gè)人、公司或國(guó)家。社會(huì)具有韌性、創(chuàng)造力,并且適應(yīng)能力強(qiáng)。如果我們能夠駕馭人們的集體意志和智慧,那么盡管我們會(huì)犯很多錯(cuò)誤,有些事情會(huì)變得非常糟糕,但我們能夠快速學(xué)習(xí)和適應(yīng),并能夠利用這項(xiàng)技術(shù)獲得最大的好處和最小的壞處。在社會(huì)必須決定的寬泛范圍內(nèi)賦予用戶很大的自由度,這似乎非常重要。世界越早開(kāi)始討論這些寬泛的界限是什么,以及我們?nèi)绾味x集體共識(shí),就越好。
我們(整個(gè)行業(yè),不僅僅是OpenAI)正在為世界構(gòu)建一個(gè)大腦。它將極其個(gè)性化,人人皆可輕松使用;我們將受到好想法的限制。長(zhǎng)期以來(lái),初創(chuàng)企業(yè)的技術(shù)人員一直嘲笑“創(chuàng)意人”;那些有想法卻想找團(tuán)隊(duì)來(lái)實(shí)現(xiàn)它的人。現(xiàn)在在我看來(lái),他們即將迎來(lái)輝煌的一天。
OpenAI 現(xiàn)在有很多事情要做,但首先,我們是一家超級(jí)智能研究公司。我們面前有很多工作要做,但前方的道路大部分已經(jīng)照亮,黑暗區(qū)域正在迅速消退。我們非常感激能夠從事我們所做的事情。
廉價(jià)到無(wú)法計(jì)量的情報(bào)唾手可得。這聽(tīng)起來(lái)或許有些不可思議,但如果我們?cè)?020年告訴你我們將會(huì)達(dá)到今天的水平,那可能比我們現(xiàn)在對(duì)2030年的預(yù)測(cè)更瘋狂。
希望我們能夠通過(guò)超級(jí)智能平穩(wěn)、指數(shù)級(jí)、平靜地?cái)U(kuò)展。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4452651.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.