文章轉(zhuǎn)載自「APPSO」
今天凌晨,OpenAI 發(fā)布了 o3-pro 模型。
o3-pro 模型作為推理模型 o3 的升級版,在處理復(fù)雜問題、給出更精準的回答方面表現(xiàn)更強,尤其在科學(xué)研究、編程、教育和寫作等場景下,表現(xiàn)更具優(yōu)勢。
但 o3-pro 在處理復(fù)雜任務(wù)調(diào)度和工具鏈調(diào)用時響應(yīng)速度比 o1-pro 稍慢,更適合于對答案準確性要求較高的場景。
目前,o3-pro 率先向 Pro 和 Team 用戶開放。Pro 訂閱用戶可通過 ChatGPT 和 API 使用新版模型,Team 用戶可以在模型選擇器里選擇 o3-pro 替代原本的 o1-pro。但企業(yè)用戶和教育用戶仍需等待一周才可使用。
超 6000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。
邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產(chǎn)品曝光渠道
01
o3-pro 登場,
更強大,也更「慢」
作為推理模型 o3 的升級版,o3-pro 在處理復(fù)雜問題、給出更精準的回答方面表現(xiàn)更強,尤其在科學(xué)研究、編程、教育和寫作這些場景下,有著明顯優(yōu)勢。
此外,它也支持調(diào)用 ChatGPT 的全套工具,比如網(wǎng)頁搜索、文件分析、圖像推理、Python 編程、記憶個性化等, 整體執(zhí)行力和整合能力都更強。
當然,功能多了,響應(yīng)速度也稍微慢了下來。
由于任務(wù)調(diào)度和工具鏈調(diào)用更復(fù)雜,o3-pro 的響應(yīng)速度一般要比 o1-pro 要長一點,所以更適合在你需要認真思考,或者對答案準確性要求較高的場景中使用。
在官方專家評估中,評審人員普遍認為 o3 Pro 在表達清晰度、答案完整性、指令執(zhí)行能力和邏輯準確性方面都比 o3 模型更進一步,尤其適合用在科學(xué)、教育、編程、商業(yè)和寫作這些需要深度輸出的任務(wù)中。
學(xué)術(shù)評估也驗證了這一點,o3-pro 的整體表現(xiàn)持續(xù)優(yōu)于 o1-pro 和 o3。
為了更科學(xué)評估模型的穩(wěn)定性,OpenAI 引入了「四次全對」的評估標準——只有模型連續(xù)四次給出正確答案,才算成功。
可以說,這套機制大幅提升了對推理一致性的要求。
值得注意的是,o3 Pro 此次并未單獨發(fā)布系統(tǒng)卡。OpenAI 表示,由于 o3-pro 與 o3 使用相同的底層模型,其完整的安全性說明請參見 o3 系統(tǒng)卡。
但目前 o3 Pro 仍存在一些功能限制,比如不支持臨時對話、圖像生成和 Canvas 功能。如需生成圖像,用戶仍需使用 GPT-4o、o3 或 o4-mini 模型。
在正式上線之前,一些開發(fā)者已獲得 o3 Pro 的早期訪問權(quán)限。
前 SpaceX 軟件工程師及蘋果 visionOS 設(shè)計師的 Ben Hylak 在過去一周獲得了 o3-pro 的早期訪問權(quán)限,其體驗歷程也得到了 OpenAI CEO Sam Altman 在社交媒體上的轉(zhuǎn)發(fā)。
具體來說,Ben 與其聯(lián)合創(chuàng)始人 Alexis 花時間整理了 Raindrop 過去所有的規(guī)劃會議記錄、目標、甚至語音備忘錄,然后請 o3-pro 嘗試生成一個戰(zhàn)略性規(guī)劃文檔。
最終模型生成的結(jié)果讓他們大受震撼:內(nèi)容清晰、結(jié)構(gòu)完整,不僅覆蓋了目標和時間線,還自動梳理出優(yōu)先級,甚至明確指出了哪些內(nèi)容應(yīng)被砍掉。
在 Ben 看來,模型再強,如果無法融入真實的工作環(huán)境,也難以成為真正有用的「成員」。
而 o3 Pro 在理解復(fù)雜環(huán)境、表達工具能力、提出適當問題、合理調(diào)度資源方面有明顯提升。盡管模型偶爾在缺乏上下文時會出現(xiàn)「過度思考」的問題,但整體表現(xiàn)已明顯優(yōu)于此前版本。
o3 pro(左)vs o3(右):o3 pro 明顯更好地理解了自身的限制和能力范圍。
在與同類模型對比中,Ben 則是夸獎道,雖然 Claude Opus 體量感十足,但實戰(zhàn)表現(xiàn)平平無奇;而 o3-pro 則更實用,屬于「完全不同維度的存在」。
在經(jīng)典升級版的六邊形彈跳小球挑戰(zhàn)中,博主 @flavioAd 認為o3-pro 是第一個幾乎能完美處理小球與墻面真實碰撞效果的模型。
ARC-AGI 是一種用來評估語言模型是否具備類通用人工智能(AGI)推理能力的基準測試框架。
它旨在測試 AI 系統(tǒng)在面對新問題時的抽象推理和問題解決能力,類似于人類在面對新情況時能夠迅速適應(yīng)并找到解決方案的能力。
最新測試結(jié)果如下:
可以看到,o3-pro 在高難任務(wù)上表現(xiàn)略好,但提升幅度不大,且成本隨難度上升。
02
企業(yè)是第二曲線,
o3-pro 是一塊新基石
在 o3-pro 發(fā)布,OpenAI CEO Sam Altman 還在社交平臺公布了一項重磅消息:o3 模型價格直降 80%。
現(xiàn)在,o3 模型每輸入百萬 tokens 收費 2 美元,每輸出百萬 tokens 收費 8 美元。
OpenAI 首席產(chǎn)品官 Kevin Weil 發(fā)文表示,由于用戶反饋強烈,Plus 用戶的o3 模型使用速率限制將提升一倍,該調(diào)整正在陸續(xù)上線中。
對比之下,o3-pro 每輸入百萬 tokens 收費 20 美元,每輸出百萬 tokens 收費 80 美元,比 o1-pro 便宜 87%。
OpenAI 建議在使用 o3-pro 時啟用「后臺模式」:對于耗時較長的任務(wù),將會異步啟動,從而規(guī)避請求超時問題。
官方表示,這波大降價的背后,是 OpenAI 對推理服務(wù)架構(gòu)的全面優(yōu)化。模型沒變,但推理更高效,價格也就順勢調(diào)了下來。
而另一方面,或許離不開 OpenAI 在算力資源上的新動向。
自 ChatGPT 橫空出世以來,算力資源的限制一直是 OpenAI 的「老大難」,受限于微軟綁定協(xié)議的限制,Azure 云服務(wù)曾是 ChatGPT 的唯一數(shù)據(jù)中心基礎(chǔ)設(shè)施提供商。
而據(jù)路透社凌晨援引三位知情人士消息稱,為了緩解算力壓力,OpenAI 已于上個月與 Alphabet( Google 母公司)達成合作協(xié)議,引入 Google Cloud 作為額外云服務(wù)提供商。
這樣的合作既在意料之外,也在情理之中。
一方面,ChatGPT 是近年來對 Google 搜索業(yè)務(wù)最大的威脅之一,而 Google Cloud 現(xiàn)在卻成了它的新靠山。
而另一方面,Google Cloud 2024 年銷售額達 430 億美元,占 Alphabet 收入的 12%。因此,為了在云計算市場中超越亞馬遜和微軟,Google Cloud 一直致力于扮演一個「中立算力供應(yīng)商」的角色。
此次合作的達成將是對 Google Cloud 的一次重大利好。截至發(fā)稿前,OpenAI、Google 和微軟均未就此報道置評。
與此同時,OpenAI 還在全球范圍內(nèi)加速部署 AI 基礎(chǔ)設(shè)施網(wǎng)絡(luò)。
今年早些時候,OpenAI 還與軟銀和甲骨文推進了 5000 億美元規(guī)模的星門計劃,并與 CoreWeave 簽訂了價值數(shù)十億美元的算力采購協(xié)議。
高投入的前提離不開高回報,本周據(jù)外媒報道,去年,OpenAI 的 ARR 約為 55 億美元,而現(xiàn)在已突破 100 億美元,增長了近 80%。
需要說明的是,100 億美元僅包括其面向消費者的產(chǎn)品、ChatGPT 付費商品以及 API 收入,暫不包括微軟的授權(quán)收入和其他大額交易。
在商業(yè)領(lǐng)域,ARR 是指企業(yè)從訂閱服務(wù)或長期合同中獲得的年度經(jīng)常性收入。它反映了一種可預(yù)測的、持續(xù)的收入流,通常用于衡量訂閱模式業(yè)務(wù)的健康狀況和增長潛力。
簡單來說,一家提供軟件即服務(wù)(SaaS)的公司,與客戶簽訂了每年支付 1000 元的訂閱合同。如果有 100 個這樣的客戶,那么該公司的 ARR 就是 1000 元×100=100000 元。
上周,OpenAI COO Brad Lightcap 還透露 OpenAI 目前擁有 300 萬付費商業(yè)用戶,高于 2 月份報告的 200 萬,可以說,OpenAI 目前形勢一片大好。
一邊通過 o3 把基礎(chǔ)模型的成本打下來,一邊用 o3-pro 把復(fù)雜問題的解決能力拔上去,瞄準高價值場景,OpenAI 也正試圖在這兩端之間,打通一條通往下一個增長曲線的路徑:企業(yè)服務(wù)。
世界上最強的模型輪流發(fā)布,OpenAI 也是這波 AI 浪潮中的一個。
而更強的模型,更穩(wěn)的算力,更豐富的工具調(diào)用,ChatGPT 的定位也早已不只是聊天機器人,而是生產(chǎn)力搭子,旨在吃下職場這個最具生產(chǎn)力的應(yīng)用場景。
o3-pro 則是這條路上的一塊新基石。
至于它能不能撐起 OpenAI 的這份野心,還有待時間驗證。但至少現(xiàn)在,它已經(jīng)讓人們重新想象了一次。
03
模型會開源,
但不會在 6 月
就在剛剛,Sam Altman 還在社交媒體上表示,OpenAI 預(yù)計將在今年夏季晚些時候,發(fā)布公開權(quán)重的開源模型,而非 6 月份。
此外,Altman剛剛還發(fā)布了個人新博客《The Gentle Singularity(溫和的奇點)》,探討 AI 發(fā)展對人類社會的影響。
用他的話來說, 這可能是他最后一次在完全沒有 AI 幫助下寫出的文章,「相對論的角度看,奇點是一點一點發(fā)生的,融合則是緩慢進行的。」
附上博客原文地址:
https://blog.samaltman.com/the-gentle-singularity
04
溫和的「奇點」
我們已經(jīng)越過了事件視界,騰飛已經(jīng)開始。人類正接近構(gòu)建數(shù)字超級智能,而至少到目前為止,這一切并沒有看起來那么奇怪。
機器人還沒在街頭隨處可見,大多數(shù)人也還沒整天和 AI 交流。人類仍然會死于疾病,去太空依然困難重重,我們對宇宙的理解仍然非常有限。
盡管如此,我們最近已經(jīng)構(gòu)建出在許多方面比人類更聰明的系統(tǒng),并且這些系統(tǒng)能顯著放大人類的產(chǎn)出。最不可能的部分已經(jīng)完成——那些促成 GPT-4 和 o3 等系統(tǒng)誕生的科學(xué)突破來之不易,但它們將帶我們走得更遠。
AI 將在多個方面為世界帶來貢獻,但 AI 加速科學(xué)進步與提升生產(chǎn)力所帶來的生活質(zhì)量提升將是巨大的;未來有望遠比現(xiàn)在更加美好。科學(xué)進步是整體進步的最大驅(qū)動力;一想到我們有可能獲得多少更多的成果,就令人振奮。
從某種意義上說,ChatGPT 已經(jīng)比歷史上任何一個人都更強大。每天有數(shù)億人依賴它,且任務(wù)越來越重要;一項小的新增能力可能帶來極大的正面影響,而一個微小的不匹配在被數(shù)億人使用時,也可能造成很大的負面影響。
2025 年,我們迎來了能夠真正進行認知工作的智能代理;編寫計算機代碼的方式將徹底改變。2026 年,我們很可能會看到能產(chǎn)生原創(chuàng)見解的系統(tǒng)。2027 年,或許會出現(xiàn)能在現(xiàn)實世界中執(zhí)行任務(wù)的機器人。
將有更多人能夠創(chuàng)作軟件和藝術(shù)。但世界對這兩者的需求也將大幅上升。專家們?nèi)绻麚肀н@些新工具,可能仍然比新手強得多。總體來看,2030 年一個人完成的事情將遠超 2020 年,這種變化將令人矚目,也會有許多人學(xué)會如何從中受益。
在最重要的方面,2030 年代也許不會有太劇烈的變化。人們依然會愛家人,釋放創(chuàng)造力,玩游戲,在湖里游泳。
但在仍然非常重要的其他方面,2030年代很可能與以往任何時代都大不相同。我們不知道人類智能的上限有多高,但我們即將找出答案。
到了 2030 年代,智慧和能源——即想法及實現(xiàn)想法的能力——將變得極其豐富。這兩者長期以來一直是人類進步的基本限制;如果智慧和能源變得充足(加上良好的治理),理論上我們可以實現(xiàn)一切。
現(xiàn)在我們已經(jīng)與驚人的數(shù)字智能共處,并且在最初的震驚之后,大多數(shù)人已漸漸習(xí)慣。我們很快會從驚嘆 AI 能寫出優(yōu)美段落,變成期待它寫出完整小說;從驚訝它能診斷疾病,變成期望它能研發(fā)治愈方法;從驚訝它能寫出小程序,變成希望它能創(chuàng)建整家公司。這就是「奇點」的方式:奇跡變成日常,然后變成起點。
已經(jīng)有科學(xué)家告訴我們,他們的工作效率是過去的兩到三倍。高級AI之所以意義重大,其中一個最關(guān)鍵的原因是我們可以用它來加速 AI 研究本身。我們也許能發(fā)現(xiàn)新的計算材料、更好的算法,甚至更多未知的可能。如果我們能用一年、甚至一個月完成十年的研究,進步的速度顯然會大不一樣。
從現(xiàn)在開始,我們已有的工具將幫助我們發(fā)現(xiàn)更多科學(xué)洞見,并輔助我們創(chuàng)造更先進的 AI 系統(tǒng)。當然,這還不是AI完全自主地更新自身代碼,但這確實是「遞歸自我改進」的初始形態(tài)。
還有其他一些自我強化的循環(huán)正在發(fā)生。AI 帶來的經(jīng)濟價值推動了基礎(chǔ)設(shè)施建設(shè)的飛輪,越來越多的資源正用于運行這些強大的 AI 系統(tǒng)。而能夠制造其他機器人的機器人(在某種意義上,還有能建造其他數(shù)據(jù)中心的數(shù)據(jù)中心)離我們也不遠了。
如果我們必須用傳統(tǒng)方式制造出最初的一百萬個人形機器人,但它們隨后能接手整個供應(yīng)鏈——開采和提煉礦物、駕駛卡車、運行工廠等——并制造更多機器人、芯片廠和數(shù)據(jù)中心,那進步的速度就會截然不同。
隨著數(shù)據(jù)中心的生產(chǎn)逐漸自動化,智能的成本最終應(yīng)該會接近電力成本。(很多人關(guān)心 ChatGPT 每次查詢用多少能量;平均每次查詢大約耗電 0.34 瓦時,大概相當于烤箱運行一秒多一點,或高效燈泡使用幾分鐘。此外,每次查詢大約用水 0.000085 加侖,約等于十五分之一茶匙。)
科技進步的速度將持續(xù)加快,而人類也有很強的適應(yīng)能力。雖然會有艱難的挑戰(zhàn),比如整類工作消失,但另一方面,世界的財富增長如此之快,以至于我們將有機會認真考慮以前無法實現(xiàn)的新政策。我們可能不會一次性建立一套新的社會契約,但回顧幾十年后,會發(fā)現(xiàn)逐步變化的累積帶來了巨大轉(zhuǎn)變。
如果歷史可以作為參考,我們總能找到新事物去做、新欲望去追求,并迅速適應(yīng)新工具(工業(yè)革命后的職業(yè)變遷就是個很好的例子)。人們的期望會提升,但能力也會隨之快速提升,我們會擁有更好的生活。我們會為彼此創(chuàng)造越來越美妙的事物。相比 AI,人類有一個長期且重要的優(yōu)勢:我們天生在意他人,以及他人怎么想、怎么做,而對機器卻沒什么感情。
如果一千年前的自給農(nóng)民看到我們現(xiàn)在的生活,會覺得我們從事的是「假工作」,仿佛只是在自娛自樂,因為我們食物充足、奢華難以想象。我希望我們未來一千年后也能用同樣的眼光看待那些工作——覺得它們「非常假」,但毫無疑問,那些人會認為自己的工作極其重要且充實。
未來將涌現(xiàn)出大量的新奇跡。到 2035 年,我們會取得什么突破現(xiàn)在都難以想象;可能今年我們還在解決高能物理問題,明年就開始太空殖民;或今年在材料科學(xué)上取得重大突破,明年就實現(xiàn)真正高帶寬的腦機接口。很多人會選擇繼續(xù)以當下的方式生活,但也肯定會有人選擇「接入系統(tǒng)」。
展望未來,這些事現(xiàn)在聽起來難以想象。但真正經(jīng)歷它時,可能會讓人驚嘆,卻仍在可控范圍內(nèi)。從相對論的角度看,奇點是一點點發(fā)生的,融合是逐步進行的。我們正攀登那條技術(shù)指數(shù)增長的長弧線;向前看總覺得是陡峭的垂直,向后看則像是平緩的線,但其實它是一條平滑的曲線。(回想 2020 年,如果那時我們說 2025 年會接近 AGI,聽起來會很瘋狂,但對比過去五年所發(fā)生的一切,也許現(xiàn)在的預(yù)測不那么瘋狂了。)
當然,我們還面臨許多嚴峻挑戰(zhàn)。我們需要在技術(shù)上和社會層面解決安全問題,但在那之后,最重要的是確保超級智能能被廣泛獲取,因為這關(guān)系到經(jīng)濟結(jié)構(gòu)。未來的最好路徑可能包括以下幾個步驟:
首先解決「對齊問題」,也就是我們能有把握地確保 AI 系統(tǒng)長期學(xué)會并實現(xiàn)我們集體真正的意愿(比如社交媒體就是對齊失敗的例子:推薦算法非常擅長讓你不停刷,但它們是通過利用大腦短期偏好來壓制你長期目標的)。
接著,重點讓超級智能變得便宜、普及,并避免被某個個人、公司或國家高度集中掌控。社會具有韌性、創(chuàng)造力,也能迅速適應(yīng)。
如果我們能激發(fā)集體的意志和智慧,盡管會犯錯、也會有失控,但我們會迅速學(xué)習(xí)與調(diào)整,從而最大化收益、最小化風(fēng)險。在社會廣泛設(shè)定的框架下,給予用戶更多自由將非常關(guān)鍵。世界越早開始關(guān)于這些框架及「集體對齊」如何定義的討論,就越好。
我們(整個行業(yè),不只是 OpenAI)正在為世界構(gòu)建一個「大腦」。
這個大腦將高度個性化、人人易用;它的極限將取決于我們的好點子。長期以來,技術(shù)圈總愛嘲笑那些「只有想法的人」——他們有個點子,卻沒法實現(xiàn)。而現(xiàn)在,看起來他們的時代終于要到了。
OpenAI 如今做的事情很多,但最根本的身份仍是一個超級智能研究公司。我們還有大量工作要做,但前路已經(jīng)被照亮,黑暗正迅速退去。我們對能做這些事情感到無比感激。
「智能幾乎免費」已近在眼前。也許聽起來瘋狂,但如果我們在 2020 年告訴你我們將在 2025 年到達現(xiàn)在這個水平,聽起來比我們現(xiàn)在對 2030 年的預(yù)測更瘋狂。
愿我們順利、指數(shù)級、平穩(wěn)地邁入超級智能時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.