出品|虎嗅科技組
作者|余楊
編輯|苗正卿
頭圖|視覺中國
6月10日晚,Sam Altman 首先在X上宣布了o3模型降價80%,并暗戳戳預告了o3-pro版本的性價比。模型發布的同時,他寫下了題為《溫和的奇點》的文章。并表示,這可能是他最后一篇完全沒有AI幫助的文章了。
6個小時之后,OpenAI 正式宣告了o3-pro 版本的登場。
o3-pro 是OpenAI 目前最智能的模型 o3 的一個版本,使用與 o3 相同的底層模型。與 o3 一樣,o3-pro 可以使用 ChatGPT 所需的工具——它可以搜索網頁、分析文件、推理視覺輸入、使用 Python、利用記憶個性化響應等等。在此基礎上,o3-pro提供了更可靠的響應。
也因此,它的響應通常需要更長的時間才能完成。官方建議將其用于棘手問題,主打可靠性,而不是速度。
即日起,o3-pro 將在 Pro 和 Team 用戶的型號選擇器中可用,取代 o1-pro。企業和教育用戶將于下周獲得訪問權限。
據模型發布說明,OpenAI 通過專家評估、學術評估、“4/4 可靠性”評估三個指標來衡量o3-pro 版本的表現。
在專家評估中,評論者在所有測試類別中始終更青睞 o3-pro,尤其是在科學、教育、編程、商業和寫作幫助等關鍵領域。評論者還一致認為 o3-pro 在清晰度、全面性、指令遵循性和準確性方面均獲得更高的評價。
學術評估則表明,o3-pro 的表現始終優于 o1-pro 和 o3。
“4/4 可靠性”評估的考核標準是:當只有在四次嘗試中(而不是一次)正確回答問題,模型才被視為成功。
在這個維度,OpenAI 的表現也可圈可點。
美國經濟學家Tyler Cowen很快發文表示:“o3-pro非常非常好”。Sam Altman 也很較真,隨即回復到:有多好?
并給大家舉了個例子,轉發了o3-pro “使用經驗貼”。
具體來說,前 Apple 人機界面設計、現 Raindrop AI首席技術官Ben Hylak提前體驗了 o3-pro。
起初,他覺得 o1/o1-pro 并不好用。后來他發現自己用錯了它。而使用的關鍵在于:不要和它聊天,而是要把它當成一個報告生成器。
賦予它背景,設定目標,然后盡情發揮。
具體的操作上,他和他的聯合創始人 Alexis 花時間整理了過去在Raindrop的所有規劃會議記錄,記錄了所有的目標,甚至還錄制了語音備忘錄:然后請 o3-pro 制定計劃。
結果讓Ben和Alexis很震撼,因為o3-pro給出了他一直希望法學碩士能夠創建的那種具體的計劃和分析——包括目標指標、時間表、優先事項以及絕對要削減的內容的嚴格指示。
“o3 給我們的計劃是可行的、合理的;但 o3-pro 給我們的計劃是具體的、足夠根深蒂固的,它實際上改變了我們對未來的看法。”Ben表示。
也就是說,如今的模型在獨立測試中表現非常出色,以至于簡單的測試已經用完了。而真正的挑戰也隨即到來:如何讓它們融入社會,融入具體的現實情境?
“一個智商很高的12歲孩子去上大學。他們可能很聰明,但如果無法融入社會,就無法成為有用的員工。”Ben說到。
目前,大模型的集成主要體現在工具調用上:模型與人類、外部數據和其他人工智能的協作效果如何。它是一位優秀的思考者,但還需要進一步發展成為一位優秀的行動者。
Ben認為,o3-pro 在這方面取得了顯著的進步:它能夠更有效地識別自身環境;能夠準確地傳達其可以使用的工具;能夠何時詢問外部世界(而不是假裝擁有相關信息/訪問權限);能夠選擇合適的工具來完成工作。
他在帖子中還附上了自己的使用對比:o3-pro(左)與 o3(右)。
可以看到,o3-pro(左)能夠更清楚地了解其環境的限制。
不過,o3-pro的缺點也很明顯。例如,o3-pro 不支持圖像生成,也不支持 Canvas。用戶目前仍然需要使用 GPT-4o、OpenAI o3 或 OpenAI o4-mini 來生成圖像。
在搶先版使用體驗中,Ben也注意到:如果你不給它足夠的背景信息,它確實容易想得太多。它非常擅長分析,擅長使用工具做事,但不太擅長直接做事。有些 ClickHouse SQL 問題 o3 顯然做得更好,因人而異,也因任務而異。
未來,OpenAI將花費更多時間在open-weights model上,預計它會在今年夏天晚些時候推出。
“我們的研究團隊做了一些意想不到的、非常了不起的事情,我們認為它非常值得等待,但需要更長的時間。”Sam Altman 在X中說到。
Sam Altman似乎對o3-pro有著很深的寄托。“我為自己能用老套的方式寫出‘從相對論的角度來看,奇點是一點一點產生的,融合是緩慢發生的’而感到自豪。”Sam Altman寫到。
以下是《溫和的奇點》全文:
我們已經越過了事件視界;騰飛已經開始。人類即將打造數字超級智能,而且至少到目前為止,它遠沒有看起來那么奇怪。
機器人還沒有在街上行走,我們大多數人也還沒有整天和人工智能對話。人們仍然會死于疾病,我們仍然無法輕易進入太空,宇宙中還有很多我們未解之謎。
然而,我們最近構建的系統在很多方面都比人類更聰明,能夠顯著提升使用者的產出。這項工作中最不可能的部分已經過去;成就 GPT-4 和 o3 等系統的科學洞見來之不易,但將引領我們走得更遠。
人工智能將在諸多方面為世界作出貢獻,但人工智能推動科學進步和生產力提升,對生活質量的提升將是巨大的;未來將遠比現在更加美好。科學進步是推動整體進步的最大動力;想想我們還能取得怎樣的進步,就令人興奮不已。
從某種意義上來說,ChatGPT 已經比任何人類都強大。數億人每天都依賴它,并完成日益重要的任務;一個小小的新功能就能帶來巨大的積極影響;一個小小的偏差乘以數億人,就能造成巨大的負面影響。
2025 年,我們會看到能夠進行真正認知工作的代理的出現;編寫計算機代碼將不再是以前的樣子。2026 年,我們可能會看到能夠得出新穎見解的系統的出現。2027 年,我們可能會看到能夠在現實世界中執行任務的機器人的出現。
將會有更多的人能夠創造軟件和藝術。但世界對軟件和藝術的需求遠超于此,只要專家能夠接受新工具,他們可能仍然比新手更優秀。總的來說,到2030年,一個人能夠完成的工作量將遠超2020年,這將是一個顯著的變化,許多人將會找到從中受益的方法。
從最重要的方面來看,2030年代或許不會有太大的不同。人們仍然會愛家人,發揮創造力,玩游戲,在湖里游泳。
但在一些仍然非常重要的方面,2030年代很可能與以往任何時期都截然不同。我們尚不清楚人類智能究竟能超越到何種程度,但我們即將找到答案。
2030年代,智力和能源——創意以及將創意付諸實踐的能力——將變得異常豐富。長期以來,這兩者一直是人類進步的根本制約因素;有了豐富的智力和能源(以及良好的治理),理論上我們什么都可以擁有。
我們已經生活在令人難以置信的數字智能之中,在最初的震驚之后,大多數人都已經習以為常。很快,我們就會從驚嘆人工智能能夠寫出優美的文字,轉變為好奇它何時也能寫出一部優美的小說;或者,從驚嘆它能夠做出救命的醫療診斷,轉變為好奇它何時能夠研發出治愈方法;或者,從驚嘆它能夠編寫一個小型計算機程序,轉變為好奇它何時能夠創建一家全新的公司。奇點就是這樣:奇跡變成日常,然后成為起點。
我們已經聽到科學家說,他們的生產力比人工智能出現之前提高了兩到三倍。高級人工智能之所以引人注目,原因有很多,但或許沒有什么比我們能夠利用它更快地開展人工智能研究更重要。我們或許能夠發現新的計算基礎、更好的算法,以及其他未知的成果。如果我們能在一年或一個月內完成十年的研究成果,那么進步的速度顯然會截然不同。
從現在開始,我們已經構建的工具將幫助我們獲得進一步的科學洞見,并幫助我們創建更好的人工智能系統。當然,這與完全自主更新自身代碼的人工智能系統不同,但無論如何,這都是遞歸式自我改進的雛形。
還有其他自我強化的循環在起作用。經濟價值的創造已經啟動了一個飛輪,不斷增加基礎設施的建設,以運行這些日益強大的人工智能系統。而能夠構建其他機器人的機器人(從某種意義上說,能夠構建其他數據中心的數據中心)的實現也并非遙不可及。
如果我們必須以老式的方式制造出第一批一百萬個人形機器人,但隨后它們可以操作整個供應鏈——挖掘和提煉礦物、駕駛卡車、運營工廠等——來建造更多的機器人,從而可以建造更多的芯片制造設施、數據中心等,那么進步的速度顯然會大不相同。
隨著數據中心生產自動化,智能成本最終應該會趨近于電力成本。(人們常常好奇 ChatGPT 查詢耗電多少;平均每次查詢耗電約 0.34 瓦時,相當于烤箱一秒多一點的耗電量,或高效燈泡幾分鐘的耗電量。此外,它還會消耗約 0.000085 加侖水;大約相當于十五分之一茶匙的水。)
技術進步的速度將持續加快,人們幾乎能夠適應任何事物,這一點將持續下去。雖然會有一些非常艱難的部分,比如整個行業的工作崗位將消失,但另一方面,世界將以如此快的速度變得更加富裕,以至于我們能夠認真考慮過去從未考慮過的新政策理念。我們或許不會一下子就采納一項新的社會契約,但幾十年后回首往事,這些漸進式的變革將產生巨大的影響。
如果歷史可以借鑒,我們會發現新事物、新需求,并迅速掌握新工具(工業革命后的工作變動就是一個典型的例子)。期望會上升,但能力也會同樣快速提升,我們都會擁有更好的產品。我們將為彼此創造更加美好的事物。人類比人工智能擁有一個長期重要且令人好奇的優勢:我們天生就關心他人以及他們的想法和行為,而我們不太關心機器。
一千年前,一位自給自足的農民會看著我們許多人所做的工作,說我們所做的工作是虛假的,認為我們只是在玩游戲自娛自樂,因為我們有充足的食物和難以想象的奢侈品。我希望一千年后,我們看待這些工作時,會認為它們非常虛假,而且我毫不懷疑,從事這些工作的人會感到無比重要和滿足。
新的奇跡將以驚人的速度不斷涌現。今天甚至很難想象到2035年我們會有怎樣的發現;或許我們今年解決了高能物理難題,明年就開始了太空殖民;又或許我們今年在材料科學上取得重大突破,明年就實現了真正的高帶寬腦機接口。許多人會選擇以類似的方式生活,但至少有些人可能會選擇“融入生活”。
展望未來,這聽起來難以理解。但經歷這一切或許會讓人印象深刻,但并非不可避免。從相對論的角度來看,奇點是一點一點出現的,融合也是緩慢發生的。我們正在攀登技術進步的長弧;它總是向前看是垂直的,向后看是平坦的,但它是一條平滑的曲線。(回想一下2020年,如果2025年能實現接近通用人工智能,那聽起來會是什么樣,而過去五年的實際情況又如何呢?)
在巨大的機遇和挑戰面前,我們也面臨著嚴峻的挑戰。我們確實需要從技術和社會層面解決安全問題,但考慮到其經濟影響,廣泛普及超級智能的使用權也至關重要。最佳的前進方向或許是這樣的:
解決對齊問題,這意味著我們可以強有力地保證人工智能系統能夠學習并采取行動,實現我們長期真正想要的目標(社交媒體信息流就是錯位人工智能的一個例子;支持這些算法的算法非常善于讓你繼續滾動并清楚地了解你的短期偏好,但它們是通過利用你大腦中某種超越你長期偏好的東西來做到這一點的)。
然后,專注于讓超級智能變得廉價、廣泛可用,并且不會過于集中于任何個人、公司或國家。社會具有韌性、創造力,并且適應能力強。如果我們能夠駕馭人們的集體意志和智慧,那么盡管我們會犯很多錯誤,有些事情會變得非常糟糕,但我們能夠快速學習和適應,并能夠利用這項技術獲得最大的好處和最小的壞處。在社會必須決定的寬泛范圍內賦予用戶很大的自由度,這似乎非常重要。世界越早開始討論這些寬泛的界限是什么,以及我們如何定義集體共識,就越好。
我們(整個行業,不僅僅是OpenAI)正在為世界構建一個大腦。它將極其個性化,人人皆可輕松使用;我們將受到好想法的限制。長期以來,初創企業的技術人員一直嘲笑“創意人”;那些有想法卻想找團隊來實現它的人。現在在我看來,他們即將迎來輝煌的一天。
OpenAI 現在有很多事情要做,但首先,我們是一家超級智能研究公司。我們面前有很多工作要做,但前方的道路大部分已經照亮,黑暗區域正在迅速消退。我們非常感激能夠從事我們所做的事情。
廉價到無法計量的情報唾手可得。這聽起來或許有些不可思議,但如果我們在2020年告訴你我們將會達到今天的水平,那可能比我們現在對2030年的預測更瘋狂。
希望我們能夠通過超級智能平穩、指數級、平靜地擴展。
本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4452651.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.