新智元報道
編輯:桃子 英智
【新智元導讀】近來,GPT-4.1關鍵人物揭秘了GPT-5進展,挑戰在于平衡推理與聊天能力。與此同時,OpenAI首席研究官在新采訪中,暢談了通往AGI之路的關鍵要素。
GPT-5到哪一步了?
最近,GPT-4.1核心研究員Michelle Pokrass透露,構建GPT-5的挑戰在于,在推理和聊天之間找到適當的平衡。
她表示,「o3會認真思考,但并不適合進行隨意聊天。GPT-4.1通過犧牲一些閑聊質量來提升編碼能力」。
「現在,目標是訓練一個知道何時認真思考、何時交談的模型」。
在長達50分鐘的最新對談中,Michelle首次對外介紹了更多關于GPT-4.1背后開發過程,以及RFT在產品中發揮的關鍵作用。
面對AGI的終極目標,OpenAI首席研究官表示,「AGI不僅僅是ChatGPT,還包含了很多東西」。
當前,OpenAI面對的不僅僅是技術挑戰,還得在信任、倫理上找到平衡。
GPT-4.1研發背后
Michelle Pokers表示,GPT 4.1的目標是讓開發者在使用時感到愉快。
有時候,為了優化基準測試而調整模型,結果看起來不錯,實際使用卻發現一些問題,比如模型不遵循指令、格式怪異,或者上下文太短。
團隊花了很多精力與用戶溝通,收集他們的意見,然后將這些反饋轉化為研究過程中真正能用得上的信息。
研究人員會觀察反饋中反復出現的主題,如指令遵循能力。
OpenAI內部也使用了這些模型,所以能感覺到模型在哪些地方表現得不好。
綜合這些因素,團隊可以確定哪些評估指標是客戶真正需要重點優化的。
OpenAI有一款電子郵件產品,在處理郵件時能獲得免費的推理服務。作為交換,公司能利用這些數據。
Michelle真的很喜歡看到人們構建的各種酷炫的用戶界面。
團隊在模型開發的最后階段悄然加入了一項改進,就是大幅提升了UI和編碼能力。
她也看到喜歡人們使用Nano的情況,它小巧、便宜又快。
Nano背后的假設是,能否通過廉價且快速的模型來大幅推動AI的普及?答案是肯定的。人們對和成本延遲曲線上的各種地方都有需求。
在提升模型性能方面,GPT 4.1聚焦長上下文和指令跟隨。
長上下文處理能力是衡量模型在復雜任務中表現的重要指標,但生成有效的長上下文評估內容頗具挑戰。
OpenAI致力于獲取更多真實世界的長上下文評估數據,以提升模型在實際應用中的表現。
在模型應用中,模糊性處理是一大難題。
是向用戶進一步詢問信息,還是依據已有信息進行假設推理,這需要開發者能夠靈活調整模型的策略。
GPT 4.1在這方面做出改進,增強模型的可操控性,減少因模糊性導致的困擾。
API出現錯誤時,模型可能卡頓,影響使用體驗。
OpenAI通過改進訓練算法和數據處理方式,讓模型面對錯誤和異常情況時持續穩定運行。
GPT 4.1在代碼編寫能力上有顯著提升,在局部代碼修改任務中表現出色,但涉及全局上下文和復雜代碼推理時,仍需優化。
例如,處理文件間復雜技術細節傳遞的任務時,模型的理解和處理能力有待加強。
在前端編碼方面,團隊不僅要求功能正確,還注重美觀和規范,符合工程師的專業審美。
RFT新突破
微調技術在GPT 4.1扮演著重要角色,RFT(強化微調)的出現,為模型能力拓展帶來新的可能。
與傳統的SFT相比,RFT在特定領域展現出強大的優勢。
在芯片設計、生物學和藥物研發等領域,RFT的微調過程數據效率極高,僅需幾百個樣本就能取得良好效果。
在藥物研發中,通過RFT可以利用獨特且可驗證的數據,讓模型更精準地模擬藥物作用機制,加速研發進程。
芯片設計領域,RFT能幫助模型更好地理解和處理復雜的設計規則,優化設計方案。
這些領域的共同特點是,雖然需要不斷探索,但實驗結果容易驗證,與RFT的優勢高度契合。
OpenAI首席研究官:通往AGI之路
在外媒TechINAsia最新文章中,通過采訪OpenAI模型背后的人,向外界再次展示了OpenAI可預見的AGI的未來。
Mark Chen,這位華人研究科學家,在內部模型研發中扮演著舉足輕重的作用。
在OpenAI的七年時間里,他從研究科學家逐步晉升為首席研究官,負責模型開發和公司整體研究工作。
他領導了多項里程碑式的項目——o1系推理模型、文本到圖像模型Dall-E,以及融入視覺感知的GPT-4。
從金融到AI,意外的職業轉折
Mark Chen的職業生涯,并非從一開始就鎖定AI。
在MIT獲得數學與計算機科學雙學位后,他原本的計劃是,繼續攻讀博士學位,成為一名教授。
然而,命運的轉折點出現。
在計劃合作的教授創立了一家對沖基金后,他改變了方向,隨之加入了金融行業。
在這樣高頻交易的世界里,Mark Chen度過了6年。
他坦言,「這份工作在某些方面令人滿足,但在其他方面非常不滿足。你面對同樣的競爭對手,大家都在追求更快,但你感覺不到自己正在改變世界」。
2016年,谷歌AlphaGo在一場歷史性比賽中,擊敗了九段棋手李世石,其人類水平的表現甚至讓AI專家震驚。
受此啟發,Mark Chen通過實現Deep-Q神經網絡復刻AlphaGo。正是這一嘗試,讓他徹底迷上了AI。
盡管沒有博士學位,幸運的是,他通過OpenAI的駐留計劃,幸運地邁入了這一領域。
找到AGI最佳平衡
在談及AGI之時,Mark Chen表示,「我們采用非常廣泛的定義,它不僅是ChatGPT,還包括了其他東西」。
一直以來,OpenAI將AGI視為AI的圣杯,并制定了五級框架來實現這一目標。
而現在,他們已經到達了第三級,智能體AI(Agentic AI)——能自主執行復雜任務和規劃。
Mark Chen介紹稱,OpenAI近期推出的兩款AI智能體產品,Deep Research和Operator尚處于早期階段。
Operator在未來,速度可以更快,軌跡可以更長,這些產品代表了OpenAI對智能體AI的雄心。
他還強調,平衡短期產品發布與長期研究,將計算資源分配到OpenAI的整個項目組合中,是自己工作的核心,最終確保OpenAI在商業化與科學探索之間找到最佳平衡。
Mark Chen對OpenAI內部算法的優化充滿信心。
他表示,自家的推理模型在訓練時,使用的數據遠少于預訓練模型,但通過更多計算資源實現了高效性能。
由此,OpenAI在效率上不遜于谷歌Gemini 2.5等競爭對手。
回應開源
幾天前,奧特曼在一次會議上稱,預計今年夏天開源首個推理模型。
在采訪中,Mark Chen同樣透露,公司正計劃發布GPT-2以來首個開源語言模型。
他認為,開源模型的優勢在于推理能力和開發者對其進行優化,但也因安全措施較少,而存在濫用的風險。
面對DeepSeek等AI模型強勢崛起,Chen顯得從容不迫。
他表示,在AI領域最大的危險,是反應過度。OpenAI堅信自己的路線圖,專于長期目標而非短期市場噪音。
最后,Mark Chen還為想要進入AI領域的年輕人提供了建議:「深入熟悉所有工具,永遠保持好奇心」。
你玩的工具越多、越好奇,就越能理解其他人試圖推動的領域,以及未來的正確方向。你必須保持領先。
這是一個變化很快的領域。你看到的許多被探索的事物,都是未來的瞥見。
參考資料:
https://www.techinasia.com/man-models-openais-research-chief-road-agi
https://www.youtube.com/watch?v=NNGbaiN1L7Y
https://x.com/slow_developer/status/1921248876687999153
https://x.com/jacobeffron/status/1920849638166315104
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.