在 AI 圈,頂尖公司之間“卷”得有多狠?是每天都在 push 到半夜,還是只要有想法,就能落地上線?OpenAI、Anthropic、Google DeepMind……這些前沿的 AI 公司日常是什么樣的?
近日,一位離職員工用一篇長文,揭開了其中的一角。
他就是 Calvin French-Owen,曾深度參與 OpenAI 明星產品 Codex 開發的工程師。
Calvin 于 2024 年加入 OpenAI,并在三周前選擇離職。在此之前,他是客戶數據平臺初創公司 Segment 的聯合創始人(這家公司已于 2020 年被 Twilio 以 32 億美元收購)。對他來說,進入 OpenAI 更像是一場“重新上場”的冒險,一次親自站在前沿、體驗技術爆發期的機會。
如今,他選擇用這篇坦率又細致的回憶,講述他在 OpenAI 工作的一年:從公司文化到日常開發節奏,從 GPU 成本到代碼風格,從“第一行代碼到 Codex 上線只花 7 周”的沖刺經歷,到凌晨部署、清晨上線的高強度節奏——他說,那可能是他近十年來最拼的一段時間。
接下來,我們將通過本文透過一線工程師的視角,看清這家明星公司在急速擴張背后的真實模樣。
原文:https://calv.info/openai-reflections
作者 | Calvin French-Owen 責編 | 蘇宓
出品 | CSDN(ID:CSDNnews)
投稿或尋求報道 | zhanghy@csdn.net
以下為譯文:
我在三周前離開了 OpenAI,而我是在 2024 年 5 月加入這家公司的。
之所以想分享一些個人感受,是因為業界有很多關于 OpenAI 的爭議,但真正來自內部關于工作、文化的一手敘述卻不多。
Nabeel Qureshi(作家)曾寫過一篇很棒的文章《Reflections on Palantir》,他在其中回顧并思考了美國軟件與服務公司 Palantir 的獨特之處。我也想趁著記憶還非常清晰的時候,為 OpenAI 寫一篇類似的內容。這里不會提及到什么商業機密,只是我想分享一些親身感受——關于這家有意思的公司,在一個特別關鍵時期的真實樣子。
先說在前頭:我離開的決定并沒有什么私人恩怨——其實我當時非常糾結。作為曾經的創業者,轉而成為一家擁有 3000 名員工公司的普通一員,這種轉變確實不容易。
現在的我,更想要重新開始。
當然,未來我也有可能會再次被 OpenAI 的工作氛圍吸引而重新加入。畢竟,能參與構建 AGI 這樣的事,是很難再遇到的;而大語言模型無疑是這十年最重大的技術創新。我感到幸運,曾親身見證了一些關鍵進展,也參與了 Codex 的發布。
顯然,這些只是我個人的看法,并不代表公司立場。OpenAI 是一個龐大的組織,而這只是我所看到的一隅。
OpenAI 的企業文化——“自下而上”
關于 OpenAI,首先要知道的一點是它增長得有多快。
我加入的時候,公司好像剛超過 1000 人。一年后,員工數量已超過 3000,而我竟然已經排進了工齡前 30%。幾乎所有領導層成員現在做的事情,和他們 2–3 年前的角色完全不同。
當然,組織擴張這么快,各種問題很快都會出現,譬如公司內部溝通方式、匯報結構、產品交付流程、人員管理和組織方法、招聘流程等等。
不同團隊之間的文化差異也非常明顯:有的團隊一直在高速沖刺各種新項目,有的在盯著大規模訓練,有的則節奏穩定地去推進項目。不存在某種“統一的 OpenAI 工作體驗”,因為研究、應用和 GTM(go-to-market)團隊運行的時間尺度完全不同。
OpenAI 一個非常特別的地方是——一切,真的是一切,都在 Slack 上進行。沒有電子郵件。在我工作的一年中,我可能只收到了不到 10 封的郵件。如果你缺乏自我管理能力,這種工作方式可能令你分心。但只要你精心篩選頻道和通知,其實是可以很好用的。
OpenAI 非常強調“自下而上”的文化,尤其是在研究團隊。剛入職時,我開始詢問下一個季度的研究路線圖時,得到的回答是:“這個東西不存在”(雖然現在有了)。好點子可以來自任何人,而且在事前往往很難判斷哪些想法最終會產出成果。與其說是遵循一張宏大的“藍圖”,不如說進展是通過不斷迭代、在研究產生成果的過程中逐步實現的。
也正因為這種“自下而上”的文化,OpenAI 的組織運作非常“精英主義”。歷史上,公司里的領導者往往是因為他們能提出好想法,并能親自推動落地而被提拔的。很多能力極強的領導并不擅長在全員大會上發言或搞職場政治——但在 OpenAI,這些事情的重要性遠不如其他公司。只要有真正好的想法,通常就能脫穎而出。
OpenAI 整體有非常強的“動手偏好”(bias to action),你可以直接動手去做事。不同團隊會不約而同地想到相似的點子也是常見的。我剛加入時參與了一個類似 ChatGPT Connectors 的內部項目。當時大概已經有三四個 Codex 的原型在內部流轉,最后才決定推進其中一個版本發布。這類項目通常是幾個人在沒走流程的情況下自己搞起來的,等到項目有前景后,團隊會迅速圍繞它組建起來。
Codex 的負責人 Andrey 曾經對我說:你應該把研究員當作“小型高管”來看待。確實,大家都傾向于自主挑選項目然后看看能做到哪一步。也有一種普遍共識是:大多數研究項目是靠“誘捕式 nerd-sniping”推進的——只要某個問題讓研究員產生興趣,他們就會全情投入。如果一個問題被認為“無聊”或“已解決”,基本不會有人繼續做。
優秀的研究主管極具影響力,但數量也極為有限。最優秀的那批人,能把不同研究方向之間的點連起來,最終推動大模型訓練的集成。產品經理也是如此(特別提名一下 ae)。
我合作過的 ChatGPT EM(工程經理)——Akshay、Rizzo 和 Sulman,是我見過最酷的一批人。他們見多識廣,對流程了如指掌,大多采用“少干預、放權用人”的管理方式,努力確保團隊能成功推進。
OpenAI 的方向調整可以說是瞬間轉彎。這點在我以前的公司 Segment 就很看重——當你獲得新的信息時,做出正確決策遠比死守舊計劃重要。OpenAI 能在這么大體量的情況下依然保持這種文化,實屬罕見——Google 顯然做不到這點。公司決策迅速,一旦確定方向,就會全力以赴。
一直以來,OpenAI 也受到極大關注。作為一名來自 B2B 企業背景的員工,這對我來說有點震撼。我經常看到媒體搶先發布的新聞,連公司內部都還沒宣布。我一說自己在 OpenAI 工作,別人就已經對公司有一套成型看法。有些 X(Twitter)用戶甚至用自動化 bot 來監控是否有新功能即將發布。
因此,OpenAI 是個非常保密的地方。我無法向任何人詳細說明我在做什么。內部有多個 Slack 工作區,不同權限層級劃分明確。公司的營收和支出數據也被嚴格保護。
OpenAI 也比你想象的更“嚴肅”,部分原因是因為大家都感覺“賭注極高”。一方面,公司的目標是構建 AGI——意味著很多東西必須做對;另一方面,我們也在構建一個數億人使用的產品,涵蓋從醫療建議到心理治療等敏感用途;再者,我們正參與全球最大規模的競爭。這意味著我們密切關注 Meta、Google、Anthropic 的動態,我相信他們也在盯著我們。幾乎所有主要國家都在密切關注這一領域。
盡管 OpenAI 經常被媒體批評,但我接觸到的每個人都是真心想把事情做好。作為最面向消費者的大模型實驗室之一,公司自然成為攻擊焦點。
話雖如此,你也不應該把 OpenAI 看作一個整體、單一意志的“巨石”。在我看來,OpenAI 更像是當初的洛斯阿拉莫斯實驗室(Los Alamos)。最初是一群科學家和愛折騰的工程師,在研究科學的最前沿,結果“意外”打造出史上最火的消費級應用。接著公司又擴展出向政府和企業銷售的野心。組織內部,不同工齡和不同團隊背景的人有著截然不同的目標與世界觀。工齡越久的人,越傾向于從“研究實驗室”或“公益非營利”的角度看問題。
我最欣賞的一點是:OpenAI 確實兌現了承諾——將 AI 的紅利普惠分發。最新模型并沒有只提供給簽年單的大客戶。全球任何人都可以打開 ChatGPT 獲取答案,哪怕不登錄賬號也行。開發者可以申請 API 來接入使用——即使是 SOTA 或專有模型,通常也會很快開放在 API 中供創業團隊調用。我們完全可以想象一種完全不同的做法,但 OpenAI 并沒有那樣做,這一點非常值得肯定。這種“普惠思維”仍是公司文化的核心。
關于安全,可能跟你從 Zvi 或 Lesswrong 那些地方讀到的有所不同:OpenAI 內部其實非常重視安全問題。我看到更多是對“現實風險”的關注,比如仇恨言論、濫用、操縱政治偏見、生化武器、自殘、提示注入等,而不是所謂的“理論風險”,比如智能爆炸或模型主動尋求權力。當然,也確實有人在研究后者,但從我所見,這并不是工作的重心。大多數相關工作都沒有對外發布,OpenAI 應該多做些對外公開。
和其他科技公司在校園招聘或行業活動上熱衷發放各種帶有品牌標志的紀念品(swag,例如 T 恤、貼紙、水壺、帽子等)不同,OpenAI 幾乎不發放這些東西,甚至連剛入職的新員工也不例外。只有偶爾開放“限量搶購”,有庫存才能買。第一次開放就直接把 Shopify 商店干崩了。后來內部還有帖子教大家怎么發 JSON 請求來繞過系統。
最后說個現實層面:幾乎所有開銷相比 GPU 成本來說都可以忽略不計。打個比方,你就能明白:我們在 Codex 里做的一個非常小眾的功能,它消耗的 GPU 資源,居然和我以前在 Segment 時整套基礎設施的花費差不多(雖然 Segment 沒有 ChatGPT 那么大規模,但它也支撐著不小的一部分互聯網流量)。
OpenAI 可能是我見過野心最大的公司。你可能會覺得,擁有像 ChatGPT 這樣的頂級消費級應用已經很了不起了,但他們遠不滿足于此,還想在很多領域同時競爭:比如 API 服務、前沿研究、硬件設備、編程智能體、圖像生成,甚至還有一些還沒公布的項目。在這里,只要你有想法,就能找到機會把它做出來、跑起來。
此外,OpenAI 內部對 Twitter 上的動態關注程度也超出想象。如果你發了條關于 OpenAI 的相關內容還引發了“病毒式”的傳播,很可能有人會看到并認真考慮。我有個朋友打趣說:“這家公司靠 Twitter 氛圍驅動”,作為一家面向消費者的公司,可能還真有點道理。當然,我們依然有很多數據分析工作要做,比如使用頻率、用戶增長、留存率等等,但“氛圍感”確實同樣重要。
OpenAI 內部團隊的流動性遠比其他公司高。當我們推進 Codex 時,需要 ChatGPT 那邊幾個經驗豐富的工程師幫忙沖刺上線。于是我們找幾個 ChatGPT EM 開了個會提了下需求,第二天就有兩位強援直接加入投入工作。沒有“等季度規劃”或“重新調整人員配置”那一套,節奏非常快。
OpenAI 的領導層也保持時常“在線”,而且參與感很強。這可能聽起來不稀奇,但在 OpenAI,幾乎每個高管都很上心。你經常能在 Slack 里看到 gdb(Greg Brockman)、sama(Sam Altman)、kw(Karpathy)、mark、dane 等人親自發言、參與討論,沒人只是掛個名、當個甩手掌柜。
代碼:很多基礎設施都有點像 Meta
再來談談有關 OpenAI 的內部代碼開發、管理。
OpenAI 使用一個巨大的 monorepo(單體代碼庫),主要以 Python 為主(不過現在也有越來越多的 Rust 服務,另外還有一些用 Golang 寫的服務,通常用于網絡代理這類場景)。
由于 Python 寫法極其多樣,這也導致代碼風格千奇百怪——你可能會看到既有來自 Google 老兵為大規模系統設計的庫,也有剛畢業的博士寫的臨時性 Jupyter Notebook 腳本。幾乎所有服務都圍繞 FastAPI 來構建 API,使用 Pydantic 進行參數校驗。不過公司并沒有強制執行統一的代碼風格指南。
OpenAI 的基礎設施全部部署在 Azure 上。有趣的是,整個 Azure 平臺里,我認為真正靠譜的服務只有三個:Azure Kubernetes Service(AKS)、CosmosDB(Azure 的文檔型數據庫)以及 BlobStore(對象存儲)。Azure 并沒有 Dynamo、Spanner、Bigtable、BigQuery、Kinesis 或 Aurora 這樣的對應產品。自動擴容的概念在這里也不像在 AWS 那樣常見。IAM(身份與權限管理)系統的能力也遠不如 AWS。整體上,公司傾向于自己造輪子來解決問題。
從人員構成來看(至少在工程團隊里),有一條非常顯著的“Meta → OpenAI”人才通道。從很多方面看,OpenAI 很像早期的 Meta:一款爆款的消費級應用、基礎設施剛起步、以及一種強烈“快干快上”的文化。我見到的大多數基礎設施人才,都是從 Meta 或 Instagram 那邊過來的,實力都很強。
結合這些因素,可以看出 OpenAI 的很多核心基礎設施組件,風格都很像 Meta。例如內部重寫了一版 TAO(Meta 的社交圖存儲系統);又比如做了一項將身份認證統一至邊緣節點的整合嘗試;類似的項目我相信還有很多我沒接觸到的。
Chat 貫穿了整個系統架構。自從 ChatGPT 爆火之后,很多代碼都圍繞“對話消息”和“會話”來構建。這些原語已經深深植入系統架構中,忽視它們基本等同于自找麻煩。Codex 項目雖然在這方面有所偏離,但我們依然借鑒了很多現有成果。
OpenAI 的工程文化是“代碼為王”。公司沒有什么中央架構委員會或產品計劃委員會,通常都是哪個團隊要做事,就自己拍板。這種機制帶來一個明顯的結果:動手能力強,但也容易出現多個重復實現。我見過五六個不同的庫都在處理隊列管理或 agent 循環控制之類的功能。
當然,這種工程團隊極速擴張而工具建設不完備的狀態,也確實會帶來問題。比如 sa-server(后端單體服務)基本成了個“垃圾堆”;CI(持續集成)在主分支上崩掉的頻率,比你想象的要高;測試套件哪怕并行執行、并只選部分依賴,也要跑近 30 分鐘才能在 GPU 上完成。
這些問題雖然不至于無法解決,但確實是提醒我們:工程規模一旦暴漲,這類問題一定會出現,而且還可能更嚴重。值得肯定的是,內部很多團隊正致力于改善這些問題。
其他我學到的東西
什么叫“大型消費品牌”:直到我們開始做 Codex,我才真正理解這件事。在 OpenAI,所有衡量指標都圍繞“Pro 訂閱用戶”展開。哪怕是 Codex 這種偏工具類產品,我們也主要以“個人使用者”的視角來設計引導流程,而不是從“團隊使用”角度出發。對我這種 B2B / 企業軟件背景出身的人來說,這種模式一開始完全打破了我的認知。只要按鈕一開,流量馬上就來了。
大模型是怎么訓練出來的?簡單來說,整個過程從“小試驗”到“大工程”是一條漸進的路線。一開始,大多數想法都是先做個小規模的實驗,看看效果如何。如果結果不錯,才會被加入到更大規模的訓練中。這個“試驗”階段不僅僅是調整算法本身,還包括調整訓練用的數據配比,并且要非常細致地分析結果。等到真正開始大規模訓練時,那就不只是算法的事了,更像是在做一個超大規模的分布式系統工程。你會遇到各種奇怪的邊角問題,甚至一些完全沒預料到的 bug——而這些都得靠你自己去排查解決。
怎么估算 GPU 要用多少?在 Codex 上線前,我們得提前預測系統的負載需求,這也是我第一次認真去做 GPU 的性能評估。關鍵的一點是:你不能一上來就研究一塊 GPU 能撐多少任務,而應該先從你對產品性能的要求出發,比如:整體響應時間、生成多少個 token、多久能給出第一個 token 等。這些需求決定了你要多少 GPU。而且每一代新模型的計算方式和負載模式可能都不一樣,所以用舊經驗來估算,很多時候會失準。
如何在大型 Python 代碼庫中工作:以前我所在的 Segment 公司主要用的是 Golang 和 TypeScript,而且以微服務為主,遠不如 OpenAI 的代碼庫龐大。這里我學到很多:當有大量開發者同時維護一個倉庫時,你必須增加各種“防誤操作”機制,比如“默認可用”、“主干分支保持干凈”、“不容易被誤用”等。這些都需要通過規范和工具來系統性保障。
Codex 上線記:全身心投入,7 周開發一個產品出來
我在 OpenAI 的最后三個月,幾乎全都投入到了 Codex 的發布中。可以說,這是我職業生涯中最精彩的經歷之一。
事情的起點要從 2024 年 11 月說起,當時 OpenAI 定下了一個 2025 年的目標:發布一款編程代理工具。到了 2025 年 2 月,我們已經有一些內部工具在使用大模型做得有模有樣了,同時也開始感受到越來越大的壓力:我們必須發布一個專門為編程打造的智能體。很明顯,模型的能力已經發展到真正能“干活”的程度——從市面上一波接一波的 vibe-coding 工具爆發就能看出端倪。
為了參與 Codex 的沖刺,我提前結束了育嬰假回到崗位。一周后,我們經歷了兩個團隊的(略顯混亂的)合并,隨后就進入了緊張的沖刺模式。
從動第一行代碼到正式發布,這個產品只花了7 周時間就完成了。
那段時間的強度,可能是我近十年來工作最拼的一次。幾乎每天都加班到 11 點甚至半夜,早上 5:30 被剛出生的寶寶叫醒,7 點又進辦公室,連周末也常常在工作。我們每個人都在全力沖刺,因為每一周都至關重要。那種感覺,就像重回 YC(Y Combinator)時期一樣。
很難用言語表達我們推進速度之快有多不可思議。無論大公司小公司,我都沒見過哪個團隊能從一個點子起步,在如此短的時間里上線一個完整、開放的產品。而且 Codex 的范圍也不小:我們構建了容器運行環境,對代碼庫下載流程做了優化,微調了一個專門用于處理代碼編輯的模型,支持各種 Git 操作,設計了全新的交互界面,還接入了互聯網訪問,最終交付出一個真正好用的產品。
無論你對 OpenAI 有什么看法,這家公司至今仍保留著那種“沖刺發布”的精神。
幸運的是,我們有一群“對的人”,因此才能實現這些“魔法”。我們的核心團隊包括約 8 名資深工程師、4 名研究員、2 位設計師、2 位 GTM 和一位產品經理。如果不是這批人參與,我覺得我們不可能做成。每個人都很獨立,不太需要被管理,但確實需要相當多的協調。如果你有機會和 Codex 團隊的任何一位成員共事,請相信——他們每一個人都很棒。
上線前一晚,我們五個人熬夜干到了凌晨 4 點,才把主服務部署好(整個過程花了好幾個小時)。接著早上 8 點又趕回辦公室,準備發布公告和直播上線。
我們一開通功能開關,流量立馬就開始涌進來。我從沒見過一個產品光是出現在 ChatGPT 左邊的菜單欄里,就能立刻帶來這么大的使用量——這就是 ChatGPT 的影響力。
在產品形態設計上,我們最終選擇了完全異步的交互模式。與 Cursor(當時尚未支持此模式)或 Claude Code 不同,我們允許用戶發起任務,讓智能體在自己專屬的運行環境中執行。我們的基本判斷是,長遠來看,用戶應當像與同事協作一樣使用智能體:你發送一條消息,智能體執行任務,然后回來給你一個 Pull Request。
當然,這是一個有點冒險的判斷。現在的模型能力處在一個“略顯尷尬”的階段:它們可以連續工作幾分鐘,但還做不到持續數小時。用戶對模型的信任程度也差異很大。而我們自己也不完全清楚這些模型的真正上限到底在哪里。
但從長期來看,我相信大多數程序開發都會逐漸演變成類似 Codex 的方式。至于在這個過渡階段,各類產品會如何演化,也值得我們持續關注。
Codex(毫不意外)非常擅長處理大型代碼庫,理解并導航其中的結構。與其他工具相比,它最大的優勢是可以并發啟動多個任務,并對比它們的輸出結果。
最近我看到一組公開數據,統計了不同 LLM 智能體生成的 Pull Requests 數量。Codex 截至目前已經生成了63 萬個 PR。平均下來,在上線后的 53 天內,每位工程師貢獻了7.8 萬個公開 PR(私有 PR 的數量估計更高)。我不確定自己是否還會參與到比這更有影響力的項目了。
一些離別思考
說實話,我當初加入 OpenAI 時心里是有些猶豫的。我擔心失去自由,擔心要向上級匯報,擔心自己只是一個龐大機器中的一個小螺絲。所以我一開始沒大張旗鼓地宣布入職,只是低調試試看這是不是個合適的選擇。
我原本希望從這段經歷中獲得三件事:
弄清楚這些模型是怎么訓練出來的,以及它們未來還能變得多強。
與優秀的人共事并向他們學習
做出一款真正有影響力的產品
現在回顧這一年,我認為這是我做過的最正確的決定之一。我很難想象還有哪里能學到這么多東西。
如果你是個創業者,但覺得自己的項目遲遲沒什么進展,那你有兩個選擇:
1)認真反思一下,看看還有沒有更多“嘗試進球”的機會;
2)干脆加入一家頂尖的 AI 實驗室。
現在是一個非常好的創業時機,同時也是一個看清未來走向的絕佳時刻。
在我看來,通向 AGI 的賽道目前是一場“三足鼎立”的競賽:OpenAI、Anthropic 和 Google。這三家公司由于其基因不同(消費導向、企業導向、極致基礎設施 + 數據導向),各自會走出不同的路徑。
能夠加入任何一家,都會是一次拓寬眼界的經歷。
明晚 20:00,【開談】來了!
AI 正在重塑組織,你的工作是被“替代”還是被“增強”?
《無人公司》作者李智勇 × Tanka.ai CEO 林宋琪,首次同臺拆解:
· 超級團隊 VS 無人公司
· AI 原生產品,究竟該長什么樣?
· SaaS 終局:共存 or 被 AI 吃掉?
掃碼預約,明晚一起搶跑未來!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.