今天凌晨,,相對比 4o,GPT-4.1 在編程和指令遵循方面的能力顯著提升,同時還宣布 GPT-4.5 將會在幾個月后下線。
不少人吐槽 OpenAI 讓人迷惑的產(chǎn)品發(fā)布邏輯——GPT-4.1 晚于 4.5 發(fā)布,以及混亂的模型命名,這些問題,都能在 OpenAI CPO Kevin Weil 最近的一期播客訪談中得到解答。
在訪談中,Kevin Weil 分享了 OpenAI 在產(chǎn)品方面的路線規(guī)劃,以及所擁護(hù)的產(chǎn)品發(fā)布哲學(xué)「迭代部署」,對于近期火熱的 4o 圖片生成功能,也做了內(nèi)部的復(fù)盤。
Kevin Weil 表示,「我們盡量保持輕量級,因為它不可能完全正確。我們會在半路放棄一些不正確的做法或研究計劃,因為我們會不斷學(xué)習(xí)新的東西。我們有一個哲學(xué)叫做迭代部署,與其等你完全了解模型的所有能力后再發(fā)布,不如先發(fā)布,即使不完美,然后公開迭代。」
背景:Kevin Weil 是 OpenAI 的首席產(chǎn)品官,負(fù)責(zé)管理 ChatGPT、企業(yè)產(chǎn)品和 OpenAI API 的開發(fā)。在加入 OpenAI 之前,Kevin 曾擔(dān)任 Twitter、Instagram 和 Planet 的產(chǎn)品負(fù)責(zé)人,并在 Facebook 主導(dǎo)了 Libra(后更名為 Novi)加密貨幣項目的開發(fā)。
文章基于播客原內(nèi)容進(jìn)行編譯,在不改變原意的前提下略有調(diào)整。
TLDR:
OpenAI 有一個哲學(xué)叫做「迭代部署」,其理念是我們一起學(xué)習(xí)這些模型,與其等到完全了解模型所有能力后再發(fā)布,不如先發(fā)布,即使不完美,然后公開迭代。還有一點是產(chǎn)品哲學(xué)是「模型最大化」,模型并不完美,會犯錯。但我們不會在不必要的「腳手架」上花費太多時間,兩個月后就會有更好的模型出現(xiàn),打破當(dāng)前的限制。
OpenAI 永遠(yuǎn)不應(yīng)該只是一家純粹的產(chǎn)品公司,必須既是一流的研究公司,又是一流的產(chǎn)品公司,兩者需要緊密合作。以 Deep Research 為例,Kevin Weil 解釋了產(chǎn)品與研究同事之間的大量來回配合。Kevin Weil 認(rèn)為,如果將兩者分開,研究人員去做他們擅長的事情、訓(xùn)練模型,到某個階段之后,產(chǎn)品和工程團(tuán)隊才接手做事,那么我們就只是自己模型的「 API 消費者」。
未來會有非常聰明、廣泛適用的模型,針對特定公司或用例的數(shù)據(jù)進(jìn)行微調(diào),使它們在特定的公司或用例上表現(xiàn)優(yōu)異,而我們需要使用定制的評估來衡量它們的表現(xiàn)。但目前在行業(yè)中,并沒有更多地使用微調(diào)模型,對于特定的用例,微調(diào)能夠讓模型的表現(xiàn)更好,這是未來的趨勢。
撰寫有效的評估報告正成為產(chǎn)品經(jīng)理和 AI 產(chǎn)品開發(fā)團(tuán)隊的一項核心技能。這些結(jié)構(gòu)化的測試衡量模型在特定任務(wù)上的表現(xiàn),幫助團(tuán)隊了解模型的優(yōu)勢(準(zhǔn)確率 99.95%)和劣勢(準(zhǔn)確率 60%),這些知識從根本上塑造了產(chǎn)品設(shè)計決策。評估報告的質(zhì)量實際上限制了 AI 產(chǎn)品的潛力,因為模型只能針對可有效測量的內(nèi)容進(jìn)行優(yōu)化。
盡管許多人認(rèn)為聊天是一種將被取代的原始界面,但 Kevin Weil 認(rèn)為聊天可能是人工智能的理想交互模式。聊天的非結(jié)構(gòu)化、靈活性能夠最大限度地提升通信帶寬,而這是結(jié)構(gòu)化界面無法做到的。這反映了人類自然溝通的方式,并且能夠適應(yīng)任何智能水平,從基礎(chǔ)智能系統(tǒng)到超級智能系統(tǒng)。
Founder Park 正在搭建開發(fā)者社群,邀請積極嘗試、測試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請掃碼詳細(xì)填寫你的產(chǎn)品/項目信息,通過審核后工作人員會拉你入群~
進(jìn)群之后,你有機(jī)會得到:
高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會;
好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會主動做宣傳。
01
OpenAI 的產(chǎn)品發(fā)布哲學(xué):先發(fā)布再迭代
Lenny:你之前說過,技術(shù)不斷變化和加速,到發(fā)布時你還不確定模型會有多強(qiáng)大。我很好奇,是什么讓你們能夠如此快速且一致地推出這么多優(yōu)秀的產(chǎn)品?聽起來一個答案是自下而上的賦權(quán)團(tuán)隊,而不是自上而下的季度路線圖規(guī)劃。還有什么讓你們能夠如此頻繁、如此快速地推出好的模型和產(chǎn)品?
Kevin Weil:我們盡量保持一個大致的方向,指向我們想要前進(jìn)的道路,確保基本的方向一致。
在主題上,我們會制定季度路線圖,并制定全年的策略。但是我不相信我們寫下的東西在三個月后,更別說六個月或九個月后,真的能夠完全實現(xiàn)。但這沒關(guān)系,艾森豪威爾有一句名言我非常贊同:「計劃無用,規(guī)劃有益」,尤其是在這個領(lǐng)域。
季度路線圖很有價值,它能讓我們停下來思考:我們做了什么?什么成功了,什么沒有成功?我們學(xué)到了什么?接下來要做什么?另外,每個人都有依賴關(guān)系,你需要基礎(chǔ)設(shè)施團(tuán)隊做這些,與研究團(tuán)隊合作做另一些事情,所以必須停下來檢查這些依賴關(guān)系,確保沒有問題,然后開始執(zhí)行。
我們盡量保持輕量級,因為它不可能完全正確。我們會在半路放棄一些不正確的做法或研究計劃,因為我們會不斷學(xué)習(xí)新的東西。所以規(guī)劃的時刻是有幫助的,即使只對了一部分。這就要求我們自己要非常敏捷,沒有必要制定三個月的路線圖,更別說一年的,因為技術(shù)變化太快了。
我們真的很注重自下而上,但會受到整體方向一致性的約束。我們擁有一批非常優(yōu)秀的人才。工程師、產(chǎn)品經(jīng)理、設(shè)計師、研究員都對他們開發(fā)的產(chǎn)品充滿熱情,有強(qiáng)烈的觀點,而且他們本身也是實際的開發(fā)者。他們非常清楚能力的邊界,這一點非常重要。所以我認(rèn)為應(yīng)該更加自下而上。我們樂于犯錯,并且經(jīng)常犯錯。
我很欣賞 Sam 的一點是,他會推動我們快速行動,但也理解快節(jié)奏會帶來失誤,比如「我們這個沒做好」或者「這個發(fā)布了,不行,回滾吧」。看看我們的命名,簡直太糟糕了。
Lenny:很多人向你提出了關(guān)于模型命名的問題。
Kevin Weil:我們的命名確實很糟糕,我們自己也知道,未來會找時間改進(jìn),但這并不是最重要的事情,所以我們沒有在這上面投入太多的精力。
Lenny:但這似乎也說明了命名其實并沒有那么重要。ChatGPT 是歷史上最受歡迎、增長最快的產(chǎn)品,模型也是排名領(lǐng)先的模型,顯然這并沒有造成太大的影響。
Kevin Weil:沒那么重要,我們可能會有類似「o3 mini high」這樣的模型命名。
Lenny:哈哈,我喜歡這個。你提到了路線圖和自下而上,我很好奇你們是如何保持對齊的?是否有固定的節(jié)奏或儀式讓你或 Sam 審查所有即將推出的產(chǎn)品?比如每周或每月有例會,看看進(jìn)展如何?
Kevin Weil:正如你所料,我們會進(jìn)行產(chǎn)品審查,但是沒有固定的儀式。因為我絕不希望團(tuán)隊因為等待我和 Sam 的審查而無法發(fā)布新產(chǎn)品或新功能。如果我出差或者 Sam 很忙,那不應(yīng)該成為我們不發(fā)布的理由。
顯然,對于最重要、優(yōu)先級最高的項目,我們會密切關(guān)注,但坦白地說,我們盡量不去阻礙。我們希望賦權(quán)團(tuán)隊快速行動,我認(rèn)為發(fā)布和迭代更為重要。
所以我們有一個哲學(xué)叫做「迭代部署」,其理念是我們一起學(xué)習(xí)這些模型。因此,與其等你完全了解所有能力后再發(fā)布,不如先發(fā)布,即使不完美,然后公開迭代。我們和整個社會一起進(jìn)化,了解這些模型的不同之處、優(yōu)點、缺點和古怪之處。我非常喜歡這個哲學(xué)。
還有一點是我們的產(chǎn)品哲學(xué)中有一種「模型最大化」的感覺。模型并不完美,會犯錯。你可以花費大量時間圍繞它們構(gòu)建各種「腳手架」(Scaffolding),有時候我們也會這樣做,因為有些錯誤是我們不想犯的。但是我們不會在不必要的「腳手架」上花費太多時間,因為我們的心態(tài)是,兩個月后就會有更好的模型出現(xiàn),打破當(dāng)前的限制。我們也這樣對開發(fā)者說:如果你開發(fā)的產(chǎn)品正好處于模型能力的邊緣,繼續(xù)努力,你做對了。再過幾個月,模型會變得更強(qiáng)大,你那個之前勉強(qiáng)能用的產(chǎn)品就會大放異彩。這能夠確保你在推動邊界、創(chuàng)造新的事物。
Lenny:我在播客上采訪了 Bolt 的創(chuàng)始人 Eric Simons,他分享了他們七年幕后開發(fā)產(chǎn)品的故事,一直失敗,沒有起色。突然 Claude Sonnet 3.5 出來了,一切都變得好用了。他們一直在打造產(chǎn)品,終于成功了。我在 YC 也經(jīng)常聽到這種事情:以前不可能的事情,每隔幾個月隨著模型的更新就變成了可能。
Kevin Weil:是的,絕對是這樣。
02
好的AI公司不能只是模型的「API消費者」
Lenny:我猜很多創(chuàng)新來自于研究人員的靈感,有些想法來自于產(chǎn)品經(jīng)理和工程師。這些團(tuán)隊是如何協(xié)作的?每個團(tuán)隊都有產(chǎn)品經(jīng)理嗎?很多是研究主導(dǎo)的嗎?
Kevin Weil:我們正在這個方面進(jìn)行大幅度的進(jìn)化,我對此感到非常興奮。回想幾年前 ChatGPT 剛起步的時候,我不在 OpenAI,那時 OpenAI 更像是一家純粹的研究公司。如果你還記得,ChatGPT 是一個低調(diào)的研究預(yù)覽版,團(tuán)隊推出時并沒有預(yù)料到它會成為如此成功的產(chǎn)品。它只是一個讓我們能夠玩玩模型、進(jìn)行迭代的方式。
所以當(dāng)時 OpenAI 主要是一家研究公司,一家頂尖的研究公司。隨著 ChatGPT 的增長,我們開發(fā)了 B2B 產(chǎn)品、API 等等,現(xiàn)在我們比以前更像一家產(chǎn)品公司了。我認(rèn)為 OpenAI 永遠(yuǎn)不應(yīng)該只是一家純粹的產(chǎn)品公司,我們必須既是一流的研究公司,又是一流的產(chǎn)品公司,兩者需要緊密合作。這是過去六個月我們顯著改進(jìn)的地方。
如果將兩者分開,研究人員去做他們擅長的事情、訓(xùn)練模型,到某個階段之后,產(chǎn)品和工程團(tuán)隊才接手做事,那么我們就只是自己模型的「 API 消費者」。
但是最好的產(chǎn)品,就像我說的 Deep Research,需要大量的迭代反饋。要理解你想要解決的問題,構(gòu)建評估(evals),用評估收集數(shù)據(jù),微調(diào)模型,讓它在你想要解決的用例上表現(xiàn)得更好。
這需要大量的來回配合。我認(rèn)為最好的產(chǎn)品是產(chǎn)品設(shè)計和研究人員團(tuán)結(jié)在一起,像一個單一的團(tuán)隊那樣探索和打造新技術(shù)和新產(chǎn)品。我們現(xiàn)在就是這樣運作的,幾乎所有的產(chǎn)品都是如此。這是我們的新能力,因為我們作為一家產(chǎn)品公司還算新手,但是大家都對此感到非常興奮,因為每次這樣做,我們都能打造出很棒的產(chǎn)品。現(xiàn)在每個產(chǎn)品都是這樣開始的。
Lenny:OpenAI有多少產(chǎn)品經(jīng)理?
Kevin Weil:其實不多,大概 25 個。我個人認(rèn)為組織應(yīng)該保持一個較小的產(chǎn)品經(jīng)理團(tuán)隊。
我自己就是產(chǎn)品經(jīng)理,但是太多的產(chǎn)品經(jīng)理會帶來問題,會讓 PPT 和想法充斥世界,而不是實際的執(zhí)行。所以我認(rèn)為產(chǎn)品經(jīng)理和比他們略多的工程師合作是好事,因為他們不會進(jìn)行微觀管理,會將影響力和決策的責(zé)任留給工程師。這意味著你必須擁有非常關(guān)注產(chǎn)品的工程師,我們很幸運擁有這樣的人才。
我們有一個極其關(guān)注產(chǎn)品、積極主動的工程團(tuán)隊。產(chǎn)品經(jīng)理努力理解問題,輕輕地引導(dǎo)團(tuán)隊,但是事情太多了,無法深入到每一個細(xì)節(jié)。這樣你就能快速行動,這是我們的哲學(xué)。我們想要產(chǎn)品主導(dǎo)的工程師,貫穿始終。我們不想要太多的產(chǎn)品經(jīng)理,但是我們的產(chǎn)品經(jīng)理都很優(yōu)秀。
Lenny:我猜在OpenAI做產(chǎn)品經(jīng)理對很多人來說是夢想成真,但同時對很多人來說可能并不適合。這里有研究人員、產(chǎn)品導(dǎo)向的工程師。你在招聘產(chǎn)品經(jīng)理時看重什么?對于那些想「也許我不應(yīng)該去那里工作」的人,你有什么建議?
Kevin Weil:我提過幾次,積極主動是我們非常看重的。不要等著別人允許你做事,看到問題就去解決,這是我們工作的核心。還要適應(yīng)模糊性,這里有很多模糊性。有時我們公司的工作對初級產(chǎn)品經(jīng)理來說會比較困難,因為這里沒有人會告訴你「這是全景,這是你的領(lǐng)域,去做這個」。早期職業(yè)的產(chǎn)品經(jīng)理想要這樣,但是我們沒有人有時間,問題定義不清,我們是邊走邊摸索。所以積極主動、適應(yīng)模糊性、準(zhǔn)備執(zhí)行并快速行動,這是我們的制勝法寶。
同時,還要樂于通過影響力來領(lǐng)導(dǎo)。通常產(chǎn)品經(jīng)理沒有人直接向你匯報,團(tuán)隊也不歸你管,再加上研究功能的復(fù)雜性,更難直接推動。與研究團(tuán)隊建立良好的關(guān)系非常重要,所以情商對我們來說也很關(guān)鍵。
Lenny:我知道在大多數(shù)公司,產(chǎn)品經(jīng)理剛進(jìn)來的時候,大家會想「我們?yōu)槭裁葱枰恪梗a(chǎn)品經(jīng)理需要贏得信任,證明自己的價值。在OpenAI可能是一個極端版本,他們可能會想「我們有研究人員、工程師,你來做什么?」
Kevin Weil:是的,做得好的時候大家會欣賞,但是你必須帶領(lǐng)大家一起前進(jìn)。我認(rèn)為產(chǎn)品經(jīng)理最重要的一點是果斷。這里有一個微妙的界限,我不太喜歡「產(chǎn)品經(jīng)理是產(chǎn)品的 CEO」這種說法。就像 Sam 如果在每次會議上都做出每一個決定,那么他很有可能會犯錯,如果他從不做出決定,那也是錯誤的。
關(guān)鍵在于知道什么時候應(yīng)該讓團(tuán)隊進(jìn)行創(chuàng)新,什么時候需要做出決定,當(dāng)有人感到不舒服或者沒有權(quán)限去做,或者當(dāng)決定涉及到太多分散的利弊,需要有人拍板的時候。這是 CEO 的重要特質(zhì),Sam 在這方面做得很好,這也是產(chǎn)品經(jīng)理在微觀層面上的重要特質(zhì)。因為模糊性很多,很多情況下答案并不明顯。我期望產(chǎn)品經(jīng)理在情況模糊、無人做出決定的時候,確保決定被做出,我們能夠繼續(xù)前進(jìn)。
03
模型微調(diào)的價值被低估了
Lenny:未來的產(chǎn)品團(tuán)隊會是怎樣的?你覺得產(chǎn)品團(tuán)隊的結(jié)構(gòu)或構(gòu)建方式最大的變化是什么?未來幾年會怎樣?
Kevin Weil:我認(rèn)為你肯定會看到每個產(chǎn)品團(tuán)隊里都有研究人員。
我指的不僅僅是基礎(chǔ)模型公司。坦白地說,我對整個行業(yè)有點驚訝,他們沒有更多地使用微調(diào)模型。這些基礎(chǔ)模型非常強(qiáng)大,我們的 API 能夠做很多事情。但是對于特定的用例,微調(diào)總是能夠讓模型的表現(xiàn)更好。這可能只是時間問題,大家還沒有完全習(xí)慣,但我確信這是未來的趨勢。
模型會無處不在,就像晶體管一樣,AI會融入我們所做的一切。但是會有很多微調(diào)模型。因為你為什么不針對特定的用例定制模型呢?我覺得幾乎每個團(tuán)隊都會有準(zhǔn)研究人員、機(jī)器學(xué)習(xí)工程師,微調(diào)模型將成為構(gòu)建大多數(shù)產(chǎn)品的核心流程。這是基礎(chǔ)模型公司已經(jīng)開始看到的趨勢,并且會隨著時間的推移擴(kuò)展到更多的團(tuán)隊。
Lenny:我想到一個例子:Cursor 和 Windsurf 的創(chuàng)始人告訴我,他們使用 Anthropic 的 Claude Sonnet,但還有很多定制模型在幫助他們,讓體驗更好,不僅僅是生成代碼,還有自動補全和預(yù)測下一步。你覺得團(tuán)隊會和研究人員一起構(gòu)建什么樣的微調(diào)模型?
Kevin Weil:微調(diào)模型的時候,你會給模型大量的例子,告訴它你希望它擅長什么。比如,「這是一個問題,這是一個好的答案;這是另一個問題,這是一個好的答案」,重復(fù)一千次或者一萬次。突然之間,模型在特定的任務(wù)上就比最初的時候強(qiáng)大得多。我們內(nèi)部都在使用這個方法,并且也應(yīng)用了多個模型結(jié)合的方法。
不是說我有十個問題,就直接問 GPT-4o 這個基礎(chǔ)模型。如果有十個問題,我們可能會使用二十個模型調(diào)用來解決,有些使用專門微調(diào)過的模型,有些使用不同規(guī)模的模型,因為不同的問題對延遲或成本的要求不同。針對不同的問題還會使用定制的提示,你可以訓(xùn)練模型在某些問題上表現(xiàn)得非常出色。
你需要將問題拆分成更具體的任務(wù),而不是一堆高層次的任務(wù)。然后使用特定的模型針對每個小任務(wù)做到最好,最后將結(jié)果組合起來解決整個問題,很多優(yōu)秀的公司已經(jīng)在這樣做了。我還看到很多公司只是給模型單一的、泛泛的問題,而不是拆分問題。我覺得未來會更多地進(jìn)行問題拆分,并使用經(jīng)過微調(diào)的特定模型。
Lenny:你的這個案例很有趣,你們是使用不同級別的 GPT 模型嗎?
Kevin Weil:我們內(nèi)部技術(shù)棧的某些部分會這樣做。舉個例子,客戶支持:我們有超過四億的周活躍用戶,收到了大量的工單。但是我們可能只有大約三四十個客服人員,比任何類似的公司都要少得多,因為我們自動化了很多流程。
大部分問題都是通過內(nèi)部資源知識庫、回答問題的指導(dǎo)方針、個性化設(shè)置等來教模型的,然后讓它自動回答很多問題。如果它對某個問題沒有十足的把握,它可以建議一個答案,然后請人工進(jìn)行審查,而這個人提供的答案就成為了模型的微調(diào)數(shù)據(jù),告訴它在特定情況下正確的答案是什么。我們在不同的地方使用不同的模型,有些地方需要更多的推理,對延遲不太敏感,我們就使用推理模型(o 系列),有些地方需要快速檢查,我們就使用 4o mini。
總的來說,特定的模型用于特定的目的,然后組合起來解決問題,這和人類解決問題的方式非常相似。一個公司可以說是一個模型組合,每個人根據(jù)大學(xué)所學(xué)的知識和職業(yè)經(jīng)驗被微調(diào),擁有不同的技能,組合起來的輸出要比個體強(qiáng)大得多。
Lenny:你提到了一個很多AI創(chuàng)業(yè)者關(guān)心的話題:OpenAI或其他基礎(chǔ)模型未來不會替代我的領(lǐng)域是什么?很多人不清楚是否應(yīng)該在某個領(lǐng)域創(chuàng)業(yè)。你有什么建議或指導(dǎo),關(guān)于 OpenAI 或基礎(chǔ)模型可能不會涉足或創(chuàng)業(yè)者有機(jī)會創(chuàng)業(yè)的領(lǐng)域?
Kevin Weil:我記得投資人 Fred Wilson 在 Twitter 上說過一句話,一直讓我印象深刻:不管你的公司有多大,多優(yōu)秀,墻外總比墻內(nèi)有更多聰明人。所以我們非常注重打造優(yōu)秀的 API,現(xiàn)在有三百萬開發(fā)者在使用我們的 API。
AI 能夠從根本上改善我們的生活,但是不管我們多么有雄心,規(guī)模有多大,世界上有太多的用例和領(lǐng)域是我們沒有能力親自去做的。我們沒有足夠的人力,也沒有足夠的垂直領(lǐng)域的知識和數(shù)據(jù)去進(jìn)入大多數(shù)領(lǐng)域。
就像我說的,數(shù)據(jù)是行業(yè)特定的、用例特定的,存在于某些公司的內(nèi)部。每個行業(yè)、每個垂直領(lǐng)域都有巨大的機(jī)會,去打造基于 AI 的產(chǎn)品,改進(jìn)現(xiàn)有的技術(shù)。我們不可能自己做到這些。我們不想,也不能。我們非常興奮能夠為三百多萬(未來會更多)開發(fā)者賦能。
Lenny:你經(jīng)常使用 ChatGPT,有什么能幫助你得到想要結(jié)果的技巧嗎?
Kevin Weil:首先我想打破你覺得人們需要擅長提示工程的想法,如果我們這些模型提供商的工作做得足夠好,人們就不需要掌握那么高的提示技巧,就像以前需要深入了解 MySQL 存儲引擎用的是 InnoDB 4.1 之類的細(xì)節(jié)一樣。一些專家級的用例可能需要復(fù)雜的提示,但是如果 AI 要廣泛普及,就不能讓用戶總是關(guān)注這些提示詞的細(xì)微差別。
我覺得我們正在進(jìn)步,讓模型比以前更少地需要提示工程了。不過我還是正面回答你的問題,結(jié)合我之前說的微調(diào)的重要性,你可以在提示中加入例子,做一種「窮人版的微調(diào)」。比如「這是一個問題,這是一個好的答案,現(xiàn)在請幫我解決這個問題」。模型會學(xué)習(xí),雖然不如完整的微調(diào)效果好,但是比不給例子要強(qiáng)很多。只是人們并不經(jīng)常這樣做。
04
內(nèi)部都不感興趣的功能,可能就不用做了
Lenny:你們?yōu)?GPT-4o 推出了圖片生成功能,我的整個社交媒體時間線上,都被吉卜力風(fēng)格的度假照、家庭照刷屏了。
Kevin Weil:是的,我的也是。我妻子也給我發(fā)了一張她的作品,所以我跟你一樣感到興奮。
Lenny:感覺這是 ChatGPT 推出以來AI領(lǐng)域最火爆的事情,你們預(yù)期到會這么成功嗎?
Kevin Weil:在我職業(yè)生涯中,有幾次這樣的經(jīng)歷,內(nèi)部開發(fā)一個項目或產(chǎn)品時,內(nèi)部使用量突然呈現(xiàn)爆炸式增長。比如我之前在 Instagram 開發(fā) Stories 的時候就是這樣。我們能感覺到它會成功,因為我們內(nèi)部都在使用。在正式推出前,我們周末出去玩,大家都在用這個功能。
圖像生成絕對是這樣一個例子,我們內(nèi)部玩了好幾個月。當(dāng)它第一次在公司內(nèi)部上線時,有一個小型的作品展示區(qū),你可以在那里生成自己的圖像,也可以看到其他人生成的,內(nèi)部也有持續(xù)不斷的討論。所以,我們有一種預(yù)感,這會非常有趣,大家會喜歡。
Lenny:這是一個很好的衡量標(biāo)準(zhǔn),判斷一個東西推出后是否會成功——那就是在推出前,內(nèi)部的員工都為之瘋狂。
Kevin Weil:是的,特別是偏社交傳播類產(chǎn)品,因為公司內(nèi)部的社交網(wǎng)絡(luò)非常緊密。如果你在做社交類的產(chǎn)品,如果內(nèi)部都沒有火起來,你可能真的要好好審視一下自己正在做的事情了。
Lenny:對了,那個吉卜力風(fēng)格是怎么回事?是你們有意這樣引導(dǎo)的嗎?是故意給出的示例嗎?
Kevin Weil:我覺得就是大家很喜歡這種風(fēng)格,而且模型非常擅長模仿風(fēng)格或理解用戶的需求,它在遵循指令方面表現(xiàn)得非常出色。你可以給它非常復(fù)雜的要求,比如提供兩張圖片,一張是你的客廳,另一張是一堆照片、紀(jì)念品或者任何你想要的東西,然后你可以說「告訴我如何布置這些東西」。模型真的能夠理解你的需求,并生成符合要求的圖片,這太強(qiáng)大了。所以我很期待人們會發(fā)現(xiàn)各種不同的玩法。
05
模型評估很重要,應(yīng)該是 AI 產(chǎn)品經(jīng)理的核心技能
Lenny:你在很多公司工作過,我很好奇,OpenAI的日常工作和那些地方最大的不同是什么?
Kevin Weil:我想可能是節(jié)奏。或許有兩點。
第一是節(jié)奏;
第二點是,在我之前工作過的所有地方,你大致清楚自己所依賴的技術(shù)基礎(chǔ)是什么,所以你會花時間思考:你在解決什么問題?為誰打造產(chǎn)品?如何改善他們的生活?這個問題是否足夠重要,能夠改變用戶的習(xí)慣?人們是否關(guān)心這個問題能否得到解決?這些都是優(yōu)秀產(chǎn)品需要考慮的點,但是你用于構(gòu)建產(chǎn)品的基礎(chǔ)技術(shù)是相對固定的,比如數(shù)據(jù)庫,你今年用的數(shù)據(jù)庫可能比兩年前的好 5%,但是 AI 完全不是這樣。每隔兩個月,計算機(jī)就能做到以前無法做到的事情,你必須徹底重新思考自己正在做什么。
還有一點,我們稍后可能會聊到「評估」(evals),在我們過去的世界里,我們習(xí)慣于在操作時給計算機(jī)非常明確的輸入。比如在 Instagram,有各種按鈕來執(zhí)行特定的操作,你知道它們的功能。當(dāng)你給計算機(jī)明確的輸入時,你會得到明確的輸出。你有信心,同樣的操作執(zhí)行三次,會得到三次相同的輸出。
但是大語言模型(LLMs)完全不同。它們擅長處理模糊、細(xì)微的輸入,人類語言和溝通的所有細(xì)微差別它們都能理解,而且它們不會每次都給出完全一樣的答案。你可能會得到內(nèi)容上相同的答案,但肯定不會每次都使用完全相同的詞語。所以輸入更加模糊,輸出也更加模糊。
當(dāng)你開發(fā)產(chǎn)品時,如果某個用例模型只能達(dá)到 60%的正確率,你會打造完全不同的產(chǎn)品;如果模型能達(dá)到 95%的正確率,又是另一種產(chǎn)品;如果能達(dá)到 99.5%的正確率,又會是不同的產(chǎn)品。所以你必須深入研究用例和評估,才能明白應(yīng)該打造什么樣的產(chǎn)品,這是根本性的不同。如果數(shù)據(jù)庫測試一次能用,那么幾乎每次都能用,但是在這個領(lǐng)域里并非如此。
Lenny:我們順著「評估」這個話題繼續(xù)聊下去吧。在之前的一次小組討論中,你說過一句話:編寫評估將成為產(chǎn)品經(jīng)理的核心技能。我覺得這可能不僅僅適用于產(chǎn)品經(jīng)理。
很多人知道什么是評估,但也有很多人完全不明白我在說什么。你能簡單解釋一下什么是「評估」(eval)嗎?然后為什么你覺得這對未來開發(fā)產(chǎn)品的人如此重要?
Kevin Weil:當(dāng)然,我想最簡單的理解方式是把它想象成模型的測驗,用來測試它對某類主題的掌握程度,或者回答某類問題的能力有多強(qiáng)。
就像你上微積分課,然后有考試,看你是否學(xué)到了該學(xué)的知識。評估也是一樣,測試模型在創(chuàng)意寫作方面有多好?在研究生級別的科學(xué)方面有多強(qiáng)?在競賽編程方面表現(xiàn)如何?你有一套評估,作為基準(zhǔn),來衡量模型有多聰明或者多有能力。
Lenny:簡單來說,就像單元測試一樣?
Kevin Weil:對,單元測試,或者說是模型的測試。
Lenny:那為什么這對那些不太懂評估的人如此重要?為什么這對打造AI產(chǎn)品如此關(guān)鍵?
Kevin Weil:回到我剛才說的,你必須知道模型在某些方面能夠達(dá)到 99.95%的正確率,有些事情是 95%的正確率,有些是 60%的正確率。如果模型在某件事情上只有 60%的正確率,你必須以完全不同的方式來打造產(chǎn)品。而且,這些都不是一成不變的。
拿「Deep Research」來說,這是我最喜歡的產(chǎn)品之一。這個產(chǎn)品的理念是,你可以給 ChatGPT 一個關(guān)于任意主題的復(fù)雜查詢,它不是簡單地返回搜索結(jié)果,而是如果你自己來回答這個問題,你可能需要上網(wǎng)查閱資料,閱讀論文,然后回來整理思路,發(fā)現(xiàn)邏輯漏洞,再去進(jìn)行更多的研究,可能需要花費一周的時間,最終你才能寫出一份 20 頁的答案。現(xiàn)在你可以讓 ChatGPT 替你忙碌 25 到 30 分鐘,完成你一周的工作量。
我們在開發(fā)這個產(chǎn)品的同時,也在設(shè)計評估,思考產(chǎn)品應(yīng)該如何運作。我們嘗試尋找「典型用例」:設(shè)定一個你想要提出的問題,完成一個完美的答案,然后將這些轉(zhuǎn)化為評估,再在這些評估的基礎(chǔ)上不斷優(yōu)化。
所以模型不是一成不變的,你可以訓(xùn)練模型,讓它持續(xù)學(xué)習(xí)。當(dāng)我們?yōu)椤干疃妊芯俊刮⒄{(diào)模型時,我們能夠測試它在我們認(rèn)為重要的評估指標(biāo)上是否有進(jìn)步。當(dāng)你看到評估表現(xiàn)提升時,你就會說:「好,我們可以打造這個水平的產(chǎn)品了。」
Lenny:你還提到過,AI的能力進(jìn)化幾乎被我們編寫評估的能力所限制住了。你可以詳細(xì)說說嗎?
Kevin Weil:這些模型的智能是多維度的。舉個軟件工程領(lǐng)域的例子,你可以說一個模型在競賽編程方面很強(qiáng),但不一定在前端開發(fā)、后端開發(fā),或者將 COBOL 代碼轉(zhuǎn)換為 Python 方面也很強(qiáng)。所以,這些模型可以被看作是非常聰明、知識淵博的智能體,但是世界上大部分的數(shù)據(jù)、知識、流程并非公開的。
就像你加入一家公司,前兩周需要入職培訓(xùn),學(xué)習(xí)公司特定的流程,接觸公司特定的數(shù)據(jù)。模型足夠聰明,你可以教它們?nèi)魏螙|西,但是它們必須要有原始數(shù)據(jù)來學(xué)習(xí)。
所以,未來我們會有非常聰明、廣泛適用的模型,然后針對特定公司或用例的數(shù)據(jù)進(jìn)行微調(diào),使它們在特定的公司或用例上表現(xiàn)優(yōu)異,而你需要使用定制的評估來衡量它們的表現(xiàn)。我的意思是這些模型很聰明,但是如果數(shù)據(jù)不在它們的訓(xùn)練集中,你就必須教它們。有大量的用例不在訓(xùn)練集中,因為它們只與某個特定的行業(yè)或公司相關(guān)。
06
模型最大化:創(chuàng)業(yè)要瞄準(zhǔn)模型馬上就能實現(xiàn)的能力
Lenny:我臨時想問一個問題,我很好奇,你對 Claude Sonnet 3.5 為什么這么擅長編碼有什么想法嗎?你們的模型會變得同樣好或更好嗎?
Kevin Weil:向 Anthropic 致敬,毫無疑問,他們打造了很棒的編碼模型。我認(rèn)為智能是多維度的,以前 OpenAI 在模型上擁有巨大的領(lǐng)先優(yōu)勢,可能領(lǐng)先十二個月,但現(xiàn)在不是這樣了。
我認(rèn)為我們?nèi)匀槐3诸I(lǐng)先,但不是巨大的領(lǐng)先,這意味著在不同的領(lǐng)域會有不同的表現(xiàn),比如 Google 的模型很強(qiáng)大,Anthropic 的模型也很強(qiáng)大,我們也有自己的優(yōu)勢,競爭對手會想「我們必須改進(jìn)這個」。一旦有人證明某件事是可行的,改進(jìn)起來就比開辟新的道路要容易得多。比如,以前沒有人能跑進(jìn)四分鐘一英里,然后有人做到了,下一年又有十二個人做到了。這種現(xiàn)象在各個領(lǐng)域都有。競爭非常激烈,消費者、開發(fā)者、企業(yè)都將因此受益匪淺。
這也是行業(yè)發(fā)展如此迅速的原因之一。向其他大型模型提供商致敬,模型正變得越來越好。我們會盡可能快地推進(jìn),我們有一些很棒的模型即將發(fā)布。
Lenny:AI技術(shù)改變了寫作、設(shè)計、編碼等創(chuàng)意工作,你認(rèn)為下一個大的飛躍是什么?尤其是在 AI 輔助創(chuàng)意方面應(yīng)該注意什么?
Kevin Weil:對于「 AI+創(chuàng)意內(nèi)容」領(lǐng)域,我的態(tài)度非常樂觀。我們此前聊到了圖像生成,用戶在 Twitter、Instagram 等社交平臺上展示他們創(chuàng)作的內(nèi)容。我是世界上最差的藝術(shù)家,給我紙和筆,我畫得不如八歲的孩子。但是有了 AI 圖像生成工具,我能夠想出一些創(chuàng)意的點子,輸入模型,它能夠創(chuàng)作出我自己畫不出來的畫面,這非常酷。
我近期在和一個知名的導(dǎo)演溝通時聊到了 AI 視頻生成工具 Sora。他分享了一個場景,假如要拍攝像《星球大戰(zhàn)》這樣的科幻電影,有一個場景是飛機(jī)沖向死星,從俯瞰整個星球切換到地面看到城市,應(yīng)該如何處理這個過渡?他說兩年前,他會花費十萬美元聘請一家 3D 特效公司,該公司會花費一個月的時間給出兩個版本,他進(jìn)行評估,然后選擇一個,因為他不可能再花費五萬美元再等待一個月進(jìn)行優(yōu)化,只能使用。但是如果使用工具 Sora,他可以得到 50 個不同的創(chuàng)意版本,通過輸入提示,和 Sora 模型一起進(jìn)行頭腦風(fēng)暴,同時還可以迭代、精煉、融合不同的想法,最后再找 3D 特效公司制作最終版本。
我對 AI 創(chuàng)意領(lǐng)域的總體看法是,沒有人會在 Sora 里輸入「給我拍一部好電影」這樣的提示,但 Sora 能夠幫助人類探索更多創(chuàng)意的可能性,并獲得更好的結(jié)果。
Lenny:Sam Altman 最近發(fā)的一條推文,提到了你們正在進(jìn)行的創(chuàng)意寫作項目,Altman 說他很不擅長創(chuàng)意寫作,但是分享了一個模型生成的例子,效果真的非常好。
Kevin Weil:是的,我們內(nèi)部有一些新的研究技術(shù)非常令人興奮。Altman 有時喜歡展示即將推出的東西,這非常符合我們的迭代部署哲學(xué)。我們有突破性的進(jìn)展不會藏著掖著,我們會談?wù)撐覀冋谧龅氖虑椋诳梢苑窒淼臅r候就分享,盡早發(fā)布,然后公開迭代。我非常喜歡這個哲學(xué)。
Lenny:剛才你提到AI編碼可能很快會有突破,此外還有什么人們可以期待的未來有趣且激動人心的產(chǎn)品或應(yīng)用嗎?
Kevin Weil:天哪,這還不夠嗎?
Lenny:人們總是希望聽到更多的新消息。
Kevin Weil:對我來說最令人驚嘆的是模型的迭代速度,我們每六到九個月迭代一個新 GPT 模型,比如 GPT-3、GPT-3.5、4。現(xiàn)在 o 系列推理模型更快,大概每三到四個月就有一個新的 o 系列模型,每次能力都有提升。模型能力提升的速度令人難以置信,成本也在規(guī)模化的情況下降低。
最初的 GPT-3.5 API 成本是今天 GPT-4o mini 的 100 倍。幾年時間下降了兩個數(shù)量級,智能卻強(qiáng)大得多。模型更聰明、更快、更便宜、更安全,每次迭代「幻覺」都更少。
摩爾定律說晶體管數(shù)量每十八個月翻一番。如果模型的性價比每年提升十倍,那是更陡峭的指數(shù)增長。這告訴我們,未來會和今天非常不同。我經(jīng)常提醒自己,你今天用的AI模型是你余生用過的最差的。人們應(yīng)該真正理解這一點,這太瘋狂了。
Lenny:我正想說同樣的話,你提到 Sora,很多人可能會想「它還沒準(zhǔn)備好,不夠好,沒有我在電影院里看到的電影那么棒」。但是你剛才說的關(guān)鍵是,這是它最差的時候,它只會越來越好。
Kevin Weil:是的,「模型最大化」就是持續(xù)構(gòu)建瞄準(zhǔn)那些馬上就能實現(xiàn)的能力,模型會一代代變得令人驚艷。
07
Chatbot 仍會是與 AI 交互最合適的方式
Lenny:雖然其他模型在某些方面可能更好,但ChatGPT似乎總是在認(rèn)知度和使用量上領(lǐng)先。不管排名如何,人們一想到AI就會想到 ChatGPT。你覺得你們做對了什么,至少目前在消費者心智和全球認(rèn)知度上取得了領(lǐng)先?
Kevin Weil:我覺得搶占先機(jī)非常重要,這也是我們注重快速行動的原因。我們喜歡第一個推出新的功能,比如 Deep Research。
我們的模型也非常全能,能夠處理實時視頻輸入,能夠進(jìn)行語音對語音、語音轉(zhuǎn)文字、文字轉(zhuǎn)語音的轉(zhuǎn)換,能夠進(jìn)行深度研究,能夠在畫布上操作,還能夠編寫代碼。所以ChatGPT就像一個一站式商店,你想要做的事情幾乎都可以在這里實現(xiàn)。未來我們會有更多的 Agent 工具,比如 Operator,它會為你瀏覽網(wǎng)頁、處理事務(wù)。你會越來越傾向于來到 ChatGPT 這個平臺,給它指令,讓它為你完成現(xiàn)實世界中的事情,這具有根本性的價值。我們非常關(guān)注這一點,并努力快速行動,以確保我們始終是人們最有用的選擇。
Lenny:你在開發(fā)AI產(chǎn)品或在 OpenAI 工作后,學(xué)到的最違反直覺的事情是什么?有什么讓你覺得「我沒料到會這樣」的?
Kevin Weil:我覺得有趣的一點是,當(dāng)你想要弄清楚某個AI產(chǎn)品應(yīng)該如何運作,甚至為什么某個 AI 現(xiàn)象是真實存在的時候,你可以用推理人類的方式去思考,而且往往是行得通的。
舉幾個例子,我們首次推出推理模型時,它不像以前那樣每次提問就立刻給出「系統(tǒng) 1」的答案,比如「神圣羅馬帝國第三代皇帝是誰」,就直接回答。
你可以問它一些難題,它會像人一樣進(jìn)行推理。如果我讓你做填字游戲,你不會立刻填完,而是會思考「這條橫線可能是這兩個詞之一,那這里有個 A,所以這條線肯定是這個詞」,一步步地回溯,就像解決復(fù)雜的邏輯或科學(xué)問題一樣。這種推理能力是一個巨大的突破,但這也是模型第一次需要「坐下來思考」。
這對消費產(chǎn)品來說是一個又新又奇怪的模式,通常你不會問一個問題然后等待 25 秒。所以我們一直在思考 UI 應(yīng)該如何設(shè)計?
因為這不像深度研究,模型會思考 25 分鐘。你不會盯著它看 25 分鐘,你會去做別的事情,打開一個新的網(wǎng)頁標(biāo)簽或者吃午飯,回來就好了。但是如果是 20 秒或者 10 秒,這個時長你需要等待,又不夠長到去做別的事情。
所以你必須思考,如果我問你一個問題,你需要思考 20 秒,你會怎么做?我不會沉默 20 秒然后再開口,我們不應(yīng)該只是在那里放一個惱人的滑動條。但是我也不會把每一步的想法都說出來,所以我們不應(yīng)該直接展示模型的全部思考鏈。但是我可能會說「這是一個好問題,我可以這樣考慮」,給出一些小的更新。我們最后發(fā)布的功能也是這樣設(shè)計的。
還有類似的情況,比如讓一群模型共同攻克同一個問題,然后再讓一個模型整合它們的輸出,給你最終的答案,你會得到更好的思考結(jié)果。這有點像頭腦風(fēng)暴?我和別人一起頭腦風(fēng)暴的時候,想法會更好,因為他們和我思考的方式不同。所以在很多情況下,你可以用人類或者群體的方式進(jìn)行推理,效果會很不錯。
Lenny:我看這些模型運作的時候,從來沒有想過你們在設(shè)計這種體驗。對我來說,模型就是那樣工作的,坐在那里告訴我它在想什么。我喜歡你說的「讓它像人一樣運作」。人是怎么運作的?他們會大聲說出來,思考應(yīng)該探索什么。我也喜歡深度研究的極端例子,它把所有的過程都展示出來,人們似乎也很喜歡。你覺得這令人驚訝嗎?
Kevin Weil:是的,我們從中學(xué)到了很多東西。最初發(fā)布的時候,我們只給了模型思考的副標(biāo)題,沒有展示太多過程。然后 DeepSeek 出來了,它把思維鏈完整地展示了出來,我們覺得「不是每個人都想要這樣」。
看到模型的真實想法有一種新鮮感,我們內(nèi)部也覺得看模型的思考鏈很有意思。但是對于四億用戶來說,你不想看模型在那里啰嗦一大堆。所以我們用有趣的方式進(jìn)行總結(jié),不僅僅是給一個副標(biāo)題,而是關(guān)于它是如何思考的一兩句話,你能從中學(xué)習(xí)到一些東西。我們找到了一個中間地帶,覺得這對大多數(shù)人來說是一個有意義的體驗。但是給每個人三段關(guān)于模型思考過程的文字可能并不是正確的答案。
Lenny:設(shè)計更優(yōu)質(zhì)用戶體驗的大模型產(chǎn)品的關(guān)鍵,就是想想「 人類」會怎么做嗎?
Kevin Weil:不一定總是想人會怎么做,但有時為了直覺地找到解決問題的方法,是想人類在類似情況下會做什么,至少能提供一個不同的視角來看待問題。因為我們經(jīng)常和人類對話,遇到各種各樣的情況,有很多可以學(xué)習(xí)借鑒的地方。
Lenny:這讓我想起你在峰會上說的另一件事:人們經(jīng)常嘲笑chatbot不是未來與AI交互的界面。但是你提出了一個很有趣的反駁觀點:人類喜歡通過說話進(jìn)行交互,和 AI 聊天也是這樣,能夠適應(yīng)各種智能水平。關(guān)于聊天為什么是大模型一個有趣的界面,你還有什么想法嗎?
Kevin Weil:也許這是我堅信,但大多數(shù)人不相信的東西。我覺得chatbot是一個非常棒的界面,因為它太靈活了。人們經(jīng)常說「聊天?我們會找到更好的界面」。我覺得這是非常通用的,因為這就是我們說話的方式。我可以像現(xiàn)在這樣和你進(jìn)行口頭交流,可以看到彼此的互動,也可以在 WhatsApp 上發(fā)送文本消息,但這些都是非結(jié)構(gòu)化的溝通方式,是我們?nèi)祟惖倪\作方式。
如果我和你說話必須使用一個更加死板的界面,我們可以聊的東西會少很多,反而會妨礙我們最大化溝通的帶寬。所以這其中有一種魔力。過去這種方式行不通,是因為沒有模型能夠理解人類語言的復(fù)雜性和細(xì)微差別,而這正是大模型的魔力所在。對我來說,這是一個完美契合這些模型力量的界面,但這并不意味著未來永遠(yuǎn)都只是打字。如果你想要一個開放且靈活的溝通媒介,用戶進(jìn)行表達(dá),由模型作出回應(yīng),同時仍希望采用最基礎(chǔ)、無限制的交互方式。
Lenny:這真有趣,你的觀點徹底改變了我對此事的看法。chatbot 特別適合與超級智能進(jìn)行交流。
Kevin Weil:順便說一句,也不僅僅是聊天。如果是高頻、特定用例,不需要完全的通用性,很多情況下,更有限、更快、針對特定任務(wù)的界面會更好,這些也很棒。但是你仍然需要聊天作為基線,來處理任何超出你特定垂直領(lǐng)域的東西。它就像一個萬能公式,涵蓋了你想對模型表達(dá)的一切。
原播客:
《OpenAI’s CPO on how AI changes must-have skills, moats, coding, startup playbooks, more》
https://www.lennysnewsletter.com/p/kevin-weil-open-ai
轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.