「RL 之父」Rich Sutton 在 2019 年發表的經典短文 The Bitter Lesson廣為人知,并且時不時被人提起。
「70 年的 AI 研究歷史告訴我們一個最重要的道理:依靠純粹算力的通用方法,最終總能以壓倒性優勢勝出?!?/strong>
如今,似乎可以重新再聊下這個話題。
比如前兩天我們:未來 AI 智能體的發展方向還得是模型本身,而不是工作流(Work Flow)。
以及最近 Gemini 和 4o 更新的圖片功能,可能直接取代了很多圖片工作流——用自然語言對話完成現在復雜的 SD 圖像生成工作流。
模型的通用能力,正在取代現在那些復雜的 Workflow。
今天編譯的這篇文章,是作者 Lukas Petersson 聽完 YC 100 多個項目路演后寫下了一個有趣的觀察:《苦澀的教訓》中所寫的 AI 研究歷史似乎正在 AI 創業界重演。
作者介紹:Lukas Petersson,Andon Labs 的 CEO 兼聯合創始人,專注 AI 安全評估和大語言模型研究。此前,他曾在 Google 實習,曾在 Disney Research 開發病毒式機器人,還曾參與探空火箭發射項目,擔任項目主要負責人。
Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產品/案例,Founder Park 會主動做宣傳。
01歷史重演:AI創業在重復這個教訓
太長不看版:
歷史上,通用方法始終在 AI 領域占主導。
如今,AI 應用領域的創始人們正在重復 AI 研究人員過去犯過的錯誤。
更強大的 AI 模型將催生更多通用 AI 應用,同時也會削弱 AI 模型「套殼」軟件的附加價值。
AI 技術的飛速發展帶來了一波又一波新產品。在 YC 校友 Demo Day 上,我見證了 100 多個創業項目的路演。這些項目都有一個共同點:它們瞄準的都是簡單問題,加了各種限制的 AI 就能解決。
但 AI 真正的價值在于它能靈活處理各類問題。給 AI 更多自由度通常能帶來更好的效果,但現階段的 AI 模型還不夠穩定可靠,所以還無法大規模開發這樣的產品。
這種情況在 AI 發展史上反復出現過,每次技術突破的路徑都驚人地相似。如果創業者們不了解這段歷史教訓,恐怕要為這些經驗「交些學費」。
2019 年,AI 研究泰斗 Richard Sutton 在他那篇著名的《苦澀的教訓》開篇提到:
「70 年的 AI 研究歷史告訴我們一個最重要的道理:依靠純粹算力的通用方法,最終總能以壓倒性優勢勝出?!?/strong>
那些精心設計的「專家系統」,最終都被純靠算力支撐的系統打得落花流水。我們在語音識別、計算機象棋和計算機視覺中都看到了這種模式。這篇文章標題里的「苦澀」二字,正是來自這個在 AI 圈一演再演的劇情——從語音識別到計算機象棋,再到計算機視覺,無一例外。
如果 Sutton 今天重寫《苦澀的教訓》,他一定會把最近大火的生成式 AI 也加入這份「打臉清單」,提醒我們:這條鐵律還沒失效。
同在 AI 領域,我們似乎還沒有真正吸取教訓,因為我們仍在重復同樣的錯誤...... 我們必須接受這個苦澀的教訓:在 AI 系統中,強行植入我們認為的思維方式,從長遠來看是行不通的。 這個「苦澀的教訓」源于以下觀察: 1. AI 研究者總想把人類的知識經驗塞進 AI 2. 這招短期確實管用,還能讓研究者有成就感 3. 但遲早會遇到瓶頸,甚至阻礙 AI 的進步 4. 真正的突破往往出人意料——就是簡單地加大算力
站在 AI 研究者的角度,我們需要在總結教訓的過程中明確了什么是「更好」的。對于 AI 任務,這很好量化——下象棋就看贏棋概率,語音識別就看準確率。對于本文討論的 AI 應用產品,「更好」不僅要看技術表現,還要考慮產品性能和市場認可度。
從產品性能維度來看,即產品能在多大程度上取代人類的工作,性能越強,就能處理越復雜的任務,創造的價值自然也就越大。
圖 1. 展示了不同類型的 AI 產品,本文主要討論應用層
AI 產品通常是給 AI 模型加一層軟件包裝。因此,要提升產品性能,有兩條路徑:
1. 工程升級:在軟件層面利用領域知識設置約束規則
2. 模型升級:等待 AI 實驗室發布更強大的模型
這兩條路看似都可行,但在此有個重要洞察:模型能力越強,工程優化的邊際效益就越低。
現階段,軟件端的設計確實能提升產品表現,但這只是因為當前模型還不夠完善。隨著模型變得更可靠,只需要將模型接入軟件就能解決大多數問題了——不需要復雜的的工程。
圖 2. 投入工程的價值會隨著投入增加和更強大模型的出現而遞減
上圖展示了一個趨勢:隨著 AI 模型的進步,優化工程帶來的價值將逐漸減少。雖然當前的模型還有明顯不足,企業仍能通過工程投入獲得可觀回報。
這一點在 YC 校友 Demo Day 上表現得很明顯。創業公司主要分為兩類:第一類是已經實現規?;漠a品,專注解決簡單問題,但數量還不多;第二類則瞄準了相對復雜的問題。后者目前發展勢頭不錯,因為他們的概念驗證證明:只要在工程上下足功夫,就能達到預期目標。
但這些公司面臨一個關鍵問題:下一個模型發布會不會讓所有工程上的都成為無用功,摧毀他們的競爭優勢?OpenAI 的 o1 模型發布就很好地說明了這個風險。
我和很多 AI 應用層的創業者聊過,他們都很擔心,因為他們投入了大量精力來完善提示詞。有了 o1 后,提示詞工程的重要性就大大降低了。
從本質上講,這種工程的目的是為了讓 AI 少犯錯誤。通過觀察眾多產品,可以概括為兩類約束:
專業性:衡量產品的聚焦程度。垂直型產品專注于解決特定領域的問題,配備了專門的軟件包裝;而水平型產品則更通用,能處理多種不同類型的任務。
自主性:衡量 AI 的獨立決策能力。在此借鑒一下 Anthropic 的分類:
工作流:AI 按預設路徑運行,使用固定的工具和流程
智能體:AI 可以自主選擇工具和方法,靈活決策如何完成任務
這就規定了一個 AI 產品的分類框架:
垂類
通用
工作流
Harvey
ChatGPT
智能體
Devin
Claude Computer-Use
表 1. 對知名 AI 產品的分類。需要注意的是,ChatGPT 可能每次對話都會遵循預先設定的代碼路徑,因此更像工作流而非智能體
讓我們以商業分析師制作路演 PPT 為例,看看每類產品如何實現這個任務:
垂類工作流:它按固定步驟執行任務,比如,先用 RAG 查詢公司數據庫,小型 LLM 做總結,大型 LLM 提取關鍵數據并計算,檢查數據合理性,最后生成 PPT。每次都嚴格遵循這個流程。
垂類智能體:LLM 能自主決策,循環工作,用上一步的結果指導下一步行動,雖然可用工具相同,但由 AI 自己決定何時使用。直到達到質量標準才停止。
通用工作流:像 ChatGPT 這樣的通用工具只能完成部分任務,既不夠專業也不夠自主,無法完整處理整個工作流。
通用智能體:例如 Claude computer-use,能像人一樣操作常規辦公軟件。分析師只需用自然語言下達指令,它就能根據實際情況靈活調整工作方法。
Demo Day 上幾乎所有產品都屬于垂直工作流。這很好理解——當前的 AI 模型還不夠成熟,只能用這種方式才能達到可用水平。結果就是,即使是過于復雜的問題,創業者們也不得不硬塞進這個框架,因為這是目前唯一能讓產品勉強可用的方法。
雖然通過工程優化可以提升這些產品,但提升空間有限。對于當前模型難以處理的問題,與其投入大量工程資源,不如等待更強大的模型出現——到時只需很少的工程就能解決問題。
就像 Leopold Aschenbrenner 在《Situational Awareness》中說的:「完善這些繁瑣的工程,可能比等待更強大的模型還要浪費時間?!?/p>
這不禁讓人聯想起那個「苦澀的教訓」:AI 研究者反復嘗試用工程手段提升性能,最終卻總是被簡單堆算力的通用方案超越。今天的 AI 產品開發似乎正在重蹈覆轍。
把表 1 的內容和《苦澀的教訓》聯系起來之后,這樣能更清楚地看到其中的關聯:
《苦澀的教訓》的觀察
自主性
專業性
1. AI 研究者總想把人類的知識經驗塞進 AI
開發者發現自主智能體不夠穩定,只好硬編碼固定流程
通用文檔分析系統不可靠,于是被迫縮小到特定領域(如僅分析財務報表,硬編碼具體指標)
2. 這招短期管用,還能讓研究者有成就感
自主性受限提高了系統可靠性
專業化提升了準確率,因為模型只需要處理固定場景中有限的文檔和指標
3. 但遲早會遇到瓶頸,甚至阻礙 AI 的進步
固定的工作流難以應對新情況
專業化系統難以擴展,每個新任務都需要重建系統
4. 真正的突破往往來自于簡單地加大算力
新模型能自主找到解決方案,動態調整策略
新模型的通用理解能力讓專業限制變得多余,無需依賴專門化系統
對于那些解決路徑不清晰的問題,產品如果有更高的自主性,通常表現會更好。類似的,在面對大規模、復雜輸入時,功能不那么具體的產品反而表現更好。
總而言之,我的觀點是:試圖用軟件工程來彌補當前 AI 模型的不足,似乎是一場注定失敗的戰斗,尤其是考慮到現在 AI 技術發展的驚人速度。
正如 YC 合伙人 Jarred 在 Lightcone 播客中說的:「第一波基于固定流程的 AI 應用,大多被新一代 GPT 模型淹沒了?!?/p>
Sam Altman 常說,要做那種期待而不是害怕新模型發布的創業公司。我遇到的很多 AI 創業者對新模型都很興奮,但從他們公司的利益看,這種興奮可能不太合適。
或許他們沒有意識到圖 2 表達的觀點:更強的模型其實可能會讓你的競爭優勢變小,而不是變大。這個觀點主要是從產品性能的角度來說的——關鍵是要做出能更高效解決復雜問題的產品。
從統計學角度理解《苦澀的教訓》
讓我們用簡單的統計學來理解這個道理。在做模型時,通常要面臨一個選擇:要么做一個規則很死板的模型(高偏差),要么做一個靈活但不太穩定的模型(高方差)。《苦澀的教訓》告訴我們:選靈活的。
究其原因,因為只要有足夠的算力和數據,靈活的模型最終也能變得很穩定。就像打籃球,就算姿勢不標準,練得多了也能投準。但反過來就不行了,太死板的方法會被自己的規則限制住。
這跟 AI 產品是一個道理。做垂直領域的工具,加各種限制,就像給 AI 加規則,現在看起來更穩定,但限制了它的潛力。相反,讓 AI 更自由一點雖然現在看著不太靠譜,但隨著模型越來越強,它反而能找到更好的辦法。歷史一再證明,跟靈活性對著干是不明智的。
兩種做 AI 的方法
圖 3:對比了兩種方法。傳統機器學習需要人工來告訴機器「什么是重要的」,深度學習則能自己學會
傳統機器學習需要人來決定什么信息重要。比如給一張圖片,你得手動找出有用的特征,數一數有多少個圓形,測量一下各種尺寸等等。但深度學習不同,它能自己學會找重要的東西。
圖 4:比如自動駕駛。系統要識別和跟蹤車輛、行人、車道線等具體物體。這就是分解復雜問題的傳統方法。
以自動駕駛來說,你有兩種方式:
1. 老方法:把車看到的東西分解:前面的車在哪,車道線在哪,那個人跑多快?
2. 新方法:直接把視頻扔給 AI,讓它自己學會開車。
老方法看著更靠譜,更有把握。所以早期的 AI 都這么干。但正如 George Hotz 所說:「AI 的歷史告訴我們,老方法最后總會被新方法打敗。」
DeepMind 研究員 Sholto Douglas:就像其他所有深度學習系統一樣,押注端到端就對了
接下來,在第二章中,我們會聊聊另一個話題:市場接受度。畢竟,只有好性能并不一定能在市場上成功。
02垂直 AI 占不到任何便宜
太長不看版:
通用 AI 最終會在大多數垂直領域超越垂直 AI。雖然垂直 AI 總能搶跑,但誰能笑到最后呢?
用戶遷移成本幾乎為零。通用 AI 就像遠程同事,插個 API 就能上崗,接入過程像新員工入職一樣簡單。
垂直 AI 也很難在其他方面建立護城河。在 Helmer 的七大競爭優勢中,垂直 AI 沒占到任何便宜。
在極少數情況下,某個垂直 AI 既獨家又是垂直領域的剛需。但這種情況很少見。很多自以為有數據壁壘的公司,其實都誤解了需求。要么數據根本不稀缺,要么不是真正的剛需。
注:本文中 Horizontal AI 暫譯為通用 AI,相對于垂直場景的 AI。
AI 的歷史告訴我們一個規律:那些試圖通過專業領域知識彌補模型局限的做法,最終會被依靠算力的方法取代。第一章我們也看到,很多公司做的是受限的垂直 AI 產品,而不是更靈活、能隨著模型進步的產品。
但只有好性能并不意味著能占領市場。本章通過 Hamilton Helmer 的《七大競爭優勢》框架,分析了垂直產品和通用產品在市場上的接受度。
我們發現,做垂直工作流的產品,一旦有了通用替代品,就很難維持市場地位,因為缺乏戰略優勢。不過,有個關鍵例外,給 AI 創業者提供了一個明確的方向。
正如第一章提到的,使用更強大且限制更少的模型的產品,最終會表現得更好。然而,目前基于現有模型的產品(通過加入人為的偏差減少錯誤)可能會更早進入市場。
本文討論的重點是,當我們進入圖 1 中的綠色區域后,AI 垂直領域是否還能在更強大的通用 AI 產品出現后保持市場份額。
圖 5:垂直 AI 和通用 AI 產品隨著時間變化的表現對比(簡化版),分為三個階段:傳統軟件主導期→垂直 AI 窗口期→通用 AI 替代期
大部分 AI 能解決的問題其實都很復雜,垂直 AI 很難做到理想效果,就像圖 5 那樣。很多難題今天沒人去解決,這些問題雖然占了大部分潛在市場,但在現有 AI 應用中還只是少數。
圖 6,垂直 AI 產品永遠達不到足夠的性能水平,而通用 AI 通過改進模型能得到更好的表現
對于圖 5 里提到的那些簡單的、現在就能找到方法解決的問題,問題就變成了:當更好的解決方案出現時,垂直 AI 還能保持領先嗎?
簡單來說,垂直 AI 很容易辨認,因為現在很多 AI 創業公司都在做。第一章已經講過,垂直 AI 限制固定的工作流來提高可靠性,而通用 AI 就像遠程同事。
讓我們想象一個能在后臺用傳統軟件完成任務的 ChatGPT,接入的過程就像給新員工入職一樣——給它電腦和賬號權限,然后用自然語言給它指令。你不需要給它所有的數據源,因為它可以自己找到需要的數據。此外,我們假設這個通用 AI 是由 OpenAI、Anthropic 這樣的 AI 實驗室開發的。第四章我們會討論為什么這種情況很可能發生。
值得注意的是,雖然我把通用 AI 比作一位「智能同事」,但它不需要真的像人類一樣聰明,這不是什么 ASI 一樣的超級智能。它只要足夠聰明,能在找不到現成的工具時自己寫代碼就行了。我認為這種情況很快就能實現,因為 AI 在編程這塊進展最大。
當然,也有關于這是否會實現,以及什么時候實現的問題,第三章我們會討論。不過我碰到過不少創始人相信這會發生,而且他們依然認為自己的垂直 AI 能夠在這種競爭中存活下來。
我自己也曾在這場競爭中失敗過一次。2022 年 11 月,OpenAI 發布了 ChatGPT,我想用它來幫我解讀科學論文,但它沒辦法處理長輸入,當時長輸入需要更多算力,OpenAI 為了節省成本做了限制。當 GPT-3.5 的 API 發布時,我開發了一個叫 AcademicGPT 的垂直 AI 產品,分解任務,由多個 API 調用,來解決這個問題,吸引了一些付費用戶。然而,支持長輸入的 GPT-4 一發布,我的東西就沒用了。GPT-4 這種更智能、偏見更少的通用 AI 應用比我精心做出來的、有偏見的解決方案好得多。
我不是一個人。YC 的合伙人 Jared 在 Lightcone 播客中說:「第一波 LLM 應用基本都被下一波 GPT 打敗了?!巩斎?,那時的產品遠沒有今天的垂直 AI 復雜。AcademicGPT 只解決了一個輸入長度的問題,但那些復雜的垂直 AI 產品解決了多個問題。這也許能讓它們活得更久,但最終,AI 模型會直接解決這些問題,就像 GPT-4 通過擴展上下文窗口解決了輸入長度問題一樣。就像第一章中說的,隨著模型變強,它們最終會和一個更優秀的通用方案競爭。
Hamilton Helmer 的《七大競爭優勢》給我們提供了一個框架,幫我們分析這些產品是否能在競爭中存活下來。這個框架提到了七種長期有效的競爭優勢:規模經濟、網絡效應、反向定位、轉換成本、品牌、封閉資源和過程能力。
轉換成本(Switching Cost)
客戶的留存往往是因為換服務商帶來的損失和麻煩太多,所以就算有替代方案,客戶還是更傾向于繼續用現有的服務。
集成/用戶體驗
用戶可能已經習慣了垂直 AI 的界面,但這不是個阻礙,因為接入通用 AI 就像給新員工入職一樣,過程很簡單。就像是 Leopold Aschenbrenner 說的一樣:「接入遠程工作者太簡單了——把他們加入進來,自動化所有可以遠程做的工作就行了?!?/p>
而且,這個遠程同事將會是你已經熟悉的通用 AI 產品。很多人已經習慣了 ChatGPT 的界面,而且這個通用 AI 還能共享任務之間的上下文。
自然語言對話是最適合的界面,因為它是我們日常溝通的方式。不過,有些時候,計算機界面可能更高效。像 Excel 這樣的傳統軟件在這些情況下仍然能和通用 AI 配合使用。但我認為,可能會有一些細分領域,既不適合傳統軟件,也不適合自然語言對話。如果垂直 AI 在這些領域能創新出合適的界面,就會有較高的轉換成本。不過,它們的優勢并不完全是 AI 技術相關的;通用 AI 也能使用的非 AI 版本同樣能帶來價值。
銷售
如果通用產品是基于已有產品發展而來的,那么銷售就不是個問題。許多公司已經在用 ChatGPT,并且未來會有更多企業加入。
價格
目前我們接觸到的最接近通用 AI 的產品是 Claude Computer-use,它因為頻繁調用大型 LLM 和高分辨率圖像,運行成本非常高。AI 垂直產品通常通過限制輸入,只保留他們認為相關的內容,來盡量降低成本。但模型運行成本已經在大幅下降,我預計這種趨勢會繼續下去。而且,擁有一個橫跨多個垂直領域的單一產品,而不是買很多個不同的產品,將會大大節省成本。
反向定位(Counter Positioning)
這是一種新的商業方法,讓公司在市場中占據一個競爭者們很難挑戰的獨特的位置。傳統大公司很難或者根本不可能復制。
乍一看,垂直產品有反向定位的優勢,因為它們能為特定客戶定制解決方案。但這個優勢只有在你的產品確實比競爭對手更好的情況下才有效。但在我們討論的案例和場景中,垂直 AI 并沒有做到這一點。更多內容參見第一章。
事實上,通用 AI 產品在反向定位上占了便宜。它們隨著每次模型的進步自然地擴展,而垂直產品要么保持現有的限制,性能逐漸落后,要么接受更強的模型,失去差異化優勢。
規模經濟(Scale Economy)
隨著業務擴大,單位成本逐漸降低,讓公司變得越來越高效。
通用和垂直這兩種方案都能享受規模經濟帶來的好處。
垂直產品可以像傳統 SaaS 一樣高效擴展,但通用 AI 產品可以更快地降低價格,因為它們的研發成本可以分攤到多個行業的用戶,這是它們的一個額外的優勢。
網絡效應(Network Economy)
隨著客戶群的擴大,每個用戶得到的產品或服務的價值也隨之提高。每新增一個用戶,就能為其他所有用戶創造更多的價值,其他用戶的體驗也會提升,形成一個自我強化的增長循環。
垂直和通用產品都能從網絡效應中受益,但通用 AI 有天然的優勢,它們能夠利用更多的用戶數據訓練更強的模型,形成更廣泛的反饋機制,提升所有場景的效果。
品牌力(Brand Power)
品牌力來自公司過去的表現和聲譽,是一種長久的價值感知。強大的品牌力能提升客戶忠誠度,允許公司溢價定價。
但對于目前初創公司的規模來說,品牌力通常不可能實現。像 OpenAI 和 Google 可能有,但大多數做垂直 AI 的初創公司是沒有的。就像圖 3。
圖 7,業務增長的三個階段及每個階段最常見的競爭優勢
流程優勢(Process Power)
流程優勢是指公司內部經過時間積累的高效流程,通常需要競爭對手投入大量的時間和精力才能趕上。
同樣,當前這種規模的初創公司也很難達到這種流程優勢。參見圖7。
壟斷資源(Cornered Resource)
指的是某些公司能夠在特別有利的條件下,獨占使用一些珍貴的資源,從而獲得競爭優勢。這些資源可能是獨家權利、專利或數據。
到目前為止,還沒有任何力量能打破通用 AI 與垂直 AI 的競爭。但壟斷資源會打破這種局面。這樣的資源非常稀有,它必須是完全獨占的,任何價格都買不到。而且,它必須是垂直 AI 成功不可或缺的資源,沒有它,垂直產品就不能成功。
能夠找到這種資源的垂直 AI 非常少。我認為很多 AI 垂直產品誤以為它們通過數據擁有這樣的優勢,但實際上并沒有。這些數據要么不必要,要么并不獨占。不過,也有一些垂直 AI 產品會找到這種資源。例如,它們可能有一個只有在特定事件中才能收集的數據集。只要它們能控制這些數據,通用 AI 的優勢就沒辦法超越它們。
總結來說,垂直 AI 產品早期會占領市場,但在面對通用 AI 更強大的解決方案時,幾乎所有垂直 AI 都很難找到競爭壁壘。通過分析 Helmer 的七大競爭優勢,我們發現壟斷資源可能是垂直 AI 唯一的護城河。這意味著 AI 應用層的創業者應該更多地集中精力獲取這種資源,而不是做其他事情,這一點我們將在第四章進一步討論。
對于那些沒有建立護城河的垂直領域,一旦通用解決方案變得有競爭力,就會被超越。我的 AcademicGPT 就經歷過這樣的情況,它解決了一個當時的通用 AI 解決不了的問題,但很快就失效了。更復雜的垂直 AI 產品,雖然能解決多個問題,最終也會面臨同樣的命運,只是稍微晚一些。
不過,真正的問題是,大部分人認為通用 AI 產品作為「遠程同事」能夠在短時間內被廣泛應用。這為我們引入第三章的論點,深入探討 AI 應用層的未來發展,預測可能會遇到的具體障礙,包括模型進展停滯、監管難題、信任問題和經濟壁壘。
03關于 AI 應用的 6 個預言,5 個障礙
未來幾年,AI 應用領域將對初創公司來說非常艱難?
這篇文章我在 2024 年 12 月寫的。剛準備發布時,Anthropic 的 CEO 剛好在采訪中談到他們的「虛擬協作者」(virtual collaborator)計劃,正好解釋了我所說的「通用 AI 產品」。2025 年 1 月,OpenAI 也剛剛發布他們的 Operator。
預測未來往往難以準確,但我們還是來看看。前兩章我分析了為什么垂直 AI 應用面臨困境:它們在性能上無法與更通用的解決方案競爭,而且當通用產品變得有競爭力時,垂直 AI 往往沒有有效的護城河。結果可能是,每個垂直領域都會有一個時刻,市場會從垂直 AI 轉向通用 AI。
最關鍵的問題是:這會發生在什么時候?如果需要十年,那現在做垂直應用也許還能有意義。但如果明年就會發生,那就完全是另一回事了。
本章會分享我對未來幾年 AI 應用領域的預測,特別是關于關鍵轉型時機的具體預測。第四章會探討這對 AI 創業者的意義。
垂直到通用 AI 的轉變不會在所有垂直領域同時發生。我認為這些轉變會隨著每次模型發布分批出現。在一些領域,這個時刻可能要等很久,但今天大多數做垂直 AI 的公司都很簡單,我認為這些領域會在接近的時間內發生變化,到 2027 年,垂直 AI 仍然能持續發展的領域會非常少。
圖 8 總結了我對應用采納變化的看法,作為文章的目錄參考。這里的「采納(adoption)」是指,為用戶在嘗試解決新問題或改變現有解決方案時,所選擇的產品或方式。
需要注意的是,這里有幾個關鍵點:
這不是市場份額,而是解決方案的選擇,現有交易可能滯后。
這是相對的。隨著 AI 解鎖更多用例,市場規模會變大,但這個變化沒在圖中展示。
這也不是衡量潛在價值,而是用戶選擇解決方案的時間點,不考慮未來可能的改進。
舉個例子,從 A 到 B 的轉變,意味著一個以前偏好方案 A 的用戶,現在會選擇方案 B。
「垂直/通用」和「工作流/智能體」是兩種不同類型的 AI 產品定義,具體細節見第一章。為了簡化,圖表把通用智能體和工作流歸為同一類,因為同一家公司可能同時開發這兩種產品。例如,ChatGPT 可能會保持工作流基礎,同時加入更多智能體功能。
圖 8: 預計 2022 至 2027 年間解決方案選擇模式的變化。圖表展示了用戶如何在傳統解決方案、通用 AI 產品(包括工作流和智能體)以及垂直 AI 產品之間切換。每個流的寬度表示選擇的強度,衡量用戶選擇新方案或轉向其他現有方案的趨勢
關于未來幾年 AI 應用的 6 個預言
過去
ChatGPT 發布前,傳統軟件主導市場。
ChatGPT 發布,第一個重要的通用 AI 產品。
GPT-3.5 API 發布,第一波垂直 AI 產品。
今年
1.2025 年將是一個關鍵的轉折點,模型會變得足夠可靠,能用于實際的 Agent 應用。到現在為止,智能體大多還只能用于研究項目或概念驗證,雖然它們的初始應用規模不大,但潛力會越來越明顯。增長將會來自兩方面:垂直產品會把它們的工作流升級為智能體,新的應用會以工作流做不到的方式,取代傳統軟件。
2.雖然智能體開始嶄露頭角,但垂直 AI 將在 2025 年之前依然占主導。因為有兩個大的轉換成本:用戶不愿意改變已經在用的工具,開發人員不愿意放棄他們過去幾年的工程投入。早期市場中,垂直產品獲得的市場地位有強大的慣性。
3.主要的通用 AI 產品(如 ChatGPT、Claude 和 Gemini)會增加更多功能,擴展它們在更多垂直領域的應用。這個趨勢已經開始了。比如,ChatGPT 現在可以和你電腦上的其他桌面應用集成。隨著模型進步,這些公司可以用更少的工程投入實現這些功能。隨著這些通用產品的提升,垂直 AI 產品將會越來越難銷售出去,因為用戶會意識到,自己正在用的通用 AI 產品就能解決他們的需求。
(近期的)未來
4.通用 AI 智能體與人類同事的差距會迅速變小。雖然它們還不完全屬于專家級別,但已經足夠智能,能可靠地完成大部分從前人類在傳統軟件里處理的工作。許多人仍然能保持工作,但垂直 AI 解決方案會逐漸過時。下面是我預期的一些具體變化:
a. 消費者會常常用通用智能體處理復雜任務,比如報稅、求職和非休閑購物。
b. 公司將大幅減少低層次的招聘,部分公司可能會大規模裁員。但這一轉變的速度會比預期慢。
c. 我們將會看到第一個單人獨角獸公司。
5.傳統軟件將繼續通過為智能體提供接口來保有市場價值。盡管智能體理論上能從頭創建需要的軟件,但考慮到計算成本,現有軟件平臺更實用。傳統軟件并不是免費的,但我認為傳統的通用軟件更有可能活下來,因為智能體雖然不免費,但比人類便宜得多。你可以在 Excel 做 CRM,但購買專業的 CRM 系統更合算。不過,我還不確定這種算法是否適用于智能體。
6.唯一能存活的垂直 AI 應用是那些鎖定了防御性資源的產品,像第二章講到的。部分公司會選擇高價出售這些壟斷資源。
2024 年,進展停滯了?
我的這些預測假設 AI 會繼續進步。首先我想解釋為什么我說它會「繼續」進步。
我聽到很多人說模型已經停滯了,特別是 2024 年沒有看到比 GPT-4 更大的突破。公平地說,這種說法在 12 月 o3 發布后就沉寂下來了。你可以自己看下圖 9,然后再判斷 AI 進展是不是已經放慢了。
圖 9:在著名的 ARC-AGI 基準測試中 AI 的表現
即便沒有 o3,我覺得說 2024 年模型停滯也太夸張了。o3 并沒有改變我之前的預測。我早就提過,通過擴展測試時間計算,模型能夠取得進展。2023 年《Let's verify step by step》論文和 o1 都證明了這一點。技術的第一版從來不是最終版。AlphaZero 證明了,機器學習在有明確目標的領域能超越人類,o1 也做到了,特別是在自然語言處理和數學計算上。但在創意寫作等領域,o1 不如其他方法。o3 也沒有比 o1 更通用。
真正的「從 0 到 1」時刻是 o1 的出現,而且它也是在 2024 年發布的??赡苣阌X得擴展計算時間不算什么,畢竟高昂的計算成本可能對智能體來說太貴了。但回想一下年初的基礎模型,那個時候的 GPT-4 turbo 只支持文本和圖像。到了 2024 年,OpenAI 發布了支持音頻和視頻的 GPT-4o,雖然相對 GPT-4 來說它帶來的智能進步不大,但它之后在逐漸提升?,F在看,我們很容易忽略它已經變得多強了。
2024 年,開放權重模型也有了顯著進展。在需要博士級知識的科學問題上,年初的最佳模型幾乎和隨機猜測一樣。到 7 月,我們已經接近人類專家水平,年末 DeepSeek V3 也有了類似的進展。從 2023 年的 25-29(+4)到 2024 年的 29-59(+20)。
圖 10: 開放權重模型在 GPQA Diamond 基準測試中的表現
2024 年最重要的進步來自 Anthropic。年初,他們還不能用的 Claude 2 剛剛推出,3 月發布了行業領先的 Claude 3,6 月又發布了 Claude 3.5 Sonnet,這是一個巨大的飛躍。從圖 11 來看,2024 年春天是基礎模型進展最快的時期。那秋天呢?Anthropic 曾說會在年底發布 Claude 3.5 Opus,但之后悄悄把這個信息從官網撤掉了。是訓練「失敗」了嗎?只有 Anthropic 知道。但很多人猜并非如此,而是他們沒有從公開發布中看到經濟回報。相反,他們可能是用它來為 Claude 3.5 Sonnet 生成合成數據。Sonnet 在 10 月做了另一次升級,支持了這個推測。這不符合「模型停滯」的定義。
圖 11: 前沿模型在多個基準測試上的進展
5 個潛在障礙
雖然這條時間線代表了我最好的預測,但一些變化可能會影響這一進程。最大的擔憂是:
1. 模型停滯
2024 年沒有發生模型停滯,2025 年會發生嗎?Ilya Sutskever 在 NeurIPS 的演講中表示,預訓練規?;呀浀綐O限了。這引起了廣泛關注,許多人解讀為 AI 訓練技術的整體停滯,但其實他指的是預訓練。隨后他又提到,除了預訓練,還有其他路徑,比如 o1 這樣的推理計算方法。o3 的發布進一步證明了,預訓練之外還有其他有效的方法。
此外,就像 Dylan Patel 所說的,AI 領域的決策者們正在加大投資計算基礎設施,堅決支持 Scaling Law,相信它仍然有效。就連以懷疑語言模型著稱的 Yann LeCun 最近也縮短了自己的預期時間。12 月,他說超級智能「還很遙遠」,但接著補充道:「它不是幾百年后的事,可能也不是幾十年,而是幾年內就有可能實現。」
圖 12:Ilya Sutskever 在 2024 年 NeurIPS 上的演講
2. 監管
目前的監管提案似乎不會顯著拖慢 AI 的進展(我不是這方面的專家)。大多數提案都相對溫和,而且即使如此,也很難通過。不過,如果發生一起 AI 相關的重大悲慘事故,公眾的態度可能會迅速轉變,進而迫使政治家采取更強硬的措施。
3. 信任障礙
現在大家對 AI 幻覺有些擔心,未來可能會更擔心讓智能體獨立行動。雖然我之前已經預料到初步的方案,但我覺得這種擔憂會隨著時間慢慢消失。歷史上有很多類似的例子:以前有人害怕自動電梯,現在回頭看,那種擔心很好笑。AI 智能體的普及可能也會是這樣——最開始大家都懷疑,但隨著它變得更可靠,最終大家會接受它。
4.AI 實驗室的遲疑
目前,Claude Compute Use 不能登錄網站,就算你有正確的憑證。類似地,實驗室可能會猶豫,是否讓智能體在 2027 年開始與傳統軟件互動,盡管它在技術上是可以做到的。
5. 昂貴的推理
OpenAI 的 o3 證明了,花費大量資金進行推理是可行的,而且能帶來更好的效果。比如在 ARC 基準測試中,每個任務的推理成本可能高達數千美元。我們可能會看到類似圖 13 中 Paul Buchheit 理論的情況。我們有可能讓通用智能體在各個垂直領域都能有效工作,但由于高昂的運行成本,它可能變得不實際。不過,推理成本現在已經在穩步下降,通用智能體也不太可能每次都使用最大計算能力進行推理。
圖 13:Paul Buchheit 的推文
預測技術變革一直是件難事,而上面提到的障礙可能會大大改變這個時間線。如果這個趨勢繼續,AI 應用層的初創公司將會面臨不小的挑戰。它們可能會在與 AI 實驗室競爭通用產品時遇到困難,同時,通過垂直應用創造價值的窗口也會很快關上。如圖 14 所示,我認為初創公司在這一領域的總價值會呈倒 U 型:先隨著工程投入帶來一些初步價值,接著隨著更強的模型出現,這些工程工作會變得過時,總價值會下滑。
圖 14:AI 應用層初創公司預期價值隨時間變化表,分三個階段
這可能會讓創始人們感到沮喪。第一章和第二章發布后,我收到了很多類似「那是不是意味著我們該放棄了?」的評論,但我并不是這個意思。其實,外面還有很多問題有待解決,AI 應用并不是唯一的選擇。對于那些在考慮下一步的創始人來說,有幾個問題需要思考:做一個垂直應用能不能為未來的機會提供戰略定位?如果不能,那我還能做什么?第四章會繼續探討這些問題。
04創業就像巫師,在別人看不到機會的地方創造價值
我認為在未來幾年,AI 應用領域將對初創公司來說非常艱難,就像我在上一章提到的?,F在這些初創公司的收入增長看起來很不錯,增長勢頭會持續下去,但到了 2027 年,AI 實驗室的通用產品會變得非常強大,最終主導市場。
這可能讓創始人們非常沮喪。在第一章和第二章發布后,我收到了不少類似「所以你是在說我們應該放棄嗎?」的評論,但這并不是我的意思。外面有許多機會,AI 應用根本不是你唯一能做的。
創始人就像巫師一樣,在別人看不到機會的地方創造價值。創業需要創新的思維。正如 Paul Graham 說的:
「光正確還不夠。你的想法既要對,還要新穎 (…) 你不會為了去做大家都覺得有戲的事而創業?!?/p>
但是,我覺得很多創始人已經被同行的收入數字迷住了。那段話出自 Paul Graham 的《如何獨立思考》。當你周圍的人都在做一樣的事,而且做得還不錯,獨立思考就變得異常難。接下來是我自己的思考。希望這些思考能引發你一些新的思路。
我相信,主導 AI 應用層的通用智能體將是 AI 實驗室做的。雖然可能會有模型性能的分歧,最后可能會有一個贏家,但我覺得更可能的情況是,Anthropic、OpenAI、Google 和 xAI 之間會激烈競爭,這會變成一場價格戰,短期內的贏家會是終端用戶。即便 AI 實驗室們在短期內賺不到太多錢,但它們會變得非常強大,強大到我認為創始人應該在考慮自己初創公司的時候,就思考自己跟這些實驗室的關系。
創業者們能做的事還有很多
1. 客戶
我認為可以構建一個利用 LLM API 的 AI 垂直應用,但前提是你必須能夠獨占某些關鍵資源,就像第二章中討論的。如果你決心做垂直應用,你應該投入大量時間和精力去找這些資源。
2. 競爭者
如果通用智能體代表著未來,為什么不做一個呢?讓我們看看三種可能的路徑:
a. 搶占市場先機
AI 實驗室要等到模型足夠強大,強大到能用最小的工程投入打造出通用智能體時,才會真正和垂直工作流競爭。理論上,你可以通過早期模型的工程投入來占領市場。Leopold Aschenbrenner 認為,這個過程可能比開發新模型還要久:
「開發過程可能比模型解鎖花的時間還多,等到遠程工作者們都能自動化大量工作的時候,過渡期模型可能還沒完全開發出來?!?/p>
無論誰先來,市場的領先地位都不會持續太久。
b. 智能體 API 包裝
我的室友之前問:「就沒人能做個更好的 UI 嗎?」他不明白,模型 API 都已經開放了,為什么沒人做出比 ChatGPT 更好的東西。
這個問題暴露了兩個問題:1)API 成本讓利潤不可持續,2)實驗室不發布最強的模型(ChatGPT 還使用了自己的專有模型來做檢索、瀏覽等功能)。
現在,沒人通過 GPT API 和 ChatGPT 直接競爭,我預計通用智能體也會面臨同樣的問題。
c. 開源模型
開源模型是另一個可能的選擇。Perplexity 的例子說明,開源模型有潛力跟實驗室的通用產品競爭。但開源模型在簡單的基準測試中表現很好,但在復雜的智能體任務中就很難應對。比如圖 16 中,Llama-3.1-405b 在 MLE-bench 上的表現明顯落后于前沿模型。在我聯創的 Andon Labs,我們專注于這類基準測試,結果也類似。
圖 16: 在 MLE-bench 上的模型比較
這篇文章是我在發布前一個月寫的。當時 Deepseek V3 和 R1 已發布,表現非常好。不過,o3 也發布了,據說 Anthropic 內部還有更強的版本。我們將會看到越來越接近前沿的開源模型,但我懷疑它們能否超越現有的前沿。盡管如此,這些開源模型仍然足夠強大,可以參與通用競爭。不過,需要注意的是,推理成本依舊非常高。
3. 供應商
如果 AI 實驗室真能變得這么強大,做它們的供應商將是個不錯的機會。很明顯,它們需要大量的算力。如果圖 3 中 Leo 的分析是對的,需求可能比你預想的還要多。這個機會需要深入的行業知識,而對于現在處于 AI 應用層的創業者來說,可能還不太容易。但記住,你是個巫師。
AI 實驗室還會從第三方購買數據。Scale AI 正在證明這一點是個不錯的商機。不過,這里有個問題,AI 實驗室能否讓「自我博弈」技術成功。AlphaZero 就是一個著名的例子,它沒有使用任何外部數據,訓練過程被認為是未來 AI 模型的理想方式。如果它們做不到自我博弈,另一條路可能就是把多個后期訓練數據集拼接在一起。在這種情況下,賣數據應該是個很有前景的選擇!
圖 17: 預計美國電力生產與 AI 需求的對比。電力生產保持平穩,而 AI 需求預計會以指數級增長,到 2030 年可能會超過當前的電力生產值。最大的訓練集群需求占比很大
4. 生態系統
與 AI 實驗室的另一個可能關系是成為生態系統的貢獻者。也就是說,開發一些幫助通用智能體的工具,關鍵是這些工具要和智能體本身分開。就像第三章說的,傳統軟件會繼續存在,因為智能體需要高效的接口。雖然智能體理論上可以自己編寫軟件,但因為推理成本太高,可能并不實際。
生態系統的參與者也有可能變得商品化,所有的價值都被其他地方吸走。我認為這很大程度上取決于運行通用智能體的推理成本。如果推理成本低,智能體更可能自己寫它需要的程序。
如果時間線更長怎么辦?
時間線真的是關鍵——如果通用智能體要 10 年才能真正有競爭力,那做一個垂直 AI 就很值。你有足夠的時間來建立一家有分量的公司。
雖然實驗室的進展速度很快,10 年的時間可能不太現實,但如果是 4 年呢?4 年可能不足以做成一個巨頭公司,但足夠讓你不斷迭代優化。從 AI 應用層起步,可能可以幫你為未來轉型成供應商或生態系統角色做好準備。
05結語:YC 犯了錯?
從表面上看,YC 似乎犯了個大錯。他們大部分的投資都集中在一個即將衰退的領域。但老實說,我對風險投資的理解還不夠深入,不能完全確定自己的判斷。我只是想說,我有些困惑,歡迎大家給我一些意見。
YC 說自己基本上是無偏見(non-opinionated)的,不帶有過多主觀判斷,他們投資的是最聰明的人,期望這些聰明人找到最好的創意。這策略沒錯,畢竟很多創始人在預測未來細節上肯定比 14 個合伙人更行。
YC 項目中的一個重要環節是每周設定目標。大家在大團隊中合作,很有動力。但如果想法的多樣性不夠,就容易陷入短期思維。如果你的目標是下周就做出 5k MRR,那做一個 AI 垂直產品確實是個好主意,但我不認為這樣能幫你做出一個持久的生意。雖然我有點堅持這個看法,但如果我在 YC 的批次里,我也會很容易受到誘惑。更有意思的是,YC 的播客「The Light Cone」幾乎每集都提倡做垂直 AI。
我原以為 YC 的無偏見策略是有效的,因為它注重多樣性,但可能我錯了。
參考
https://mp.weixin.qq.com/s/LLjWskGKx3_TLOPBoTwcoQ
https://lukaspetersson.com/blog/2025/bitter-vertical/
https://lukaspetersson.com/blog/2025/power-vertical/
https://lukaspetersson.com/blog/2025/footnote-vertical/
https://lukaspetersson.com/blog/2025/wizard-vertical/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.