2025 年,AI 產業正在以一種前所未有的速度迭代向前,技術突破不斷涌現,市場格局也在迅速發生變化。
Innovation Endeavors 合伙人 Davis Treybig 近期發布了一份 AI 產業深度報告《State of Foundation Models》(2025),報告從模型、技術、應用、智能體、市場、公司架構、未來機會七個維度出發,非常全面且深入地剖析了 AI 產業當下的發展現狀及未來趨勢,對 AI 產業的現狀與未來趨勢進行了全景式掃描,非常具備參考價值。
注:Innovation Endeavors 是一家專注于技術驅動型創業的早期風投基金,投資組合橫跨生物技術、機器人、計算機視覺、金融科技等 AI 前沿領域。Davis Treybig 作為合伙人,主導了 Augment、Dosu、Capsule 等明星 AI 項目的投資。
TLDR:
AI不再是漸進式改良,而是生產力的代際躍遷。Cursor僅用一年達到近10億美元年收入,創造了SaaS史上最快增長記錄;25%的YC公司95%代碼由AI生成;軟件工程師坦言80%傳統技能已貶值,但剩余20%核心能力被放大了10倍。
成功的AI應用已不再依賴單一模型。OpenAI內部一個復雜問題會被分解為20次不同的模型調用,通過多模型協作、任務分解、驗證投票,系統性方法能將性能提升100%以上。
基礎模型公司正被迫向應用層移動——OpenAI 73%收入來自ChatGPT訂閱而非API,而Anthropic恰恰相反。這種戰略分化背后,是對"純模型API必將商品化"的深刻認知。
當數據收集成本降低1000倍,"數據即服務"將迎來前所未有的機遇:為AI智能體設計的新型基礎設施(專屬瀏覽器、支付系統、身份認證);"生成+驗證"的閉環架構成為構建可靠AI的關鍵模式。
超 8000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
01模型篇:在成本、折舊與創新之間尋求平衡
在生成式AI指數級增長的背后,基礎模型本身正經歷著一場復雜而劇烈的演變。其發展軌跡充滿了矛盾:訓練成本屢創新高,而模型的生命周期卻急劇縮短;對更大參數規模的盲目追求正在退潮,取而代之的是對計算效率和推理能力的深度挖掘。
前沿模型的經濟學悖論:高昂成本與極速折舊
構建最先進的基礎模型,正在成為一場資本和算力的豪賭。數據顯示,前沿模型的訓練成本正以驚人的速度膨脹。2020年,訓練GPT-3的成本約為450萬美元;而到了2025年,訓練Llama 4的成本預計將超過3億美元。在短短五年內,頂尖模型的入場券價格上漲了近兩個數量級。
然而,這種巨大的投入面臨著一個嚴峻的現實:極速的價值折舊。一個斥巨資訓練的閉源前沿模型,其領先地位可能在6到12個月內就被顛覆。一個典型的例子是,2023年發布的GPT-4訓練成本超過1億美元,但僅在一年后,一個訓練成本不足1000萬美元的開源模型DeepSeek-VL,就能在多個關鍵視覺語言基準測試中取得與之相當甚至超越的性能。
這種現象的背后,是開源模型與閉源模型之間性能差距的迅速收斂。在Meta、Mistral、阿里巴巴等科技巨頭的推動下,高質量的開源模型層出不窮,持續追趕甚至在部分指標上超越了同期的閉源對手。迭代速度的極致體現是,根據OpenRouter等平臺的追蹤數據,一個新模型能在排行榜前五名保持領先的中位數時間僅為3周。這種“你方唱罷我登場”的快速更迭,使得任何單一模型的長期技術壁壘都變得極不穩定。
除了計算成本,數據成本同樣驚人。Deepmind每年在數據標注上的花費高達10億美元,而Meta為Llama 3的后訓練數據投入了1.25億美元。對于高質量的推理數據,OpenAI甚至愿意為單條推理軌跡支付2000至3000美元。計算和數據這兩項巨額開支的邊界日益模糊,共同構成了模型開發中令人望而卻步的成本結構。
超越參數規模:推理計算與新尺度定律的興起
長期以來,單純擴大模型參數量被視為提升能力的核心路徑,但這一趨勢正在逆轉。數據顯示,在2023年GPT-4達到一個參數量高峰后,后續發布的新一代頂尖模型如Claude 3.5 Sonnet和Llama 3等,其參數規模反而有所下降。業界開始意識到,模型的效率和智能并非僅由參數量決定。
一種新的權衡范式正在形成:用更海量的數據(遠超“計算最優”配比的tokens)來訓練一個參數量較小的模型,雖然在訓練階段效率較低,但在推理(即實際使用)時,這樣的模型更容易部署、運行成本更低、延遲也更小,從而在應用層面具備顯著優勢。
這一轉變的深層原因在于,預訓練的傳統路徑正逼近其物理極限。正如Ilya Sutskever所指出的,高質量的互聯網數據是有限的,堪稱“人工智能的化石燃料”。當數據無法同步增長時,單純依靠硬件和集群規模的擴張將難以為繼。因此,業界不得不尋找新的能力增長點,而推理時間計算(Inference time compute)正成為新的前沿。
其核心思想是,讓模型在輸出最終答案前,花費更多的時間進行內部的“思考”和“推理”。這種“慢思考”允許模型構建更復雜的邏輯鏈條,從而提升回答的質量和準確性。
研究表明,這代表了一種新的尺度定律:增加測試時的計算量,同樣能帶來模型準確率的穩步提升。一個驚人的結果是,一個30億參數的推理模型,在給予足夠“思考時間”后,其數學能力可以超越一個不做深度思考的700億參數的大模型。這證明了“思考”本身,而非單純的模型尺寸,正成為解鎖更高智能的關鍵。
后訓練革命:構建更強推理能力的方法論
為了實現更強的推理能力,模型的訓練方法論也在快速演進,重心正從預訓練轉向后訓練(Post-training)階段。目前主要有兩種發展路徑:一是通過在大量的“推理軌跡”上進行后訓練,直接教會模型如何思考;二是利用“搜索”技術,在推理時指導模型的思考過程。例如,通過“Best-of-N”或“樹狀搜索”等技術,讓模型生成多個候選答案或推理路徑,再由一個驗證器(Verifier)或獎勵模型(Reward Model)來挑選出最佳結果。
驗證器和獎勵模型因此變得至關重要。它們可分為兩類:一類是程序化驗證器,如用于代碼生成的編譯器和單元測試,這類驗證器準確但泛化能力差;另一類是學習型驗證器,通過學習人類偏好來評估輸出的質量。構建一個能理解復雜、通用人類價值觀的通用獎勵模型(Generalist Reward Model),被認為是該領域的“圣杯”,但其開發難度極大。同時,后訓練的優化算法也在不斷迭代,從PPO發展到DPO,再到結合了獎勵模型的GRPO,整個技術棧日益復雜和精細。
演進中的模型架構:從混合專家到多模態
在模型架構層面,多個趨勢正在走向成熟:
混合專家模型(Mixture-of-Experts, MoE)日益普及。如DeepSeek、Mistral以及傳聞中的GPT-4,都采用了這種架構。它通過一個路由器將輸入導向不同的“專家”子網絡,只激活部分參數,從而在保持巨大模型容量的同時,顯著降低了單次推理的計算成本。
上下文窗口急劇增長,部分模型已宣稱支持千萬級token的上下文。但用戶需警惕“虛假宣傳”,在“大海撈針”測試中評估模型在超長文本中的真實信息提取能力。
多模態能力持續進步。模型已能熟練地處理圖文混合輸入。然而,能夠無縫理解和生成文本、圖像、音頻、視頻等多種模態的全能模型(Omni-modal models)仍處于非常早期的研究階段。
Tokenization(分詞)作為當前模型的一個基礎環節,依然是一個“頑固的‘變通’方案”,是導致模型拼寫錯誤、算術不佳、難以處理某些語言等諸多問題的根源。直接在字節(bytes)層面進行建模的Transformer架構,可能是解決這一問題的潛在方向。
基礎模型的概念正被應用到越來越廣泛的領域。視頻模型正迎來其“ChatGPT時刻”,生成質量和可控性大幅提升。在機器人技術領域,通用模型已能讓機器人在前所未見的環境中執行新任務。世界模型(World models)則致力于模擬環境中的動態變化,為機器人訓練乃至交互式娛樂體驗提供基礎。
在更專業的科學領域,基礎模型的應用也方興未艾。以自監督方式在基因組序列上訓練的DNA基礎模型,有望用于突變效應預測和基因組設計。除此之外,從蛋白質設計(Generate:Chroma)、藥物動力學預測(Iambic)到材料科學(Orbital),AI模型正在成為科學發現的新引擎。然而,這些專業領域面臨的最大瓶頸是高質量數據的稀缺,這限制了其市場成熟度和應用廣度。
02指數時代:從技術突破到全面爆發兩大技術突破:解鎖規模化的鑰匙
當前這輪AI技術浪潮的爆發,并非偶然,而是源于兩個關鍵的技術突破,它們分別解決了數據和計算的規模化瓶頸。
第一個突破是自監督學習(Self-Supervised Learning)。該方法允許模型從海量未標注的數據中自行學習。傳統監督學習需要昂貴的人工標注數據(例如,將圖片標記為“貓”或“狗”),而自監督學習通過巧妙設計的任務,讓模型從數據自身尋找監督信號。例如,模型可以被訓練來預測一句話中被遮蓋的詞語,或者根據前半句話補全后半句。通過這種方式,互聯網上浩如煙海的文本、代碼和圖像都成為了可用的訓練材料,從根本上解決了數據供給的規模化問題。
第二個突破是注意力架構(Attention Architecture),其最知名的實現即“Transformer”模型。這一架構革命性地提升了計算效率和模型對上下文的理解能力。在Transformer出現之前,處理長序列數據(如長篇文章)的模型效率低下且難以并行計算。注意力機制則允許模型在處理每個詞語時,都能同時“關注”到輸入序列中的所有其他詞語,并動態評估它們的重要性。這不僅使模型能夠精準捕捉長距離的語義依賴,更關鍵的是,其計算過程高度可并行化,完美契合現代GPU等并行計算硬件的特性,從而為模型規模的急劇擴張鋪平了道路。
從量變到質變:“涌現”與指數級擴張
當模型在數據和計算兩個維度上實現規模化后,一個關鍵的現象出現了——“涌現”能力(Emergent Behavior)。研究表明,當模型規模(以訓練所用的計算量,即FLOPs衡量)達到某個臨界點后,其在特定任務上的性能會突然從接近隨機猜測的水平,躍升至具備相當高的準確率。這在模塊化算術、多任務自然語言理解等領域尤為明顯。這種非線性的性能飛躍意味著,單純地擴大模型規模,就能解鎖前所未有的新能力。
這一發現直接催生了業界對模型規模的極致追求。在2018年至2022年的短短幾年間,頂尖語言模型的參數量實現了爆炸式增長,從千萬級(如ELMo)一路飆升至萬億級(如Switch-C)。其增長速度達到了驚人的三年15,500倍,將遵循“每兩年翻一番”規律的摩爾定律遠遠甩在身后。
市場印證:空前的采納速度與商業化效率
技術上的指數級進步迅速轉化為市場上的現象級成功。ChatGPT的問世,創造了人類科技史上最快的用戶增長記錄。它僅用60天時間就吸引了1億用戶,相比之下,互聯網達到同樣規模用了7年,Facebook用了近5年。這一數據清晰地表明,生成式AI滿足了真實而廣泛的用戶需求。
與用戶增長同樣迅猛的,是其商業化變現的速度。一批AI原生應用在極短時間內就實現了驚人的收入規模。例如,GitHub Copilot在三年內達到約4億美元的年化收入;Midjourney用兩年時間、約40名員工的團隊,創造了約2億美元的年化收入;而更年輕的Cursor僅用一年時間、約20名員工,就實現了約1億美元的年-化收入。這些案例共同指向一個事實:AI應用正以極高的資本效率和極精簡的團隊結構,創造著前所未有的商業價值。
全面加速:技術指標與模型能力的持續躍升
這股指數級增長的勢頭,正貫穿于基礎模型技術的所有核心指標。從2023年初到2025年春季,模型的上下文窗口(即一次性處理信息量的上限)從數千個token擴展至約100萬個token,增幅高達100-500倍。達到GPT-4級別模型的訓練成本預計將從1億美元降低至10萬美元,實現了超過1000倍的成本縮減。同時,訓練模型所需的總計算量也增長了超過1000倍,反映出業界仍在堅定地投入算力以換取更強的模型能力。
性能的提升同樣直觀。在各項學術和專業基準測試中,大型語言模型(LLM)的得分曲線持續陡峭上揚,在2024年已在科學推理、高級數學、軟件工程等多個領域接近甚至超越了人類頂尖水平。
更具實際意義的是,AI能夠自主完成任務的時間跨度也實現了指數級飛躍。在短短五年內,AI智能體能夠穩定完成的任務時長從1秒鐘躍升至1小時以上,其能力倍增周期僅為7個月。這意味著AI正從一個只能執行瞬時指令的工具,演變為能夠處理復雜、長期任務的可靠助手。
在特定專業領域,LLM的能力已經開始超越人類專家。例如,在多項綜合診斷任務中,AI模型已展現出比人類醫生更高的準確性。在解決國際數學奧林匹克(IMO)級別的復雜幾何問題上,AI的準確率已超過地球上99.999%的人口。這種超越不僅局限于文本和邏輯推理,在圖像生成領域,擴散模型(Diffusion Models)同樣在兩年內實現了從略帶卡通感的生成(如2022年的Imagen)到照片級逼真度(如2024年的Visual Electric)的巨大飛躍,展現了其在多模態能力上的同步進化。
03用例與應用:AI對知識工作的全面重塑
隨著基礎模型能力的指數級增長,其應用范圍正以前所未有的深度和廣度滲透到各個行業。從重塑信息獲取方式,到顛覆軟件工程的全生命周期,再到為所有高技能知識工作者配備Copilot,生成式AI正從根本上改變價值創造的方式。
核心應用:從通用搜索到垂直領域的“信息中樞”
搜索與信息綜合至今仍是大型語言模型(LLM)最核心、最具標志性的應用場景。這一需求催生了兩類產品形態。一類是通用型搜索與問答引擎,如Glean、Perplexity和Bench,它們致力于為用戶提供一個能回答任何問題的統一入口,直接挑戰傳統搜索引擎的地位。
另一類則是數量更為龐大的垂直領域專用解決方案。據估計,已有超過1000家初創公司圍繞這一模式找到了產品市場契合點(Product-Market Fit)。這些公司將LLM的理解和綜合能力應用于特定行業,打造專用的“信息中樞”。
例如,AlphaSense和Tetrix服務于投資領域,Harvey專注于法律行業,Trunk Tools面向建筑業,而OpenEvidence則深耕醫療健康領域。這種垂直化策略通過整合行業特有數據和工作流,提供了遠超通用工具的價值,形成了一個繁榮的創業生態。
顛覆性影響:軟件工程迎來范式革命
軟件工程是迄今為止受到AI沖擊最為深刻的領域。在短短兩到三年內,軟件工程Copilots(SWE Copilots)已經發展成為一個年收入規模近20億美元的龐大市場。其中的明星產品Cursor,更是創造了軟件即服務(SaaS)領域有史以來最快的增長記錄,年化收入已接近10億美元。
AI代碼生成工具的影響力已經不容忽視。根據YC創始人Garry Tan的觀察,在其2025年冬季批次的創業公司中,有25%的公司其代碼庫中95%的行數是由LLM生成的。這標志著一個“氛圍編程”(vibe coding)時代的到來,開發者只需描述意圖,即可由AI完成大量具體的編碼工作。
資深工程師甚至表示,在體驗過Cursor這類工具后,他們過往80%的技術技能價值驟降,而剩余20%的架構設計和系統思考等核心能力的杠桿效應則被放大了至少10倍。
AI的影響力已經貫穿了整個軟件開發生命周期(SDLC)。從代碼審查(Graphite)、文檔撰寫(Dosu)、代碼遷移(Mechanical Orchard),到原型設計(Lovable)、測試與QA(Ranger),幾乎每個環節都在被AI重塑。
這預示著未來所有開發者工具類的產品,都必須在一個以AI代碼生成為默認選項的世界里重新思考自身定位。更進一步,以All Hands和Replit為代表的自主軟件工程(Autonomous SWE)工具,正朝著完全自動化的方向探索,試圖將開發者從繁瑣的實現細節中徹底解放出來。
全面滲透:為所有高技能專業人士配備AI副駕駛
軟件工程領域的成功模式正在被快速復制到所有需要專業知識和高度技能的職業中。一個清晰的趨勢是,針對不同專業人士的AI copilot和智能體正在大量涌現,旨在增強其生產力、自動化重復性工作。
這個新興的應用矩陣覆蓋了從硬件到創意,從工程到金融的廣泛領域。
與此同時,所有形式的創意表達也正在被AI徹底重塑。
未來趨勢:從專業輔助到個人生活的全面整合
除了在專業領域的應用,AI也正日益融入人們的個人生活。根據哈佛商業評論對用戶使用模式的調查,AI的核心用例正在發生演變。
在2024年,“生成想法”是首要用例,而到了2025年,“治療/陪伴”和“組織我的生活”躍升為前兩大需求。這表明用戶正從將AI視為一個純粹的生產力工具,轉向將其看作一個能夠提供情感支持和個人管理輔助的伙伴。
這一趨勢與AI在教育、教練和陪伴領域的應用興起相吻合。同時,AI的用例也變得更加多樣化,包括垂直領域的寫作(Gale)、語言學習(Speak)、語音智能體(FerryHealth)以及處理非結構化數據的“記錄系統”(Clarify)等。AI正在從一個解決特定任務的工具,演變為一個深度整合進個人與職業生活方方面面的基礎設施。
04智能體崛起:構建下一代AI應用的模式與挑戰
基于大型語言模型(LLM)的應用正在經歷一次意義深遠的成熟過程,其演進路徑清晰地展示了從單一功能到復雜系統的轉變。最初的應用,如早期的Notion AI,主要依賴模型本身的核心能力進行文本生成或摘要。
隨后,我們看到了檢索增強生成(RAG)技術的興起,以GitHub Copilot為例,它將模型與特定的數據集相結合,通過檢索相關代碼或文檔來提供更精準、更具上下文的輔助。
如今,我們正邁入一個新的階段:智能體(Agents)。以Deep Research等新興應用為代表,它們不僅整合了模型和數據,還賦予了模型使用工具(Tools)的能力,標志著AI應用正在從被動的響應者轉變為主動的任務執行者。
解構智能體:循環、工具與復雜任務
智能體的核心機制可以被理解為一個在環境中利用工具循環作業的模型。這個過程始于人類的指令,大型語言模型(LLM)接收指令后,并非直接生成最終答案,而是規劃出需要執行的動作(Action)并調用相應的工具。
這些工具可以是文件系統搜索、代碼編寫與執行、API調用,甚至是模擬人類瀏覽網頁的行為。模型通過工具與外部環境(Environment)進行交互,獲取執行結果或新的信息作為反饋(Feedback)。
這個反饋會再次輸入模型,幫助其進行下一步的判斷和規劃,形成一個“規劃-執行-反饋”的閉環。這個循環會持續進行,直到任務完成或達到預設的停止條件。
這種循環作業的模式賦予了智能體處理高度復雜任務的能力。一些領先的智能體初創公司的產品,在處理一個看似簡單的用戶請求時,內部可能會發生極其復雜的連鎖反應。
這種多步驟、遞歸式的任務處理能力,是智能體與傳統LLM應用最根本的區別。
專才的勝利:通用智能體為何尚未到來
盡管智能體技術前景廣闊,但市場現實表明,通用型智能體(Generalist agents)的商業化道路依然充滿挑戰。一些嘗試構建能夠處理用戶日常生活中各種任務的通用智能體的初創公司,盡管在技術上實現了相似的能力,卻始終難以找到穩定的用戶需求和產品市場契合點,最終走向沉寂。
Alex Graveley關于其ai_minion項目停運的分享便是一個例證,他提到盡管產品能力與備受關注的OpenAI Operator類似,但并未獲得市場認可。
與此形成鮮明對比的是,那些專注于特定領域的“特化”智能體(Specialized agents)卻表現得異常出色。諸如Lovable、Dosu、Windsurf和Sierra等公司,通過將智能體技術應用于特定、明確的業務場景,獲得了強大的產品市場契得。
它們的成功說明,在當前階段,智能體的價值并不在于其能力的廣度,而在于其在特定垂直領域內解決實際問題的深度和可靠性。用戶更傾向于為能穩定解決某個具體痛點的工具付費,而不是一個功能強大但行為不可預測的通用助手。
成功的關鍵:期望管理與產品設計
智能體產品的成功與否,很大程度上取決于用戶期望的管理。以備受爭議的AI軟件工程師Devin為例,社區對其評價呈現出兩極分化。一部分用戶在體驗后認為“它很少能真正起作用”,而另一部分用戶則稱贊其為“公司里最有生產力的工程師”。
這種差異的根源,并不僅僅在于產品本身,更在于用戶是否投入時間去學習如何與智能體有效協作。學習使用智能體本身就是一項技能。成功的團隊懂得如何引導用戶建立合理的期望。
這種期望管理最終需要通過細致的產品設計來實現。成功的智能體產品在三個關鍵層面找到了平衡。首先是在人機協作的平衡上,產品需要明確自身是全自動執行還是需要人類監督,并提供諸如“智能體收件箱”(Agent Inbox)這樣的審核與管理工作流。更重要的是,產品必須清晰地告知用戶應該在何時、何地使用它,以及更重要的,何時何地不應該使用它。
其次是明智的用例選擇。成功的智能體往往切入那些現有工作流中失敗率或錯誤率較高的環節,或者作為“第一遍”審查工具,用于在早期發現問題。在這些場景下,覆蓋更多檢查點的重要性超過了單點上絕對的正確性,并且任務本身的試錯風險較低。
最后,在產品與設計層面,智能體必須能夠“展示其工作過程”,讓用戶理解其決策路徑,從而建立信任。同時,內置的修正機制,如編輯、撤銷、重做等,是必不可少的,它賦予了用戶最終的控制權。通過最小化用戶的認知負荷和針對特定工作流進行設計,才能將一個強大的技術模型,轉化為一個用戶真正愿意信賴和使用的產品。
超越單一模型:系統性思維的崛起
成功的AI產品團隊往往不再將大型語言模型(LLM)視為一個單一的、萬能的黑箱。相反,他們更多地從“系統”的視角來構建解決方案。
這種思維方式的轉變,是應對復雜和開放式問題的關鍵。例如,當面對一個需要辯證分析的問題,如“社交媒體對民主有害的最佳論據和反對論據是什么?”,一個簡單的、直接向LLM提問并獲取回答的流程,其結果的深度和可靠性往往有限。
一個系統性的方法則會截然不同。它會將這個復雜問題分解為多個獨立的子任務。系統可能會首先并行調用兩個LLM實例(生成器),一個專門生成支持該主張的論據,另一個則生成反對該主張的論據。隨后,系統會再調用兩個LLM實例(批判家),分別對正反兩方的論據進行評估和篩選,各自選出排名最高的幾個論點。
最后,一個更高階的LLM實例(裁判)會將這些經過篩選的、高質量的正反論據進行綜合,形成一個結構化、邏輯嚴密且觀點平衡的最終回答。這種多步驟、多角色的協作流程,其產出質量遠非單次調用所能比擬。
OpenAI的首席產品官Kevin Weil也證實了這種趨勢,他提到在公司內部,模型集成(ensembles of models)的使用遠比外界想象的要普遍。一個復雜問題可能會被拆解成10個不同的子問題,并動用20次不同的模型調用來解決。
這其中可能混合使用了針對不同任務微調的特化模型,也可能因為延遲或成本的考量而選用了不同規模的模型。每一個調用都可能配有為其量身定制的提示詞(prompt)。其核心思想,正是將一個宏大、模糊的高階任務,分解為一系列具體、可控的低階任務集合。
這種系統范式催生了許多具體的實現技術,例如通過多次采樣生成多個候選答案,然后從中選出最優的“Best of N”方案;通過多步規劃(Multi-hop planning)來解決需要長程推理的問題;以及利用驗證和投票機制來提升結果的準確性。
在一項針對軟件工程任務的基準測試(SWE-bench Lite)中,采用多樣本方法的系統(DeepSeek-Coder-V2-Instruct)其問題解決覆蓋率達到了56%,顯著高于僅依賴單次嘗試的先進模型(43%),更是遠超單次嘗試的GPT-4o(24.67%)。這充分證明了系統性方法在提升AI能力上限方面的巨大潛力。
隨著這些系統變得日益復雜,手動搭建和調優的難度也越來越大。因此,更高層次的編程框架應運而生,旨在將開發者從繁瑣的手動調優中解放出來。
像DSPy和Ember這樣的框架,允許開發者以聲明式的方式定義AI系統的邏輯流程,而框架本身則能自動優化底層的提示詞、模型選擇和執行策略,這預示著AI系統構建正在走向自動化和工程化。
蘋果公司發布的Apple Intelligence便是這種復雜系統架構在消費級產品中的一個極佳例證。其系統設計橫跨設備端和服務器端。在設備端,一個復雜的“大腦”包含路由器(決定任務在端側還是云端處理)、工具集、搜索索引和任務編排器。同時,設備上還運行著相對較小的基礎語言模型和擴散模型,并通過LoRA適配器進行輕量化定制。
當任務超出端側能力時,請求會被安全地發送到服務器端,由更強大的大型語言模型處理。這種混合架構,正是為了在保護隱私、降低延遲和利用強大云端算力之間取得平衡,它本身就是一個精心設計的AI系統。
檢索的持久戰:為何RAG依然是核心
盡管模型的上下文窗口在不斷擴大,但檢索增強生成(RAG)技術在可預見的未來仍將是構建高質量AI應用的核心組件。對于大多數非簡單的應用場景,RAG在質量、成本和延遲方面均以數量級的優勢勝過單純依賴長上下文窗口的模型。
在質量方面,一項“大海撈針”測試顯示,當需要從海量信息中精確檢索并利用3個關鍵信息點時,基于RAG的系統(Yurts RAG)能夠持續保持近乎100%的準確率。相比之下,即使是擁有超長上下文能力的GPT-4(32k),其準確率也會隨著上下文長度的增加而劇烈波動,甚至出現顯著下降。
在成本和延遲方面,差距同樣明顯。運行一個RAG系統,單個用戶每天的托管成本可能僅為78美元,而一個依賴Llama-3-8B長上下文模型的系統,成本則至少為1560美元/天。
在響應速度上,使用Gwen 2.5 Turbo模型處理1M token的上下文,生成第一個詞元需要長達68秒,而在超過100萬份文檔中進行p99搜索延遲僅為677毫秒。這些數據清晰地表明,檢索是實現兼具高性能和高效率的必經之路。
現代的檢索管道本身就是一個極其復雜的系統,信息檢索已成為應用AI領域最被低估的核心技能之一。一個先進的檢索流程可能包括:首先進行預過濾,然后進行結合了關鍵詞和向量的混合搜索,得到初步結果。
接著,通過多階段重排(Multi stage reranking)來優化結果排序,例如使用Matryoshka嵌入技術,從粗粒度到細粒度逐步篩選。之后,還可能使用計算成本更高的交叉編碼器(Cross-encoders)進行最終的精排。整個流程融合了多種技術,以確保在最終提交給LLM之前,上下文信息的信噪比達到最高。
成功初創公司的核心關注點
那么,頂尖的應用AI初創公司究竟在執著于什么?答案并非僅僅是追逐最新的模型。他們的精力更多地投入在以下幾個方面:
首先是評估(Evaluations)。“你即是你的評估”——這句話道出了核心。沒有科學、可靠的評估體系,就無法衡量產品的改進,也無法做出正確的技術決策。
其次是Data curation。正如Greg Brockman所言,手動檢查數據可能是機器學習中價值與聲望比率最高的活動。高質量、經過精心清洗和標注的數據,是訓練、微調和評估模型的基礎,其重要性無論如何強調都不為過。
他們還致力于用用戶體驗(UX)來解決研究層面的問題。當一個技術問題在研究層面難以完美解決時,他們會思考如何通過巧妙的工作流設計或產品交互,來規避或彌補技術的不足。
此外,他們將搜索與檢索(Search & Retrieval)放到了極高的戰略位置,投入在檢索工程上的精力可能是模型本身的10倍。他們深刻理解,送入模型的信息質量直接決定了輸出質量。
最后,他們普遍將模型層視為“最后的手段”(last resort)。他們的優化順序是:優先優化提示詞(Prompt),其次是優化系統工程(Systems engineering),再次是模型后訓練(Post train),最后才是成本高昂的預訓練(Pre-train)。這種系統性的思考方式貫穿了他們產品開發的始終。
從產品到生態:分化、權衡與未來
在產品層面,差異化正在通過更深層次的創新實現。以AI筆記應用市場為例,盡管該領域早已擠滿了Fireflies.ai、Otter.ai等眾多玩家,但Granola通過徹底重塑AI筆記的用戶體驗模式,成功進入并贏得了市場。
這表明,設計驅動的公司和創始人,在當前AI產品同質化嚴重的背景下,擁有巨大的機會。然而,整體來看,當前基礎模型應用的UX設計模式仍處在非常早期的階段,許多界面讓人聯想到功能機時代或早期PC軟件,顯得生硬和笨拙,這既是挑戰,也是創新的空間。
AI初創公司還必須在一個核心的戰略困境中做出抉擇:是圍繞當前模型的缺陷構建復雜的工作流,還是等待模型能力的下一次躍升。一個典型的例子是AI頭像生成。過去,像Lensa這樣的應用需要用戶上傳多張照片,經過復雜的微調流程,才能生成定制化的頭像。
而現在,隨著GPT-4o等模型的出現,用戶只需提供一張圖片和一段文字描述,通過上下文學習(In-context learning)就能即時獲得高質量的、風格化的圖像,這使得原先整個復雜的流程變得多余。
面對智能體需要與各種外部工具交互的現實,生態系統層面也開始出現標準化的努力。模型上下文協議(Model Context Protocol, MCP)正逐漸成為一個行業標準,獲得了OpenAI、Anthropic、Deepmind和微軟等巨頭的公開支持。
MCP旨在為AI模型(客戶端,如Claude)與不同應用程序(服務器,如Gmail、Figma)之間提供一個統一的交互接口。理論上,這能極大地簡化工具的集成過程。
然而,標準化與性能之間存在著天然的張力。研究和實踐都表明,智能體工具的使用界面對最終效果的影響是巨大的。即便是微小的界面變化,比如在代碼編輯器工具中提供“帶語法檢查的編輯”選項,或是在搜索工具中提供“迭代式搜索”功能,都會對任務的成功率產生顯著影響。
最后,一個常被忽視的差異化維度是“個性”。大多數面向普通消費者的AI產品都朝著遵循指令、類似研究助理的工作流進行優化。但不同的應用場景需要截然不同的AI個性。
例如,在設計領域,用戶需要的是創造力和隨機性;在教育領域,需要的是權威性和適度的引導;而在心理治療領域,則更側重于提問而非直接給出答案。已有研究表明,未經嚴格對齊的基礎模型在某些創造性任務上甚至能勝過對齊后的模型,這說明“個性”本身就是一個可以被設計和優化的產品特性。
這一切復雜應用的背后,是一個日趨成熟的基礎設施生態系統。從提供模型推理服務的Fal.ai和Together.ai,到數據管理的Datalog.ai,再到評估與可觀測性平臺Braintrust和Langfuse;從嵌入服務Voyage AI,到檢索數據庫LanceDB,再到各種框架、智能體工具和特定領域(如視頻、文檔處理)的基礎設施,一個完整的產業鏈正在形成,為構建下一代AI產品提供了堅實的支撐。
更深層次地,這場由基礎模型驅動的革命,甚至正在催生半導體行業的復興,大量專注于Transformer架構的新型芯片初創公司涌現,預示著從軟件到硬件的全棧式創新浪潮才剛剛開始。
05市場結構與動態:資本、巨頭與應用的重塑
人工智能領域的市場結構與動態正在經歷一場由資本、技術和商業模式共同驅動的劇烈變革。資本的流向是市場熱度最直接的指標,而數據顯示,資金正以前所未有的規模和速度向AI領域,特別是基礎模型公司集中。
資本的洪流:AI投資的空前集中
風險投資的格局在過去幾年發生了根本性的轉變。2024年,全球約有10.5%的風險投資額流向了基礎模型(Foundation Model)公司,總額高達330億美元。這一比例相較于2020年的僅約0.03%,增長了數百倍,顯示出資本市場對底層技術平臺的巨大信心。這一趨勢在2023年已初現端倪,當年投向基礎模型實驗室的資金達到了150億美元,占全球風險投資總額的5.3%。
進入2025年,這一趨勢愈演愈烈。數據顯示,2025年迄今為止,已有超過50%的風險投資被部署到了AI相關的公司。這是一個驚人的數字,標志著AI已經從一個重要的投資賽道,轉變為整個風險投資生態的絕對中心。資本的這種高度集中,正在深刻地影響著市場的競爭格局和技術演進的方向。
基礎模型公司的分化與生存策略
在資本的助推下,頭部的基礎模型初創公司正在以驚人的速度實現收入增長。OpenAI預計其2025年的收入將達到127億美元,相較于2024年的37億美元,增長超過三倍。同樣,Anthropic也證實其年化收入在第一季度達到了20億美元,相比上一時期實現了超過一倍的增長。
然而,在高速增長的背后,這些巨頭的商業模式正在出現明顯的分化。根據收入構成的估算,OpenAI正日益成為一家消費者應用公司,其約73%的收入來自于ChatGPT的訂閱服務。相比之下,Anthropic則更像是一家API公司,其高達85%的收入來自于向開發者和企業提供的模型調用接口。這種戰略上的分野,預示著它們未來不同的發展路徑。
這種分化背后,是一個更深層次的戰略考量:為了生存和建立長期的護城河,領先的模型公司很可能必須向上游移動,成為應用層公司。單純提供底層模型API的商業模式,面臨著被商品化的巨大風險。
因此,我們看到OpenAI不僅被報道正在開發類似X的社交媒體平臺,還在洽談收購AI代碼初創公司Windsurf。與此同時,Anthropic也聘請了Instagram的聯合創始人來擔任其產品負責人。這些舉動都清晰地表明,控制應用和用戶入口,正在成為基礎模型公司下一階段競爭的關鍵。
在這場競爭中,起步稍晚的谷歌,正展現出越來越難以阻擋的勢頭。截至2025年4月,谷歌的Gemini系列模型在速度與質量的帕累托前沿曲線上占據了絕對的統治地位。從高性能的Gemini 2.5 Pro,到高性價比的Gemini 1.5 Flash,再到各種不同規模的變體,谷歌憑借其規模經濟優勢,幾乎在每一個細分性能區間都提供了業界領先或極具競爭力的選項。這充分體現了基礎模型競賽本質上是一場資本和規模的游戲。
尋找粘性:從應用層到物理世界
對于面向消費者的AI聊天應用而言,“記憶”(Memory)功能正在成為一個關鍵的潛在用戶粘性驅動力。誰能掌握通用消費級AI的記憶,就可能掌握未來所有AI應用的“用X登錄”入口,允許用戶將自己的偏好、歷史和上下文“攜帶”到任何應用中。
然而,實現一個好的記憶系統極其困難。其核心挑戰在于,如何從冗長的對話中有效提取、總結和更新需要被記住的核心信息,并將其與新的上下文恰當地融合。
當我們將目光從純軟件領域投向物理世界,一個重要的問題浮出水面:在機器人等物理領域的基礎模型公司,能否像圖像和文本領域的公司一樣“對抗地心引力”,實現類似的快速發展和高估值?這些領域的運營復雜性遠高于純軟件,但其定價模式卻與軟件相似。盡管如此,大量資金已經涌入這個賽道。
從Skild AI、Figure AI到Physical Intelligence,眾多初創公司正在構建用于機器人控制、人形機器人和通用物理任務的基礎模型,并獲得了數億美元的巨額融資,其投資者不乏微軟、英偉達、OpenAI等行業巨頭。
應用層的爆發與隱憂
AI應用層本身也正經歷著前所未有的收入增長和高估值。一些AI原生應用展現了堪稱恐怖的增長速度,例如Bolt在60天內實現2000萬美元收入,HeyGen在一年內從零增長到3500萬美元。整體來看,B輪和C輪的AI公司,其平均收入倍數和增長率遠超傳統SaaS公司。
如今,AI原生應用的總年化運行收入(ARR)已經達到了數十億美元的規模。從Midjourney、Cursor到ElevenLabs,一批年收入過億甚至數億美元的公司已經出現,覆蓋了圖像生成、代碼、音頻、企業搜索等多個領域。
這種強勁的增長正在從根本上重塑人們對于軟件付費的預期。有觀點認為,在未來幾年,專業人士每月為AI工具支付5000至10000美元將并非不合理。OpenAI甚至計劃向使用高級AI代理進行高水平研究的用戶收取高達每月20000美元的費用。這種定價模式的轉變,源于AI為用戶創造的巨大價值。
一個值得關注的現象是,即便在位者擁有所有可以想象的優勢,AI初創公司依然能夠贏得市場。AI并非一種簡單的“維持性創新”,它在構建產品的方式上與傳統軟件有著本質不同。例如,在代碼輔助領域,初創公司Cursor正在挑戰GitHub Copilot;在創意工具領域,Krea正在與Adobe Firefly展開競爭。
然而,繁榮之下亦有隱憂。AI初創公司的收入增長存在巨大的“新奇效應”風險,許多產品的收入曲線呈現出“快速崛起又快速隕落”的形態。AI照片應用Lensa的流行度便是一個典型案例,其用戶興趣和應用內收入在達到頂峰后迅速回落。
總體而言,AI市場在許多維度上都存在明顯的“泡沫”感。許多公司在沒有建立起清晰的產品市場契合點的情況下,每年就燒掉超過5000萬美元用于模型訓練。法國AI初創公司H在獲得2.2億美元種子輪融資僅三個月后,三位聯合創始人便宣告離職,這無疑是市場過熱的一個注腳。
在整個產業鏈的底部,GPU生態系統的市場結構與傳統的CPU生態有著深刻的不同,這催生了新一代“GPU云”供應商的崛起。傳統的云服務商(如Google Cloud)通常將硬件與云服務捆綁銷售,而GPU工作負載的特性決定了用戶更關心單位預算內能獲得多少額外的計算時間,而非增值軟件服務。
因此,像CoreWeave這樣的新型供應商,專注于提供純粹的GPU算力,并采用更符合AI訓練需求的長期固定合同,從而獲得了市場的青睞。
但無論市場如何變化,英偉達及其GPU生態系統依然是這場變革中“有保證”的贏家。根據其財報,AI推理token的生成量在短短一年內就增長了十倍。其股價在過去五年的飛漲,是其在AI浪潮中核心地位的最有力證明。
06未來已來:AI原生公司的運作范式
AI的普及正在從根本上改變公司的運作方式。頂尖的公司正在越來越多地采納一種新的信條:“學會使用AI,否則就離開。”這不僅僅是一句口號,而是一種正在成為現實的組織變革。
組織與人的重塑
在未來,有效使用AI將不再是一項特殊技能,而是對組織中每個人的基本期望。它就像今天使用電腦或互聯網一樣,是所有行業的基本工具。停滯不前幾乎等同于緩慢的失敗,因為不擁抱變化就意味著被時代拋棄。
這種變革直接體現在團隊結構上。小而精、資本效率高的團隊正在成為新常態。例如,AI初創公司Gamma在僅有30名員工的情況下,就實現了盈利和5000萬美元的年化運行收入,而其上一輪融資僅為1200萬美元。這表明,AI極大地放大了個人和小型團隊的杠桿。
團隊的構成也在快速變化。一位成長階段初創公司的產品副總裁表示,他越來越看不出設計師和產品經理之間的區別。而一家上市公司的首席營銷官則稱,AI完全改變了他的招聘思路,他不再招聘專家,而是招聘能夠熟練使用AI工具的通才。
一種全新的管理技能正在出現:學習“管理”AI工作者集群,這與管理人類團隊并無本質不同。一位頂尖代碼生成初創公司的首席技術官坦言:“我已有三個月沒寫過一行新代碼了。我所有的時間都花在管理和審查智能體上。” “智能體收件箱”(Agent Inbox)這樣的設計模式正在興起,它提供了一個界面,讓管理者可以審查、批準和修正AI智能體完成的任務,就像管理一個團隊的工作隊列一樣。
一個更深層次的范式轉變是,產品開始被設計為以AI為主要“消費者”,而不僅僅是人類。例如,.cursorrules
文件正在成為新的文檔,它直接告訴AI如何與項目進行交互。在Neon數據庫平臺上,由AI代理創建的數據庫實例數量已經超過了由人類創建的數量。這預示著一個未來:軟件和系統的構建,將越來越多地圍繞機器的可讀性和可操作性展開。
價值的創造與毀滅
這場變革必然伴隨著價值的毀滅與重塑。一些傳統的工作模式和商業實體將面臨巨大挑戰。過去外包給代理機構和咨詢公司的職能,如視頻制作,將可能被內化。高度專業化的工作崗位和面向專家的工具,將面臨來自“通才+AI”組合的沖擊。
而主要圍繞溝通和信息傳遞的中間管理崗位,如項目經理,其價值也可能被侵蝕。同時,那些在位者,如處理非結構化數據的CRM公司、創意工具公司和開發者工具公司,都處在AI沖擊的“火線”上。任何不愿經歷文化和組織變革陣痛的公司,都將面臨被淘汰的風險。
關于通用人工智能(AGI)是否臨近的討論,最聰明的AI研究者們的看法也呈現出有趣的分化。一個廣為流傳的智商分布圖形象地描繪了這種現象:處于智力分布曲線兩端的人(新手和頂尖專家)都傾向于認為AGI將在3年內到來,而處于中間的大多數專家則認為,這些模型只是先進的統計預測設備。這反映了對于AGI本質和實現路徑的深刻分歧。
07未來藍圖:AI原生時代的機遇與重構
隨著人工智能從底層技術滲透到應用的方方面面,一個全新的商業和社會圖景正在被繪制。這不僅是現有模式的優化,更是一場深刻的重構。對于有遠見的構建者而言,這意味著一片充滿機遇的藍海,其中蘊藏著重塑核心行業、創造新型服務以及定義下一代基礎設施的可能。
軟件開發的范式遷移
人工智能代碼生成能力的普及,將對軟件開發這一核心的現代工業活動產生深遠且不可逆轉的下游影響。其沖擊力將貫穿整個軟件開發生命周期(SDLC),并從根本上改變我們組織、構建和交付軟件的方式。
首先,整個軟件開發生命周期本身正面臨重塑。在一個AI越來越多地承擔代碼編寫工作的世界里,為人類協作而設計的傳統流程,例如持續集成與持續部署(CI/CD)、Git版本控制以及可觀測性工具,其底層邏輯都將受到挑戰。
當代碼的生成速度、數量和模式都發生數量級的變化時,我們現有的流程和工具必須隨之進化,以適應一個以機器為主要生產力的全新開發范式。
其次,軟件工程的重心正在發生一場“右移”的結構性轉變。過去,產品經理和設計師的工作止于交付規格文檔或設計稿,之后便進入漫長的工程開發階段。而現在,借助強大的AI代碼生成工具,這些非技術角色已經能夠獨立構建功能完善的原型,甚至直接向代碼庫提交拉取請求(Pull Request)。
這模糊了傳統意義上產品、設計與工程之間的角色邊界,也催生了對新型工具的需求,例如專為這些“公民開發者”設計的集成開發環境(IDE)。
這種角色的模糊化,最終將導向“AI原生”的軟件組織形態。在這樣的組織里,工程、產品和設計之間的嚴格分野將不復存在,團隊協作的模式被徹底改寫。任務管理工具所管理的對象,將不僅僅是人類工程師,更是成群的AI智能體。這種轉變必然要求組織結構的相應調整,并催生出全新的協作與管理需求。
隨之而來的是,軟件的驗證、測試與護欄的重要性被提到了前所未有的高度。當大量的代碼由AI自動生成時,如何系統性地保證其質量、安全性和正確性,成為了一個核心挑戰。過去被認為是利基領域的技術,如負載測試、形式化驗證等,可能會成為主流的必備環節。
而“代碼審查”這一活動,其內涵也將發生根本性變化,從人與人之間的交流,轉變為人審查機器、甚至機器審查機器的全新工作流。我們甚至可能需要更好的方法,來自動化“產品”層面的反饋,例如通過運行大規模的合成用戶體驗研究,來快速驗證產品方向。
數據即服務(DaaS)
大型語言模型(LLM)已經從根本上改變了我們與數據交互的每一個環節:收集、創建、結構化、理解和轉換。這種能力的躍升,預示著“數據即服務”(Data-as-a-Service)這一商業模式將迎來一場深刻的文藝復興,新的物種將從中誕生。
一個核心的突破在于,我們現在能夠收集以前無法觸及的數據。可以設想,利用語音智能體,我們能夠以極低的成本大規模地進行用戶訪談或市場調研;通過電子郵件智能體,能夠以全新的方式大規模地征集數據。LLM的對話能力,使得從個人身上深度提取靈活、非結構化的洞察成為可能。
同時,LLM賦予了我們結構化過去無法結構化的數據的能力。例如,將成千上萬個非標準化的個人網站,自動轉化為元數據豐富、格式統一的結構化數據庫。這等于解鎖了互聯網上沉睡已久的巨量信息價值。
在數據交付的“最后一公里”,LLM也扮演著關鍵角色。用戶不再需要被束縛在預定義的數據模式或儀表盤中,而是可以通過自然語言,按需獲取定制化的數據和分析結果。這使得數據消費的體驗變得前所未有的靈活和強大。
更具顛覆性的是,我們可以將合成數據與真實數據智能地結合。LLM極擅長模仿真實用戶或人群,從而生成高度逼真的合成數據。這些數據可以用來解決冷啟動問題、增強稀疏的數據集,或者在保護隱私的前提下進行系統測試。
這一切最終將催生出全新的商業模式。當AI能夠將收集特定數據的成本、精力或時間降低1000倍時,過去在經濟上不可行的業務便成為了可能。例如,我們可以構建一個“主動式”的專家訪談平臺,它能夠自動識別潛在的專家,并主動發起個性化的訪談邀約,從而顛覆傳統的研究和咨詢行業。
下一代創意工具的護城河
在創意表達領域,AI同樣帶來了明顯的顛覆機會。然而,當底層的生成模型趨于商品化時,真正的護城河將建立在AI本身之外。
一種有效的防御機制是構建網絡。新的社交網絡形式可能會圍繞AI驅動的內容民主化而建立,允許用戶“分叉”(fork)或“混音”(remix)他人生成的AI內容,從而形成獨特的社區文化和網絡效應。為AI原生創作者打造的專屬市場,也可能成為新的平臺級機會。
其次,當內容的生產變得極其容易時,底層的運行環境(Runtimes),如游戲引擎或圖形渲染基礎設施,其價值反而會變得更加重要。因為高質量地呈現和交互這些海量內容,本身就是一個技術壁壘。
工作流的特異性是另一個關鍵的差異化維度。相較于開發通用的、功能齊全的創意工具,那些專注于特定類型創作者(例如,專門服務于品牌設計師,或專門服務于攝影師)的深度工作流產品,更容易建立起用戶粘性。
一個巨大的創新機會在于,將傳統的、精確可控的編輯模式與AI的生成能力相結合。這能讓創作者在快速的靈感“氛圍原型”(vibe prototyping)和經典的、基于圖層的精細化編輯之間無縫切換,實現兩全其美。
最后,一個常被忽視的現實是,許多專業的創意設計領域缺乏一個像VSCode之于編程那樣的、開源且具有豐富插件生態系統的核心編輯器。這使得為這些領域構建“副駕駛”(copilot)變得異常困難。因此,一個潛在的路徑是,首先為某個創意領域(如視頻編輯)打造出它的“VSCode”,建立起平臺和生態,然后再在此基礎上構建強大的AI輔助工具。
尋找AI時代的“石油”:數據、科學與基礎設施
數據,很可能將持續是推進AI系統發展的最大瓶頸。因此,尋找新穎、巧妙的方式來生產更多、更高保真度的數據,本身就是一個巨大的商業機會。
例如將數據作為產品的副產品來生成,例如開發一款免費應用,其核心商業模式是它在后臺生成的、用于機器學習的高質量數據。創建用于強化學習的高質量仿真環境,即一個“用于RL的Ansys”,讓企業可以方便地創建、管理和運行智能體訓練環境,也是一個明確的方向。
AI與科學的結合,將在化學、生物學、材料學、數學等各個領域產生深遠影響。這里的核心瓶頸同樣是數據。因此,機會在于開發新型的數據捕獲工具,例如專為AI分析而設計的、能夠進行大規模篩選和感知的生物顯微鏡。
另一個方向是構建“生成+驗證”的閉環系統,即所謂的“AI科學家”,它將生成式模型的預測能力與傳統的計算建模(如計算流體動力學)和真實的濕實驗室自動化相結合,形成一個從提出假說、進行實驗到驗證結果的自動化科學發現循環。
這一切的實現,都離不開新一代的AI基礎設施。隨著生成式模型的發展,企業將需要管理和處理日益復雜的音頻、視頻、圖像、文本等多模態數據。同時,越來越多的基礎設施(如數據庫、虛擬機、API)正由AI智能體而非人類直接調用,這將極大推動無服務器、按需擴展、強隔離的架構成為主流。
更重要的是,我們需要為AI系統設計全新的基礎設施原語,例如專為AI智能體設計的網絡瀏覽器、計算沙盒、支付和身份驗證接口。當成群的智能體在用戶的環境中運行時,授權和細粒度訪問控制等傳統基礎設施問題,其復雜性將被放大百倍,亟待新的解決方案。
最后,當我們開始將AI應用視為復雜的“系統”時,相應的基礎設施和工具需求也隨之改變。我們需要更強大的工具來優化、測試和評估這些由多個模型和組件構成的復雜系統。一個清晰的創業機會是,提供一流的、通用的獎勵模型和驗證器,它們將像今天的嵌入模型一樣,成為一個標準的模型類別。
同時,隨著企業越來越希望在自己的領域內應用強化學習,提供易于使用的領域特定RL工具和基礎設施,將解決一個巨大的痛點。最終,結合強大的“生成器”模型和獨立的“驗證器”系統,將成為構建可靠、可信AI產品的關鍵架構模式。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.