網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Gemini 2.5彎道超車背后的靈魂人物

2025-06-05 09:05:14　來源: 硅谷101

上海舉報

分享至

(點擊收聽本期音頻）

采訪｜泓君

圖文｜孫澤平、梓沁

編輯｜泓君

從去年在大會前夜被OpenAI的4o模型“精準狙擊”，到今年Gemini 2.5 Pro全面霸榜。短短一年時間，Gemini是如何完成從追趕者到領跑者的逆轉？

《硅谷101》創(chuàng)始人泓君邀請了Energent.ai聯(lián)合創(chuàng)始人Kimi Kong和HeyRevia創(chuàng)始人Shaun Wei，一起和兩位前Google的技術專家聊聊Gemini模型登頂背后的底層邏輯。

歡迎關注《硅谷101視頻號》的音頻欄目直接收聽本期播客。如果你喜歡我們的節(jié)目，更推薦大家使用音頻客戶端來收聽，《硅谷101 》已覆蓋各大主流音頻平臺（渠道見文末），歡迎訂閱！

以下是這次對話內(nèi)容的精選:

Gemini2.5崛起背后的底層邏輯

泓君：谷歌此次發(fā)布的Gemini 2.5 Pro，在當前各項評測中的數(shù)據(jù)都是所有大模型中最好的，Kimi你可以分析一下它是如何做到的嗎？

Kimi：我已經(jīng)離開DeepMind快一年時間了，也不太清楚我的前同事們在這一年中又做了哪些新的創(chuàng)新。但大語言模型訓練根本的步驟是不變的，包括以下三點：Pre-training（預訓練）、SFT （Supervised Fine-tuning，監(jiān)督微調(diào)）和利用RLHF（基于人類反饋的強化學習）技術做的Alignment（對齊）。

大概在去年的NeurIPS（神經(jīng)信息處理系統(tǒng)大會）上，業(yè)內(nèi)已經(jīng)普遍承認，公開網(wǎng)絡數(shù)據(jù)基本都已經(jīng)抓完了，就像化石燃料已經(jīng)被消耗殆盡一樣。因此，在過去這一年里，更多精力其實是投入到了對齊階段，特別是強化學習方向，尤其是在“人類反饋”和“AI反饋”上的探索。比如在數(shù)學和編程類這類目標清晰且可驗證的任務上。

對于Google來說，從Gemini 1到1.5再到2，已經(jīng)積累了相當堅實的基座模型訓練經(jīng)驗。再加上Google開始更加重視強化學習的作用，不只是依賴人類反饋，而是啟動了一種“讓AI批判AI”的機制。就像當年AlphaGo的成功，它的核心突破點就在于下出“第37手”那樣超越人類常規(guī)理解的棋步，是AI突破人類認知的體現(xiàn)。

所以我認為，未來的AI模型需要在強化學習中能實現(xiàn)“自我判斷正確性”。而在Gemini 2.5的訓練過程中，很可能正是引入了更多此類強化學習策略，才使它在編程、數(shù)學等高確定性任務中，展現(xiàn)出如此令人驚艷的表現(xiàn)。

Google

泓君：對，在去年大模型的訓練中出現(xiàn)了一個比較明顯的趨勢，各家都在預訓練基礎上加入了后訓練。比如OpenAI的o1系列和DeepSeek的R1，都在推理任務上表現(xiàn)得很好。雖然Anthropic在很長一段時間內(nèi)，并沒有新推出推理模型，但Sonnet 3.5和3.7，它們在代碼能力上出現(xiàn)了明顯的質(zhì)變。這也帶動了Cursor、Windsurf這樣一批編程類Agent的迅速崛起。這次發(fā)布會Google也特別強調(diào)了自己在代碼生成上的質(zhì)量提升。

我一直很好奇的一點是：為什么Anthropic生成的代碼質(zhì)量，明顯優(yōu)于其他家？代碼質(zhì)量的提升，主要是靠什么能力實現(xiàn)的？

Kimi：我還是從我剛提到的三個步驟展開。首先在預訓練階段，大家一定會面臨數(shù)據(jù)配比的問題：比如要放多少代碼，多少自然語言進去，其中中文和英文分別占多少等等。這件事現(xiàn)在并沒有任何行業(yè)共識，沒有人知道最優(yōu)比例是什么。但我猜，對于Anthropic來說，代碼的優(yōu)先級是最高的。它們在預訓練時可能就投入了大量高質(zhì)量的代碼數(shù)據(jù)，所以模型在基座層面的編程能力非常強。

接下來是對齊環(huán)節(jié)，在大公司里，我們私下會調(diào)侃它像是一個YOLO RUN（快速整合、節(jié)奏緊湊的大模型訓練迭代方式）。比如今天我們?nèi)环謩e在Google不同的團隊，每個人在各自的方向上推進各類創(chuàng)新，然后我們定一個節(jié)奏，比如兩周，把所有成果整合起來跑一個版本，看看最終迭代出了什么。這就意味著，模型在對齊的時候，不同團隊的優(yōu)先級是不同的。有的團隊注重寫作能力，有的注重數(shù)學能力。

我猜Anthropic的內(nèi)部認為編程是第一優(yōu)先級，也可能他們認為編程是解決推理模型的鑰匙。所以無論是在預訓練階段，還是在后續(xù)的監(jiān)督微調(diào)、強化學習環(huán)節(jié)，它們都傾向于引入更多的編程訓練進去。這樣會讓它在Coding能力上表現(xiàn)好，但是這樣做也會導致它在別的能力上稍有欠缺。

我舉個我自己最近經(jīng)歷的有趣的例子。作為初創(chuàng)公司的創(chuàng)始人，我現(xiàn)在每天不只是寫代碼，也要做市場、銷售、寫文案的工作。我經(jīng)常會用同一段提示詞，分別輸入給Gemini、ChatGPT、Claude、Perplexity，比如讓它們都輸出一段市場營銷的文案。結果我對比發(fā)現(xiàn)，OpenAI寫出來的內(nèi)容最有調(diào)性，讓我很愿意直接用。Claude寫的文案就會顯得特別枯燥，像是在和一個無聊的碼農(nóng)聊天，這是策略問題。

大語言模型的訓練本來就是人們常說的：垃圾進，垃圾出。如果你喂進去大量高質(zhì)量代碼，自然產(chǎn)出的代碼質(zhì)量也會高，這還是數(shù)據(jù)配比的問題，我認為Anthropic在代碼問題上思考的更多。

Anthropic

泓君：主要也是看團隊把哪一塊放成是重點，你覺得DeepMind之前的重點在哪里呢？

Kimi：我覺得其實DeepMind一直追求的是一種綜合能力，包括在編程、數(shù)學、推理、寫作等多個維度上都具備較強的表現(xiàn)。所以我們會設定一套通用的評估指標體系，用于覆蓋多個不同的評估維度。

不過我也知道，我們過去確實有些能力是相對薄弱的，比如寫代碼。也正因為如此，整個團隊在編程上投入了更多的精力和資源。這一輪我認為在代碼能力上算是追上了Anthropic。

泓君：推理能力呢？也是取決于重視程度，還是需要在后訓練階段加入一些特別的技巧？

Kimi：我在Google的時候，Google還沒有開始它的推理模型，但我離開Google的時候，是OpenAI的o1剛開始出來的時候，當時Google推理模型還沒有排在優(yōu)先級很高的位置上，Google當時還是在追趕OpenAI的寫作能力和問題解決能力。

OpenAI剛出的時候，大家都很喜歡它輸出的內(nèi)容，所以Google最早做的是要追上OpenAI在人類偏好這方面的輸出質(zhì)量。但人類偏好的數(shù)據(jù)是非常有限的。所以后來大家開始思考：還有什么能力是更可量化、也更容易做出突破的？答案就是編程。

Anthropic在這方面做出了突破之后，Google接著也意識到，不能只輸出人類偏好的內(nèi)容，我還要寫出非常牛的代碼。而當大家都寫出非常牛的代碼之后，OpenAI又把重點轉向了推理。它認為不能只是想寫出人喜歡的內(nèi)容，不能只是寫出好的代碼，還要做出邏輯嚴密的模型，能讓用戶真正看懂問題是怎么被解決的。

當這件事做成之后，目前我覺得Google已經(jīng)開始憑借推理能力，在引領這股潮流了，讓別人成為了追趕者。

techcrunch.com

泓君：在數(shù)學能力方面，我注意到Grok的表現(xiàn)挺不錯的，XAI的模型。它們的創(chuàng)始團隊里有很多非常頂尖的數(shù)學家，而且一直在嘗試解決一些全球最難的數(shù)學問題。

Kimi：我的數(shù)學能力沒有辦法達到這個頂尖數(shù)學家的水平，這是一個“先有雞還是先有蛋”的問題，你需要人有這個能力，才能評價模型好不好。我作為軟件工程師，只有能力評價代碼能力。但這個能力也分兩個方面：模型是擅長寫出商業(yè)可用的代碼，還是只是擅長寫代碼這件事本身。

我記得Anthropic聯(lián)合創(chuàng)始人Dario曾經(jīng)說過一句很有意思的話：“我不希望我的編程模型只是能解決LeetCode題目。”因為LeetCode的題目本身不具備直接的商業(yè)價值。他希望編程模型生成的高質(zhì)量代碼，能直接進入像Shaun或者我們這樣的初創(chuàng)公司的生產(chǎn)流程。這也是Anthropic非常專注的方向。

再說回數(shù)學問題本身。我覺得也分成兩方面：一方面，有一部分人確實需要解決高難度的奧數(shù)題，這是模型能秀肌肉的地方。但另一方面，如何把這些數(shù)學問題接入不同的創(chuàng)業(yè)公司，從而創(chuàng)造商業(yè)價值。這可能是很多商業(yè)公司需要思考的問題。

三位靈魂人物撐起Gemini

泓君：你覺得誰是DeepMind的靈魂人物？谷歌模型的價值觀會更偏向誰？

Kimi：“谷歌是誰”這個問題挺有意思的。我的理解是，在Gemini之前，Google的模型基本是由Jeff Dean和Oriol Vinyals共同主導的，他們也是Google的靈魂人物。

Jeff Dean可以說是計算機科學界的“活化石”。我們經(jīng)常開玩笑說，他如果要寫簡歷，可能直接寫“沒做過什么”比寫“做過什么”還要短很多。因為Jeff Dean實在做了太多事，所以只需要寫他“沒做過什么”，這樣可以在一頁上寫完他所有的人生成就。

Jeff Dean非常擅長對集群大量地調(diào)度，就是預訓練。Oriol則是AlphaGo、AlphaStar、AlphaZero、MuZero這些項目的靈魂人物，他作為DeepMind的代表，在強化學習方面的研究更深入。

所以基于Google擅長的預訓練，加上DeepMind擅長的強化學習與對齊，使得Google能快速地追趕上競爭對手的步伐。

后來，隨著Google收購Character.AI，也重新贏回了Noam Shazee。他可能是我最敬重的一位人物，因為他是長期深耕在自然語言處理領域的，從他寫的《Attention Is All You Need》，到后來的提出的Grouped Query Attention。

這三位巨頭形成三足鼎立的格局，把預訓練、強化學習、語言能力整合成一個有機的、迭代的整體流程，使模型能力不斷得到提升，讓Google也變得更好。我對這三位也都非常崇拜，我覺得Google這一波能快速趕上競爭對手，也是依靠這三位的能力，包括Jeff Dean代表預訓練與基礎設施的能力，Oriol代表對齊與強化學習的能力，Noam代表自然語言處理的能力。

Kimi：我覺得在Google Brain和DeepMind還沒有合并之前，兩邊的思路是完全不同的。DeepMind強化學習的能力非常強，這也是Google收購它的原因。而Google瞬間調(diào)度大量資源來規(guī)模化訓練的能力是非常強的，包括預訓練與監(jiān)督微調(diào)能力也很厲害。

最終我覺得這是一次強強聯(lián)手的過程，Google和DeepMind把彼此最擅長的領域整合了起來。

我覺得Demis在團隊里扮演的角色更多是管理者和領導者。比如，我以前做IC（Individual Contributor，個人貢獻者）的時候，每天的工作只需要把代碼寫好就可以了。但當我真的去運營一家公司的時候就會意識到：真正難的不是完成任務，而是要怎樣激勵一群極其聰明的人，朝著同一個方向努力。

這其實是非常有挑戰(zhàn)性的。因為越聰明的人，往往越有自己非常強的想法，他們是不愿意聽從他人的指令的。而我覺得Demis在這方面做得非常好，他能把兩個剛剛整合的公司團結成一個整體。并且能讓所有人都發(fā)揮出最擅長的能力，一起朝著實現(xiàn)AGI（通用人工智能）的目標共同努力。

泓君：Jeff Dean和Demis之間的關系是怎么樣的？

Kimi：Jeff Dean現(xiàn)在是首席科學家，Demis是Google DeepMind的CEO。我不確定現(xiàn)在如何，我記得我走的時候Demis和Jeff Dean都直接向Sundar Pichai匯報。

泓君：我看Sergey Brin在2023年的時候也回來了，不過最近才開始高調(diào)亮相。你覺得作為Google的創(chuàng)始人之一，他的回歸會帶來什么變化嗎？

Kimi：我覺得Sergey Brin帶給Google的，更多是一種“Founder Mode”，也就是創(chuàng)始人的工作狀態(tài)。他讓大家明白要以什么樣的投入和方式，去完成這項工作。

如果創(chuàng)始人都親自回來做這件事了，而且一周在辦公室待60個小時，那你作為Google的一名員工，難道好意思只干40小時就回家嗎？而且據(jù)我所知有些團隊是真的一周工作60個小時的。比如我有朋友在圖像生成團隊，他們提到過，Sergey Brin有一次突然說：“Meta又發(fā)新模型了，我們的模型什么時候能出來？”大家一聽，心想：“得了吧，周末加班吧。”所以我覺得他的回歸更多的是帶來“Founder Mode”，能非常鼓舞大家的士氣。

泓君：Shaun你怎么看Gemini 2.5 Pro？

Shaun：我覺得Kimi把該講的、不該講的，都已經(jīng)講得非常好了，我就從一個相對“外部”的視角補充一些，畢竟我也在Google工作過。

大家都知道Google的人才密度非常高，但大部分人其實都處在一個比較“躺平”的狀態(tài)。因為廣告太賺錢了，很多團隊并不需要太拼命。但這波AI浪潮真的起來之后，特別是去年OpenAI搶了Google不少風頭，再加上Sergey Brin回歸帶來的“Founder Mode”，整個Gemini團隊的士氣都非常高漲。大家其實都為了拼一口氣：如果AGI真的有人能做出來，那是不是就應該是Google。

因為Google有全球最強的計算機，有最優(yōu)秀的人才，還有接近無限的資源，現(xiàn)在連創(chuàng)始人都親自沖回來了。站在外部來看，這一波Gemini的崛起其實就花了一年時間。從去年的I/O被OpenAI搶了風頭，到今年的Gemini 2.5直接霸榜，所有都是第一名，連OpenAI可能今年也沒辦法再搶風頭了。

Google API價格優(yōu)勢揭秘

泓君：大家現(xiàn)在都能看到Gemini的模型做得很好，但很久之前，我記得在OpenAI和Anthropic的API價格還很高的時候，Gemini就把token價格就降到了大概只有OpenAI的五分之一、甚至十分之一。不過后續(xù)是否它也反向促使OpenAI和Anthropic跟著降價，我沒有特別去跟進現(xiàn)在最新的數(shù)據(jù)。

但整體來看，在開發(fā)者社區(qū)里面，大家都知道Gemini的API接入成本和token使用成本是非常低的。我也很好奇，Google是如何把這個價格降下來的？

wired.com

Shaun：我認為主要有三方面的原因。

第一，Google大概從十年前就開始大量投入TPU了。當時它們就很清楚，如果整個Google Cloud發(fā)展起來后，就沒辦法不停地向NVIDIA或AMD采購GPU。所以Google從十年前就開始慢慢地深耕TPU生態(tài)，而且TPU的迭代速度在近幾年也明顯變快了。因為現(xiàn)在需求量非常大，如果擁有自己的TPU，就可以避開所謂的“NVIDIA稅”，也不用等NVIDIA新的GPU出來之后和市場搶貨。

第二是大家都知道Google Infra（基礎設施）的能力非常強，所以相當于擁有幾乎無限的資源。而且Google動態(tài)調(diào)度資源的能力也是遠強于OpenAI和Anthropic的，因為這兩家目前還沒有自己的數(shù)據(jù)中心。Grok現(xiàn)在很強，做出了全球最大GPU集群。但行業(yè)內(nèi)大多數(shù)AI公司還是沒有調(diào)動如此大的集群的能力的，還是需要依賴Amazon、Microsoft這些第三方云服務來做這些事情。

第三，因為Google能夠自行定制硬件，又能調(diào)用巨大的集群資源，在優(yōu)化模型時就相當于軟硬件一體化了，因此在硬件上發(fā)揮出的能力也會更強。并且Google還有自己整個開發(fā)者生態(tài)。

Kimi：我非常同意Shaun說的，Google內(nèi)部的Infra能力確實非常強。很早之前，SemiAnalysis出過一篇很有意思的報告，對不同的GPU云服務進行了打分和排名。當時它們把CoreWeave排在了第一，我知道OpenAI用的就是CoreWeave來做整個GPU調(diào)度的。當時我還跟我的聯(lián)合創(chuàng)始人開玩笑說，其實在CoreWeave之上還有一個，最牛的應該是Google自己內(nèi)部的系統(tǒng)，它的Infra能力真的非常強。

關于API的價格，雖然我們現(xiàn)在都覺得API價格已經(jīng)很便宜了，但其實我們都并不知道它的成本價是多少。唯一一個我們能看到的線索，是之前DeepSeek發(fā)布的一篇論文，里面提到：DeepSeek有80%的溢價空間，說明它的成本價格只有收取費用的20%左右。

對比DeepSeek用的GPU的體量，我們可以反推OpenAI的利潤一定是非常高的。當然，我不是說Google的API一定是成本價，但它確實有足夠的資本和能力去這么做。

【音頻收聽渠道】

公眾號：硅谷101

收聽渠道：蘋果｜小宇宙｜喜馬拉雅｜蜻蜓FM｜網(wǎng)易云音樂｜QQ音樂｜荔枝播客

海外用戶：Apple Podcast｜Spotify｜TuneIn｜Amazon Music

聯(lián)系我們：podcast@sv101.net

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.