網易首頁 > 網易號 > 正文申請入駐

解碼谷歌Gemini大模型：AI大神Jeff Dean 九月訪談錄 (附視頻）

2024-09-12 19:34:48　來源: Web3天空之城

浙江舉報

分享至

未經許可不得轉載，務必保留原文出處鏈接和公眾號按鈕

關注本城公眾號并設星標，不錯過最新精彩內容

文：Web3天空之城·城主

在這場訪談中，谷歌的傳奇AI負責人Jeff Dean深入回顧了他在推動谷歌人工智能發展中的關鍵角色。

從90年代初加入谷歌，Dean見證了從一個小型創業公司到全球技術巨頭的轉變。他領導了TensorFlow的推出，使得機器學習的普及成為現實，特別是通過擴展計算能力和網絡規模推動了搜索引擎和神經網絡的發展。他談到了谷歌AI研究的轉折點以及與DeepMind的合作。最引人注目的是Dean對未來的展望，特別是關于多模態AI模型Gemini的潛力，該模型能夠處理文本、音頻、圖像和視頻，帶來了全新的跨領域應用前景。

谷歌早期的計算擴展與AI發展

Jeff Dean回顧了谷歌在90年代如何通過擴展計算資源來應對快速增長的搜索需求。谷歌從一開始就注重提供高質量、快速的搜索服務，而Dean作為其中的重要推動力，通過優化代碼、提升計算機性能，確保谷歌能夠承載日益增長的用戶流量。他指出，這為神經網絡的擴展和現代人工智能的發展鋪平了道路。

神經網絡的歷史與進化

Dean詳細解釋了神經網絡的起源以及在90年代初的局限性。盡管當時神經網絡被廣泛討論，但由于計算能力有限，實際應用范圍受到限制。隨著時間的推移和摩爾定律推動的計算能力提升，谷歌的研究團隊開始使用數千臺計算機并行訓練大型神經網絡，這最終導致了現代神經網絡的飛躍。他特別提到了2012年TensorFlow框架的推出，如何讓神經網絡訓練的規模和復雜度達到了前所未有的高度。

Gemini多模態模型的潛力

Jeff Dean重點介紹了谷歌當前正在開發的Gemini項目，這個項目被認為是AI的未來。Gemini模型不僅是一個語言模型，它還可以處理多種輸入模式，包括文本、圖像、音頻和視頻。Dean解釋了這種多模態模型將如何在教育、醫療等領域帶來革命性變化，允許用戶從不同輸入模態中獲取更豐富、更有用的輸出。特別是Gemini模型在教育中的應用潛力，例如幫助學生通過對話理解復雜概念，使個性化的學習成為現實。

與DeepMind的合作與整合

Dean詳細回憶了谷歌與DeepMind的早期合作，特別是如何將監督學習和強化學習相結合，推動了AI在多個領域的進展。他提到DeepMind在使用強化學習玩雅達利游戲上的成就，以及如何將這些技術擴展到更大規模的AI模型訓練中。Dean強調，正是通過這種合作，谷歌和DeepMind得以創建強大且具有變革性的AI模型，如Gemini。

AI對未來社會的深遠影響

Dean深入探討了AI在未來教育和醫療中的應用。他指出，AI工具可以幫助學生實現個性化學習，甚至提供類似于一對一輔導的體驗，從而顯著提升教育效果。此外，他認為AI有潛力改善全球醫療服務的可及性，通過更準確的診斷和醫療建議，特別是在資源匱乏的地區。他同時警告，AI技術也有可能造成社會的兩極分化，只有少數人能享受其好處，因此他呼吁讓這些技術盡可能地廣泛應用。

B站傳送：【精校】AI大神Jeff Dean訪談| 解碼Google Gemini大模型【中英字幕】-嗶哩嗶哩】

https://b23.tv/5LxuLVD

主持人：

歡迎回到谷歌DeepMind播客，我是主持人漢娜·弗萊教授。在這一集中，我們有幸采訪到了計算機科學領域最傳奇的人物之一，Jeff Dean。

在1990年代末，杰夫編寫了將谷歌從一家小型創業公司轉變為今天跨國公司的代碼。他率先推出了TensorFlow，這是推動機器學習民主化的編程工具之一，并推動了人工智能在大規模模型方向上的邊界。如果這還不夠，他還共同創立了谷歌的AI研究項目——Google Brain，并且是早期新神經網絡架構——Transformers的先驅之一。

人們開玩笑說，杰夫·迪恩的簡歷上只列出了他沒有做過的事情，因為這樣比較短。最近，作為谷歌的首席科學家，杰夫在桌子旁占據了最重要的席位之一，因為Alphabet的兩大AI部門DeepMind和Google Brain已經合并。他最新的項目是與他共同合作的Gemini，這是一個遠遠超越了語言的大型語言模型。Gemini是一個多模式模型，可以理解文本、代碼、音頻、圖像和視頻。它完全是人工智能，并且幾乎肯定是谷歌搜索本身的發展方向。

杰夫，非常感謝你今天跟我一起聊天。

Jeff：

謝謝你邀請我，很高興來到這里。

主持人：

所以，好吧，25年，四分之一個世紀在谷歌。我想了解一下早期的情況，比如90年代你剛加入的時候，谷歌還不是現在這般成熟的組織。那時候是不是都是很多帶著貼紙的筆記本和穿著人字拖在編碼？

Jeff：不幸的是，那時候還沒有筆記本電腦。

主持人：沒有筆記本電腦！

Jeff：

是的，我們都有那些巨大的CRT顯示器。那時還是前液晶顯示器時代，所以它們占用了很多桌面空間，不太靈活。我的桌子就像兩個鋸馬上的一扇門。你可以自己調整它，比如從桌子上站起來背對著它，像這樣把它調整到更高的設置。

主持人：真的嗎？

Jeff：是的。

主持人：太棒了。

Jeff：

當我開始工作時，我們在這個小辦公室區域，其實也不算特別小，大概是這個房間的三倍大。整個Google在帕洛阿爾托的University Avenue上，位于現在一家T-Mobile手機店的上方。那個時候真正有趣和令人興奮的事情是，我們是一家小公司，但我們能看到人們越來越多地使用我們的服務，因為我們提供了優質的、高質量的搜索服務。你可以看到你的流量在增長，日復一日，周復一周。所以我們總是嘗試在星期二中午不要崩潰，那是全周流量高峰時段。為了應對需求，我們需要快速部署更多計算機，優化代碼以提高運行速度，并提出新的、有趣的創新，使下個月的索引在相同硬件上能夠服務更多用戶。

主持人：

我可以想象這是非常令人興奮的。有沒有一個時刻讓你們意識到，這真的要變大了？

Jeff：

我認為從我加入公司的最早期就可以看到這一點。我加入公司是因為我們的流量增長非常快。我們認為，通過專注于提供高質量的搜索結果并快速完成這一過程，給用戶他們想要的東西，我們實際上是希望盡快將人們從我們的網站上引導到他們所需的信息。這是一種成功的提議，用戶似乎也喜歡我們的服務。所以我會說，即使從早期開始，這看起來也是相當有前途的。

主持人：

不過，合理樂觀和實際結果之間存在相當大的差距。對你們所有人來說，這是否是一個驚喜？

Jeff：

我認為我們已經拓展到了一些顯然難以預料的領域，比如自動駕駛汽車。當你在開發搜索引擎時，很難想象這些東西。但是，我認為我們產品組合逐步擴展到其他類型的信息是非常合理的。從公共網頁到幫助用戶用Gmail組織自己的電子郵件，這些都是自然的進化，解決了人們的實際問題。這讓我們處于一種狀態，現在我們不再只有一個產品，而是有一系列人們經常使用的產品。

主持人：

回顧所有這些時間，你認為谷歌一直是一家搜索公司嗎？你認為它是一家假裝是搜索公司的AI公司嗎？

Jeff：

是的，我認為我們作為一家公司想要解決的很多問題確實是那種需要AI來真正解決的問題。所以在這個過程中，在長達25年的時間里，我們一直在逐步解決一些艱難的AI問題，并在這些問題上取得進展，然后在搜索以及我們所有其他產品中使用現在開始有效的新技術。

主持人：

你認為Google將永遠是一家搜索公司嗎？或者你認為它現在甚至是一家搜索公司嗎？它在改變嗎？

Jeff：

我非常喜歡Google的一件事是我們的使命依然非常相關，即便是25年后，仍然是要組織全球的信息，并使其普遍可訪問和有用。我覺得Gemini確實在幫助我們朝著理解各種不同信息的方向推進。所以文本，文本數據，軟件代碼，它在某種程度上是文本性的，但在某些方面非常結構化。但也包括所有其他類型的輸入模態，人類在這些模態上非常流利，我們自然會閱讀東西，但我們也用眼睛看東西，用耳朵聽東西。而且你希望模型能夠接收各種形式的信息，并且也能以文本形式生成信息，或者生成音頻，以便你可以與模型進行對話，或者在合適的情況下生成圖像，或者用圖表或類似的東西來注釋文本。我們真正嘗試的是構建一個能夠接收和生成所有模態的單一模型，并在合適的時候使用這種能力。

主持人：

你還記得你第一次接觸神經網絡是什么時候嗎？

Jeff：

是的，神經網絡有著有趣的歷史。人工智能是一個相當古老的學科，早期的AI階段是關于如何定義事物運作規則的過程。這大約是20世紀50年代、60年代、70年代的情況。然后，神經網絡在70年代出現，并在80年代末和90年代初引起了激動的浪潮。

實際上，我在1990年是明尼蘇達大學的本科生。當時我在修一門并行處理的課程，這個概念是如何將問題分解成可以在不同計算機上完成的部分，然后這些計算機共同合作解決單個問題。

主持人：

我猜這也是因為當時計算能力還不如現在強。這就像是，如何讓計算機像團隊一樣工作？

Jeff：

那時，神經網絡是一種特殊的方法，用于機器學習和AI，涉及到非常粗略地模擬我們認為的真實人類或其他大腦中的神經元工作方式。這就是為什么它們被稱為神經網絡，因為它們由人工神經元組成。人工神經元與其下方的其他神經元有連接，然后它們查看從那些人工神經元傳來的信號，并決定對特定的信號模式有多感興趣，是否應該足夠興奮以將信號進一步傳遞到神經網絡的上層。

神經網絡由許多層許多這樣的神經元組成。更高層次的神經元建立在較低層次神經元的表示上。例如，如果你在構建一個用于圖像處理的神經網絡，最底層的神經元可能會學習特征，比如這是一個紅色或綠色的斑點，或者在某個方向上有個邊緣。然后下一層可能會學習到，它是一側有黃色邊緣的邊緣。再更高層，它可能會學習到，它看起來像一個鼻子或耳朵或者一張臉。通過構建這些分層的學習抽象，這些系統實際上可以開發出非常強大的模式識別能力。

這就是為什么人們在1985年、1990年對神經網絡感到興奮的原因。

但我們談論的是非常小的網絡，所以它們無法識別例如人臉和汽車這樣的東西。它們可以識別像是人工生成的圖案中的小圖案。例如你有一個網格，你可以識別可能是一個十字，或者一個手寫的數字，這是一個七還是一個八。那時的技術他們大概只能做到這些。然而，人們非常興奮，因為他們能夠解決那些基于純粹邏輯規則的系統無法很好解決的問題，而這些規則無法很好地概括所有種類的凌亂手寫字。

在聽了兩場關于神經網絡的演講之后，我對這個領域產生了濃厚的興趣。于是，我決定做一個關于神經網絡并行訓練的高級論文、榮譽論文，因為我覺得我們需要更多的計算能力。如果我們使用系里的32處理器機器，做一個更大的系統，我們可以訓練更大的神經網絡嗎？于是，我花了大約三個月的時間在這個項目上。

主持人：它成功了嗎？

Jeff：

是的。無論如何，我當時非常激動。我覺得，32個處理器會讓神經網絡運行得非常順暢。結果證明我是錯的。那時天真的本科生我，并沒有意識到我們需要大約多一百萬倍的處理能力，才能真正開始在實際問題上取得好效果。

但是，感謝摩爾定律20年的進步，以及更快的CPU和計算設備，我們開始擁有實際的系統，這些系統的計算能力是我們那臺先進的32處理器機器的一百萬倍。于是，我又開始對神經網絡產生興趣。

當斯坦福教授Andrew Ng每周在谷歌進行一天的咨詢時，我在我們眾多的微型廚房中的一個碰到了他。我問他，你在谷歌做什么？他說，我還沒有真正弄明白，因為我剛開始在這里做咨詢。但我在斯坦福的一些學生在神經網絡方面取得了不錯的成績。我說，真的嗎？為什么我們不訓練非常非常大的神經網絡呢？于是，這就成為了我們在谷歌進行神經網絡工作的開端。

然后，我們組建了一個小團隊，稱為Google Brain Team，開始研究如何利用谷歌的計算資源來訓練非常大的神經網絡。我們建立了這個軟件基礎設施，使我們能夠拿到一個神經網絡描述，然后將它分解為不同計算機、并行團隊的不同成員可以處理的部分，并以他們需要的方式進行通信，以便解決如何在2000臺計算機上訓練一個神經網絡的整體問題。這是我們最早為擴展神經網絡訓練而構建的軟件，它使我們能夠訓練比現有神經網絡大50到100倍的模型。

主持人：這是2011年。

Jeff：

確切地說，是2012年初的事情。這是在圖像識別重大突破之前的事情。

主持：那時，你們做的還是把計算機連接在一起的工作。就像我本科論文一樣。

Jeff：

沒錯，但這次我們可以在更大規模上再做一次。這一次真的成功了，因為計算機速度更快，而且我們用了更多的計算機。

主持人：2011年那時感覺有點賭博的意味嗎？

Jeff：

是的。我們為訓練這些神經網絡并嘗試不同拆解方法而建立了一個系統。我把它命名為DistBelief，部分原因是人們認為它不會真的有效果，另一個原因是它是一個可以構建這些的分布式系統。我們想要訓練的不僅是神經網絡，還有置信網絡。

主持人：

我喜歡這個名字。當這在美國進行的時候，大西洋彼岸的DeepMind也開始了。我知道你是被派去看看他們的人，你能講講那個故事嗎？

Jeff：

是的。Geoffrey Hinton，一位非常著名的機器學習研究員，2011年夏天在谷歌呆過一段時間。當時我們不知道該如何將他歸類，所以他被歸類為實習生，這有點搞笑，畢竟他是歷史上最資深的實習生。

他和我一起工作，然后我們發現了DeepMind。我想Geoffrey對公司成立的事情有一些了解，其他一些人也說，英國有這樣一家公司。當時它非常小，大概有40或50個人。于是我們決定作為公司去看看他們，作為一個潛在的收購對象。

當時我在加州，Geoffrey在多倫多，他當時是那里的教職人員。Geoff有背部問題，所以他不能坐商業航班，因為他不能坐下來，只能躺著或站著。航空公司不允許你在起飛時站著，所以我們必須找到解決辦法，就是在私人飛機上安裝醫療床。

我們一群人從加利福尼亞出發，飛往多倫多，把Geoffrey從停機坪接上來，放在醫療床上，然后一起飛往英國，降落在一個非主要機場。在城邊，我們全都上了一輛大面包車，前往訪問DeepMind，我想那是在Russell Square附近。我們前一晚飛行都很疲憊，但隨后我們連續聽了大約13個20分鐘的講座，介紹他們正在做的各種事情。

主持人：這些講座是來自DeepMind團隊的嗎？

Jeff：

是的，來自DeepMind團隊。我們看了一些工作，但時差還沒倒過來。時差還沒倒過來，簡直像情景喜劇里的情節。

我們看了一些關于他們在 Atari 工作的展示，這些工作后來發表了關于如何使用強化學習去學玩老版 Atari 2600 游戲的研究。像 Breakout 或 Pong 之類的游戲，還有其他一些游戲，都非常有趣。

主持人：當時你們并沒有進行強化學習。

Jeff：

我們主要專注于如何擴展大規模的監督學習和無監督學習。我認為這些技術都非常有用，而且它們通常結合使用會更有用。

您應該把強化學習想象成有一個在環境中操作的代理，每一步都有很多不同的動作或操作可以選擇。例如，在圍棋游戲中，你可以在很多不同的位置下子。在雅達利游戲中，你可以向上、向下、向左或向右移動搖桿，或按下左鍵或右鍵。

在這些情況下，通常不會立即得到獎勵。比如在圍棋中，你下了一步，但直到整個游戲過程結束之前，你并不知道這是否是一個好主意。強化學習的一個有趣之處在于，它能夠對一系列較長的行動進行評估，然后根據你采取的行動序列的意外程度來分配獎勵或懲罰。

當你做出那個決定時，你認為這是一個好主意嗎？然后你贏了，所以你可能應該增加一點你認為這是個好主意的可能性。或者你輸了，你可能應該減少一點你認為這是個好主意的可能性。這就是強化學習背后的主要想法。這是一種非常有效的技術，尤其是在立即判斷這個是否是個好主意很不明確的環境中。

相反，監督學習是指你有一個輸入，并且有一個類似于真值的輸出。經典的例子就是你有一堆圖像，每張圖像都被標記為一類。比如說有一張圖像，標簽是汽車。另一張圖像，標簽是鴕鳥。再另一張圖像，標簽是石榴。如果你有一組豐富的類別。

主持人：

告訴我，當你在 DeepMind 時你決定要進行收購時，Demis 緊張嗎？

Jeff：

我不知道他是否緊張。我想我當時說，好吧，你已經看過這些精彩的演示，但我能看看一些代碼嗎？因為我想確保背后確實有代碼，并且看看編程標準是怎樣的，人們是否實際寫了注釋之類的東西。所以 Demis 有點不確定。我說，不需要是超級機密的代碼。我和一位工程師進入辦公室，坐下聊了10分鐘。我問他這段代碼是做什么的，并請他展示一下它的實現。離開時，我對代碼的整潔感到滿意。對于一家試圖快速發展的小公司來說，這段代碼相當整潔。雖然是研究性代碼，但很有趣且文檔齊全。

主持人：

我聽說你在寫代碼時會加一個小東西，就是LGTM（looks good to me 看起來不錯）。

Jeff：我在現實生活中也會用它，不僅僅是用于代碼審查。

主持人：在這些展示中，你能回憶起你的印象嗎？

Jeff：

他們似乎在做非常有趣的工作，特別是在強化學習方面。我們專注于擴展，訓練的模型比當時DeepMind使用的要大得多。他們正在學習使用強化學習來解決某種游戲玩法，這是一個適合強化學習的干凈環境。強化學習的結合，加上我們一直在進行的許多擴展工作，會是一個非常好的組合。

主持人：

你們似乎正從兩個不同的方向接近一個問題：使用強化學習從非常小的問題開始并逐步建立，然后在非常大的規模上擁有豐富的理解。當兩者結合在一起時，事情便變得非常強大。

Jeff：

這正是我們去年將傳統的DeepMind、傳統的Brain和Google研究的其他部分結合在一起的動機。我們決定將這些單位合并在一起，組建谷歌DeepMind。Gemini的想法在合并之前就有了。我們認為應該在這些問題上真正地一起工作，因為我們都在嘗試訓練高質量、大規模、多模態模型。分散我們的想法和計算資源是不合理的。我們應該把這一切結合在一起，組建一個聯合團隊來解決這個問題，這就是我們所做的。

主持人：為什么叫Gemini（雙子星）？

Jeff：

其實是我命名的。我喜歡命名事物。Gemini與雙胞胎有關，我覺得這是一個很好的名字，因為它代表了前DeepMind和前Brain這兩個“遺產”團隊的結合，真正開始一起在一個雄心勃勃的多模態項目上工作。

主持人：

Gemini這個名字讓人聯想到太空任務，就像是阿波羅計劃的前身。

Jeff:

一個名字有多重含義是件好事，這也是選擇這個名字的另一個原因。這有點像是雄心勃勃的太空計劃進展的前兆。

主持人：

我想談談多模態的東西。在我這樣做之前，我猜公眾對聊天機器人和大語言模型的意識發生重大變化的一個主要原因之一，部分來自于Google Brain的Transformers技術。如果你能原諒這個雙關語，你能告訴我們一些關于Transformers技術的工作以及它的變革性嗎？

Jeff:

當然。事實證明，你想要在語言以及其他許多領域解決的問題，其實都是序列問題。如果你考慮Gmail中的自動補全功能，當你在輸入一個句子時，系統能否通過為你完成句子或想法來幫助你？很多時候，這依賴于看到序列的一部分，然后預測其余部分。本質上，這就是這些大語言模型被訓練去做的事情。它們被訓練為一次處理一個單詞或一個單詞的一部分，然后預測接下來會是什么。

主持人：像高級的自動填充？

Jeff：

是的，事實證明這很有用。你可以用這種方式建模許多不同的問題。比如翻譯，你可以將其建模為輸入一句英文句子，然后訓練模型在有足夠多的英法句對的情況下輸出句子的法文版本，類似于一個序列。你也可以在醫療環境中使用此技術。比如，如果你試圖預測，現在面前的患者報告了這些癥狀，并且他們有這些實驗室測試結果。過去，他們有這些情況。你可以將整個情況建模為一個序列，然后你可以預測，如果你有其他去標識化的數據作為訓練，這些數據也被類似地組織為這些序列，這樣你就可以預測可能合理的診斷。你可以這樣做的方法是你隱藏序列的其余部分，并強迫模型嘗試預測接下來會發生什么。

這確實是一件非常有趣的事情，因為它適用于語言、翻譯、醫療環境、DNA序列和各種各樣的事情。

主持人：但是關鍵在于你在任何時候關注的部分。

Jeff：

在Transformer架構之前，成功的模型是所謂的循環模型，它們具有一些內部狀態，每次看到一個詞時，它們都會進行一些處理來更新其內部狀態。然后它們繼續處理下一個詞，再進行一次。它們的狀態會稍微向前移動一點，并根據剛剛看到的下一個詞更新狀態。你可以想象它像一個12個詞的句子，你需要更新狀態12次，但每一步都依賴于前一步。這意味著其實很難讓它跑得很快，因為你有一個所謂的順序依賴，其中第七步依賴于第六步，第六步依賴于第五步，依此類推。Google Research的一組研究人員提出了一個非常有趣的想法：與其在每個詞上更新單一狀態，不如一次性處理所有詞，并記住處理每個詞時得到的狀態。當我們嘗試預測一個新詞時，可以關注所有之前的狀態，并學習注意重要部分。這就是Transformer中的學習注意機制，用于預測下一個詞。

對于某些詞匯，可能需要非常關注前一個詞。在某些上下文中，稍微關注一下上下文中的許多詞也非常重要。關鍵是，這一過程可以并行完成。你可以同時處理一千個詞，為每個詞并行計算狀態，這使得在擴展性和性能方面比之前的循環模型高效10到100倍。這就是為什么這是一個如此大的進步。

主持人：

通過僅僅序列和語言，有可能獲得某種概念上的理解或抽象。這是出乎意料的嗎？

Jeff：

我認為我們在Google Brain團隊做的有關語言建模的早期工作，主要在于建模詞匯，而不是將它們表面形式建模成像H-E-L-L-O或C-O-W那樣，而是關于表示詞匯使用方式的高維向量。

我們習慣于以二維或三維的方式思考，但當你有一百個維度或一千個維度時，一千維空間有很多余地。當你有一些東西是臨近的，并且你以某種方式訓練了模型，牛、羊、山羊和豬都靠得很近，而它們與濃縮咖啡機距離很遠。雖然牛奶可能介于兩者之間，牛奶可能更靠近牛，但在兩者之間。是的，它可能在百維空間中的某條百維線上。

這就是為什么這些模型具備驚人的能力。我認為這是因為它們使用高維空間來表示事物，所以它們實際上可以同時抓住一個詞或一個句子或一個段落的許多不同方面，因為它們的表示空間非常大。

主持人：它提取了我們賦予語言的基礎，我猜是這樣。

Jeff：

是的。當我們聽到一個詞時，我們不僅僅考慮這個詞的表面形式。我們想到牛，那會觸發一堆其他的東西，比如牛奶或濃縮咖啡機，或者擠奶，牛犢和公牛。

與那些早期的詞匯表示法一起，我們發現方向是有意義的。如果你考慮像 "walk" 這樣的動詞現在時，你會在這個百維空間中沿著相同的方向從 "walk" 變為 "walked"，就像從 "run" 變為 "ran"，以及從 "read" 變為 "read" 一樣。

主持人：

所以它實際上理解了，理解了，我一直用這個詞，但我并不是這個意思，但在這些結構中確實存在某種時態表現。

Jeff：

是的，這只是從訓練過程中自然生成的，并不是我們告訴它要做的事情，而是我們使用的訓練算法使然。語言有很多方式可以使特定的形式被使用，從而顯現出這種現象。例如，你可以在男性或女性版本的詞之間互相轉換。所以，從“cow”到“bull”與從“queen”到“king”或從“man”到“woman”、“woman”到“man”是相同的方向。這真是不可思議。

主持人：

但是，這仍然只是我們在這里討論語言。那么，多模態方面的變化是如何的？這使得它有什么不同？

Jeff：

是的，因為你仍然是在這些高維空間中表示輸入數據。這實際上是個問題：你如何從圖像的像素中，將其轉化為某種理想狀態，即你希望多模態模型具有與我們類似的東西。當我們看到一頭牛時，這引發了我們大腦中與閱讀“牛”這個詞或聽到牛叫聲類似的激活。你希望訓練模型，使其具有那個共同的意義和表示，而不論它們是如何獲得那些輸入數據的。

所以，如果模型看到一段牛在田間行走的視頻，這應該會觸發模型中與之相關的一大堆事物，基于模型通過激活建立起來的這些事物。通常這些模型是非常深層次的，最低層通常有非常簡單的表示，然后模型中的較高層在這些表示的基礎上構建，并構建出更有趣和復雜的特征和表示的組合，無論是詞語還是圖像或其他。

當你說從零開始的多模態，即通常聽到的一個大詞匯，并不是說你在此處有單詞部分，在彼處有像素部分，并在兩者之間進行轉換，而是在模型本身中，這些表示非常早期就在模型中。

主持人：

這是否在開始設置時更加困難？這是否使其更加難以執行？

Jeff：

是的，我認為弄清楚如何將不同的模式整合到模型中，以及如何訓練一個多模態模型，比單純的語言或純字符模型更復雜。但你從中獲得了很多好處，因為你有時會得到跨模態傳遞。現在看到關于奶牛的視覺內容實際上有助于語言理解。也許你在草地上或某些地方看過許多關于奶牛的描述，但現在它突然看到了這些圖像和視頻，并且能夠以一種使模型內部觸發相似事物的方式將這些表征結合起來，無論你是看到了“奶牛”這個詞還是奶牛的圖像。

主持人：

給我舉一個你認為在未來這種情況有用的例子。

Jeff：

我認為它已經很有用了，這很好。比如，你想要能夠拍攝一張手寫白板上解決數學問題的圖片，然后說，這個學生解決這個問題。現在確實需要在一個例子中引入多模態能力。你需要實際進行手寫識別，從中理解這是一個學生在白板上寫的物理問題，可能還有一張滑雪者下坡的圖片。

在早期的Gemini技術報告之一中，我們有一個很好的例子：一名學生在白板上解決了一個問題。你實際上可以問Gemini，學生是否解決了這個問題。如果沒有，哪里出了問題？你能解釋一下如何正確解決這個問題嗎？它實際上能夠判斷出，學生錯誤地應用了滑雪者在無摩擦坡道上滑行的公式，他們用了斜邊而不是高度。它會說，“不，不，實際上，你應該用這個。”這是解決的問題。它做了所有這一切，并且識別了所有的手寫內容。事實上，這是一個物理問題，這種物理知識模型已經具備，這種應用是正確的。

主持人：

我認為，這確實是一個很巧妙的方式，你可以在現有的教育模型中使用Gemini現有的模型。但我認為，實際上，這些并不是彼此獨立的系統。所以，從某種程度上說，你認為這些多模態模型會徹底改變我們進行教育的方式嗎？

Jeff：

我認為，使用人工智能工具幫助教育的潛力真是令人驚嘆。作為一個社會，我們才剛剛開始這段旅程。例如，我們知道，接受一對一輔導的學生的教育成果比傳統教室里一個老師和30個學生的設置要好兩個標準差。那么我們如何讓每個人都感受到他們擁有一個一對一的教育導師的好處，這個導師了解他們知道什么，了解他們不知道什么，可以幫助他們以他們最擅長的方式學習呢？這就是人工智能在教育中的潛力。

其實，我們離這樣的一種情況并不遠。在這種情況下，你可以指向一個Gemini模型或未來的Gemini模型，針對某些材料，說，“你能幫我學習這個嗎？”比如你生物課本的第六章。它包含了一堆圖片，包含了一堆文本，也許還有你看過的一段講座視頻。然后你實際上可以說，“我真的不理解這件事。你能幫我理解嗎？”它可以向你提問，你可以向它提問。你可以回答問題，它可以評估你是否正確，并真正引導你在學習旅程中的進步。

因為這是個性化的，我們應該能夠將其提供給世界各地的許多人，不僅僅是英語，還涵蓋世界上成百上千種語言。

主持人：

所以我理解你說的關于多種語言，以及試圖讓這些語言盡可能廣泛地可用。但是否存在創建某種兩級系統的危險？一方面，擁有這些工具接觸的人，如你所描述的，能夠獲得更好的結果，加速他們的學習和生產力。那些不幸無法接觸到這些工具的人確實會面臨困境。

這是你關心的問題嗎？

Jeff：

是的，我認為確實存在創建兩級系統的風險。我們應該努力使這些技術盡可能廣泛地、普遍地為每個人所用。如果我們能做到這一點，就能真正利用這些優勢為社會做出貢獻，并使人們能夠負擔得起或免費利用這些能力，用于教育和醫療。我認為這是人工智能在醫療可及性方面真正產生巨大影響的另一個領域。

主持人：

回到Gemini，如果可以的話。

如果你是從Google搜索開始的，那么事實性絕對是你所關心的一切的基石。但是Gemini，我的意思是你一直在與它合作。我想你一定見過它說一些相當離奇的事情。你是如何在腦海中調和這一點的，例如，不再總是需要絕對的事實性？

Jeff：

是的，作為一家公司，這實際上是一個棘手的平衡，因為我們從一開始就是一家基于搜索的公司。正如你所說，提供準確的事實信息是搜索引擎體驗的頂峰。我認為我們實際上在內部建立了一些有趣的大型語言模型，大家都很喜歡與之對話。事實上，其中一些模型在疫情期間可以在內部使用，所以大家都在家時就能使用它們。實際上，你會看到在午餐時間，內部使用量會激增，因為大家會和他們的虛擬聊天機器人對話，畢竟，在家獨自一人時還能跟誰聊天呢？

這些模型實際上被訓練成預測合理的下一個詞元，本質上就是這個。你可以將詞元理解為一個單詞或一個單詞的一部分。預測合理的下一個詞元和絕對真理是不同的，它是一個概率上合理的句子。這與事實是不同的。我認為我們逐漸意識到的是，這些模型即使不是100%真實的，實際上也可以相當有用。所以我認為，意識到還有很多其他的用例，或者能不能在五條中總結這個幻燈片？是的，您可以爭論第五個要點是否完全正確，但仍然很有用，能有4.5個關于幻燈片放映的事實準確的要點。我們在努力爭取達到五個事實準確的要點。但即使沒有那一點，我認為這些模型的實用性其實已經相當高了。

主持人：

這是一個讓人不舒服的認知嗎？因為當然，其他實驗室確實更早推出了他們的模型。您認為您們因為這個事實問題而顯得過于小心了嗎？

Jeff：

我認為我們有很多不同的顧慮，事實性只是其中之一，還有像模型訓練方式中的毒性和偏見，以及它可以產生的輸出，這是我們希望在很多方面使模型減少偏見的一個領域。所以在發布給公眾之前，我們在諸多領域都希望保持相對謹慎。我認為我們已經解決了很多這些問題，以至于我們認為我們在這個領域發布的產品是有用的，盡管在事實性或偏見等方面顯然還有改進的空間。我認為人們需要進行一些調整，既要盡力做到最好，也要意識到如果不發布某個東西，實際上是在抑制一些對很多人可能有用的東西，即使它還有一些瑕疵。

主持人：

那么，有了這些瑕疵，我們從這里開始該往哪個方向走呢？在我看來，計算方式似乎已經發生了真正的轉變。比如，使用計算器時，輸入同樣的計算兩次會得到同樣的答案。而我們現在處于一個概率計算的時代。因此，我想知道，公眾是否需要接受這一點，并接受我們正處于一個事物更像人類且可能犯錯的時代，還是你認為這是可以解決的問題？

Jeff：

我認為兩者都有一些道理。我認為有很多技術方法可以改善這些問題的真實性。一個例子是，如果你考慮一下模型訓練的數據，比如萬億級的文本和其他數據，然后把這些數據混合在這個巨大的包含數十億參數的“湯”中。我喜歡把這比作你見過很多東西，但記得不是很清楚。

如果你把信息放在……我們在Gemini中推動的事情之一是擁有一個長上下文窗口。當你有一大段空間可以放置你試圖總結、操縱、比較或提取信息的各種直接信息時，模型在上下文窗口中實際上對這些信息有一個更清晰的視圖。它就像擁有實際文本和這些文本的表示，而不是與它看到的所有其他內容糾纏在一起。

主持人：

因此，這個上下文窗口就是模型在那一刻可以看到的重要部分。

Jeff：

是的，它可以以比在其訓練過程中看到的其他事物更精確的方式進行推理。

因此，它可以處理五個科學文章的PDF，然后你可以提出問題，比如，能否請你告訴我這些文章的共同主題是什么？它實際上能夠做到這一點，因為它擁有所有這些文章內容的自我表示。這就是我們一直在推行Gemini模型的超長上下文窗口的原因之一，因為我們認為這對于事實性、視頻摘要以及各種應用都非常有用。

主持人：

但是上下文窗口有上限嗎？你能不能一直推一直推，直到它變成一個無限的上下文？

Jeff：

這是個很好的問題。目前，注意力處理的計算方面花費相當昂貴。你試圖將其做得越長，它變得越昂貴。昂貴在時間上的開銷、計算時間、金錢、計算能力以及各種資源的開銷。但我們認為可能可以通過算法改進使其超越我們當前的兩百萬標記上下文窗口。我指的是，一百萬標記已經相當多了。一百萬標記大約是600頁文字，相當于大多數書籍，約20篇文章，或一小時的視頻。

主持人：

那么在另一方面呢？因為你說這兩方面都有一點。

Jeff：

也許人們必須調整他們的期望。我認為這些模型是工具，人們需要理解它們的能力，但也要知道，在某些情況下，可能不應該使用這些工具。因此，這對人們來說是一個教育過程。不要立刻相信語言模型所說的每一個事實，你需要對其進行一些審查。我們已經教育人們，如果你在網上看到某些信息，那并不一定意味著它是真的。我認為，對來自語言模型的某些類型的信息保持類似程度的懷疑也是合適的。隨著模型的改進，這種懷疑可能會減少，但最好帶著一種健康的態度來看待，可能它實際上并不是真的。

主持人：

除了上下文窗口之外，還有其他方法可以讓你在編寫提示時盡量減少得出完全虛假的結果的風險嗎？

Jeff：

谷歌研究人員提出了一種技術叫做“鏈式思維提示”。如果你只是給模型一個有趣的數學問題，然后問它答案是什么，它可能會答對，但也可能不會。而如果你說，這是一個有趣的數學問題，你能一步一步地展示你的解題過程嗎？回想一下你四年級的數學老師，他或她可能會說你真的應該逐步展示你的解題過程，然后得到最終的答案并寫下答案。這部分原因是因為這幫助你通過多步驟的思維過程，從被問到什么到我需要計算這個，基于那個計算這個，等等，最后得到答案。事實證明，這不僅使模型的輸出更易于解釋，因為它有點告訴你它經過了哪些步驟，而且也更有可能得到正確的答案。

主持人：但如果這不是一個數學問題呢？

Jeff：

即使在那些不是明確定義正確答案的領域，這種方法也有效。這有點微妙，我認為人們需要實際學習如何使用這些模型，你提示它們的方式實際上是一個很大的決定因素，影響輸出的質量有多高。比如，如果你說總結這個，那可能會導致一個結果。如果你說，請總結這篇文章并給我五個重點突出文章主要內容的要點，并列出作者寫下的兩個缺點。如果你這樣說，這對模型應該做什么來說是一組更清晰的指示，而不是只是簡單地說總結這個。

主持人：

當我們把這些東西放在一起時，就是逐步分解步驟，但也理解更多的背景和多模態的內容。我們是否在向一種多模態模型理解我們作為個體和我們的偏好這種情況邁進？

Jeff：

是的，我認為你真正想要的是一種非常個人化的Gemini版本，它了解你現在正在嘗試做什么，但也了解你在嘗試這樣做的背景。我是素食者，所以如果我問Gemini關于倫敦的餐館推薦，它知道我是素食者，它會推薦不同的東西，而不是我不是素食者時推薦的東西。我認為，一個通用模型，如果是為每個人提供相同的服務，這種模型并不會比一個真正了解你和你的背景的模型好。有些類型的問題你可能想問一個模型，但現在用Gemini還不能完全做到。不過，你可以想象一下你想要實現的功能，比如，你能把我上周遠足時拍的照片做成一本插圖故事書嗎？

今晚我孩子的就寢時間，模型會知道你徒步旅行時的那些照片來自哪里，并且知道如何制作一本能夠吸引你孩子的插畫故事書。也許它還會知道你孩子的年齡，以便使其內容適合。

所以我認為你現在還不能做到這一點，但這可能會是一個有用的功能。人們會想要，你會希望人們選擇加入。我認為你希望模型知道和掌握的上下文信息越多，你就越希望人們能理解正在發生什么。

我們能做的一件事情是，不是基于這些數據去訓練模型的一個版本，而是僅在上下文中提供正確的信息，以便在生成響應時可以調用這些信息。我覺得那會挺不錯。

主持人：

就像你有一個幾乎可以將自己的上下文印刻其中的常規結構，但那對于你來說是私密的。

Jeff：沒錯。

主持人：

這看起來會非常好。

我們在這里只限于音頻、視頻、屏幕上能看到的東西、語言等，還是我們是否期望這些助手能夠從我們的電腦里走出來？

Jeff人：

我認為實際上有許多不同種類的新數據模式，這些模式并不完全是人類的模式，我們希望這些模型能理解。

比如，來自世界各地的大量溫度讀數有助于天氣預測，或者基因序列，或者自動駕駛汽車或機器人應用的LiDAR數據。在一個環境中，你希望這些模型或許能夠幫助實際世界的機器人應用。能夠與機器人設備對話，用普通語言給它指示，比如你能不能去廚房，擦一下柜臺，然后把我留在柜臺上的汽水罐回收掉，然后給我拿包開心果之類的。

傳統上，機器人無法理解這樣的語言，但我認為我們正處在實現這種能力的邊緣。能夠讓機器人在凌亂環境中完成50或100個有用的任務，而不僅僅是在過去機器人已被部署的那種非常受控的環境中，比如工廠裝配線那種，他們從這里到那里。這是一個非常可以預見的事情。

主持人：

我們在這里談論作為助手，這些東西在某種程度上是增強人類能力的方式。我可以在醫療環境中看到它，在教育環境中看到它。但是，多模態方面是否為我們提供了更多，比如關于我們如何理解世界的方面？

Jeff：

我認為這些模型現在能夠做的是通常可以進行一些推理步驟，從而完成你要求它做的任務。我認為隨著這些模型在能力上的提高，你將能夠讓模型與您合作完成更多復雜的任務。就像是區別于能否在椅子租賃處訂購一堆椅子與幫我策劃一場會議。后者是更高層次的，更復雜的。合適的模型會向你提出一連串的后續問題，因為其中存在模糊性。例如，有多少人會來？這是關于什么的？你在哪個國家？你想在哪里舉行？什么時候？然后我們就可以出發，并且能夠完成你可能想要實現的許多事情，以實現那個高級目標。

主持人：

如果你有這種概念性的連接或這些概念性的連接，我指的是回到奶牛這件事，它理解圖片，還理解重力，通過在互聯網上看視頻。它們可能看過像是物理入門課程的講座。所以它從這個角度理解它，并且還看過很多東西落下。那么某天你可以進來說，給我畫一個非常高效的飛機藍圖嗎？

Jeff：

我認為這些模型需要與某種探索過程結合。這種探索過程可以是這樣子的，不一定非要在200毫秒內給你答案。也許你明天拿到飛機就開心了。

所以我認為在那時，你就有更多的自由去設計系統，從而能夠有效地完成類似的事情。它們可以在模擬器中進行一些實驗，或許是他們可以訪問的模擬器，或者他們為基本流體動力學等創建一個模擬器。然后他們嘗試，知道，嘗試一堆設計。也許他們對飛機形狀有一些想法，在看過很多現有飛機之后覺得有什么意義。所以，他們可以嘗試完成你所要求的事情。希望他們首先問的是，你希望你的飛機具有什么特性。

主持人：原來一直是紙飛機。

Jeff：

是的，紙飛機。知道它是紙的很重要，這可以大大降低成本。

所以，我認為這些事情最終會實現。要準確說出這些能力的確切時間有點困難，那是一種相當復雜的集成，涉及到模型的推理能力、它所需要的知識、你要求它做的事情以及你如何要求它去做的事情。但是，我們已經看到這些模型在五年、十年期間能力的巨大進步。所以在五年、十年的時間里，這可能是有可能的。甚至可能比這更快，例如，你能幫我設計具有這些特性的一架飛機嗎？

主持人：

但我想這些就像是我們希望阿波羅成為那樣東西的早期前兆。

Jeff：是的，沒錯。

主持人：

Jeff，非常感謝你加入我。

Jeff：

很高興來到這里。謝謝你邀請我。

主持人：

在很多方面，我認為杰夫的整個故事就是關于規模的。對于谷歌搜索來說，這就是如何獲取更多的網頁，更多的用戶，更快的查詢。對于神經網絡來說，關鍵在于更多的計算能力和更多的機器。在最近的機器學習時代，關鍵在于越來越多的數據。

從這一切中，出現了一種真正的世界概念模型。這種模型具備抽象能力，已經證明能提高人類的生產力。值得注意的是，Jeff 并沒有就此止步。還有更多的傳感器和更多的模式將會出現。而且，當它們與在這棟樓里誕生的強化學習工具結合時，也許在人類通用人工智能（AGI）的道路上還會取得更大進展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.