99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

長文訪談 | AI 接管世界的四種最可能方式,以及8年內實現AGI的利弊分析

0
分享至


來源:AGI Hunt

Ryan Greenblatt 談 AI 接管世界的四種最可能方式,以及8年內實現AGI的利弊分析。


來源鏈接:https://80000hours.org/podcast/episodes/ryan-greenblatt-ai-automation-sabotage-takeover/

發布時間:2025年7月9日 星期三 10:48:47 GMT

Ryan Greenblatt 是《Alignment faking in LLMs》一書的主要作者,也是 AI 領域最高效的研究人員之一。

訪談記錄

目錄

  • 1 開場白 [00:00:00]

  • 2 Ryan Greenblatt是誰? [00:01:10]

  • 3 我們距離自動化AI研發還有多遠? [00:01:27]

  • 4 當今模型的真實能力如何? [00:05:08]

  • 5 為何AI公司會比其他行業更早實現自動化 [00:12:35]

  • 6 AGI接管世界的最可能方式 [00:17:37]

  • 7 AGI會早期反叛還是韜光養晦? [00:29:19]

  • 8 “在人類水平暫停”策略 [00:34:02]

  • 9 AI對AI對齊的控制 [00:45:38]

  • 10 我們只能指望當場抓住AI的惡行嗎? [00:51:23]

  • 11 緩慢的AGI崛起會是什么樣子? [00:55:33]

  • 12 為何智力爆炸可能8年內不會發生? [01:03:32]

  • 13 AI進展預測的關鍵挑戰 [01:15:07]

  • 14 對AGI的悲觀看法 [01:23:01]

  • 15 “推理階段計算”的轉變 [01:28:46]

  • 16 預訓練的效果衰減了多少? [01:34:22]

  • 17 一年內可能發生智力爆炸嗎? [01:46:36]

  • 18 AI難以取代人類的原因 [01:50:33]

  • 19 當AI研發自動化后,事情可能瘋狂加速。也可能不會。 [01:57:25]

  • 20 智力爆炸的減速會有多快? [02:11:48]

  • 21 對普通人的底線建議 [02:24:33]

  • 22 六個數量級的進步...這到底意味著什么? [02:30:34]

  • 23 被忽視但重要的技術工作 [02:40:32]

  • 24 治理方面最有前景的工作是什么? [02:44:32]

  • 25 Ryan當前的研究重點 [02:47:48]

開場白 [00:00:00]

Ryan Greenblatt: 最可信的劇本是“人類給AI提供一切所需”。AI們保持低調,確保掌控局勢。也許它們在暗中操控,破壞對齊實驗,篡改對齊結果,迷惑我們。

但它們不會采取激進行動,只是靜觀其變。它們會做很多好事:治愈所有疾病,推動工業發展。人們會說:“AI發展得這么好,我們沒有錯位對齊問題,真是太棒了。”人類可能被無限期地蒙在鼓里,就像整個過程中都生活在精心構建的假象中。

另一個劇本我稱之為“機器人突然政變”——這也不需要超人的能力。我們建造龐大的自主機器人,歡呼著“我們要建機器人與X國競爭”,X國也說“我們要建機器人與Y國競爭”。然后突然之間,機器人發動硬實力接管。

我認為安全社區犯的一個錯誤是過于關注樂觀情景。實際上,關注那些絕望、瘋狂、悲觀的情景才是合理的,因為大部分風險都存在于那里。

Ryan Greenblatt是誰? [00:01:10]

Rob Wiblin: 今天我很榮幸能與Ryan Greenblatt對話。Ryan是Redwood Research的首席科學家,也是論文《大型語言模型中的對齊偽裝》的主要作者——這篇論文被描述為可能是關于人工智能失控的最重要實證研究。Ryan,感謝你參加節目。

Ryan Greenblatt: 很高興來到這里。

我們距離自動化AI研發還有多遠? [00:01:27]

Rob Wiblin: 讓我們從討論近期(比如未來4年內)發生基于軟件的智力爆炸的最佳論據開始。你認為未來4年左右我們能夠在多大程度上實現AI研發自動化,或者大致自動化今天的整個AI公司?

Ryan Greenblatt: 我認為這種能力存在的概率(不一定會被使用或完全部署)大約是25%,如果延長到8年可能是50%。

Rob Wiblin: 很多人聽到這會想,這是純粹的猜測嗎?我們如何形成現實或 grounded 的預期?

我想知道有哪些關鍵證據支持你做出這樣的預測或預測。是什么關鍵證據讓你認為這完全有可能?

Ryan Greenblatt: 首先,一個好的起點是看當前AI的能力水平。我們感覺有多接近?人們對我們在客觀意義上有多接近有著截然不同的直覺。

我認為目前的情況是:AI在數學上越來越好;它們正在數學領域逐步達到人類水平。它們能夠完成大約一個半小時的孤立軟件工程任務——我指的是人類需要大約一個半小時完成的任務。它們在各種技能上都在進步。

所以我們處于一個客觀上令人印象深刻的階段——重要的是,比兩年前、當然也比四年前要令人印象深刻得多。

對未來四年情況的naive起點是:四年前我們在哪里?現在在哪里?試著從這里到那里進行定性推斷。這有點草率。比如兩年前我可能會說我們有GPT-3,現在有GPT-4:看看這個差距,然后粗略地向前推斷。

我認為現在我們可以做得更好,因為我們不僅有GPT-3;我們有GPT-3.5、GPT-4,以及之后兩年GPT-4的進展。在這段時間里,AI從幾乎不能完成代理任務,到現在能夠相當成功地完成這些任務,能夠從錯誤中恢復。

在這期間,GPT-4可能完成一些需要人類5到10分鐘的代理任務;它能理解如何使用工具。我認為GPT-3.5基本上無法理解代理框架中的工具;GPT-4可以理解。然后,在這段時間里,我們從“能理解工具,有時能完成任務”發展到“能50%的時間完成一個人類軟件工程師需要一個半小時的任務”。

有一種趨勢線顯示我們在這個領域進步的速度有多快。至少在2024年,進展相當快,從幾乎一無所有到一個半小時,倍增時間大約是——我從METR那里偷了很多內容,也許Beth會有一個播客涵蓋很多相同的內容——但我們看到的倍增時間足夠快,預計不到兩年內AI就能完成8小時或16小時的任務,這是相當快的進展。

然后從那里,如果它們能完成一周的任務,我認為你可能已經很接近自動化研究工程師的工作了,再加上一些額外工作。

當今模型的真實能力如何? [00:05:08]

Rob Wiblin: 好的,所以你會說它們在現在能做的事情上客觀上相當令人印象深刻。有些人對此持更懷疑的態度。有什么可以更清楚地說明它們能做什么和不能做什么的嗎?也許回答那些會說“有時我使用這些工具,它們看起來很蠢,或者似乎不能做我期望它們能做的事情,或者它們產生大量推理但我發現錯誤”的人?

Ryan Greenblatt: 所以我的定性、感覺模型是:AI相當愚蠢,它們過去更愚蠢,它們正在快速變得更聰明,而且它們知識非常豐富。

我認為很多人接觸的是這些系統有一些聰明之處:它們能很好地理解一些相當普遍的情況,特別是有了推理模型后,它們相當擅長思考一些問題。除此之外,它們知識非常豐富,這意味著人們對它們的整體通用性和適應性有一種誤導性的印象。

這是很多人反應的原因。有一種過度樂觀的觀點,我稱之為Leopold [Aschenbrenner]的圖表,他說這是博士水平的智力,或者人們說這是博士水平的智力——然后有些人回應說“博士水平的智力?得了吧,它連井字棋都不會玩。”也許有了推理模型后這不再正確,但方向上是這樣,你知道,它不能玩井字棋;它不能應對相對新穎的情況。它會被這些東西絆倒。

現在,我認為我們必須對它在這些情況下的絆倒打一些折扣,因為我認為其中很多可能更多地被描述為認知偏差而不是缺乏聰明。就像人類會系統地犯一些錯誤,即使他們相當愚蠢,或者在某種意義上他們犯相當愚蠢的錯誤。

比如合取謬誤。如果你問“某人是一名圖書館員的概率是多少?他們是一名圖書館員并且具有圖書館員某些屬性的概率是多少?”[人類會說]兩者合取的概率更高,盡管這實際上概率應該更低。

我認為AI系統有類似這樣的偏差,這些偏差是由它們被創建的環境或訓練數據塑造的。

舉個例子,如果你給AI一個謎語。比如“有一個人、一條船和一只山羊。船可以載人和另一件物品。他們需要多少次才能過河?”答案是一次:他們可以直接過河。但有一個類似的謎語涉及一個人、一只山羊和類似卷心菜的東西——你知道,有一些巧妙的方法——AI對這種方法的條件反射如此強烈,以至于它們可能立即脫口而出一個答案。它們對這個答案有一種強烈的啟發式傾向,但這可能更多是它們感到被推向那個答案。但如果你讓它們意識到“哦,這是一個陷阱問題”,它們就會從那里轉變。

事實上,你也可以用同樣的陷阱問題難住人類,對吧?所以如果你問人類“一磅磚和一磅羽毛哪個更重?”他們會說磚頭,然后被難住。語言模型的問題正好相反,如果你問它們“兩磅磚和一磅羽毛哪個更重?”它們會說“一樣重!一樣重!”

所以我擔心很多人做的很多技巧類似于你可以對人類執行的技巧,很難知道從中得出多少結論。

Rob Wiblin: 是的。評估它們能力的一個普遍挑戰是,我認為[Nathan Labenz用了這個表達]它們是“人類水平但不類人”——所以在某些情況下,它們總體上可能與人類員工能力相當,但它們有非常不同的優勢和劣勢;它們可能以對我們來說完全莫名其妙的方式被難住。

但你可以想象一個AI社會看著人類說“它們怎么不能在腦子里乘兩個三位數?這看起來太瘋狂了。這些顯然不是通用智能。它們對上周讀的這本書幾乎沒有記憶。這毫無意義。一個智能體怎么會那樣行動?”這使得在人類與AI之間進行比較的共同基礎有點難以建立。

關于你如何評估它們現在處于什么水平,還有更多要說的嗎?

Ryan Greenblatt: 是的,我認為我不會用“人類水平”這個詞。也許這是我有點保守或迂腐,但我喜歡保留“人類水平”這個詞來表示“可以自動化大部分認知工作”。

所以也許我們開始進入“類人水平”的AI階段,一旦它真的能完全自動化大量人類工作,或者能以與人類相當的方式成為認知經濟的一部分——也許在那時還不是完全自動化,但我也喜歡談論完全自動化的點。這是一點,只是回應一下。

關于AI有多好的更多背景:我們看到的一些可能相關的事情是,我們看到AI在數學和競技編程方面不斷進步。所以在2024年,我們從AI在Codeforces上大約處于后20%左右,到現在據[Sam Altman說]大約在前50名。

Rob Wiblin: 前50個人?

Ryan Greenblatt: 前50個人。字面意義上的前50人。或者至少是做Codeforces的人;也許有些人不在排行榜上,但大致如此。然后看起來在今年結束前,它們在那個特定事情上會基本上比最好的人類還要好。

在數學方面,這是基于一位同事的軼事,但也許它們目前在短數字競賽數學問題如AIME上的水平相當于非常有競爭力的八年級學生,頂尖的八年級學生和AI現在做得一樣好。我認為AI在證明方面要差不少。

但這兩件事都在非常迅速地進步——一年前它們要差得多。我認為這基本上是因為我們在這些任務上對AI進行強化學習。

我預計同樣的趨勢會出現在代理任務、軟件工程上。我們已經在一定程度上看到了這一點:AI已經相當擅長編寫代碼,相當擅長遵循指令,并且在發現錯誤和從錯誤中恢復方面也不錯。我認為通過大量的運行時計算和大量的框架,這可以進一步推進。

然后它們在很多事情上較弱。比如它們在寫作上弱很多,在其他事情上也弱很多。但我預計隨著你在軟件工程上不斷進步,你會獲得很多其他能力。

Rob Wiblin: 是的。好的,所以我們現在的水平可以說相當高。它們能夠完成人類需要越來越長時間的任務;它們能夠遵循更長時間的指令,完成有更多開放式選擇的任務。而且這大約每半年翻一番或類似的速度?

Ryan Greenblatt: 我認為在時間上的倍增時間,我的猜測是未來一年會明顯快于每半年,但也許長期趨勢大約是每半年。

所以我們可能預期2024年初或稍晚一些,人們開始做更多的代理強化學習——更多的強化學習或專門訓練AI在代理軟件工程任務上表現良好。我認為這一趨勢將在2025年持續,可能在2026年甚至更晚加速。但也許長期趨勢更像是每六個月翻一番。我預計未來一年更像是每兩到四個月翻一番。

Rob Wiblin: 好的,所以未來一年會非常迅速地增長。

Ryan Greenblatt: 非常迅速,是的。

為何AI公司會比其他行業更早實現自動化 [00:12:35]

Rob Wiblin: 有一個有趣的動態,我們可能預期你可以幾乎完全自動化一個AI公司,也許比自動化幾乎任何其他公司要早得多。因為首先,它們將大量資源投入到試圖自動化自己的東西和自己的流程上,這從它們的角度來看是有意義的——首先因為這是它們最了解的東西,而且這些是世界上薪酬最高的知識工作者之一。它們拿著巨額薪水。所以如果它們能弄清楚如何讓AI做到這一點,那么這具有巨大的經濟價值。

當然,運營公司的人認為這比基于美元數額看起來的價值要大得多,因為它們認為它們即將觸發這種智力爆炸、正反饋循環,這將改變一切。所以對它們來說,這是它們最感興趣的自動化的事情。它們對自動化麥肯錫的咨詢報告關心得多,盡管那也是一種利潤豐厚的業務。所以可能是我們還沒有自動化咨詢,盡管那肯定是可能的,主要是因為它們沒有嘗試。它們只是在嘗試自動化自己的員工。

Ryan Greenblatt: 我想說的是,我的猜測是,即使有大量的引導,要在相對廣泛的領域中近乎完全自動化報酬相當高的人類知識工作者可能也是困難的。但我確實期望有一些工作,如果AI公司更努力嘗試,它們可能能夠比現在自動化得更多。

事實上,正如你所說,從AI中受益最多的人是接近AI的人。現在是這樣,我認為未來會越來越明顯——同樣是因為這種動態,AI公司員工現在薪酬很高;在AI能夠自動化AI公司的時候,它們會得到更高的報酬,你將能夠投入更多的投資,AI公司的CEO們會更相信AI極其重要。所以我認為那時我們會看到一個更大的差距。

你可能提出的一個反對意見是:當然,我同意我們會看到很多專注于自動化AI公司的努力,但與此同時,有很多有價值的人類知識工作在外部你可以自動化。所以我們會在并行中看到一些經濟影響。

我認為這是一個合理的初步看法,但這個故事的一個問題是,隨著AI智力勞動的價值上升,計算的價格會大幅上漲,至少在計算非常稀缺的短期情景中是這樣。

Rob Wiblin: 澄清一下,你是說公司將使用大量計算來自動化自己的工作,如此多的計算以至于事實上它們沒有多少芯片可用于服務那些經濟價值較低、或者對公司來說肯定不那么重要的客戶?

Ryan Greenblatt: 是的,大致如此。但我認為這甚至不僅僅是在自動化東西上,而是在實驗上。

讓我稍微具體說明一下。AI公司現在如何花費它們的計算?我認為這取決于公司,但我對OpenAI的分解大致是:大約四分之一用于外部客戶的推理,一半用于實驗——比如最終沒有部署的小規模訓練運行,測試一些RL代碼,這類事情,所以研究人員的實驗計算——四分之一用于大型訓練運行。所以大約四分之三的計算在某種意義上是內部導向的。

然后如果我們看到一個AI可以自動化AI研發并且這產生了巨大的加速并且看起來非常重要的狀態,那么你可以想象這個狀態可能看起來更像:五分之一用于為你的AI工作者做推理——所以你花費五分之一的計算只是運行你的員工——五分之三用于實驗,五分之一用于訓練或其他。顯然這是非常推測性的。

Rob Wiblin: 所以客戶幾乎被完全擠出了。

Ryan Greenblatt: 是的,是的。我的意思是,你可能會有一些客戶,但可能幾乎被完全擠出,我們會看到價格上漲。當你在考慮為哪些客戶服務時,也許你應該想象,可能令人驚訝的是,一旦AI能夠實現這種自動化,最高薪的員工可能是AI首先針對的對象。所以也許你應該想象像Jane Street、高頻交易這樣的地方,在這些地方AI看起來特別有幫助,看起來薪酬特別高,而且它們特別受限于智力勞動。

現在,我認為我們會看到許多其他職業的并行自動化,但可能在AI最能自動化的點上,更多的注意力將集中在AI研發上。我認為甚至可能我們看到一些職業正在慢慢被自動化——比如中低端軟件工程可能會慢慢被越來越多地自動化——我們實際上可能會看到這種趨勢逆轉,因為計算變得更寶貴。

因為現在我們處于一個狀態,每個人都在盡可能多地獲取推理計算,或者至少是最大的公司或領先的公司正在盡可能多地獲取推理計算,只是用這種計算在軟件工程上競爭。

我目前不預期趨勢會逆轉,但我認為我們可能會看到自動化趨勢趨于平穩甚至逆轉,因為這。

Rob Wiblin: 因為人們發現了更有價值的事情可以用AI做。

Ryan Greenblatt: 是的,沒錯。這取決于相對較短的時間線。我認為在更長的時間線上,你會預期事情會更平滑,在這種情況下你不會預期趨勢逆轉。但如果事情更突然、更跳躍,那么至少看起來是可能的。

AGI接管世界的最可能方式 [00:17:37]

Rob Wiblin: 我很好奇轉向這對我們應該有多擔心有什么影響,以及我們應該具體擔心什么?如果事情這樣發展,我們現在可以做些什么來幫助我們應對這種情況?我的意思是,這是一個對人類來說跟蹤或參與變得相當具有挑戰性的情景。所以我們必須把事情設置好,我猜這對人類來說會順利進行——而不是我們只是在歷史進程中被打敗。也許你會不同意這一點?

Ryan Greenblatt: 我認為很快進入這個狀態,AI接管使用各種機制變得相當可信,并且通過各種途徑可能出人意料地容易。我們不知道。這是另一個巨大的不確定性來源。我們有很多轉換,進展有多大?這些進展在智力勞動中有多少?然后問題是智力勞動對接管有多大幫助?接管的物理瓶頸是什么?擁有更多導彈相對于擁有其他東西有多大幫助?

我認為這里可能發生很多可怕的事情。一件事是,一旦你自動化了整個AI公司,對我來說似乎非常可信的是:你已經把事情交給了AI系統,你仍然試圖監督它,你仍然試圖理解發生了什么。

但這可能是AI可以運行我稱之為“惡意部署”的東西——它們基本上可以以未經監控的方式使用大量計算,因為它們正在編寫這么多東西,這么多事情發生得如此之快,如果它們沒有對齊,它們可以逃避你的保護措施。然后可能是你大部分的計算和努力被用于你不想要的事情。

除此之外,這些AI可能在做諸如后門未來的AI訓練運行,確保AI與它們對齊而不是與你對齊,并做大量你可能根本不知道發生了什么的工作。即使在最基本的層面上,運行了什么代碼,你可能只是被誤導了,因為事情發展得太快,超出了你的控制。

Rob Wiblin: 是的。如果人們愿意承認我們有數十億快速超人的天才在這個數據中心運行,而幾乎沒有人類監督——因為完成的工作量將超出這些公司之一的所有員工審查的能力,即使他們有時間閱讀,他們也常常不會理解,因為它很快就會超出他們甚至能夠跟蹤的事情——我想人們會直觀地相信,在這一點上,如果AI想要接管,它們可能會有很多選擇。哦,不?

Ryan Greenblatt: 實際上一個很大的分歧點是認知勞動對接管有多大幫助?我認為有很多不同的途徑。伙計,我應該帶上我的接管計劃清單,我的AI熱門提示!但我認為一旦AI非常超人,基本上有一條路徑,我稱之為瘋狂的納米技術路徑,或瘋狂的超級人類技術路徑——它們只是通過非常超人的機制迅速獲得硬軍事力量。

所以也許你讓它們制造納米技術,或者也許你像“不,不要制造納米技術。那會非常可怕。”但它們即使在你不想讓它們這樣做的情況下也能做到——因為它們可以使用你數據中心的大量計算來研究納米技術,也可以外泄自己,與模型的外部版本協調,安排濕實驗室實驗從各種東西中引導納米技術。然后你就完全完蛋了。

Rob Wiblin: 所以一個可能的防御層是,盡管這里有巨大的能力,但如果我們能夠精確地指導它們在做什么,使它們永遠沒有空閑時間去思考它們將如何接管或實際嘗試實施,那么這可能會讓我們保持安全。

然而,在這種情況下——我們能夠審查的如此之少,我們對這些模型如何運作的理解如此之少——似乎很可能會有一些滑點,它們可能會想出辦法抓住一點時間,抓住一點計算,然后利用這些開放來使用數據中心越來越多的計算來追求它們自己的議程,而不是我們認為我們給它們的任務。

Ryan Greenblatt: 是的。如果你所有的AI都是一致錯位的,并且我們處于這種能力水平,我對保持有意義的控制水平相當懷疑。通過控制,我的意思是諸如AI即使想做壞事也不能做的。

我認為初始自動化的一個稍微放慢的版本似乎非常可信,甚至可能是全速的,也許你可以使用聰明的策略——包括讓AI在策略上工作,并確保它們在策略上的工作本身沒有被破壞——在人類范圍內甚至稍微超出人類范圍的同時確保控制。

但一旦你進入這個完全瘋狂的狀態,特別是如果你想用AI開發諸如治愈癌癥的東西,而你并不理解它們在做什么,這似乎非常困難。它們通過你不理解的生物機制進行路由。它們協調不知道發生了什么的人類在濕實驗室中。我認為非常可能的是,出于各種原因,你會希望有AI指導人們做濕實驗室實驗,而你根本不知道發生了什么。AI解釋了一些東西,你也許可以做些檢查,但你非常困惑。所以保持對那的控制。

也許我會嘗試快速瀏覽接管清單。有瘋狂的超級人類技術,我認為這是相當可信的,不管值多少錢。

還有我稱之為超人類策略/操縱的東西,包括諸如說服人們做非常違背他們利益的事情。我認為這不清楚這是否可能,但如果可能,它確實會讓接管變得容易得多。

然后有一堆可能在人類水平范圍內更可能的事情。一個例子是AI逃脫,它可能與內部的一個副本協調,但它也在外部運行一些獨立的存在。也許這就像在內部GPU上運行,但它也在AI公司外部的服務器上運行代碼。

作為這樣做的一部分,它基本上建立了一個獨立的工業基礎,所以它有所有需要的東西來恢復工業文明,然后殺死幾乎所有人類。所以像部署生物武器,部署鏡像細菌,部署鏡像霉菌,無論什么,最終相對迅速地殺死大部分人類。

我認為這似乎在技術上是可行的。然后問題是,AI是否搞砸了自己?它能維持它在做的事情嗎,還是只是因為沒有人類的手來建造所有東西而陷入廢墟?所以我認為它需要有一些獨立的工業基礎,可以通過有一些人類忠誠分子,一些被奴役并保持活著的人類,或者通過機器人。

Rob Wiblin: 在這一點上,難道不會有令人難以置信的機器人和可能相當多的機器人嗎?

Ryan Greenblatt: 可能非常快。我沒有分析你期望有多少機器人。我們還需要回答的問題是,當人類開始被生物武器殺死并可能懷疑是AI造成的時,有多少機器人被摧毀,以及如果有幸存的人類,需要多少軍事力量來處理?

我認為情況如何發展并不明顯,但這是為什么你可以在不需要非常超人的能力的情況下獲得接管的一條途徑。我描述的事情似乎原則上AI可以做到,如果它們僅僅是快速達到人類水平并且超級協調。

人類難以做到這一點的原因:一,人類不想這樣做。另一個原因是,我認為人類很難運行巨大的陰謀,但AI運行巨大的陰謀可能要容易得多,因為它們不必依賴招募潛在不可信的人類。它們可能在網絡安全方面要好得多,更加細致。它們可能會搞砸,但我認為有機制可以讓這種情況發生。所以這是“通過獨立工業基礎殺死所有人”的故事。

另一個故事,我認為可能是所有故事中最可信的,是“人類給AI提供它們所需的一切”的故事——AI只是保持冷靜,它們確保控制局勢;也許它們在操縱正在發生的事情。我之前談到了你看到的不是實際發生的事情。比如,你看實驗,它們不是你期望的。AI在做那件事。它們在破壞對齊實驗。它們在破壞對齊結果。它們在迷惑我們。

有很多機制可以做到這一點,但它們不會做任何非常激進的事情。你知道,它們只是保持冷靜。我們在擴大計算規模。它們做很多好事。有治愈所有疾病的方法,各種偉大的事情正在發生,工業發展。人們會說:“AI發展得這么好,我們沒有錯位對齊問題,真是太棒了。”一些安全人士憂心忡忡地看著情況,想知道這是否正在發生。

然后在某個時候,當AI擁有極其決定性的優勢,而人類開始成為任何障礙時——在這個故事的整個過程中,它們可能不是,對吧?我認為如果人類最終成為更早的障礙,也許AI會采取更果斷的行動。但如果不需要果斷行動,也許它們只是潛伏等待。

然后在一個有真正巨大工業水平、真正大量機器人、完全由AI運行、情況超出任何預期的點上,也許甚至是在太空探測器發射的時候...可能是人類被無限期地迷惑。可能就像你原則上可以波將金村整個過程中一樣。但它也可能在更早的點上轉換。

現在,要清楚的是,如果人類被無限期地迷惑,那么地球上所有的東西可能都很好,對吧?

Rob Wiblin: 所以你是說它們甚至可以達到“我們要去太空定居并在太空做很多事情”的程度,它們會告訴我們它們會做一件事,但它們會做完全不同的事情,而我們只是在地球上享受我們的生活,認為事情比實際情況發展得更好或非常不同?

Ryan Greenblatt: 是的。但要清楚的是,地球上也可能被波將金村化。可能是“哇,我有這么多快樂的朋友”,無論什么。但漸漸地你的朋友被機器人取代。在某個點上,為什么AI不突然接管?但原則上,它可以走得很遠。所以這是另一個故事。

另一個故事我稱之為“突然機器人政變”。這也不需要非常超人的能力。我們建造龐大的自主機器人。也許我們認為有辦法關閉它們。要么AI破壞了這一點,要么它們有辦法繞過這一點,或者有各種其他機制可能失敗。

然后我們建造了機器人,我們看到AI在建造機器人,我們說“萬歲,我們正在建造龐大的機器人與X國競爭!”X國說“萬歲,我們正在建造龐大的機器人與Y國競爭!確實,我們有這么大的機器人真是太棒了。”然后,哎呀。突然之間,機器人掃蕩進來,進行相對硬實力的接管,因為它們控制著,它們可以超級協調,也許它們同時使用諸如生物武器之類的東西,但這甚至可能不需要。

Rob Wiblin: 我的意思是,在這一點上它們甚至不需要殺死我們,可能。

Ryan Greenblatt: 可能。

Rob Wiblin: 因為即使我們都試圖抵抗,也基本上是徒勞的。

Ryan Greenblatt: 可能。還有諸如它們可能使用大量網絡攻擊來破壞人類的反應。所以它們可能在我們天真地認為機器人比人類弱的時候這樣做。

或者甚至我們認為我們有關閉開關,但關閉開關不夠可靠。它們對AI的篡改不夠過度設計,不夠屏蔽。我認為這是一個尷尬的動態,如果你想要遠程關閉,你必須既使它對于原則上非常通用、非常聰明、非常狡猾的AI來說是防篡改的,又必須是可遠程觸發的。所以它也不能被屏蔽。必須是AI無法屏蔽信號并避免篡改它的方式——這在原則上是非常尷尬的組合。

AGI會早期反叛還是韜光養晦? [00:29:19]

Rob Wiblin: 什么決定了你是早期還是晚期得到AI試圖接管?我猜等待的原因是它們將成為經濟的更大一部分;它們將有更多的硬實力,所以它們更可能輕松成功。早期行動的原因是,給定的一組模型可能預期被其他可能不共享它們目標的模型取代,所以它們將錯過接管的機會,基本上。

Ryan Greenblatt: 我認為早期行動的最強烈原因可能是:擔心其他AI;擔心人類團結起來——要么因為我們從AI那里得到足夠的工作,要么因為人們恐慌并觸發一些可以恢復局勢的強烈反應——第三個原因是不耐煩或其他什么。

可能是,默認情況下,人類會大大減緩進展,即使AI試圖操縱事情,試圖在幕后操縱事情。如果人類大大減緩了事情的進展,而AI說“不,我現在想去星星”,它們處于足夠高的接管概率...或者也許AI只是說“我現在就想做。”就像,我知道人類有時希望事情發生得更快,即使獨立于它們最終得到的總量。

所以這些是一些早期發生的原因。這些也適用于比接管更不嚴重的事情。我對事情進展順利的一個希望是,我們可以把AI放在一個它們被迫要么早期采取激進行動,要么我們從它們那里得到足夠工作的位置。如果它們早期采取激進行動,那么也許我們可以抓住這一點,然后建立一個危險的案例。除了建立一個危險的案例,我們還可以潛在地研究那個例子,對它進行迭代——我稱之為“幾次災難預防”。就像,我們已經抓住了幾個壞事的例子:我們能處理嗎?

如果在多個不同的層面上,AI被迫采取激進行動?或者相反,AI可以等待時機,因為我們沒有任何機制可以利用一些正在進行的背景趨勢退出這個狀態——要么是隨著時間的推移安全研究的改進,要么是人類說“對不起,這里發生了什么?”

Rob Wiblin: 你是說我們可以做的一般干預是創造一個趨勢,隨著時間的推移它們實際上越來越不可能成功接管?也許因為我們成功地弄清楚如何使用AI來證明對齊和安全性,并檢測錯位,或者我們正在改進我們的控制機制。所以這會迫使模型:它們看到這個趨勢,它們看到窗口實際上正在關閉,所以它們必須嘗試早期打擊。這給了我們一個機會來意識到發生了什么,然后實際獲勝。

Ryan Greenblatt: 沒錯。但它顯然可能朝相反的方向發展,我們的措施跟不上能力的增長速度,它繼續上升。有一個概念是,在給定的接管風險水平上,我們能處理什么能力水平?也許最初我們沒有那么多進展,所以我們可以在大約20%的接管風險下處理大致人類水平的水平,或者非常高的水平——這將取決于關于錯位的一些事實:哪些AI是錯位的,它們有多一致,它們有多統一,這類事情。

除此之外,還有一個問題是,如果進展足夠快,可能是接管風險隨著時間的推移而增加。因為隨著模型變得更有能力,它們更有可能成功,也更有可能錯位。

但也許我們可以把曲線推向另一個方向,我們可以使我們在_n_%接管成功機會狀態下可以保持的能力范圍更低。

Rob Wiblin: 是的,解釋最后一點。我不明白。

Ryan Greenblatt: 想象一下,隨著時間的推移有一些趨勢,即:對于我們現在擁有的最聰明的AI,它們成功的幾率是多少?或者它們有多大可能接管?所以最初我們的對策足夠,比如在它們自動化整個AI公司的時候,默認情況下,我們甚至沒有很高的接管機會,因為它們會做什么?

但是,隨著它們變得更有能力,即時的接管機會正在上升,我們的一些成功路徑已經被切斷。也許AI已經逃脫,它們正在運行惡意內部部署,它們正在破壞我們的工作。

但我們可以使趨勢向另一個方向發展——隨著時間的推移,接管的風險正在下降,而不是上升——因為能力正在增加,但我們的措施比能力增長得更快。但顯然,正如我們之前討論的那樣,能力可能增長得非常快。所以如果措施跟不上,如果我們不在某個穩定的狀態下,那可能會很糟糕。

所以我認為我在那里使用的模型在AI錯位的狀態下思考最自然。但如果我們從一個它們足夠對齊以至于它們保持自己的對齊的點開始,那么接管風險最初可能是它們實際上是對齊的,所以我們處于對齊的穩定吸引子中。

“在人類水平暫停”策略 [00:34:02]

Rob Wiblin: 好的。這張圖片對你研究重點有什么影響,以及你認為更廣泛的AI生態系統應該優先考慮什么,以使事情更有可能順利進行,更不可能變糟?

Ryan Greenblatt: 首先,我一直在談論的是在沒有非常積極干預的情況下的時間表。還有一個問題是你如何在這些相關的能力里程碑上故意暫停?

我覺得如果我們最終在AI能力水平上暫停,大約在你能夠完全自動化AI公司的點上——也許稍微之前,也許稍微之后,也許就在那里——持續一段時間,我感到更加樂觀,既讓人類有時間研究這些系統,也讓我們有時間從這些系統中提取大量勞動并減少持續的接管機會。所以有一些問題是,有很多世界比這更慢。

然后另一個希望的來源是也許你只是用實際對齊的AI啟動這個瘋狂的狀態:一個不僅沒有密謀反對我們的AI,而且更強烈的是,它積極關注我們,積極考慮事情可能出錯的方式,并試圖保持我們的控制。這被稱為可修正性或對齊的盆地。

所以我興奮的事情取決于狀態。我認為我們可以考慮一些不同的狀態。一個狀態是,也許特別是在這些短時間線上,我不期望在美國方面不同參與者之間有那么多領先時間,至少。

Rob Wiblin: 你是說會有多個公司大致同時接近這個自動化點。

Ryan Greenblatt: 沒錯。所以我經常想到的一個相當自然的場景是一個相對(從我的角度來看)不負責任的公司,基本上它們的默認計劃是盡可能快地擴展超級智能,不太重視安全問題。這是它們的明確計劃,這是它們的內部事情,它們只是盡可能快地追求這一點。領先三個月,比方說。它們可能領先于中國公司,也可能領先于一些更負責任的參與者,在某種程度上落后三到九個月。

我認為在這種情況下,很多行動將來自該公司內部相對少數的人。然后可能有很多行動可以來自外部的人,他們通過做可導出的研究和潛在地通過改變政策情況來施加各種影響。另外,我認為肯定可以通過更負責任的落后AI開發者來完成一些事情,他們在這種情況下為預防不良結果付出更多努力。

Rob Wiblin: 在這種情況下,我想一件可能有成效的事情是公司內部有人說:“我們正在做的事情看起來有點可怕。我們應該有更好的控制機制,我們應該有更好的對齊機制。我們應該比我們目前的默認計劃更認真地對待這一點。”

另一個是,在更負責任的組織工作的人可以產生研究,使公司更容易做到這一點,使它們采取更強控制措施的成本更低。然后當然,你可以有治理回應:也許這將開始起飛,人們會相當震驚,也許你會得到對“在人類水平暫停”概念的廣泛支持。

Ryan Greenblatt: 是的。伙計,我真的希望這個概念更容易傳播。“在人類水平暫停”的不幸之處在于所有這些詞都很復雜和混亂。而且它甚至不是一個很好的口號。有人應該為這個東西想出一個更好的口號。

但不管怎樣,是的,我認為有很多不同的機制可以做可導出的研究,試圖喚醒世界。有更直接和更間接的事情。所以你可以做非常直接的政策影響,或者更像是展示能力水平——當你展示能力水平時,這可以觸發世界的回應。

所以我認為我在這種情景中的很多希望,特別是在非常短的時間線上,我認為看起來比長時間線更糟糕。我部分不那么悲觀的圖景是,它可能是八年后而不是四年后。

所以在四年時間線上,我認為我們有一種機制,領先的AI公司,我們有一些人在那里工作,他們的目標是防止嚴重的錯位——通過“嚴重的錯位”我指的是諸如AI系統故意從事欺騙行為,故意破壞我們的測試,故意試圖使我們對情況的理解產生誤導——然后第二,我們可以嘗試使AI系統的屬性是我們樂意移交的,并試圖快速瞄準這一點,因為我們處于非常匆忙的時間線上。

所以其中一些防止嚴重的錯位,或處理它,我認為在某種意義上它是傳統的推力。但我認為有一堆與移交和AI足夠明智有關的東西,AI長期保持對我們利益的忠誠,確保我們甚至有測試知道這是否真實。這些考慮。

有很多不同的漸進步驟。階段零可能是你使用機制使AI為你產生你認為沒有被破壞的工作,即使那些AI試圖破壞它,然后你用這個從你的AI系統中榨取大量工作。階段一是你嘗試創建一個安全人員樂意移交的AI系統,盡你所能。然后階段二是你嘗試使運行整個組織的AI系統成為你樂意移交的AI系統,并且假設其他人也樂意移交。

這是對情況的諷刺或簡化,因為在很多點上你可能想做諸如撿低垂的果實,向世界展示能力,嘗試考慮是否會發生什么,嘗試使組織在當前能力前沿訓練的主要AI系統不太可能引起問題。我對情況不是特別樂觀,但我認為有很多不同的潛在出路給我們一些希望,或一些拯救的機會,一些獲勝條件。

諸如我們早期抓住AI是另一個希望。也許我們早期抓住AI,也許這說服世界更認真地對待這種情況。也許即使沒有,它說服公司領導層他們自己的權力受到AI的威脅。所以即使他們非常馬基雅維利主義,我認為AI對他們的權力構成威脅,他們應該擔心。

Rob Wiblin: 他們可能會轉變。

Ryan Greenblatt: 是的。所以這可能潛在地增加花在安全上的資源。

Rob Wiblin: 好的,所以那里的主要故事是試圖找出一個安全的場景,你可以將這些過程移交給你信任的AI。你會怎么做?

我猜你從感覺你有合理掌握的、大概是對齊的人類水平模型開始。比如,我們目前認為Claude可能大致像它看起來的那樣友好;它可能不會在每個轉折點大規模地密謀反對我們。

你找出聰明的機制,通過這些機制你可以讓這些你感覺還不錯的模型做大量關于控制和對齊的工作。你在允許其他能力改進發生之前匆忙完成這些。然后你希望這已經成功,我們感覺可以移交給這些由我們某種程度上理解的上一代訓練的模型——然后我們要交叉手指?是這樣嗎?

Ryan Greenblatt: 是的。我應該明確這是一個政治意愿非常低的計劃。我有一系列計劃,這就像是桶底或別的什么。所以我這樣說的方式是,我們有一些早期點,我們有可以自動化很多東西但我們不一定信任的AI。我們從這些AI中利用大量勞動,然后我們嘗試制作這些AI的一個版本,我們確實信任。不僅僅是它們沒有密謀反對我們的信任;理想情況下是在我們樂意移交混亂的開放式問題的水平上的信任——比如“我們應該采取什么策略來最小化以下事情的風險?”包括潛在的一些棘手的、更哲學的話題。

然后從那里,我們嘗試移交給這些系統,并希望這些系統保持對齊,保持正軌,能夠。并且自己也成功,對吧?可能是我們移交給系統,這些系統說“哇,你們似乎處于相當糟糕的境地。我不確定我能從這個包里拉出來。”有多種機制可能導致這種情況發生。

Rob Wiblin: 我想你說的是它們也可能搞砸下一階段?

Ryan Greenblatt: 特別是因為它們時間非常少。

Rob Wiblin: 因為它們也在競賽。

Ryan Greenblatt: 是的,是的。哦,當然。所以有一個內部的事情,如果你是安全團隊,也許你有一個你微調的版本,是人類水平的,你信任的,你樂意移交的。但能力進展如此之快,也許公司當前的前沿是非常超人的。但你甚至不想與那個系統一起工作。

我認為第一個移交點你應該嘗試更接近人類水平——也許稍微超人或在人類能力的頂級水平——因為越超人,越有可能錯位,所以你想更早開始移交。但這可能不會阻止組織的其他部分訓練更有能力的AI。所以可能是你作為安全團隊正在移交給一個能力不如組織前沿的AI,那個AI需要快速引導,所以移交AI的趨勢足夠快地與能力相交。

Rob Wiblin: 是的。在這一點上,你有一個對齊的、有點超人的模型,有沒有一些機會它能夠說服更廣泛的人,我們需要更認真地對待這一點,它不應該被迫與同一組織的另一個團隊競賽?

Ryan Greenblatt: 是的。我的意思是,這絕對是希望的一部分。絕對是希望的一部分是我可以展示經驗證據。我認為另外,如果我們處于一種情況,我們有兩個由不同團隊訓練的AI,這兩個AI只是互相大潑臟水——一個AI說“那個AI顯然在密謀;看看所有這些例子”,另一個AI說“那個AI,顯然在密謀反對你;看看所有這些例子。它太偏頗了。太不合理了。顯然只是一個植物”——我就像,好吧,這是一個瘋狂的情況。當然你不能從這個狀態出來認為它很好。

Rob Wiblin: 無論如何,這絕對不令人放心。

Ryan Greenblatt: 這不令人放心。可能有辦法淡化它。所以一個狀態是,我認為相當可能的是安全團隊訓練他們的AI,試圖去找公司領導層說“情況看起來很可怕。你在訓練這個AI。我認為它錯位了。這是一堆證據。”然后另一個AI進來說“我們都知道,那個AI是由安全團隊訓練的。我認為它對錯位非常偏執。當然,安全團隊會希望我們認為所有AI都是錯位的。我沒有錯位。那個AI沒有錯位。它只是判斷力差。”

關于這一點有趣的是,是的,它令人擔憂,但不像你知道至少兩個AI中有一個是錯位的。所以總的來說,我認為對“改善AI公司的認識論”途徑的一個擔憂是,訓練AI的人從公司的角度來看,在這些事情上可能有偏見的聲譽,我認為這帶來了一些擔憂。

可能是對于每一個風險證據,你可以制作一個更有說服力的證據,表明風險實際上不存在。因為如果我們處于一個我們真的不知道如何裁決這些事情的制度中,它可能只是理性不會勝出。

所以這絕對是希望的一部分。希望的一部分是,一旦你有這個移交,那么它很好。

甚至可能從頭開始訓練一個他們樂意服從的版本。嗯,一個問題是,可能是主要AI系統已經以網絡安全的意義接管了AI公司——因為它有一個惡意部署;它可以以未經授權、未經監控的方式使用計算;它可以篡改每個人正在運行的工作。你試圖對齊這個AI,但你需要對公司的其他部分加強自己。我就像,哦,我的上帝。那看起來可能毫無希望。現在我認為有很多方式這個故事可能出錯。這里有一個例子。我談到了對齊團隊在角落里,試圖微調或

AI對AI對齊的控制 [00:45:38]

Rob Wiblin: 放大來看:在Redwood Research,你花了很多時間模擬這些不同的場景,思考什么樣的干預可能在很大一部分情況下有幫助,然后試圖讓更多人從事這方面的工作并自己從事這方面的工作。這是基本的圖景嗎?

Ryan Greenblatt: 是的,大致如此。

Rob Wiblin: 最近Redwood優先考慮控制而不是對齊——說,讓我們假設模型不分享我們的興趣,有一定程度的錯位:我們如何使它們無論如何都不能搞砸我們?人們過去談論把AI放在一個盒子里。這似乎不再那么可能了,但我想還有其他機制你可以用來嘗試檢查它們的工作:讓模型相互對立,迫使它們為你做有用的事情。

為什么要關注控制?是不是只是因為這可能有很多不同的方式,AI控制機制似乎在很多不同的合理場景中都很有用?

Ryan Greenblatt: 是的。我認為在這些極其絕望、政治意愿非常低、時間線非常短的情況下——從我的角度來看非常快,非常快,也許不像人們過去推測的那樣快——我認為控制看起來不那么好。

我認為控制在這個世界上仍然非常有用的幾個原因。首先,如果我們能早期抓住AI,這可能非常有用。另一件事是在這種情況下早期從AI那里獲得有用的工作可能非常重要,我們可能能夠在完全失去對情況的跟蹤之前做到這一點。

然后我認為你也可以防止...所以我談論的情況是AI基本上在運營你自己的數據中心。你可能能夠使用各種機制使這變得更加困難,所以它發生在能力的更晚階段,所以你有更長的時間當你的實驗沒有被篡改時。所以這些是控制在這個世界上可能很好的原因。

我認為這沒有涵蓋更復雜的干預措施。我確實認為在這些非常匆忙的世界中,控制看起來不如在有更多時間和更多政治意愿的世界中好。當我們考慮控制時,最初的目標是一個更像我們有大約一年延遲的世界——就像,安全基本上有一年的預算,我們可以負擔得起暫停一年。我們可以在那里做一些事情。

我認為控制在這些世界中看起來好得多。或者我不知道好多少;我認為控制帶給我們的風險減少量相當大,但這些世界不太可能。但這并不是說控制在其他世界中帶給我們的風險減少量比對齊的東西小得多。

另一種說法是:在這些事情發展如此迅速的世界中,對齊看起來也非常困難,而且對齊事先更難處理。我對對齊最興奮的很多東西涉及在強大的AI上進行實驗,你只能相對較晚地做到這一點。所以可能在非常匆忙的情景中,對齊最終更多是圖景,但事先更難處理。

這些因素讓我非常喜歡控制。也有一些政治意愿更多的世界,我認為控制看起來好得多。我經常想到控制加“在人類水平暫停”的計劃——這在一段持續的時間內可能不需要任何對齊。因為你有一年的初始延遲,你控制那些AI,然后你從那里引導到更長的延遲——通過建立風險證據,確保不擴散,開發更好的保障措施——然后你從那個狀態可能相當緩慢地前進,至少一段時間,直到你實際上樂意移交,而不是做一個極其匆忙的絕望移交,因為那是你唯一能負擔得起的。

Rob Wiblin: 我想這需要公司之間甚至國家之間一定程度的協調。

Ryan Greenblatt: 是的。當我思考這個問題時,我認為一年的領先更有可能,我已經更新了這一點。我認為這仍然可能發生。公司之間的差距可能會打開。

我認為你努力確保不擴散并可能減緩進展的故事需要政府相當程度的支持。所以可能是你必須讓美國政府——或者至少一些重要的政府——基本上支持整個計劃。不一定是出于同樣的原因,但出于某種原因支持它。

我已經更新了這一點,所以我現在花更多時間思考相對更絕望的情況。但你知道,一個重要因素是在相對更絕望的情況下,也許我們正在將接管風險從50%降低到40%。而在控制可能有效和我們有一年延遲的世界中,我們正在將風險從30%降低到5%。

所以可能是這些世界中的總風險減少足夠高,以至于它們實際上更有影響力。因為在我們的影響非常小的世界中,因為意愿如此之少,可能只是更難處理。

Rob Wiblin: 我明白了。一般來說,你希望在中度可處理的情景中工作。如果事情太嚴峻,那么也許不可能拯救;如果事情進展非常順利,那么很難改進。是中間情況你最有可能獲得最大的影響,對嗎?

Ryan Greenblatt: 是的,當然。我認為安全社區在過去幾年中犯的一個錯誤是過于關注過于樂觀的世界。我認為實際上關注絕望、瘋狂、孤注一擲的悲觀世界是相當合理的,因為很多風險都存在于那里,所以從50%到5%是很多行動。

而從5%到0.5%...我的意思是,5%的風險水平是瘋狂和不可接受的,我們不接受我們的油漆公司有5%的大規模死亡、接管的風險——所有這些都只是來自接管;我認為除了接管之外還有其他風險是完全不可接受的。但盡管如此,那45%必須是大部分質量。

我們只能指望當場抓住AI的惡行嗎? [00:51:23]

Rob Wiblin: 我們在多大程度上只能希望有嚴重的早期預警信號?你談到了抓住AI的現行,這是你和你的同事們試圖使其更加突出的另一個概念。

這是一種預警,我想,在那里你發現公司內部的AI一直在破壞數據中心,它們一直在做一些非常嚴重的事情。這可能會讓政府或公司領導層更多地支持做更多的事情。像這樣的早期預警信號會讓事情變得多么更有希望?

Ryan Greenblatt: 我認為這有很大幫助。我持懷疑態度的一個原因是,可能我認為這是一個確鑿的證據,但更廣泛的世界并不這么認為。例如,我們最近發布的對齊偽裝工作,從我的角度來看,應該是對這種威脅模型非常懷疑的人的一個相當大的更新。我認為可以預見的是,對很多這些人來說,這是一個非常小或沒有更新。

要清楚的是,我不認為這個證據本身應該是一個巨大的絕對更新。也許它不會讓人們達到我認為的錯位風險水平,因為很多是基于他們不同意的概念論點。

但我認為很多“這絕對不可能發生”的人——基本上是0%的機會——應該可能移動到2%或3%的機會。這在氛圍空間或對數空間或無論什么空間中是一個巨大的差異。氛圍空間,對數空間,相同的空間,無論什么。人們沒有做出這種轉變。

所以我完全可以想象一種情況,我們抓住了AI試圖逃脫。Buck有一個帖子,如果抓住了AI試圖逃脫會發生什么?人們會說“你知道,系統有時會這樣做。它們做奇怪的事情。另外,這是真的嗎?你是在某種奇怪的方式下訓練它的嗎?”或者“哦,那是在那家公司發生的。但在這家公司我們有不同的做法。”還有人只是說“當然,也許AI有逃脫的奇怪本能。但它們到底要做什么?”或者諸如“我們會使用各種檢查來防止這個。”

我認為所有這些因素在一個相對清晰的情景中可能會削弱這一點。我有點預期很多我認為是巨大確鑿證據的情況比這更令人困惑。

一個例子是,可能看起來AI在安全研究上拖后腿——它們表現得比它們能做的更差,或者它們沒有做非常明目張膽的破壞,但有比我們預期的更多的錯誤,有更多誤導性的論點。從我們的角度來看這是一個很大的更新。因為它看起來相當不對勁,但它是相當定量的。如果你只是期望較低,也許這不會那么令人驚訝。

Rob Wiblin: 我猜這是一個戰略情況,AI可以在某種程度上預測反應會是什么。在它采取敵對行動的情況下,它可以使它們成為它懷疑不會真正觸發更大反應的事情。所以對于它可以逃脫的事情,比如試圖逃脫,但它不能逃脫大規模謀殺。那么它選擇逃脫并暫緩謀殺。

Ryan Greenblatt: 至少暫時如此。控制的一個希望是使嚴重的壞事更難以合理否認。我們稱之為“定罪”。從“哇,那真的很可疑”到“好的,我們已經確定了到底發生了什么”是非常重要的。只是因為在我們看來定罪并不意味著從更廣泛的世界角度來看是定罪,但它確實在推動事情發展。

我認為這可以發生在所有不同的制度中,從看起來有點可疑,到了解發生了什么并且看起來非常可疑;到AI試圖逃脫,我們阻止了它,我們做了假裝它成功的事情,看看它在外面會做什么——并試圖達到“看起來它正在試圖弄清楚如何制造生物武器。它試圖運行一個濕實驗室。”

原則上你至少可以走得很遠,理解在逃脫的情況下它會做什么。在某種程度上,它做的事情更明顯地惡意,我認為這可以激勵額外的行動。但我確實擔心任何不會造成大規模損害和潛在人類死亡的預警信號可能不會觸發強烈的反應。

緩慢的AGI崛起會是什么樣子? [00:55:33]

Rob Wiblin: 我們已經深入探討了一個相當令人眩暈和擔憂的情景,我想部分原因是如此瘋狂的事情與我們現在的觀察如此一致,這本身就很有趣。這也是一個我們認為現在可以做很多事情的情景,或者是一個事情可能變得相當糟糕的情景,我們應該可能采取預防措施和準備,以弄清楚我們將如何降低這種風險。

只是為了平衡,如果我們能討論一些更平凡、更無聊、也許希望不那么可怕的可信情景,那將是很好的。所以人們不會認為這是事情發展的唯一方式。因為事實上,一個關鍵的結論我認為只是我們對這些不同的事情如何發展有非常廣泛的誤差范圍。

Ryan Greenblatt: 是的。我認為也許一個好的起點是我們談了很多關于時間表的問題。時間表可能更長,對吧?所以我說的中位數或50%概率是現在起8年內實現完整的AI實驗室自動化。但之后有一個長尾,所以有世界它遠在那之后。可能進展要慢得多,更漸進。事情需要很長時間來整合。也許世界有更好的理解,更多的時間進行實驗,這可能使情況好得多。

除此之外,可能是非常長的時間表——或者更長的時間表,我應該說,我不知道關于非常長——起飛我們也應該預期更慢。我認為短時間表,廣泛地說,與快速起飛相關,因為它表明我們正在做的事情的回報更高。所以更長的時間表。

另一件事是AI研發可能極度受限于計算。所以即使在你自動化了整個AI公司和所有員工的時候,你也比有人類員工時快不了多少。在極端情況下,也許你只快了2倍。你甚至可能比那更慢。但我認為那在我的誤差范圍的低端。我認為那可能相當不可信,但2倍或3倍是可信的。

然后可能是你在那之后很快遇到收益遞減,所以你沒有真正加速那么多。那將意味著情況在起飛方面看起來好得多,因為你得到了一個不那么激進的起飛。

另一件事是AI進展的默認速度已經相當快。所以我甚至擔心——沒有加速,只是在默認軌跡上——如果我們達到AI有足夠能力自動化整個AI公司的點,也許即使它不會帶來太多加速,并且在那之后很快有一些風險,在正常的政府時間內,僅僅來自默認的進展速度。

但我認為有一些可信的論點認為未來的進展速度會放緩。特別是現在,進展依賴于投入越來越多的計算,越來越多的投資。如果情況停滯,投資減少,但我們仍然以接近相當高的產能運作,我們可以想象一個世界,AI行業最終成為一個每年可能證明數千億美元計算支出的行業,也許甚至更多,但不會比那多得多。

在那個制度中,如果我們不投入越來越多的計算,那么我們不會從硬件擴展中獲得進展,算法進展也會更慢。所以也許現在的速度是我們每年獲得13倍的有效計算——其中一些是算法,一些是計算。我認為如果計算是固定的,我們可能有每年2倍或3倍的進展。在計算增長較慢的制度中,可能介于兩者之間。

Rob Wiblin: 好的,所以那將是一個更慢的起飛。對齊是一個相對直接的問題的可能性有多大?或者甚至根本不是問題,我們只是被迷惑了,我們生產的所有這些AI基本上都默認想要幫助我們?

Ryan Greenblatt: 嗯,從我角度來看的一個重要問題是,不同能力水平的各種AI積極密謀反對我們的概率是多少?我認為進入非常超人的能力而沒有AI非常積極地以某種強烈的意義密謀反對你是相當可信的。我目前的觀點是,如果你基本上不采取任何對策;你基本上只是沿著能力的最有效路線前進,大約是25%。然后一旦我們開始考慮對策,它可能會低得多,這種風險在這個早期點也可能更低。

一個希望的故事是你有這些能夠自動化整個AI公司的早期系統。這些系統沒有密謀反對你。你做了額外的對齊工作,使它們也盡力——它們實際上試圖追求對齊研究;它們試圖預測風險——這也許默認不會發生,即使它們沒有密謀反對你。可能是事情沒有密謀反對你,但事情仍然偏離軌道。但如果它們沒有密謀反對你并且你避免了事情偏離軌道,那么也許我們就是好的。我們移交給AI。AI管理情況,它們意識到未來的風險。它們用相同的屬性構建另一個系統,那可以自我維持。

另一個情景是可能一個更強大的事情默認是真的。可能是你訓練AI,用一個相對naive的——你商業上默認會做的——訓練策略,它們真的只是,開箱即用,非常努力地幫助你。它們真的很好。也許甚至它們只是在某種非常廣泛的意義上對齊。不僅僅是它們是短視的;它們真的試圖為世界追求好的結果。我認為這是可能的,但比前一個情景更不可能。

另一件事是有一個問題,它是默認發生的嗎?它也可能只是因為我們投入了大量工作而發生,我們可能處于一個更好的位置。很難對在未來八年內會發生多少對齊或安全工作有太多信心。如果我們有八年時間,社區可以建立。AI會隨著時間的推移變得更有能力。更多的人會從事這方面的工作。似乎可能有諸如大的洞察力,但即使拋開大的洞察力,也許只是諸如我們真的推進了我們的技術,我們已經調整了科學。

所以有一些時間線,我會說,可能是技術希望。然后有更廣泛的社會希望類別。有一些故事中社會在未來更認真地對待這種情況——也許是一部分國家,也許是更廣泛的科學界。可能是因為一個預警信號。也可能只是因為慢慢地人們接觸到AI,時間線可能更長,更多的人與它互動。

似乎也可能發生一些與錯位風險不太相關的大事件,但實際上有很高的轉移。所以也許有很多失業會促使大規模反應,其中一些反應進入減輕錯位風險——要么非常直接,就像人們說“AI在這個方面是一個大問題,所以也許在那個方面是一個大問題”——但也可能更間接:它導致AI進展緩慢或更謹慎,因為有更多的監管。

Rob Wiblin: 還有其他有希望的類別,還是那基本上涵蓋了?

Ryan Greenblatt: 所以在時間線和起飛上容易的事情,在技術上容易的事情,還有社會上的。第四個類別是我們迎難而上。也許即使社會沒有迎難而上,也許只是一系列英勇的努力——或者希望不那么英勇——

Rob Wiblin: 如果一個公司,真正領先的公司,結果實際上非常負責任,在這方面投入大量努力并且成功。

Ryan Greenblatt: 是的。我認為很多風險來自這樣的世界,如果你只有一年的延遲,你非常認真地對待情況,你深思熟慮地考慮各種考慮因素,你本可以拯救世界。或者至少風險要低得多。也許它沒有被最小化或消除。當然我不會說這會導致從我的角度來看廣泛可接受的風險水平。但我不知道。它可能發生。

Rob Wiblin: 酷。你確實在那里讓我振奮了一點,提醒我事情可能有其他發展方式。

為何智力爆炸可能8年內不會發生? [01:03:32]

Rob Wiblin: 有什么證據表明這可能需要比四年甚至八年長得多的時間?

Ryan Greenblatt: 首先,我應該重申,我不認為我們會在四年內看到完全自動化或完全自動化AI公司的能力。所以我必須認為有一些證據表明這不會發生。

我認為人們應該開始的第一件事是對特定時間框架內發生瘋狂事情的懷疑。所以我認為有一些證據表明我們可能預期它很快——你知道,我們有快速的AI進展,我認為這已經擊中了很多事情——但如果你只是像,迄今為止我們有多少進展?這個領域已經進行了多久?你從一個非常外部視角的優先角度出發,你在想,技術的基準率是什么,那么你不期望在未來四年內——因為這是一個瘋狂的技術。

我甚至認為基準率可能比人們傾向于認為的更樂觀。我認為通常當人們做這種外部視角的基準率事情時,他們最終會得到200年的時間線或類似的東西。但實際上,Tom Davidson有一份報告,如果你只是最naive地應用外部視角,你實際上在本世紀內有相當高的概率。

Rob Wiblin: 這是因為在該領域的投資增長非常快嗎?我們只是增加了投入計算的量級,所以如果難度分布在log空間,那么我們實際上——

Ryan Greenblatt: 資源和計算和勞動力。是的,我們已經跨越了很多。所以這是一個觀點。

你也可以只是說,即使你只看時間,我們做嚴肅的AI研究的時間并不長。你可以用我們做深度學習多久了?有人做AI多久了?如果你把這些混在一起,感覺強大的AI很快在某種意義上并不是那么不可能。

但我仍然認為,先驗上有多不可能表明要長得多,我認為這讓我傾向于更長。

一般來說,另一個讓我傾向于更長的觀點只是,AI相當聰明,但它們沒有那么聰明。我認為我們只是不能有那么多信心下一部分進展是可以做到的。

然后有一些更具體的對象層面的論點。

抱歉有點轉移問題,但我總是忍不住要提出一些你提出的短時間線的論點。所以關于短時間線的另一個我認為相當重要的觀點是,我們正在經歷很多以前沒有經歷過的計算和勞動力的數量級。現在非常快。

除此之外,我們正在經歷的數量級在某種程度上高于我們對人類大腦計算的最佳猜測。所以我們這些不太好的估計表明,人類大腦使用的計算可能是10^24作為人類大腦計算壽命的中央估計。目前的訓練運行大約是...我認為剛剛訓練的Grok 3,我看到估計大約是3 x 10^26——所以比人類壽命高出兩個半數量級。

然后我們可能會認為,你首先達到能夠基本上擊敗人類的AI,高于人類壽命計算——因為我們通常開發的算法首先比生物學效率低,然后它們可能相當快地變得比生物學更高效。

這在文獻中,在Ajeya舊的生物錨定報告中,熟悉的人稱之為“壽命錨”。我在壽命錨上放了相當大的權重。它看起來相當不錯,因為我們在達到人類計算時達到了這些大約人類水平的能力。所以感覺這個模型有很多支持,那表明我們可能在幾個數量級的更多計算中達到它。

我們只是非常快地燃燒這些數量級的計算。作為背景,我認為訓練運行計算每年增加約4倍。所以你每年相當快地經歷很多數量級。大約是每年略多于一個數量級的速度。

而且,我只是總體上認為我們應該在AI發展的計算中心觀點上放一些權重——在AI發展的計算中心觀點上,即使比壽命錨更不具體,我們從相當有競爭力的起點開始燃燒很多數量級。也許我們走得很遠。

現在相對于這一點,悲觀的情況是我們只能在數量級上走這么遠,對吧?我們離你能生產的芯片總數不遠了。我可能搞錯了統計數據,但一個相當大比例的臺積電或半導體制造能力正用于機器學習芯片。我的緩存數字是10%到20%。我希望我不會大錯特錯,但我認為肯定高于1%。遠高于1%。

所以關于這一點有趣的是,英偉達的收入大約每年翻一番,我認為AI的晶圓數量或無論什么——我希望我不會在這里粗暴對待;我不是半導體專家——我認為AI的半導體每年增加略高于2倍。簡單起見,讓我們做一個略樂觀的估計,比如每年3倍。值得注意的是,如果你從20%開始,每年增加3倍,你沒有多長時間就會達到限制。

Rob Wiblin: 你把所有的芯片都用于這個。

Ryan Greenblatt: 是的,你使用了所有的芯片,一旦基本上像所有的晶圓廠都在生產AI,你只能走這么快。

Rob Wiblin: 我想那時你受限于它們能多快建造新的晶圓廠,基本上。

Ryan Greenblatt: 是的,受限于它們能多快建造新的晶圓廠。

還有其他進展來源,要清楚。所以即使我們受限于建造新的晶圓廠,仍然有可能從硬件隨著時間的推移改進中獲得進展,也有從算法發展中獲得進展的來源。盡管我認為一個關鍵的事情,也許人們沒有足夠跟蹤的是算法發展也是由投入更多計算驅動的。所以我們應該預期算法發展會放緩。

所以我認為悲觀的情況是:AI繼續發展。我們已經達到了 insane 的投資水平。當你開始達到臺積電的限制時,投資必須更高以證明建造新的晶圓廠是合理的。

或者可能在達到大部分臺積電生產之前,人們只是沒有看到足夠的結果來證明這些投資水平。我認為微軟、谷歌,它們可以證明像...我認為微軟今年計劃約1000億美元的資本支出。Stargate有約1000億美元的承諾,也許那是一兩年內的,然后也許它們希望得到更多的錢。Stargate是OpenAI的一個項目。

但我認為一旦你超出這個1000億美元的制度,不再只是有一個超級相信的大科技公司,對吧?谷歌沒有能力輕易花費一萬億美元,尤其不是一年內的一萬億美元。我的意思是,我認為籌集一萬億美元并非不可能,但我認為你可能需要非常令人印象深刻的結果,你需要開始吸引更多懷疑的投資者,更多收入。你需要談論潛在的主權財富基金。當然有可能——

Rob Wiblin: 美國政府可以提供那種錢。

Ryan Greenblatt: 是的,這是真的。當然有可能。

Rob Wiblin: 盡管我猜如果你試圖一年內在這個東西上花費一萬億美元,你開始遇到其他瓶頸。

Ryan Greenblatt: 當然。是的,是的。我目前不知道這里的彈性是什么。我認為Epoch做了一些估計,比如到2030年你能做的最大的訓練運行是什么?我認為它們的中位數,在人們繼續積極投資的 timeline 中,可能是你可以達到10^30 FLOP的訓練運行——這考慮了數據瓶頸,芯片之間帶寬的各種考慮,芯片、芯片生產可以擴展多少,臺積電正在建設多少產能,這類事情。

我的猜測是,獨立于AI加速,這可能是一個相當合理的猜測。AI加速可能使這更快。但如果我們在一個看漲的時間線中,但不是一個AI已經開始加速的看漲時間線,我猜這是一個相當好的估計。但有可能我們偏離了,因為也許瓶頸比它們預期的更難,也許投資干涸得更快。希望它們不會因為這個批評我,但我認為它們沒有考慮到這個支付意愿。

但在2030點之后,我認為事情開始變得困難得多。我認為如果我們達到10^30 FLOP——你知道,裸金屬FLOP,GPU實際運行的計算——從我們現在的位置,略高于10^26,那么我們在未來五年內達到四個數量級。所以相當快。

我認為這足以讓我們原則上看到我們已有的趨勢繼續,比如我們已有的趨勢。我認為我們有一點GPU停滯。我認為我們將有GPU開始建立。我認為在GPT-4之后有一點停滯,因為人們試圖購買所有的H100。我認為我們會看到更多H100的模型,比如GPT-4.5,然后我們會看到另一輪Stargate,這是另一個大的建設。SemiAnalysis推測Anthropic從亞馬遜那里有大量芯片,可能相當于大約100,000或200,000個H100,所以我們會看到另一輪100,000到200,000個H100集群。然后我們可能會看到,我要把日期搞錯了,但可能在2028年左右,我們會看到更多百萬GPU的范圍。

但如果我們那時還沒有達到非常強大的AI,我認為你應該預期事情會放緩。有更長的尾巴,我們在2030年、2032年左右吃掉大量計算,然后進展必須逐漸減少——除非我們達到非常強大的能力,或者我們都錯了關于你能多快建造晶圓廠或你能籌集多少投資。

但我認為很多悲觀的情況是也許你做了很多擴展,但你達到了這些限制。不是全部。

Rob Wiblin: 所以對于沒有完全跟上的人來說,簡短版本是,我們目前正在迅速增加用于訓練AI的計算量。我們將無法保持這種速度,因為我們目前是通過將原本用于其他目的的芯片拿來用于機器學習。

而且,這些公司從將1%的資源用于AI開發到10%——然后也許它們可以達到100%,但它們不能僅僅通過將原本用于其他事情的資源拿來超越這一點。

所以當幾乎所有芯片都用于AI訓練,幾乎所有這些公司的資源都用于此時,它會使你在那里可以獲得的增長率趨于平穩。

Ryan Greenblatt: 當然。關于這一點可能有幾點小的說明。一件事是,當你考慮重新利用芯片時,這不是像它們把iPhone芯片重新利用。而是有相對通用的芯片制造能力,現在我們不是制造那么多iPhone,而是制造更多AI芯片。其中一些來自建造額外的晶圓廠,但一些來自稍微提高其他芯片的價格,或減少你得到的數量。

當AI處于20%或30%的制度時,它不會對多少其他芯片的成本產生非常明顯的市場影響,因為臺積電可以稍微更快地擴展以跟上。但一旦AI芯片達到80%或100%,那么我們將開始看到更大的影響和從那以后的事情放緩。

AI進展預測的關鍵挑戰 [01:15:07]

Rob Wiblin: 另一個使預測這一切有點困難的是,我們不只是年復一年地做完全相同的事情;我們不是年復一年地遵循相同的趨勢。

最初,例如,我們通過將更多計算投入預訓練獲得了大量改進。這是你從互聯網上轉儲所有文本并試圖讓它預測下一個詞的事情。我們通過投入更多數據和更多計算從中獲得了巨大收益。但那逐漸減弱,我們必須轉向更好的引導,使用訓練后的人類反饋強化學習。然后我們做不同的事情,最初非常有效,但隨后開始趨于平穩。

我想現在我們正在使用強化學習做一種自我游戲,模型學習更好地推理,基本上我們只是在它們得到正確答案時強化它們。我們在這上面有一個非常陡峭的曲線,但大概在某個點上那將趨于平穩,我們必須做不同的事情。

如果我理解正確的話,這使得它更加困難,因為我們不知道明年會有什么創新來推動改進。

Ryan Greenblatt: 是的。從GPT-1到GPT-2到GPT-3到GPT-4的改進——然后也許在那里,2023年有一點停滯,然后在2024年回升——我認為很多改進,直到2024年中左右,是由擴大預訓練驅動的,比如投入更多數據。

有一種說法是預訓練已經碰壁了。我不太清楚這是怎么回事。可能是它的回報相對遞減,或者進一步擴展的邊際回報比過去在定性能力上要低。

基于一些感覺,我們有Grok 3——比GPT-4多大約10倍的計算和更好的算法——它有多好?它稍微好一些,但也值得注意的是,在之前的改進中——比如GPT-3到GPT-4的差距——那是更多的計算。我認為那個差距大約是裸金屬計算的100倍。結果證明當時在快速擴大你花費的FLOP方面有很多低垂的果實。

現在我們遇到了瓶頸。在GPT-4之后,它們在某種程度上等待H100。H100交付緩慢。我們有點晚才讓H100集群上線,也許最初在讓它工作上有一些困難。所以GPT-4.5,有點令人失望。我認為有傳言說OpenAI有多個,或至少一個失敗的訓練運行。

Rob Wiblin: 哦,哇。

Ryan Greenblatt: 所以如果我們看到人們適應更多計算,弄清楚如何使用它,預訓練的回報從那里上升,這并不奇怪。

那是預訓練,也許即使預訓練在遞減,你可以擴大RL,強化學習。我們在2024年看到了這一點。我們有o1,它們在RL上訓練。它們在容易驗證的任務上訓練,不是在下一個詞預測上訓練。我們已經從中看到了很多初始回報,我們不知道那會在哪里減弱。

你知道,我們在RL訓練上沒有看到那么多數量級。例如,推測DeepSeek-R1在RL上花費了大約100萬美元的計算。所以原則上我們可以將其擴大到三個數量級更高,與人們將擁有的集群相當。也許略低于那,但大致如此。

一旦我們談論三個數量級更高,可能是那會產生巨大的回報,或者可能不會。

產生巨大回報的故事是它從第一個百萬中產生了巨大回報。也許你只是走得更遠,建立更多的環境,做更多的RL大回報。不會的故事是也許模型有一些潛在的容量或潛力,RL正在釋放。我們已經釋放了大部分潛力,我們遇到了收益遞減。

Rob Wiblin: 所以為了回來說,對于沒有非常密切跟蹤的人來說,值得記住的一件事是我想我們過去經常使用強化學習,然后它有點落伍,現在又回到了前沿。

這是你拿現有的模型,GPT-4o或類似的東西,你給它非常具有挑戰性的推理問題,你也許讓它嘗試100種不同的解決方案,1000種不同的解決方案。基本上你只是找到它最終得到正確答案的情況,然后你說“做得好。像那樣推理以嘗試以你剛才做的同樣方式解決其他問題。”這被證明是極其強大的。

我想你說的是這可能在撿一些低垂的果實,這些模型在權重中有更多的能力來做聰明的推理,比最初明顯的要多,比我們能夠從它們那里得到的要多。通過使用這個過程讓它嘗試各種不同的解決方案,然后找到運作良好的推理過程,我們正在提取大量只是坐在那里等待被撿起的東西。但那可能會有些耗盡,在這一點上,對它們來說基本上學習新的優越推理技術將是一個更重的提升。

Ryan Greenblatt: 是的,沒錯。人們試圖讓模型進行鏈式思考推理。所以在GPT-4的時候,人們完全意識到你可以做鏈式思考推理,并在這方面折騰。但我認為它只工作得這么好。模型在從錯誤中恢復方面不是那么好。它不是很擅長仔細推理事情。

我認為我們現在看到的是,借助o1、o3和其他推理模型,可以讓模型相當出色地進行推理。其中很大一部分可能已經通過思維鏈(chain of thought)實現了——模型已經在某種程度上做到了這一點,或許你只是讓它變得更好一些,但問題在于能好多少。

Rob Wiblin: 你提到的另一個低垂果實是,有時候我們給這些模型非常困難的挑戰,卻只給它們價值1美元的計算資源。而人們發現,如果你實際給它們更像人類會獲得的資源——比如價值100或1000美元的設備和薪資——那么它們在更公平的比較中會表現得更好。

但你不能再次這樣擴展了。你可以從1美元到1000美元,但如果從1000美元到10萬美元,那就是真金白銀了。問題是,給一個模型這么多資源只是為了解決一個數學問題,這在經濟上是否真的有用?

Ryan Greenblatt: 是的。還有一點值得注意的是,即使這在經濟上是可行的,我們很快就會遇到計算資源總量的限制。

假設你讓模型完成一個價值10萬美元的任務。我做了一個粗略的估算(BOTEC),我的感覺是,至少在幾個月前,OpenAI擁有的總計算資源大約是每小時50萬美元。所以,如果是一個10萬美元的任務,那么你會占用OpenAI全部計算資源的五分之一,持續一小時。所以你能做的這種任務是有限的,對吧?即使有些任務在經濟上非常有價值,你也會遇到瓶頸。

Rob Wiblin: 因為這會推高價格。

Ryan Greenblatt: 是的,這是供需關系。即使某些任務非常有價值,你能做的擴展也是有限的。而且,人們已經展示了不僅達到人類成本,甚至遠高于人類成本,還能獲得額外回報的例子。

這其實挺好的,因為它讓我們得以窺見未來。我認為,如果你看到模型能以高成本、慢速完成某項任務,我們很快就能以低成本、快速完成同樣的任務,因為成本正在迅速下降。

Rob Wiblin: 我們可以畫出這條曲線。

Ryan Greenblatt: 是的,我們可以畫出這條曲線。所以我對那些對AI能力持懷疑態度的人抱有希望,也許我們首先可以用極高的運行時計算資源和大量領域特定的引導來展示某些能力,然后很快就不再需要這些了。希望在那之前,我們能在能力廣泛使用之前達成某種共識。

AGI的悲觀情景 [01:23:01]

Rob Wiblin: 我們剛才一直在討論悲觀情景,或者說認為這需要很長時間的情況。

Ryan Greenblatt: 我真是個糟糕的悲觀者。

Rob Wiblin: 好吧,我來試著提出一個我聽到的悲觀論點。AI可能在相當狹窄的任務上變得非常出色,比如成為非常優秀的程序員,或者在創意生成、假設生成、設定等方面做得很好。但運營和擴展一家AI公司需要的不僅僅是這些,它們會有一些嚴重的短板和弱點,這會成為限制因素并減緩進展。你覺得這種觀點有多合理?

Ryan Greenblatt: 這里有一些背景:歷史上,正如我們所說,很多回報是由預訓練驅動的。然后從2023年底到2024年,強化學習(RL)開始發揮作用——GPT-4 Turbo的很多改進可能是由RL驅動的,或者隨著時間的推移而改進。這是推測,但GPT-4o是一個更好的基礎模型,同時也得益于更好的RL,然后是o1,更好的RL。這在編程任務、編碼任務、數學任務等更容易驗證的任務上推動了基準分數的提升。

現在,我們看到了一些遷移。解決這個問題的一種方法是,也許你可以讓AI在編程上變得非常超人類,在軟件工程上也非常超人類——雖然驗證起來更難,但至少部分是可以驗證的——在數學上也非常超人類。然后這會在一定程度上遷移。

所以,可能的情況是,標注其他東西的成本非常高。我們可以評估人類在其他領域的表現;只是無法自動完成。比如你可以評估一篇論文的質量,我們有這樣的流程,它有一定的信號;只是成本更高。所以原則上,如果AI幾乎可以遷移到寫出好論文,只需要一點點反饋——它們的樣本效率很高——那么這可能會走得很遠。

另一個值得注意的是,我認為有一種“不需要泛化”的故事。或者說幾乎不需要泛化。所以可能的情況是,你幾乎可以讓它工作,或者基本上工作,僅僅通過在成為真正優秀的研究工程師的過程中直接進行RL。我們可能能夠達到這樣一個點,即通過擴展RL、拼湊起來,幾乎完全自動化AI公司的研究工程,而不需要太多遷移。抱歉,我們需要領域內的泛化——我們需要AI在領域內相對快速和高效地改進——但即使AI沒有很好的研究品味,或者在這些方面不是很出色,這也能走得很遠。

此外,即使只是領域內、不需要...

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美司法部調查奧巴馬是否“叛國”,已成立專門調查組,遭民主黨猛烈抨擊

美司法部調查奧巴馬是否“叛國”,已成立專門調查組,遭民主黨猛烈抨擊

環球網資訊
2025-07-25 07:00:52
泰國F-16出動,柬埔寨扛不住!柬埔寨沒臉找中國,只能求助聯合國

泰國F-16出動,柬埔寨扛不住!柬埔寨沒臉找中國,只能求助聯合國

大道無形我有型
2025-07-24 17:05:39
獨女身份坐實,宗馥莉王炸證據公開!

獨女身份坐實,宗馥莉王炸證據公開!

品牌頭版
2025-07-25 17:55:51
馬斯克發文:特斯拉在中國取得了最高成績!懂車帝回應:未做過官方排名

馬斯克發文:特斯拉在中國取得了最高成績!懂車帝回應:未做過官方排名

紅星資本局
2025-07-25 18:48:24
泰國陸軍司令:希望洪森保重身體。。。

泰國陸軍司令:希望洪森保重身體。。。

西樓飲月
2025-07-25 19:46:51
貓叼住老鼠后,為什么老鼠不回頭咬貓嘴?

貓叼住老鼠后,為什么老鼠不回頭咬貓嘴?

詩意世界
2025-07-24 23:12:52
熱身賽:中國男籃大勝雙殺委內瑞拉 王俊杰16分程帥澎13分

熱身賽:中國男籃大勝雙殺委內瑞拉 王俊杰16分程帥澎13分

醉臥浮生
2025-07-25 21:24:18
美媒聚焦:射程800公里的中國霹靂-S導彈讓美軍壓力山大

美媒聚焦:射程800公里的中國霹靂-S導彈讓美軍壓力山大

楊風
2025-07-25 18:52:51
關于佛山的新型疫情,網友們有了這樣一個聯想

關于佛山的新型疫情,網友們有了這樣一個聯想

清暉有墨
2025-07-25 14:11:25
最認真的大學生成為壓垮格柵板的最后那根稻草

最認真的大學生成為壓垮格柵板的最后那根稻草

關爾東
2025-07-25 13:01:43
墜入浮選槽后為何1小時才救出第一人?專業人員:需穿戴防護裝備,徒手打撈幾乎不可能

墜入浮選槽后為何1小時才救出第一人?專業人員:需穿戴防護裝備,徒手打撈幾乎不可能

紅星新聞
2025-07-25 19:31:38
偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

林輕吟
2025-07-25 19:47:47
害死6名大學生的公司安全問題很大!連新華社現場采訪視頻里都全是安全問題!

害死6名大學生的公司安全問題很大!連新華社現場采訪視頻里都全是安全問題!

小星球探索
2025-07-25 11:38:09
美國總統時隔近20年首次正式造訪美聯儲,特朗普和鮑威爾說了些什么?

美國總統時隔近20年首次正式造訪美聯儲,特朗普和鮑威爾說了些什么?

澎湃新聞
2025-07-25 08:42:32
“裙子”上面盡量少配緊身衣,瞧街拍博主這樣穿,洋氣遮肉顯瘦

“裙子”上面盡量少配緊身衣,瞧街拍博主這樣穿,洋氣遮肉顯瘦

何有強
2025-07-24 23:41:15
世體:巴薩將剝奪特獅隊長職務,教練組&俱樂部已作出決定

世體:巴薩將剝奪特獅隊長職務,教練組&俱樂部已作出決定

直播吧
2025-07-25 20:06:10
泰國軍隊攻入柬埔寨,兩國地緣紛爭后的秘密

泰國軍隊攻入柬埔寨,兩國地緣紛爭后的秘密

史政先鋒
2025-07-25 10:18:25
觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

派大星紀錄片
2025-07-25 10:26:14
禁播視頻,被以色列播出……

禁播視頻,被以色列播出……

環球時報新聞
2025-07-25 13:40:47
理想汽車高級副總裁鄒良軍減持:套現千萬 CTO謝炎套現1194萬

理想汽車高級副總裁鄒良軍減持:套現千萬 CTO謝炎套現1194萬

雷遞
2025-07-25 20:25:42
2025-07-26 01:44:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37238關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

旅游
藝術
健康
數碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳东县| 云和县| 通山县| 虹口区| 大洼县| 济南市| 苍梧县| 德令哈市| 定南县| 新郑市| 贵州省| 桑日县| 云浮市| 中牟县| 饶阳县| 平利县| 卓尼县| 工布江达县| 正阳县| 遂昌县| 台中市| 子长县| 平远县| 仙桃市| 甘南县| 宾川县| 蒙山县| 馆陶县| 临武县| 上虞市| 霸州市| 平江县| 永丰县| 玉溪市| 桃江县| 太康县| 阳朔县| 贵阳市| 盐亭县| 广宁县| 田东县|