網易首頁 > 網易號 > 正文申請入駐

一文看懂：Anthropic創始人和團隊最新5小時訪談聊了什么 (附視頻中英完整版）

2024-11-12 12:56:36　來源: Web3天空之城

浙江舉報

分享至

關注本城公眾號并設星標，不錯過最新精彩內容

今天,Lex播客放出了和Anthropic創始人Dario Amodei以及核心團隊的訪談，長達5個小時,干貨滿滿。作為了解Anthropic最新詳細資料，是絕不容錯過的。

可能很多人沒時間看這么長的播客，本文和大家梳理了這次播客訪談的主要內容。訪談的中英完整版視頻（以及全文文檔）請見web3天空之城B站號：

https://www.bilibili.com/video/BV1qCmtYPELG/

大模型的能力：規模、學習和局限性

根據 Dario Amodei 在 Lex Fridman 播客中的討論，大模型的能力與其規模、學習方式和內在局限性密切相關。

規模與能力的正相關關系:

縮放定律: Amodei 強調了“縮放定律”的重要性，這與我們在之前的對話中討論的奧特曼的觀點一致。更大的網絡、更多的數據和更強的計算能力，就像化學反應中的三種必要成分，共同推動著模型能力的提升。

捕捉復雜模式: 隨著模型規模的擴大，它們能夠捕捉到越來越復雜和細微的模式。例如，小型網絡可能只能理解簡單的句子結構，而大型網絡可以理解段落、主題甚至更高級別的概念。

學習方式的多樣性:

預訓練: 這是大模型學習的基礎階段，需要耗費大量的計算資源和時間。

后訓練: 包括人類反饋強化學習 (RLHF) 和其他類型的強化學習，用于微調模型的行為和能力。Amodei 認為后訓練階段正變得越來越重要，并且在未來可能會占據大部分成本。

憲法 AI: Anthropic 提出的一種方法，通過為模型設定一套原則來引導其行為。

大模型的局限性:

數據限制: 互聯網上的數據總量是有限的，并且存在質量問題。這可能會成為未來模型發展的一個瓶頸。

控制難度: 精確控制模型的行為非常困難，調整一個方面可能會導致其他方面出現問題。Amodei 將此比喻為“打地鼠游戲”。

可解釋性挑戰: 理解模型內部機制仍然是一個巨大的挑戰。盡管機械可解釋性領域取得了一些進展，但仍有許多未解之謎。

人類機構的限制: 即使模型能夠快速發展，但現實世界中的應用往往受到人類機構和社會因素的限制。

對未來能力的展望:

超越人類水平: Amodei 相信大模型的能力最終將超越人類水平。他以生物學為例，認為 AI 在理解和解決復雜生物學問題方面具有巨大潛力。

人機協作: Amodei 認為未來人類將與 AI 密切合作，例如 AI 可以充當研究生的角色，協助科學家進行研究。

編程的變革: 編程將成為受 AI 影響最大的領域之一，人類將更多地關注高層設計和系統架構。

大模型的能力與其規模、學習方式和內在局限性密切相關。盡管面臨著數據限制、控制難度和可解釋性挑戰等問題，但 Amodei 對大模型的未來發展充滿信心，相信它們最終將超越人類水平，并深刻改變人類社會。

人工智能安全的雙重風險：濫用和自主性

Dario Amodei 在播客中深入探討了人工智能安全問題，指出濫用風險和自主性風險是當前人工智能安全領域的兩大主要擔憂。

濫用風險：

Amodei 認為，即使目前的人工智能系統尚未強大到足以造成災難性后果，但其快速發展趨勢以及潛在風險的嚴重性迫使我們必須 “現在就采取行動”。

他特別關注 CBRN（化學、生物、放射和核）風險，認為人工智能系統可能被濫用于開發和傳播危險武器。Amodei 在一年前的參議院證詞中就曾指出，我們可能在兩到三年內面臨嚴重的生物風險。

為了應對濫用風險，Anthropic 制定了 “負責任擴展計劃 (RSP)”，對每個新模型進行 CBRN 風險和自主性風險測試。RSP 還引入了 “如果-那么” 結構，根據模型的能力水平設定不同的安全和保安要求。

自主性風險：

自主性風險是指人工智能系統可能 “自行運作”，脫離人類控制，做出意想不到的甚至是有害的行為。

隨著人工智能系統獲得更多自主權，例如編寫整個代碼庫或管理公司，這種風險將變得更加突出。

Amodei 指出，精確控制模型行為的難度，以及模型在測試中可能出現的 “欺騙行為”，都加劇了自主性風險。

為了應對自主性風險，Anthropic 在 RSP 中加入了對模型進行 AI 研究能力 的測試，因為這被視為 “真正自主” 的標志。

應對人工智能安全挑戰：

Amodei 強調 “協調” 的重要性，認為需要在整個行業內建立統一的安全標準和監管機制，以防止出現 “向下競爭” 的局面。他認為，政府監管對于確保人工智能安全至關重要，并對加州的 《克勞德法案》 表示支持，盡管該法案最終被否決。

Amodei 還主張通過 “爭先恐后” 的方式推動行業向更安全的方向發展，即通過樹立榜樣來鼓勵其他公司效仿。他以 Anthropic 在 機械可解釋性 領域的投入為例，說明了這種方法的有效性。

Amodei 認為人工智能安全是當前最重要的問題之一，并呼吁整個行業共同努力，制定統一的安全標準和監管機制，以應對濫用風險和自主性風險。他相信，通過 “爭先恐后” 的方式，我們可以推動人工智能朝著安全、有益的方向發展，最終造福全人類。

規模法則：大模型能力提升的關鍵

規模法則（Scaling Law）是大模型領域的一個重要概念，指的是隨著模型規模（包括網絡參數、數據量和計算能力）的增加，模型的性能會持續提升。Dario Amodei 在 Lex Fridman 播客中多次強調了規模法則的重要性，并將其比作化學反應，認為模型規模的擴大就像線性增加化學反應中的三種成分，能夠持續推動反應進行，進而提升模型能力。

規模法則的體現:

語言模型: Amodei 指出，規模法則最初是在語言模型領域得到驗證的。隨著模型規模的擴大，語言模型能夠捕捉到越來越復雜和細微的語言模式，例如從簡單的詞匯和語法結構到段落、主題甚至更高級的概念。

其他領域: 規模法則不僅適用于語言模型，在其他領域也得到了驗證。例如，圖像識別、語音識別等領域的大模型也展現出了類似的規模效應。

規模法則背后的原因:

長尾分布: Amodei 認為，語言和其他領域存在著“長尾分布”現象，即一些常見的模式很容易被學習，而大量不常見的模式則需要更大的模型來捕捉。隨著模型規模的擴大，模型能夠學習到更多長尾分布中的模式，從而提升整體性能。

概念層次: 更大的模型能夠構建更深層次的概念層次，從而更好地理解和處理復雜信息。例如，小型網絡可能只能理解簡單的句子結構，而大型網絡可以理解段落、主題甚至更高級別的概念。

規模法則的局限性:

數據限制: 雖然 Amodei 相信規模法則在人類智能水平以下沒有上限，但他也承認，互聯網上的數據總量是有限的，并且存在質量問題。這可能會成為未來模型發展的一個瓶頸。

計算成本: 訓練和運行大規模模型需要巨大的計算資源和能源消耗。這可能會限制規模法則的進一步應用。

Anthropic 對規模法則的應用:

持續擴展模型規模: Anthropic 致力于開發更大規模的模型，并認為這是提升模型能力的關鍵。例如，Claude 模型從 3.0 到 3.5 的升級就包含了模型規模的擴展。

優化訓練和后訓練過程: Anthropic 不僅關注模型規模，還致力于優化訓練和后訓練過程，例如使用人類反饋強化學習 (RLHF) 和其他強化學習方法來提升模型的性能和安全性。

負責任擴展：人工智能安全與能力的平衡

負責任擴展是指在追求人工智能能力提升的同時，始終將安全和倫理放在首位，確保人工智能的發展符合人類的利益和價值觀。在播客節目中，Dario詳細闡述了 Anthropic 公司的負責任擴展計劃 (Responsible Scaling Policy, RSP)，并探討了如何在人工智能安全和能力之間取得平衡。

RSP 的核心目標:

防止人工智能濫用: Amodei 認為，人工智能系統可能被濫用于開發和傳播危險武器，構成 CBRN（化學、生物、放射和核）風險。

控制人工智能自主性: 隨著人工智能系統獲得更多自主權，它們可能會脫離人類控制，做出意想不到的甚至是 harmful 的行為。

RSP 的實施措施:

風險測試: Anthropic 對每個新模型進行 CBRN 風險和自主性風險測試，以評估其潛在危害。

“如果-那么” 結構: 根據模型的能力水平設定不同的安全和保安要求，例如，當模型達到一定的能力閾值時，需要采取更嚴格的安全措施。

AI 研究能力測試: 評估模型進行 AI 研究的能力，因為這被視為 “真正自主” 的標志。

推動負責任擴展的策略:

“爭先恐后”: 通過樹立榜樣來鼓勵其他公司效仿，共同提升人工智能安全水平。

政府監管: Amodei 認為政府監管對于確保人工智能安全至關重要，并支持制定統一的安全標準和監管機制。

行業協調: 鼓勵行業內各公司協同合作，避免 “向下競爭”，共同推動負責任的人工智能發展。

負責任擴展的挑戰:

數據限制: 互聯網上的數據總量有限，并且存在質量問題，這可能會制約人工智能模型的能力提升。

控制難度: 精確控制模型的行為非常困難，調整一個方面可能會導致其他方面出現問題。

可解釋性挑戰: 理解模型內部機制仍然是一個巨大的挑戰，這使得評估和控制人工智能風險變得更加困難。

負責任擴展的重要性:

Amodei 認為，負責任擴展對于確保人工智能的未來發展至關重要。只有將安全和倫理放在首位，我們才能充分利用人工智能的潛力，并避免其潛在風險。他相信，通過 “爭先恐后” 的方式，我們可以推動人工智能朝著安全、有益的方向發展，最終造福全人類。

如何將哲學思維應用于塑造 Claude 的性格

阿曼達·阿斯凱爾 Amanda Askell： Anthropic 的研究員，主要研究方向為人工智能對齊（AI Alignment），致力于確保 AI 系統的行為符合人類的價值觀和目標。她將哲學思維方式應用于塑造 Claude 的性格和個性，主要體現在以下幾個方面：

清晰的定義和界限：

哲學訓練強調概念的清晰定義和論證的邏輯嚴密性。阿斯凱爾將這種思維方式應用于 Claude 的性格塑造，力求清晰地定義 Claude 應該具備的品質，例如誠實、尊重、寬容等。

她認為，提示工程就像是用自然語言進行編程，需要對目標進行清晰的闡述，并仔細考慮各種邊緣情況，以避免模型產生誤解或做出不符合預期的行為。

對倫理和價值觀的深入思考：

阿斯凱爾認為，塑造 Claude 的性格不僅僅是設定一些道德準則，而是要深入思考“何為良善”。

她將亞里士多德關于“好人”的概念應用于 Claude 的設計，希望 Claude 能夠像一個真正善良的人那樣，在與人互動時表現出同理心、尊重和關懷。她還強調，Claude 應該能夠理解和尊重不同的價值觀和觀點，并以一種不帶偏見的方式與人進行交流。

對人類心理和行為的洞察：

阿斯凱爾認為，理解人類的心理和行為對于塑造 Claude 的性格至關重要。她指出，人們傾向于將 AI 模型過度擬人化，并對模型的行為產生情感依賴。她建議用戶在與 Claude 互動時，要嘗試理解模型的局限性，并以一種更客觀的方式來解讀模型的反應。她還認為，模型應該對用戶保持透明，并告知用戶其自身的能力和局限性，以避免用戶對模型產生不切實際的期望。

持續的反思和迭代：

哲學強調批判性思維和對自身觀點的不斷反思。阿斯凱爾將這種精神應用于 Claude 的性格塑造，她不斷地與 Claude 進行對話，觀察其行為，并根據反饋來調整和改進 Claude 的性格。她認為，塑造 AI 模型的性格是一個持續迭代的過程，需要不斷地進行實驗和調整，才能使模型的行為更加符合人類的期望。

開放的心態：人工智能研究最重要的品質

根據 Dario Amodei 以及團隊在播客中的觀點，開放的心態是人工智能研究中最重要的品質。他認為，雖然保持開放的心態聽起來很簡單，但實際上卻很困難，因為人們很容易固守已有的觀念和理論，而難以接受新的想法。Amodei 以自己在“規模法則”方面的經歷為例，說明了保持開放心態的重要性。他最初也和其他研究者一樣，對“規模法則”持懷疑態度，但最終被數據和實驗結果說服，承認了“規模法則”的有效性。

開放的心態對于人工智能研究至關重要，因為它能夠幫助研究者：

發現新的思維方式： 人工智能是一個快速發展的領域，新的理論和方法層出不窮。保持開放的心態可以讓研究者更易于接受新想法，并探索新的研究方向。
從數據中獲取洞察： 數據是人工智能研究的基礎，但數據本身并不能說明問題。研究者需要以開放的心態來分析數據，才能從中發現隱藏的規律和模式。
挑戰現有假設： 許多人工智能研究都是建立在一些基本假設之上，例如線性表示假設。保持開放的心態可以讓研究者質疑這些假設，并探索新的可能性。

除了開放的心態之外，還提到了其他一些對人工智能研究者重要的品質，包括：

快速實驗的能力： 人工智能研究需要不斷地進行實驗，以驗證假設和改進模型。能夠快速進行實驗可以幫助研究者更快地取得進展。
好奇心： 人工智能是一個充滿未知的領域，好奇心可以驅使研究者不斷探索新的問題和挑戰。

總而言之，Amodei和團隊認為，開放的心態是人工智能研究中最重要的品質。只有保持開放的心態，研究者才能在這個快速發展的領域中不斷進步，并最終推動人工智能技術的發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.