網易首頁 > 網易號 > 正文申請入駐

大語言模型的涌現｜集智百科

2025-06-13 22:40:10　來源: 集智俱樂部

北京舉報

分享至

導語

大語言模型（LLMs）的快速發展使人們看到很多神奇的現象，比如神經標度律、涌現、頓悟等等。其中涌現現象是指，某種能力在小規模模型中不存在，但當模型增長到一定規模時，突然擁有了這項能力[1]。可見，涌現現象不能通過簡單地外推小規模模型的能力來預測[1]，而度量和理解大語言模型的涌現對大模型進一步的發展至關重要。

“集智百科精選”是一個長期專欄，持續為大家推送復雜性科學相關的基本概念和資源信息。作為集智俱樂部的開源科學項目，集智百科希望打造復雜性科學領域最全面的百科全書，歡迎對復雜性科學感興趣、熱愛知識整理和分享的朋友加入，文末可以掃碼報名加入百科志愿者！

↑↑↑掃碼直達百科詞條

關鍵詞：大語言模型，涌現，神經標度律，少量樣本提示，增強提示策略，Transformer，滲流模型，信息涌現

范卓儀，梁金，徐然，楊明哲 | 作者

張江 | 審校

讀書會推薦

大語言模型的涌現現象彰顯了AI可解釋性理論的重要性。它關乎到人類對大模型的信任，對其發展的管束，以及未來進一步研發大語言模型的方向。

集智俱樂部也策劃了，其中一個視角就是從復雜科學視角拆解大模型的推理能力的可解釋性，邀請你加入：

1. 歷史溯源

2. 大語言模型能力的涌現現象

2.1 使用少量樣本提示的任務

2.2 使用增強提示策略的任務

3. 基于下游任務的涌現的影響因素及爭議

4. 大語言模型的結構涌現

4.1 量化大語言模型的信息涌現

4.2 基于大語言模型結構的多尺度解釋

5. 大語言模型涌現的機制解釋

5.1 知識量子理論

5.2 滲流模型

5.2.1 基本定義

5.2.2 形式語言學習中的涌現能力

5.2.3 涌現的滲流模型

5.2.4 實驗驗證

6. 總結

1. 歷史淵源

涌現這個概念在物理學、生物學和計算機科學等領域已經得到長期討論。諾貝爾物理獎獲得者菲利普·安德森在一篇名為 “多者異也 (More is Different)”[2][3]的文章中提出：涌現是指系統中定量的變化所導致的行為上定性的變化。 Jason Wei等人[1]沿用了安德森對于涌現定性的定義，首次在大語言模型領域提出判斷模型能力是否發生涌現的定性標準：某種能力在小規模模型中不存在，但當模型增長到一定規模時（定量的變化），這項能力才突然出現（定性的變化）。也就是說，涌現是一種整體行為上的劇烈變化，不能通過研究小規模模型進行直接預測[4]。

這些能力包括數學推理（如多步計算與邏輯判斷）、鏈式思維（Chain-of-Thought，CoT）推理、編程與代碼生成、跨任務泛化能力（如零樣本任務遷移）、事實知識記憶、多語言翻譯與理解等。所有這些能力往往在較小模型上完全缺失或表現極差。研究表明，這些涌現并非線性延伸，而是與模型規模、訓練數據量、指令微調策略等因素交互產生的非平滑性能躍遷。

足夠復雜的大語言模型除了具有涌現現象，還會出現神經標度律（Neural Scaling Laws）、頓悟（Grokking）、雙下降（Double Descent）等現象。神經標度律是大模型訓練中最常見的現象，即隨著模型的規模增加（包括數據規模、訓練迭代次數等），模型能力表現以一個冪律的形式增長 [5]。頓悟是指對于同一個大模型，隨著訓練的進行，訓練損失會很快收斂，但測試損失需要訓練足夠長的時間后才會突然收斂到和訓練損失一致的水平 [6]。雙下降是指模型的表現隨著模型規模變大（或隨著訓練的進行）不是一個單調變化的關系，而是會在某些時候，模型的損失反而會隨著模型規模的增加而上升，達到一個峰值再繼續下降 [7]。這些現象和涌現現象不同，但背后的底層機制很可能是相通的。許多學者試圖為這些現象（包括涌現）提供一個統一的理論框架來解釋[8]。

諸如神經標度律等現象，人們在大語言模型之前也有在一般的神經網絡上發現。而對于涌現現象，Wei等人系統比較了不同規模的語言模型在使用標準提示（直接給問題）和鏈式提示（給出推理步驟）下的表現，發現只有大型語言模型才能充分利用鏈式思維提示，且性能隨著規模增長出現“非線性躍遷”。鏈式思維提示本身并不會自動賦予模型推理能力，只有在模型參數規模足夠大時，它才能引發復雜推理能力的“躍遷”，這正是大語言模型涌現現象的核心表現之一[9]。該團隊在另一項探討了一種通過指令微調提升語言模型零樣本學習能力方法的研究中發現，指令調整帶來的性能提升只有在模型規模足夠大的情況下才會顯現[10]。Google DeepMind主導的一項研究通過設計大規模基準測試（Beyond the imitation game, BIG-bench）來系統地評估大語言模型的智能水平和能力邊界，并探索其隨規模變化時的行為模式。通過對GPT-3、PaLM、以及多個中小規模模型等進行性能隨參數規模變化的測試，研究人員發現了任務隨規模變化的兩種性能增長模式。大語言模型的性能在一類任務表現為線性增長，如語言建模、基本問答；在另一類任務出現突破式表現，如代碼生成、數學證明、復雜邏輯任務，從幾乎完全不會，到某一規模后突然具備該能力[11]。

近年來現有大型語言模型的時間線（規模大于 10B）

從技術發展史角度看，涌現能力的發現標志著自然語言處理研究范式的根本轉變。傳統自然語言處理采用任務特定模型，針對每項任務單獨設計和訓練系統，而現代大型語言模型通過海量數據預訓練獲得通用能力，再通過提示工程適應各種下游任務。這種轉變的核心驅動力正是模型規模的指數級增長——從GPT-3的1750億參數到PaLM的5400億參數，再到當前萬億級模型，規模擴大使下游任務表現出神經標度律和涌現能力[12]。

大語言模型的涌現能力

2. 大語言模型能力的涌現現象

模型規模的改變主要體現在訓練計算量，模型參數量和訓練數據集的大小[13][14]這三個因素上。研究者通常會分析模型的能力隨訓練計算量或模型參數量的增加而變化的曲線，而不會繪制針對訓練集大小的曲線。通常，每個模型的訓練計算量是以 FLOPs (Floating Point Operations, 浮點運算數) 來衡量的[14]。模型能力關于參數量與模型能力關于 FLOPs 有形狀相似的曲線，這是因為大多數密集Transformer語言模型家族（即采用全連接自注意力機制的模型）的訓練計算量大致與模型參數量成比例[13]。研究者通常在訓練模型時使用固定大小的訓練集[15][16]，因此較難見到模型能力隨訓練數據集大小而變化的報告。下表[1]列出了一些大語言模型的涌現能力及其出現的規模（以訓練所需的浮點運算次數和模型參數數量衡量）。

各種涌現能力出現的模型規模

為了使生成式 AI 模型產生最佳輸出，可以采用提示(Prompt)來構建或設計指令。在輸入和輸出文本的任務中，提示是向AI模型解釋其任務的自然語言文本，包含請求、指令、示例，以及任務的背景信息、完成任務的步驟等。按照提示內容的差異，可以將提示簡單劃分為少量樣本提示(Few-Shot Prompting)和增強提示(Augmented Prompting)。前者是一個到數個輸入信息和輸出結果的示例（如下圖所示）；后者是更復雜的提示，比如思維鏈提示、不包括示例的任務描述、草稿本(Scratchpad)技術（模型在解決問題時需要分解并思考中間步驟，但這些思考不必呈現給用戶）等，更復雜的提示能夠進一步提高語言模型的能力。

2.1 使用少量樣本提示的任務

在不同任務上，以模型規模為x軸，以模型能力為y軸繪制曲線，可以觀察到模型能力隨著模型規模增大的變化情況，并發現模型能力發生明顯提升的部分。在達到一定規模之前模型表現平平，之后能力提升至遠高于隨機水平，這就表示模型能力出現了涌現的現象。下圖展示了五個語言模型家族使用少量樣本提示時，在八類任務上展現的涌現能力。

少量樣本提示中8個涌現現象的例子，引自[1]

BIG-Bench.
BIG-Bench是一個用于語言模型評估的眾包基準測試套件，包含超過200個基準測試 [17] ，下圖A-D展示了來自BIG-Bench的四種表現出涌現的任務。圖A展示了一個算術計算基準測試，測試3位數加減法以及2位數乘法。GPT-3和LaMDA [18] 在訓練計算量為幾個數量級時準確率接近零，之后，GPT-3的訓練計算量在達到2 × 10 22 FLOPs（約有13B參數），LaMDA達到10 23 FLOPs（約為68B參數）時，模型能力急劇躍升至遠高于隨機水平。類似的涌現行為也發生在相同規模的其他任務上，例如國際音標轉寫（圖B）、從混亂字母中恢復單詞（圖C）以及波斯語問答（圖D）。
TruthfulQA
TruthfulQA 基準測試可以衡量回答問題真實性的能力 [19] ，圖2E展示了少量提示模型在TruthfulQA基準測試上的能力。這個基準測試是刻意針對GPT-3模型而策劃的，因此即使規模擴大到最大，GPT-3的能力也沒有超過隨機水平。小型Gopher模型在訓練計算量擴大到最大，即5×10 23 FLOPs（280B參數）之前，能力也沒有超過隨機水平，而在達到這一規模后，能力躍升至超過隨機水平20%以上 [20] 。
基于文本網格世界中的概念域映射
(Grounded conceptual mappings). 圖F展示了基于文本網格世界中的概念域映射任務 [21] ，這里語言模型必須學會映射一個概念域，例如將一個基于文本網格世界的基本方向映射出來。同樣，只有使用最大的GPT-3模型，能力才會躍升至超過隨機水平。
多任務語言理解
（Multi-task language understanding）. 圖G展示了大規模多任務語言理解（MMLU）基準測試，該測試匯總了涵蓋數學、歷史、法律等多個領域的57項測試 [22] 。對于GPT-3、Gopher和Chinchilla模型，訓練FLOPs約為10 22 （參數約為10B）或更小時，模型在所有主題上的平均表現并不比隨機猜測更好，而將規模擴大到3到5×10 23 訓練FLOPs（70B-280B參數），模型能力大幅超越隨機水平。這一結果可能意味著對于沒有檢索或訪問外部記憶功能的密集語言模型而言，解決涵蓋大量主題的知識型問題所需的規模可能需要超過這個數值。
語境中的詞語
（Word in Context, WiC). 圖H展示了一個語義理解基準測試：語境中的詞語基準測試 [23] 。值得注意的是，即使模型規模擴大到最大（約5×10 23 FLOPs），GPT-3和Chinchilla也無法獲得優于隨機水平的正確率。而PaLM擴大到2.5×10 24 FLOPs（540B參數）時，最終出現了超越隨機的能力。這些結果可能表明，WiC問題的解決還受模型本身特性或其他因素的影響，可能無法僅靠擴大規模來達到。

2.2 使用增強提示策略的任務

增強提示是指通過在用戶原始問題之外添加補充信息（如背景知識、具體約束或示例）來引導大模型生成更精準、高質量的回復。下面是一些會用到增強提示的任務。

推理任務
推理任務，特別是涉及多個步驟的任務，對于語言模型和更廣泛的自然語言處理模型來說一直具有挑戰性 [20] [24] [25] 。最近的一種稱為思維鏈(Chain-of-Thought, CoT)提示的提示策略，能夠引導模型在給出最終答案之前生成一系列中間步驟，最終幫助模型解決問題 [9] [26] [27] 。正如下圖A所示，當規模擴大到10 23 訓練 FLOPs（約100B參數）時，思維鏈提示超越了沒有中間步驟的標準提示。當在少樣本提示后附加解釋來增強提示時，也觀察到了類似的能力提升涌現 [28] 。
指令跟隨(Instruction Following)
另一種日益增多的研究旨在使語言模型通過閱讀一段對于任務的描述來執行新任務，但不給出少量樣本示例。通過在混合了各種指令式任務的數據上進行微調，語言模型已被證明能夠進行適當的響應 [10] [29] [30] [31] 。如圖B所示，這種指令微調技術對于訓練FLOPs為7×10 21 （8B參數）或更小的模型有損害，只有當規模擴大到10 23 訓練FLOPs（約100B參數）時，才會提高模型能力 [10] （盡管有研究者隨后發現，這種指令跟隨的行為也可以通過微調更小的 encoder-decoder T5 模型來誘導 [30] ）。
程序執行
考慮涉及多個步驟的計算任務，例如大數相加或執行計算機程序。有研究者展示了通過微調語言模型以預測中間輸出：草稿本(Scratchpad)技術是一種令模型在輸出最終答案之前將問題分解為多個中間步驟的技術，和思維鏈技術不同，草稿本的中間步驟可以不使用自然語言，也可以不暴露給用戶，就像是打草稿。這種技術能使模型更有效地執行多步驟計算任務 [25] 。研究發現，在8位數相加任務中，使用草稿本技術僅僅對訓練FLOPs約為9×10 19 （40M參數）或更大的模型有幫助（如圖C所示）。
模型校準（Calibration）
模型校準能夠衡量模型預測其回答正確率的能力，代表了模型回答問題的可靠程度。舉個例子，當模型給出回答A的采樣概率是90%時，說明它有九成把握自己做對了，而如果實際情況真的是10次問題中有9次做對了，說明模型有很高的校準能力。研究者使用平均校準誤差（Expected Calibration Error，ECE）來度量模型校準能力的大小。有研究者比較了兩種衡量校準的情境 [32] ：一種是T/F判斷題，在提示中會給出一段陳述，讓模型給出“正確”或者“錯誤”的回答。另一種則是單選題，讓大模型直接在多個選項中選擇正確的答案。如圖D所示，在二選一的情境下，模型在大約3×10 23 訓練FLOPs（52B參數）的時候出現了涌現現象，而單選題的情境下模型校準能力一直以冪律的形式平滑增長。

3. 基于下游任務的涌現的影響因素及爭議

上述提及的大語言模型涌現現象在判定上始終圍繞兩個關鍵特征：度量結果的突變性和突變的不可預測性[33]。而這并不意味著它一定是關于模型性質的度量。涌現現象的發生，可能只是研究者的選擇所造成的幻覺[33]。

所謂幻覺是指大模型的涌現現象來自人為的度量指標選擇。非線性的或不連續的度量導致我們觀察到模型能力的突變和涌現，如果改變度量，則會觀察到模型能力的連續變化。這一點可以通過對不同度量方式的定性分析而展現[33]：比如，假設模型有N個參數(N>0)，模型的每token的交叉熵隨參數量增加而以冪函數的形式下降：

假設存在一個真實的但未知的概率分布 p 以及一個具有N個參數的模型，它給出的預測分布為，根據交叉熵的定義：, 其中 V 是可能的tokens的集合。由于p是未知的，可以用觀測token v ? 的one-hot分布來替代，于是得到

因此模型在給定輸入的情況下，正確預測出單個token的概率為：

如下圖a所示，此時模型能力的度量指標（

p

s

i

n

g

l

e

t

o

k

e

n

c

o

r

e

c

t

) 隨模型規模(模型參數量 N )的變化可以得到平緩增長的曲線。而若某任務是L位整數加法，當模型輸出正確結果時，記錄模型正確率為1，否則記為0，則此時模型的性能和模型參數量的關系為：

如下圖b所示，可以觀察到在一個線性-對數圖中，只是因為度量的變化，我們就觀察到了模型能力隨模型規模增大而非線性增長的曲線，即呈現出了涌現能力的現象。這一模式和已發表的涌現現象（圖b里的小圖）是一致的。而如果我們把上面的正確率指標換成線性的指標，比如token編輯距離(Token Edit Distance)，如下圖c所示，則會發現模型能力又隨模型規模展現出平滑、連續和可預測的變化，即未出現涌現現象。

依據類似的分析，研究者認為選擇非連續的度量，就會發現涌現現象；如果換用連續度量，就不會有涌現現象[33]。

總之，一些突變且不可預測的模型能力提升可以被如下因素所解釋[33]：

1. 研究者采用了和每token錯誤率成非線性或非連續關系的度量指標，導致以每token錯誤率衡量的規模曲線平滑、連續且可預測的情況下，新指標呈現出突變和不可預測的曲線；

2. 在較小的參數范圍內，由于分辨率（Resolution，在此被定義為可測的最小區間）不足，無法估計模型性能；

3. 在較大參數范圍內采樣不足。

但也有學者進一步發現，即使以連續性的度量指標來刻畫（比如交叉熵），我們也能看到模型在某些任務上的表現有涌現式的增長[34]。這說明涌現現象依然是真實存在的，而不完全是因為指標選取造成的幻覺。而且指標的連續性也不是選取合適指標的黃金標準，我們應該選取對任務適配的指標。比如以計算10+11=21為例，如果用token編輯距離作為評估指標，模型輸出22時，距離等于1，輸出11時，距離也等于1，但顯然22比11更接近正確答案21。這時候再用token編輯距離作為評估指標就不合理了[35]。鑒于此，有學者提出關于涌現現象更為完整的定義[35]：

一項能力C被稱為隨著某種規模（如數據量、計算資源、參數數量等）的增長而涌現，需滿足以下三個條件：

P1: 在需要能力C的任務上，模型表現呈現非線性的明顯提升；

P2: 有多個任務同時出現這種非線性提升，不是只在某單一任務上發生。

P3: 模型獲得了一個數據生成過程的底層結構（即對任務本質的理解或表達），這種結構對學會能力C是關鍵的，并且能力C的涌現與這個結構學習的進展密切相關。

在這篇文章[35]當中，作者其實已經意識到，模型展現的涌現現象和它底層的某些結構是相關的。而在這種結構的層次上做度量，比單純地刻畫下游任務上的表現對于研究大語言模型的涌現來說更為關鍵。

4. 大語言模型的結構涌現

在結構上，主流大語言模型均基于Transformer架構，根據歷史輸入預測下一個token的概率分布。Token是自然語言處理中文本切分的最小單位（字、詞或子詞）。大語言模型使用token來理解和處理文本，把句子分解為token后再進行模型計算和生成。然而，人類對于語言的理解不是在token的層次上，而是在語義（semantics）的層次上。我們可以通過對多個token的排列組合來理解和表達語義。所謂對大語言模型的結構進行度量和解釋，便是基于Transformer模塊的行為，對模型在token和語義層次上的動力學進行量化分析。這里的動力學機制由模型的權重參數和運行方式決定。

如前所述，目前大多數對于大語言模型涌現的刻畫聚焦在具體下游任務的表現上，且都是定性的結論。這類涌現現象可以被看作是大語言模型的功能涌現。然而，結構決定功能。有沒有可能在發生功能涌現的同時，大語言模型的內部也在發生結構上的涌現呢？這里的結構既指模型中的網絡連接結構，又指模型的前向計算過程的動力學。自菲利普·安德森的《多者異也》之后，復雜性科學中對于復雜系統的涌現有了更多的認識。在觀察者角度下，一個復雜系統同時具有微觀和宏觀尺度上的動力學，比如對于大語言模型來說，微觀動力學是從已有的token生成下一個token，宏觀動力學則可以是語義上的接龍和變化。作為一個對涌現定量研究的理論框架，因果涌現理論提出當宏觀動力學因果效應強度大于微觀動力學上的因果效應強度時，復雜系統發生涌現現象[36][37]。我們猜想，大語言模型之所以會出現任務能力上的涌現或突變，背后對應著動力學機制上的涌現。如果我們想要解釋甚至調控大語言模型的涌現現象，就需要從結構或動力學的角度對大語言模型的結構涌現進行度量，以及給出相應的理論解釋。這樣得到的量化結果不依賴于具體的任務設定或人為設定指標時額外引入的非線性。

4.1 量化大語言模型的信息涌現

受到Hoel[36][37]和Rosas[38]等人的因果涌現理論的啟發，Chen等人[39]提出一種叫做信息涌現（Information Emergence, IE）的定量指標，來量化大語言模型從token序列中提取語義信息的能力。其核心觀點是，如果大語言模型在整個序列上的熵減超過了一個個單個token的熵減，那么我們認為該大語言模型發生了涌現。

大語言模型的下一個token預測機制（Next-token-prediction，NTP）可以被建模為一個馬爾可夫過程，如下圖所示。對于任意的Transformer模塊 l ，給定輸入token長度T和隱狀態維度D，輸入表征由表示，輸出表征為，其中。一個模塊的輸出表征就是下一個模塊的輸入表征。以圖中第0塊中第2個token的輸出表征（）為例，它接收來自輸入表征和的信息，滿足條件。可見，整個動力學過程由條件概率表示。當條件概率被給定時，每一個模塊的輸出表征狀態僅由該模塊的輸入表征決定，所以它可以被假設為是一個馬爾可夫過程。

NTP機制與馬爾可夫過程的類比。

在這個動力學過程中有微觀變量和宏觀變量。微觀變量指僅受單個輸入token影響的token，例如 h 0 滿足轉移概率；宏觀變量則聚合所有輸入token的信息，例如滿足轉移概率。在這樣的定義下，NTP機制可以看作是從最微觀尺度向最宏觀尺度逐步粗粒化的過程。根據《多者異也》的理論，有時候，宏觀變量的行為狀態無法從任何一個微觀變量中推出，但這并不意味著宏觀變量可以無中生有。文中除了馬爾可夫假設以外，還提出了隨附性假設[39]，即當一個系統的微觀動力學機制確定時，它的宏觀動力學機制也就隨之確定了。

基于以上兩個假設，文章中對大語言模型的信息涌現做了如下定義[39]：

對于任意的Transformer模塊 l ，表示宏觀變量，表示微觀變量，MI(·，·) 表示互信息，模塊 l 的IE強度定義為：

給定一個序列和Transformer模塊，我們如何得到宏微觀變量？假設給定的輸入序列是“large language model”，那么為了得到每一個token作為微觀變量時的輸入輸出表征，我們需要把每一個token作為當前輸入的首個token。比如輸入是“large language model”時，我們可以得到“large”作為微觀輸入表征時的輸出表征；把輸入序列改成“language model”，就可以得到“language”作為微觀輸入表征時的輸出表征；把輸入序列改成“model”，就可以得到“model”作為微觀輸入表征時的輸出表征。而對于宏觀變量，則是全序列“large language model”輸入時最后一個token（“model”）對應的輸入和輸出表征。這樣做保證了微觀變量狀態只取決于單個的token，而宏觀變量狀態則取決于整個序列的信息。

計算互信息需要知道變量的概率分布。為了在大語言模型的高維狀態空間上估計概率分布，作者使用了互信息神經估計算法（Mutual information neural estimation，MINE）[40]來得到宏微觀變量的概率分布。

下圖展示了IE更加體現語義忠實度（Semantics Faithfulness），即一個指標能否真實反映語言模型理解句子含義的能力。該實驗使用了OpenOrca數據集中的例子，計算隨著輸入變長，大語言模型對語義把握的能力是否一直增長。傳統的度量指標包括準確率、模型的損失等等。而從下圖中可以看出，隨著輸入變長，這些指標并不總是單調增長的，而且波動很大。與之相比，IE總是在增長（即圖中曲線總為正值），而且結果非常穩定。

IE和其他指標隨著token數量增加的增長幅度的變化。縱軸度量的計算方式是(value(t) ? value(t ? 1))/value(t)。

IE可以用來直接指示大模型能力的提升。研究中評估了8個算術任務（一位數和兩位數的加減乘除）的表現與IE值之間的關聯關系（如下圖所示）。當參數量達到109至 10 10 時，任務性能出現顯著提升，表明存在涌現現象。在同一參數范圍內，平均IE值也顯著增加。

研究中評估了8個算術任務的表現與信息涌現指標IE之間的關聯

4.2 基于大語言模型結構的多尺度解釋

根據前文提及的因果涌現理論，涌現的發生涉及從微觀到宏觀的多個尺度。當人們在用語言交談時，實際上在傳遞宏觀層面的語義，和知識量子較為相似。它與大模型參數的對應關系是大模型可解釋性的關鍵所在，同時是非常復雜的。往往一個語義要與多個參數相對應，而同一個參數也會參與不同語義的形成當中，即神經元的多義性，因為語言世界中的概念（語詞之間有意義的排列組合）一般遠多于神經網絡的參數。那大語言模型是否真正把握了語言中的宏觀規律，并且主要由這些宏觀的理解來完成任務呢？

近期，開發Claude大模型的團隊Anthropic公司提出了一系列基于Claude行為表現的大模型可解釋性工作 [41][42]，名為AI生物學（AI biology）。他們對于大模型解釋的架構主要來自跨層轉碼器（Cross-Layer Transcoder，CLT）的應用。如下圖所示，CLT內部有編碼器和解碼器，每一個CLT模塊把某一層的殘差作為輸入，解碼的輸出則重構預測該層后續所有層的輸出，同時考慮解碼器權重的正則化，使得token和CLT表征之間的對應關系可以盡可能稀疏。

CLT的示意圖

根據訓練好的CLT，我們可以根據CLT權重和隱變量的激活程度構建輸入token、中間層表征以及預測token之間的因果圖，也就能看清大模型作出預測的路徑是怎樣的了。下面我們主要介紹三個案例來分析大模型內部的“思考過程”。第一個問題是，大模型如何橫跨多種語言完成交流？

面對同一個問題（“小”的反義詞是什么）的不同語言表述，大模型內部除了有針對不同語言的專門的模塊以外，還有一個語義理解的共享模塊。

上圖是一個高度簡化版的因果圖，提示詞是多國語言版本的相同問題：“小的反義詞是什么”。每一個語言下的問題都會涉及一個和語言相關模塊，提示大模型要用特定的語言回答。更重要的是，它們都用到一個共享的表征，其中涉及3個概念：“小”、“反義詞”、“大”。這個表征與特定的語言無關。而且模型越大，這種共享表征占比就更多。這證實了大模型的“思考”發生在一個與語言種類無關的抽象的語義空間里。它說明，從一種語言中學到的知識，Claude可以直接遷移到其他語言當中。

第二個問題是，大模型如何寫詩？人們之前猜測，因為大模型每次都只預測下一個詞，所以不會對一首詩做整體規劃，而是每次預測下一個詞的時候一方面保證結尾押韻，另一個方面保證它是通順合理的。結果，團隊發現Claude在寫詩時有在做提前規劃，如下圖所示。比如在第一行詩的結尾“grab it”的后面，模型馬上開始考慮以“rabbit”作為第二句的結尾來押韻。因果圖的要義在于我們可以對某個變量施加干預，看看會發生什么，這也是神經科學家研究大腦功能的方法論。在AI生物學這個工作里，作者可以通過修改某一個CLT的隱變量來達成干預的目的。如果我們去除中間層“rabbit”這個表征，大模型還有其他的候選韻腳，比如“habit”。如果把中間層的詞換成“green”，大模型仍然可以以它作為結束完成一首有意義的小詩。

圖中淺藍色部分是提示詞，橙紅色部分是輸出。

如果我們把詞語接龍的過程看成是一個動力學過程，原本微觀動力學是只預測下一個詞，只會在最后一個詞的時候考慮韻腳的問題。結果大模型是先確定了最后的韻腳詞和候選詞，再給出這句話的每一個詞。這相當于是先“想”清楚了整個段落的宏觀目標，再決定具體的微觀上的詞語選擇，即發生了跨尺度的向下因果。如果這種能力是在達到某個規模閾值后擁有的，不難想象大模型會在各種寫作和推理任務上表現有突然的提升。

第三個問題是，大模型如何完成各種數學計算任務？我們知道，大模型不會有針對數學任務的專門訓練，一切相關的訓練也都是在文本學習中完成的。而涌現現象，也往往是在數學推理這樣復雜的任務上顯著地體現出來。那大模型在完成數學運算時，究竟是靠強大的記憶力把所有計算結果都記住了，還是像我們在小學里學的那樣，一步步學會的？事實上，大模型針對數學運算有兩條并行的思考路徑，如下圖所示。

計算的36+59的內部思考過程。

一方面，大模型會對結果有一個粗糙的估計，給出結果的一個范圍，對應圖中藍色的部分。另一方面，大模型也會做精確的計算，如圖中紫色的部分，對個位數給出一個精確的結果。有意思的是，如果讓大模型解釋自己是如何做出這道題的，它似乎意識不到自己真正的“心算”過程，而是模仿人類的解釋，說自己計算了個位數進位了1到十位數。

5. 大語言模型涌現的機制解釋

大語言模型為什么會出現涌現現象？通過上文的討論我們知道，有些涌現現象可能來自幻覺（度量指標的選取），但有很多涌現現象即使是用連續的指標度量也會被觀測到。對于這些真實的涌現現象，我們能否預測什么時候大語言模型會發生涌現，甚至干預和調控這個過程？許多研究者致力于為大語言模型的涌現提出理論解釋。首先，我們可以粗淺地從觀察到的現象中歸納出一些結論。

涌現能力主要出現在多步驟復雜任務上，而知識密集型任務通常遵循平滑的神經標度律。模型可能需要足夠容量來構建中間表示，才能分解和解決復雜問題。當模型規模不足時，其內部"工作記憶"可能無法支持多步推理所需的臨時信息存儲和操作。對于在高質量數據上訓練的模型，涌現現象可以在較少的訓練計算量或較少的模型參數的情況下出現。涌現能力也會受模型訓練充分程度的影響，當今的語言模型很可能沒有得到最佳訓練[14]，而且我們對于如何最佳地訓練模型的理解也將隨著時間的推移而發展，因此已有研究通常只能提供關于是否出現涌現現象的部分證據。總體而言，一種明智的做法是將涌現視為許多相關變量的函數。有研究者認為模型是否出現涌現現象，可以被看作模型參數規模、訓練數據量大小、訓練充分程度和具體任務類型等多種因素的未知函數[12]。

5.1 知識量子理論

2023年，MIT的Tegmark團隊借鑒量子的概念，提出了知識量子理論來詮釋大語言模型的各種現象，包括神經標度律、涌現等[34]。作者們假設，知識是以知識量子（knowledge quanta）的形式一份一份存在在自然語言當中的。當大語言模型進行訓練和學習時，就是在學一個個知識量子。下表給出的，是作者們通過對梯度進行聚類得到的知識量子的示例。

自動發現的大語言模型知識量子

Cluster 50: 遞增數列片段

Cluster 100: 換行預測片段

01-Mi Querencia (Simón Díaz)\n02-Tonada De Luna Llena (Simón Díaz)\n03-Sabana (José Salazar/Simón Díaz)\n04-Caballo Viejo (Simón Díaz)\n05-Todo Este Campo Es Mío (Simón Díaz)\n06-La Pena Del Becerrero (Simón Díaz)\n07

Pursuant to 5TH CIR. R. 47.5, the court has determined\n that this opinion should not be published and is not precedent\n except under the limited circumstances set forth in 5TH CIR.\n

...from opening a through road or street for public use across said public park in the Park of The City of Riverton." (Emphasis supplied.)\nAppealing from that order, the city asserts (1) plaintiffs have no standing or right to maintain the action; (2) that the proposed road was in an undedicated part of the park; (3) that the proposed road was an access road and not a through street or part of the city's street system.(4

TO PERFORM QUADRATIC REGRESSION\nON THE TI84 GRAPHING CALCULATOR.\nDETERMINE HOW WELL THE REGRESSION MODEL FITS THE DATA.\nAND THEN MAKE PREDICTIONS USING THE REGRESSION EQUATION.\nIN STATISTICS, REGRESSION ANALYSIS INCLUDES\nANY TECHNIQUES USED FOR MODELING\n

4. Introduction\n5. Chapter 1: What Is Trust?\n6. Chapter 2: Trust Brings Rest\n7. Chapter 3: Who Can I Trust?\n8. Chapter 4: The Folly of Self-Reliance\n9. Chapter 5: Trust God and Do Good (Part 1)\n10. Chapter 6: Trust God and Do Good (Part 2)\n11. Chapter 7: At All Times\n12. Chapter8

creddump is free software: you can redistribute it and/or modify\nit under the terms of the GNU General Public License as published by\nthe Free Software Foundation, either version 3 of the License, or\n(at your option) any later version.\n\ncreddump is distributed in the hope that it will be useful.\n

The chosen sites were recorded as:0 = sound (n = 13);1 = first visible sign of noncavitated lesion seen only when the tooth is dried;2 = visible noncavitated lesion seen when wet and dry;3 = microcavitation in enamel;4 = noncavitated lesion extending into dentine seen as an undermining shadow;5 = small cavitated lesion with visible dentine (less than 50% of surface);6

QCBlock List Msg = 0x0a \nGet Latest Status Msg = 0x0b \nLatest Status Msg = 0x0c \nPrepare Block HashMsg = 0x0d \nGet View Change Msg = 0x0e \nPing Msg = 0x0f

children have a lack of maturity and an underdeveloped\n sense of responsibility, leading to recklessness, impul-\nsivity, and heedless risk-taking... Second, children\n are more vulnerable to negative influences and\n outside pressures, including from their family and\n peers; they have limited control over their own envi-\n

比如上表中展示的50號聚類得到的知識量子，便是專門負責對數字序號進行預測的知識（每個例子最后的粗體標注內容是該知識量子所涵蓋的）。而100號聚類得到的知識量子，是對于代碼中換行符號的預測。這些知識量子的重要性及使用頻率可以非常不同。根據齊普夫定律，作者假設知識量子在語料中的分布服從冪律分布。所以這正是作者能夠從知識量子理論中推出神經標度律的關鍵假設所在。

那么，知識量子理論能否用來解釋涌現，以及建立起涌現和神經標度律之間的關聯呢？如下圖所示，交叉熵損失隨著模型參數規模的增大會有不同的下降方式，一種是當參數規模達到某一閾值時損失突然大幅下降，便說明在這個任務上大模型出現涌現現象；另外則是損失平滑線性地下降，這便對應的是神經標度律。作者發現，當任務只和單個量子相關（Monogenic）的時候，損失的變化呈現為涌現；而如果任務和多個量子都相關（Polygenic），損失的變化趨勢便呈現為神經標度律。按照這種分析，神經標度律其實是大量知識量子各自涌現結果的平均現象。

當任務涉及單個量子時，loss的變化體現為涌現；涉及多個量子時，體現為神經標度律

5.2 滲流模型

滲流模型（Percolation Model）最早用于描述物質在多孔介質中的滲透過程。當網絡的連通性達到某一臨界點時，系統會發生顯著變化，形成大規模的連通區域。在該臨界點之前，系統中的連接是局部的、碎片化的；而一旦超過這一臨界閾值，連接會迅速擴展，形成全局連通的集群。近年來，這一模型被借用來解釋神經網絡，特別是大語言模型中的涌現現象。

涌現是自然科學中的一個特征現象，它與相變的概念緊密相關，即當改變某個控制變量(例如,溫度)時，系統的基本結構(例如,晶體中六角構型的形成)會發生系統性的變化，并同時影響它的一些性質（如物質固態、液態、氣態之間的轉變）。下圖是固液氣相變和大模型能力涌現類比的示意圖。Lubana等人[35]定義了機器學習中涌現的類似表征：識別模型行為中影響其下游能力并導致性能突然提升的系統性變化(例如，學習一種語言的句法會影響所有下游的能力)。

涌現現象在學習過程中類似物質相變的不同階段，強調模型能力隨著訓練規模的增加而突變。

如前文所述，該研究對能力的涌現現象做出如下定義：

若模型在某一相關維度（如數據量、計算量、參數量）上擴展時，能力 C 滿足以下三個條件，則稱其為“涌現”：

P1（非線性性能提升）：該能力相關任務的性能表現出現非線性躍升；

P2（多任務共現）：多個不同任務同時表現出非線性性能提升；

P3（結構性學習）：模型學習了數據生成過程中的某種結構，這一結構對于學習能力 C 至關重要，且能力 C 的非線性增長與該結構的學習過程直接相關。

該定義賦予“涌現”比“在某個任務上性能突增”更廣的含義：它要求模型學習到對多個能力都有下游影響的結構性知識，并因此在多個任務上表現出突然的性能提升。從這個角度看，“涌現”的其實是結構，而觀察到的是模型能力的變化，如果能通過分析那些同時出現性能躍升的任務，推測出它們之間所共享的結構，并據此設計評估指標，那么就有可能預測在一次獨立訓練中能力何時會突然出現。

該研究提出一個基于滲流模型的理論框架來建模那些需要模型組合未見過的實體和描述性屬性的能力的涌現過程。該研究提出概念類（concept class）的結構，將概念類抽象為二分圖（concept class），并將語言學習過程建模為二分圖上的滲流問題。在以二分圖表征的語言模型訓練過程中，節點（如實體、屬性等）通過邊（如實體與屬性的配對）連接在一起。隨著訓練數據和參數規模的增加，節點之間逐漸形成一個“連通子圖”，一旦這個子圖的規模突破某個閾值，模型就會展現出新的能力。這一過程與滲流模型中“臨界閾值”概念相似，表示模型從局部學習到全局能力的躍升。

5.2.1 基本定義

實體（entities）：“主語”和“賓語”統稱為實體，所有實體組成集合 E 。

屬性（properties）：描述性和關系性的詞語統稱為屬性，所有屬性構成集合 K 。

概念類（concept class）：一個概念類被定義為一個屬性子集 K C ? K ，表示屬于該類的實體所具備的屬性。從一個概念類中隨機采樣的兩個實體，往往共享部分屬性——這為訓練模型提供了判斷它們是否屬于同一類的信號。

類型約束圖：類型約束圖 G = ( E , K , I ) 是一個二分圖（bipartite graph），其中節點為實體集 E 與屬性集 K ，邊集 I 表示實體是否具備某一屬性（即是否連接）。

各類實體與描述詞、動詞之間的連接關系

5.2.2 形式語言學習中的涌現能力

Lubana等人使用形式語言構建實驗系統進一步研究語言學習中的涌現能力，即在線學習場景下數據擴展引發的涌現。

實驗中訓練模型執行如下三種任務：

自由生成（Free generation）：模型需生成一個完全合法的句子，即同時符合語法規則與類型約束。

打亂復原（Unscrambling）：給定一個被隨機打亂的句子 token 集合，模型需將其復原為一個合法句子。

條件生成（Conditional Generation）：給定一組包含實體或屬性的 token，模型需在生成句子時正確地使用這些 token 并保持合法性。

任務示例

設模型輸入為 x ，輸出為 f ( x ) ，定義如下評估指標。

語法性/類型檢查（Grammaticality / Type Check）：用于自由生成任務
完全匹配 / Token 準確率（Exact Match / Per Token Accuracy）：用于打亂復原任務
條件滿足率（Conditions Satisfied）：用于條件生成任務
合法 token 的平均概率（Avg. Probability of Valid Tokens）：用于描述型句子的自由生成與打亂復原任務

Lubana等人將模型的表現繪制為訓練迭代次數的函數，由于實驗處于一個在線學習 + 恒定步長的訓練設定中，該分析等價于研究數據擴展的效果。結果如下圖所示，揭示出模型學習動態中存在三個清晰的階段。

對結構的學習驅動能力的涌現：(a)語法性與類型檢查準確率隨訓練迭代變化：語法習得階段（灰）、關系約束習得階段（粉）、描述約束習得階段（綠）；(b)打亂復原的表現：在階段邊界附近，這個任務出現明顯性能躍遷；(c)條件生成的表現：在階段邊界附近，這個任務出現明顯性能躍遷；(d)訓練損失隨時間變化：每個結構被學會的時點伴隨一次損失下降；(e)描述性/相關性句子的表現：打亂復原任務在描述句子上的提升，主要由描述約束習得驅動。

階段1：語法獲取

最初階段，模型迅速學習生成符合語法規則的句子（該過程可由“語法性準確率”指標衡量），在大約 100 次迭代內，模型就能生成高度語法正確的句子。但在這一階段，打亂復原（unscrambling）和條件生成（conditional generation）等任務的表現仍然很差。不過，正當語法性顯著提升時，token 準確率開始提升，表明模型對一種廣義結構（即語法）的掌握，正在對其他能力的學習產生影響。

階段2：關系性類型約束的獲取

在大約第 1000 次迭代時，模型在“關系型類型檢查”上的表現突然從幾乎為零跳躍至近乎完美。這一躍遷正好伴隨著所有任務（尤其是自由生成任務）的損失突降。這一涌現恰好發生在模型首次達到最高語法性準確率的時間點。這表明，一旦模型學會了數據的第一個結構（語法），它很快就會學習第二個結構（關系型類型約束）。描述型約束（descriptive constraints）的表現也有所提升（因而“整體類型檢查”準確率上升），但仍徘徊在略高于 0.1 的水平。因此，模型在此階段主要依賴其語法知識，并未真正掌握描述型類型約束。在該階段中，可以觀察到打亂復原與條件生成任務的表現也突然躍升，所有評估指標均顯著改善。尤其是這些任務的損失曲線也顯示出再次下降的趨勢（圖d）。圖e顯示，這些性能提升主要來源于無需依賴描述約束的句子（即只需語法與關系型知識即可完成的任務）。

階段3：描述性類型約束的學習

在第二階段中，模型在描述類型檢查上的表現幾乎無增長。然而，隨著訓練繼續推進，模型進入第三階段。此階段以表現增長率的斜率突變為邊界特征，表現為描述型類型檢查的準確率從飽和區突然轉為與 log(數據量/迭代數) 成正比的增長。隨后不久，可以觀察到打亂復原與條件生成任務也出現類似增長趨勢。這說明在本階段，模型終于開始學習并利用描述性約束來提升更復雜任務的性能。通過放大圖中的曲線，可以觀察到在這些任務上仍存在一個微小但清晰的損失跳躍。考慮到此時模型僅接受了約 10? 次迭代訓練，而實體-屬性組合的訓練樣本只覆蓋了 15% 左右（即 p=0.15），那么模型最高只能獲得約 15% 的表現（這與實際觀察相符），理論最大也不超過 20%。然而我們觀察到該任務最終可達到 30–35% 的準確率，說明模型已經超越記憶性學習，開始泛化出新的實體-屬性配對。若模型僅靠記憶，它無法在未見過的配對上表現良好。因此可以說明模型正在根據類型約束圖的結構，隱式地推理哪些實體和屬性可以共同出現。這表明第二階段主要以“記憶”為主，而第三階段標志著從記憶式解決方案向泛化式解決方案的過渡。

以上現象在廣泛實驗設置下高度穩定：

模型始終先學會語法和類型約束兩種結構；
然后在多個狹義任務上表現出突發性躍升；
從物理類比角度看，“語法性”和“類型檢查”可視為序參量（order parameters）；
它們大致決定了模型在何時可能會對某任務表現出“涌現”特征。

5.2.3 涌現的滲流模型

該研究提出一種理論框架，用于建模那些需要模型組合未曾見過的實體與描述屬性的能力的涌現過程，例如“描述型類型約束”的學習。這些能力除了能讓模型在自由生成中更準確地構造句子，還可提升更狹義的任務，如條件生成與打亂復原。如果模型能夠理解哪些實體和屬性屬于同一“概念類”，那么即使它們在訓練數據中從未同時出現過，它仍然可以判定這種組合是“合理”的。因此，可以將概念類（concept classes）抽象為二分圖（bipartite graph），并將模型對其學習過程類比為圖上的滲流（percolation）過程。

數據的矩陣表示

概念密度矩陣用于表示概念類的數據分布：矩陣的行和列分別對應實體和屬性，矩陣值表示每個組合的數據密度（例如實體-描述詞配對的出現頻次）。

概率密度矩陣：設 D 是一個 | E | × | K | 的矩陣，其元素為0到1之間的實數。每個元素 D e k 表示實體-屬性對 ( e , k ) 的密度（例如表示該特定組合的數據量）,其中 e ∈ { 1 , . . . , | E | } 和 k ∈ { 1 , . . . , | K | } 分別是實體和屬性的索引。

以實體{Man, Lawyer, Telephone}和屬性{Walk, Stoic, Ring}為例，矩陣 D 可為：，表示“Man–Walk”和“Man–Stoic”經常同時出現，“Telephone–Ring”也存在，但“Lawyer–Ring”未曾出現。

組合學習過程

概念傳播矩陣可以建模從非完整數據中推斷新組合的過程：

概念傳播矩陣：第 n 階概念傳播矩陣 ( n > 0 ) 定義為 T ( n ) = ( D D T ) n D = C n D ，其中 C := D D T 。通過 n 次傳播，模型能從原始矩陣 D 中推斷出哪些組合是合理的。

將 D 映射為一個二分圖，其中左側節點表示實體，右側節點表示屬性，邊表示它們在訓練中被共同觀察。在這個圖中若兩個節點（實體和屬性）之間存在最短路徑長度為 2 k + 1 ，則只有在傳播步數 n > k 時，傳播矩陣才為非零。若兩個節點處于完全不連通的子圖中，那么無論傳播多少次，該組合都永遠無法被學習（即 = 0 ，對任意 n 成立）。

例如，“Man–Walk”可能可達，“Lawyer–Ring”永遠不可達，意味著后者不能合理組合。

描述性約束的滲流轉變

在二分圖框架下，泛化（或概念類的學習）可以定義為：盡管概念密度矩陣稀疏，但實體-屬性連接對的大型集群仍然能夠形成。關鍵問題是考察當 T ∞ 中非零元素占所有可能對 | E | × | K | 的比例（代表模型能泛化出多少“未見過但合理”的實體–屬性組合）。這種情況恰好對應于二分圖上的鍵滲流（bond percolation）問題。

在鍵滲流中，我們研究最大連通集群的規模如何隨每條邊（鍵）存在概率 p 的變化而變化。通常存在一個臨界閾值 p c :當 p < p c 時，圖處于不連通相，大多數節點孤立或屬于小集群；當 p > p c 時，圖轉變為連通相，出現跨越大部分圖的巨型連通簇。這種從主要不連通狀態到存在宏觀集群的轉變是滲流過程的標志特征，且隨著節點數的增加，這一轉變會愈發陡峭。

將構成看不見的概念(例如,實體和屬性)的能力投射為二分圖上的滲流：(a)若概念類僅部分出現在訓練集中，或實體-屬性連接稀疏，圖中節點將形成多個“孤立簇”（見左圖，顏色不同表示不同連通區域）；隨著更多概念類被加入（虛線邊表示新增連接），這些小簇開始合并（中圖）；隨著更多概念類被加入（虛線邊表示新增連接），這些小簇開始合并（中圖）。(b)我們的理論將這種轉變建立為二階相變，其中最大團簇的大小隨著連接節點對的比例非線性地增加。

在簡單滲流場景中（圖的連接邊隨機選擇，概率為 p ），滲流閾值為（當 | E | 和 | K | 較大時）。這意味著當約 | E | | K | 條邊被連接時（總可能邊數為），系統的連通簇會出現質變。對于 p > p c ，最大簇的節點數迅速增長，任取一對實體–屬性，其在同一簇中的概率趨近于常數。

滲流閾值對應于模型從對組合的稀疏學習轉向完整表征概念類的臨界點。當邊數量超過閾值時，模型能夠推斷未見過的組合，即使這些實體-屬性對未在訓練數據中顯式共現。模型還應能在此閾值后區分不同的概念類；在社區檢測問題（如隨機塊模型）中，分區檢測閾值與 p c 具有相同的標度律。由于在線學習中的迭代次數增加應對應于 p 的增加（即觀察更多實體–屬性配對），模型性能發生轉變的迭代點應與成正比。

5.2.4 實驗驗證

基于圖論的理論框架可以預測結構學習過程的“滲流相變”行為，尤其是在模型試圖泛化出未見過但合理的實體–屬性組合時。實證檢驗設置如下：實體數固定，屬性數取不同值，模型架構、學習率、數據分布等保持一致，記錄每次訓練的描述型類型檢查準確率隨訓練迭代數的變化曲線，并從中估計“涌現點”——即描述類型檢查準確率開始顯著上升的訓練迭代 t 。

描述結構涌現點的理論與實證對比

實驗結果如上圖所示，模型對描述性結構的學習，確實存在一個清晰的“轉折點”，這個轉折點的位置正比于，該現象符合滲流理論中的臨界點預測。

6. 總結

在大語言模型百花齊放的今天，我們很容易觀察到大語言模型在特定能力上表現出的非線性躍遷特征：當模型規模較小時，這些能力完全不存在；但當參數規模突破某一臨界點后，模型會突然展現出如復雜推理、上下文學習等新能力。這便是涌現現象。如果說平滑增長的神經標度律承諾我們，只要投入足夠的資源，大模型的能力一定會持續增長。那么涌現現象便是在說，我們有可能四兩撥千斤，在有些時候，只要讓投入資源的規模再擴大一點，就可以獲得出乎意料的超額回報。于是對于大模型涌現的描述、解釋和預測是值得關注的重要課題。

但目前，學者們對于大模型涌現的描述更多停留在定性層面，而且受到下游任務設計、度量指標選取等諸多因素的影響。本詞條綜述了部分對于大模型涌現的代表性研究，而對于大模型涌現的機制解釋，對于涌現、頓悟、神經標度律的統一理論解釋，還有很大的領域空白，尤其是在如何借鑒復雜系統研究中的涌現相關理論上。未來隨著可解釋性人工智能技術的進一步發展，我們將對大模型涌現現象有更加深刻的理解。

作者一

作者二

作者三

作者四

本詞條由集智俱樂部眾包生產，難免存在紕漏和問題，歡迎大家留言反饋或者前往對應的百科詞條頁面進行修改，一經修改，可以獲得對應的積分獎勵噢！

親愛的社區成員和知識愛好者：

我們正在尋找對知識分享充滿熱情的志愿者，加入我們的集智百科詞條編寫團隊！無論你是某個領域的專家，還是對某一主題有濃厚興趣，我們都歡迎你的加入。通過編寫和編輯百科詞條，你將有機會為全球讀者提供準確、權威的信息，同時提升自己的寫作和研究能力。

我們需要的幫助

編寫新的集智百科詞條，涵蓋復雜系統、人工智能等多個領域

更新和完善現有詞條，確保信息的準確性和時效性

校對和審核其他志愿者提交的內容，確保詞條質量

我們希望你具備

良好的寫作能力，能夠清晰、簡潔地表達復雜的概念

對某一領域有深入了解或濃厚興趣

具備基本的網絡搜索和信息整理能力

有責任心和團隊合作精神，愿意為知識共享貢獻力量

如果你對知識分享充滿熱情，愿意為全球讀者提供有價值的信息，請立即加入我們！

掃碼填表，添加負責人微信

讓我們一起，用知識連接世界！

參考文獻

1. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent Abilities of Large Language Models (arXiv:2206.07682). arXiv. https://doi.org/10.48550/arXiv.2206.076822. P. W. Anderson,More Is Different.Science, 177(4047): 393-396, 1972. DOI:10.1126/science.177.4047.3933. Jacob Steinhardt. Future ml systems will be qualitatively different, 2022. URL https://bounded-regret. ghost.io/future-ml-systems-will-be-qualitatively-different/. Accessed May 20, 2022.4. Bernardo A. Huberman and Tad Hogg. Phase transitions in artificial intelligence systems. Artificial Intelligence, 33(2):155–171, 1987. URL https://www.sciencedirect.com/science/article/ abs/pii/0004370287900336.5. Jared Kaplan, Sam McCandlish, Tom Henighan, et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 20206. Ziming Liu, Ouail Kitouni, Niklas Nolte, et al. Towards Understanding Grokking: An Effective Theory of Representation Learning. arXiv:2205.10343, 20227. Preetum Nakkiran, Gal Kaplun, Yamini Bansal, et al. Deep Double Descent: Where Bigger Models and More Data Hurt. arXiv:1912.02292, 20198. Huang, Y., Hu, S., Han, X., Liu, Z., & Sun, M. (2024). Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition (arXiv:2402.15175). arXiv. https://doi.org/10.48550/arXiv.2402.151759. Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): [[1]].10. Wei, Jason, et al. "Finetuned language models are zero-shot learners." arXiv preprint arXiv:2109.01652 (2021).11. Srivastava, Aarohi, et al. "Beyond the imitation game: Quantifying and extrapolating the capabilities of language models." arXiv preprint arXiv:2206.04615 (2022).12. 張俊林, 大語言模型的涌現能力：現象與解釋. 2023. 知乎. https://zhuanlan.zhihu.com/p/62143865313. Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020. URL https://arxiv.org/abs/2001.0836114. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. NeurIPS, 2022. URL https://arxiv.org/abs/2203.15556.15. Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. NeurIPS, 2020. URL https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html16. Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv preprint arXiv:2112.11446, 2021. URL https://arxiv.org/abs/ 2112.11446.17. BIG-Bench. Beyond the imitation game: Measuring and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022. URL https://arxiv.org/abs/2206.04615.18. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H-T., Jin, A., Bos, T., Baker, L., Du, Y. et al. LaMDA: Language models for dialog applications. arXiv preprint arXiv:2201.08239, 2022. URL https://arxiv.org/abs/2201.08239.19. Lin, S., Hilton, J., & Evans, O. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958, 2021. URL https://arxiv.org/abs/2109.07958.20. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Ho?mann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S. et al. Scaling language models: Methods, analysis and insights from training Gopher. arXiv preprint arXiv:2112.11446, 2021. URL https://arxiv.org/abs/ 2112.11446.21. Patel, R. & Pavlick, E. Mapping language models to grounded conceptual spaces. ICLR, 2022. URL https://openreview.net/forum?id=gJcEM8sxHK.22. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. Measuring massive multitask language understanding. ICLR, 2021a. URL https://openreview.net/ forum?id=d7KBjmI3GmQ.23. Pilehvar, M. T. and Camacho-Collados, J. WiC: the word-in-context dataset for evaluating context-sensitive meaning representations. NAACL, 2019. URL https://aclanthology.org/N19-1128.24. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E. et al. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258, 2021. URL https://arxiv.org/abs/2108.07258.25. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D. et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. URL https://openreview.net/forum?id=iedYJm92o0a.26. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021. URL https://arxiv.org/abs/2110.14168.27. Suzgun, M., Scales, N., Scharli, N., Gehrmann, S., Tay, Y., Chung, H.Y., Chowdhery, A., Le, Q.V., Chi, E.H., Zhou, D., & Wei, J. Challenging BIG-Bench tasks and whether chain-of-thought can solve them. arXiv preprint arXiv:2210.09261, 2022. URL https://arxiv.org/abs/2210.09261.28. Lampinen, A.k., Dasgupta, I., Chan, S. C.Y., Matthewson, K., Tessler, M.H., Creswell, A., McClelland, J.L., Wang, J.X., & Hill, F. Can language models learn from explanations in context? Findings of EMNLP, 2022. URL https://arxiv.org/abs/2204.02329.29. Ouyang,L., Wu, J., Jiang, X., Almeida, D., Wainwright, C.L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A. et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022. URL https://arxiv.org/abs/2203.02155.30. Sanh, V., Webson, A., Ra?el, C., Bach, S., Sutawika, L., Alyafeai, Z., Cha?n, A., Stiegler, A., Scao, T.L., Raja, A. et al. Multitask prompted training enables zero-shot task generalization. ICLR, 2022. URL https://openreview.net/forum?id=9Vrb9D0WI4.31. Chung, H.W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S. et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022. URL https://arxiv.org/abs/2210.11416.32. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, E., Perez, E., Schiefer, N., Hatfield-Dodds Z., et al. (2022) Language Models (Mostly) Know What They Know.(arXiv:2207.05221). arXiv. https://arxiv.org/abs/2207.0522133. Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? (arXiv:2304.15004). arXiv. https://doi.org/10.48550/arXiv.2304.1500434. Michaud, E. J., Liu, Z., Girit, U., & Tegmark, M. (n.d.). The Quantization Model of Neural Scaling. https://arxiv.org/abs/2303.1350635. Lubana, E. S., Kawaguchi, K., Dick, R. P., & Tanaka, H. (2024). A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language (arXiv:2408.12578). arXiv. https://doi.org/10.48550/arXiv.2408.1257836. E. P. Hoel, L. Albantakis, and G. Tononi. Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):[[2]], 2013.37. E. P. Hoel, L. Albantakis, W. Marshall, and G. Tononi. Can the macro beat the micro? integrated information across spatiotemporal scales. Neuroscience of Consciousness, 2016(1):niw012, 2016.38. F. E. Rosas, P. A. Mediano, H. J. Jensen, A. K. Seth, A. B. Barrett, R. L. Carhart-Harris, and D. Bor. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS computational biology, 16(12):e1008289, 2020.39. Chen, H., Yang, X., Zhu, J., & Wang, W. (2024). Quantifying Semantic Emergence in Language Models (arXiv:2405.12617). arXiv.40. M. I. Belghazi, A. Baratin, S. Rajeshwar, S. Ozair, Y. Bengio, A. Courville, and D. Hjelm. Mutual information neural estimation. In International conference on machine learning, pages531–540. PMLR, 2018.41. Lindsey, et al., "On the Biology of a Large Language Model", Transformer Circuits, 2025.42. Ameisen, et al., "Circuit Tracing: Revealing Computational Graphs in Language Models", Transformer Circuits, 2025.

參考文獻可上下滑動查看

大模型可解釋性讀書會讀書會

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境，嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論：

自下而上：Transformer circuit 為什么有效？

自上而下：神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚？

復雜科學：滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力？

系統工程：如何擁抱不確定性，在具體的業界實踐中創造價值？

五位發起人老師會帶領大家研讀領域前沿論文，現誠邀對此話題感興趣的朋友，一起共創、共建、共享「大模型可解釋性」主題社區，通過互相的交流與碰撞，促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者，探索復雜系統與智能本質的交叉學科探索者，還是追求模型安全可信的工程實踐者，誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會計劃于2025年6月19日啟動，每周四晚19:30-21:30，預計持續分享10周左右。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.