信息過載時代，如何真正「懂」LLM？從MIT分享的50個面試題開始

2025-06-18 14:34:03　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：+0

人類從農(nóng)耕時代到工業(yè)時代花了數(shù)千年，從工業(yè)時代到信息時代又花了兩百多年，而 LLM 僅出現(xiàn)不到十年，就已將曾經(jīng)遙不可及的人工智能能力普及給大眾，讓全球數(shù)億人能夠通過自然語言進行創(chuàng)作、編程和推理。

LLM 的技術(shù)版圖正以前所未有的速度擴張，從不斷刷新型號的「模型競賽」，到能夠自主執(zhí)行任務的智能體，技術(shù)的浪潮既令人振奮，也帶來了前所未有的挑戰(zhàn)。

如何在海量信息中建立真正的認知深度，而非僅僅成為一個熱點的追隨者？也許可以從「做題」開始。

最近，MIT CSAIL 分享了一份由工程師 Hao Hoang 編寫的 LLM 面試指南，精選了 50 個關(guān)鍵問題，旨在幫助專業(yè)人士和AI愛好者深入理解其核心概念、技術(shù)與挑戰(zhàn)。

文檔鏈接：https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view

我們將這 50 個問題劃分為了幾大主題，并附上圖示和關(guān)鍵論文。希望這份指南能成為您的「尋寶圖」，助您開啟 LLM 探索之旅，無論是在面試中，還是在未來的技術(shù)浪潮中，都能保持清醒的認知和持續(xù)探索的熱情。

LLM 發(fā)展歷程。來源：arXiv:2304.13712

核心架構(gòu)與基本概念

問題 1：Token 化（tokenization）包含哪些內(nèi)容，為什么它對 LLM 至關(guān)重要？

Token 化是將文本分解為更小單元（稱為 token）的過程，這些單元可以是單詞、詞的一部分或字符。例如，單詞「artificial」可以被分解為「art」、「ific」和「ial」。

這是一個關(guān)鍵步驟，因為LLM 處理的是這些 token 的數(shù)值版本，而不是原始文本。通過 token 化，模型可以處理多種語言，處理稀有詞匯或不在其詞匯表中的詞匯，并保持詞匯表大小的可管理性，這反過來提高了計算速度和模型的有效性。

問題 2：注意力機制在 Transformer 模型中如何運作？

注意力機制使 LLM 能夠在生成或分析文本時，對序列中的不同 token 分配不同的重要性級別。它通過計算查詢（query）、鍵（key）和值（value）向量之間的相似性分數(shù)來確定這些重要性級別，通常通過點積運算來專注于最相關(guān)的 token。

例如，在句子「The cat chased the mouse」中，注意力機制幫助模型將「mouse」與「chased」連接起來。這一功能增強了模型理解上下文的能力，使 Transformer 在自然語言處理任務中非常有效。

問題 3：LLM 中的上下文窗口是什么，為什么它很重要？

上下文窗口是LLM 能夠同時處理的 token 數(shù)量，它本質(zhì)上定義了模型理解或創(chuàng)建文本的短期記憶。更大的窗口（例如 32000 個 token）讓模型能夠考慮更多上下文，在摘要等活動中產(chǎn)生更連貫的結(jié)果。另一方面，更大的窗口也意味著更高的計算成本。在窗口大小和運行效率之間找到正確的平衡是在實際場景中使用 LLM 的關(guān)鍵。

問題 4：序列到序列模型是什么，它們在哪里應用？

序列到序列（Seq2Seq) 模型旨在將輸入序列轉(zhuǎn)換為輸出序列，輸出序列的長度通常可以不同。這些模型由編碼器（處理輸入）和解碼器（創(chuàng)建輸出）組成。它們應用于各種場景，如機器翻譯（例如，從英語到德語）、文本摘要和聊天機器人，其中輸入和輸出的長度經(jīng)常不同。

問題 5：嵌入（embeddings）是什么，它們在 LLM 中如何初始化？

嵌入是在連續(xù)空間中代表 token 的緊湊向量，捕獲它們的語義和句法特征。它們通常以隨機值開始，或者使用像 GloVe 這樣的預訓練模型，然后在訓練過程中進行調(diào)整。例如，單詞「dog」的嵌入可能會被修改以更好地表示其在寵物相關(guān)上下文中的使用，這將提高模型的準確性。

問題 6：LLM 如何處理詞匯外（out-of-vocabulary, OOV）單詞？

LLM 通過使用子詞 token 化方法（如字節(jié)對編碼，Byte-Pair Encoding）來處理 OOV 單詞，將這些單詞分解為更小的、熟悉的子詞單元。例如，像「cryptocurrency」這樣的單詞可以被分解為「crypto」和「currency」。這種技術(shù)使 LLM 能夠處理不常見或新的單詞，確保它們能夠有效地理解和生成語言。

問題 7：Transformer 如何改進傳統(tǒng)的 Seq2Seq 模型？

Transformer 通過幾種方式解決了傳統(tǒng) Seq2Seq 模型的缺點：

并行處理：使用自注意力允許同時處理 token，這與 RNN 的序列性質(zhì)不同。
長距離依賴：注意力機制能夠捕獲文本中相距較遠的 token 之間的關(guān)系。
位置編碼（Positional Encodings）：這些用于維持序列的順序。

這些特征導致翻譯等任務中更好的可擴展性和性能。

問題 8：位置編碼是什么，為什么要使用它們？

位置編碼用于向 Transformer 的輸入添加關(guān)于序列順序的信息，因為自注意力機制本身沒有方法知道 token 的順序。通過使用正弦函數(shù)或?qū)W習向量，它們確保像「king」和「crown」這樣的 token 能夠根據(jù)其位置被正確理解，這對翻譯等任務至關(guān)重要。

問題 9：多頭注意力（multi-head attention) 是什么，它如何增強 LLM？

多頭注意力將查詢、鍵和值分成幾個較小的部分，這讓模型能夠同時專注于輸入的不同方面。例如，在給定句子中，一個頭可能專注于句法，而另一個可能專注于語義。這增強了模型識別復雜模式的能力。

問題 10：Transformer 如何解決梯度消失問題？

Transformer 通過幾種機制解決梯度消失問題：

自注意力：這避免了對序列依賴的需要。
殘差連接（Residual Connections）：這些為梯度流動創(chuàng)建直接路徑。
層歸一化（Layer Normalization）：這有助于保持更新的穩(wěn)定性。

這些特征使得深度模型的有效訓練成為可能，這是相對于 RNN 的優(yōu)勢。

問題 11：在 Transformer 中編碼器和解碼器有何不同？

編碼器負責處理輸入序列并將其轉(zhuǎn)換為保持上下文的抽象表示。另一方面，解碼器通過使用編碼器的表示和先前生成的 token 來生成輸出。在翻譯的情況下，編碼器理解源語言，解碼器然后在目標語言中創(chuàng)建輸出，這使得有效的序列到序列任務成為可能。

問題 12：什么定義了大型語言模型（LLM）？

LLM 是在廣泛文本數(shù)據(jù)集上訓練的 AI 系統(tǒng)，能夠理解和產(chǎn)生類似人類的語言。它們的特征是擁有數(shù)十億參數(shù)，在翻譯、摘要和問答等任務中表現(xiàn)出色，因為它們能夠從上下文中學習，這給了它們廣泛的適用性。

關(guān)鍵論文

Attention Is All You Need

拋棄了傳統(tǒng)的循環(huán)和卷積結(jié)構(gòu)，首次提出完全基于自注意力機制的 Transformer 模型，成為當今幾乎所有主流 LLM 的架構(gòu)基礎(chǔ)。

https://arxiv.org/abs/1706.03762

Sequence to Sequence Learning with Neural Networks

提出了經(jīng)典的 Seq2Seq 框架，利用一個 RNN（編碼器）讀取輸入序列，另一個 RNN（解碼器）生成輸出序列，為機器翻譯等任務設(shè)定了新的標桿。

https://arxiv.org/abs/1409.3215

Efficient Estimation of Word Representations in Vector Space

提出了 Word2Vec 模型（包含 Skip-gram 和 CBOW 算法），高效地學習到了能捕捉語義關(guān)系的詞嵌入向量，是現(xiàn)代詞表示方法的基石。

https://arxiv.org/abs/1301.3781

模型訓練與微調(diào)

問題 13：LoRA 和 QLoRA 在 LLM 微調(diào)中有什么區(qū)別？

LoRA（低秩自適應, Low-Rank Adaptation）是一種微調(diào)方法，它將低秩矩陣融入模型的層中，允許以極少的內(nèi)存需求進行高效適應。QLoRA 在此基礎(chǔ)上，通過使用量化（例如，到 4 位精度）來進一步減少內(nèi)存使用，同時仍保持準確性。舉例來說，QLoRA 允許在僅一個 GPU 上對擁有 700 億參數(shù)的模型進行微調(diào)，這使其成為資源有限情況下的絕佳選擇。

問題 14：LLM 如何在微調(diào)期間避免災難性遺忘？

災難性遺忘是指模型在微調(diào)后失去其先前知識的現(xiàn)象。有幾種方法可以防止這種情況：

重播（Rehearsal）：在訓練過程中將舊數(shù)據(jù)和新數(shù)據(jù)混合在一起。
彈性權(quán)重整合（Elastic Weight Consolidation）：這種方法優(yōu)先考慮重要權(quán)重以幫助保持現(xiàn)有知識。
模塊化架構(gòu)：為特定任務添加新模塊，以防止現(xiàn)有模塊被覆蓋。

通過使用這些策略，LLM 可以保持多功能性并在各種任務中表現(xiàn)良好。

問題 15：模型蒸餾是什么，它如何使 LLM 受益？

模型蒸餾是一個過程，其中較小的「學生」模型被訓練來復制較大「教師」模型的輸出，通過使用軟概率而非嚴格標簽。這種方法減少了所需的內(nèi)存和處理能力，使得模型能夠在智能手機等設(shè)備上使用，同時仍能實現(xiàn)接近教師模型的性能，使其非常適合實時應用。

問題 16：什么是過擬合（overfitting），在 LLM 中如何緩解？

過擬合是指模型過度學習訓練數(shù)據(jù)，以至于無法泛化到新數(shù)據(jù)的現(xiàn)象。減少過擬合的方法包括：

正則化：使用 L1/L2 懲罰等技術(shù)來簡化模型。
Dropout：在訓練過程中隨機停用神經(jīng)元。
早停（Early Stopping）：當模型在驗證集上的性能不再改善時停止訓練。

這些方法有助于確保模型能夠?qū)ξ匆娺^的數(shù)據(jù)做出穩(wěn)健的泛化。

問題 17：PEFT 如何緩解災難性遺忘？

參數(shù)高效微調(diào)（PEFT）通過只更新模型參數(shù)的一小部分，同時保持其余部分凍結(jié)以維持預訓練期間獲得的知識來工作。諸如 LoRA 等方法允許 LLM 適應新任務而不犧牲其基本能力，有助于確保在不同領(lǐng)域的一致性能。

問題 18：超參數(shù)（hyperparameter）是什么，為什么它很重要？

超參數(shù)是在訓練前設(shè)置的值（如學習率或批次大小），它們指導模型的訓練過程。這些設(shè)置影響模型的收斂性和性能；例如，過高的學習率可能導致不穩(wěn)定。調(diào)整超參數(shù)是優(yōu)化 LLM 效率和準確性的方法。

關(guān)鍵論文

Adam: A Method for Stochastic Optimization

提出了 Adam 優(yōu)化器，它結(jié)合了動量（Momentum）和 RMSprop 的優(yōu)點，成為訓練深度神經(jīng)網(wǎng)絡(luò)（包括 LLM）最常用、最有效的默認優(yōu)化算法。

https://arxiv.org/abs/1412.6980

LoRA: Low-Rank Adaptation of Large Language Models

提出了低秩適配（LoRA）方法，通過僅訓練少量注入的、低秩的矩陣來實現(xiàn)參數(shù)高效微調(diào)（PEFT），極大地降低了微調(diào) LLM 的計算和存儲成本。

https://arxiv.org/abs/2106.09685

Distilling the Knowledge in a Neural Network

系統(tǒng)性地提出了「知識蒸餾」的概念，即訓練一個小模型（學生）來模仿一個大模型（教師）的行為，從而在保持大部分性能的同時實現(xiàn)模型壓縮和加速。

https://arxiv.org/abs/1503.02531

文本生成與推理技術(shù)

問題 19：束搜索（beam search）相比貪婪解碼如何改善文本生成？

在文本生成過程中，束搜索同時考慮多個可能的詞序列，在每個階段保留前「k」個候選（稱為束）。這與貪婪解碼形成對比，后者在每步只選擇單個最可能的單詞。通過使用這種方法（例如 k 值為 5），輸出更加連貫，因為它在概率和多樣性之間取得平衡，這對機器翻譯或?qū)υ拕?chuàng)建等任務特別有用。

問題 20：溫度在控制 LLM 輸出中起什么作用？

溫度是一個調(diào)節(jié)在生成文本時 token 選擇隨機性程度的設(shè)置。低溫度（如 0.3）使模型偏向高概率 token，導致可預測的文本。相反，高溫度（如 1.5）通過使概率分布變得更平坦來提高多樣性。溫度設(shè)置為 0.8 通常用于在故事創(chuàng)作等活動中實現(xiàn)創(chuàng)造性和連貫性的良好平衡。

問題 21：top-k 采樣和 top-p 采樣在文本生成中有何不同？

Top-k 采樣將下一個 token 的選擇范圍縮小到「k」個最可能的選項（例如，k=20），然后從這個較小的群體中采樣，這允許受控的多樣性。Top-p （或核采樣）采樣則從概率組合超過某個閾值「p」（如 0.95）的 token 群體中選擇，這意味著群體大小可以根據(jù)上下文而變化。Top-p 提供更大的適應性，產(chǎn)生既多樣又邏輯的輸出，這對創(chuàng)意寫作有益。

問題 22：為什么提示工程對 LLM 性能至關(guān)重要？

提示工程是創(chuàng)建特定輸入以從LLM 獲得期望響應的實踐。定義明確的提示（如「用 100 個單詞總結(jié)這篇文章」）比模糊的提示產(chǎn)生更相關(guān)的輸出。這種技術(shù)在零樣本或少樣本場景中特別有用，因為它允許 LLM 在不需要大量微調(diào)的情況下執(zhí)行翻譯或分類等任務。

問題 23：檢索增強生成（RAG）包含哪些步驟？

RAG 過程包含以下步驟：

檢索：使用查詢嵌入找到相關(guān)文檔。
排序：根據(jù)相關(guān)性對檢索到的文檔進行排序。
生成：最后，使用檢索文檔的上下文創(chuàng)建準確答案。

RAG 用于提高問答等任務中答案的事實正確性。

問題 24：思維鏈提示是什么，它如何幫助推理？

CoT 提示是一種引導 LLM 以類似人類推理的逐步方式處理問題的技術(shù)。例如，在解決數(shù)學問題時，它將計算分解為一系列邏輯步驟，這在邏輯推理或需要多步驟的查詢等復雜任務中產(chǎn)生更好的準確性并使推理過程更容易理解。

關(guān)鍵論文

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

提出了思維鏈（CoT）提示法，通過引導模型在回答前先生成一步步的推理過程，顯著提升了 LLM 在算術(shù)、常識和符號推理任務上的表現(xiàn)。

https://arxiv.org/abs/2201.11903

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

提出了 RAG 框架，將預訓練的語言模型與非參數(shù)化的外部知識庫（通過檢索器訪問）相結(jié)合，有效減少了模型幻覺，并能輕松更新知識。

https://arxiv.org/abs/2005.11401

The Curious Case of Neural Text Degeneration

深入分析了傳統(tǒng)解碼策略（如束搜索）為何會產(chǎn)生重復、乏味和不合邏輯的文本，并提出了核采樣（Nucleus Sampling，或 top-p），成為一種主流的高質(zhì)量文本生成解碼策略。

https://arxiv.org/abs/1904.09751

訓練范式與學習理論

問題 25：掩碼語言建模是什么，它如何幫助預訓練？

掩碼語言建模（MLM）是一種訓練技術(shù)，其中文本序列中的隨機 token 被隱藏，模型需要基于周圍上下文來預測它們。這種方法被用于像 BERT 這樣的模型中，鼓勵對語言的雙向理解，使模型能夠更好地理解語義連接。這種預訓練為 LLM 準備了各種任務，包括情感分析和問答。

問題 26：自回歸模型和掩碼模型在 LLM 訓練中有何不同？

自回歸模型（如 GPT）基于之前的 token 逐個生成 token，這使它們在完成文本等創(chuàng)造性任務中表現(xiàn)出色。相反，掩碼模型（如 BERT）通過觀察雙向上下文來預測隱藏的 token，這使它們更適合像分類這樣的理解任務。這些模型的訓練方式?jīng)Q定了它們在生成或理解方面的不同優(yōu)勢。

問題 27：下句預測是什么，它如何增強 LLM？

下句預測（NSP）是一種訓練方法，其中模型學習判斷兩個句子是否邏輯上連續(xù)或不相關(guān)。在預訓練階段，像 BERT 這樣的模型被教導對句子對進行分類，一半是連續(xù)的（正例），另一半是隨機的（負例）。NSP 通過使模型理解句子間的關(guān)系，幫助改善對話系統(tǒng)和文檔摘要等應用中的連貫性。

問題 28：在 NLP 中生成式模型與判別式模型有何區(qū)別？

生成式模型（如 GPT）通過建模數(shù)據(jù)的聯(lián)合概率來創(chuàng)建文本或圖像等新內(nèi)容。另一方面，判別式模型（如用于分類的 BERT）建模條件概率來區(qū)分類別，如情感分析中的情況。生成式模型最擅長創(chuàng)造新事物，而判別式模型專注于做出準確的分類。

問題 29：判別式 AI 和生成式 AI 有何不同？

判別式AI（如情感分類器）通過基于輸入特征預測標簽來工作，涉及建模條件概率。另一方面，生成式 AI（如 GPT）通過建模聯(lián)合概率來創(chuàng)建新數(shù)據(jù)，使其非常適合文本或圖像生成等任務并提供創(chuàng)造性自由。

問題 30：零樣本學習是什么，LLM 如何實現(xiàn)它？

零樣本學習是LLM 通過利用預訓練期間獲得的一般知識來執(zhí)行未經(jīng)專門訓練的任務的能力。例如，如果向 LLM 提示「將這個評論分類為積極或消極」，它可以在沒有針對該特定任務訓練的情況下確定情感，這展示了其適應性。

問題 31：少樣本學習是什么，它有什么好處？

少樣本學習允許LLM 通過利用其預訓練知識僅用少數(shù)例子就能承擔任務。這種方法的優(yōu)勢包括減少對數(shù)據(jù)的需求、更快適應新任務和節(jié)省成本，這使其成為特定類型文本分類等專業(yè)任務的絕佳選擇。

關(guān)鍵論文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

提出了BERT 模型及其核心訓練任務「掩碼語言模型」（MLM），通過雙向上下文來預訓練模型，極大地提升了模型對語言的深層理解能力，成為理解任務的里程碑。

https://arxiv.org/abs/1810.04805

Improving Language Understanding by Generative Pre-Training

提出了生成式預訓練（Generative Pre-Training, GPT）范式，即先在海量無標簽數(shù)據(jù)上進行自回歸預訓練，再針對下游任務進行微調(diào)，奠定了 GPT 系列模型的基礎(chǔ)。

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Language Models are Unsupervised Multitask Learners

這篇是GPT-2 的論文，它證明了通過在更大、更多樣的數(shù)據(jù)集上訓練一個足夠大的自回歸模型，可以使其在沒有明確監(jiān)督的情況下執(zhí)行多種任務（零樣本學習）

，展示了語言模型強大的泛化能力。

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

數(shù)學原理與優(yōu)化算法

問題 32：Softmax 函數(shù)如何應用于注意力機制？

Softmax 函數(shù)使用公式將注意力分數(shù)轉(zhuǎn)換為概率分布。在注意力的上下文中，它將來自查詢和鍵的點積的原始相似性分數(shù)轉(zhuǎn)換為權(quán)重，有助于更強調(diào)相關(guān)的 token。這確保模型專注于對上下文重要的輸入部分。

問題 33：點積如何對自注意力起作用？

在自注意力機制中，查詢（Q）和鍵（K）向量的點積用于計算相似性分數(shù)，如公式

所示。高分數(shù)意味著token 彼此相關(guān)。雖然這種方法是高效的，但它對長序列具有的二次復雜度，這導致了對稀疏注意力等其他選擇的研究。

問題 34：為什么在語言建模中使用交叉熵損失（cross-entropy loss）？

交叉熵損失用于衡量模型預測的token 概率與實際概率之間的差異，根據(jù)公式它通過懲罰錯誤的預測來工作，推動模型做出更準確的token 選擇。在語言建模中，這確保模型給正確的下一個 token 高概率，有助于優(yōu)化其性能。

問題 35：在 LLM 中如何計算嵌入的梯度？

嵌入的梯度在反向傳播過程中使用鏈式法則計算，遵循方程式這些梯度然后用于修改嵌入向量，以減少損失，從而細化它們的語義表示并在任務中獲得更好的性能。

問題 36：雅可比矩陣（Jacobian matrix）在 Transformer 反向傳播中的作用是什么？

雅可比矩陣用于表示輸出相對于輸入的偏導數(shù)。在 Transformer 中，它對于計算多維輸出的梯度起關(guān)鍵作用，確保權(quán)重和嵌入在反向傳播期間得到正確更新。這對復雜模型的優(yōu)化至關(guān)重要。

問題 37：特征值和特征向量如何與降維相關(guān)？

特征向量顯示數(shù)據(jù)變化的主要方向，特征值表示這些方向上的變化量。在 PCA 等方法中，選擇具有高特征值的特征向量允許在保持大部分方差的同時進行降維，這為 LLM 處理提供了更高效的數(shù)據(jù)表示。

問題 38：KL 散度（KL divergence）是什么，它在 LLM 中如何使用？

KL 散度是衡量兩個概率分布之間差異的度量，計算為在LLM 的上下文中，它用于評估模型的預測與真實分布的吻合程度，有助于指導微調(diào)過程以增強輸出質(zhì)量及其與目標數(shù)據(jù)的對齊。

問題 39：ReLU 函數(shù)的導數(shù)是什么，為什么它很重要？

ReLU 函數(shù)定義為其導數(shù)當x > 0 時為 1，否則為 0。其稀疏性和非線性特征有助于避免梯度消失問題，使 ReLU 成為 LLM 中計算高效且流行的穩(wěn)健訓練選擇。

問題 40：鏈式法則（chain rule）如何應用于 LLM 中的梯度下降？

鏈式法則用于找到由其他函數(shù)組成的函數(shù)的導數(shù)，遵循公式在梯度下降中使用時，它通過允許逐層計算梯度來促進反向傳播，從而實現(xiàn)參數(shù)的高效更新以最小化深度 LLM 架構(gòu)中的損失。

問題 41：在 Transformer 中如何計算注意力分數(shù)？

注意力分數(shù)的計算由公式給出。縮放點積用于確定token 的相關(guān)性，Softmax 函數(shù)然后將這些分數(shù)歸一化以專注于最重要的 token，這改善了摘要等任務中的上下文感知生成。

問題 42：自適應 Softmax 如何優(yōu)化 LLM？

自適應 Softmax 通過根據(jù)詞匯出現(xiàn)頻率對其進行分類來提高效率，減少不常見詞匯所需的計算。這種方法降低了管理大型詞匯表的成本，導致更快的訓練和推理時間，同時保持準確性，在資源有限的環(huán)境中特別有用。

關(guān)鍵論文

Deep Residual Learning for Image Recognition

提出了殘差網(wǎng)絡(luò)（ResNet），通過引入「殘差連接」（Shortcut Connections）有效解決了深度神經(jīng)網(wǎng)絡(luò)中的梯度消失問題，使得訓練數(shù)百甚至上千層的網(wǎng)絡(luò)成為可能。這一思想被 Transformer 架構(gòu)所借鑒。

https://arxiv.org/abs/1512.03385

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

提出了批量歸一化（Batch Normalization），一種穩(wěn)定和加速神經(jīng)網(wǎng)絡(luò)訓練的強大技術(shù)。Transformer 中使用的層歸一化（Layer Normalization）也源于類似的思想。

https://arxiv.org/abs/1502.03167

高級模型與系統(tǒng)設(shè)計

問題 43：GPT-4 在功能和應用方面與 GPT-3 有何不同？

GPT-4 在幾個方面改進了 GPT-3：

多模態(tài)輸入：它可以處理文本和圖像。
更大的上下文：它可以處理多達25000 個 token，相比之下 GPT-3 只能處理 4096 個。
增強的準確性：由于更好的微調(diào)，它犯的事實錯誤更少。

這些進步使其能夠用于更廣泛的應用，包括視覺問答和復雜對話。

問題 44：Gemini 如何優(yōu)化多模態(tài) LLM 訓練？

Gemini 通過幾種方式提高效率：

統(tǒng)一架構(gòu)：它集成文本和圖像處理以更高效地使用參數(shù)。
先進注意力：它利用更先進的注意力機制來增強跨模態(tài)學習的穩(wěn)定性。
數(shù)據(jù)效率：它采用自監(jiān)督方法來減少對標注數(shù)據(jù)的依賴。

這些特征使Gemini 相比 GPT-4 等模型成為更穩(wěn)定和可擴展的選擇。

問題 45：存在哪些類型的基礎(chǔ)模型（foundation models）？

基礎(chǔ)模型可以分類為：

語言模型：包括BERT 和 GPT-4 等模型，用于基于文本的任務。
視覺模型：例如ResNet，用于圖像分類等任務。
生成模型：DALL-E 是用于創(chuàng)建新內(nèi)容的模型示例。
多模態(tài)模型：CLIP 是同時處理文本和圖像的模型。

這些模型利用廣泛的預訓練來適用于各種用途。

問題 46：專家混合（MoE）如何增強 LLM 的可擴展性？

MoE 使用門控函數(shù)將每個輸入導向特定的專家子網(wǎng)絡(luò)，有助于降低計算需求。例如，對于任何給定查詢，可能只有 10% 的模型參數(shù)被激活，這允許擁有數(shù)十億參數(shù)的模型高效運行，同時仍提供高性能。

問題 47：知識圖譜集成如何改善 LLM？

知識圖譜以幾種方式為LLM 提供結(jié)構(gòu)化的事實信息：

減少幻覺（Hallucinations）：它們允許根據(jù)圖譜驗證事實。
改善推理：它們利用實體間的關(guān)系來改善推理。
增強上下文：它們提供結(jié)構(gòu)化上下文，產(chǎn)生更好的響應。

這對問答和實體識別等應用特別有益。

關(guān)鍵論文

Language Models are Few-Shot Learners

這篇是GPT-3 的論文，它通過將模型參數(shù)擴展到前所未有的 1750 億，展示了 LLM 強大的少樣本（Few-Shot）甚至零樣本（Zero-Shot）上下文學習能力，用戶只需在提示中給出少量示例即可完成任務。

https://arxiv.org/abs/2005.14165

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

提出了稀疏門控的專家混合（MoE）層，允許模型在保持每個輸入計算成本不變的情況下，將參數(shù)量擴展到萬億級別，是實現(xiàn)當今最高效、最大規(guī)模 LLM 的關(guān)鍵技術(shù)。

https://openreview.net/pdf?id=B1ckMDqlg

Gemini: A Family of Highly Capable Multimodal Models

作為技術(shù)報告，它介紹了原生多模態(tài)模型Gemini 的設(shè)計。Gemini 從一開始就被設(shè)計為可以無縫地理解和處理文本、代碼、音頻、圖像和視頻等多種信息類型。

https://arxiv.org/abs/2312.11805

應用、挑戰(zhàn)與倫理

問題 48：如何修復生成有偏見或錯誤輸出的 LLM？

要糾正LLM 的有偏見或不準確輸出，您需要采取以下步驟：

分析模式：尋找數(shù)據(jù)或所使用提示中偏見的來源。
改進數(shù)據(jù)：使用平衡的數(shù)據(jù)集并應用技術(shù)來減少偏見。
微調(diào)：使用策劃的數(shù)據(jù)重新訓練模型或采用對抗方法。

這些行動有助于改善公平性和準確性。

問題 49：LLM 與傳統(tǒng)統(tǒng)計語言模型有何不同？

LLM 基于 Transformer 架構(gòu)構(gòu)建，在龐大數(shù)據(jù)集上訓練，并使用無監(jiān)督預訓練，而統(tǒng)計模型（如 N-grams）依賴于更簡單的監(jiān)督技術(shù)。LLM 能夠管理長距離依賴，使用上下文嵌入，執(zhí)行廣泛的任務，但它們也需要大量的計算能力。

問題50：LLM 在部署中面臨哪些挑戰(zhàn)？

部署LLM 相關(guān)的挑戰(zhàn)包括：

資源密集性：它們有很高的計算需求。
偏見：存在它們可能延續(xù)訓練數(shù)據(jù)中存在的偏見的風險。
可解釋性：它們的復雜性使它們難以解釋。
隱私：數(shù)據(jù)安全存在潛在問題。

處理這些挑戰(zhàn)對于確保LLM 的道德和有效使用是必要的。

關(guān)鍵論文

On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?

這篇論文引發(fā)了廣泛的討論，它批判性地審視了大規(guī)模語言模型存在的偏見、環(huán)境成本、不可解釋性等風險，并對未來發(fā)展方向提出了警示。

https://dl.acm.org/doi/pdf/10.1145/3442188.3445922

Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings

系統(tǒng)性地揭示并量化了詞嵌入中存在的社會偏見（如性別偏見），并提出了消除這些偏見的算法，是研究 AI 公平性和偏見的早期關(guān)鍵工作。

https://arxiv.org/abs/1607.06520

Survey of Hallucination in Natural Language Generation

作為一篇綜述性論文，它全面地總結(jié)和分類了LLM 中的「幻覺」（即生成與事實不符或無意義內(nèi)容）現(xiàn)象，分析了其成因、評估方法和緩解策略。

https://arxiv.org/abs/2202.03629

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.