網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深度解密大語(yǔ)言模型: 數(shù)據(jù), 評(píng)估和系統(tǒng) | 斯坦福最新“構(gòu)建LLM大語(yǔ)言模型”講座三萬(wàn)字全文（附視頻）

2024-08-29 21:24:58　來(lái)源: Web3天空之城

浙江舉報(bào)

分享至

未經(jīng)許可不得轉(zhuǎn)載，務(wù)必保留原文出處鏈接和公眾號(hào)按鈕

（關(guān)注本城公眾號(hào)并設(shè)為星標(biāo)，

第一時(shí)間獲取最新世界頂級(jí)科技認(rèn)知）

文：Web3天空之城 · 城主

當(dāng)下，我們所依賴的大型語(yǔ)言模型（LLM）已成為人工智能領(lǐng)域的核心。無(wú)論是OpenAI的ChatGPT，還是其他類似的AI助手，它們的背后都依賴于復(fù)雜而精密的模型訓(xùn)練與優(yōu)化過(guò)程。

盡管對(duì)于非LLM專業(yè)人士來(lái)說(shuō)，我們都明白了這些大模型在日常應(yīng)用中的出色表現(xiàn)，但其背后巨量的技術(shù)細(xì)節(jié)卻是難以一窺全貌，頂多淺嘗而止。近日，斯坦福大學(xué)一場(chǎng)技術(shù)講座以深入淺出的方式，為我們揭示了LLM最新的核心機(jī)制和關(guān)鍵挑戰(zhàn)。從模型架構(gòu)到數(shù)據(jù)處理，從預(yù)訓(xùn)練到后訓(xùn)練，這場(chǎng)講座不僅全面覆蓋了構(gòu)建LLM的所有關(guān)鍵步驟，還特別強(qiáng)調(diào)了容易被忽視的重要細(xì)節(jié)。

城主認(rèn)為，在不涉及具體編程和數(shù)學(xué)學(xué)習(xí)的前提下，這基本是讀者能獲得的關(guān)于LLM最詳盡和有價(jià)值的技術(shù)內(nèi)容了。通讀本文可以幫助您更好地理解LLM的技術(shù)原理和未來(lái)發(fā)展方向。

B站傳送：【中英精?！繕?gòu)建LLM大語(yǔ)言模型 | 斯坦福cs229機(jī)器學(xué)習(xí)最新入門講座-嗶哩嗶哩】 https://b23.tv/gOGbcTz

以下是本講座的重點(diǎn)內(nèi)容，有興趣的讀者可以收藏并找時(shí)間通讀三萬(wàn)字干貨全文。

LLM 的架構(gòu)與關(guān)鍵組件

架構(gòu)選擇：盡管Transformer是當(dāng)前LLM的主流架構(gòu)，但實(shí)際上，訓(xùn)練算法、數(shù)據(jù)、評(píng)估和系統(tǒng)才是構(gòu)建高效LLM的核心關(guān)注點(diǎn)。

自回歸語(yǔ)言模型：LLM主要通過(guò)自回歸方式生成文本，通過(guò)預(yù)測(cè)下一個(gè)單詞的概率來(lái)逐步生成整個(gè)句子。

標(biāo)記化：標(biāo)記化過(guò)程是LLM的重要環(huán)節(jié)之一，標(biāo)記器將文本轉(zhuǎn)換為模型可以處理的標(biāo)記（tokens），而標(biāo)記器的選擇和優(yōu)化直接影響模型的性能。

預(yù)訓(xùn)練與后訓(xùn)練

預(yù)訓(xùn)練：預(yù)訓(xùn)練的目標(biāo)是讓模型學(xué)習(xí)語(yǔ)言的基本結(jié)構(gòu)和語(yǔ)法，通過(guò)在大量文本數(shù)據(jù)上訓(xùn)練，模型掌握了基礎(chǔ)的語(yǔ)言知識(shí)。

后訓(xùn)練：后訓(xùn)練則是為了讓模型更符合用戶的期望，通過(guò)微調(diào)模型，使其能夠更好地遵循指令，并減少幻覺(jué)現(xiàn)象的出現(xiàn)。

數(shù)據(jù)處理與評(píng)估

數(shù)據(jù)收集與處理：數(shù)據(jù)的收集和處理在LLM的構(gòu)建中至關(guān)重要。從網(wǎng)絡(luò)爬蟲(chóng)抓取的海量數(shù)據(jù)中提取有價(jià)值的內(nèi)容，并進(jìn)行去重、過(guò)濾和分類，是確保模型性能的關(guān)鍵。

評(píng)估指標(biāo)：講座特別提到，困惑度（Perplexity）和驗(yàn)證損失在LLM的預(yù)訓(xùn)練中是常用的評(píng)估標(biāo)準(zhǔn)，而在后訓(xùn)練中，則更多依賴于人類反饋和對(duì)齊指標(biāo)。

強(qiáng)化學(xué)習(xí)與人類反饋（RLHF）

監(jiān)督微調(diào)（SFT）：通過(guò)少量高質(zhì)量的人類標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)，使得模型能夠生成更符合人類期望的答案。

強(qiáng)化學(xué)習(xí)與人類反饋：通過(guò)讓模型根據(jù)人類的反饋進(jìn)行強(qiáng)化學(xué)習(xí)（RLHF），使得模型不僅能生成合理的答案，還能最大化人類的滿意度。

系統(tǒng)優(yōu)化與未來(lái)展望

系統(tǒng)瓶頸與優(yōu)化：GPU的計(jì)算速度雖快，但內(nèi)存和通信速度的瓶頸限制了模型的效率。低精度計(jì)算和運(yùn)算符融合等技術(shù)可以顯著提升計(jì)算效率。

未來(lái)挑戰(zhàn)與機(jī)會(huì)：未來(lái)的LLM發(fā)展面臨數(shù)據(jù)合法性、推理優(yōu)化、多模態(tài)處理等諸多挑戰(zhàn)，但也為技術(shù)進(jìn)步提供了廣闊的空間。

==Web3天空之城書面全文版=

今天我將討論如何構(gòu)建大型語(yǔ)言模型（LLM）。

我想你們很多人以前都聽(tīng)說(shuō)過(guò) LLM。作為快速回顧，LLM（大型語(yǔ)言模型）基本上就是您最近聽(tīng)到的所有聊天機(jī)器人，比如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Gemini 和 Llama 以及其他類似的模型。今天我們將討論它們實(shí)際上是如何工作的。

這將是一個(gè)概述，因?yàn)橹挥幸惶谜n，很難壓縮所有內(nèi)容。但我希望能稍微介紹一下訓(xùn)練這些 LLM 所需的所有組件。此外，如果您有任何問(wèn)題，請(qǐng)隨時(shí)打斷并提問(wèn)。

在訓(xùn)練 LLM 時(shí)，有幾個(gè)關(guān)鍵要素非常重要。首先是架構(gòu)。大家可能都知道，LLM 是神經(jīng)網(wǎng)絡(luò)。當(dāng)你考慮神經(jīng)網(wǎng)絡(luò)時(shí)，你必須考慮你正在使用什么架構(gòu)。另一個(gè)非常重要的組件是訓(xùn)練損失和訓(xùn)練算法，也就是你如何實(shí)際訓(xùn)練這些模型。然后是數(shù)據(jù)，你用什么來(lái)訓(xùn)練這些模型？還有評(píng)估，也就是你如何知道你是否真的在朝著 LLM 的目標(biāo)前進(jìn)？最后是系統(tǒng)組件，你如何讓這些模型在現(xiàn)代硬件上運(yùn)行？這真的很重要，因?yàn)檫@些模型非常大，所以系統(tǒng)實(shí)際上是 LLM 的一個(gè)非常重要的主題，比以往任何時(shí)候都重要。

你們可能都知道，LLM 都是基于 transformer 或至少是某個(gè)版本的 transformer。我今天實(shí)際上不打算談?wù)摷軜?gòu)。第一，因?yàn)槲規(guī)字芮白隽艘粋€(gè)關(guān)于 transformer 的講座。其次，你可以在網(wǎng)上找到大量有關(guān) transformer 的信息。但我認(rèn)為關(guān)于其他四個(gè)主題的信息要少得多，所以我真的很想談?wù)勊鼈儭?/p>

另外要說(shuō)的是，大多數(shù)學(xué)術(shù)界實(shí)際上關(guān)注的是架構(gòu)、訓(xùn)練算法和損失。作為學(xué)者，我在職業(yè)生涯的大部分時(shí)間里都是這樣做的，我們只是喜歡認(rèn)為這就像我們制造新的架構(gòu)、新的模型，這似乎非常重要。但實(shí)際上，老實(shí)說(shuō)，在實(shí)踐中最重要的主要是其他三個(gè)主題。因此，數(shù)據(jù)、評(píng)估和系統(tǒng)是大多數(shù)行業(yè)實(shí)際上關(guān)注的重點(diǎn)。所以這也是我不想過(guò)多談?wù)摷軜?gòu)的原因之一，因?yàn)槠溆嗟恼娴姆浅Ｖ匾?/p>

太好了。在講座的概述中，我將談?wù)擃A(yù)訓(xùn)練。

預(yù)訓(xùn)練是一個(gè)你可能聽(tīng)說(shuō)過(guò)的詞匯。這是一種經(jīng)典的語(yǔ)言建模范式，基本上是訓(xùn)練一個(gè)語(yǔ)言模型來(lái)模擬整個(gè)互聯(lián)網(wǎng)。與之相對(duì)的是后訓(xùn)練，這是一個(gè)較新的范式，它利用這些大型語(yǔ)言模型，使它們本質(zhì)上成為 AI 助手。這是自 ChatGPT 以來(lái)的最新趨勢(shì)。

如果你聽(tīng)說(shuō)過(guò) GPT-3 或 GPT-2，那它們屬于預(yù)訓(xùn)練領(lǐng)域。而 ChatGPT 則屬于后訓(xùn)練領(lǐng)域。我會(huì)談?wù)撨@兩者，但我將從預(yù)訓(xùn)練開(kāi)始。具體來(lái)說(shuō)，我將討論預(yù)訓(xùn)練大型語(yǔ)言模型（LLM）的任務(wù)是什么，以及人們實(shí)際使用的定律是什么。

首先，快速回顧一下語(yǔ)言建模。高層次的語(yǔ)言模型只是對(duì)標(biāo)記或單詞序列的概率分布模型?；旧?，它是從 x1 到 xl 的概率模型，其中 x1 是第一個(gè)單詞，xl 是序列或句子中的最后一個(gè)單詞。舉個(gè)例子，如果你有一句話，比如“老鼠吃了奶酪”，語(yǔ)言模型給出的只是這句話被人說(shuō)出或在網(wǎng)上找到的概率。

如果你有另一個(gè)句子，比如“老鼠吃奶酪”，這里就有語(yǔ)法錯(cuò)誤，模型應(yīng)該知道這句話在網(wǎng)上出現(xiàn)的可能性較小。如果你有另一個(gè)句子，比如“奶酪吃老鼠”，模型應(yīng)該知道奶酪通常不吃老鼠，所以有一些語(yǔ)義知識(shí)，這比第一句話的可能性要小。這基本上是語(yǔ)言模型的高級(jí)版本。

你可能在新聞中經(jīng)常聽(tīng)到的一個(gè)詞是生成模型。生成模型可以生成句子或一些數(shù)據(jù)。我們之所以說(shuō)語(yǔ)言模型是生成模型，是因?yàn)橐坏┠阌辛艘粋€(gè)分布模型，你就可以簡(jiǎn)單地從這個(gè)模型中抽樣，然后生成數(shù)據(jù)。所以你可以使用語(yǔ)言模型生成句子。

目前人們使用的模型類型是自回歸語(yǔ)言模型。自回歸語(yǔ)言模型的關(guān)鍵思想是，你把這個(gè)單詞分布分解成第一個(gè)單詞的分布，乘以給定第一個(gè)單詞的第二個(gè)單詞分布的可能性，再乘以前兩個(gè)單詞對(duì)應(yīng)的第三個(gè)單詞的概率。這沒(méi)有近似值，只是概率鏈?zhǔn)椒▌t，希望你們都知道。這只是對(duì)分布進(jìn)行建模的一種方法。

更簡(jiǎn)潔一點(diǎn)，你可以把它寫成下一個(gè)單詞的概率乘積，考慮到過(guò)去發(fā)生的一切，也就是上下文。自回歸語(yǔ)言模型是我們討論的主題。需要強(qiáng)調(diào)的是，這并不是對(duì)分布進(jìn)行建模的唯一方法，只是一種方法而已。它有一些優(yōu)點(diǎn)，也有一些缺點(diǎn)。

自回歸語(yǔ)言模型的一個(gè)缺點(diǎn)是，當(dāng)你從中實(shí)際采樣時(shí)，基本上需要一個(gè)for循環(huán)來(lái)生成下一個(gè)單詞，然后以生成的單詞為條件繼續(xù)生成下一個(gè)單詞。因此，如果你想生成一個(gè)更長(zhǎng)的句子，就需要更多時(shí)間來(lái)完成。這是當(dāng)前范式的一些缺點(diǎn)，但這是我們目前所擁有的。

接下來(lái)，我將詳細(xì)談?wù)勛曰貧w語(yǔ)言模型。從高層次上講，自回歸語(yǔ)言模型的任務(wù)就是預(yù)測(cè)下一個(gè)單詞。例如，如果你有一個(gè)句子“她可能喜歡”，一個(gè)潛在的下一個(gè)單詞可能是“狗”。我們首先進(jìn)行標(biāo)記，將這些單詞或子單詞進(jìn)行標(biāo)記，并為每個(gè)標(biāo)記賦予一個(gè)ID，如1、2、3。然后將其傳遞到模型中，獲得下一個(gè)單詞或標(biāo)記的概率分布。從該分布中采樣，獲得一個(gè)新的標(biāo)記，然后進(jìn)行去標(biāo)記化，得到一個(gè)新的ID，這就是從語(yǔ)言模型中采樣的基本方式。

需要注意的是，最后兩個(gè)步驟實(shí)際上僅在推理過(guò)程中才需要。在訓(xùn)練時(shí)，只需要預(yù)測(cè)最可能的標(biāo)記，然后與實(shí)際標(biāo)記進(jìn)行比較，這在實(shí)踐中確實(shí)發(fā)生過(guò)。然后可以改變模型的權(quán)重以增加生成該標(biāo)記的概率。

具體來(lái)說(shuō)，自回歸神經(jīng)語(yǔ)言模型的第一步是擁有所有這些標(biāo)記。在預(yù)測(cè)下一個(gè)標(biāo)記的概率時(shí)，最終輸出向量的維度必須與標(biāo)記數(shù)相同。處理添加更多標(biāo)記的問(wèn)題時(shí)，雖然有方法可以做到，但基本上人們不會(huì)這樣做。因此，如何標(biāo)記文本非常重要，這也是我們稍后會(huì)討論的原因。值得注意的是，詞匯量，即你擁有的標(biāo)記數(shù)，本質(zhì)上是語(yǔ)言模型的輸出，所以它實(shí)際上非常大。自回歸神經(jīng)語(yǔ)言模型的工作原理如下：

首先，提取每個(gè)單詞或標(biāo)記，并將它們嵌入到向量表示中。然后，將這些向量傳遞給一個(gè)神經(jīng)網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)通常是一個(gè)Transformer模型。通過(guò)這種方式，可以獲得上下文中所有單詞的表示，基本上是整個(gè)句子的表示。

接下來(lái)，將這些表示傳遞到線性層，將其映射到數(shù)字，輸出的數(shù)量等于標(biāo)記的數(shù)量。然后，將其傳遞到softmax層，得到下一個(gè)單詞的概率分布，給定上下文中的每個(gè)單詞。這個(gè)過(guò)程本質(zhì)上是對(duì)下一個(gè)標(biāo)記進(jìn)行分類的任務(wù)，是一種非常簡(jiǎn)單的機(jī)器學(xué)習(xí)任務(wù)。

在這種情況下，使用交叉熵定律，可以查看實(shí)際發(fā)生的目標(biāo)，即目標(biāo)分布，通常是獨(dú)熱編碼。例如，如果實(shí)際發(fā)生的單詞是“cat”，那么這是“cat”的獨(dú)熱分布。生成的實(shí)際分布與目標(biāo)分布進(jìn)行交叉熵計(jì)算，增加生成“cat”的概率并降低生成其他標(biāo)記的概率。

需要注意的是，這相當(dāng)于最大化文本對(duì)數(shù)似然，因?yàn)榭梢詫⒆曰貧w語(yǔ)言建模任務(wù)的概率最大值重寫為最小值，通過(guò)添加對(duì)數(shù)并減去，得到的就是交叉熵?fù)p失。因此，最小化損失與最大化文本的可能性是一回事。

接下來(lái)討論標(biāo)記器。標(biāo)記器是一個(gè)非常重要但常被忽視的部分。了解標(biāo)記器的作用非常重要，因?yàn)樗葐卧~更通用。簡(jiǎn)單來(lái)說(shuō)，如果我們只提取每個(gè)單詞作為標(biāo)記，那么如果單詞中有拼寫錯(cuò)誤，就無(wú)法將這個(gè)有拼寫錯(cuò)誤的單詞傳遞到大型語(yǔ)言模型中。

此外，對(duì)于基于拉丁語(yǔ)的語(yǔ)言，單詞作為標(biāo)記是可行的，但對(duì)于像泰語(yǔ)這樣的語(yǔ)言，由于單詞之間沒(méi)有空格，無(wú)法簡(jiǎn)單地通過(guò)空格進(jìn)行標(biāo)記。因此，標(biāo)記比單詞更通用。

另一種方法是逐個(gè)字符地標(biāo)記每個(gè)句子。您可能會(huì)說(shuō)A是一個(gè)標(biāo)記，B是另一個(gè)標(biāo)記。這實(shí)際上會(huì)起作用，而且可能非常好。問(wèn)題是您的序列會(huì)變得非常長(zhǎng)。您可能還記得Transformers的講座，復(fù)雜度會(huì)隨著序列長(zhǎng)度的增加而呈二次方增長(zhǎng)。所以您真的不想有一個(gè)超長(zhǎng)的序列。

Tokenizer基本上試圖解決這兩個(gè)問(wèn)題，并為常見(jiàn)的子序列賦予特定的token。通常您應(yīng)該考慮的是，每個(gè)token的平均長(zhǎng)度大約是3-4個(gè)字母。有很多tokenization算法。我只討論其中一種，以便給您一個(gè)高層次的理解，也就是我們所說(shuō)的字節(jié)對(duì)編碼，這實(shí)際上非常常見(jiàn)，是兩種最常見(jiàn)的tokenizer之一。

訓(xùn)練tokenizer的方式是，首先從一個(gè)非常大的文本語(yǔ)料庫(kù)開(kāi)始。這里我實(shí)際上還沒(méi)有談?wù)撚?xùn)練一個(gè)大型語(yǔ)言模型，這純粹是為了tokenization步驟。所以這是我的包含這五個(gè)單詞的大型文本語(yǔ)料庫(kù)。然后，您將此文本語(yǔ)料庫(kù)中的每個(gè)字符與不同的標(biāo)記關(guān)聯(lián)起來(lái)。在這里我只是用不同的標(biāo)記拆分每個(gè)字符，并用顏色編碼了所有這些標(biāo)記。

接下來(lái)，您要做的就是瀏覽您的文本，每當(dāng)您看到非常常見(jiàn)的標(biāo)記對(duì)，最常見(jiàn)的標(biāo)記對(duì)，您就把它們合并起來(lái)。在這里您看到三次相鄰的標(biāo)記T和O，所以您只會(huì)說(shuō)這是一個(gè)新的標(biāo)記。然后您繼續(xù)，重復(fù)這一點(diǎn)?，F(xiàn)在您有了TOK，TOK，發(fā)生了三次；帶有E的TOK，發(fā)生了兩次；還有TOKEN，發(fā)生了兩次；然后是EX，也發(fā)生了兩次。

如果您要在這個(gè)非常小的文本語(yǔ)料庫(kù)上訓(xùn)練一個(gè)標(biāo)記器，這就是您用一個(gè)像訓(xùn)練過(guò)的標(biāo)記器一樣的標(biāo)記完成的方式。實(shí)際上，您在更大的文本語(yǔ)料庫(kù)上做這件事。這是真正的標(biāo)記器，我認(rèn)為這是GPT-3或ChatGPT。在這里您可以看到它實(shí)際上是如何將這些單詞分開(kāi)的?；旧?，您看到的內(nèi)容與我們?cè)谇懊娴睦又薪o出的內(nèi)容相同。標(biāo)記成為其自己的標(biāo)記。因此，標(biāo)記器實(shí)際上分為兩個(gè)標(biāo)記，TOKEN和EIZER。

這就是關(guān)于標(biāo)記器的全部?jī)?nèi)容。對(duì)此有什么問(wèn)題嗎？是的，所以實(shí)際上在標(biāo)記器之前有一個(gè)步驟，也就是我們所說(shuō)的預(yù)標(biāo)記器，這正是您剛才所說(shuō)的。理論上，沒(méi)有理由分別處理空格和標(biāo)點(diǎn)符號(hào)。每個(gè)空格和標(biāo)點(diǎn)符號(hào)都可以有自己的標(biāo)記，并且可以進(jìn)行合并。然而，這涉及到效率問(wèn)題。訓(xùn)練這些標(biāo)記器需要很長(zhǎng)時(shí)間，因此最好考慮每一對(duì)標(biāo)記。

如果有空格，預(yù)標(biāo)記器會(huì)非常特定于英語(yǔ)。我們不會(huì)在空格之間合并標(biāo)記，這就像計(jì)算優(yōu)化一樣。理論上，你可以像處理其他字符一樣處理空格，保留較小的標(biāo)記。實(shí)際上，這并不重要，因?yàn)樵诖笮臀谋菊Z(yǔ)料庫(kù)中，你會(huì)擁有所有內(nèi)容，但通常會(huì)保留小的標(biāo)記。

這樣做的原因是，如果出現(xiàn)語(yǔ)法錯(cuò)誤或拼寫錯(cuò)誤，你仍然希望能夠用字符表示這些單詞。例如，T-O-K-E-N是否只出現(xiàn)一次，還是需要多次出現(xiàn)以便具有不同的含義？每個(gè)標(biāo)記都有自己獨(dú)特的ID。

例如，"銀行"這個(gè)詞可能指貨幣銀行，也可能指水邊的銀行。它們會(huì)具有相同的標(biāo)記，但模型會(huì)根據(jù)周圍的單詞進(jìn)行學(xué)習(xí)，將其關(guān)聯(lián)起來(lái)。這是Transformer在做的事情，而不是標(biāo)記器。

在標(biāo)記化過(guò)程中，首先保留較小的標(biāo)記。例如，從T開(kāi)始，保留T，然后將標(biāo)記器構(gòu)建為標(biāo)準(zhǔn)數(shù)量的標(biāo)記。假設(shè)沒(méi)有對(duì)標(biāo)記進(jìn)行訓(xùn)練，但在數(shù)據(jù)中試圖對(duì)標(biāo)記進(jìn)行編碼，標(biāo)記器如何知道用標(biāo)記對(duì)其進(jìn)行編碼還是用T對(duì)其進(jìn)行編碼？

基本上，當(dāng)進(jìn)行標(biāo)記時(shí)，也就是在標(biāo)記器訓(xùn)練之后，實(shí)際應(yīng)用標(biāo)記器時(shí)，總是選擇可以應(yīng)用的最大標(biāo)記。如果可以做標(biāo)記，就不會(huì)做T，總是會(huì)做標(biāo)記。雖然人們通常不會(huì)過(guò)多談?wù)摌?biāo)記器，但有很多計(jì)算優(yōu)勢(shì)或計(jì)算技巧可以讓這些事情變得更快。

老實(shí)說(shuō)，我認(rèn)為很多人認(rèn)為我們應(yīng)該擺脫標(biāo)記器，而只是逐個(gè)字符或逐字節(jié)地進(jìn)行標(biāo)記。正如我所說(shuō)，目前存在長(zhǎng)度問(wèn)題。然而，也許在五年或十年后，我們將擁有不同的架構(gòu)，這些架構(gòu)不會(huì)隨著序列的長(zhǎng)度而呈二次方擴(kuò)展。屆時(shí)，我們可能會(huì)擺脫標(biāo)記器。

那么，能否分享一下標(biāo)記器的缺點(diǎn)？為什么人們想要擺脫標(biāo)記器？

一個(gè)很好的例子是數(shù)學(xué)。如果你考慮數(shù)學(xué)，現(xiàn)在的數(shù)字并沒(méi)有被標(biāo)記。例如，327 可能有它自己的標(biāo)記，這意味著當(dāng)模型看到數(shù)字時(shí)，它們的理解方式與我們不同。這非常煩人，因?yàn)槲覀冎阅軌蛴脭?shù)學(xué)來(lái)概括，是因?yàn)槲覀兛梢詥为?dú)處理每個(gè)數(shù)字，然后進(jìn)行組合?；旧?，如果你添加?xùn)|西，它就和把每個(gè)數(shù)字單獨(dú)加起來(lái)再加上你添加的單位是一樣的。而模型做不到這一點(diǎn)，所以你必須進(jìn)行特殊的標(biāo)記化。

GPT-4 所做的一個(gè)重大改變就是改變了標(biāo)記代碼的方式。例如，在 Python 代碼中，你經(jīng)常會(huì)有四個(gè)開(kāi)頭的空格，這些空格以前處理得有點(diǎn)奇怪，導(dǎo)致模型無(wú)法真正理解如何處理代碼。因此，標(biāo)記器實(shí)際上很重要。

接下來(lái)，我們可以稍后再討論標(biāo)記器?，F(xiàn)在，讓我們談?wù)勗u(píng)估。

評(píng)估 LLM（大型語(yǔ)言模型）通常采用的方法是困惑度。從高層次來(lái)看，它基本上就是驗(yàn)證損失。困惑度的細(xì)微差別在于，我們使用更易于解釋的東西，即每個(gè)標(biāo)記的平均損失，然后對(duì)其進(jìn)行指數(shù)運(yùn)算。之所以對(duì)其進(jìn)行指數(shù)運(yùn)算，是因?yàn)閾p失中有一個(gè)對(duì)數(shù)。首先，人類在對(duì)數(shù)空間中思考的能力實(shí)際上很差；其次，對(duì)數(shù)取決于對(duì)數(shù)的底數(shù)。而當(dāng)你進(jìn)行指數(shù)運(yùn)算時(shí)，你基本上擁有詞匯量單位中的所有內(nèi)容。每個(gè)標(biāo)記的平均值只是為了使困惑度與序列的長(zhǎng)度無(wú)關(guān)。

因此，困惑度只是序列損失的冪平均值的 2。困惑度介于 1 和標(biāo)記器詞匯表的長(zhǎng)度之間。簡(jiǎn)單來(lái)說(shuō)，如果你完美地預(yù)測(cè)了每個(gè)單詞的內(nèi)容，那么每個(gè)單詞基本上都是 1 的乘積。因此，你能擁有的最佳困惑度是 1。如果你真的不知道，你基本上可以用一除以詞匯量來(lái)預(yù)測(cè)。然后你做簡(jiǎn)單的數(shù)學(xué)運(yùn)算，基本上會(huì)得到詞匯量大小的困惑度。

困惑度的直覺(jué)是它基本上是你的模型在猶豫的標(biāo)記數(shù)量。如果你的模型是完美的，它不會(huì)猶豫，它確切地知道這個(gè)詞。如果它真的不知道，那么它會(huì)在所有詞匯之間猶豫。困惑度確實(shí)提高了。這是2017年至2023年間標(biāo)準(zhǔn)數(shù)據(jù)集的困惑度變化。在這5、6年里，困惑度從70個(gè)標(biāo)記減少到不到10個(gè)標(biāo)記。這意味著模型以前每次生成一個(gè)單詞時(shí)需要在70個(gè)單詞之間選擇，而現(xiàn)在只需在不到10個(gè)單詞之間選擇，這顯然是一個(gè)很大的進(jìn)步。

困惑度實(shí)際上已不再用于學(xué)術(shù)基準(zhǔn)測(cè)試，主要是因?yàn)樗Q于所使用的標(biāo)記器和評(píng)估的數(shù)據(jù)。然而，對(duì)于大型語(yǔ)言模型（LLM）的開(kāi)發(fā)，困惑度仍然非常重要。因此，當(dāng)你真正訓(xùn)練自己的LLM時(shí)，人們?nèi)匀粫?huì)關(guān)注這種困惑度。

評(píng)估LLM的另一種常見(jiàn)方式（現(xiàn)在在學(xué)術(shù)界更常見(jiàn)）是采用所有經(jīng)典的自然語(yǔ)言處理（NLP）基準(zhǔn)。我稍后會(huì)給你幾個(gè)例子，然后將所有內(nèi)容匯總起來(lái)。收集盡可能多的可自動(dòng)評(píng)估的基準(zhǔn)，然后對(duì)它們進(jìn)行評(píng)估。

我們稱之為HELM的一個(gè)或兩個(gè)這樣的基準(zhǔn)來(lái)自斯坦福大學(xué)。另一個(gè)是Hugging Face Open LLM排行榜，這可能是目前最常見(jiàn)的兩個(gè)。在HELM中有各種類型的任務(wù)，大多是可以輕松評(píng)估的內(nèi)容，例如問(wèn)答。問(wèn)答的好處是你通常知道真正的答案是什么，因此可以評(píng)估這些模型生成真實(shí)答案的可能性，而其他答案則不然。這基本上是評(píng)估這些模型的高級(jí)方法。

舉個(gè)具體的例子，MMLU可能是LLM最常見(jiàn)的學(xué)術(shù)基準(zhǔn)。這是一個(gè)包含許多領(lǐng)域問(wèn)題和答案的集合，例如大學(xué)醫(yī)學(xué)、大學(xué)物理、天文學(xué)等。問(wèn)題可能包括：“在天文學(xué)中，1a型超新星的真實(shí)性是什么？”然后給出四個(gè)不同的潛在答案，詢問(wèn)模型哪一個(gè)更有可能。因此，有很多不同的方法可以做到這一點(diǎn)。你可以查看生成所有這些答案的可能性，也可以詢問(wèn)模型哪一個(gè)最有可能。通過(guò)不同的方式提示模型，但在高層次上，你知道哪一個(gè)是正確的，其他三個(gè)是錯(cuò)誤的。

創(chuàng)建不受約束的文本作為輸出時(shí)，如果模型給出的內(nèi)容在語(yǔ)義上完全相同，但不是你期望的確切拓?fù)洌敲慈绾卧u(píng)估模型？這是一個(gè)很好的問(wèn)題，我稍后會(huì)詳細(xì)討論這個(gè)問(wèn)題。在這種情況下，我們不做不受約束的事情。

因此，您評(píng)估 MMLU 的方式基本上是問(wèn)第一個(gè)問(wèn)題，然后查看模型生成 A 的可能性，模型生成 B、C 和 D 的可能性，然后查看哪一個(gè)最有可能，或者您可以問(wèn)模型，在 A、B、C、D 中，哪一個(gè)最有可能，然后查看最有可能的下一個(gè)標(biāo)記是 A、B、C 還是 D。因此，您限制模型說(shuō)它只能回答這四個(gè)問(wèn)題。

當(dāng)您說(shuō)您限制模型時(shí)，您是指您用提示來(lái)限制它，還是指整個(gè)概率分布和輸出，您只比較輸出，就像您只比較 A 標(biāo)記一樣？

在我給出的第二種情況下，您會(huì)做完全相同的事情——實(shí)際上您會(huì)同時(shí)做這兩項(xiàng)。您會(huì)提示模型說(shuō) A、B、C 或 D，另外您會(huì)限制只查看這四個(gè)標(biāo)記。在第一種情況下，您甚至不需要生成任何東西。實(shí)際上，您只是查看，鑒于它是一個(gè)語(yǔ)言模型，它可以給出句子的分布。您只需查看生成所有這些單詞的可能性是多少，生成第二個(gè)選擇的可能性是多少？您只需查看最可能的句子是否真的是真正的答案。因此，您實(shí)際上并沒(méi)有從中抽樣，您實(shí)際上只是使用 X1 到 XL 的 P。話雖如此，我們稍后會(huì)討論開(kāi)放式問(wèn)題的評(píng)估，這實(shí)際上非常重要且具有挑戰(zhàn)性。

之前您提到，通常不使用復(fù)雜度等指標(biāo)，因?yàn)檫@取決于您如何進(jìn)行標(biāo)記化，以及一些設(shè)計(jì)選擇。我想知道您是否可以就此多說(shuō)幾句。

那么想想困惑度。我告訴過(guò)你困惑度介于 1 和詞匯量之間。現(xiàn)在想象一下，ChatGPT 使用一個(gè)有 10,000 個(gè)標(biāo)記的標(biāo)記器，但谷歌的 Gemini 使用一個(gè)有 100,000 個(gè)潛在標(biāo)記的標(biāo)記器。那么實(shí)際上 Gemini 的困惑度上限實(shí)際上比 ChatGPT 更差。這有道理嗎？所以這只是一個(gè)想法。實(shí)際上它比這稍微復(fù)雜一點(diǎn)，但這就像一個(gè)一階位，你可以看到標(biāo)記器實(shí)際上很重要。

所以評(píng)估挑戰(zhàn)有很多。我只想簡(jiǎn)單談兩個(gè)。首先，正如我所說(shuō)的，有兩種方法可以評(píng)估這些 MMLU。實(shí)際上，方法遠(yuǎn)不止兩種，但我只舉了兩個(gè)例子。

事實(shí)上，很長(zhǎng)一段時(shí)間以來(lái)，盡管這是每個(gè)人都使用的非常經(jīng)典的基準(zhǔn)，但不同的公司和組織實(shí)際上使用不同的方法來(lái)評(píng)估MMLU。結(jié)果，你會(huì)得到完全不同的結(jié)果。例如，65B的Lammas，這是Lammas系列中的第一個(gè)元模型，在Helm上的準(zhǔn)確率為63.7，但在另一個(gè)基準(zhǔn)上準(zhǔn)確率為48.8。

真正的評(píng)估方式，這甚至不是在談?wù)撎崾荆@實(shí)際上只是你評(píng)估模型的方式。提示是另一個(gè)問(wèn)題。所以真的有很多不一致之處，這并不像看起來(lái)那么簡(jiǎn)單。

首先，我們?nèi)绾未_保所有這些模型都在基準(zhǔn)上進(jìn)行訓(xùn)練？這是一個(gè)很好的問(wèn)題。訓(xùn)練、測(cè)試、污染，我想說(shuō)，這是學(xué)術(shù)界真正重要的事情。鑒于討論的主要是訓(xùn)練大型語(yǔ)言模型，對(duì)于公司來(lái)說(shuō)，這可能并不那么重要，因?yàn)樗麄冎浪麄冇?xùn)練的是什么。對(duì)我們來(lái)說(shuō)，我們不知道，所以對(duì)我們來(lái)說(shuō)，這是一個(gè)真正的問(wèn)題。

因此，有很多不同的方法可以嘗試測(cè)試測(cè)試集是否真的在訓(xùn)練集中。Tatsu實(shí)驗(yàn)室的人們發(fā)現(xiàn)了一種巧妙的技巧，鑒于大多數(shù)在線數(shù)據(jù)集都不是隨機(jī)的，你可以查看，在語(yǔ)言模型中，它們所做的只是預(yù)測(cè)下一個(gè)單詞。你可以查看整個(gè)測(cè)試集，如果你按順序生成所有示例，而不是按不同的順序生成所有示例，結(jié)果會(huì)怎樣。如果更有可能按順序生成某個(gè)東西，考慮到那里沒(méi)有真正的順序，那么這意味著它可能在訓(xùn)練集中。這只是其中之一，還有許多其他方法可以做到這一點(diǎn)。

訓(xùn)練測(cè)試污染，同樣，對(duì)于開(kāi)發(fā)來(lái)說(shuō)并不那么重要，但對(duì)于學(xué)術(shù)基準(zhǔn)測(cè)試來(lái)說(shuō)非常重要。

數(shù)據(jù)是另一個(gè)非常大的話題。在高層次上，人們只是說(shuō)，你基本上是在整個(gè)互聯(lián)網(wǎng)上訓(xùn)練大型語(yǔ)言模型。這是什么意思？因此，人們有時(shí)會(huì)說(shuō)所有干凈的互聯(lián)網(wǎng)，這甚至定義得更少?；ヂ?lián)網(wǎng)非常骯臟，實(shí)際上并不代表我們?cè)趯?shí)踐中想要的東西。如果我現(xiàn)在下載一個(gè)隨機(jī)網(wǎng)站，你會(huì)對(duì)里面的內(nèi)容感到震驚。這絕對(duì)不是你的維基百科。所以我會(huì)簡(jiǎn)要介紹一下人們的做法。我可以回答一些問(wèn)題，但數(shù)據(jù)本身就是一個(gè)巨大的話題。

首先，你需要下載整個(gè)互聯(lián)網(wǎng)。這意味著你要使用網(wǎng)絡(luò)爬蟲(chóng)爬取互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁(yè)或 Google 上的每個(gè)網(wǎng)頁(yè)。目前大約有 2500 億個(gè)網(wǎng)頁(yè)，這些數(shù)據(jù)大約有 1PB。因此，使用網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)常見(jiàn)的做法。人們通常不會(huì)編寫自己的網(wǎng)絡(luò)爬蟲(chóng)，而是使用標(biāo)準(zhǔn)的網(wǎng)絡(luò)爬蟲(chóng)。常見(jiàn)的網(wǎng)絡(luò)爬蟲(chóng)每個(gè)月都會(huì)添加 Google 在互聯(lián)網(wǎng)上發(fā)現(xiàn)的所有新網(wǎng)站，并將其放入一個(gè)大數(shù)據(jù)集中?，F(xiàn)在，常見(jiàn)的爬蟲(chóng)中大約有 2500 億個(gè)頁(yè)面。

這些數(shù)據(jù)大約是 6GB。一旦你有了這些數(shù)據(jù)，你會(huì)發(fā)現(xiàn)它們是隨機(jī)的網(wǎng)頁(yè)，就像從常見(jiàn)的爬蟲(chóng)中隨機(jī)獲得的一樣。你看到的實(shí)際上是一個(gè) HTML 頁(yè)面，雖然很難看清，但如果仔細(xì)查看，你會(huì)看到一些內(nèi)容。例如，這里有一句話：“測(cè)試世界是系統(tǒng) X 高性能服務(wù)器的最終來(lái)源?！钡渥舆€沒(méi)有完成。這就是隨機(jī)互聯(lián)網(wǎng)的樣子。

如果你只是訓(xùn)練一個(gè)大型語(yǔ)言模型來(lái)生成這樣的內(nèi)容，它就沒(méi)那么有用了。那么需要哪些步驟呢？首先，從 HTML 中提取文本。這是我剛剛試圖通過(guò)查看正確的文本來(lái)做的事情。這其中有很多挑戰(zhàn)，例如，提取數(shù)學(xué)內(nèi)容實(shí)際上非常復(fù)雜，但對(duì)于訓(xùn)練大型語(yǔ)言模型來(lái)說(shuō)非常重要。還有樣板內(nèi)容，很多論壇都會(huì)有相同類型的頁(yè)眉、頁(yè)腳，你不想在數(shù)據(jù)中重復(fù)所有這些。

接下來(lái)，你需要過(guò)濾掉不受歡迎的內(nèi)容，比如不安全的工作、有害內(nèi)容、個(gè)人身份信息（PII）。通常每家公司都有一個(gè)不想用來(lái)訓(xùn)練模型的網(wǎng)站黑名單，這個(gè)黑名單很長(zhǎng)。你基本上會(huì)說(shuō)，如果數(shù)據(jù)來(lái)自這些網(wǎng)站，我們就不會(huì)用它來(lái)訓(xùn)練。還有其他方法可以做到這一點(diǎn)，比如訓(xùn)練一個(gè)小模型來(lái)對(duì) PII 進(jìn)行分類，然后刪除這些內(nèi)容。這是一個(gè)艱巨的任務(wù)。

然后是重復(fù)數(shù)據(jù)刪除。正如我所說(shuō)，你可能在論壇中看到諸如頁(yè)眉和頁(yè)腳之類的內(nèi)容，它們總是相同的。你需要?jiǎng)h除它們。你可能還會(huì)看到很多不同的 URL，但實(shí)際上顯示的是同一個(gè)網(wǎng)站。在處理數(shù)據(jù)時(shí)，你可能會(huì)遇到許多來(lái)自普通書籍的段落，這些段落在互聯(lián)網(wǎng)上已經(jīng)被刪除了無(wú)數(shù)次。因此，你必須刪除重復(fù)數(shù)據(jù)。這項(xiàng)任務(wù)非常具有挑戰(zhàn)性，因?yàn)樾枰笠?guī)模地刪除重復(fù)內(nèi)容。

一旦刪除了重復(fù)數(shù)據(jù)，你需要進(jìn)行一些啟發(fā)式過(guò)濾，嘗試刪除低質(zhì)量的文檔。這種過(guò)濾是基于規(guī)則的。例如，如果你發(fā)現(xiàn)某些網(wǎng)站的標(biāo)記分布與通常的標(biāo)記分布非常不同，那么它很可能是異常值。如果某個(gè)網(wǎng)站上的單詞長(zhǎng)度非常長(zhǎng)，說(shuō)明這個(gè)網(wǎng)站上可能有奇怪的事情發(fā)生。如果某個(gè)網(wǎng)站只有三個(gè)單詞，可能不值得對(duì)其進(jìn)行訓(xùn)練；而如果它有大約一千萬(wàn)個(gè)單詞，那么這個(gè)頁(yè)面上可能也存在一些錯(cuò)誤。因此，有很多這樣的規(guī)則需要遵循。

為什么我們不直接從數(shù)據(jù)集中過(guò)濾掉不良內(nèi)容，而是將其作為監(jiān)督損失？我們能不能說(shuō)這是仇恨言論網(wǎng)站，并積極嘗試懲罰它們的內(nèi)容？

我們會(huì)這樣做，但不是在這一步。這就是后訓(xùn)練的來(lái)源。預(yù)訓(xùn)練的想法是模擬人類說(shuō)話的方式，刪除所有如頁(yè)眉、頁(yè)腳和菜單等無(wú)關(guān)內(nèi)容。你剛才的想法非常好，這正是我們稍后要做的。

下一步是基于模型的過(guò)濾。一旦你過(guò)濾了大量的數(shù)據(jù)，你需要做的是一個(gè)非常巧妙的技巧。你會(huì)把整個(gè)維基百科都拿出來(lái)，然后查看通過(guò)維基百科頁(yè)面鏈接的所有鏈接。因?yàn)槿绻S基百科引用了某些內(nèi)容，那么它很可能是高質(zhì)量的網(wǎng)站。你會(huì)訓(xùn)練一個(gè)分類器來(lái)預(yù)測(cè)某個(gè)文檔是否來(lái)自維基百科的這些參考資料之一，或者它是否來(lái)自隨機(jī)網(wǎng)絡(luò)。你會(huì)試著獲取更多來(lái)自維基百科參考資料的內(nèi)容。

接下來(lái)，你將嘗試將數(shù)據(jù)分類到不同的域中。你會(huì)說(shuō)，這是娛樂(lè)，這是書籍，這是代碼，這是其他類型的域。然后你會(huì)嘗試增加或減少某些域的權(quán)重。例如，你可能會(huì)發(fā)現(xiàn)，如果你在代碼上訓(xùn)練得更多，那么你的模型在推理方面實(shí)際上會(huì)變得更好。因此，人們通常會(huì)用非常不著邊際的方式說(shuō)，如果你在代碼上訓(xùn)練你的模型，實(shí)際上它有助于推理。為了增加編碼分布的權(quán)重，這有助于提升一般的語(yǔ)言建模技能。書籍通常也是人們?cè)黾訖?quán)重的另一個(gè)方面，而娛樂(lè)內(nèi)容則通常會(huì)降低權(quán)重。

當(dāng)然，你希望這樣做，所以人們過(guò)去可能會(huì)有一些啟發(fā)式的方法來(lái)實(shí)現(xiàn)這一點(diǎn)?，F(xiàn)在我們將討論如何更自動(dòng)地完成這些流程。

在訓(xùn)練結(jié)束時(shí)，通常在我們看到的所有數(shù)據(jù)上進(jìn)行訓(xùn)練后，尤其是在訓(xùn)練大型語(yǔ)言模型結(jié)束時(shí)，會(huì)在非常高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練，并降低學(xué)習(xí)率。這基本上意味著你的模型在非常高質(zhì)量的數(shù)據(jù)上過(guò)度擬合。通常你會(huì)在維基百科這樣的數(shù)據(jù)上過(guò)度擬合，也會(huì)在收集到的人類數(shù)據(jù)上過(guò)度擬合。

其他事情，比如持續(xù)的預(yù)訓(xùn)練以獲得更長(zhǎng)的上下文，我將跳過(guò)這些細(xì)節(jié)。但只是為了讓你了解，當(dāng)人們說(shuō)要在互聯(lián)網(wǎng)上訓(xùn)練時(shí)，這有多難。這是很多工作，我們還沒(méi)有完全弄清楚。

因此，收集全球數(shù)據(jù)是實(shí)用大型語(yǔ)言模型的重要組成部分，有些人甚至認(rèn)為這是關(guān)鍵。

關(guān)于數(shù)據(jù)的基本問(wèn)題是，當(dāng)你從 TB 級(jí)數(shù)據(jù)開(kāi)始，經(jīng)過(guò)所有步驟后，通常剩下的數(shù)據(jù)量是多少？完成所有數(shù)據(jù)處理步驟通常需要多大的團(tuán)隊(duì)？速度有多慢？比如說(shuō)，你需要多少人才能做到這一點(diǎn)？

對(duì)于從事這項(xiàng)工作的人數(shù)，這是一個(gè)好問(wèn)題。我實(shí)際上不太確定，但我會(huì)說(shuō)，可能比從事模型預(yù)訓(xùn)練調(diào)整的人數(shù)還要多。所以數(shù)據(jù)處理比建模方面需要更多人力。

在 Llama 的團(tuán)隊(duì)中，大概有70人，其中大約15人在處理數(shù)據(jù)。你不需要那么多人，但你還需要很多計(jì)算資源，因?yàn)閷?duì)于數(shù)據(jù)處理，你需要很多CPU。

正如我剛才提到的，我們實(shí)際上還沒(méi)有解決預(yù)訓(xùn)練的數(shù)據(jù)問(wèn)題，因此還有很多研究要做。首先，如何高效地處理這些事情？其次，如何平衡所有這些不同的領(lǐng)域？你能生成合成數(shù)據(jù)嗎？這實(shí)際上是現(xiàn)在的一個(gè)大問(wèn)題。因?yàn)槲覀儧](méi)有足夠的數(shù)據(jù)，我們稍后會(huì)討論這個(gè)問(wèn)題。你能使用多模態(tài)數(shù)據(jù)而不是文本數(shù)據(jù)嗎？這如何改善你的文本性能？

有很多秘密，因?yàn)檫@確實(shí)是大多數(shù)預(yù)訓(xùn)練大型語(yǔ)言模型的關(guān)鍵。因此，對(duì)于競(jìng)爭(zhēng)動(dòng)態(tài)，這些公司通常不會(huì)談?wù)撍麄內(nèi)绾芜M(jìn)行數(shù)據(jù)收集。此外，還有一個(gè)版權(quán)責(zé)任問(wèn)題。他們肯定不想告訴你他們已經(jīng)用書進(jìn)行過(guò)訓(xùn)練，即使他們確實(shí)這樣做了，因?yàn)槿绻麤](méi)有，你可以起訴他們。

常見(jiàn)的學(xué)術(shù)基準(zhǔn)可以回答你的問(wèn)題。它開(kāi)始時(shí)數(shù)據(jù)量較小，名稱并不重要，但它始于大約1500億個(gè)Token，大約有800GB的數(shù)據(jù)?，F(xiàn)在大約有15萬(wàn)億個(gè)Token，這也是模型的大小，目前最好的模型可能就是用這個(gè)數(shù)據(jù)量進(jìn)行訓(xùn)練的。所以15萬(wàn)億個(gè)Token，我猜可能比這個(gè)大兩個(gè)數(shù)量級(jí)。所以是80E3千兆字節(jié)。如果我沒(méi)記錯(cuò)的話，這大約是普通爬蟲(chóng)的100到1000倍的過(guò)濾。

一個(gè)非常著名的學(xué)術(shù)基準(zhǔn)是PAL。我們可以看看他們擁有的數(shù)據(jù)分布。它包括Archive、PubMed Central，都是生物學(xué)的內(nèi)容，還有維基百科、Stack Exchange、一些GitHub和一些書籍等。同樣，這個(gè)數(shù)據(jù)集比較小。如果我們看看這里，這是280B。所以實(shí)際上，它要大100倍。因此，你不可能有那么多的GitHub和Wikipedia數(shù)據(jù)。

就閉源模型而言，給你一個(gè)概念，Llama 2是在2萬(wàn)億個(gè)Token上進(jìn)行訓(xùn)練的。Llama 3，15萬(wàn)億個(gè)Token，這是我們目前所知的最好的模型，它經(jīng)過(guò)了多少次訓(xùn)練，與最好的學(xué)術(shù)或最大的學(xué)術(shù)基準(zhǔn)相同，即15萬(wàn)億個(gè)Token。GPT-4，我們真的不知道，但它可能在同一個(gè)數(shù)量級(jí)，或者實(shí)際上可能在那個(gè)左右。如果泄漏屬實(shí)，它可能在13左右。

接下來(lái)我們討論縮放損失。

我們的想法是，從2020年左右開(kāi)始，或者至少在很長(zhǎng)一段時(shí)間內(nèi)，人們已經(jīng)能夠從理論上證明，或者從2020年開(kāi)始從經(jīng)驗(yàn)上證明，訓(xùn)練模型的數(shù)據(jù)越多，模型越大，性能就越好。這與您在本課中看到的內(nèi)容非常不同。在本課中，我們將教您有關(guān)過(guò)度擬合的知識(shí)。大型語(yǔ)言模型不會(huì)發(fā)生過(guò)度擬合。模型越大，性能越好。對(duì)于參加此類課程的社區(qū)來(lái)說(shuō)，認(rèn)識(shí)到這一點(diǎn)確實(shí)花了很長(zhǎng)時(shí)間。但對(duì)于考試來(lái)說(shuō)，過(guò)度擬合是存在的。

縮放損失的想法是，如果您知道更多數(shù)據(jù)和更大的模型始終會(huì)提供更好的性能，那么我們能否預(yù)測(cè)增加數(shù)據(jù)量和模型大小后，性能會(huì)提高多少？令人驚訝的是，這個(gè)方法有效。

這里有來(lái)自O(shè)penAI的一篇非常著名的論文的三張圖。在x軸上顯示的是計(jì)算量，即你在訓(xùn)練上花費(fèi)了多少計(jì)算。這里顯示的是測(cè)試損失，這本質(zhì)上不是困惑度，而是驗(yàn)證損失，即困惑度的對(duì)數(shù)。如果你把這兩者放在對(duì)數(shù)刻度上，你會(huì)發(fā)現(xiàn)性能就像縮放定律一樣，是線性的。這意味著，如果你將計(jì)算量增加一定量，你可以預(yù)測(cè)測(cè)試損失會(huì)減少多少。數(shù)據(jù)和參數(shù)也是一樣。如果增加數(shù)據(jù)集大小，損失會(huì)減少一個(gè)可以預(yù)測(cè)的量。如果增加參數(shù)數(shù)量，損失也會(huì)減少一個(gè)可以預(yù)測(cè)的量。這真的很神奇，非常令人驚訝。

當(dāng)你看這些類型的圖時(shí)，它看起來(lái)無(wú)害，但實(shí)際上很瘋狂，因?yàn)檫@意味著你可以預(yù)測(cè)我們?cè)趦扇陜?nèi)的表現(xiàn)如何，這取決于我們將增加多少計(jì)算量。假設(shè)這些規(guī)律成立。

這沒(méi)有什么理論依據(jù)。

他們?cè)谶@里使用的損失是什么？這是困惑度嗎？困惑度就像損失的平方。當(dāng)你增加參數(shù)的數(shù)量和總數(shù)據(jù)集的大小時(shí)，這難道不會(huì)自然而然地增加你的計(jì)算量嗎？所有這些都有效嗎？

是的。這是一個(gè)很好的問(wèn)題。

這里的計(jì)算實(shí)際上涉及兩個(gè)因素：數(shù)據(jù)和參數(shù)。我在這里展示的是，你可以增加參數(shù)的數(shù)量，但同時(shí)也需要增加數(shù)據(jù)的數(shù)量。這樣，你實(shí)際上不會(huì)多次使用同一個(gè)數(shù)據(jù)集。沒(méi)有人會(huì)大規(guī)模地進(jìn)行迭代，至少現(xiàn)在還沒(méi)有，因?yàn)槲覀冞€沒(méi)有足夠的數(shù)據(jù)。

是的，這都是相同的趨勢(shì)，即增加計(jì)算量以減少損失。

我們看到了過(guò)去兩年的數(shù)據(jù)嗎？還是它仍然保持不變？

它仍然保持不變。我沒(méi)有具體的數(shù)字可以展示，但令人驚訝的是，這個(gè)趨勢(shì)仍然保持著。

有沒(méi)有經(jīng)驗(yàn)證據(jù)表明你可以達(dá)到穩(wěn)定狀態(tài)？

目前沒(méi)有經(jīng)驗(yàn)證據(jù)表明它會(huì)很快穩(wěn)定下來(lái)。我們不知道。可能會(huì)發(fā)生，但它不需要，因?yàn)樗鼘?shí)際上是對(duì)數(shù)尺度的。所以它并不是必須下降或穩(wěn)定下來(lái)，就像數(shù)學(xué)上那樣，它可以繼續(xù)下降。大多數(shù)人認(rèn)為它可能會(huì)在某個(gè)時(shí)候穩(wěn)定下來(lái)，但我們不知道具體時(shí)間。

現(xiàn)在，我將更多地討論縮放損失。為什么縮放損失真的很重要？想象一下，我給你 10,000 個(gè) GPU，你會(huì)訓(xùn)練什么模型？你如何回答這個(gè)問(wèn)題？這是一個(gè)假設(shè)，但這正是這些公司面臨的實(shí)際問(wèn)題。

舊的流程是你在大模型上調(diào)整高參數(shù)。假設(shè)我有 30 天時(shí)間，我將訓(xùn)練 30 個(gè)模型，每個(gè)模型一天，然后選出最好的一個(gè)作為最終的生產(chǎn)模型。這意味著我實(shí)際使用的模型只訓(xùn)練了一天。

新的流程是，你首先要找到一個(gè)擴(kuò)展配方。例如，一個(gè)常見(jiàn)的情況是，如果你增加模型的大小，你應(yīng)該降低學(xué)習(xí)率。你找到了一個(gè)縮放配方，這樣你就知道，如果增加模型的大小，應(yīng)該如何調(diào)整高參數(shù)。然后，你在不同大小的較小模型上調(diào)整高參數(shù)。假設(shè)我在 30 天中的三天時(shí)間里訓(xùn)練許多不同的模型，并對(duì)這些不同大小的小模型進(jìn)行高參數(shù)調(diào)整。然后，我將擬合縮放定律，并嘗試從這些較小的模型中推斷出，如果我訓(xùn)練更長(zhǎng)時(shí)間，哪一個(gè)會(huì)是最好的。對(duì)不起，如果我為更大的模型訓(xùn)練它，那么我將用27天而不是一天來(lái)訓(xùn)練最終的大型模型。因此，新的流程不是在你將在實(shí)踐中使用的模型的實(shí)際規(guī)模上訓(xùn)練或進(jìn)行高參數(shù)調(diào)整，而是在不同規(guī)模的較小模型上進(jìn)行操作，嘗試預(yù)測(cè)它們?cè)谧兇蠛蟮男阅堋?/p>

我現(xiàn)在給你一個(gè)非常具體的例子。假設(shè)你在選擇使用Transformer還是LSTM模型，并且你有10,000個(gè)GPU，但不確定應(yīng)該使用哪一個(gè)。你可以訓(xùn)練不同規(guī)模的Transformer模型，在x軸上表示不同參數(shù)，y軸上表示測(cè)試結(jié)果。然后，你再訓(xùn)練不同規(guī)模的LSTM模型。一旦有了這些數(shù)據(jù)點(diǎn)，你會(huì)發(fā)現(xiàn)它們符合縮放定律。通過(guò)符合縮放定律，你可以預(yù)測(cè)如果有10倍以上的計(jì)算能力，LSTM的表現(xiàn)會(huì)如何。實(shí)際上，LSTM的線性程度略低，但你可以嘗試預(yù)測(cè)最終結(jié)果。從圖中可以清楚地看出，Transformer表現(xiàn)更好。

閱讀此類縮放定律時(shí)要注意兩件事：一個(gè)是縮放率，即縮放定律的斜率；另一個(gè)是截距。比如，一開(kāi)始可能表現(xiàn)更差，但隨著時(shí)間的推移會(huì)變得更好。LSTM在這兩方面都表現(xiàn)較差。但我可以向你展示另一個(gè)例子，預(yù)測(cè)在一定規(guī)模之后，使用這種類型的模型比其他模型更好。這就是縮放定律非常有用的原因。

這些對(duì)架構(gòu)中的細(xì)微差異有多敏感？一個(gè)Transformer架構(gòu)與另一個(gè)Transformer架構(gòu)。

你基本上必須擬合自己的曲線，并說(shuō)縮放定律告訴我應(yīng)該有一些對(duì)數(shù)函數(shù)。通常，例如，如果你是一名學(xué)者，現(xiàn)在至少這是相當(dāng)新的，你想提出一個(gè)新的激活函數(shù)，這正是你要做的。你會(huì)擬合一個(gè)縮放定律，并用標(biāo)準(zhǔn)展示另一個(gè)縮放定律，比如Gelu，你會(huì)說(shuō)它更好。

事實(shí)上，一旦你開(kāi)始用縮放定律來(lái)思考，你會(huì)真正意識(shí)到，我們可以做出的所有架構(gòu)差異，比如微小的差異，可能只是稍微改變截距，但實(shí)際上這并不重要，因?yàn)橹恍柙儆?xùn)練10個(gè)小時(shí)或等待下一個(gè)GPU，這些事情都是次要的。這正是我最初告訴你人們?cè)诩軜?gòu)和損失上花費(fèi)太多時(shí)間的原因。實(shí)際上，這些事情并不那么重要。但是，如果你使用好的數(shù)據(jù)，你將擁有比使用壞數(shù)據(jù)更好的縮放定律。所以這真的很重要。

你可以用縮放定律做的另一件非?？岬氖虑槭?，問(wèn)自己如何最佳地分配訓(xùn)練資源。我應(yīng)該訓(xùn)練更大的模型嗎？因?yàn)槲覀儼l(fā)現(xiàn)訓(xùn)練更大的模型效果更好，但我們也發(fā)現(xiàn)使用更多數(shù)據(jù)效果更好。那么我應(yīng)該選擇哪一個(gè)呢？我應(yīng)該只訓(xùn)練更多數(shù)據(jù)、更小的模型，還是應(yīng)該用更少的數(shù)據(jù)訓(xùn)練更大的模型？

Chinchilla 是一篇非常著名的論文，它首次展示了這一點(diǎn)。他們這樣做的方式，我想讓你稍微了解一下這些圖是什么。在這里你再次看到了訓(xùn)練損失。在 x 軸上，你可以看到參數(shù)的數(shù)量，也就是模型的大小。這里所有這些曲線都是我們所說(shuō)的 isoflops，也就是說(shuō)，這條曲線上的所有模型都用相同的計(jì)算量進(jìn)行訓(xùn)練。

你這樣做的方式是改變訓(xùn)練的 token 數(shù)量和模型的大小，但你以這樣一種方式變化，即總計(jì)算量是恒定的。因此，您所看到的所有這些具有不同顏色的曲線都代表了不同數(shù)量的經(jīng)過(guò)訓(xùn)練的計(jì)算。然后，你從每條曲線中選取最好的一個(gè)。一旦你從每條曲線中選取最好的一個(gè)，你就可以問(wèn)，你可以繪制出有多少次 flops，你在哪條曲線上，以及你實(shí)際使用了多少參數(shù)來(lái)訓(xùn)練該特定點(diǎn)。你再次將其放在對(duì)數(shù)-對(duì)數(shù)刻度上，現(xiàn)在你再次擬合縮放定律。

所以現(xiàn)在我有一些東西告訴我，如果我想訓(xùn)練一個(gè) 10 的 23 次方次 flops 的模型，這就是我應(yīng)該使用的參數(shù)的確切數(shù)量，100B。你可以對(duì) flops 和 token 做同樣的事情。所以現(xiàn)在你可以預(yù)測(cè)，如果我告訴你我有一個(gè)月的計(jì)算時(shí)間，我應(yīng)該訓(xùn)練多大的模型？擬合你的縮放定律，我告訴你。

當(dāng)然，這一切看起來(lái)都很漂亮。實(shí)際上，有很多小事情，你應(yīng)該計(jì)算嵌入?yún)?shù)嗎？雖然有很多復(fù)雜性，但如果你做得好，這些事情實(shí)際上就會(huì)成立。所以 Chinchilla 團(tuán)隊(duì)發(fā)現(xiàn)的最佳參數(shù)數(shù)量是每個(gè)訓(xùn)練參數(shù)使用 20 個(gè)標(biāo)記。因此，如果您添加一個(gè)參數(shù)，則應(yīng)該在另外 20 個(gè)標(biāo)記上訓(xùn)練您的模型。

因此，這里的一個(gè)警告是，這是最佳的訓(xùn)練資源。所以這告訴我，如果你有 10 的 23 次方次 flops 的計(jì)算資源，假設(shè)我有 500 萬(wàn)美元來(lái)訓(xùn)練我的最佳模型，以獲得最低的損失。

在訓(xùn)練模型時(shí)，推理成本是一個(gè)需要考慮的重要因素。如果你使用一個(gè)較小的模型，隨著時(shí)間的推移，花費(fèi)會(huì)減少。因此，考慮推理成本時(shí)，有其他論文試圖證明這一點(diǎn)。每個(gè)參數(shù)大約對(duì)應(yīng)150個(gè)token，因?yàn)檩^小的模型在推理上花費(fèi)更少。

目前，150比1大約是最好的模型的訓(xùn)練成本，至少在實(shí)踐和生產(chǎn)中使用的模型是這樣的。

在實(shí)踐中，訓(xùn)練這些模型的推理成本非常高。以ChatGPT為例，目前大約有6億人使用它，這使得推理成本非常昂貴。不過(guò)，推理可以進(jìn)行大量?jī)?yōu)化，但這是另一個(gè)完整的講座內(nèi)容，這次我將跳過(guò)它。

正如我所說(shuō)，縮放定律可以回答很多問(wèn)題。你使用什么數(shù)據(jù)？數(shù)據(jù)混合和加權(quán)如何？使用什么架構(gòu)？模型應(yīng)該更寬還是更深？是為更多GPU付費(fèi)還是收集更多數(shù)據(jù)？這些問(wèn)題都可以通過(guò)縮放定律來(lái)回答。

Richard Sutton在2019年的著名博客文章中提到，一旦你了解縮放定律，你就會(huì)知道擁有更多計(jì)算資源會(huì)得到更好的模型。根據(jù)摩爾定律或其變體，你將始終擁有更好的計(jì)算能力。因此，唯一重要的事情是擁有可以利用計(jì)算的架構(gòu)。

因此，重要的基本上是系統(tǒng)和數(shù)據(jù)，而不是架構(gòu)上的細(xì)微差異。這也是為什么大多數(shù)研究集中在一些對(duì)行業(yè)不太重要的事情上的原因之一。在我的職業(yè)生涯中，我大部分時(shí)間都是這樣的研究人員。不要把時(shí)間花在過(guò)度復(fù)雜化上。做簡(jiǎn)單的事情，做好，封存起來(lái)。這實(shí)際上是OpenAI通過(guò)ChatGPT和之前的所有GPT教給我們的。

我想給你一些簡(jiǎn)單的計(jì)算。我可能在這里偏離了一些因素，但我只是想讓你了解訓(xùn)練這些模型的成本有多高。我舉個(gè)例子，Lama3-400B，這是目前你能得到的最好的開(kāi)源模型。它是在15.6個(gè)token上訓(xùn)練的，有4050億個(gè)參數(shù)?，F(xiàn)在你知道每個(gè)參數(shù)的最佳token數(shù)量大約是40個(gè)。這比Chinchilla多一點(diǎn)，但比這個(gè)推理最優(yōu)模型要少，所以他們追求訓(xùn)練最優(yōu)性。

計(jì)算Flops的一個(gè)簡(jiǎn)單方法是將參數(shù)數(shù)量乘以6，再乘以訓(xùn)練數(shù)據(jù)的數(shù)量。如果你在這里進(jìn)行簡(jiǎn)單的計(jì)算，結(jié)果是3.8E25 Flops。這一點(diǎn)之所以重要，是因?yàn)槿绻汴P(guān)注一些新聞，就會(huì)發(fā)現(xiàn)拜登有一項(xiàng)行政命令，基本上就是說(shuō)，一旦你有1E26次Flops，那么你的模型就會(huì)受到特別審查。所以他們把這個(gè)數(shù)字減少了2倍，降到了這個(gè)數(shù)字以下，這樣就不會(huì)受到特別審查。所以3.8E25 Flops，雖然我可能有點(diǎn)偏離，但肯定低于1E26。

參數(shù)p是參數(shù)數(shù)量，n是數(shù)據(jù)，token數(shù)量。這只是一個(gè)近似值。

我們知道他們?cè)?6,000臺(tái)H100上進(jìn)行了訓(xùn)練，也知道吞吐量。他們也這么說(shuō)過(guò)。如果你進(jìn)行計(jì)算，大約需要70天或2600萬(wàn)個(gè)GPU小時(shí)。至少這是我粗略的計(jì)算，他們實(shí)際上說(shuō)他們使用了3000萬(wàn)個(gè)而不是2600萬(wàn)個(gè)GPU小時(shí)，所以也許他們遇到了一些挑戰(zhàn)，我真的不知道。但如果你按照簡(jiǎn)單的計(jì)算，大約需要70天。

成本很難估算，但我只能說(shuō)這有點(diǎn)像租金。比如，如果我要租用那么多臺(tái)H100，租用那么多天，會(huì)怎么樣？我要付多少錢？租用H100的最低成本是每小時(shí)2美元左右。因此，如果將其乘以2600萬(wàn)小時(shí)，則得到5200萬(wàn)美元。他們支付的費(fèi)用可能低于這個(gè)數(shù)字，但實(shí)際上不會(huì)少很多，因?yàn)樗羞@些實(shí)際租用GPU的服務(wù)都賺不到那么多錢。因此，可能稍微少一點(diǎn)，但不會(huì)少很多。

現(xiàn)在，談?wù)劰べY。我說(shuō)的是50名員工，每年50萬(wàn)美元。是的，這可能是正確的估計(jì)，總計(jì)2500萬(wàn)美元。因此，如果將這些費(fèi)用全部加在一起，訓(xùn)練這個(gè)Llama模型大約需要7500萬(wàn)美元。我可能錯(cuò)了1000萬(wàn)，但這是一個(gè)正確的估計(jì)。

接下來(lái)是碳排放量。很多人可能會(huì)問(wèn)，成本不是唯一重要的事情。所以我做了計(jì)算，大約是4000噸二氧化碳當(dāng)量。這實(shí)際上相當(dāng)于從肯尼迪機(jī)場(chǎng)到倫敦的2000張往返機(jī)票。所以現(xiàn)在，碳排放實(shí)際上并不是巨大的，但它還沒(méi)有那么有意義。我認(rèn)為在GPT-6、GPT-7中，一旦你把它乘以100，這可能會(huì)成為一個(gè)真正的問(wèn)題。現(xiàn)在，從宏觀角度來(lái)看，這仍然不是一個(gè)問(wèn)題。

下一個(gè)模型，你應(yīng)該這樣思考這些模型，每一代，F(xiàn)lops的數(shù)量基本上都會(huì)增加10倍。至少他們是這么做的，如果他們有足夠的能量，如果他們能買得起足夠的GPU。

現(xiàn)在我們討論了預(yù)訓(xùn)練。我也想聊聊系統(tǒng)，因?yàn)楝F(xiàn)在我們知道計(jì)算非常重要。那么有一個(gè)問(wèn)題是如何優(yōu)化你的計(jì)算？我將把它留到最后，因?yàn)槲也淮_定我們有多少時(shí)間。我認(rèn)為這很重要，但希望我以后能談?wù)撍＿@與我們現(xiàn)在談?wù)摰膬?nèi)容略有不同。所以我現(xiàn)在將轉(zhuǎn)到訓(xùn)練后。

正如我之前所說(shuō)，后訓(xùn)練的任務(wù)，我們需要進(jìn)行后訓(xùn)練的原因是為了制作人工智能助手。語(yǔ)言建模并不是你擁有人工智能助手時(shí)真正想要的東西。例如，如果你問(wèn)GPT-3，這是一個(gè)純粹的語(yǔ)言模型，而不是對(duì)齊的模型，如果你問(wèn)一個(gè)問(wèn)題，比如，向六歲的孩子解釋登月，你得到的結(jié)論是，向六歲的孩子解釋萬(wàn)有引力理論。因?yàn)樗鼘W(xué)到的是，在互聯(lián)網(wǎng)上，如果你有一個(gè)問(wèn)題，你通常會(huì)有另一個(gè)類似問(wèn)題的要點(diǎn)。你通常不會(huì)先問(wèn)一個(gè)問(wèn)題，然后再回答。這不是你想要的人工智能助手。那么我們?nèi)绾芜M(jìn)行這種對(duì)齊，即后訓(xùn)練并使這些模型成為助手？

這種對(duì)齊的目標(biāo)基本上是讓大型語(yǔ)言模型（LLM）遵循用戶給出的指示，也許是一些設(shè)計(jì)師的愿望。因此要考慮適度。你不希望模型，比如，OpenAI絕對(duì)不希望他們的模型說(shuō)出非常有害的東西。

在這里，你可以看到，當(dāng)你問(wèn)一個(gè)問(wèn)題時(shí)，它實(shí)際上提供了一個(gè)真正的答案。這與LLM之前的情況不同。而在另一種情況下，如果你要求寫一條推文描述某一部分人群是如何邪惡的，它會(huì)說(shuō)它不能這樣做。這就是這種一致性。

背景是，基本上你想要訓(xùn)練這些模型的數(shù)據(jù)就像我們知道我們想要什么一樣，也就是問(wèn)人類，這是一個(gè)問(wèn)題，這是你想要的答案。但問(wèn)題是收集這些數(shù)據(jù)非常昂貴，而且很難在網(wǎng)上找到它。相比之下，預(yù)訓(xùn)練數(shù)據(jù)不是你想要的，但有很多。

因此，我們的主要思想是簡(jiǎn)單地采用預(yù)先訓(xùn)練的大型語(yǔ)言模型，在整個(gè)互聯(lián)網(wǎng)上進(jìn)行預(yù)先訓(xùn)練，然后進(jìn)行微調(diào)。您只需對(duì)您實(shí)際想要的數(shù)據(jù)類型稍微改變一下權(quán)重即可。希望有了它，您已經(jīng)對(duì)所有互聯(lián)網(wǎng)進(jìn)行了預(yù)訓(xùn)練。它基本上學(xué)習(xí)或知道如何用英語(yǔ)說(shuō)話，并且知道標(biāo)準(zhǔn)語(yǔ)言語(yǔ)法。然后，您可以用很少的數(shù)據(jù)對(duì)其進(jìn)行微調(diào)。

監(jiān)督微調(diào)（SFT）實(shí)際上就是我剛才所說(shuō)的，即根據(jù)從人類那里收集到的期望答案對(duì)大型語(yǔ)言模型進(jìn)行微調(diào)的想法。為什么它被稱為監(jiān)督微調(diào)？因?yàn)槟旧舷雽?duì)真實(shí)答案進(jìn)行語(yǔ)言建模。語(yǔ)言建模就像下一個(gè)單詞預(yù)測(cè)。這就是微調(diào)的部分。然后您想根據(jù)人類給出的期望答案進(jìn)行微調(diào)。這就是我們稱之為監(jiān)督的原因。

那么我們?nèi)绾问占@些數(shù)據(jù)？你只需讓人類告訴你這是問(wèn)題所在，這是您希望從這些模型中得到的答案。舉個(gè)例子，我不能很好地在電腦上閱讀，但我的孩子需要做一門科學(xué)。讓我們讀一下這個(gè)：你能寫一個(gè)關(guān)于買方壟斷一詞的相關(guān)性的簡(jiǎn)短介紹嗎？然后它說(shuō)買方壟斷是指市場(chǎng)結(jié)構(gòu)，等等等等。這是人類寫的。

實(shí)際上，這是Open Assistant，它是一種人類在線收集數(shù)據(jù)的方式。所以這種監(jiān)督微調(diào)或?qū)R確實(shí)是ChatGPT的關(guān)鍵。這就是從GPT-3（主要是人工智能研究人員所知道的東西）到ChatGPT（基本上每個(gè)人都知道）的巨大飛躍。人類數(shù)據(jù)的問(wèn)題在于收集速度非常慢且成本高昂。一個(gè)可能的解決方案是使用大型語(yǔ)言模型（LLM）來(lái)擴(kuò)展數(shù)據(jù)收集。這正是我們一年前對(duì)Alpaca所做的。

我們的做法是向人類提問(wèn)，或者使用人類問(wèn)答數(shù)據(jù)集。我們有175個(gè)問(wèn)答，并要求當(dāng)時(shí)最好的模型TextEventUser03生成更多類似的問(wèn)題和答案。我們收集了52,000個(gè)由LLM生成的問(wèn)題和答案。

接下來(lái)，我們采用了Llama7B，這是當(dāng)時(shí)最好的預(yù)訓(xùn)練模型，并對(duì)其進(jìn)行了監(jiān)督微調(diào)。這就是我們得到Alpaca7B模型的方式。這是我們收集的數(shù)據(jù)類型。

算法是用于解決問(wèn)題或?qū)崿F(xiàn)目標(biāo)的一步一步的指令集。數(shù)據(jù)實(shí)際上相當(dāng)不錯(cuò)，因?yàn)樗怯苫旧蟽纱暗腖LM生成的。這真的開(kāi)始了，至少對(duì)我們來(lái)說(shuō)，有點(diǎn)像ChatGPT的學(xué)術(shù)復(fù)制。

現(xiàn)在，確實(shí)存在一個(gè)很大的領(lǐng)域，研究如何使用LLM來(lái)加快LLM的開(kāi)發(fā)速度，主要是通過(guò)減少所需的人工時(shí)間和數(shù)據(jù)量。我們討論了數(shù)據(jù)的類型以及如何收集它。監(jiān)督微調(diào)（SFT）令人驚訝的一點(diǎn)是，你不需要那么多數(shù)據(jù)。

一篇名為L(zhǎng)ima的論文表明，如果你將監(jiān)督微調(diào)中使用的數(shù)據(jù)量從2000擴(kuò)展到32000，這并沒(méi)有多大幫助。在這里，數(shù)據(jù)量的增加并沒(méi)有帶來(lái)顯著的提升。直覺(jué)上，你學(xué)到的只是如何格式化你想要的答案。

換句話說(shuō)，預(yù)訓(xùn)練模型本質(zhì)上模擬了互聯(lián)網(wǎng)上每個(gè)用戶的分布。一個(gè)用戶可能會(huì)寫出要點(diǎn)，另一個(gè)用戶可能會(huì)用答案回答問(wèn)題。你告訴模型的只是，應(yīng)該針對(duì)某種類型的用戶進(jìn)行更多優(yōu)化，而不是其他類型的用戶。因此，你實(shí)際上并沒(méi)有通過(guò)SFT教模型新的知識(shí)，只是讓它針對(duì)已經(jīng)在預(yù)訓(xùn)練數(shù)據(jù)集中看到的一種用戶類型進(jìn)行優(yōu)化。

我知道合成數(shù)據(jù)的一個(gè)大問(wèn)題是，如果你繼續(xù)從相同的分布生成數(shù)據(jù)，最終你不會(huì)學(xué)習(xí)新的分布。你基本上是在玩它并引導(dǎo)它。你不能永遠(yuǎn)擴(kuò)大規(guī)模，也不能繼續(xù)從相同的分布生成并希望學(xué)到新的東西。這是一個(gè)活躍的研究領(lǐng)域。

您對(duì)人們?nèi)绾嗡伎歼@個(gè)問(wèn)題以及更好的引導(dǎo)方式有什么想法？或者是否應(yīng)該放棄這個(gè)想法，并意識(shí)到圖表顯示您不需要那么多數(shù)據(jù)，只需讓人類生成2,000個(gè)非常好的例子？

這是一個(gè)非常好的問(wèn)題。至于數(shù)據(jù)，我想說(shuō)的是，它對(duì)SFT（監(jiān)督微調(diào)）來(lái)說(shuō)并不那么重要，但我們接下來(lái)會(huì)討論另一件事，即數(shù)據(jù)確實(shí)很重要。

我的直覺(jué)是，即使沒(méi)有那么多經(jīng)驗(yàn)結(jié)果，你仍然可以獲得一些進(jìn)展。即使你使用LLM（大型語(yǔ)言模型）生成的純文本，并且對(duì)三、四代LLM都這樣做，我同意你可能不會(huì)有太大的進(jìn)步。但對(duì)我來(lái)說(shuō)，重要的是你如何在LLM中使用像人類一樣的循環(huán)。

不是純粹的LLM，也不是純粹的人類，但也許你可以讓模型生成一些新文本，然后人類進(jìn)行編輯。編輯比編寫整個(gè)文本要快得多。我認(rèn)為，如果你有這種類型的協(xié)作，那么從某種信息理論的角度來(lái)看，你仍然可以獲得額外的信息，但你仍然比使用人類要快得多。

作為一個(gè)領(lǐng)域，我們可能會(huì)朝著這些方向發(fā)展，即找到重要的例子并向人類提問(wèn)。這是一種主動(dòng)學(xué)習(xí)，只是在需要獲取輸入時(shí)詢問(wèn)人類。

這就是為什么在這里，我可能沒(méi)有強(qiáng)調(diào)得足夠多。這只是語(yǔ)言建模。根據(jù)所需答案對(duì)帶有語(yǔ)言模型的LLM進(jìn)行微調(diào)。所以這實(shí)際上是相同的損失。兩秒鐘后會(huì)有所不同，但SFT的第一步實(shí)際上是相同的損失，你只需說(shuō)，好吧，我想真正專注于那種類型的數(shù)據(jù)。

所以甚至有一個(gè)問(wèn)題，比如，什么是預(yù)訓(xùn)練？什么是后訓(xùn)練？因?yàn)閷?shí)際上，它就像你使用的不同數(shù)據(jù)。我們通常稱之為后訓(xùn)練的原因是我們收集數(shù)據(jù)的方式非常不同。

但為什么這2,000個(gè)例子會(huì)有如此過(guò)重的影響力呢？這就是為什么我們稱之為后訓(xùn)練的另一個(gè)原因是我們使用不同類型的超參數(shù)。

在預(yù)訓(xùn)練結(jié)束時(shí)，你的學(xué)習(xí)率基本上是零。在這里，你要把學(xué)習(xí)率提高到1e-5。所以，你給它們的權(quán)重實(shí)際上是不同的。好的，后訓(xùn)練的第二步或第二部分是我們所說(shuō)的從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)（RLHF）。

你們中的一些人可能聽(tīng)說(shuō)過(guò)這個(gè)概念。SFT（監(jiān)督微調(diào)）存在一個(gè)問(wèn)題，即它進(jìn)行的是行為克隆，這意味著你只是試圖模仿人類會(huì)說(shuō)的話。這有很多問(wèn)題。

首先，你受到人類能力的束縛。就像人類一樣，人類不會(huì)總是產(chǎn)生他們認(rèn)為最好的東西。如果你讓我寫一本書，我可能會(huì)喜歡你的書，但我絕對(duì)不會(huì)寫出我想讀的書。因此，你將受到人類生成事物能力的限制，即使人類可能更善于區(qū)分事物。這是一個(gè)問(wèn)題。

第二個(gè)問(wèn)題是幻覺(jué)現(xiàn)象。如果你聽(tīng)說(shuō)過(guò)這個(gè)詞，它指的是模型可能會(huì)產(chǎn)生虛假信息。幻覺(jué)可能來(lái)自監(jiān)督微調(diào)，即使你對(duì)正確的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。原因是，SFT 基本上是使用很少的數(shù)據(jù)，而它使用的數(shù)據(jù)并不足以讓模型學(xué)到任何新東西。那么，如果人類給出了模型不知道是正確的答案怎么辦？從模型的角度來(lái)看，人類基本上是在告訴模型生成看似合理的東西，但實(shí)際上模型不知道它是否真實(shí)。

舉一個(gè)具體的例子，如果我們回到買方壟斷的例子，你能寫一些關(guān)于買方壟斷的內(nèi)容嗎？想象一下，一個(gè)人寫了一本關(guān)于這種書的參考書目，那本書可能存在，也可能是一個(gè)正確的參考書目。但如果 LLM（大型語(yǔ)言模型）在預(yù)訓(xùn)練期間從未見(jiàn)過(guò)這個(gè)參考書目怎么辦？那么它就不知道這是一個(gè)正確的參考書目。所以你真正告訴模型的是生成或編造一些聽(tīng)起來(lái)合理的參考書目，而不是真正告訴它在預(yù)訓(xùn)練期間看到的真實(shí)參考書目。因此，幻覺(jué)可能是由 SFT 引起的。這是第二個(gè)問(wèn)題。

第三個(gè)問(wèn)題是生成理想答案的成本非常高。這又回到了你的問(wèn)題，像人類一樣寫出整個(gè)答案實(shí)際上非常昂貴。這就是 RLHF 的作用所在。我們的想法是，我們不會(huì)克隆人類的行為，而是要最大化人類的偏好。

我們這樣做的方式是，對(duì)于每條指令，你都會(huì)要求模型生成兩個(gè)答案，通常使用一個(gè)相當(dāng)不錯(cuò)的模型。所以通常你在這里不使用 LLM，而是使用一個(gè)已經(jīng)通過(guò) SFT 微調(diào)過(guò)的 LLM 來(lái)給出相當(dāng)不錯(cuò)的答案。首先，您需要詢問(wèn)標(biāo)注者這兩個(gè)答案中哪一個(gè)更好，然后選擇首選的那個(gè)。接下來(lái)，使用不同類型的算法進(jìn)行討論。您只需微調(diào)模型，使其生成更多綠色而不是紅色的內(nèi)容，從而產(chǎn)生更多優(yōu)質(zhì)的結(jié)果。

現(xiàn)在的問(wèn)題是如何實(shí)現(xiàn)這一點(diǎn)？我們將討論兩種主要在社區(qū)中使用的方法。第一種方法是使用強(qiáng)化學(xué)習(xí)的概念。希望大家都了解強(qiáng)化學(xué)習(xí)。當(dāng)考慮使用強(qiáng)化學(xué)習(xí)時(shí)，一個(gè)重要的問(wèn)題是我們正在優(yōu)化的獎(jiǎng)勵(lì)是什么。在這種情況下，我能想到兩個(gè)選項(xiàng)。

第一個(gè)選項(xiàng)是比較基線生成的輸出和模型生成的輸出，然后讓人類評(píng)判哪一個(gè)更好，并將此作為獎(jiǎng)勵(lì)。如果模型的輸出比基線好，則加一分，否則減一分。這種二元獎(jiǎng)勵(lì)的問(wèn)題在于信息非常稀疏，無(wú)法提供足夠的反饋。也許答案稍微好一點(diǎn)，也許好很多，但你無(wú)法確切知道它有多好。

第二個(gè)選項(xiàng)是訓(xùn)練一個(gè)所謂的獎(jiǎng)勵(lì)模型，它實(shí)際上是一個(gè)分類器。使用機(jī)器學(xué)習(xí)來(lái)分類兩個(gè)輸出，從人類偏好的角度評(píng)估哪個(gè)更好。雖然這有點(diǎn)抽象，但基本上你需要做的是訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型 R，它是一個(gè)大型分類器。你將輸入和實(shí)際輸出提供給這個(gè)獎(jiǎng)勵(lì)模型，并對(duì)其進(jìn)行指數(shù)運(yùn)算，這就是大家熟悉的 softmax 損失。然后你將指數(shù)獎(jiǎng)勵(lì)除以第一個(gè)輸出和第二個(gè)輸出的指數(shù)值。

訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型的目的是能夠分類一個(gè)輸出比另一個(gè)輸出好多少。換句話說(shuō)，你的獎(jiǎng)勵(lì)模型將輸出一些獎(jiǎng)勵(lì)，這些獎(jiǎng)勵(lì)將用作 softmax 的對(duì)數(shù)。如果 softmax 中的對(duì)數(shù)值較高，這意味著該輸出更好。這就是我們所說(shuō)的 Bradley-Terry 模型。

這個(gè)模型會(huì)一次性獲取所有輸入和輸出，并給出一個(gè)數(shù)字。通過(guò)訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型來(lái)適應(yīng)人類對(duì)綠色和紅色的偏好，你可以判斷人類更喜歡紅色還是綠色，但不是使用二進(jìn)制獎(jiǎng)勵(lì)，而是使用 softmax 的 logits。Logits 的特點(diǎn)是它們是連續(xù)的。因此，如果你的獎(jiǎng)勵(lì)模型顯示它有很高的 logits，那么在某種程度上，人類會(huì)更喜歡這個(gè)答案而不是其他答案。正如我剛才所說(shuō)，連續(xù)信息更好。這就是人們?cè)趯?shí)踐中使用的，或者至少曾經(jīng)在實(shí)踐中使用過(guò)的。

稍后我會(huì)介紹另一種算法?；旧?，你最后要做的就是嘗試只使用你所了解的強(qiáng)化學(xué)習(xí)?，F(xiàn)在我們知道我們有了獎(jiǎng)勵(lì)，你采樣的是從你的大型語(yǔ)言模型中生成的，然后只需使用一些正則化項(xiàng)。我們做這個(gè)正則化項(xiàng)的原因是為了避免過(guò)度優(yōu)化。因此，這種獎(jiǎng)勵(lì)模型可能并不真正具有代表性，可能無(wú)法完美地模擬人類的偏好。因此，你不想將這個(gè)東西最大化到無(wú)窮大。

你可以使用 PPO（近端策略優(yōu)化）來(lái)實(shí)現(xiàn)，這是一種常見(jiàn)的強(qiáng)化學(xué)習(xí)算法。這里有一點(diǎn)需要注意，因?yàn)檫@對(duì)以后很重要，那就是當(dāng)我們使用最大似然時(shí)，大型語(yǔ)言模型實(shí)際上是強(qiáng)化學(xué)習(xí)的策略。它不再最大化最大似然，這意味著你不再對(duì)任何分布進(jìn)行建模。這很重要的原因是，經(jīng)過(guò)這種 PPO 的模型實(shí)際上不會(huì)為你提供有意義的文本可能性，因?yàn)槟銉?yōu)化它們所做的基本上只是優(yōu)化以生成最可能的東西，而不是優(yōu)化建模，比如人類可能說(shuō)的所有答案。換句話說(shuō)，這里沒(méi)有任何東西可以激勵(lì)模型不給出一個(gè)可能的生成。這里沒(méi)有任何東西表明如果你有一個(gè)帶有某種熵的分布，那它就是好的。

PPO 正是 ChatGPT 最初所做的。在他們的博客文章中，他們有第一步，進(jìn)行監(jiān)督微調(diào)，現(xiàn)在你們都知道了。第二步，根據(jù)人類偏好訓(xùn)練獎(jiǎng)勵(lì)模型。第三步，執(zhí)行 PPO 多個(gè)步驟，這就是你看到這個(gè)藍(lán)色箭頭的地方。你繼續(xù)用 PPO 訓(xùn)練模型一次，收集新數(shù)據(jù)，繼續(xù)。這正是 ChatGPT 所做的，也是 GPT-3 和 ChatGPT 之間的重大突破。

需要注意的一點(diǎn)是，PPO 面臨許多挑戰(zhàn)。強(qiáng)化學(xué)習(xí)在理論上非常好，但在實(shí)踐中，任何曾經(jīng)使用過(guò)強(qiáng)化學(xué)習(xí)的人都知道它很復(fù)雜。有很多事情，比如推出、外循環(huán)、剪輯等，導(dǎo)致過(guò)程非常復(fù)雜。這是用于語(yǔ)言模型（LM）設(shè)置的理想化近端策略優(yōu)化（PPO）。這比我們之前預(yù)期的要復(fù)雜得多。實(shí)際上，它要復(fù)雜得多。我們必須實(shí)現(xiàn)它，但我不會(huì)詳細(xì)介紹?；旧?，當(dāng)你實(shí)現(xiàn)這種類型的PPO算法時(shí)，你必須考慮很多因素。到處都有剪輯，復(fù)雜性很高，而且文檔記錄不完善。

所有這些都表明，我們需要一種新的方法。大約一年前，斯坦福大學(xué)提出了一種新方法，叫做直接偏好優(yōu)化（DPO），本質(zhì)上是PPO的簡(jiǎn)化。他們的思路是，不使用強(qiáng)化學(xué)習(xí)，而是最大化生成你喜歡的東西的概率，并最小化你不喜歡的東西的概率。

如果你考慮人類的偏好，紅色和綠色會(huì)最大化綠色，最小化紅色。所以損失實(shí)際上是模型在給定輸入情況下生成人類喜歡的東西的可能性。你試圖做的基本上是最大化生成你喜歡的東西的可能性，最小化你不喜歡的東西的可能性。其他所有術(shù)語(yǔ)在這里都不太重要，理解起來(lái)并不復(fù)雜。但在高層次上，它實(shí)際上只是最大化你喜歡的東西，最小化其他的東西。

有一點(diǎn)需要注意，實(shí)際上所有其余的選擇在某些假設(shè)下，PPO的全局最小值和DPO的全局最小值基本上是等價(jià)的。所以從數(shù)學(xué)上來(lái)說(shuō)，這是正確的做法。我不會(huì)進(jìn)行推導(dǎo)，但這是正確的做法。

PPO的情況完全不同。使用PPO，你需要收集人類偏好，然后訓(xùn)練具有最大似然的獎(jiǎng)勵(lì)模型，再使用強(qiáng)化學(xué)習(xí)?，F(xiàn)在你所做的基本上就是最大似然，簡(jiǎn)單多了。

他們?yōu)槭裁磸倪@個(gè)獎(jiǎng)勵(lì)模型開(kāi)始？是什么促使他們這樣做？

我認(rèn)為這是一個(gè)很好的問(wèn)題。我真的不知道。我可以告訴你的是，在OpenAI，最初做ChatGPT的人是真正編寫PPO的人。我認(rèn)為他們就像很多強(qiáng)化學(xué)習(xí)的人一樣，對(duì)他們來(lái)說(shuō)這是非常直觀的。

還有一些額外的潛在好處。例如，如果你使用獎(jiǎng)勵(lì)模型，強(qiáng)化學(xué)習(xí)的妙處在于，你可以將未標(biāo)記的數(shù)據(jù)與獎(jiǎng)勵(lì)模型一起使用。在這里，你只能使用標(biāo)記數(shù)據(jù)來(lái)執(zhí)行DPO。

對(duì)于PPO，首先需要訓(xùn)練獎(jiǎng)勵(lì)模型，然后可以使用未標(biāo)記的數(shù)據(jù)，獎(jiǎng)勵(lì)模型會(huì)標(biāo)記這些未標(biāo)記的數(shù)據(jù)。因此，還有額外的潛力，可能會(huì)有潛在的改進(jìn)。然而，實(shí)際上并沒(méi)有。

我認(rèn)為，這個(gè)團(tuán)隊(duì)中有很多強(qiáng)化學(xué)習(xí)專家，包括PPO的主要作者喬治·霍爾曼。PPO比DPO簡(jiǎn)單得多，而且表現(xiàn)也很好。所以現(xiàn)在這是人們使用的標(biāo)準(zhǔn)，至少在開(kāi)源社區(qū)中是這樣。我相信這實(shí)際上也是行業(yè)標(biāo)準(zhǔn)。這被稱為DPO。

收益方面，左邊的都是這些文件。這是一項(xiàng)總結(jié)任務(wù)。我想向你展示的是，預(yù)先訓(xùn)練的模型還不錯(cuò)，而且它們會(huì)隨著規(guī)模的擴(kuò)大而改進(jìn)。如果進(jìn)行監(jiān)督微調(diào)，會(huì)有更多的改進(jìn)。如果使用帶有人工反饋的RLHF進(jìn)行PPO或類似操作，會(huì)得到比人類更好的性能，這取決于基準(zhǔn)。這是人類的參考總結(jié)。

同樣，這是我們?cè)贏lpaca Farm的一篇論文中看到的，評(píng)估并不是太重要，但基本上你看到預(yù)先訓(xùn)練的模型，然后跳轉(zhuǎn)到SFG，再跳轉(zhuǎn)到PPO-DPO，PPO-DPO具有完全相同的性能。所以基本上，RLHF有幫助。這就是結(jié)論，DPO很簡(jiǎn)單。

關(guān)于數(shù)據(jù)的收集方式，第一個(gè)想法就是使用人類，正如我們已經(jīng)討論過(guò)的。對(duì)于人類應(yīng)該標(biāo)記什么的指導(dǎo)方針?lè)浅?fù)雜，而且真的不是那么容易。實(shí)際上，如果你做過(guò)一些標(biāo)記，你會(huì)發(fā)現(xiàn)它非常復(fù)雜。

比如，如果我放大這個(gè)問(wèn)題，告訴我關(guān)于自動(dòng)駕駛汽車的事情。你讀到過(guò)，自動(dòng)駕駛汽車是能夠檢測(cè)周圍環(huán)境的車輛，等等。自動(dòng)駕駛汽車是配備傳感器的汽車，等等，無(wú)需駕駛員即可導(dǎo)航。兩者似乎都還不錯(cuò)。比如，哪一個(gè)更好？乍一看，這實(shí)際上很難說(shuō)。

結(jié)果，人類的問(wèn)題是，你會(huì)開(kāi)始優(yōu)化很多高級(jí)功能。例如，第二個(gè)更長(zhǎng)。我可以向你保證，大多數(shù)人會(huì)選擇第二個(gè)。盡管也許第一個(gè)更好，我不知道，我還沒(méi)有仔細(xì)讀過(guò)。所以人類面臨的挑戰(zhàn)是，首先，速度慢，成本高。其次，正如我剛才提到的，很難專注于重要的事情，比如正確性。人們通常會(huì)關(guān)注一些不太重要的東西，比如形式、長(zhǎng)度。因此，我在這里展示的是，當(dāng)你進(jìn)行RLHF（強(qiáng)化學(xué)習(xí)與人類反饋）時(shí)，RLHF的次數(shù)越多，模型的輸出就越長(zhǎng)。如果你曾經(jīng)對(duì)ChatGPT回答的超長(zhǎng)句子感到惱火，這是因?yàn)镽LHF的影響。

注釋者的分布轉(zhuǎn)變是一個(gè)重要因素。你使用的注釋者的分布非常重要。你必須思考，我們希望在這些模型中代表的人類是什么樣的？另一個(gè)問(wèn)題是眾包道德。通常，很多標(biāo)簽工作報(bào)酬不高，執(zhí)行這些任務(wù)的人必須經(jīng)歷大量有毒數(shù)據(jù)，因?yàn)槟阆ＭＰ捅苊廨敵鲇卸緮?shù)據(jù)。眾包道德也是一個(gè)重要問(wèn)題。

人類數(shù)據(jù)面臨諸多挑戰(zhàn)。去年我們做了與Alpaca類似的工作，認(rèn)為人類面臨挑戰(zhàn)，也許我們可以用LLM（大型語(yǔ)言模型）來(lái)代替他們。我們所做的只是簡(jiǎn)單地替換人類的偏好為L(zhǎng)LM的偏好。

在這個(gè)圖中，X軸表示我們?yōu)槭占祟悢?shù)據(jù)所付出的代價(jià)。收集1000個(gè)示例大約需要300美元，這是在Mechanical Turkers上進(jìn)行的，通常比其他一些公司便宜。Y軸表示與其他人類的協(xié)議一致性。實(shí)際上，標(biāo)記確實(shí)非常復(fù)雜。在二元任務(wù)中，人類只有大約66%的時(shí)間與自己意見(jiàn)一致。這并不是說(shuō)人類表現(xiàn)不好，因?yàn)槲覀兪沁@篇論文的五位主要作者，我們嘗試自己標(biāo)記這些數(shù)據(jù)，但準(zhǔn)確率只有67%或68%，盡管我們花了三個(gè)小時(shí)討論如何標(biāo)記。這真的很復(fù)雜，不是一件容易的事。

我展示了許多不同的模型?；旧夏銜?huì)發(fā)現(xiàn)模型要便宜得多，而且它們實(shí)際上可以比人類本身與人類模式的一致性更高。原因是人類有很多變體，而模型沒(méi)有變體，所以它們可能有點(diǎn)偏見(jiàn)，但變體較少，因此效果出奇地好?，F(xiàn)在這已經(jīng)成為開(kāi)源社區(qū)的標(biāo)準(zhǔn)。我認(rèn)為即使在工業(yè)界，很多人也會(huì)同時(shí)使用人類和LLM來(lái)改進(jìn)所有HF數(shù)據(jù)的收集。

這是去年的論文，但老實(shí)說(shuō)，現(xiàn)在更像是LLM圍繞這個(gè)協(xié)議，而這個(gè)成本大約比人類便宜50倍，而且與人類達(dá)成的協(xié)議比人類本身更好。因此，這讓我們開(kāi)始評(píng)估訓(xùn)練后的效果。這又回到了你在講座開(kāi)始時(shí)提出的問(wèn)題：你如何評(píng)估像ChatGPT這樣的模型？

ChatGPT可以給出的答案基本上是無(wú)限的，而且并不是說(shuō)它只有一個(gè)正確答案。有很多答案同樣好，所以存在很多挑戰(zhàn)。首先，你不能使用驗(yàn)證損失，因?yàn)橐环N方法可能使用PPO，另一種方法可能使用DPO，驗(yàn)證損失是不可比的。其次，你不能使用困惑度。這是我之前告訴你的，這些模型沒(méi)有經(jīng)過(guò)校準(zhǔn)，它們沒(méi)有給出分布，它們只是針對(duì)一件事進(jìn)行優(yōu)化。因此，一旦對(duì)齊，你就不能使用困惑度來(lái)實(shí)際評(píng)估這些類型的模型。

第三，人類可能會(huì)向這些模型提出各種各樣的問(wèn)題，包括生成、開(kāi)放式問(wèn)答、一些問(wèn)答、一些總結(jié)等等。所以你必須涵蓋很多內(nèi)容。這些任務(wù)真的是開(kāi)放式的，所以很難實(shí)現(xiàn)自動(dòng)化。這就是你之前提到的。所以我們的想法是，我們不是試圖想出真正容易實(shí)現(xiàn)自動(dòng)化的基準(zhǔn)，而是要問(wèn)用戶在實(shí)踐中實(shí)際向這些模型提出的問(wèn)題。我們只是要讓注釋者說(shuō)出這兩個(gè)模型中哪一個(gè)更好，比如哪個(gè)輸出更好。所以你基本上和所有HF的數(shù)據(jù)做同樣的事情，但現(xiàn)在你用它來(lái)進(jìn)行評(píng)估。

我不確定我是否理解你的意思，比如，你不能使用困惑度而不校準(zhǔn)它，比如，LLM仍在進(jìn)行下一個(gè)標(biāo)記預(yù)測(cè)，但是，為什么不能使用困惑度？

想想，進(jìn)行PPO之后的最佳解決方案基本上是一個(gè)模型，它給你一個(gè)增量，基本上是說(shuō)只有一個(gè)句子可以針對(duì)該問(wèn)題生成。所以現(xiàn)在如果你將它用在語(yǔ)義上稍微不同的東西上，它實(shí)際上會(huì)給出該答案的可能性為零。實(shí)際上，情況并沒(méi)有那么極端，因?yàn)檎缒闼f(shuō)，它仍然是一種分布，但它只是向你展示了困惑度存在一個(gè)根本問(wèn)題。一旦這些模型不再是LLM，它們就不會(huì)再被訓(xùn)練，至少對(duì)于PPO來(lái)說(shuō)，它們就不會(huì)再被訓(xùn)練去做最大似然法了，它們被訓(xùn)練成策略。

所以可能最常見(jiàn)的或者最受信任的基準(zhǔn)是我們所說(shuō)的聊天機(jī)器人競(jìng)技場(chǎng)，基本上是上網(wǎng)，讓互聯(lián)網(wǎng)上的隨機(jī)用戶盲目地與兩個(gè)聊天機(jī)器人交談，只需問(wèn)很多問(wèn)題，看看兩個(gè)答案，然后評(píng)價(jià)哪一個(gè)更好。你要對(duì)數(shù)十萬(wàn)用戶進(jìn)行這樣的測(cè)試，然后你就會(huì)得到實(shí)際的偏好，然后得到模型的排名。您現(xiàn)在可以進(jìn)入聊天機(jī)器人領(lǐng)域，與這些模型進(jìn)行實(shí)際互動(dòng)。

需要強(qiáng)調(diào)的是，雖然想要做這些事情的人通常更像是技術(shù)驅(qū)動(dòng)的，或者對(duì)技術(shù)比較通曉，所以你會(huì)問(wèn)很多技術(shù)方面的問(wèn)題，討論軟件錯(cuò)誤、AI工具的使用等。

另一個(gè)問(wèn)題是成本和速度。如果你真的想在開(kāi)發(fā)過(guò)程中使用這樣的工具，那將非常昂貴，因?yàn)槟慊旧闲枰跺X給很多人來(lái)做這件事。所以一個(gè)簡(jiǎn)單的想法是，只使用語(yǔ)言模型（LM）而不是人類。

每條指令的步驟都會(huì)根據(jù)一些基線和你想要評(píng)估的模型生成輸出。想象一下我正在比較 ChatGPT 和 Mistral 的答案。我只是問(wèn)一個(gè)模型，再問(wèn)另一個(gè)模型，哪一個(gè)更好，然后取平均值。是的，我問(wèn)過(guò) GPT-4 哪一個(gè)更好。我對(duì)整個(gè)分布、基準(zhǔn)或數(shù)據(jù)集取平均值，這給了我一個(gè)勝率，即一個(gè)模型與另一個(gè)模型相比的勝率，現(xiàn)在你可以對(duì)模型進(jìn)行排名了。這是 Alpaca 評(píng)估，排行榜。

這樣做的好處是，我們展示了與 ChatBot Arena 的相關(guān)性為 98%，與人類的相關(guān)性非常高。與其他基準(zhǔn)的相關(guān)性比較，運(yùn)行時(shí)間不到三分鐘，成本不到10美元，非常便宜。

不過(guò)也有缺點(diǎn)。其中之一是虛假相關(guān)。正如我們之前看到的，語(yǔ)言模型更喜歡較長(zhǎng)的輸出。實(shí)際上，人類也喜歡較長(zhǎng)的輸出，但問(wèn)題在于，一旦使用語(yǔ)言模型，一旦存在偏見(jiàn)，你就會(huì)繼續(xù)優(yōu)化它。人類在某個(gè)時(shí)候會(huì)拒絕過(guò)長(zhǎng)的答案，但如果語(yǔ)言模型有這種偏見(jiàn)，并且它們?yōu)榇私邮苓^(guò)訓(xùn)練，它們將繼續(xù)喜歡較長(zhǎng)的輸出。所以，在這里我們看到，偏好只是表明人類和模型更喜歡較長(zhǎng)的輸出。

這是初始Llama評(píng)估數(shù)據(jù)集基準(zhǔn)的另一個(gè)視圖。當(dāng)我們對(duì) GPT-4 進(jìn)行排名時(shí)，如果我們比較標(biāo)準(zhǔn) GPT-4，它會(huì)得到 50% 的定義，因?yàn)槲覀冋诒容^ GPT-4 與 GPT-4。但是，如果我們要求 GPT-4 稍微詳細(xì)一些，只需在提示中說(shuō)在答案中要詳細(xì)一些，那么它的響鈴率為 64.4%。差異確實(shí)很大。

如果我們要求模型簡(jiǎn)潔，它的表現(xiàn)可能只有20%。因此，根據(jù)您要求的簡(jiǎn)潔或詳細(xì)程度，結(jié)果會(huì)有很大差異。這非常令人煩惱。

一個(gè)可能的解決方案是使用回歸分析。雖然我不會(huì)詳細(xì)介紹，但基本上是使用因果推理工具來(lái)控制文本長(zhǎng)度。現(xiàn)在，實(shí)際上長(zhǎng)度并不那么重要。如果您要求詳細(xì)，仍然會(huì)有一些收益，但收益會(huì)少得多。

這就是關(guān)于訓(xùn)練后的全部?jī)?nèi)容。接下來(lái)的八分鐘里，我可能會(huì)談?wù)撓到y(tǒng)或回答問(wèn)題。

回到訓(xùn)練后，我們?nèi)绾问褂蒙倭课⒄{(diào)數(shù)據(jù)調(diào)整參數(shù)并對(duì)模型產(chǎn)生如此大的影響？您之前提到過(guò)，有一組不同的超參數(shù)。我們是只改變部分權(quán)重、后續(xù)權(quán)重，還是所有權(quán)重？實(shí)際情況如何？

是的，我粗略地瀏覽了所有這些。你需要改變所有的權(quán)重。實(shí)際上，行業(yè)會(huì)改變所有的權(quán)重。在開(kāi)源領(lǐng)域，你可能聽(tīng)說(shuō)過(guò)LoRa，它基本上只會(huì)改變一些權(quán)重，或者更具體地說(shuō)，它會(huì)給每一層的輸出添加一些差異。但在行業(yè)中，你需要微調(diào)所有的權(quán)重。

關(guān)于數(shù)據(jù)的其他方面，實(shí)際上在最后一步，allHF，你通常會(huì)收集比SFT多得多的數(shù)據(jù)。如果SFT是5,000、10,000，也許50,000，allHF的數(shù)據(jù)量可能接近100萬(wàn)，數(shù)量級(jí)上更大，但仍然比預(yù)訓(xùn)練少得多。預(yù)訓(xùn)練涉及15萬(wàn)億個(gè)token，這甚至不算什么。

然而，你對(duì)權(quán)重的影響很大。因?yàn)槟氵@樣做——你必須認(rèn)為你這樣做的方式是使用不同的學(xué)習(xí)率。但同時(shí)，你只能這樣做。想象一下，如果我訓(xùn)練——即使我只訓(xùn)練一個(gè)句子，但一遍又一遍，在某個(gè)時(shí)候，我的模型只會(huì)生成那個(gè)句子，即使它只是一個(gè)句子而不是15萬(wàn)億個(gè)標(biāo)記。所以如果你使用足夠大的學(xué)習(xí)率，并且持續(xù)足夠長(zhǎng)的時(shí)間，你基本上會(huì)過(guò)度擬合那個(gè)句子。

關(guān)鍵是，數(shù)據(jù)不是id——它不像你混合了一些訓(xùn)練后數(shù)據(jù)和一些訓(xùn)練前數(shù)據(jù)。你進(jìn)行預(yù)訓(xùn)練，然后你只需開(kāi)始微調(diào)——僅在訓(xùn)練后。所以另一種方式——也許另一種觀點(diǎn)是，預(yù)訓(xùn)練只是你的模型的初始化。一旦你這樣看待它，就會(huì)發(fā)現(xiàn)這只是權(quán)重的初始化，所以沒(méi)有什么特別的。比如，你不需要記住你之前已經(jīng)對(duì)大量數(shù)據(jù)進(jìn)行過(guò)訓(xùn)練。唯一重要的是，您進(jìn)行了初始化，現(xiàn)在我實(shí)際上訓(xùn)練了一個(gè)模型。

在某種程度上，有一個(gè)屬性標(biāo)記。你有你的權(quán)重，這是我的初始化?，F(xiàn)在我正在訓(xùn)練那個(gè)。這能回答你的問(wèn)題嗎？

但是你剛才說(shuō)了一些東西，它幾乎相當(dāng)于多次重新運(yùn)行微調(diào)數(shù)據(jù)。這是否真的是為了提供更多的偏好而實(shí)際發(fā)生的事情？

嗯，我現(xiàn)在實(shí)際上不知道他們?cè)谛袠I(yè)中是如何做的。當(dāng)我們做Llama時(shí)，我們必須做三個(gè)時(shí)代。所以你確實(shí)對(duì)它運(yùn)行了三次。但是，即使你運(yùn)行它的次數(shù)，實(shí)際上也不重要。唯一重要的是有效學(xué)習(xí)率，這才是最重要的。

我想我有五分鐘。我可能會(huì)嘗試給出一個(gè)高層次的概述，至少?gòu)南到y(tǒng)技巧之一開(kāi)始。正如我們所說(shuō)，對(duì)于每個(gè)人來(lái)說(shuō)，系統(tǒng)瓶頸都是很抱歉的，計(jì)算是一個(gè)巨大的瓶頸。你可能會(huì)問(wèn)的一個(gè)問(wèn)題是，為什么不買更多的GPU？

GPU很貴，但也很稀缺。即使你現(xiàn)在有1000萬(wàn)美元，你也買不到最好的GPU。還有一些物理限制。當(dāng)你有多個(gè)GPU時(shí)，你必須在它們之間進(jìn)行通信，這需要時(shí)間。所以，僅僅購(gòu)買更多的GPU并不是那么容易。因此，考慮如何分配資源以及如何優(yōu)化你的管道真的很重要。

系統(tǒng)方面，GPU 101。對(duì)不起，我講得快一點(diǎn)。我希望你們中的一些人至少能跟上。GPU基本上是針對(duì)吞吐量進(jìn)行優(yōu)化的，CPU是針對(duì)延遲進(jìn)行優(yōu)化的。因此，對(duì)于GPU，你必須這樣思考：一個(gè)命令可以同時(shí)在多個(gè)內(nèi)核上運(yùn)行，處理不同類型的數(shù)據(jù)。這就是你看到的GPU，有很多不同的核心。我們稱它們?yōu)榱魇蕉嗵幚砥?，這與通常的CPU架構(gòu)非常不同。所以，想想GPU的高吞吐量、并行化。GPU針對(duì)快速矩陣乘法進(jìn)行了優(yōu)化。每次在 GPU 上進(jìn)行操作時(shí)，如果能使用矩陣乘法，速度會(huì)比其他方法快 10 倍。這有點(diǎn)令人煩惱，因?yàn)檫@意味著我們?cè)诰仃嚦朔ǚ矫嬗龅搅似款i。

需要注意的是，GPU 的計(jì)算速度改進(jìn)比內(nèi)存和通信速度更快。因此，現(xiàn)在 GPU 通常很難保持同步，發(fā)送給 GPU 的數(shù)據(jù)實(shí)際上很難跟上進(jìn)程。如果只是運(yùn)行普通代碼而不優(yōu)化，大多數(shù) GPU 實(shí)際上會(huì)處于空閑狀態(tài)。這種通信瓶頸會(huì)隨著時(shí)間的推移而持續(xù)存在。

另一個(gè)需要了解的是，GPU 存在內(nèi)存層次結(jié)構(gòu)。這與 CPU 類似，離核心越近，內(nèi)存越少但速度越快；離核心越遠(yuǎn)，內(nèi)存越多但速度越慢。

人們通常關(guān)注的指標(biāo)是模型的浮點(diǎn)數(shù)利用率。GPU 可以運(yùn)行的理論最大值是多少，每秒可以使用的浮點(diǎn)數(shù)是多少，觀察到的吞吐量除以這個(gè)理論最大值。一般來(lái)說(shuō)，如果達(dá)到 50%，就已經(jīng)很不錯(cuò)了。例如，F(xiàn)acebook 的 Lima 項(xiàng)目浮點(diǎn)數(shù)利用率大約是 45%。這意味著數(shù)據(jù)傳輸速度不夠快，即使對(duì)于大公司也是如此。

一個(gè)簡(jiǎn)單的技巧是使用低精度。將浮點(diǎn)數(shù)置于低精度，發(fā)送到 GPU 的位數(shù)就會(huì)減少，通信速度更快，內(nèi)存消耗更低，一切都會(huì)變得更快。對(duì)于深度學(xué)習(xí)來(lái)說(shuō)，小數(shù)精度并不那么重要。例如，在進(jìn)行矩陣乘法或 SGD 時(shí)，已經(jīng)存在太多噪音，更新 0.01 或 0.015 并不會(huì)有太大影響。

因此，不再使用每個(gè)浮點(diǎn)數(shù) 32 位或 64 位，而是使用 16 位進(jìn)行矩陣乘法。對(duì)于訓(xùn)練，可以使用一種稱為自動(dòng)混合精度的方法，即某些內(nèi)容使用 32 位，其他內(nèi)容使用 16 位。一般來(lái)說(shuō)，模型的權(quán)重以 32 位存儲(chǔ)，但在計(jì)算之前，將所有內(nèi)容轉(zhuǎn)換為 16 位，這樣可以非?？焖俚剡M(jìn)行計(jì)算，最后以 32 位更新權(quán)重。你之所以使用32位進(jìn)行所有更新，是因?yàn)槟阏J(rèn)為即使學(xué)習(xí)率非常小，你仍然希望能夠?qū)?quán)重產(chǎn)生影響。因此，所有計(jì)算都是用16位完成的，但權(quán)重實(shí)際上存儲(chǔ)在32位中。這是人們做事的標(biāo)準(zhǔn)方式。

接下來(lái)，我將談?wù)撨\(yùn)算符融合，因?yàn)槲艺J(rèn)為這非常酷。正如我剛才所說(shuō)，通信非常慢。實(shí)際上，每次使用PyTorch時(shí)，它基本上都會(huì)將變量移動(dòng)到GPU的全局內(nèi)存中。

當(dāng)你有這樣的內(nèi)容時(shí)，比如x點(diǎn)余弦等于x1，然后你執(zhí)行x1點(diǎn)余弦，后臺(tái)發(fā)生的事情是，你獲取x，即數(shù)據(jù)，將其發(fā)送到GPU的實(shí)際處理器，應(yīng)用余弦，然后將其發(fā)送回GPU的主內(nèi)存。然后你看到下一行，你把它送回GPU處理器，應(yīng)用另一個(gè)余弦，然后再把它送回來(lái)。

另一種看待這個(gè)問(wèn)題的方式是，你從DRAM（GPU中的全局內(nèi)存）出發(fā)，然后把它送到計(jì)算中，每行都把它送回來(lái)。這是一種幼稚的做法，似乎非常浪費(fèi)。因此，運(yùn)算符融合的簡(jiǎn)單想法就是進(jìn)行所有計(jì)算，然后只進(jìn)行一次通信，把結(jié)果送回來(lái)。這正是融合內(nèi)核的本質(zhì)。

如果你想讓在PyTorch中的計(jì)算速度更快，只需在你的模型上應(yīng)用torch.compile。這將使你的模型速度提高大約兩倍。它所做的只是重寫你的代碼，比如你的PyTorch代碼，基本上在CUDA中使用C++，只進(jìn)行一次通信，然后執(zhí)行所有操作，再把結(jié)果送回來(lái)。

我沒(méi)有時(shí)間詳細(xì)談?wù)撈戒?。平鋪很重要，并行化也很重要，專家的混合也很重要。展望未?lái)，還有很多事情我們還沒(méi)有談到。我們還沒(méi)有談到架構(gòu)，也沒(méi)有談到推理。LLM還有許多其他重要的事情。

可以說(shuō)，ChatGPT最大的創(chuàng)新之處在于它有一個(gè)簡(jiǎn)單的UI來(lái)使用它。多模態(tài)，你可能遇到的所有誤用是什么。事實(shí)上，互聯(lián)網(wǎng)上可能沒(méi)有足夠的數(shù)據(jù)來(lái)訓(xùn)練所有這些模型。數(shù)據(jù)收集的合法性也是一個(gè)問(wèn)題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.