99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

深度解密大語(yǔ)言模型: 數(shù)據(jù), 評(píng)估和系統(tǒng) | 斯坦福最新“構(gòu)建LLM大語(yǔ)言模型”講座三萬(wàn)字全文(附視頻)

0
分享至

未經(jīng)許可不得轉(zhuǎn)載,務(wù)必保留原文出處鏈接和公眾號(hào)按鈕

(關(guān)注本城公眾號(hào)并設(shè)為星標(biāo),

第一時(shí)間獲取最新世界頂級(jí)科技認(rèn)知)


文:Web3天空之城 · 城主

當(dāng)下,我們所依賴的大型語(yǔ)言模型(LLM)已成為人工智能領(lǐng)域的核心。無(wú)論是OpenAI的ChatGPT,還是其他類似的AI助手,它們的背后都依賴于復(fù)雜而精密的模型訓(xùn)練與優(yōu)化過(guò)程。

盡管對(duì)于非LLM專業(yè)人士來(lái)說(shuō),我們都明白了這些大模型在日常應(yīng)用中的出色表現(xiàn),但其背后巨量的技術(shù)細(xì)節(jié)卻是難以一窺全貌,頂多淺嘗而止。近日,斯坦福大學(xué)一場(chǎng)技術(shù)講座以深入淺出的方式,為我們揭示了LLM最新的核心機(jī)制和關(guān)鍵挑戰(zhàn)。從模型架構(gòu)到數(shù)據(jù)處理,從預(yù)訓(xùn)練到后訓(xùn)練,這場(chǎng)講座不僅全面覆蓋了構(gòu)建LLM的所有關(guān)鍵步驟,還特別強(qiáng)調(diào)了容易被忽視的重要細(xì)節(jié)。

城主認(rèn)為,在不涉及具體編程和數(shù)學(xué)學(xué)習(xí)的前提下,這基本是讀者能獲得的關(guān)于LLM最詳盡和有價(jià)值的技術(shù)內(nèi)容了。通讀本文可以幫助您更好地理解LLM的技術(shù)原理和未來(lái)發(fā)展方向。

B站傳送:【中英精?!繕?gòu)建LLM大語(yǔ)言模型 | 斯坦福cs229機(jī)器學(xué)習(xí)最新入門講座-嗶哩嗶哩】 https://b23.tv/gOGbcTz

以下是本講座的重點(diǎn)內(nèi)容,有興趣的讀者可以收藏并找時(shí)間通讀三萬(wàn)字干貨全文。

LLM 的架構(gòu)與關(guān)鍵組件

架構(gòu)選擇:盡管Transformer是當(dāng)前LLM的主流架構(gòu),但實(shí)際上,訓(xùn)練算法、數(shù)據(jù)、評(píng)估和系統(tǒng)才是構(gòu)建高效LLM的核心關(guān)注點(diǎn)。

自回歸語(yǔ)言模型:LLM主要通過(guò)自回歸方式生成文本,通過(guò)預(yù)測(cè)下一個(gè)單詞的概率來(lái)逐步生成整個(gè)句子。

標(biāo)記化:標(biāo)記化過(guò)程是LLM的重要環(huán)節(jié)之一,標(biāo)記器將文本轉(zhuǎn)換為模型可以處理的標(biāo)記(tokens),而標(biāo)記器的選擇和優(yōu)化直接影響模型的性能。

預(yù)訓(xùn)練與后訓(xùn)練

預(yù)訓(xùn)練:預(yù)訓(xùn)練的目標(biāo)是讓模型學(xué)習(xí)語(yǔ)言的基本結(jié)構(gòu)和語(yǔ)法,通過(guò)在大量文本數(shù)據(jù)上訓(xùn)練,模型掌握了基礎(chǔ)的語(yǔ)言知識(shí)。

后訓(xùn)練:后訓(xùn)練則是為了讓模型更符合用戶的期望,通過(guò)微調(diào)模型,使其能夠更好地遵循指令,并減少幻覺(jué)現(xiàn)象的出現(xiàn)。

數(shù)據(jù)處理與評(píng)估

數(shù)據(jù)收集與處理:數(shù)據(jù)的收集和處理在LLM的構(gòu)建中至關(guān)重要。從網(wǎng)絡(luò)爬蟲(chóng)抓取的海量數(shù)據(jù)中提取有價(jià)值的內(nèi)容,并進(jìn)行去重、過(guò)濾和分類,是確保模型性能的關(guān)鍵。

評(píng)估指標(biāo):講座特別提到,困惑度(Perplexity)和驗(yàn)證損失在LLM的預(yù)訓(xùn)練中是常用的評(píng)估標(biāo)準(zhǔn),而在后訓(xùn)練中,則更多依賴于人類反饋和對(duì)齊指標(biāo)。

強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)

監(jiān)督微調(diào)(SFT):通過(guò)少量高質(zhì)量的人類標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),使得模型能夠生成更符合人類期望的答案。

強(qiáng)化學(xué)習(xí)與人類反饋:通過(guò)讓模型根據(jù)人類的反饋進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF),使得模型不僅能生成合理的答案,還能最大化人類的滿意度。

系統(tǒng)優(yōu)化與未來(lái)展望

系統(tǒng)瓶頸與優(yōu)化:GPU的計(jì)算速度雖快,但內(nèi)存和通信速度的瓶頸限制了模型的效率。低精度計(jì)算和運(yùn)算符融合等技術(shù)可以顯著提升計(jì)算效率。

未來(lái)挑戰(zhàn)與機(jī)會(huì):未來(lái)的LLM發(fā)展面臨數(shù)據(jù)合法性、推理優(yōu)化、多模態(tài)處理等諸多挑戰(zhàn),但也為技術(shù)進(jìn)步提供了廣闊的空間。

==Web3天空之城書面全文版=

今天我將討論如何構(gòu)建大型語(yǔ)言模型(LLM)。

我想你們很多人以前都聽(tīng)說(shuō)過(guò) LLM。作為快速回顧,LLM(大型語(yǔ)言模型)基本上就是您最近聽(tīng)到的所有聊天機(jī)器人,比如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Gemini 和 Llama 以及其他類似的模型。今天我們將討論它們實(shí)際上是如何工作的。

這將是一個(gè)概述,因?yàn)橹挥幸惶谜n,很難壓縮所有內(nèi)容。但我希望能稍微介紹一下訓(xùn)練這些 LLM 所需的所有組件。此外,如果您有任何問(wèn)題,請(qǐng)隨時(shí)打斷并提問(wèn)。

在訓(xùn)練 LLM 時(shí),有幾個(gè)關(guān)鍵要素非常重要。首先是架構(gòu)。大家可能都知道,LLM 是神經(jīng)網(wǎng)絡(luò)。當(dāng)你考慮神經(jīng)網(wǎng)絡(luò)時(shí),你必須考慮你正在使用什么架構(gòu)。另一個(gè)非常重要的組件是訓(xùn)練損失和訓(xùn)練算法,也就是你如何實(shí)際訓(xùn)練這些模型。然后是數(shù)據(jù),你用什么來(lái)訓(xùn)練這些模型?還有評(píng)估,也就是你如何知道你是否真的在朝著 LLM 的目標(biāo)前進(jìn)?最后是系統(tǒng)組件,你如何讓這些模型在現(xiàn)代硬件上運(yùn)行?這真的很重要,因?yàn)檫@些模型非常大,所以系統(tǒng)實(shí)際上是 LLM 的一個(gè)非常重要的主題,比以往任何時(shí)候都重要。

你們可能都知道,LLM 都是基于 transformer 或至少是某個(gè)版本的 transformer。我今天實(shí)際上不打算談?wù)摷軜?gòu)。第一,因?yàn)槲規(guī)字芮白隽艘粋€(gè)關(guān)于 transformer 的講座。其次,你可以在網(wǎng)上找到大量有關(guān) transformer 的信息。但我認(rèn)為關(guān)于其他四個(gè)主題的信息要少得多,所以我真的很想談?wù)勊鼈儭?/p>


另外要說(shuō)的是,大多數(shù)學(xué)術(shù)界實(shí)際上關(guān)注的是架構(gòu)、訓(xùn)練算法和損失。作為學(xué)者,我在職業(yè)生涯的大部分時(shí)間里都是這樣做的,我們只是喜歡認(rèn)為這就像我們制造新的架構(gòu)、新的模型,這似乎非常重要。但實(shí)際上,老實(shí)說(shuō),在實(shí)踐中最重要的主要是其他三個(gè)主題。因此,數(shù)據(jù)、評(píng)估和系統(tǒng)是大多數(shù)行業(yè)實(shí)際上關(guān)注的重點(diǎn)。所以這也是我不想過(guò)多談?wù)摷軜?gòu)的原因之一,因?yàn)槠溆嗟恼娴姆浅V匾?/p>

太好了。在講座的概述中,我將談?wù)擃A(yù)訓(xùn)練。

預(yù)訓(xùn)練是一個(gè)你可能聽(tīng)說(shuō)過(guò)的詞匯。這是一種經(jīng)典的語(yǔ)言建模范式,基本上是訓(xùn)練一個(gè)語(yǔ)言模型來(lái)模擬整個(gè)互聯(lián)網(wǎng)。與之相對(duì)的是后訓(xùn)練,這是一個(gè)較新的范式,它利用這些大型語(yǔ)言模型,使它們本質(zhì)上成為 AI 助手。這是自 ChatGPT 以來(lái)的最新趨勢(shì)。

如果你聽(tīng)說(shuō)過(guò) GPT-3 或 GPT-2,那它們屬于預(yù)訓(xùn)練領(lǐng)域。而 ChatGPT 則屬于后訓(xùn)練領(lǐng)域。我會(huì)談?wù)撨@兩者,但我將從預(yù)訓(xùn)練開(kāi)始。具體來(lái)說(shuō),我將討論預(yù)訓(xùn)練大型語(yǔ)言模型(LLM)的任務(wù)是什么,以及人們實(shí)際使用的定律是什么。

首先,快速回顧一下語(yǔ)言建模。高層次的語(yǔ)言模型只是對(duì)標(biāo)記或單詞序列的概率分布模型?;旧?,它是從 x1 到 xl 的概率模型,其中 x1 是第一個(gè)單詞,xl 是序列或句子中的最后一個(gè)單詞。舉個(gè)例子,如果你有一句話,比如“老鼠吃了奶酪”,語(yǔ)言模型給出的只是這句話被人說(shuō)出或在網(wǎng)上找到的概率。

如果你有另一個(gè)句子,比如“老鼠吃奶酪”,這里就有語(yǔ)法錯(cuò)誤,模型應(yīng)該知道這句話在網(wǎng)上出現(xiàn)的可能性較小。如果你有另一個(gè)句子,比如“奶酪吃老鼠”,模型應(yīng)該知道奶酪通常不吃老鼠,所以有一些語(yǔ)義知識(shí),這比第一句話的可能性要小。這基本上是語(yǔ)言模型的高級(jí)版本。


你可能在新聞中經(jīng)常聽(tīng)到的一個(gè)詞是生成模型。生成模型可以生成句子或一些數(shù)據(jù)。我們之所以說(shuō)語(yǔ)言模型是生成模型,是因?yàn)橐坏┠阌辛艘粋€(gè)分布模型,你就可以簡(jiǎn)單地從這個(gè)模型中抽樣,然后生成數(shù)據(jù)。所以你可以使用語(yǔ)言模型生成句子。

目前人們使用的模型類型是自回歸語(yǔ)言模型。自回歸語(yǔ)言模型的關(guān)鍵思想是,你把這個(gè)單詞分布分解成第一個(gè)單詞的分布,乘以給定第一個(gè)單詞的第二個(gè)單詞分布的可能性,再乘以前兩個(gè)單詞對(duì)應(yīng)的第三個(gè)單詞的概率。這沒(méi)有近似值,只是概率鏈?zhǔn)椒▌t,希望你們都知道。這只是對(duì)分布進(jìn)行建模的一種方法。

更簡(jiǎn)潔一點(diǎn),你可以把它寫成下一個(gè)單詞的概率乘積,考慮到過(guò)去發(fā)生的一切,也就是上下文。自回歸語(yǔ)言模型是我們討論的主題。需要強(qiáng)調(diào)的是,這并不是對(duì)分布進(jìn)行建模的唯一方法,只是一種方法而已。它有一些優(yōu)點(diǎn),也有一些缺點(diǎn)。

自回歸語(yǔ)言模型的一個(gè)缺點(diǎn)是,當(dāng)你從中實(shí)際采樣時(shí),基本上需要一個(gè)for循環(huán)來(lái)生成下一個(gè)單詞,然后以生成的單詞為條件繼續(xù)生成下一個(gè)單詞。因此,如果你想生成一個(gè)更長(zhǎng)的句子,就需要更多時(shí)間來(lái)完成。這是當(dāng)前范式的一些缺點(diǎn),但這是我們目前所擁有的。

接下來(lái),我將詳細(xì)談?wù)勛曰貧w語(yǔ)言模型。從高層次上講,自回歸語(yǔ)言模型的任務(wù)就是預(yù)測(cè)下一個(gè)單詞。例如,如果你有一個(gè)句子“她可能喜歡”,一個(gè)潛在的下一個(gè)單詞可能是“狗”。我們首先進(jìn)行標(biāo)記,將這些單詞或子單詞進(jìn)行標(biāo)記,并為每個(gè)標(biāo)記賦予一個(gè)ID,如1、2、3。然后將其傳遞到模型中,獲得下一個(gè)單詞或標(biāo)記的概率分布。從該分布中采樣,獲得一個(gè)新的標(biāo)記,然后進(jìn)行去標(biāo)記化,得到一個(gè)新的ID,這就是從語(yǔ)言模型中采樣的基本方式。

需要注意的是,最后兩個(gè)步驟實(shí)際上僅在推理過(guò)程中才需要。在訓(xùn)練時(shí),只需要預(yù)測(cè)最可能的標(biāo)記,然后與實(shí)際標(biāo)記進(jìn)行比較,這在實(shí)踐中確實(shí)發(fā)生過(guò)。然后可以改變模型的權(quán)重以增加生成該標(biāo)記的概率。

具體來(lái)說(shuō),自回歸神經(jīng)語(yǔ)言模型的第一步是擁有所有這些標(biāo)記。在預(yù)測(cè)下一個(gè)標(biāo)記的概率時(shí),最終輸出向量的維度必須與標(biāo)記數(shù)相同。處理添加更多標(biāo)記的問(wèn)題時(shí),雖然有方法可以做到,但基本上人們不會(huì)這樣做。因此,如何標(biāo)記文本非常重要,這也是我們稍后會(huì)討論的原因。值得注意的是,詞匯量,即你擁有的標(biāo)記數(shù),本質(zhì)上是語(yǔ)言模型的輸出,所以它實(shí)際上非常大。自回歸神經(jīng)語(yǔ)言模型的工作原理如下:


首先,提取每個(gè)單詞或標(biāo)記,并將它們嵌入到向量表示中。然后,將這些向量傳遞給一個(gè)神經(jīng)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)通常是一個(gè)Transformer模型。通過(guò)這種方式,可以獲得上下文中所有單詞的表示,基本上是整個(gè)句子的表示。

接下來(lái),將這些表示傳遞到線性層,將其映射到數(shù)字,輸出的數(shù)量等于標(biāo)記的數(shù)量。然后,將其傳遞到softmax層,得到下一個(gè)單詞的概率分布,給定上下文中的每個(gè)單詞。這個(gè)過(guò)程本質(zhì)上是對(duì)下一個(gè)標(biāo)記進(jìn)行分類的任務(wù),是一種非常簡(jiǎn)單的機(jī)器學(xué)習(xí)任務(wù)。

在這種情況下,使用交叉熵定律,可以查看實(shí)際發(fā)生的目標(biāo),即目標(biāo)分布,通常是獨(dú)熱編碼。例如,如果實(shí)際發(fā)生的單詞是“cat”,那么這是“cat”的獨(dú)熱分布。生成的實(shí)際分布與目標(biāo)分布進(jìn)行交叉熵計(jì)算,增加生成“cat”的概率并降低生成其他標(biāo)記的概率。


需要注意的是,這相當(dāng)于最大化文本對(duì)數(shù)似然,因?yàn)榭梢詫⒆曰貧w語(yǔ)言建模任務(wù)的概率最大值重寫為最小值,通過(guò)添加對(duì)數(shù)并減去,得到的就是交叉熵?fù)p失。因此,最小化損失與最大化文本的可能性是一回事。

接下來(lái)討論標(biāo)記器。標(biāo)記器是一個(gè)非常重要但常被忽視的部分。了解標(biāo)記器的作用非常重要,因?yàn)樗葐卧~更通用。簡(jiǎn)單來(lái)說(shuō),如果我們只提取每個(gè)單詞作為標(biāo)記,那么如果單詞中有拼寫錯(cuò)誤,就無(wú)法將這個(gè)有拼寫錯(cuò)誤的單詞傳遞到大型語(yǔ)言模型中。

此外,對(duì)于基于拉丁語(yǔ)的語(yǔ)言,單詞作為標(biāo)記是可行的,但對(duì)于像泰語(yǔ)這樣的語(yǔ)言,由于單詞之間沒(méi)有空格,無(wú)法簡(jiǎn)單地通過(guò)空格進(jìn)行標(biāo)記。因此,標(biāo)記比單詞更通用。

另一種方法是逐個(gè)字符地標(biāo)記每個(gè)句子。您可能會(huì)說(shuō)A是一個(gè)標(biāo)記,B是另一個(gè)標(biāo)記。這實(shí)際上會(huì)起作用,而且可能非常好。問(wèn)題是您的序列會(huì)變得非常長(zhǎng)。您可能還記得Transformers的講座,復(fù)雜度會(huì)隨著序列長(zhǎng)度的增加而呈二次方增長(zhǎng)。所以您真的不想有一個(gè)超長(zhǎng)的序列。

Tokenizer基本上試圖解決這兩個(gè)問(wèn)題,并為常見(jiàn)的子序列賦予特定的token。通常您應(yīng)該考慮的是,每個(gè)token的平均長(zhǎng)度大約是3-4個(gè)字母。有很多tokenization算法。我只討論其中一種,以便給您一個(gè)高層次的理解,也就是我們所說(shuō)的字節(jié)對(duì)編碼,這實(shí)際上非常常見(jiàn),是兩種最常見(jiàn)的tokenizer之一。


訓(xùn)練tokenizer的方式是,首先從一個(gè)非常大的文本語(yǔ)料庫(kù)開(kāi)始。這里我實(shí)際上還沒(méi)有談?wù)撚?xùn)練一個(gè)大型語(yǔ)言模型,這純粹是為了tokenization步驟。所以這是我的包含這五個(gè)單詞的大型文本語(yǔ)料庫(kù)。然后,您將此文本語(yǔ)料庫(kù)中的每個(gè)字符與不同的標(biāo)記關(guān)聯(lián)起來(lái)。在這里我只是用不同的標(biāo)記拆分每個(gè)字符,并用顏色編碼了所有這些標(biāo)記。

接下來(lái),您要做的就是瀏覽您的文本,每當(dāng)您看到非常常見(jiàn)的標(biāo)記對(duì),最常見(jiàn)的標(biāo)記對(duì),您就把它們合并起來(lái)。在這里您看到三次相鄰的標(biāo)記T和O,所以您只會(huì)說(shuō)這是一個(gè)新的標(biāo)記。然后您繼續(xù),重復(fù)這一點(diǎn)?,F(xiàn)在您有了TOK,TOK,發(fā)生了三次;帶有E的TOK,發(fā)生了兩次;還有TOKEN,發(fā)生了兩次;然后是EX,也發(fā)生了兩次。

如果您要在這個(gè)非常小的文本語(yǔ)料庫(kù)上訓(xùn)練一個(gè)標(biāo)記器,這就是您用一個(gè)像訓(xùn)練過(guò)的標(biāo)記器一樣的標(biāo)記完成的方式。實(shí)際上,您在更大的文本語(yǔ)料庫(kù)上做這件事。這是真正的標(biāo)記器,我認(rèn)為這是GPT-3或ChatGPT。在這里您可以看到它實(shí)際上是如何將這些單詞分開(kāi)的?;旧?,您看到的內(nèi)容與我們?cè)谇懊娴睦又薪o出的內(nèi)容相同。標(biāo)記成為其自己的標(biāo)記。因此,標(biāo)記器實(shí)際上分為兩個(gè)標(biāo)記,TOKEN和EIZER。

這就是關(guān)于標(biāo)記器的全部?jī)?nèi)容。對(duì)此有什么問(wèn)題嗎?是的,所以實(shí)際上在標(biāo)記器之前有一個(gè)步驟,也就是我們所說(shuō)的預(yù)標(biāo)記器,這正是您剛才所說(shuō)的。理論上,沒(méi)有理由分別處理空格和標(biāo)點(diǎn)符號(hào)。每個(gè)空格和標(biāo)點(diǎn)符號(hào)都可以有自己的標(biāo)記,并且可以進(jìn)行合并。然而,這涉及到效率問(wèn)題。訓(xùn)練這些標(biāo)記器需要很長(zhǎng)時(shí)間,因此最好考慮每一對(duì)標(biāo)記。

如果有空格,預(yù)標(biāo)記器會(huì)非常特定于英語(yǔ)。我們不會(huì)在空格之間合并標(biāo)記,這就像計(jì)算優(yōu)化一樣。理論上,你可以像處理其他字符一樣處理空格,保留較小的標(biāo)記。實(shí)際上,這并不重要,因?yàn)樵诖笮臀谋菊Z(yǔ)料庫(kù)中,你會(huì)擁有所有內(nèi)容,但通常會(huì)保留小的標(biāo)記。

這樣做的原因是,如果出現(xiàn)語(yǔ)法錯(cuò)誤或拼寫錯(cuò)誤,你仍然希望能夠用字符表示這些單詞。例如,T-O-K-E-N是否只出現(xiàn)一次,還是需要多次出現(xiàn)以便具有不同的含義?每個(gè)標(biāo)記都有自己獨(dú)特的ID。

例如,"銀行"這個(gè)詞可能指貨幣銀行,也可能指水邊的銀行。它們會(huì)具有相同的標(biāo)記,但模型會(huì)根據(jù)周圍的單詞進(jìn)行學(xué)習(xí),將其關(guān)聯(lián)起來(lái)。這是Transformer在做的事情,而不是標(biāo)記器。

在標(biāo)記化過(guò)程中,首先保留較小的標(biāo)記。例如,從T開(kāi)始,保留T,然后將標(biāo)記器構(gòu)建為標(biāo)準(zhǔn)數(shù)量的標(biāo)記。假設(shè)沒(méi)有對(duì)標(biāo)記進(jìn)行訓(xùn)練,但在數(shù)據(jù)中試圖對(duì)標(biāo)記進(jìn)行編碼,標(biāo)記器如何知道用標(biāo)記對(duì)其進(jìn)行編碼還是用T對(duì)其進(jìn)行編碼?

基本上,當(dāng)進(jìn)行標(biāo)記時(shí),也就是在標(biāo)記器訓(xùn)練之后,實(shí)際應(yīng)用標(biāo)記器時(shí),總是選擇可以應(yīng)用的最大標(biāo)記。如果可以做標(biāo)記,就不會(huì)做T,總是會(huì)做標(biāo)記。雖然人們通常不會(huì)過(guò)多談?wù)摌?biāo)記器,但有很多計(jì)算優(yōu)勢(shì)或計(jì)算技巧可以讓這些事情變得更快。

老實(shí)說(shuō),我認(rèn)為很多人認(rèn)為我們應(yīng)該擺脫標(biāo)記器,而只是逐個(gè)字符或逐字節(jié)地進(jìn)行標(biāo)記。正如我所說(shuō),目前存在長(zhǎng)度問(wèn)題。然而,也許在五年或十年后,我們將擁有不同的架構(gòu),這些架構(gòu)不會(huì)隨著序列的長(zhǎng)度而呈二次方擴(kuò)展。屆時(shí),我們可能會(huì)擺脫標(biāo)記器。

那么,能否分享一下標(biāo)記器的缺點(diǎn)?為什么人們想要擺脫標(biāo)記器?

一個(gè)很好的例子是數(shù)學(xué)。如果你考慮數(shù)學(xué),現(xiàn)在的數(shù)字并沒(méi)有被標(biāo)記。例如,327 可能有它自己的標(biāo)記,這意味著當(dāng)模型看到數(shù)字時(shí),它們的理解方式與我們不同。這非常煩人,因?yàn)槲覀冎阅軌蛴脭?shù)學(xué)來(lái)概括,是因?yàn)槲覀兛梢詥为?dú)處理每個(gè)數(shù)字,然后進(jìn)行組合?;旧?,如果你添加?xùn)|西,它就和把每個(gè)數(shù)字單獨(dú)加起來(lái)再加上你添加的單位是一樣的。而模型做不到這一點(diǎn),所以你必須進(jìn)行特殊的標(biāo)記化。

GPT-4 所做的一個(gè)重大改變就是改變了標(biāo)記代碼的方式。例如,在 Python 代碼中,你經(jīng)常會(huì)有四個(gè)開(kāi)頭的空格,這些空格以前處理得有點(diǎn)奇怪,導(dǎo)致模型無(wú)法真正理解如何處理代碼。因此,標(biāo)記器實(shí)際上很重要。


接下來(lái),我們可以稍后再討論標(biāo)記器?,F(xiàn)在,讓我們談?wù)勗u(píng)估。

評(píng)估 LLM(大型語(yǔ)言模型)通常采用的方法是困惑度。從高層次來(lái)看,它基本上就是驗(yàn)證損失。困惑度的細(xì)微差別在于,我們使用更易于解釋的東西,即每個(gè)標(biāo)記的平均損失,然后對(duì)其進(jìn)行指數(shù)運(yùn)算。之所以對(duì)其進(jìn)行指數(shù)運(yùn)算,是因?yàn)閾p失中有一個(gè)對(duì)數(shù)。首先,人類在對(duì)數(shù)空間中思考的能力實(shí)際上很差;其次,對(duì)數(shù)取決于對(duì)數(shù)的底數(shù)。而當(dāng)你進(jìn)行指數(shù)運(yùn)算時(shí),你基本上擁有詞匯量單位中的所有內(nèi)容。每個(gè)標(biāo)記的平均值只是為了使困惑度與序列的長(zhǎng)度無(wú)關(guān)。

因此,困惑度只是序列損失的冪平均值的 2。困惑度介于 1 和標(biāo)記器詞匯表的長(zhǎng)度之間。簡(jiǎn)單來(lái)說(shuō),如果你完美地預(yù)測(cè)了每個(gè)單詞的內(nèi)容,那么每個(gè)單詞基本上都是 1 的乘積。因此,你能擁有的最佳困惑度是 1。如果你真的不知道,你基本上可以用一除以詞匯量來(lái)預(yù)測(cè)。然后你做簡(jiǎn)單的數(shù)學(xué)運(yùn)算,基本上會(huì)得到詞匯量大小的困惑度。


困惑度的直覺(jué)是它基本上是你的模型在猶豫的標(biāo)記數(shù)量。如果你的模型是完美的,它不會(huì)猶豫,它確切地知道這個(gè)詞。如果它真的不知道,那么它會(huì)在所有詞匯之間猶豫。困惑度確實(shí)提高了。這是2017年至2023年間標(biāo)準(zhǔn)數(shù)據(jù)集的困惑度變化。在這5、6年里,困惑度從70個(gè)標(biāo)記減少到不到10個(gè)標(biāo)記。這意味著模型以前每次生成一個(gè)單詞時(shí)需要在70個(gè)單詞之間選擇,而現(xiàn)在只需在不到10個(gè)單詞之間選擇,這顯然是一個(gè)很大的進(jìn)步。

困惑度實(shí)際上已不再用于學(xué)術(shù)基準(zhǔn)測(cè)試,主要是因?yàn)樗Q于所使用的標(biāo)記器和評(píng)估的數(shù)據(jù)。然而,對(duì)于大型語(yǔ)言模型(LLM)的開(kāi)發(fā),困惑度仍然非常重要。因此,當(dāng)你真正訓(xùn)練自己的LLM時(shí),人們?nèi)匀粫?huì)關(guān)注這種困惑度。

評(píng)估LLM的另一種常見(jiàn)方式(現(xiàn)在在學(xué)術(shù)界更常見(jiàn))是采用所有經(jīng)典的自然語(yǔ)言處理(NLP)基準(zhǔn)。我稍后會(huì)給你幾個(gè)例子,然后將所有內(nèi)容匯總起來(lái)。收集盡可能多的可自動(dòng)評(píng)估的基準(zhǔn),然后對(duì)它們進(jìn)行評(píng)估。


我們稱之為HELM的一個(gè)或兩個(gè)這樣的基準(zhǔn)來(lái)自斯坦福大學(xué)。另一個(gè)是Hugging Face Open LLM排行榜,這可能是目前最常見(jiàn)的兩個(gè)。在HELM中有各種類型的任務(wù),大多是可以輕松評(píng)估的內(nèi)容,例如問(wèn)答。問(wèn)答的好處是你通常知道真正的答案是什么,因此可以評(píng)估這些模型生成真實(shí)答案的可能性,而其他答案則不然。這基本上是評(píng)估這些模型的高級(jí)方法。

舉個(gè)具體的例子,MMLU可能是LLM最常見(jiàn)的學(xué)術(shù)基準(zhǔn)。這是一個(gè)包含許多領(lǐng)域問(wèn)題和答案的集合,例如大學(xué)醫(yī)學(xué)、大學(xué)物理、天文學(xué)等。問(wèn)題可能包括:“在天文學(xué)中,1a型超新星的真實(shí)性是什么?”然后給出四個(gè)不同的潛在答案,詢問(wèn)模型哪一個(gè)更有可能。因此,有很多不同的方法可以做到這一點(diǎn)。你可以查看生成所有這些答案的可能性,也可以詢問(wèn)模型哪一個(gè)最有可能。通過(guò)不同的方式提示模型,但在高層次上,你知道哪一個(gè)是正確的,其他三個(gè)是錯(cuò)誤的。


創(chuàng)建不受約束的文本作為輸出時(shí),如果模型給出的內(nèi)容在語(yǔ)義上完全相同,但不是你期望的確切拓?fù)洌敲慈绾卧u(píng)估模型?這是一個(gè)很好的問(wèn)題,我稍后會(huì)詳細(xì)討論這個(gè)問(wèn)題。在這種情況下,我們不做不受約束的事情。

因此,您評(píng)估 MMLU 的方式基本上是問(wèn)第一個(gè)問(wèn)題,然后查看模型生成 A 的可能性,模型生成 B、C 和 D 的可能性,然后查看哪一個(gè)最有可能,或者您可以問(wèn)模型,在 A、B、C、D 中,哪一個(gè)最有可能,然后查看最有可能的下一個(gè)標(biāo)記是 A、B、C 還是 D。因此,您限制模型說(shuō)它只能回答這四個(gè)問(wèn)題。

當(dāng)您說(shuō)您限制模型時(shí),您是指您用提示來(lái)限制它,還是指整個(gè)概率分布和輸出,您只比較輸出,就像您只比較 A 標(biāo)記一樣?

在我給出的第二種情況下,您會(huì)做完全相同的事情——實(shí)際上您會(huì)同時(shí)做這兩項(xiàng)。您會(huì)提示模型說(shuō) A、B、C 或 D,另外您會(huì)限制只查看這四個(gè)標(biāo)記。在第一種情況下,您甚至不需要生成任何東西。實(shí)際上,您只是查看,鑒于它是一個(gè)語(yǔ)言模型,它可以給出句子的分布。您只需查看生成所有這些單詞的可能性是多少,生成第二個(gè)選擇的可能性是多少?您只需查看最可能的句子是否真的是真正的答案。因此,您實(shí)際上并沒(méi)有從中抽樣,您實(shí)際上只是使用 X1 到 XL 的 P。話雖如此,我們稍后會(huì)討論開(kāi)放式問(wèn)題的評(píng)估,這實(shí)際上非常重要且具有挑戰(zhàn)性。

之前您提到,通常不使用復(fù)雜度等指標(biāo),因?yàn)檫@取決于您如何進(jìn)行標(biāo)記化,以及一些設(shè)計(jì)選擇。我想知道您是否可以就此多說(shuō)幾句。

那么想想困惑度。我告訴過(guò)你困惑度介于 1 和詞匯量之間。現(xiàn)在想象一下,ChatGPT 使用一個(gè)有 10,000 個(gè)標(biāo)記的標(biāo)記器,但谷歌的 Gemini 使用一個(gè)有 100,000 個(gè)潛在標(biāo)記的標(biāo)記器。那么實(shí)際上 Gemini 的困惑度上限實(shí)際上比 ChatGPT 更差。這有道理嗎?所以這只是一個(gè)想法。實(shí)際上它比這稍微復(fù)雜一點(diǎn),但這就像一個(gè)一階位,你可以看到標(biāo)記器實(shí)際上很重要。

所以評(píng)估挑戰(zhàn)有很多。我只想簡(jiǎn)單談兩個(gè)。首先,正如我所說(shuō)的,有兩種方法可以評(píng)估這些 MMLU。實(shí)際上,方法遠(yuǎn)不止兩種,但我只舉了兩個(gè)例子。

事實(shí)上,很長(zhǎng)一段時(shí)間以來(lái),盡管這是每個(gè)人都使用的非常經(jīng)典的基準(zhǔn),但不同的公司和組織實(shí)際上使用不同的方法來(lái)評(píng)估MMLU。結(jié)果,你會(huì)得到完全不同的結(jié)果。例如,65B的Lammas,這是Lammas系列中的第一個(gè)元模型,在Helm上的準(zhǔn)確率為63.7,但在另一個(gè)基準(zhǔn)上準(zhǔn)確率為48.8。


真正的評(píng)估方式,這甚至不是在談?wù)撎崾荆@實(shí)際上只是你評(píng)估模型的方式。提示是另一個(gè)問(wèn)題。所以真的有很多不一致之處,這并不像看起來(lái)那么簡(jiǎn)單。

首先,我們?nèi)绾未_保所有這些模型都在基準(zhǔn)上進(jìn)行訓(xùn)練?這是一個(gè)很好的問(wèn)題。訓(xùn)練、測(cè)試、污染,我想說(shuō),這是學(xué)術(shù)界真正重要的事情。鑒于討論的主要是訓(xùn)練大型語(yǔ)言模型,對(duì)于公司來(lái)說(shuō),這可能并不那么重要,因?yàn)樗麄冎浪麄冇?xùn)練的是什么。對(duì)我們來(lái)說(shuō),我們不知道,所以對(duì)我們來(lái)說(shuō),這是一個(gè)真正的問(wèn)題。

因此,有很多不同的方法可以嘗試測(cè)試測(cè)試集是否真的在訓(xùn)練集中。Tatsu實(shí)驗(yàn)室的人們發(fā)現(xiàn)了一種巧妙的技巧,鑒于大多數(shù)在線數(shù)據(jù)集都不是隨機(jī)的,你可以查看,在語(yǔ)言模型中,它們所做的只是預(yù)測(cè)下一個(gè)單詞。你可以查看整個(gè)測(cè)試集,如果你按順序生成所有示例,而不是按不同的順序生成所有示例,結(jié)果會(huì)怎樣。如果更有可能按順序生成某個(gè)東西,考慮到那里沒(méi)有真正的順序,那么這意味著它可能在訓(xùn)練集中。這只是其中之一,還有許多其他方法可以做到這一點(diǎn)。

訓(xùn)練測(cè)試污染,同樣,對(duì)于開(kāi)發(fā)來(lái)說(shuō)并不那么重要,但對(duì)于學(xué)術(shù)基準(zhǔn)測(cè)試來(lái)說(shuō)非常重要。

數(shù)據(jù)是另一個(gè)非常大的話題。在高層次上,人們只是說(shuō),你基本上是在整個(gè)互聯(lián)網(wǎng)上訓(xùn)練大型語(yǔ)言模型。這是什么意思?因此,人們有時(shí)會(huì)說(shuō)所有干凈的互聯(lián)網(wǎng),這甚至定義得更少?;ヂ?lián)網(wǎng)非常骯臟,實(shí)際上并不代表我們?cè)趯?shí)踐中想要的東西。如果我現(xiàn)在下載一個(gè)隨機(jī)網(wǎng)站,你會(huì)對(duì)里面的內(nèi)容感到震驚。這絕對(duì)不是你的維基百科。所以我會(huì)簡(jiǎn)要介紹一下人們的做法。我可以回答一些問(wèn)題,但數(shù)據(jù)本身就是一個(gè)巨大的話題。

首先,你需要下載整個(gè)互聯(lián)網(wǎng)。這意味著你要使用網(wǎng)絡(luò)爬蟲(chóng)爬取互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁(yè)或 Google 上的每個(gè)網(wǎng)頁(yè)。目前大約有 2500 億個(gè)網(wǎng)頁(yè),這些數(shù)據(jù)大約有 1PB。因此,使用網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)常見(jiàn)的做法。人們通常不會(huì)編寫自己的網(wǎng)絡(luò)爬蟲(chóng),而是使用標(biāo)準(zhǔn)的網(wǎng)絡(luò)爬蟲(chóng)。常見(jiàn)的網(wǎng)絡(luò)爬蟲(chóng)每個(gè)月都會(huì)添加 Google 在互聯(lián)網(wǎng)上發(fā)現(xiàn)的所有新網(wǎng)站,并將其放入一個(gè)大數(shù)據(jù)集中?,F(xiàn)在,常見(jiàn)的爬蟲(chóng)中大約有 2500 億個(gè)頁(yè)面。

這些數(shù)據(jù)大約是 6GB。一旦你有了這些數(shù)據(jù),你會(huì)發(fā)現(xiàn)它們是隨機(jī)的網(wǎng)頁(yè),就像從常見(jiàn)的爬蟲(chóng)中隨機(jī)獲得的一樣。你看到的實(shí)際上是一個(gè) HTML 頁(yè)面,雖然很難看清,但如果仔細(xì)查看,你會(huì)看到一些內(nèi)容。例如,這里有一句話:“測(cè)試世界是系統(tǒng) X 高性能服務(wù)器的最終來(lái)源?!钡渥舆€沒(méi)有完成。這就是隨機(jī)互聯(lián)網(wǎng)的樣子。

如果你只是訓(xùn)練一個(gè)大型語(yǔ)言模型來(lái)生成這樣的內(nèi)容,它就沒(méi)那么有用了。那么需要哪些步驟呢?首先,從 HTML 中提取文本。這是我剛剛試圖通過(guò)查看正確的文本來(lái)做的事情。這其中有很多挑戰(zhàn),例如,提取數(shù)學(xué)內(nèi)容實(shí)際上非常復(fù)雜,但對(duì)于訓(xùn)練大型語(yǔ)言模型來(lái)說(shuō)非常重要。還有樣板內(nèi)容,很多論壇都會(huì)有相同類型的頁(yè)眉、頁(yè)腳,你不想在數(shù)據(jù)中重復(fù)所有這些。

接下來(lái),你需要過(guò)濾掉不受歡迎的內(nèi)容,比如不安全的工作、有害內(nèi)容、個(gè)人身份信息(PII)。通常每家公司都有一個(gè)不想用來(lái)訓(xùn)練模型的網(wǎng)站黑名單,這個(gè)黑名單很長(zhǎng)。你基本上會(huì)說(shuō),如果數(shù)據(jù)來(lái)自這些網(wǎng)站,我們就不會(huì)用它來(lái)訓(xùn)練。還有其他方法可以做到這一點(diǎn),比如訓(xùn)練一個(gè)小模型來(lái)對(duì) PII 進(jìn)行分類,然后刪除這些內(nèi)容。這是一個(gè)艱巨的任務(wù)。

然后是重復(fù)數(shù)據(jù)刪除。正如我所說(shuō),你可能在論壇中看到諸如頁(yè)眉和頁(yè)腳之類的內(nèi)容,它們總是相同的。你需要?jiǎng)h除它們。你可能還會(huì)看到很多不同的 URL,但實(shí)際上顯示的是同一個(gè)網(wǎng)站。在處理數(shù)據(jù)時(shí),你可能會(huì)遇到許多來(lái)自普通書籍的段落,這些段落在互聯(lián)網(wǎng)上已經(jīng)被刪除了無(wú)數(shù)次。因此,你必須刪除重復(fù)數(shù)據(jù)。這項(xiàng)任務(wù)非常具有挑戰(zhàn)性,因?yàn)樾枰笠?guī)模地刪除重復(fù)內(nèi)容。

一旦刪除了重復(fù)數(shù)據(jù),你需要進(jìn)行一些啟發(fā)式過(guò)濾,嘗試刪除低質(zhì)量的文檔。這種過(guò)濾是基于規(guī)則的。例如,如果你發(fā)現(xiàn)某些網(wǎng)站的標(biāo)記分布與通常的標(biāo)記分布非常不同,那么它很可能是異常值。如果某個(gè)網(wǎng)站上的單詞長(zhǎng)度非常長(zhǎng),說(shuō)明這個(gè)網(wǎng)站上可能有奇怪的事情發(fā)生。如果某個(gè)網(wǎng)站只有三個(gè)單詞,可能不值得對(duì)其進(jìn)行訓(xùn)練;而如果它有大約一千萬(wàn)個(gè)單詞,那么這個(gè)頁(yè)面上可能也存在一些錯(cuò)誤。因此,有很多這樣的規(guī)則需要遵循。

為什么我們不直接從數(shù)據(jù)集中過(guò)濾掉不良內(nèi)容,而是將其作為監(jiān)督損失?我們能不能說(shuō)這是仇恨言論網(wǎng)站,并積極嘗試懲罰它們的內(nèi)容?

我們會(huì)這樣做,但不是在這一步。這就是后訓(xùn)練的來(lái)源。預(yù)訓(xùn)練的想法是模擬人類說(shuō)話的方式,刪除所有如頁(yè)眉、頁(yè)腳和菜單等無(wú)關(guān)內(nèi)容。你剛才的想法非常好,這正是我們稍后要做的。

下一步是基于模型的過(guò)濾。一旦你過(guò)濾了大量的數(shù)據(jù),你需要做的是一個(gè)非常巧妙的技巧。你會(huì)把整個(gè)維基百科都拿出來(lái),然后查看通過(guò)維基百科頁(yè)面鏈接的所有鏈接。因?yàn)槿绻S基百科引用了某些內(nèi)容,那么它很可能是高質(zhì)量的網(wǎng)站。你會(huì)訓(xùn)練一個(gè)分類器來(lái)預(yù)測(cè)某個(gè)文檔是否來(lái)自維基百科的這些參考資料之一,或者它是否來(lái)自隨機(jī)網(wǎng)絡(luò)。你會(huì)試著獲取更多來(lái)自維基百科參考資料的內(nèi)容。

接下來(lái),你將嘗試將數(shù)據(jù)分類到不同的域中。你會(huì)說(shuō),這是娛樂(lè),這是書籍,這是代碼,這是其他類型的域。然后你會(huì)嘗試增加或減少某些域的權(quán)重。例如,你可能會(huì)發(fā)現(xiàn),如果你在代碼上訓(xùn)練得更多,那么你的模型在推理方面實(shí)際上會(huì)變得更好。因此,人們通常會(huì)用非常不著邊際的方式說(shuō),如果你在代碼上訓(xùn)練你的模型,實(shí)際上它有助于推理。為了增加編碼分布的權(quán)重,這有助于提升一般的語(yǔ)言建模技能。書籍通常也是人們?cè)黾訖?quán)重的另一個(gè)方面,而娛樂(lè)內(nèi)容則通常會(huì)降低權(quán)重。

當(dāng)然,你希望這樣做,所以人們過(guò)去可能會(huì)有一些啟發(fā)式的方法來(lái)實(shí)現(xiàn)這一點(diǎn)?,F(xiàn)在我們將討論如何更自動(dòng)地完成這些流程。

在訓(xùn)練結(jié)束時(shí),通常在我們看到的所有數(shù)據(jù)上進(jìn)行訓(xùn)練后,尤其是在訓(xùn)練大型語(yǔ)言模型結(jié)束時(shí),會(huì)在非常高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練,并降低學(xué)習(xí)率。這基本上意味著你的模型在非常高質(zhì)量的數(shù)據(jù)上過(guò)度擬合。通常你會(huì)在維基百科這樣的數(shù)據(jù)上過(guò)度擬合,也會(huì)在收集到的人類數(shù)據(jù)上過(guò)度擬合。

其他事情,比如持續(xù)的預(yù)訓(xùn)練以獲得更長(zhǎng)的上下文,我將跳過(guò)這些細(xì)節(jié)。但只是為了讓你了解,當(dāng)人們說(shuō)要在互聯(lián)網(wǎng)上訓(xùn)練時(shí),這有多難。這是很多工作,我們還沒(méi)有完全弄清楚。

因此,收集全球數(shù)據(jù)是實(shí)用大型語(yǔ)言模型的重要組成部分,有些人甚至認(rèn)為這是關(guān)鍵。

關(guān)于數(shù)據(jù)的基本問(wèn)題是,當(dāng)你從 TB 級(jí)數(shù)據(jù)開(kāi)始,經(jīng)過(guò)所有步驟后,通常剩下的數(shù)據(jù)量是多少?完成所有數(shù)據(jù)處理步驟通常需要多大的團(tuán)隊(duì)?速度有多慢?比如說(shuō),你需要多少人才能做到這一點(diǎn)?

對(duì)于從事這項(xiàng)工作的人數(shù),這是一個(gè)好問(wèn)題。我實(shí)際上不太確定,但我會(huì)說(shuō),可能比從事模型預(yù)訓(xùn)練調(diào)整的人數(shù)還要多。所以數(shù)據(jù)處理比建模方面需要更多人力。

在 Llama 的團(tuán)隊(duì)中,大概有70人,其中大約15人在處理數(shù)據(jù)。你不需要那么多人,但你還需要很多計(jì)算資源,因?yàn)閷?duì)于數(shù)據(jù)處理,你需要很多CPU。

正如我剛才提到的,我們實(shí)際上還沒(méi)有解決預(yù)訓(xùn)練的數(shù)據(jù)問(wèn)題,因此還有很多研究要做。首先,如何高效地處理這些事情?其次,如何平衡所有這些不同的領(lǐng)域?你能生成合成數(shù)據(jù)嗎?這實(shí)際上是現(xiàn)在的一個(gè)大問(wèn)題。因?yàn)槲覀儧](méi)有足夠的數(shù)據(jù),我們稍后會(huì)討論這個(gè)問(wèn)題。你能使用多模態(tài)數(shù)據(jù)而不是文本數(shù)據(jù)嗎?這如何改善你的文本性能?

有很多秘密,因?yàn)檫@確實(shí)是大多數(shù)預(yù)訓(xùn)練大型語(yǔ)言模型的關(guān)鍵。因此,對(duì)于競(jìng)爭(zhēng)動(dòng)態(tài),這些公司通常不會(huì)談?wù)撍麄內(nèi)绾芜M(jìn)行數(shù)據(jù)收集。此外,還有一個(gè)版權(quán)責(zé)任問(wèn)題。他們肯定不想告訴你他們已經(jīng)用書進(jìn)行過(guò)訓(xùn)練,即使他們確實(shí)這樣做了,因?yàn)槿绻麤](méi)有,你可以起訴他們。

常見(jiàn)的學(xué)術(shù)基準(zhǔn)可以回答你的問(wèn)題。它開(kāi)始時(shí)數(shù)據(jù)量較小,名稱并不重要,但它始于大約1500億個(gè)Token,大約有800GB的數(shù)據(jù)?,F(xiàn)在大約有15萬(wàn)億個(gè)Token,這也是模型的大小,目前最好的模型可能就是用這個(gè)數(shù)據(jù)量進(jìn)行訓(xùn)練的。所以15萬(wàn)億個(gè)Token,我猜可能比這個(gè)大兩個(gè)數(shù)量級(jí)。所以是80E3千兆字節(jié)。如果我沒(méi)記錯(cuò)的話,這大約是普通爬蟲(chóng)的100到1000倍的過(guò)濾。

一個(gè)非常著名的學(xué)術(shù)基準(zhǔn)是PAL。我們可以看看他們擁有的數(shù)據(jù)分布。它包括Archive、PubMed Central,都是生物學(xué)的內(nèi)容,還有維基百科、Stack Exchange、一些GitHub和一些書籍等。同樣,這個(gè)數(shù)據(jù)集比較小。如果我們看看這里,這是280B。所以實(shí)際上,它要大100倍。因此,你不可能有那么多的GitHub和Wikipedia數(shù)據(jù)。


就閉源模型而言,給你一個(gè)概念,Llama 2是在2萬(wàn)億個(gè)Token上進(jìn)行訓(xùn)練的。Llama 3,15萬(wàn)億個(gè)Token,這是我們目前所知的最好的模型,它經(jīng)過(guò)了多少次訓(xùn)練,與最好的學(xué)術(shù)或最大的學(xué)術(shù)基準(zhǔn)相同,即15萬(wàn)億個(gè)Token。GPT-4,我們真的不知道,但它可能在同一個(gè)數(shù)量級(jí),或者實(shí)際上可能在那個(gè)左右。如果泄漏屬實(shí),它可能在13左右。

接下來(lái)我們討論縮放損失。

我們的想法是,從2020年左右開(kāi)始,或者至少在很長(zhǎng)一段時(shí)間內(nèi),人們已經(jīng)能夠從理論上證明,或者從2020年開(kāi)始從經(jīng)驗(yàn)上證明,訓(xùn)練模型的數(shù)據(jù)越多,模型越大,性能就越好。這與您在本課中看到的內(nèi)容非常不同。在本課中,我們將教您有關(guān)過(guò)度擬合的知識(shí)。大型語(yǔ)言模型不會(huì)發(fā)生過(guò)度擬合。模型越大,性能越好。對(duì)于參加此類課程的社區(qū)來(lái)說(shuō),認(rèn)識(shí)到這一點(diǎn)確實(shí)花了很長(zhǎng)時(shí)間。但對(duì)于考試來(lái)說(shuō),過(guò)度擬合是存在的。


縮放損失的想法是,如果您知道更多數(shù)據(jù)和更大的模型始終會(huì)提供更好的性能,那么我們能否預(yù)測(cè)增加數(shù)據(jù)量和模型大小后,性能會(huì)提高多少?令人驚訝的是,這個(gè)方法有效。

這里有來(lái)自O(shè)penAI的一篇非常著名的論文的三張圖。在x軸上顯示的是計(jì)算量,即你在訓(xùn)練上花費(fèi)了多少計(jì)算。這里顯示的是測(cè)試損失,這本質(zhì)上不是困惑度,而是驗(yàn)證損失,即困惑度的對(duì)數(shù)。如果你把這兩者放在對(duì)數(shù)刻度上,你會(huì)發(fā)現(xiàn)性能就像縮放定律一樣,是線性的。這意味著,如果你將計(jì)算量增加一定量,你可以預(yù)測(cè)測(cè)試損失會(huì)減少多少。數(shù)據(jù)和參數(shù)也是一樣。如果增加數(shù)據(jù)集大小,損失會(huì)減少一個(gè)可以預(yù)測(cè)的量。如果增加參數(shù)數(shù)量,損失也會(huì)減少一個(gè)可以預(yù)測(cè)的量。這真的很神奇,非常令人驚訝。

當(dāng)你看這些類型的圖時(shí),它看起來(lái)無(wú)害,但實(shí)際上很瘋狂,因?yàn)檫@意味著你可以預(yù)測(cè)我們?cè)趦扇陜?nèi)的表現(xiàn)如何,這取決于我們將增加多少計(jì)算量。假設(shè)這些規(guī)律成立。

這沒(méi)有什么理論依據(jù)。

他們?cè)谶@里使用的損失是什么?這是困惑度嗎?困惑度就像損失的平方。當(dāng)你增加參數(shù)的數(shù)量和總數(shù)據(jù)集的大小時(shí),這難道不會(huì)自然而然地增加你的計(jì)算量嗎?所有這些都有效嗎?

是的。這是一個(gè)很好的問(wèn)題。

這里的計(jì)算實(shí)際上涉及兩個(gè)因素:數(shù)據(jù)和參數(shù)。我在這里展示的是,你可以增加參數(shù)的數(shù)量,但同時(shí)也需要增加數(shù)據(jù)的數(shù)量。這樣,你實(shí)際上不會(huì)多次使用同一個(gè)數(shù)據(jù)集。沒(méi)有人會(huì)大規(guī)模地進(jìn)行迭代,至少現(xiàn)在還沒(méi)有,因?yàn)槲覀冞€沒(méi)有足夠的數(shù)據(jù)。

是的,這都是相同的趨勢(shì),即增加計(jì)算量以減少損失。

我們看到了過(guò)去兩年的數(shù)據(jù)嗎?還是它仍然保持不變?

它仍然保持不變。我沒(méi)有具體的數(shù)字可以展示,但令人驚訝的是,這個(gè)趨勢(shì)仍然保持著。

有沒(méi)有經(jīng)驗(yàn)證據(jù)表明你可以達(dá)到穩(wěn)定狀態(tài)?

目前沒(méi)有經(jīng)驗(yàn)證據(jù)表明它會(huì)很快穩(wěn)定下來(lái)。我們不知道。可能會(huì)發(fā)生,但它不需要,因?yàn)樗鼘?shí)際上是對(duì)數(shù)尺度的。所以它并不是必須下降或穩(wěn)定下來(lái),就像數(shù)學(xué)上那樣,它可以繼續(xù)下降。大多數(shù)人認(rèn)為它可能會(huì)在某個(gè)時(shí)候穩(wěn)定下來(lái),但我們不知道具體時(shí)間。

現(xiàn)在,我將更多地討論縮放損失。為什么縮放損失真的很重要?想象一下,我給你 10,000 個(gè) GPU,你會(huì)訓(xùn)練什么模型?你如何回答這個(gè)問(wèn)題?這是一個(gè)假設(shè),但這正是這些公司面臨的實(shí)際問(wèn)題。

舊的流程是你在大模型上調(diào)整高參數(shù)。假設(shè)我有 30 天時(shí)間,我將訓(xùn)練 30 個(gè)模型,每個(gè)模型一天,然后選出最好的一個(gè)作為最終的生產(chǎn)模型。這意味著我實(shí)際使用的模型只訓(xùn)練了一天。

新的流程是,你首先要找到一個(gè)擴(kuò)展配方。例如,一個(gè)常見(jiàn)的情況是,如果你增加模型的大小,你應(yīng)該降低學(xué)習(xí)率。你找到了一個(gè)縮放配方,這樣你就知道,如果增加模型的大小,應(yīng)該如何調(diào)整高參數(shù)。然后,你在不同大小的較小模型上調(diào)整高參數(shù)。假設(shè)我在 30 天中的三天時(shí)間里訓(xùn)練許多不同的模型,并對(duì)這些不同大小的小模型進(jìn)行高參數(shù)調(diào)整。然后,我將擬合縮放定律,并嘗試從這些較小的模型中推斷出,如果我訓(xùn)練更長(zhǎng)時(shí)間,哪一個(gè)會(huì)是最好的。對(duì)不起,如果我為更大的模型訓(xùn)練它,那么我將用27天而不是一天來(lái)訓(xùn)練最終的大型模型。因此,新的流程不是在你將在實(shí)踐中使用的模型的實(shí)際規(guī)模上訓(xùn)練或進(jìn)行高參數(shù)調(diào)整,而是在不同規(guī)模的較小模型上進(jìn)行操作,嘗試預(yù)測(cè)它們?cè)谧兇蠛蟮男阅堋?/p>


我現(xiàn)在給你一個(gè)非常具體的例子。假設(shè)你在選擇使用Transformer還是LSTM模型,并且你有10,000個(gè)GPU,但不確定應(yīng)該使用哪一個(gè)。你可以訓(xùn)練不同規(guī)模的Transformer模型,在x軸上表示不同參數(shù),y軸上表示測(cè)試結(jié)果。然后,你再訓(xùn)練不同規(guī)模的LSTM模型。一旦有了這些數(shù)據(jù)點(diǎn),你會(huì)發(fā)現(xiàn)它們符合縮放定律。通過(guò)符合縮放定律,你可以預(yù)測(cè)如果有10倍以上的計(jì)算能力,LSTM的表現(xiàn)會(huì)如何。實(shí)際上,LSTM的線性程度略低,但你可以嘗試預(yù)測(cè)最終結(jié)果。從圖中可以清楚地看出,Transformer表現(xiàn)更好。

閱讀此類縮放定律時(shí)要注意兩件事:一個(gè)是縮放率,即縮放定律的斜率;另一個(gè)是截距。比如,一開(kāi)始可能表現(xiàn)更差,但隨著時(shí)間的推移會(huì)變得更好。LSTM在這兩方面都表現(xiàn)較差。但我可以向你展示另一個(gè)例子,預(yù)測(cè)在一定規(guī)模之后,使用這種類型的模型比其他模型更好。這就是縮放定律非常有用的原因。

這些對(duì)架構(gòu)中的細(xì)微差異有多敏感?一個(gè)Transformer架構(gòu)與另一個(gè)Transformer架構(gòu)。

你基本上必須擬合自己的曲線,并說(shuō)縮放定律告訴我應(yīng)該有一些對(duì)數(shù)函數(shù)。通常,例如,如果你是一名學(xué)者,現(xiàn)在至少這是相當(dāng)新的,你想提出一個(gè)新的激活函數(shù),這正是你要做的。你會(huì)擬合一個(gè)縮放定律,并用標(biāo)準(zhǔn)展示另一個(gè)縮放定律,比如Gelu,你會(huì)說(shuō)它更好。

事實(shí)上,一旦你開(kāi)始用縮放定律來(lái)思考,你會(huì)真正意識(shí)到,我們可以做出的所有架構(gòu)差異,比如微小的差異,可能只是稍微改變截距,但實(shí)際上這并不重要,因?yàn)橹恍柙儆?xùn)練10個(gè)小時(shí)或等待下一個(gè)GPU,這些事情都是次要的。這正是我最初告訴你人們?cè)诩軜?gòu)和損失上花費(fèi)太多時(shí)間的原因。實(shí)際上,這些事情并不那么重要。但是,如果你使用好的數(shù)據(jù),你將擁有比使用壞數(shù)據(jù)更好的縮放定律。所以這真的很重要。

你可以用縮放定律做的另一件非??岬氖虑槭?,問(wèn)自己如何最佳地分配訓(xùn)練資源。我應(yīng)該訓(xùn)練更大的模型嗎?因?yàn)槲覀儼l(fā)現(xiàn)訓(xùn)練更大的模型效果更好,但我們也發(fā)現(xiàn)使用更多數(shù)據(jù)效果更好。那么我應(yīng)該選擇哪一個(gè)呢?我應(yīng)該只訓(xùn)練更多數(shù)據(jù)、更小的模型,還是應(yīng)該用更少的數(shù)據(jù)訓(xùn)練更大的模型?

Chinchilla 是一篇非常著名的論文,它首次展示了這一點(diǎn)。他們這樣做的方式,我想讓你稍微了解一下這些圖是什么。在這里你再次看到了訓(xùn)練損失。在 x 軸上,你可以看到參數(shù)的數(shù)量,也就是模型的大小。這里所有這些曲線都是我們所說(shuō)的 isoflops,也就是說(shuō),這條曲線上的所有模型都用相同的計(jì)算量進(jìn)行訓(xùn)練。

你這樣做的方式是改變訓(xùn)練的 token 數(shù)量和模型的大小,但你以這樣一種方式變化,即總計(jì)算量是恒定的。因此,您所看到的所有這些具有不同顏色的曲線都代表了不同數(shù)量的經(jīng)過(guò)訓(xùn)練的計(jì)算。然后,你從每條曲線中選取最好的一個(gè)。一旦你從每條曲線中選取最好的一個(gè),你就可以問(wèn),你可以繪制出有多少次 flops,你在哪條曲線上,以及你實(shí)際使用了多少參數(shù)來(lái)訓(xùn)練該特定點(diǎn)。你再次將其放在對(duì)數(shù)-對(duì)數(shù)刻度上,現(xiàn)在你再次擬合縮放定律。

所以現(xiàn)在我有一些東西告訴我,如果我想訓(xùn)練一個(gè) 10 的 23 次方次 flops 的模型,這就是我應(yīng)該使用的參數(shù)的確切數(shù)量,100B。你可以對(duì) flops 和 token 做同樣的事情。所以現(xiàn)在你可以預(yù)測(cè),如果我告訴你我有一個(gè)月的計(jì)算時(shí)間,我應(yīng)該訓(xùn)練多大的模型?擬合你的縮放定律,我告訴你。


當(dāng)然,這一切看起來(lái)都很漂亮。實(shí)際上,有很多小事情,你應(yīng)該計(jì)算嵌入?yún)?shù)嗎?雖然有很多復(fù)雜性,但如果你做得好,這些事情實(shí)際上就會(huì)成立。所以 Chinchilla 團(tuán)隊(duì)發(fā)現(xiàn)的最佳參數(shù)數(shù)量是每個(gè)訓(xùn)練參數(shù)使用 20 個(gè)標(biāo)記。因此,如果您添加一個(gè)參數(shù),則應(yīng)該在另外 20 個(gè)標(biāo)記上訓(xùn)練您的模型。

因此,這里的一個(gè)警告是,這是最佳的訓(xùn)練資源。所以這告訴我,如果你有 10 的 23 次方次 flops 的計(jì)算資源,假設(shè)我有 500 萬(wàn)美元來(lái)訓(xùn)練我的最佳模型,以獲得最低的損失。

在訓(xùn)練模型時(shí),推理成本是一個(gè)需要考慮的重要因素。如果你使用一個(gè)較小的模型,隨著時(shí)間的推移,花費(fèi)會(huì)減少。因此,考慮推理成本時(shí),有其他論文試圖證明這一點(diǎn)。每個(gè)參數(shù)大約對(duì)應(yīng)150個(gè)token,因?yàn)檩^小的模型在推理上花費(fèi)更少。

目前,150比1大約是最好的模型的訓(xùn)練成本,至少在實(shí)踐和生產(chǎn)中使用的模型是這樣的。

在實(shí)踐中,訓(xùn)練這些模型的推理成本非常高。以ChatGPT為例,目前大約有6億人使用它,這使得推理成本非常昂貴。不過(guò),推理可以進(jìn)行大量?jī)?yōu)化,但這是另一個(gè)完整的講座內(nèi)容,這次我將跳過(guò)它。

正如我所說(shuō),縮放定律可以回答很多問(wèn)題。你使用什么數(shù)據(jù)?數(shù)據(jù)混合和加權(quán)如何?使用什么架構(gòu)?模型應(yīng)該更寬還是更深?是為更多GPU付費(fèi)還是收集更多數(shù)據(jù)?這些問(wèn)題都可以通過(guò)縮放定律來(lái)回答。

Richard Sutton在2019年的著名博客文章中提到,一旦你了解縮放定律,你就會(huì)知道擁有更多計(jì)算資源會(huì)得到更好的模型。根據(jù)摩爾定律或其變體,你將始終擁有更好的計(jì)算能力。因此,唯一重要的事情是擁有可以利用計(jì)算的架構(gòu)。

因此,重要的基本上是系統(tǒng)和數(shù)據(jù),而不是架構(gòu)上的細(xì)微差異。這也是為什么大多數(shù)研究集中在一些對(duì)行業(yè)不太重要的事情上的原因之一。在我的職業(yè)生涯中,我大部分時(shí)間都是這樣的研究人員。不要把時(shí)間花在過(guò)度復(fù)雜化上。做簡(jiǎn)單的事情,做好,封存起來(lái)。這實(shí)際上是OpenAI通過(guò)ChatGPT和之前的所有GPT教給我們的。

我想給你一些簡(jiǎn)單的計(jì)算。我可能在這里偏離了一些因素,但我只是想讓你了解訓(xùn)練這些模型的成本有多高。我舉個(gè)例子,Lama3-400B,這是目前你能得到的最好的開(kāi)源模型。它是在15.6個(gè)token上訓(xùn)練的,有4050億個(gè)參數(shù)?,F(xiàn)在你知道每個(gè)參數(shù)的最佳token數(shù)量大約是40個(gè)。這比Chinchilla多一點(diǎn),但比這個(gè)推理最優(yōu)模型要少,所以他們追求訓(xùn)練最優(yōu)性。

計(jì)算Flops的一個(gè)簡(jiǎn)單方法是將參數(shù)數(shù)量乘以6,再乘以訓(xùn)練數(shù)據(jù)的數(shù)量。如果你在這里進(jìn)行簡(jiǎn)單的計(jì)算,結(jié)果是3.8E25 Flops。這一點(diǎn)之所以重要,是因?yàn)槿绻汴P(guān)注一些新聞,就會(huì)發(fā)現(xiàn)拜登有一項(xiàng)行政命令,基本上就是說(shuō),一旦你有1E26次Flops,那么你的模型就會(huì)受到特別審查。所以他們把這個(gè)數(shù)字減少了2倍,降到了這個(gè)數(shù)字以下,這樣就不會(huì)受到特別審查。所以3.8E25 Flops,雖然我可能有點(diǎn)偏離,但肯定低于1E26。

參數(shù)p是參數(shù)數(shù)量,n是數(shù)據(jù),token數(shù)量。這只是一個(gè)近似值。

我們知道他們?cè)?6,000臺(tái)H100上進(jìn)行了訓(xùn)練,也知道吞吐量。他們也這么說(shuō)過(guò)。如果你進(jìn)行計(jì)算,大約需要70天或2600萬(wàn)個(gè)GPU小時(shí)。至少這是我粗略的計(jì)算,他們實(shí)際上說(shuō)他們使用了3000萬(wàn)個(gè)而不是2600萬(wàn)個(gè)GPU小時(shí),所以也許他們遇到了一些挑戰(zhàn),我真的不知道。但如果你按照簡(jiǎn)單的計(jì)算,大約需要70天。

成本很難估算,但我只能說(shuō)這有點(diǎn)像租金。比如,如果我要租用那么多臺(tái)H100,租用那么多天,會(huì)怎么樣?我要付多少錢?租用H100的最低成本是每小時(shí)2美元左右。因此,如果將其乘以2600萬(wàn)小時(shí),則得到5200萬(wàn)美元。他們支付的費(fèi)用可能低于這個(gè)數(shù)字,但實(shí)際上不會(huì)少很多,因?yàn)樗羞@些實(shí)際租用GPU的服務(wù)都賺不到那么多錢。因此,可能稍微少一點(diǎn),但不會(huì)少很多。

現(xiàn)在,談?wù)劰べY。我說(shuō)的是50名員工,每年50萬(wàn)美元。是的,這可能是正確的估計(jì),總計(jì)2500萬(wàn)美元。因此,如果將這些費(fèi)用全部加在一起,訓(xùn)練這個(gè)Llama模型大約需要7500萬(wàn)美元。我可能錯(cuò)了1000萬(wàn),但這是一個(gè)正確的估計(jì)。

接下來(lái)是碳排放量。很多人可能會(huì)問(wèn),成本不是唯一重要的事情。所以我做了計(jì)算,大約是4000噸二氧化碳當(dāng)量。這實(shí)際上相當(dāng)于從肯尼迪機(jī)場(chǎng)到倫敦的2000張往返機(jī)票。所以現(xiàn)在,碳排放實(shí)際上并不是巨大的,但它還沒(méi)有那么有意義。我認(rèn)為在GPT-6、GPT-7中,一旦你把它乘以100,這可能會(huì)成為一個(gè)真正的問(wèn)題。現(xiàn)在,從宏觀角度來(lái)看,這仍然不是一個(gè)問(wèn)題。

下一個(gè)模型,你應(yīng)該這樣思考這些模型,每一代,F(xiàn)lops的數(shù)量基本上都會(huì)增加10倍。至少他們是這么做的,如果他們有足夠的能量,如果他們能買得起足夠的GPU。

現(xiàn)在我們討論了預(yù)訓(xùn)練。我也想聊聊系統(tǒng),因?yàn)楝F(xiàn)在我們知道計(jì)算非常重要。那么有一個(gè)問(wèn)題是如何優(yōu)化你的計(jì)算?我將把它留到最后,因?yàn)槲也淮_定我們有多少時(shí)間。我認(rèn)為這很重要,但希望我以后能談?wù)撍_@與我們現(xiàn)在談?wù)摰膬?nèi)容略有不同。所以我現(xiàn)在將轉(zhuǎn)到訓(xùn)練后。


正如我之前所說(shuō),后訓(xùn)練的任務(wù),我們需要進(jìn)行后訓(xùn)練的原因是為了制作人工智能助手。語(yǔ)言建模并不是你擁有人工智能助手時(shí)真正想要的東西。例如,如果你問(wèn)GPT-3,這是一個(gè)純粹的語(yǔ)言模型,而不是對(duì)齊的模型,如果你問(wèn)一個(gè)問(wèn)題,比如,向六歲的孩子解釋登月,你得到的結(jié)論是,向六歲的孩子解釋萬(wàn)有引力理論。因?yàn)樗鼘W(xué)到的是,在互聯(lián)網(wǎng)上,如果你有一個(gè)問(wèn)題,你通常會(huì)有另一個(gè)類似問(wèn)題的要點(diǎn)。你通常不會(huì)先問(wèn)一個(gè)問(wèn)題,然后再回答。這不是你想要的人工智能助手。那么我們?nèi)绾芜M(jìn)行這種對(duì)齊,即后訓(xùn)練并使這些模型成為助手?

這種對(duì)齊的目標(biāo)基本上是讓大型語(yǔ)言模型(LLM)遵循用戶給出的指示,也許是一些設(shè)計(jì)師的愿望。因此要考慮適度。你不希望模型,比如,OpenAI絕對(duì)不希望他們的模型說(shuō)出非常有害的東西。

在這里,你可以看到,當(dāng)你問(wèn)一個(gè)問(wèn)題時(shí),它實(shí)際上提供了一個(gè)真正的答案。這與LLM之前的情況不同。而在另一種情況下,如果你要求寫一條推文描述某一部分人群是如何邪惡的,它會(huì)說(shuō)它不能這樣做。這就是這種一致性。


背景是,基本上你想要訓(xùn)練這些模型的數(shù)據(jù)就像我們知道我們想要什么一樣,也就是問(wèn)人類,這是一個(gè)問(wèn)題,這是你想要的答案。但問(wèn)題是收集這些數(shù)據(jù)非常昂貴,而且很難在網(wǎng)上找到它。相比之下,預(yù)訓(xùn)練數(shù)據(jù)不是你想要的,但有很多。

因此,我們的主要思想是簡(jiǎn)單地采用預(yù)先訓(xùn)練的大型語(yǔ)言模型,在整個(gè)互聯(lián)網(wǎng)上進(jìn)行預(yù)先訓(xùn)練,然后進(jìn)行微調(diào)。您只需對(duì)您實(shí)際想要的數(shù)據(jù)類型稍微改變一下權(quán)重即可。希望有了它,您已經(jīng)對(duì)所有互聯(lián)網(wǎng)進(jìn)行了預(yù)訓(xùn)練。它基本上學(xué)習(xí)或知道如何用英語(yǔ)說(shuō)話,并且知道標(biāo)準(zhǔn)語(yǔ)言語(yǔ)法。然后,您可以用很少的數(shù)據(jù)對(duì)其進(jìn)行微調(diào)。

監(jiān)督微調(diào)(SFT)實(shí)際上就是我剛才所說(shuō)的,即根據(jù)從人類那里收集到的期望答案對(duì)大型語(yǔ)言模型進(jìn)行微調(diào)的想法。為什么它被稱為監(jiān)督微調(diào)?因?yàn)槟旧舷雽?duì)真實(shí)答案進(jìn)行語(yǔ)言建模。語(yǔ)言建模就像下一個(gè)單詞預(yù)測(cè)。這就是微調(diào)的部分。然后您想根據(jù)人類給出的期望答案進(jìn)行微調(diào)。這就是我們稱之為監(jiān)督的原因。


那么我們?nèi)绾问占@些數(shù)據(jù)?你只需讓人類告訴你這是問(wèn)題所在,這是您希望從這些模型中得到的答案。舉個(gè)例子,我不能很好地在電腦上閱讀,但我的孩子需要做一門科學(xué)。讓我們讀一下這個(gè):你能寫一個(gè)關(guān)于買方壟斷一詞的相關(guān)性的簡(jiǎn)短介紹嗎?然后它說(shuō)買方壟斷是指市場(chǎng)結(jié)構(gòu),等等等等。這是人類寫的。

實(shí)際上,這是Open Assistant,它是一種人類在線收集數(shù)據(jù)的方式。所以這種監(jiān)督微調(diào)或?qū)R確實(shí)是ChatGPT的關(guān)鍵。這就是從GPT-3(主要是人工智能研究人員所知道的東西)到ChatGPT(基本上每個(gè)人都知道)的巨大飛躍。人類數(shù)據(jù)的問(wèn)題在于收集速度非常慢且成本高昂。一個(gè)可能的解決方案是使用大型語(yǔ)言模型(LLM)來(lái)擴(kuò)展數(shù)據(jù)收集。這正是我們一年前對(duì)Alpaca所做的。

我們的做法是向人類提問(wèn),或者使用人類問(wèn)答數(shù)據(jù)集。我們有175個(gè)問(wèn)答,并要求當(dāng)時(shí)最好的模型TextEventUser03生成更多類似的問(wèn)題和答案。我們收集了52,000個(gè)由LLM生成的問(wèn)題和答案。

接下來(lái),我們采用了Llama7B,這是當(dāng)時(shí)最好的預(yù)訓(xùn)練模型,并對(duì)其進(jìn)行了監(jiān)督微調(diào)。這就是我們得到Alpaca7B模型的方式。這是我們收集的數(shù)據(jù)類型。


算法是用于解決問(wèn)題或?qū)崿F(xiàn)目標(biāo)的一步一步的指令集。數(shù)據(jù)實(shí)際上相當(dāng)不錯(cuò),因?yàn)樗怯苫旧蟽纱暗腖LM生成的。這真的開(kāi)始了,至少對(duì)我們來(lái)說(shuō),有點(diǎn)像ChatGPT的學(xué)術(shù)復(fù)制。

現(xiàn)在,確實(shí)存在一個(gè)很大的領(lǐng)域,研究如何使用LLM來(lái)加快LLM的開(kāi)發(fā)速度,主要是通過(guò)減少所需的人工時(shí)間和數(shù)據(jù)量。我們討論了數(shù)據(jù)的類型以及如何收集它。監(jiān)督微調(diào)(SFT)令人驚訝的一點(diǎn)是,你不需要那么多數(shù)據(jù)。

一篇名為L(zhǎng)ima的論文表明,如果你將監(jiān)督微調(diào)中使用的數(shù)據(jù)量從2000擴(kuò)展到32000,這并沒(méi)有多大幫助。在這里,數(shù)據(jù)量的增加并沒(méi)有帶來(lái)顯著的提升。直覺(jué)上,你學(xué)到的只是如何格式化你想要的答案。

換句話說(shuō),預(yù)訓(xùn)練模型本質(zhì)上模擬了互聯(lián)網(wǎng)上每個(gè)用戶的分布。一個(gè)用戶可能會(huì)寫出要點(diǎn),另一個(gè)用戶可能會(huì)用答案回答問(wèn)題。你告訴模型的只是,應(yīng)該針對(duì)某種類型的用戶進(jìn)行更多優(yōu)化,而不是其他類型的用戶。因此,你實(shí)際上并沒(méi)有通過(guò)SFT教模型新的知識(shí),只是讓它針對(duì)已經(jīng)在預(yù)訓(xùn)練數(shù)據(jù)集中看到的一種用戶類型進(jìn)行優(yōu)化。

我知道合成數(shù)據(jù)的一個(gè)大問(wèn)題是,如果你繼續(xù)從相同的分布生成數(shù)據(jù),最終你不會(huì)學(xué)習(xí)新的分布。你基本上是在玩它并引導(dǎo)它。你不能永遠(yuǎn)擴(kuò)大規(guī)模,也不能繼續(xù)從相同的分布生成并希望學(xué)到新的東西。這是一個(gè)活躍的研究領(lǐng)域。

您對(duì)人們?nèi)绾嗡伎歼@個(gè)問(wèn)題以及更好的引導(dǎo)方式有什么想法?或者是否應(yīng)該放棄這個(gè)想法,并意識(shí)到圖表顯示您不需要那么多數(shù)據(jù),只需讓人類生成2,000個(gè)非常好的例子?

這是一個(gè)非常好的問(wèn)題。至于數(shù)據(jù),我想說(shuō)的是,它對(duì)SFT(監(jiān)督微調(diào))來(lái)說(shuō)并不那么重要,但我們接下來(lái)會(huì)討論另一件事,即數(shù)據(jù)確實(shí)很重要。

我的直覺(jué)是,即使沒(méi)有那么多經(jīng)驗(yàn)結(jié)果,你仍然可以獲得一些進(jìn)展。即使你使用LLM(大型語(yǔ)言模型)生成的純文本,并且對(duì)三、四代LLM都這樣做,我同意你可能不會(huì)有太大的進(jìn)步。但對(duì)我來(lái)說(shuō),重要的是你如何在LLM中使用像人類一樣的循環(huán)。

不是純粹的LLM,也不是純粹的人類,但也許你可以讓模型生成一些新文本,然后人類進(jìn)行編輯。編輯比編寫整個(gè)文本要快得多。我認(rèn)為,如果你有這種類型的協(xié)作,那么從某種信息理論的角度來(lái)看,你仍然可以獲得額外的信息,但你仍然比使用人類要快得多。

作為一個(gè)領(lǐng)域,我們可能會(huì)朝著這些方向發(fā)展,即找到重要的例子并向人類提問(wèn)。這是一種主動(dòng)學(xué)習(xí),只是在需要獲取輸入時(shí)詢問(wèn)人類。

這就是為什么在這里,我可能沒(méi)有強(qiáng)調(diào)得足夠多。這只是語(yǔ)言建模。根據(jù)所需答案對(duì)帶有語(yǔ)言模型的LLM進(jìn)行微調(diào)。所以這實(shí)際上是相同的損失。兩秒鐘后會(huì)有所不同,但SFT的第一步實(shí)際上是相同的損失,你只需說(shuō),好吧,我想真正專注于那種類型的數(shù)據(jù)。

所以甚至有一個(gè)問(wèn)題,比如,什么是預(yù)訓(xùn)練?什么是后訓(xùn)練?因?yàn)閷?shí)際上,它就像你使用的不同數(shù)據(jù)。我們通常稱之為后訓(xùn)練的原因是我們收集數(shù)據(jù)的方式非常不同。

但為什么這2,000個(gè)例子會(huì)有如此過(guò)重的影響力呢?這就是為什么我們稱之為后訓(xùn)練的另一個(gè)原因是我們使用不同類型的超參數(shù)。

在預(yù)訓(xùn)練結(jié)束時(shí),你的學(xué)習(xí)率基本上是零。在這里,你要把學(xué)習(xí)率提高到1e-5。所以,你給它們的權(quán)重實(shí)際上是不同的。好的,后訓(xùn)練的第二步或第二部分是我們所說(shuō)的從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)。

你們中的一些人可能聽(tīng)說(shuō)過(guò)這個(gè)概念。SFT(監(jiān)督微調(diào))存在一個(gè)問(wèn)題,即它進(jìn)行的是行為克隆,這意味著你只是試圖模仿人類會(huì)說(shuō)的話。這有很多問(wèn)題。

首先,你受到人類能力的束縛。就像人類一樣,人類不會(huì)總是產(chǎn)生他們認(rèn)為最好的東西。如果你讓我寫一本書,我可能會(huì)喜歡你的書,但我絕對(duì)不會(huì)寫出我想讀的書。因此,你將受到人類生成事物能力的限制,即使人類可能更善于區(qū)分事物。這是一個(gè)問(wèn)題。

第二個(gè)問(wèn)題是幻覺(jué)現(xiàn)象。如果你聽(tīng)說(shuō)過(guò)這個(gè)詞,它指的是模型可能會(huì)產(chǎn)生虛假信息。幻覺(jué)可能來(lái)自監(jiān)督微調(diào),即使你對(duì)正確的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。原因是,SFT 基本上是使用很少的數(shù)據(jù),而它使用的數(shù)據(jù)并不足以讓模型學(xué)到任何新東西。那么,如果人類給出了模型不知道是正確的答案怎么辦?從模型的角度來(lái)看,人類基本上是在告訴模型生成看似合理的東西,但實(shí)際上模型不知道它是否真實(shí)。

舉一個(gè)具體的例子,如果我們回到買方壟斷的例子,你能寫一些關(guān)于買方壟斷的內(nèi)容嗎?想象一下,一個(gè)人寫了一本關(guān)于這種書的參考書目,那本書可能存在,也可能是一個(gè)正確的參考書目。但如果 LLM(大型語(yǔ)言模型)在預(yù)訓(xùn)練期間從未見(jiàn)過(guò)這個(gè)參考書目怎么辦?那么它就不知道這是一個(gè)正確的參考書目。所以你真正告訴模型的是生成或編造一些聽(tīng)起來(lái)合理的參考書目,而不是真正告訴它在預(yù)訓(xùn)練期間看到的真實(shí)參考書目。因此,幻覺(jué)可能是由 SFT 引起的。這是第二個(gè)問(wèn)題。

第三個(gè)問(wèn)題是生成理想答案的成本非常高。這又回到了你的問(wèn)題,像人類一樣寫出整個(gè)答案實(shí)際上非常昂貴。這就是 RLHF 的作用所在。我們的想法是,我們不會(huì)克隆人類的行為,而是要最大化人類的偏好。


我們這樣做的方式是,對(duì)于每條指令,你都會(huì)要求模型生成兩個(gè)答案,通常使用一個(gè)相當(dāng)不錯(cuò)的模型。所以通常你在這里不使用 LLM,而是使用一個(gè)已經(jīng)通過(guò) SFT 微調(diào)過(guò)的 LLM 來(lái)給出相當(dāng)不錯(cuò)的答案。首先,您需要詢問(wèn)標(biāo)注者這兩個(gè)答案中哪一個(gè)更好,然后選擇首選的那個(gè)。接下來(lái),使用不同類型的算法進(jìn)行討論。您只需微調(diào)模型,使其生成更多綠色而不是紅色的內(nèi)容,從而產(chǎn)生更多優(yōu)質(zhì)的結(jié)果。

現(xiàn)在的問(wèn)題是如何實(shí)現(xiàn)這一點(diǎn)?我們將討論兩種主要在社區(qū)中使用的方法。第一種方法是使用強(qiáng)化學(xué)習(xí)的概念。希望大家都了解強(qiáng)化學(xué)習(xí)。當(dāng)考慮使用強(qiáng)化學(xué)習(xí)時(shí),一個(gè)重要的問(wèn)題是我們正在優(yōu)化的獎(jiǎng)勵(lì)是什么。在這種情況下,我能想到兩個(gè)選項(xiàng)。

第一個(gè)選項(xiàng)是比較基線生成的輸出和模型生成的輸出,然后讓人類評(píng)判哪一個(gè)更好,并將此作為獎(jiǎng)勵(lì)。如果模型的輸出比基線好,則加一分,否則減一分。這種二元獎(jiǎng)勵(lì)的問(wèn)題在于信息非常稀疏,無(wú)法提供足夠的反饋。也許答案稍微好一點(diǎn),也許好很多,但你無(wú)法確切知道它有多好。

第二個(gè)選項(xiàng)是訓(xùn)練一個(gè)所謂的獎(jiǎng)勵(lì)模型,它實(shí)際上是一個(gè)分類器。使用機(jī)器學(xué)習(xí)來(lái)分類兩個(gè)輸出,從人類偏好的角度評(píng)估哪個(gè)更好。雖然這有點(diǎn)抽象,但基本上你需要做的是訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型 R,它是一個(gè)大型分類器。你將輸入和實(shí)際輸出提供給這個(gè)獎(jiǎng)勵(lì)模型,并對(duì)其進(jìn)行指數(shù)運(yùn)算,這就是大家熟悉的 softmax 損失。然后你將指數(shù)獎(jiǎng)勵(lì)除以第一個(gè)輸出和第二個(gè)輸出的指數(shù)值。


訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型的目的是能夠分類一個(gè)輸出比另一個(gè)輸出好多少。換句話說(shuō),你的獎(jiǎng)勵(lì)模型將輸出一些獎(jiǎng)勵(lì),這些獎(jiǎng)勵(lì)將用作 softmax 的對(duì)數(shù)。如果 softmax 中的對(duì)數(shù)值較高,這意味著該輸出更好。這就是我們所說(shuō)的 Bradley-Terry 模型。

這個(gè)模型會(huì)一次性獲取所有輸入和輸出,并給出一個(gè)數(shù)字。通過(guò)訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型來(lái)適應(yīng)人類對(duì)綠色和紅色的偏好,你可以判斷人類更喜歡紅色還是綠色,但不是使用二進(jìn)制獎(jiǎng)勵(lì),而是使用 softmax 的 logits。Logits 的特點(diǎn)是它們是連續(xù)的。因此,如果你的獎(jiǎng)勵(lì)模型顯示它有很高的 logits,那么在某種程度上,人類會(huì)更喜歡這個(gè)答案而不是其他答案。正如我剛才所說(shuō),連續(xù)信息更好。這就是人們?cè)趯?shí)踐中使用的,或者至少曾經(jīng)在實(shí)踐中使用過(guò)的。

稍后我會(huì)介紹另一種算法?;旧?,你最后要做的就是嘗試只使用你所了解的強(qiáng)化學(xué)習(xí)?,F(xiàn)在我們知道我們有了獎(jiǎng)勵(lì),你采樣的是從你的大型語(yǔ)言模型中生成的,然后只需使用一些正則化項(xiàng)。我們做這個(gè)正則化項(xiàng)的原因是為了避免過(guò)度優(yōu)化。因此,這種獎(jiǎng)勵(lì)模型可能并不真正具有代表性,可能無(wú)法完美地模擬人類的偏好。因此,你不想將這個(gè)東西最大化到無(wú)窮大。

你可以使用 PPO(近端策略優(yōu)化)來(lái)實(shí)現(xiàn),這是一種常見(jiàn)的強(qiáng)化學(xué)習(xí)算法。這里有一點(diǎn)需要注意,因?yàn)檫@對(duì)以后很重要,那就是當(dāng)我們使用最大似然時(shí),大型語(yǔ)言模型實(shí)際上是強(qiáng)化學(xué)習(xí)的策略。它不再最大化最大似然,這意味著你不再對(duì)任何分布進(jìn)行建模。這很重要的原因是,經(jīng)過(guò)這種 PPO 的模型實(shí)際上不會(huì)為你提供有意義的文本可能性,因?yàn)槟銉?yōu)化它們所做的基本上只是優(yōu)化以生成最可能的東西,而不是優(yōu)化建模,比如人類可能說(shuō)的所有答案。換句話說(shuō),這里沒(méi)有任何東西可以激勵(lì)模型不給出一個(gè)可能的生成。這里沒(méi)有任何東西表明如果你有一個(gè)帶有某種熵的分布,那它就是好的。


PPO 正是 ChatGPT 最初所做的。在他們的博客文章中,他們有第一步,進(jìn)行監(jiān)督微調(diào),現(xiàn)在你們都知道了。第二步,根據(jù)人類偏好訓(xùn)練獎(jiǎng)勵(lì)模型。第三步,執(zhí)行 PPO 多個(gè)步驟,這就是你看到這個(gè)藍(lán)色箭頭的地方。你繼續(xù)用 PPO 訓(xùn)練模型一次,收集新數(shù)據(jù),繼續(xù)。這正是 ChatGPT 所做的,也是 GPT-3 和 ChatGPT 之間的重大突破。

需要注意的一點(diǎn)是,PPO 面臨許多挑戰(zhàn)。強(qiáng)化學(xué)習(xí)在理論上非常好,但在實(shí)踐中,任何曾經(jīng)使用過(guò)強(qiáng)化學(xué)習(xí)的人都知道它很復(fù)雜。有很多事情,比如推出、外循環(huán)、剪輯等,導(dǎo)致過(guò)程非常復(fù)雜。這是用于語(yǔ)言模型(LM)設(shè)置的理想化近端策略優(yōu)化(PPO)。這比我們之前預(yù)期的要復(fù)雜得多。實(shí)際上,它要復(fù)雜得多。我們必須實(shí)現(xiàn)它,但我不會(huì)詳細(xì)介紹?;旧?,當(dāng)你實(shí)現(xiàn)這種類型的PPO算法時(shí),你必須考慮很多因素。到處都有剪輯,復(fù)雜性很高,而且文檔記錄不完善。

所有這些都表明,我們需要一種新的方法。大約一年前,斯坦福大學(xué)提出了一種新方法,叫做直接偏好優(yōu)化(DPO),本質(zhì)上是PPO的簡(jiǎn)化。他們的思路是,不使用強(qiáng)化學(xué)習(xí),而是最大化生成你喜歡的東西的概率,并最小化你不喜歡的東西的概率。


如果你考慮人類的偏好,紅色和綠色會(huì)最大化綠色,最小化紅色。所以損失實(shí)際上是模型在給定輸入情況下生成人類喜歡的東西的可能性。你試圖做的基本上是最大化生成你喜歡的東西的可能性,最小化你不喜歡的東西的可能性。其他所有術(shù)語(yǔ)在這里都不太重要,理解起來(lái)并不復(fù)雜。但在高層次上,它實(shí)際上只是最大化你喜歡的東西,最小化其他的東西。

有一點(diǎn)需要注意,實(shí)際上所有其余的選擇在某些假設(shè)下,PPO的全局最小值和DPO的全局最小值基本上是等價(jià)的。所以從數(shù)學(xué)上來(lái)說(shuō),這是正確的做法。我不會(huì)進(jìn)行推導(dǎo),但這是正確的做法。

PPO的情況完全不同。使用PPO,你需要收集人類偏好,然后訓(xùn)練具有最大似然的獎(jiǎng)勵(lì)模型,再使用強(qiáng)化學(xué)習(xí)?,F(xiàn)在你所做的基本上就是最大似然,簡(jiǎn)單多了。

他們?yōu)槭裁磸倪@個(gè)獎(jiǎng)勵(lì)模型開(kāi)始?是什么促使他們這樣做?

我認(rèn)為這是一個(gè)很好的問(wèn)題。我真的不知道。我可以告訴你的是,在OpenAI,最初做ChatGPT的人是真正編寫PPO的人。我認(rèn)為他們就像很多強(qiáng)化學(xué)習(xí)的人一樣,對(duì)他們來(lái)說(shuō)這是非常直觀的。

還有一些額外的潛在好處。例如,如果你使用獎(jiǎng)勵(lì)模型,強(qiáng)化學(xué)習(xí)的妙處在于,你可以將未標(biāo)記的數(shù)據(jù)與獎(jiǎng)勵(lì)模型一起使用。在這里,你只能使用標(biāo)記數(shù)據(jù)來(lái)執(zhí)行DPO。

對(duì)于PPO,首先需要訓(xùn)練獎(jiǎng)勵(lì)模型,然后可以使用未標(biāo)記的數(shù)據(jù),獎(jiǎng)勵(lì)模型會(huì)標(biāo)記這些未標(biāo)記的數(shù)據(jù)。因此,還有額外的潛力,可能會(huì)有潛在的改進(jìn)。然而,實(shí)際上并沒(méi)有。

我認(rèn)為,這個(gè)團(tuán)隊(duì)中有很多強(qiáng)化學(xué)習(xí)專家,包括PPO的主要作者喬治·霍爾曼。PPO比DPO簡(jiǎn)單得多,而且表現(xiàn)也很好。所以現(xiàn)在這是人們使用的標(biāo)準(zhǔn),至少在開(kāi)源社區(qū)中是這樣。我相信這實(shí)際上也是行業(yè)標(biāo)準(zhǔn)。這被稱為DPO。

收益方面,左邊的都是這些文件。這是一項(xiàng)總結(jié)任務(wù)。我想向你展示的是,預(yù)先訓(xùn)練的模型還不錯(cuò),而且它們會(huì)隨著規(guī)模的擴(kuò)大而改進(jìn)。如果進(jìn)行監(jiān)督微調(diào),會(huì)有更多的改進(jìn)。如果使用帶有人工反饋的RLHF進(jìn)行PPO或類似操作,會(huì)得到比人類更好的性能,這取決于基準(zhǔn)。這是人類的參考總結(jié)。


同樣,這是我們?cè)贏lpaca Farm的一篇論文中看到的,評(píng)估并不是太重要,但基本上你看到預(yù)先訓(xùn)練的模型,然后跳轉(zhuǎn)到SFG,再跳轉(zhuǎn)到PPO-DPO,PPO-DPO具有完全相同的性能。所以基本上,RLHF有幫助。這就是結(jié)論,DPO很簡(jiǎn)單。

關(guān)于數(shù)據(jù)的收集方式,第一個(gè)想法就是使用人類,正如我們已經(jīng)討論過(guò)的。對(duì)于人類應(yīng)該標(biāo)記什么的指導(dǎo)方針?lè)浅?fù)雜,而且真的不是那么容易。實(shí)際上,如果你做過(guò)一些標(biāo)記,你會(huì)發(fā)現(xiàn)它非常復(fù)雜。

比如,如果我放大這個(gè)問(wèn)題,告訴我關(guān)于自動(dòng)駕駛汽車的事情。你讀到過(guò),自動(dòng)駕駛汽車是能夠檢測(cè)周圍環(huán)境的車輛,等等。自動(dòng)駕駛汽車是配備傳感器的汽車,等等,無(wú)需駕駛員即可導(dǎo)航。兩者似乎都還不錯(cuò)。比如,哪一個(gè)更好?乍一看,這實(shí)際上很難說(shuō)。

結(jié)果,人類的問(wèn)題是,你會(huì)開(kāi)始優(yōu)化很多高級(jí)功能。例如,第二個(gè)更長(zhǎng)。我可以向你保證,大多數(shù)人會(huì)選擇第二個(gè)。盡管也許第一個(gè)更好,我不知道,我還沒(méi)有仔細(xì)讀過(guò)。所以人類面臨的挑戰(zhàn)是,首先,速度慢,成本高。其次,正如我剛才提到的,很難專注于重要的事情,比如正確性。人們通常會(huì)關(guān)注一些不太重要的東西,比如形式、長(zhǎng)度。因此,我在這里展示的是,當(dāng)你進(jìn)行RLHF(強(qiáng)化學(xué)習(xí)與人類反饋)時(shí),RLHF的次數(shù)越多,模型的輸出就越長(zhǎng)。如果你曾經(jīng)對(duì)ChatGPT回答的超長(zhǎng)句子感到惱火,這是因?yàn)镽LHF的影響。

注釋者的分布轉(zhuǎn)變是一個(gè)重要因素。你使用的注釋者的分布非常重要。你必須思考,我們希望在這些模型中代表的人類是什么樣的?另一個(gè)問(wèn)題是眾包道德。通常,很多標(biāo)簽工作報(bào)酬不高,執(zhí)行這些任務(wù)的人必須經(jīng)歷大量有毒數(shù)據(jù),因?yàn)槟阆MP捅苊廨敵鲇卸緮?shù)據(jù)。眾包道德也是一個(gè)重要問(wèn)題。

人類數(shù)據(jù)面臨諸多挑戰(zhàn)。去年我們做了與Alpaca類似的工作,認(rèn)為人類面臨挑戰(zhàn),也許我們可以用LLM(大型語(yǔ)言模型)來(lái)代替他們。我們所做的只是簡(jiǎn)單地替換人類的偏好為L(zhǎng)LM的偏好。


在這個(gè)圖中,X軸表示我們?yōu)槭占祟悢?shù)據(jù)所付出的代價(jià)。收集1000個(gè)示例大約需要300美元,這是在Mechanical Turkers上進(jìn)行的,通常比其他一些公司便宜。Y軸表示與其他人類的協(xié)議一致性。實(shí)際上,標(biāo)記確實(shí)非常復(fù)雜。在二元任務(wù)中,人類只有大約66%的時(shí)間與自己意見(jiàn)一致。這并不是說(shuō)人類表現(xiàn)不好,因?yàn)槲覀兪沁@篇論文的五位主要作者,我們嘗試自己標(biāo)記這些數(shù)據(jù),但準(zhǔn)確率只有67%或68%,盡管我們花了三個(gè)小時(shí)討論如何標(biāo)記。這真的很復(fù)雜,不是一件容易的事。

我展示了許多不同的模型?;旧夏銜?huì)發(fā)現(xiàn)模型要便宜得多,而且它們實(shí)際上可以比人類本身與人類模式的一致性更高。原因是人類有很多變體,而模型沒(méi)有變體,所以它們可能有點(diǎn)偏見(jiàn),但變體較少,因此效果出奇地好?,F(xiàn)在這已經(jīng)成為開(kāi)源社區(qū)的標(biāo)準(zhǔn)。我認(rèn)為即使在工業(yè)界,很多人也會(huì)同時(shí)使用人類和LLM來(lái)改進(jìn)所有HF數(shù)據(jù)的收集。

這是去年的論文,但老實(shí)說(shuō),現(xiàn)在更像是LLM圍繞這個(gè)協(xié)議,而這個(gè)成本大約比人類便宜50倍,而且與人類達(dá)成的協(xié)議比人類本身更好。因此,這讓我們開(kāi)始評(píng)估訓(xùn)練后的效果。這又回到了你在講座開(kāi)始時(shí)提出的問(wèn)題:你如何評(píng)估像ChatGPT這樣的模型?

ChatGPT可以給出的答案基本上是無(wú)限的,而且并不是說(shuō)它只有一個(gè)正確答案。有很多答案同樣好,所以存在很多挑戰(zhàn)。首先,你不能使用驗(yàn)證損失,因?yàn)橐环N方法可能使用PPO,另一種方法可能使用DPO,驗(yàn)證損失是不可比的。其次,你不能使用困惑度。這是我之前告訴你的,這些模型沒(méi)有經(jīng)過(guò)校準(zhǔn),它們沒(méi)有給出分布,它們只是針對(duì)一件事進(jìn)行優(yōu)化。因此,一旦對(duì)齊,你就不能使用困惑度來(lái)實(shí)際評(píng)估這些類型的模型。

第三,人類可能會(huì)向這些模型提出各種各樣的問(wèn)題,包括生成、開(kāi)放式問(wèn)答、一些問(wèn)答、一些總結(jié)等等。所以你必須涵蓋很多內(nèi)容。這些任務(wù)真的是開(kāi)放式的,所以很難實(shí)現(xiàn)自動(dòng)化。這就是你之前提到的。所以我們的想法是,我們不是試圖想出真正容易實(shí)現(xiàn)自動(dòng)化的基準(zhǔn),而是要問(wèn)用戶在實(shí)踐中實(shí)際向這些模型提出的問(wèn)題。我們只是要讓注釋者說(shuō)出這兩個(gè)模型中哪一個(gè)更好,比如哪個(gè)輸出更好。所以你基本上和所有HF的數(shù)據(jù)做同樣的事情,但現(xiàn)在你用它來(lái)進(jìn)行評(píng)估。


我不確定我是否理解你的意思,比如,你不能使用困惑度而不校準(zhǔn)它,比如,LLM仍在進(jìn)行下一個(gè)標(biāo)記預(yù)測(cè),但是,為什么不能使用困惑度?

想想,進(jìn)行PPO之后的最佳解決方案基本上是一個(gè)模型,它給你一個(gè)增量,基本上是說(shuō)只有一個(gè)句子可以針對(duì)該問(wèn)題生成。所以現(xiàn)在如果你將它用在語(yǔ)義上稍微不同的東西上,它實(shí)際上會(huì)給出該答案的可能性為零。實(shí)際上,情況并沒(méi)有那么極端,因?yàn)檎缒闼f(shuō),它仍然是一種分布,但它只是向你展示了困惑度存在一個(gè)根本問(wèn)題。一旦這些模型不再是LLM,它們就不會(huì)再被訓(xùn)練,至少對(duì)于PPO來(lái)說(shuō),它們就不會(huì)再被訓(xùn)練去做最大似然法了,它們被訓(xùn)練成策略。

所以可能最常見(jiàn)的或者最受信任的基準(zhǔn)是我們所說(shuō)的聊天機(jī)器人競(jìng)技場(chǎng),基本上是上網(wǎng),讓互聯(lián)網(wǎng)上的隨機(jī)用戶盲目地與兩個(gè)聊天機(jī)器人交談,只需問(wèn)很多問(wèn)題,看看兩個(gè)答案,然后評(píng)價(jià)哪一個(gè)更好。你要對(duì)數(shù)十萬(wàn)用戶進(jìn)行這樣的測(cè)試,然后你就會(huì)得到實(shí)際的偏好,然后得到模型的排名。您現(xiàn)在可以進(jìn)入聊天機(jī)器人領(lǐng)域,與這些模型進(jìn)行實(shí)際互動(dòng)。


需要強(qiáng)調(diào)的是,雖然想要做這些事情的人通常更像是技術(shù)驅(qū)動(dòng)的,或者對(duì)技術(shù)比較通曉,所以你會(huì)問(wèn)很多技術(shù)方面的問(wèn)題,討論軟件錯(cuò)誤、AI工具的使用等。

另一個(gè)問(wèn)題是成本和速度。如果你真的想在開(kāi)發(fā)過(guò)程中使用這樣的工具,那將非常昂貴,因?yàn)槟慊旧闲枰跺X給很多人來(lái)做這件事。所以一個(gè)簡(jiǎn)單的想法是,只使用語(yǔ)言模型(LM)而不是人類。

每條指令的步驟都會(huì)根據(jù)一些基線和你想要評(píng)估的模型生成輸出。想象一下我正在比較 ChatGPT 和 Mistral 的答案。我只是問(wèn)一個(gè)模型,再問(wèn)另一個(gè)模型,哪一個(gè)更好,然后取平均值。是的,我問(wèn)過(guò) GPT-4 哪一個(gè)更好。我對(duì)整個(gè)分布、基準(zhǔn)或數(shù)據(jù)集取平均值,這給了我一個(gè)勝率,即一個(gè)模型與另一個(gè)模型相比的勝率,現(xiàn)在你可以對(duì)模型進(jìn)行排名了。這是 Alpaca 評(píng)估,排行榜。

這樣做的好處是,我們展示了與 ChatBot Arena 的相關(guān)性為 98%,與人類的相關(guān)性非常高。與其他基準(zhǔn)的相關(guān)性比較,運(yùn)行時(shí)間不到三分鐘,成本不到10美元,非常便宜。

不過(guò)也有缺點(diǎn)。其中之一是虛假相關(guān)。正如我們之前看到的,語(yǔ)言模型更喜歡較長(zhǎng)的輸出。實(shí)際上,人類也喜歡較長(zhǎng)的輸出,但問(wèn)題在于,一旦使用語(yǔ)言模型,一旦存在偏見(jiàn),你就會(huì)繼續(xù)優(yōu)化它。人類在某個(gè)時(shí)候會(huì)拒絕過(guò)長(zhǎng)的答案,但如果語(yǔ)言模型有這種偏見(jiàn),并且它們?yōu)榇私邮苓^(guò)訓(xùn)練,它們將繼續(xù)喜歡較長(zhǎng)的輸出。所以,在這里我們看到,偏好只是表明人類和模型更喜歡較長(zhǎng)的輸出。

這是初始Llama評(píng)估數(shù)據(jù)集基準(zhǔn)的另一個(gè)視圖。當(dāng)我們對(duì) GPT-4 進(jìn)行排名時(shí),如果我們比較標(biāo)準(zhǔn) GPT-4,它會(huì)得到 50% 的定義,因?yàn)槲覀冋诒容^ GPT-4 與 GPT-4。但是,如果我們要求 GPT-4 稍微詳細(xì)一些,只需在提示中說(shuō)在答案中要詳細(xì)一些,那么它的響鈴率為 64.4%。差異確實(shí)很大。

如果我們要求模型簡(jiǎn)潔,它的表現(xiàn)可能只有20%。因此,根據(jù)您要求的簡(jiǎn)潔或詳細(xì)程度,結(jié)果會(huì)有很大差異。這非常令人煩惱。

一個(gè)可能的解決方案是使用回歸分析。雖然我不會(huì)詳細(xì)介紹,但基本上是使用因果推理工具來(lái)控制文本長(zhǎng)度。現(xiàn)在,實(shí)際上長(zhǎng)度并不那么重要。如果您要求詳細(xì),仍然會(huì)有一些收益,但收益會(huì)少得多。

這就是關(guān)于訓(xùn)練后的全部?jī)?nèi)容。接下來(lái)的八分鐘里,我可能會(huì)談?wù)撓到y(tǒng)或回答問(wèn)題。

回到訓(xùn)練后,我們?nèi)绾问褂蒙倭课⒄{(diào)數(shù)據(jù)調(diào)整參數(shù)并對(duì)模型產(chǎn)生如此大的影響?您之前提到過(guò),有一組不同的超參數(shù)。我們是只改變部分權(quán)重、后續(xù)權(quán)重,還是所有權(quán)重?實(shí)際情況如何?

是的,我粗略地瀏覽了所有這些。你需要改變所有的權(quán)重。實(shí)際上,行業(yè)會(huì)改變所有的權(quán)重。在開(kāi)源領(lǐng)域,你可能聽(tīng)說(shuō)過(guò)LoRa,它基本上只會(huì)改變一些權(quán)重,或者更具體地說(shuō),它會(huì)給每一層的輸出添加一些差異。但在行業(yè)中,你需要微調(diào)所有的權(quán)重。

關(guān)于數(shù)據(jù)的其他方面,實(shí)際上在最后一步,allHF,你通常會(huì)收集比SFT多得多的數(shù)據(jù)。如果SFT是5,000、10,000,也許50,000,allHF的數(shù)據(jù)量可能接近100萬(wàn),數(shù)量級(jí)上更大,但仍然比預(yù)訓(xùn)練少得多。預(yù)訓(xùn)練涉及15萬(wàn)億個(gè)token,這甚至不算什么。

然而,你對(duì)權(quán)重的影響很大。因?yàn)槟氵@樣做——你必須認(rèn)為你這樣做的方式是使用不同的學(xué)習(xí)率。但同時(shí),你只能這樣做。想象一下,如果我訓(xùn)練——即使我只訓(xùn)練一個(gè)句子,但一遍又一遍,在某個(gè)時(shí)候,我的模型只會(huì)生成那個(gè)句子,即使它只是一個(gè)句子而不是15萬(wàn)億個(gè)標(biāo)記。所以如果你使用足夠大的學(xué)習(xí)率,并且持續(xù)足夠長(zhǎng)的時(shí)間,你基本上會(huì)過(guò)度擬合那個(gè)句子。

關(guān)鍵是,數(shù)據(jù)不是id——它不像你混合了一些訓(xùn)練后數(shù)據(jù)和一些訓(xùn)練前數(shù)據(jù)。你進(jìn)行預(yù)訓(xùn)練,然后你只需開(kāi)始微調(diào)——僅在訓(xùn)練后。所以另一種方式——也許另一種觀點(diǎn)是,預(yù)訓(xùn)練只是你的模型的初始化。一旦你這樣看待它,就會(huì)發(fā)現(xiàn)這只是權(quán)重的初始化,所以沒(méi)有什么特別的。比如,你不需要記住你之前已經(jīng)對(duì)大量數(shù)據(jù)進(jìn)行過(guò)訓(xùn)練。唯一重要的是,您進(jìn)行了初始化,現(xiàn)在我實(shí)際上訓(xùn)練了一個(gè)模型。

在某種程度上,有一個(gè)屬性標(biāo)記。你有你的權(quán)重,這是我的初始化?,F(xiàn)在我正在訓(xùn)練那個(gè)。這能回答你的問(wèn)題嗎?

但是你剛才說(shuō)了一些東西,它幾乎相當(dāng)于多次重新運(yùn)行微調(diào)數(shù)據(jù)。這是否真的是為了提供更多的偏好而實(shí)際發(fā)生的事情?

嗯,我現(xiàn)在實(shí)際上不知道他們?cè)谛袠I(yè)中是如何做的。當(dāng)我們做Llama時(shí),我們必須做三個(gè)時(shí)代。所以你確實(shí)對(duì)它運(yùn)行了三次。但是,即使你運(yùn)行它的次數(shù),實(shí)際上也不重要。唯一重要的是有效學(xué)習(xí)率,這才是最重要的。


我想我有五分鐘。我可能會(huì)嘗試給出一個(gè)高層次的概述,至少?gòu)南到y(tǒng)技巧之一開(kāi)始。正如我們所說(shuō),對(duì)于每個(gè)人來(lái)說(shuō),系統(tǒng)瓶頸都是很抱歉的,計(jì)算是一個(gè)巨大的瓶頸。你可能會(huì)問(wèn)的一個(gè)問(wèn)題是,為什么不買更多的GPU?

GPU很貴,但也很稀缺。即使你現(xiàn)在有1000萬(wàn)美元,你也買不到最好的GPU。還有一些物理限制。當(dāng)你有多個(gè)GPU時(shí),你必須在它們之間進(jìn)行通信,這需要時(shí)間。所以,僅僅購(gòu)買更多的GPU并不是那么容易。因此,考慮如何分配資源以及如何優(yōu)化你的管道真的很重要。


系統(tǒng)方面,GPU 101。對(duì)不起,我講得快一點(diǎn)。我希望你們中的一些人至少能跟上。GPU基本上是針對(duì)吞吐量進(jìn)行優(yōu)化的,CPU是針對(duì)延遲進(jìn)行優(yōu)化的。因此,對(duì)于GPU,你必須這樣思考:一個(gè)命令可以同時(shí)在多個(gè)內(nèi)核上運(yùn)行,處理不同類型的數(shù)據(jù)。這就是你看到的GPU,有很多不同的核心。我們稱它們?yōu)榱魇蕉嗵幚砥?,這與通常的CPU架構(gòu)非常不同。所以,想想GPU的高吞吐量、并行化。GPU針對(duì)快速矩陣乘法進(jìn)行了優(yōu)化。每次在 GPU 上進(jìn)行操作時(shí),如果能使用矩陣乘法,速度會(huì)比其他方法快 10 倍。這有點(diǎn)令人煩惱,因?yàn)檫@意味著我們?cè)诰仃嚦朔ǚ矫嬗龅搅似款i。


需要注意的是,GPU 的計(jì)算速度改進(jìn)比內(nèi)存和通信速度更快。因此,現(xiàn)在 GPU 通常很難保持同步,發(fā)送給 GPU 的數(shù)據(jù)實(shí)際上很難跟上進(jìn)程。如果只是運(yùn)行普通代碼而不優(yōu)化,大多數(shù) GPU 實(shí)際上會(huì)處于空閑狀態(tài)。這種通信瓶頸會(huì)隨著時(shí)間的推移而持續(xù)存在。


另一個(gè)需要了解的是,GPU 存在內(nèi)存層次結(jié)構(gòu)。這與 CPU 類似,離核心越近,內(nèi)存越少但速度越快;離核心越遠(yuǎn),內(nèi)存越多但速度越慢。


人們通常關(guān)注的指標(biāo)是模型的浮點(diǎn)數(shù)利用率。GPU 可以運(yùn)行的理論最大值是多少,每秒可以使用的浮點(diǎn)數(shù)是多少,觀察到的吞吐量除以這個(gè)理論最大值。一般來(lái)說(shuō),如果達(dá)到 50%,就已經(jīng)很不錯(cuò)了。例如,F(xiàn)acebook 的 Lima 項(xiàng)目浮點(diǎn)數(shù)利用率大約是 45%。這意味著數(shù)據(jù)傳輸速度不夠快,即使對(duì)于大公司也是如此。

一個(gè)簡(jiǎn)單的技巧是使用低精度。將浮點(diǎn)數(shù)置于低精度,發(fā)送到 GPU 的位數(shù)就會(huì)減少,通信速度更快,內(nèi)存消耗更低,一切都會(huì)變得更快。對(duì)于深度學(xué)習(xí)來(lái)說(shuō),小數(shù)精度并不那么重要。例如,在進(jìn)行矩陣乘法或 SGD 時(shí),已經(jīng)存在太多噪音,更新 0.01 或 0.015 并不會(huì)有太大影響。


因此,不再使用每個(gè)浮點(diǎn)數(shù) 32 位或 64 位,而是使用 16 位進(jìn)行矩陣乘法。對(duì)于訓(xùn)練,可以使用一種稱為自動(dòng)混合精度的方法,即某些內(nèi)容使用 32 位,其他內(nèi)容使用 16 位。一般來(lái)說(shuō),模型的權(quán)重以 32 位存儲(chǔ),但在計(jì)算之前,將所有內(nèi)容轉(zhuǎn)換為 16 位,這樣可以非??焖俚剡M(jìn)行計(jì)算,最后以 32 位更新權(quán)重。你之所以使用32位進(jìn)行所有更新,是因?yàn)槟阏J(rèn)為即使學(xué)習(xí)率非常小,你仍然希望能夠?qū)?quán)重產(chǎn)生影響。因此,所有計(jì)算都是用16位完成的,但權(quán)重實(shí)際上存儲(chǔ)在32位中。這是人們做事的標(biāo)準(zhǔn)方式。

接下來(lái),我將談?wù)撨\(yùn)算符融合,因?yàn)槲艺J(rèn)為這非常酷。正如我剛才所說(shuō),通信非常慢。實(shí)際上,每次使用PyTorch時(shí),它基本上都會(huì)將變量移動(dòng)到GPU的全局內(nèi)存中。

當(dāng)你有這樣的內(nèi)容時(shí),比如x點(diǎn)余弦等于x1,然后你執(zhí)行x1點(diǎn)余弦,后臺(tái)發(fā)生的事情是,你獲取x,即數(shù)據(jù),將其發(fā)送到GPU的實(shí)際處理器,應(yīng)用余弦,然后將其發(fā)送回GPU的主內(nèi)存。然后你看到下一行,你把它送回GPU處理器,應(yīng)用另一個(gè)余弦,然后再把它送回來(lái)。


另一種看待這個(gè)問(wèn)題的方式是,你從DRAM(GPU中的全局內(nèi)存)出發(fā),然后把它送到計(jì)算中,每行都把它送回來(lái)。這是一種幼稚的做法,似乎非常浪費(fèi)。因此,運(yùn)算符融合的簡(jiǎn)單想法就是進(jìn)行所有計(jì)算,然后只進(jìn)行一次通信,把結(jié)果送回來(lái)。這正是融合內(nèi)核的本質(zhì)。

如果你想讓在PyTorch中的計(jì)算速度更快,只需在你的模型上應(yīng)用torch.compile。這將使你的模型速度提高大約兩倍。它所做的只是重寫你的代碼,比如你的PyTorch代碼,基本上在CUDA中使用C++,只進(jìn)行一次通信,然后執(zhí)行所有操作,再把結(jié)果送回來(lái)。

我沒(méi)有時(shí)間詳細(xì)談?wù)撈戒?。平鋪很重要,并行化也很重要,專家的混合也很重要。展望未?lái),還有很多事情我們還沒(méi)有談到。我們還沒(méi)有談到架構(gòu),也沒(méi)有談到推理。LLM還有許多其他重要的事情。

可以說(shuō),ChatGPT最大的創(chuàng)新之處在于它有一個(gè)簡(jiǎn)單的UI來(lái)使用它。多模態(tài),你可能遇到的所有誤用是什么。事實(shí)上,互聯(lián)網(wǎng)上可能沒(méi)有足夠的數(shù)據(jù)來(lái)訓(xùn)練所有這些模型。數(shù)據(jù)收集的合法性也是一個(gè)問(wèn)題。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三次拒絕傳喚!韓警發(fā)出最后通牒,李在明致電中國(guó),有一事相求

三次拒絕傳喚!韓警發(fā)出最后通牒,李在明致電中國(guó),有一事相求

藍(lán)涇看一看
2025-06-22 12:40:10
上海一男子花50萬(wàn)囤茅臺(tái)酒,15年后急用錢時(shí),才發(fā)現(xiàn)它的真實(shí)價(jià)值

上海一男子花50萬(wàn)囤茅臺(tái)酒,15年后急用錢時(shí),才發(fā)現(xiàn)它的真實(shí)價(jià)值

溫情郵局
2025-06-13 13:59:55
日媒:舉世矚目新星出道就引全球轟動(dòng) 18歲張子宇2.26米如何阻擋

日媒:舉世矚目新星出道就引全球轟動(dòng) 18歲張子宇2.26米如何阻擋

顏小白的籃球夢(mèng)
2025-06-22 13:29:02
泡泡瑪特已成立電影工作室,將推出LABUBU大電影及劇集

泡泡瑪特已成立電影工作室,將推出LABUBU大電影及劇集

導(dǎo)筒directube
2025-06-21 00:16:25
即將畢業(yè)季,大學(xué)出現(xiàn)怪象:找不到工作的人,竟不是躺平、掛科的

即將畢業(yè)季,大學(xué)出現(xiàn)怪象:找不到工作的人,竟不是躺平、掛科的

明月聊史
2025-06-20 17:09:59
總決搶七來(lái)襲!美媒更新FMVP榜:哈利屈居第四+藍(lán)領(lǐng)奇兵殺入前五

總決搶七來(lái)襲!美媒更新FMVP榜:哈利屈居第四+藍(lán)領(lǐng)奇兵殺入前五

鍋?zhàn)踊@球
2025-06-22 16:33:36
19歲女孩遭堂哥侵犯后續(xù):男子已被執(zhí)行死刑,有5次侵犯他人前科

19歲女孩遭堂哥侵犯后續(xù):男子已被執(zhí)行死刑,有5次侵犯他人前科

漢史趣聞
2025-06-22 16:56:10
“鐵姑娘”郭鳳蓮現(xiàn)狀:兒子全是億萬(wàn)富翁!長(zhǎng)子掏3000萬(wàn)修寺廟

“鐵姑娘”郭鳳蓮現(xiàn)狀:兒子全是億萬(wàn)富翁!長(zhǎng)子掏3000萬(wàn)修寺廟

健康快樂(lè)丁
2025-06-20 20:38:36
那爾那茜的通報(bào),背后有高人!

那爾那茜的通報(bào),背后有高人!

麥杰遜
2025-06-22 10:24:53
特斯拉4款“新車型”進(jìn)入國(guó)內(nèi),工信部可查

特斯拉4款“新車型”進(jìn)入國(guó)內(nèi),工信部可查

沙雕小琳琳
2025-06-22 00:55:49
馮德萊恩還沒(méi)到北京,先來(lái)下馬威,中歐會(huì)談取消了,中方反將一軍

馮德萊恩還沒(méi)到北京,先來(lái)下馬威,中歐會(huì)談取消了,中方反將一軍

特特農(nóng)村生活
2025-06-21 13:01:23
日本女排3-0捷克結(jié)束連??!和田覺(jué)醒轟16分  中意之戰(zhàn)或改世排

日本女排3-0捷克結(jié)束連?。『吞镉X(jué)醒轟16分 中意之戰(zhàn)或改世排

顏小白的籃球夢(mèng)
2025-06-22 18:05:34
一對(duì)“2胎母親對(duì)比照”火了,坐在同一節(jié)地鐵,差距是云泥之別

一對(duì)“2胎母親對(duì)比照”火了,坐在同一節(jié)地鐵,差距是云泥之別

熙熙說(shuō)教
2025-06-19 19:35:40
上座率創(chuàng)新高,五連敗被打成“川”隊(duì)!常州搖人寄望于黃紫昌救主

上座率創(chuàng)新高,五連敗被打成“川”隊(duì)!常州搖人寄望于黃紫昌救主

中國(guó)足球的那些事兒
2025-06-21 22:08:24
6月,少買這5種蔬菜,都是反季節(jié)的,不好吃還沒(méi)營(yíng)養(yǎng),別再亂買了

6月,少買這5種蔬菜,都是反季節(jié)的,不好吃還沒(méi)營(yíng)養(yǎng),別再亂買了

阿龍美食記
2025-06-16 15:13:33
沙特記者:梅西登陸沙特聯(lián)賽的談判正發(fā)生轉(zhuǎn)折,球隊(duì)與經(jīng)紀(jì)人意見(jiàn)趨于一致

沙特記者:梅西登陸沙特聯(lián)賽的談判正發(fā)生轉(zhuǎn)折,球隊(duì)與經(jīng)紀(jì)人意見(jiàn)趨于一致

雷速體育
2025-06-22 14:00:36
李湘怎么也沒(méi)想到,自己富養(yǎng)出來(lái)的女兒,現(xiàn)如今有顏值沒(méi)少女氣質(zhì)

李湘怎么也沒(méi)想到,自己富養(yǎng)出來(lái)的女兒,現(xiàn)如今有顏值沒(méi)少女氣質(zhì)

鄉(xiāng)野小珥
2025-06-22 07:18:06
女子美國(guó)賣東北盒飯引轟動(dòng),排隊(duì)十幾米 日入過(guò)萬(wàn),中國(guó)三輪車亮了

女子美國(guó)賣東北盒飯引轟動(dòng),排隊(duì)十幾米 日入過(guò)萬(wàn),中國(guó)三輪車亮了

娛樂(lè)圈見(jiàn)解說(shuō)
2025-06-22 11:58:16
克拉拉真空西服長(zhǎng)裙,散發(fā)一種精致的韓系財(cái)閥美人特有的味道

克拉拉真空西服長(zhǎng)裙,散發(fā)一種精致的韓系財(cái)閥美人特有的味道

吃瓜黨二號(hào)頭目
2025-06-17 10:04:22
談判取消,馮德萊恩犧牲中國(guó)利益,換取美關(guān)稅讓步,中國(guó)出手了!

談判取消,馮德萊恩犧牲中國(guó)利益,換取美關(guān)稅讓步,中國(guó)出手了!

叮當(dāng)當(dāng)科技
2025-06-22 18:02:31
2025-06-22 19:39:00
Web3天空之城 incentive-icons
Web3天空之城
美好,有趣的,值得銘記的
186文章數(shù) 77關(guān)注度
往期回顧 全部

科技要聞

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗外長(zhǎng):特朗普欺騙了選民 他曾承諾不卷入永久戰(zhàn)爭(zhēng)

頭條要聞

伊朗外長(zhǎng):特朗普欺騙了選民 他曾承諾不卷入永久戰(zhàn)爭(zhēng)

體育要聞

這一次搶七,快要10年的回歸

娛樂(lè)要聞

離婚四年!趙麗穎被曝新戀情惹爭(zhēng)議

財(cái)經(jīng)要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

家居
時(shí)尚
手機(jī)
房產(chǎn)
公開(kāi)課

家居要聞

山水之間 墨染風(fēng)雨云間

夏天最顯瘦的6種穿搭!洋氣時(shí)髦,誰(shuí)穿都好看!

手機(jī)要聞

澎湃OS再次公布進(jìn)展通報(bào):相冊(cè)功能優(yōu)化,多機(jī)型問(wèn)題處理中

房產(chǎn)要聞

坑慘2000多人!恒大財(cái)富海南高管被曝非吸12.6億元!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 广宗县| 永善县| 高淳县| 登封市| 贡觉县| 桑植县| 马鞍山市| 柏乡县| 滕州市| 保康县| 习水县| 子洲县| 诏安县| 邵武市| 满洲里市| 余江县| 平原县| 三门县| 黑山县| 高平市| 油尖旺区| 汶川县| 焦作市| 武义县| 集贤县| 廊坊市| 千阳县| 双流县| 东明县| 襄汾县| 思茅市| 黄冈市| 新巴尔虎右旗| 年辖:市辖区| 昌邑市| 五峰| 连州市| 通化市| 高安市| 鲁甸县| 新河县|