99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

學(xué)術(shù)分享丨盤一盤,2017年Transformer之后,LLM領(lǐng)域的重要論文

0
分享至

轉(zhuǎn)自機器之心

這兩天 在 AI 社區(qū)引發(fā)了熱烈討論,他提出了「軟件 3.0」的概念,自然語言正在成為新的編程接口,而 AI 模型負責(zé)執(zhí)行具體任務(wù)。


Karpathy 深入探討了這一變革對開發(fā)者、用戶以及軟件設(shè)計理念的深遠影響。他認為,我們不只是在使用新工具,更是在構(gòu)建一種全新的計算范式。

回顧 LLM 的發(fā)展歷程:自 2017 年 Transformer 架構(gòu)問世以來,我們見證了 GPT 系列的一路高歌猛進,以及多模態(tài)能力和端側(cè)應(yīng)用的全面開花。整個領(lǐng)域正以前所未有的速度演進。


要深入理解這場變革的本質(zhì),我們需要回到技術(shù)的源頭。那些奠定今天 AI 能力的關(guān)鍵論文,不僅記錄著算法的演進軌跡,更揭示了從傳統(tǒng)編程到自然語言交互這一范式轉(zhuǎn)變的內(nèi)在邏輯。

此前我們通過。今天,我們將梳理自 2017 年以來 LLM 領(lǐng)域的重要論文。本文從 X 用戶 Pramod Goyal 的論文盤點中精選了 22 篇進行詳細介紹,其余論文將在文末列出供讀者參考。


奠基理論

  • Attention Is All You Need (2017)


鏈接:https://arxiv.org/pdf/1706.03762

主要內(nèi)容提出了 Transformer 架構(gòu),它完全摒棄了傳統(tǒng)的循環(huán)和卷積網(wǎng)絡(luò),僅依靠自注意力機制來處理序列數(shù)據(jù)。通過并行計算和位置編碼,它能高效捕捉長距離的依賴關(guān)系,以更快的速度和更高的質(zhì)量完成機器翻譯等任務(wù)。

影響Transformer 架構(gòu)是現(xiàn)代 AI 的基石,直接催生了 GPT 和 BERT 等 LLM,并引發(fā)了當前的 AI 熱潮。它的高效和通用性使其不僅徹底改變了自然語言處理,還被成功應(yīng)用于計算機視覺等多個領(lǐng)域,成為一項革命性的技術(shù)。

  • Language Models are Few-Shot Learners (2020)


論文地址:https://arxiv.org/abs/2005.14165

主要內(nèi)容介紹并驗證了擁有 1750 億參數(shù)的自回歸語言模型 GPT-3 的強大能力。研究表明,與以往需要針對特定任務(wù)進行大量數(shù)據(jù)微調(diào)的模型不同,GPT-3 無需更新權(quán)重,僅通過在輸入時提供任務(wù)描述和少量示例(即「少樣本學(xué)習(xí)」或「上下文學(xué)習(xí)」),就能在翻譯、問答、文本生成乃至代碼編寫等大量不同的自然語言處理任務(wù)上取得極具競爭力的表現(xiàn),且模型性能隨著參數(shù)規(guī)模的增長和示例數(shù)量的增加而穩(wěn)定提升。

影響確立了「大模型 + 大數(shù)據(jù)」的縮放定律 (Scaling Law) 是通往更通用人工智能的有效路徑,直接引領(lǐng)了全球范圍內(nèi)的 LLM 軍備競賽。同時,它開創(chuàng)了以「提示工程」為核心的新型 AI 應(yīng)用范式,極大地降低了 AI 技術(shù)的開發(fā)門檻,并催生了后續(xù)以 ChatGPT 為代表的生成式 AI 浪潮,深刻地改變了科技產(chǎn)業(yè)的格局和未來走向。

  • Deep Reinforcement Learning from Human Preferences (2017)


論文地址:https://arxiv.org/abs/1706.03741

主要內(nèi)容該論文開創(chuàng)性地提出,不再手動設(shè)計復(fù)雜的獎勵函數(shù),而是直接從人類的偏好中學(xué)習(xí)。其核心方法是:收集人類對 AI 行為片段的成對比較(「哪個更好?」),用這些數(shù)據(jù)訓(xùn)練一個「獎勵模型」來模仿人類的判斷標準,最后用這個模型作為獎勵信號,通過強化學(xué)習(xí)來訓(xùn)練 AI。該方法被證明僅需少量人類反饋即可高效解決復(fù)雜任務(wù)。

影響這篇論文是「基于人類反饋的強化學(xué)習(xí)」(RLHF) 領(lǐng)域的奠基之作。RLHF 后來成為對齊和微調(diào) ChatGPT 等 LLM 的關(guān)鍵技術(shù),通過學(xué)習(xí)人類偏好,使 AI 的輸出更有用、更符合人類價值觀。它將「AI 對齊」從抽象理論變?yōu)榭尚械墓こ虒嵺`,為確保 AI 系統(tǒng)與人類意圖一致提供了可擴展的解決方案,是現(xiàn)代對話式 AI 發(fā)展的基石。

  • Training language models to follow instructions with human feedback (2022)


論文地址:https://arxiv.org/abs/2203.02155

主要內(nèi)容該論文提出了一種結(jié)合人類反饋的強化學(xué)習(xí)方法 (RLHF) 來訓(xùn)練語言模型,使其更好地遵循用戶的指令。具體步驟包括:首先,使用少量人工編寫的示例對預(yù)訓(xùn)練的 GPT-3 進行微調(diào);然后,收集人類對模型不同輸出的偏好排序數(shù)據(jù),并用這些數(shù)據(jù)訓(xùn)練一個「獎勵模型」;最后,利用這個獎勵模型作為強化學(xué)習(xí)的信號,進一步優(yōu)化語言模型。通過這種方式,即使模型參數(shù)比 GPT-3 小得多,InstructGPT 在遵循指令方面也表現(xiàn)得更出色、更真實,且有害內(nèi)容生成更少。

影響催生了現(xiàn)象級產(chǎn)品 ChatGPT,并為 LLM 的發(fā)展確立了新的技術(shù)路線。它證明了通過人類反饋進行對齊 (Alignment) 是解決大型模型「說胡話」、不聽指令問題的有效途徑。此后,RLHF 成為訓(xùn)練主流對話式 AI 和服務(wù)型大模型的行業(yè)標準,深刻改變了 AI 的研發(fā)范式,將研究重點從單純追求模型規(guī)模轉(zhuǎn)向了如何讓模型更好地與人類意圖對齊。這一方法論的成功,是推動生成式 AI 從純粹的技術(shù)展示走向大規(guī)模實際應(yīng)用的關(guān)鍵一步。

  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)


論文地址:https://aclanthology.org/N19-1423/

主要內(nèi)容該論文提出了 BERT,一個基于 Transformer 的語言表示模型。其核心創(chuàng)新是真正的雙向上下文理解,通過創(chuàng)新的「掩碼語言模型」(MLM) 預(yù)訓(xùn)練任務(wù),讓模型能同時利用一個詞左右兩側(cè)的全部語境。這克服了以往單向模型的局限性。BERT 通過在海量文本上預(yù)訓(xùn)練,再針對具體任務(wù)微調(diào)的范式,極大地提升了語言理解能力。

影響BERT 的發(fā)布是 NLP 領(lǐng)域的革命,它在 11 項主流任務(wù)上刷新了最高分紀錄,確立了「預(yù)訓(xùn)練 + 微調(diào)」作為行業(yè)標準范式。它極大地簡化了為特定任務(wù)構(gòu)建高性能模型的流程,減少了對復(fù)雜定制架構(gòu)的需求。BERT 開啟了現(xiàn)代 LLM 的新紀元,成為后續(xù)無數(shù)模型的基礎(chǔ)。

  • Training Compute-Optimal Large Language Models (2022)


論文地址:https://arxiv.org/abs/2203.15556

主要內(nèi)容這篇由 DeepMind 發(fā)表的論文(通常被稱為「Chinchilla 論文」)挑戰(zhàn)了當時「模型越大越好」的普遍認知。通過對超過 400 個模型的系統(tǒng)性訓(xùn)練和分析,研究者發(fā)現(xiàn),現(xiàn)有的 LLM 普遍處于「訓(xùn)練不足」的狀態(tài)。為了在給定的計算預(yù)算下達到最佳性能,模型的大小和訓(xùn)練數(shù)據(jù)的規(guī)模應(yīng)該同步增長。具體來說,模型參數(shù)每增加一倍,訓(xùn)練數(shù)據(jù)的量也應(yīng)相應(yīng)增加一倍。這揭示了一個新的、更高效的「計算最優(yōu)」縮放法則,顛覆了以往只側(cè)重于增加模型參數(shù)的策略。

影響改變了之后 LLM 的研發(fā)方向和資源分配策略。它提出的「計算最優(yōu)」縮放法則,成為了業(yè)界訓(xùn)練新模型時遵循的黃金準則。在此之前,各大機構(gòu)競相追求更大的模型規(guī)模,而「Chinchilla」證明了在同等計算成本下,一個參數(shù)量更小但用更多數(shù)據(jù)訓(xùn)練的模型(如其 700 億參數(shù)的 Chinchilla 模型)可以優(yōu)于參數(shù)量更大的模型(如 GPT-3)。這促使整個領(lǐng)域從單純追求「大」轉(zhuǎn)向追求「大與多的平衡」,對后續(xù)如 LLaMA 等高效模型的誕生起到了關(guān)鍵的指導(dǎo)作用。

里程碑突破

  • GPT-4 Technical Report (2023)


論文地址:https://arxiv.org/abs/2303.08774

主要內(nèi)容詳細介紹了一個大規(guī)模、多模態(tài)的語言模型——GPT-4。其核心在于展示了該模型在各類專業(yè)和學(xué)術(shù)基準測試中展現(xiàn)出的「人類水平」的性能。與前代不同,GPT-4 不僅能處理文本,還能接收圖像輸入并進行理解和推理。報告重點闡述了其深度學(xué)習(xí)系統(tǒng)的構(gòu)建、訓(xùn)練方法、安全考量以及通過可預(yù)測的「縮放法則」來準確預(yù)測最終性能的工程實踐。同時,報告也坦誠地指出了模型在事實準確性、幻覺和偏見等方面的局限性。

影響進一步鞏固了大規(guī)?;A(chǔ)模型作為通往更強人工智能關(guān)鍵路徑的行業(yè)共識。GPT-4 所展示的卓越性能,特別是其多模態(tài)能力和在復(fù)雜推理任務(wù)上的突破,迅速成為 AI 技術(shù)的新標桿,極大地推動了 AI 在各行業(yè)的應(yīng)用深度和廣度。它不僅催生了更多強大的 AI 應(yīng)用,也促使全球科技界、學(xué)術(shù)界和政策制定者更加嚴肅地審視 AI 安全、對齊和倫理挑戰(zhàn),加速了相關(guān)防護措施和治理框架的研究與部署。

  • LLaMA:Open and Efficient Foundation Language Models (2023)


論文地址:https://arxiv.org/abs/2302.13971

主要內(nèi)容發(fā)布了一系列參數(shù)規(guī)模從 70 億到 650 億不等的語言模型集合——LLaMA。其核心發(fā)現(xiàn)是,通過在海量的公開數(shù)據(jù)集上進行更長時間的訓(xùn)練,一個規(guī)模相對較小的模型(如 130 億參數(shù)的 LLaMA 模型)其性能可以超越參數(shù)量更大的模型(如 GPT-3)。論文證明了訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量對于模型性能的決定性作用,并為業(yè)界提供了一條在有限算力下訓(xùn)練出高效能模型的全新路徑。

影響LLaMA 的發(fā)布對 AI 領(lǐng)域產(chǎn)生了顛覆性的影響。盡管最初其權(quán)重并非完全開源,但很快被社區(qū)泄露,并催生了 Alpaca、Vicuna 等大量開源微調(diào)模型的井噴式發(fā)展,極大地推動了 LLM 研究的民主化進程。它讓學(xué)術(shù)界和中小型企業(yè)也能參與到大模型的研發(fā)與應(yīng)用中,打破了少數(shù)科技巨頭的技術(shù)壟斷,引爆了整個開源 AI 生態(tài)的活力與創(chuàng)新。

  • FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)


論文地址:https://arxiv.org/abs/2205.14135

主要內(nèi)容提出了一種快速且節(jié)省內(nèi)存的精確注意力算法。它通過融合計算內(nèi)核、重排計算順序以及利用 GPU 內(nèi)存層級(IO 感知)等技術(shù),有效減少了在計算注意力時對高帶寬內(nèi)存 (HBM) 的讀寫次數(shù)。這使得模型在處理長序列時,既能大幅提升計算速度,又能顯著降低內(nèi)存占用,且計算結(jié)果與標準注意力完全一致。

影響FlashAttention 已成為訓(xùn)練和部署 LLM 的行業(yè)標準。該技術(shù)使得用更少的硬件訓(xùn)練更大、更長的模型成為可能,直接推動了長上下文窗口模型的發(fā)展。因其顯著的加速和優(yōu)化效果,它被迅速集成到 PyTorch、Hugging Face 等主流深度學(xué)習(xí)框架和庫中,極大地促進了整個 AI 領(lǐng)域的進步。

  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)


論文地址:https://arxiv.org/abs/2201.11903

主要內(nèi)容該論文發(fā)現(xiàn),在處理復(fù)雜的推理任務(wù)(如數(shù)學(xué)題)時,若引導(dǎo) LLM 模仿人類的思維過程,先輸出一步步的推理「思路鏈」(Chain-of-Thought),再給出最終答案,其準確率會大幅提升。這種簡單的提示技巧,有效激發(fā)了模型隱藏的邏輯推理能力。

影響這項工作開創(chuàng)了「思維鏈」(CoT) 提示技術(shù),成為提升大模型推理能力最重要和基礎(chǔ)的方法之一。它深刻地影響了后續(xù)提示工程的發(fā)展,并啟發(fā)了一系列更高級的推理技術(shù),是理解和應(yīng)用現(xiàn)代 LLM 的基石性研究。

  • Direct Preference Optimization: Your Language Model is Secretly a Reward Model (2023)


論文地址:https://arxiv.org/abs/2305.18290

主要內(nèi)容提出了一種名為「直接偏好優(yōu)化」(DPO) 的新方法,用于對齊語言模型。它不再需要像傳統(tǒng) RLHF 方法那樣,先訓(xùn)練一個獨立的獎勵模型,再通過強化學(xué)習(xí)去優(yōu)化。DPO 直接利用人類偏好數(shù)據(jù),通過一個簡單的分類目標,就能高效地調(diào)整語言模型,使其更符合人類期望。這種方法將復(fù)雜的對齊過程簡化成了一步式的微調(diào)。

影響:DPO 因其簡潔性和高效性迅速產(chǎn)生了巨大影響。它大大簡化了從人類偏好中學(xué)習(xí)的訓(xùn)練流程,降低了計算成本和技術(shù)門檻,使得更多研究者和開發(fā)者能夠有效地對齊自己的模型。目前,該方法已被業(yè)界廣泛采納,成為許多領(lǐng)先開源模型(如 Zephyr、Tulu 2)進行對齊時所采用的主流技術(shù)之一。

  • Scaling Laws for Neural Language Models (2020)


論文地址:https://arxiv.org/abs/2001.08361

主要內(nèi)容系統(tǒng)地研究了神經(jīng)語言模型的性能與其規(guī)模之間的關(guān)系。研究發(fā)現(xiàn),模型性能與模型參數(shù)量、數(shù)據(jù)集大小和用于訓(xùn)練的計算量之間存在著平滑的、可預(yù)測的冪律關(guān)系 (Power Law)。這意味著,當我們在計算資源受限的情況下,可以根據(jù)這些「縮放法則」來最優(yōu)地分配資源,以達到最佳的模型性能,而無需進行昂貴的試錯。

影響為之后的 LLM 研發(fā)提供了理論基石和路線圖。它明確指出,持續(xù)、可預(yù)測的性能提升可以通過同步擴大模型、數(shù)據(jù)和計算量來實現(xiàn)。這直接指導(dǎo)了像 GPT-3、PaLM 等后續(xù)超大規(guī)模模型的誕生,確立了「暴力縮放」(Scaling) 作為通往更強 AI 能力的核心策略,深刻塑造了當前 AI 領(lǐng)域的軍備競賽格局。

  • Proximal Policy Optimization Algorithms (2017)


論文地址:https://arxiv.org/abs/1707.06347

主要內(nèi)容該論文提出 PPO 算法,一種旨在解決強化學(xué)習(xí)中策略更新不穩(wěn)定的新方法。其核心創(chuàng)新是「裁剪代理目標函數(shù)」,通過將新舊策略的概率比率限制在一個小范圍內(nèi),來防止過大的、破壞性的策略更新。這種簡潔的一階優(yōu)化方法在保證訓(xùn)練穩(wěn)定性的同時,顯著提升了數(shù)據(jù)利用效率,且比 TRPO 等先前算法更易于實現(xiàn)。

影響PPO 憑借其穩(wěn)定性、性能和實現(xiàn)簡單的完美平衡,已成為強化學(xué)習(xí)領(lǐng)域的「默認」算法。其最深遠的影響是作為核心技術(shù),驅(qū)動了「基于人類反饋的強化學(xué)習(xí)」(RLHF),這使得對齊 ChatGPT 等 LLM 成為可能,確保 AI 更有用、更無害。此外,它在機器人等領(lǐng)域應(yīng)用廣泛,并成為衡量新算法的重要基準。

核心架構(gòu)與方法

  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023)


論文地址:https://arxiv.org/abs/2312.00752

主要內(nèi)容Mamba 是一種新型的序列建模架構(gòu),它通過引入一種選擇性機制來改進狀態(tài)空間模型 (SSM)。這使其能根據(jù)輸入內(nèi)容動態(tài)地壓縮和傳遞信息,從而以與序列長度成線性關(guān)系的時間復(fù)雜度高效處理超長序列,并在性能上媲美甚至超越了傳統(tǒng)的 Transformer 架構(gòu)。

影響Mamba 為長序列建模提供了一個區(qū)別于 Transformer 的強大新選擇,其高效性能迅速激發(fā)了學(xué)界對狀態(tài)空間模型的研究熱潮。它被視為下一代基礎(chǔ)模型架構(gòu)的有力競爭者,正推動語言模型、基因組學(xué)、多模態(tài)等領(lǐng)域的底層架構(gòu)革新,展現(xiàn)出巨大的應(yīng)用潛力。

  • QLoRA: Efficient Finetuning of Quantized LLMs (2023)


論文地址:https://arxiv.org/abs/2305.14314

主要內(nèi)容提出了一種高效微調(diào)量化 LLM 的方法。它通過引入一種新的 4 位數(shù)據(jù)類型 (4-bit NormalFloat)、雙重量化和分頁優(yōu)化器技術(shù),極大地降低了微調(diào)大模型所需的顯存,僅用一塊消費級 GPU 即可微調(diào)數(shù)十億參數(shù)的模型。這種方法在大幅節(jié)省資源的同時,幾乎不損失模型性能,能達到與 16 位全量微調(diào)相當?shù)男Ч?/p>

影響極大地降低了參與 LLM 研發(fā)的門檻,使得個人開發(fā)者和小型研究團隊也能在消費級硬件上微調(diào)強大的模型。它迅速成為最主流和最受歡迎的高效微調(diào)技術(shù)之一,推動了開源社區(qū)的繁榮和 AI 應(yīng)用的創(chuàng)新。QLoRA 的技術(shù)思想也啟發(fā)了后續(xù)更多關(guān)于模型量化和效率優(yōu)化的研究工作。

  • PagedAttention: Efficient Memory Management for LLM Serving (2023)


論文地址:https://arxiv.org/abs/2309.06180

主要內(nèi)容提出了一種名為「分頁注意力」(PagedAttention) 的新型注意力機制算法。它借鑒了操作系統(tǒng)中虛擬內(nèi)存和分頁的思想,將 LLM 的鍵 (Key) 和值 (Value) 緩存分割成非連續(xù)的固定大小「塊」進行管理。這解決了因注意力緩存 (KV Cache) 導(dǎo)致的嚴重內(nèi)存碎片和冗余問題,使得在處理長序列或并行處理多個請求時,內(nèi)存利用率大幅提升。

影響作為核心技術(shù)被集成到業(yè)界領(lǐng)先的推理服務(wù)框架 vLLM 中,將 LLM 的吞吐量提升了數(shù)倍,并顯著降低了顯存占用。這使得在相同硬件上服務(wù)更多用戶、運行更大模型成為可能,極大地降低了 LLM 的部署成本和延遲,已成為當前高性能大模型服務(wù) (LLM Serving) 領(lǐng)域的行業(yè)標準方案。

  • Mistral 7B (2023)


論文地址:https://arxiv.org/abs/2310.06825

主要內(nèi)容Mistral 7B 論文介紹了一款高效的 70 億參數(shù)語言模型。它通過分組查詢注意力 (GQA) 和滑動窗口注意力 (SWA) 等創(chuàng)新架構(gòu),在顯著降低計算成本和推理延遲的同時,實現(xiàn)了卓越性能。該模型在眾多基準測試中,其表現(xiàn)不僅超越了同等規(guī)模的模型,甚至優(yōu)于 Llama 2 13B 等參數(shù)量更大的模型,展現(xiàn)了小尺寸模型實現(xiàn)高水平推理與處理長序列的能力。

影響Mistral 7B 的發(fā)布對開源 AI 社區(qū)產(chǎn)生了巨大影響,迅速成為高效能小型模型的標桿。它證明了小模型通過精巧設(shè)計足以媲美大模型,激發(fā)了社區(qū)在模型優(yōu)化上的創(chuàng)新熱情。該模型不僅被廣泛用作各種下游任務(wù)微調(diào)的基礎(chǔ)模型,還推動了 AI 技術(shù)在更低資源設(shè)備上的普及與應(yīng)用,確立了 Mistral AI 在開源領(lǐng)域的領(lǐng)先地位。

  • LAION-5B: An open, large-scale dataset for training next generation image-text models (2022)


論文地址:https://arxiv.org/abs/2210.08402

主要內(nèi)容LAION-5B 論文介紹了一個公開發(fā)布的、至今規(guī)模最大的圖文對數(shù)據(jù)集。它包含從互聯(lián)網(wǎng)抓取的 58.5 億個 CLIP 過濾后的圖像-文本對,并根據(jù)語言、分辨率、水印概率等進行了分類。該數(shù)據(jù)集的構(gòu)建旨在民主化多模態(tài)大模型的訓(xùn)練,為研究社區(qū)提供了一個前所未有的、可替代私有數(shù)據(jù)集的大規(guī)模、開放資源。

影響極大地推動了多模態(tài)人工智能的發(fā)展,尤其是在文本到圖像生成領(lǐng)域。它成為了許多著名模型(如 Stable Diffusion)的基礎(chǔ)訓(xùn)練數(shù)據(jù),顯著降低了頂尖 AI 模型的研發(fā)門檻。該數(shù)據(jù)集的開放性促進了全球范圍內(nèi)的研究創(chuàng)新與復(fù)現(xiàn),深刻影響了此后生成式 AI 模型的技術(shù)路線和開源生態(tài)格局。

  • Tree of Thoughts: Deliberate Problem Solving with LLMs (2023)


論文地址:https://arxiv.org/abs/2305.10601

主要內(nèi)容提出了一種名為「思想樹」(Tree of Thoughts, ToT) 的新框架,旨在增強 LLM 解決復(fù)雜問題的能力。不同于傳統(tǒng)的一次性生成答案,ToT 允許模型探索多個不同的推理路徑,像人類一樣進行深思熟慮。它通過自我評估和前瞻性規(guī)劃來評估中間步驟的價值,并選擇最有希望的路徑繼續(xù)探索,從而顯著提升了在數(shù)學(xué)、邏輯推理等任務(wù)上的表現(xiàn)。

影響為提升 LLM 的推理能力提供了全新且有效的途徑,引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。它啟發(fā)了一系列后續(xù)研究,探索如何讓模型具備更強的規(guī)劃和自主思考能力,推動了從簡單「生成」到復(fù)雜「推理」的技術(shù)演進。ToT 框架已成為優(yōu)化提示工程 (Prompt Engineering) 和構(gòu)建更強大 AI 智能體 (Agent) 的重要思想之一。

  • Emergent Abilities of Large Language Models (2022)


論文地址:https://arxiv.org/abs/2206.07682

主要內(nèi)容這篇論文的核心觀點是,LLM 的能力并非隨著規(guī)模增大而平滑提升,而是會「涌現(xiàn)」出一些小模型完全不具備的新能力。研究者發(fā)現(xiàn),在多步推理、指令遵循等復(fù)雜任務(wù)上,只有當模型規(guī)??缭侥硞€關(guān)鍵閾值后,其性能才會從接近隨機猜測的水平躍升至遠超隨機的水平。這種現(xiàn)象是不可預(yù)測的,只能通過實際測試更大規(guī)模的模型來發(fā)現(xiàn)。

影響該論文為「大力出奇跡」的模型縮放路線 (Scaling Law) 提供了更深層次的理論解釋和預(yù)期。它激發(fā)了業(yè)界對探索和理解大模型「涌現(xiàn)」能力的濃厚興趣,推動了對模型能力邊界的研究。同時,「涌現(xiàn)」這一概念也成為了解釋為何更大模型(如 GPT-4)能處理更復(fù)雜、更精細任務(wù)的理論基石,深刻影響了后續(xù)模型的研發(fā)方向和評估標準。

  • Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism (2019)


論文地址:https://arxiv.org/abs/1909.08053

主要內(nèi)容該論文旨在解決單個 GPU 內(nèi)存無法容納巨型模型的核心工程難題。它提出了「張量并行」(即層內(nèi)模型并行)技術(shù),將 Transformer 層內(nèi)部的巨大權(quán)重矩陣切分到多個 GPU 上,每個 GPU 僅計算一部分,再通過高效通信聚合結(jié)果。這種方法實現(xiàn)簡單,且能與其他并行策略結(jié)合。研究者用該技術(shù)成功訓(xùn)練了當時前所未有的 83 億參數(shù)模型,證明了其可行性。

影響這項工作是 AI 基礎(chǔ)設(shè)施的里程碑,它提供的張量并行技術(shù)是打破單 GPU 內(nèi)存瓶頸的關(guān)鍵。它為訓(xùn)練擁有數(shù)千億甚至萬億參數(shù)的模型鋪平了道路,并與數(shù)據(jù)、流水線并行共同構(gòu)成了現(xiàn)代大規(guī)模分布式訓(xùn)練的基石。Megatron-LM 開源庫迅速成為行業(yè)標準,為學(xué)界和業(yè)界提供了實現(xiàn)超大規(guī)模 AI 的工程藍圖,將「規(guī)?;估碚撟?yōu)榱丝刹僮鞯默F(xiàn)實。

  • ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (2019)


論文地址:https://arxiv.org/abs/1910.02054

主要內(nèi)容該論文提出了一種名為 ZeRO (零冗余優(yōu)化器) 的顯存優(yōu)化技術(shù)。它通過在數(shù)據(jù)并行訓(xùn)練的各個 GPU 之間巧妙地分割和分配模型狀態(tài)(優(yōu)化器狀態(tài)、梯度和參數(shù)),消除了顯存冗余,從而能在現(xiàn)有硬件上訓(xùn)練遠超以往規(guī)模的巨型模型,為萬億參數(shù)模型的實現(xiàn)鋪平了道路。

影響ZeRO 技術(shù)被整合進微軟 DeepSpeed 等主流深度學(xué)習(xí)框架并獲廣泛采用。該技術(shù)極大降低了訓(xùn)練超大模型的硬件門檻,直接推動了后續(xù) GPT 系列、BLOOM 等千億乃至萬億參數(shù)模型的成功訓(xùn)練,是支撐當前大模型發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施技術(shù)之一。

  • OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER (2017)


論文地址: https://arxiv.org/abs/1701.06538

主要內(nèi)容該論文引入了稀疏門控專家混合層 (MoE) 架構(gòu),通過條件計算解決了模型容量與計算成本的矛盾。該架構(gòu)包含成千上萬個「專家」子網(wǎng)絡(luò),由一個門控網(wǎng)絡(luò)為每個輸入僅激活少數(shù)幾個專家進行處理。這使得模型參數(shù)可增加超 1000 倍,而計算成本僅有微小增加,從而在不犧牲效率的情況下,極大地提升了模型的知識吸收能力。

影響這項工作首次在實踐中大規(guī)模證明了條件計算的可行性,為構(gòu)建擁有數(shù)千億甚至萬億參數(shù)的巨型模型鋪平了道路。MoE 已成為現(xiàn)代頂尖 LLM (如 Mixtral) 的核心技術(shù)之一,它通過讓專家網(wǎng)絡(luò)實現(xiàn)功能分化,在提升模型性能的同時保持了計算效率,對整個 AI 領(lǐng)域的大模型發(fā)展產(chǎn)生了深遠影響。

重要優(yōu)化與應(yīng)用

Improving Language Understanding by Generative Pre-Training (2018)
地址: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Deep contextualized word representations (2018)
地址: https://aclanthology.org/N18-1202/

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020)
地址: https://arxiv.org/abs/2005.11401

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2020)
地址: https://arxiv.org/abs/1910.10683

RoBERTa: A Robustly Optimized BERT Pretraining Approach (2019)
地址: https://arxiv.org/abs/1907.11692

Holistic Evaluation of Language Models (HELM) (2022)
地址: https://arxiv.org/abs/2211.09110

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (2024)
地址: https://arxiv.org/abs/2403.04132

LIMA: Less Is More for Alignment (2023)
地址: https://arxiv.org/abs/2305.11206

Grouped-query attention (2023)
地址: https://arxiv.org/abs/2305.13245

Fast Inference from Transformers via Speculative Decoding (2022)
地址: https://arxiv.org/abs/2211.17192

GPTQ: Accurate Post-Training Quantization for Generative Language Models (2022)
地址: https://arxiv.org/abs/2210.17323

LLaVA: Visual Instruction Tuning (2023)
地址: https://arxiv.org/abs/2304.08485

PaLM 2 / BLOOM / Qwen (Series) (2022-2023)
PaLM 2 地址: https://ai.google/static/documents/palm2techreport.pdf
BLOOM 地址: https://arxiv.org/abs/2211.05100
Qwen 地址: https://arxiv.org/abs/2309.16609

Universal and Transferable Adversarial Attacks on Aligned Language Models (2023)
地址: https://arxiv.org/abs/2307.15043

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training (2023)
地址: https://arxiv.org/abs/2308.01320

前沿探索與新趨勢


Language Models are Unsupervised Multitask Learners (2019)
地址: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

DistilBERT, a distilled version of BERT (2019)
地址: https://arxiv.org/abs/1910.01108

Efficient Transformers (Sparse / Longformer / Reformer / Performers) (2019-2020)
Sparse Transformers 地址: https://arxiv.org/abs/1904.10509
Longformer 地址: https://arxiv.org/abs/2004.05150
Reformer 地址: https://arxiv.org/abs/2001.04451
Performers 地址: https://arxiv.org/abs/2009.14794

SentencePiece: A simple and language independent subword tokenizer (2018)
地址: https://arxiv.org/abs/1808.06226

Generative Agents: Interactive Simulacra of Human Behavior (2023)
地址: https://arxiv.org/abs/2304.03442

Voyager: An Open-Ended Embodied Agent with Large Language Models (2023)
地址: https://arxiv.org/abs/2305.16291

Textbooks Are All You Need (Phi Series) (2023)
地址: https://arxiv.org/abs/2306.11644 (phi-1)

Jamba: A Hybrid Transformer-Mamba Language Model (2024)
地址: https://arxiv.org/abs/2403.19887

WizardLM: Empowering Large Language Models to Follow Complex Instructions (2023)
地址: https://arxiv.org/abs/2304.12244

TinyLlama: An Open-Source Small Language Model (2024)
地址: https://arxiv.org/abs/2401.02385

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)
地址: https://arxiv.org/abs/2501.12948

Train Short, Test Long: Attention with Linear Biases (ALiBi) (2021)
地址: https://arxiv.org/abs/2108.12409

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (2023)
地址: https://arxiv.org/abs/2306.00978

Red Teaming Language Models with Language Models (2022)
地址: https://arxiv.org/abs/2202.03286

Universal Language Model Fine-tuning for Text Classification (ULMFiT) (2018)
地址: https://arxiv.org/abs/1801.06146

XLNet: Generalized Autoregressive Pretraining for Language Understanding (2019)
地址: https://arxiv.org/abs/1906.08237

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation... (2020)
地址: https://aclanthology.org/2020.acl-main.703/

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2020)
地址: https://arxiv.org/abs/2003.10555

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)
地址: https://arxiv.org/abs/2006.16668

MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING (MMLU) (2020)
地址: https://arxiv.org/abs/2009.03300

Beyond the Imitation Game: Quantifying and extrapolating... (BIG-bench) (2022)
地址: https://arxiv.org/abs/2206.04615

Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models... (2023)
地址: https://arxiv.org/abs/2312.12148

DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale (2022)
地址: https://arxiv.org/abs/2207.00032

【免責(zé)聲明】轉(zhuǎn)載出于非商業(yè)性的教育和科研目的,只為學(xué)術(shù)新聞信息的傳播,版權(quán)歸原作者所有,如有侵權(quán)請立即與我們聯(lián)系,我們將及時刪除。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黃楊鈿甜天價耳環(huán)大結(jié)局!央媒通報調(diào)查結(jié)果,這次終于真相大白了

黃楊鈿甜天價耳環(huán)大結(jié)局!央媒通報調(diào)查結(jié)果,這次終于真相大白了

洲洲影視娛評
2025-07-16 22:03:30
宗慶后爺爺做過漢奸,但娃哈哈多次打愛國牌

宗慶后爺爺做過漢奸,但娃哈哈多次打愛國牌

合贊歷史
2025-07-17 13:57:57
官媒曝宗慶后私生活,72歲色心不改,網(wǎng)友:被4房姨太太掏空身體

官媒曝宗慶后私生活,72歲色心不改,網(wǎng)友:被4房姨太太掏空身體

悠閑歷史
2025-07-17 15:27:11
娃哈哈的“繼承迷局”:宗馥莉轉(zhuǎn)錢不是關(guān)鍵,信托是否有效才關(guān)鍵

娃哈哈的“繼承迷局”:宗馥莉轉(zhuǎn)錢不是關(guān)鍵,信托是否有效才關(guān)鍵

藍鯨新聞
2025-07-17 20:39:10
“北大慘遭滑鐵盧!”內(nèi)蒙招生零投檔,家長:沒有人愿意當炮灰!

“北大慘遭滑鐵盧!”內(nèi)蒙招生零投檔,家長:沒有人愿意當炮灰!

知曉科普
2025-07-17 09:24:55
宗馥莉“清算式”接班全記錄:騰籠換鳥,掏空娃哈哈,讓對手控股變廢紙

宗馥莉“清算式”接班全記錄:騰籠換鳥,掏空娃哈哈,讓對手控股變廢紙

風(fēng)向觀察
2025-07-17 20:03:37
“內(nèi)鬼”黎凱生被查,兩年前已退休

“內(nèi)鬼”黎凱生被查,兩年前已退休

政知新媒體
2025-07-17 20:17:57
說普通話被歧視后續(xù):工作人員態(tài)度傲慢,男子回應(yīng),不止一次

說普通話被歧視后續(xù):工作人員態(tài)度傲慢,男子回應(yīng),不止一次

青梅侃史啊
2025-07-16 16:46:53
宗慶后早與杜建英離婚!原因出在宗馥莉身上,去世時庶長子捧骨灰

宗慶后早與杜建英離婚!原因出在宗馥莉身上,去世時庶長子捧骨灰

說說史事
2025-07-17 16:25:17
黃楊鈿甜的母親提供給記者的耳環(huán),似乎有疑點!

黃楊鈿甜的母親提供給記者的耳環(huán),似乎有疑點!

麥杰遜
2025-07-17 15:44:48
宗馥莉隱秘婚姻被扒:高官前夫落馬,背后牽扯美國驚天大案

宗馥莉隱秘婚姻被扒:高官前夫落馬,背后牽扯美國驚天大案

互聯(lián)網(wǎng)大觀
2025-07-17 09:58:02
自來水被污染隱瞞不報,杭州市民喝了一天糞水,事后:免水費

自來水被污染隱瞞不報,杭州市民喝了一天糞水,事后:免水費

社會醬
2025-07-17 17:53:28
春秋航空一航班疑起飛離地后發(fā)生故障“砸下來”落地,航司回應(yīng):機械故障

春秋航空一航班疑起飛離地后發(fā)生故障“砸下來”落地,航司回應(yīng):機械故障

瀟湘晨報
2025-07-17 20:55:36
弟弟否認宗慶后有7個孩子,公開宗氏家譜,宗馥莉與宗家人不來往

弟弟否認宗慶后有7個孩子,公開宗氏家譜,宗馥莉與宗家人不來往

180視角
2025-07-17 20:02:49
遺憾!7人全部遇難,川西奪命自駕游,司機遺體泡10天才被找到

遺憾!7人全部遇難,川西奪命自駕游,司機遺體泡10天才被找到

阿芒娛樂說
2025-07-17 09:52:34
中央巡視形成強大震懾效應(yīng),一周來多名在任官員主動投案

中央巡視形成強大震懾效應(yīng),一周來多名在任官員主動投案

南方都市報
2025-07-17 18:00:18
吃相太難看!陳佩斯砸上億的電影還沒上映,令人惡心一幕就上演!

吃相太難看!陳佩斯砸上億的電影還沒上映,令人惡心一幕就上演!

春秋論娛
2025-07-17 19:46:54
不會演別尬演!央視《掃毒風(fēng)暴》張世一出手,把影帝秦昊都演懵了

不會演別尬演!央視《掃毒風(fēng)暴》張世一出手,把影帝秦昊都演懵了

坊聞本尊
2025-07-17 20:12:44
彈射甲板煥然一新,8萬噸巨艦做最后準備,福建艦真的要來了?

彈射甲板煥然一新,8萬噸巨艦做最后準備,福建艦真的要來了?

空天力量
2025-07-17 19:34:41
直沖40℃!川渝高溫強勢霸榜 全國最熱前十占據(jù)7席

直沖40℃!川渝高溫強勢霸榜 全國最熱前十占據(jù)7席

封面新聞
2025-07-17 15:48:09
2025-07-18 00:15:00
中國人工智能學(xué)會
中國人工智能學(xué)會
中國人工智能學(xué)會網(wǎng)易官方賬號
3469文章數(shù) 1482關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產(chǎn)戰(zhàn)進入高潮 關(guān)鍵時刻"影子夫人"杜建英資金出狀況

頭條要聞

遺產(chǎn)戰(zhàn)進入高潮 關(guān)鍵時刻"影子夫人"杜建英資金出狀況

體育要聞

楊力維和楊舒予,是姐妹,也是戰(zhàn)友

娛樂要聞

又相信愛情了,董璇二婚現(xiàn)場照曝光!

財經(jīng)要聞

杭州成立專班介入宗慶后遺產(chǎn)糾紛

汽車要聞

有望年內(nèi)上市 奧迪A6L e-tron申報信息曝光

態(tài)度原創(chuàng)

旅游
游戲
本地
房產(chǎn)
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)毛社預(yù)測:PS6內(nèi)存提升不會太大 估計就24GB

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

房產(chǎn)要聞

突發(fā)!海航陳峰被判12年,罰2.2億!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 盐池县| 达尔| 宾川县| 常宁市| 沛县| 扎鲁特旗| 全椒县| 罗城| 安岳县| 藁城市| 安阳市| 贡嘎县| 卫辉市| 上蔡县| 合水县| 民和| 密云县| 安仁县| 宾川县| 澄城县| 新沂市| 濉溪县| 左云县| 城市| 承德市| 左权县| 南丰县| 洪雅县| 柞水县| 阿拉善盟| 沙坪坝区| 成武县| 全南县| 乐昌市| 平和县| 乐安县| 珲春市| 凌海市| 惠水县| 定西市| 沧州市|