網易首頁 > 網易號 > 正文申請入駐

盤一盤，2017年Transformer之后，LLM領域的重要論文

2025-06-30 17:26:04　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

這兩天 Andrej Karpathy 的最新演講在 AI 社區引發了熱烈討論，他提出了「軟件 3.0」的概念，自然語言正在成為新的編程接口，而 AI 模型負責執行具體任務。

Karpathy 深入探討了這一變革對開發者、用戶以及軟件設計理念的深遠影響。他認為，我們不只是在使用新工具，更是在構建一種全新的計算范式。

回顧 LLM 的發展歷程：自 2017 年 Transformer 架構問世以來，我們見證了 GPT 系列的一路高歌猛進，以及多模態能力和端側應用的全面開花。整個領域正以前所未有的速度演進。

要深入理解這場變革的本質，我們需要回到技術的源頭。那些奠定今天 AI 能力的關鍵論文，不僅記錄著算法的演進軌跡，更揭示了從傳統編程到自然語言交互這一范式轉變的內在邏輯。

此前我們通過 50 個核心問題回顧了 LLM 的基礎概念。今天，我們將梳理自 2017 年以來 LLM 領域的重要論文。本文從 X 用戶 Pramod Goyal 的論文盤點中精選了 22 篇進行詳細介紹，其余論文將在文末列出供讀者參考。

奠基理論

Attention Is All You Need (2017)

鏈接：https://arxiv.org/pdf/1706.03762

主要內容：提出了 Transformer 架構，它完全摒棄了傳統的循環和卷積網絡，僅依靠自注意力機制來處理序列數據。通過并行計算和位置編碼，它能高效捕捉長距離的依賴關系，以更快的速度和更高的質量完成機器翻譯等任務。

影響：Transformer 架構是現代 AI 的基石，直接催生了 GPT 和 BERT 等 LLM，并引發了當前的 AI 熱潮。它的高效和通用性使其不僅徹底改變了自然語言處理，還被成功應用于計算機視覺等多個領域，成為一項革命性的技術。

Language Models are Few-Shot Learners (2020)

論文地址：https://arxiv.org/abs/2005.14165

主要內容：介紹并驗證了擁有 1750 億參數的自回歸語言模型 GPT-3 的強大能力。研究表明，與以往需要針對特定任務進行大量數據微調的模型不同，GPT-3 無需更新權重，僅通過在輸入時提供任務描述和少量示例（即「少樣本學習」或「上下文學習」），就能在翻譯、問答、文本生成乃至代碼編寫等大量不同的自然語言處理任務上取得極具競爭力的表現，且模型性能隨著參數規模的增長和示例數量的增加而穩定提升。

影響：確立了「大模型 + 大數據」的縮放定律 (Scaling Law) 是通往更通用人工智能的有效路徑，直接引領了全球范圍內的 LLM 軍備競賽。同時，它開創了以「提示工程」為核心的新型 AI 應用范式，極大地降低了 AI 技術的開發門檻，并催生了后續以 ChatGPT 為代表的生成式 AI 浪潮，深刻地改變了科技產業的格局和未來走向。

Deep Reinforcement Learning from Human Preferences (2017)

論文地址：https://arxiv.org/abs/1706.03741

主要內容：該論文開創性地提出，不再手動設計復雜的獎勵函數，而是直接從人類的偏好中學習。其核心方法是：收集人類對 AI 行為片段的成對比較（「哪個更好？」），用這些數據訓練一個「獎勵模型」來模仿人類的判斷標準，最后用這個模型作為獎勵信號，通過強化學習來訓練 AI。該方法被證明僅需少量人類反饋即可高效解決復雜任務。

影響：這篇論文是「基于人類反饋的強化學習」(RLHF) 領域的奠基之作。RLHF 后來成為對齊和微調 ChatGPT 等 LLM 的關鍵技術，通過學習人類偏好，使 AI 的輸出更有用、更符合人類價值觀。它將「AI 對齊」從抽象理論變為可行的工程實踐，為確保 AI 系統與人類意圖一致提供了可擴展的解決方案，是現代對話式 AI 發展的基石。

Training language models to follow instructions with human feedback (2022)

論文地址：https://arxiv.org/abs/2203.02155

主要內容：該論文提出了一種結合人類反饋的強化學習方法 (RLHF) 來訓練語言模型，使其更好地遵循用戶的指令。具體步驟包括：首先，使用少量人工編寫的示例對預訓練的 GPT-3 進行微調；然后，收集人類對模型不同輸出的偏好排序數據，并用這些數據訓練一個「獎勵模型」；最后，利用這個獎勵模型作為強化學習的信號，進一步優化語言模型。通過這種方式，即使模型參數比 GPT-3 小得多，InstructGPT 在遵循指令方面也表現得更出色、更真實，且有害內容生成更少。

影響：催生了現象級產品 ChatGPT，并為 LLM 的發展確立了新的技術路線。它證明了通過人類反饋進行對齊 (Alignment) 是解決大型模型「說胡話」、不聽指令問題的有效途徑。此后，RLHF 成為訓練主流對話式 AI 和服務型大模型的行業標準，深刻改變了 AI 的研發范式，將研究重點從單純追求模型規模轉向了如何讓模型更好地與人類意圖對齊。這一方法論的成功，是推動生成式 AI 從純粹的技術展示走向大規模實際應用的關鍵一步。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)

論文地址：https://aclanthology.org/N19-1423/

主要內容：該論文提出了 BERT，一個基于 Transformer 的語言表示模型。其核心創新是真正的雙向上下文理解，通過創新的「掩碼語言模型」(MLM) 預訓練任務，讓模型能同時利用一個詞左右兩側的全部語境。這克服了以往單向模型的局限性。BERT 通過在海量文本上預訓練，再針對具體任務微調的范式，極大地提升了語言理解能力。

影響：BERT 的發布是 NLP 領域的革命，它在 11 項主流任務上刷新了最高分紀錄，確立了「預訓練 + 微調」作為行業標準范式。它極大地簡化了為特定任務構建高性能模型的流程，減少了對復雜定制架構的需求。BERT 開啟了現代 LLM 的新紀元，成為后續無數模型的基礎。

Training Compute-Optimal Large Language Models (2022)

論文地址：https://arxiv.org/abs/2203.15556

主要內容：這篇由 DeepMind 發表的論文（通常被稱為「Chinchilla 論文」）挑戰了當時「模型越大越好」的普遍認知。通過對超過 400 個模型的系統性訓練和分析，研究者發現，現有的 LLM 普遍處于「訓練不足」的狀態。為了在給定的計算預算下達到最佳性能，模型的大小和訓練數據的規模應該同步增長。具體來說，模型參數每增加一倍，訓練數據的量也應相應增加一倍。這揭示了一個新的、更高效的「計算最優」縮放法則，顛覆了以往只側重于增加模型參數的策略。

影響：改變了之后 LLM 的研發方向和資源分配策略。它提出的「計算最優」縮放法則，成為了業界訓練新模型時遵循的黃金準則。在此之前，各大機構競相追求更大的模型規模，而「Chinchilla」證明了在同等計算成本下，一個參數量更小但用更多數據訓練的模型（如其 700 億參數的 Chinchilla 模型）可以優于參數量更大的模型（如 GPT-3）。這促使整個領域從單純追求「大」轉向追求「大與多的平衡」，對后續如 LLaMA 等高效模型的誕生起到了關鍵的指導作用。

里程碑突破

GPT-4 Technical Report (2023)

論文地址：https://arxiv.org/abs/2303.08774

主要內容：詳細介紹了一個大規模、多模態的語言模型——GPT-4。其核心在于展示了該模型在各類專業和學術基準測試中展現出的「人類水平」的性能。與前代不同，GPT-4 不僅能處理文本，還能接收圖像輸入并進行理解和推理。報告重點闡述了其深度學習系統的構建、訓練方法、安全考量以及通過可預測的「縮放法則」來準確預測最終性能的工程實踐。同時，報告也坦誠地指出了模型在事實準確性、幻覺和偏見等方面的局限性。

影響：進一步鞏固了大規模基礎模型作為通往更強人工智能關鍵路徑的行業共識。GPT-4 所展示的卓越性能，特別是其多模態能力和在復雜推理任務上的突破，迅速成為 AI 技術的新標桿，極大地推動了 AI 在各行業的應用深度和廣度。它不僅催生了更多強大的 AI 應用，也促使全球科技界、學術界和政策制定者更加嚴肅地審視 AI 安全、對齊和倫理挑戰，加速了相關防護措施和治理框架的研究與部署。

LLaMA：Open and Efficient Foundation Language Models (2023)

論文地址：https://arxiv.org/abs/2302.13971

主要內容：發布了一系列參數規模從 70 億到 650 億不等的語言模型集合——LLaMA。其核心發現是，通過在海量的公開數據集上進行更長時間的訓練，一個規模相對較小的模型（如 130 億參數的 LLaMA 模型）其性能可以超越參數量更大的模型（如 GPT-3）。論文證明了訓練數據的規模和質量對于模型性能的決定性作用，并為業界提供了一條在有限算力下訓練出高效能模型的全新路徑。

影響：LLaMA 的發布對 AI 領域產生了顛覆性的影響。盡管最初其權重并非完全開源，但很快被社區泄露，并催生了 Alpaca、Vicuna 等大量開源微調模型的井噴式發展，極大地推動了 LLM 研究的民主化進程。它讓學術界和中小型企業也能參與到大模型的研發與應用中，打破了少數科技巨頭的技術壟斷，引爆了整個開源 AI 生態的活力與創新。

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)

論文地址：https://arxiv.org/abs/2205.14135

主要內容：提出了一種快速且節省內存的精確注意力算法。它通過融合計算內核、重排計算順序以及利用 GPU 內存層級（IO 感知）等技術，有效減少了在計算注意力時對高帶寬內存 (HBM) 的讀寫次數。這使得模型在處理長序列時，既能大幅提升計算速度，又能顯著降低內存占用，且計算結果與標準注意力完全一致。

影響：FlashAttention 已成為訓練和部署 LLM 的行業標準。該技術使得用更少的硬件訓練更大、更長的模型成為可能，直接推動了長上下文窗口模型的發展。因其顯著的加速和優化效果，它被迅速集成到 PyTorch、Hugging Face 等主流深度學習框架和庫中，極大地促進了整個 AI 領域的進步。

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)

論文地址：https://arxiv.org/abs/2201.11903

主要內容：該論文發現，在處理復雜的推理任務（如數學題）時，若引導 LLM 模仿人類的思維過程，先輸出一步步的推理「思路鏈」(Chain-of-Thought)，再給出最終答案，其準確率會大幅提升。這種簡單的提示技巧，有效激發了模型隱藏的邏輯推理能力。

影響：這項工作開創了「思維鏈」(CoT) 提示技術，成為提升大模型推理能力最重要和基礎的方法之一。它深刻地影響了后續提示工程的發展，并啟發了一系列更高級的推理技術，是理解和應用現代 LLM 的基石性研究。

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (2023)

論文地址：https://arxiv.org/abs/2305.18290

主要內容：提出了一種名為「直接偏好優化」(DPO) 的新方法，用于對齊語言模型。它不再需要像傳統 RLHF 方法那樣，先訓練一個獨立的獎勵模型，再通過強化學習去優化。DPO 直接利用人類偏好數據，通過一個簡單的分類目標，就能高效地調整語言模型，使其更符合人類期望。這種方法將復雜的對齊過程簡化成了一步式的微調。

影響：DPO 因其簡潔性和高效性迅速產生了巨大影響。它大大簡化了從人類偏好中學習的訓練流程，降低了計算成本和技術門檻，使得更多研究者和開發者能夠有效地對齊自己的模型。目前，該方法已被業界廣泛采納，成為許多領先開源模型（如 Zephyr、Tulu 2）進行對齊時所采用的主流技術之一。

Scaling Laws for Neural Language Models (2020)

論文地址：https://arxiv.org/abs/2001.08361

主要內容：系統地研究了神經語言模型的性能與其規模之間的關系。研究發現，模型性能與模型參數量、數據集大小和用于訓練的計算量之間存在著平滑的、可預測的冪律關系 (Power Law)。這意味著，當我們在計算資源受限的情況下，可以根據這些「縮放法則」來最優地分配資源，以達到最佳的模型性能，而無需進行昂貴的試錯。

影響：為之后的 LLM 研發提供了理論基石和路線圖。它明確指出，持續、可預測的性能提升可以通過同步擴大模型、數據和計算量來實現。這直接指導了像 GPT-3、PaLM 等后續超大規模模型的誕生，確立了「暴力縮放」(Scaling) 作為通往更強 AI 能力的核心策略，深刻塑造了當前 AI 領域的軍備競賽格局。

Proximal Policy Optimization Algorithms (2017)

論文地址：https://arxiv.org/abs/1707.06347

主要內容：該論文提出 PPO 算法，一種旨在解決強化學習中策略更新不穩定的新方法。其核心創新是「裁剪代理目標函數」，通過將新舊策略的概率比率限制在一個小范圍內，來防止過大的、破壞性的策略更新。這種簡潔的一階優化方法在保證訓練穩定性的同時，顯著提升了數據利用效率，且比 TRPO 等先前算法更易于實現。

影響：PPO 憑借其穩定性、性能和實現簡單的完美平衡，已成為強化學習領域的「默認」算法。其最深遠的影響是作為核心技術，驅動了「基于人類反饋的強化學習」(RLHF)，這使得對齊 ChatGPT 等 LLM 成為可能，確保 AI 更有用、更無害。此外，它在機器人等領域應用廣泛，并成為衡量新算法的重要基準。

核心架構與方法

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023)

論文地址：https://arxiv.org/abs/2312.00752

主要內容：Mamba 是一種新型的序列建模架構，它通過引入一種選擇性機制來改進狀態空間模型 (SSM)。這使其能根據輸入內容動態地壓縮和傳遞信息，從而以與序列長度成線性關系的時間復雜度高效處理超長序列，并在性能上媲美甚至超越了傳統的 Transformer 架構。

影響：Mamba 為長序列建模提供了一個區別于 Transformer 的強大新選擇，其高效性能迅速激發了學界對狀態空間模型的研究熱潮。它被視為下一代基礎模型架構的有力競爭者，正推動語言模型、基因組學、多模態等領域的底層架構革新，展現出巨大的應用潛力。

QLoRA: Efficient Finetuning of Quantized LLMs (2023)

論文地址：https://arxiv.org/abs/2305.14314

主要內容：提出了一種高效微調量化 LLM 的方法。它通過引入一種新的 4 位數據類型 (4-bit NormalFloat)、雙重量化和分頁優化器技術，極大地降低了微調大模型所需的顯存，僅用一塊消費級 GPU 即可微調數十億參數的模型。這種方法在大幅節省資源的同時，幾乎不損失模型性能，能達到與 16 位全量微調相當的效果。

影響：極大地降低了參與 LLM 研發的門檻，使得個人開發者和小型研究團隊也能在消費級硬件上微調強大的模型。它迅速成為最主流和最受歡迎的高效微調技術之一，推動了開源社區的繁榮和 AI 應用的創新。QLoRA 的技術思想也啟發了后續更多關于模型量化和效率優化的研究工作。

PagedAttention: Efficient Memory Management for LLM Serving (2023)

論文地址：https://arxiv.org/abs/2309.06180

主要內容：提出了一種名為「分頁注意力」(PagedAttention) 的新型注意力機制算法。它借鑒了操作系統中虛擬內存和分頁的思想，將 LLM 的鍵 (Key) 和值 (Value) 緩存分割成非連續的固定大小「塊」進行管理。這解決了因注意力緩存 (KV Cache) 導致的嚴重內存碎片和冗余問題，使得在處理長序列或并行處理多個請求時，內存利用率大幅提升。

影響：作為核心技術被集成到業界領先的推理服務框架 vLLM 中，將 LLM 的吞吐量提升了數倍，并顯著降低了顯存占用。這使得在相同硬件上服務更多用戶、運行更大模型成為可能，極大地降低了 LLM 的部署成本和延遲，已成為當前高性能大模型服務 (LLM Serving) 領域的行業標準方案。

Mistral 7B (2023)

論文地址：https://arxiv.org/abs/2310.06825

主要內容：Mistral 7B 論文介紹了一款高效的 70 億參數語言模型。它通過分組查詢注意力 (GQA) 和滑動窗口注意力 (SWA) 等創新架構，在顯著降低計算成本和推理延遲的同時，實現了卓越性能。該模型在眾多基準測試中，其表現不僅超越了同等規模的模型，甚至優于 Llama 2 13B 等參數量更大的模型，展現了小尺寸模型實現高水平推理與處理長序列的能力。

影響：Mistral 7B 的發布對開源 AI 社區產生了巨大影響，迅速成為高效能小型模型的標桿。它證明了小模型通過精巧設計足以媲美大模型，激發了社區在模型優化上的創新熱情。該模型不僅被廣泛用作各種下游任務微調的基礎模型，還推動了 AI 技術在更低資源設備上的普及與應用，確立了 Mistral AI 在開源領域的領先地位。

LAION-5B: An open, large-scale dataset for training next generation image-text models (2022)

論文地址：https://arxiv.org/abs/2210.08402

主要內容：LAION-5B 論文介紹了一個公開發布的、至今規模最大的圖文對數據集。它包含從互聯網抓取的 58.5 億個 CLIP 過濾后的圖像-文本對，并根據語言、分辨率、水印概率等進行了分類。該數據集的構建旨在民主化多模態大模型的訓練，為研究社區提供了一個前所未有的、可替代私有數據集的大規模、開放資源。

影響：極大地推動了多模態人工智能的發展，尤其是在文本到圖像生成領域。它成為了許多著名模型（如 Stable Diffusion）的基礎訓練數據，顯著降低了頂尖 AI 模型的研發門檻。該數據集的開放性促進了全球范圍內的研究創新與復現，深刻影響了此后生成式 AI 模型的技術路線和開源生態格局。

Tree of Thoughts: Deliberate Problem Solving with LLMs (2023)

論文地址：https://arxiv.org/abs/2305.10601

主要內容：提出了一種名為「思想樹」(Tree of Thoughts, ToT) 的新框架，旨在增強 LLM 解決復雜問題的能力。不同于傳統的一次性生成答案，ToT 允許模型探索多個不同的推理路徑，像人類一樣進行深思熟慮。它通過自我評估和前瞻性規劃來評估中間步驟的價值，并選擇最有希望的路徑繼續探索，從而顯著提升了在數學、邏輯推理等任務上的表現。

影響：為提升 LLM 的推理能力提供了全新且有效的途徑，引發了學術界和工業界的廣泛關注。它啟發了一系列后續研究，探索如何讓模型具備更強的規劃和自主思考能力，推動了從簡單「生成」到復雜「推理」的技術演進。ToT 框架已成為優化提示工程 (Prompt Engineering) 和構建更強大 AI 智能體 (Agent) 的重要思想之一。

Emergent Abilities of Large Language Models (2022)

論文地址：https://arxiv.org/abs/2206.07682

主要內容：這篇論文的核心觀點是，LLM 的能力并非隨著規模增大而平滑提升，而是會「涌現」出一些小模型完全不具備的新能力。研究者發現，在多步推理、指令遵循等復雜任務上，只有當模型規模跨越某個關鍵閾值后，其性能才會從接近隨機猜測的水平躍升至遠超隨機的水平。這種現象是不可預測的，只能通過實際測試更大規模的模型來發現。

影響：該論文為「大力出奇跡」的模型縮放路線 (Scaling Law) 提供了更深層次的理論解釋和預期。它激發了業界對探索和理解大模型「涌現」能力的濃厚興趣，推動了對模型能力邊界的研究。同時，「涌現」這一概念也成為了解釋為何更大模型（如 GPT-4）能處理更復雜、更精細任務的理論基石，深刻影響了后續模型的研發方向和評估標準。

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism (2019)

論文地址：https://arxiv.org/abs/1909.08053

主要內容：該論文旨在解決單個 GPU 內存無法容納巨型模型的核心工程難題。它提出了「張量并行」（即層內模型并行）技術，將 Transformer 層內部的巨大權重矩陣切分到多個 GPU 上，每個 GPU 僅計算一部分，再通過高效通信聚合結果。這種方法實現簡單，且能與其他并行策略結合。研究者用該技術成功訓練了當時前所未有的 83 億參數模型，證明了其可行性。

影響：這項工作是 AI 基礎設施的里程碑，它提供的張量并行技術是打破單 GPU 內存瓶頸的關鍵。它為訓練擁有數千億甚至萬億參數的模型鋪平了道路，并與數據、流水線并行共同構成了現代大規模分布式訓練的基石。Megatron-LM 開源庫迅速成為行業標準，為學界和業界提供了實現超大規模 AI 的工程藍圖，將「規模化」理論變為了可操作的現實。

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (2019)

論文地址：https://arxiv.org/abs/1910.02054

主要內容：該論文提出了一種名為 ZeRO (零冗余優化器) 的顯存優化技術。它通過在數據并行訓練的各個 GPU 之間巧妙地分割和分配模型狀態（優化器狀態、梯度和參數），消除了顯存冗余，從而能在現有硬件上訓練遠超以往規模的巨型模型，為萬億參數模型的實現鋪平了道路。

影響：ZeRO 技術被整合進微軟 DeepSpeed 等主流深度學習框架并獲廣泛采用。該技術極大降低了訓練超大模型的硬件門檻，直接推動了后續 GPT 系列、BLOOM 等千億乃至萬億參數模型的成功訓練，是支撐當前大模型發展的關鍵基礎設施技術之一。

OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER (2017)

論文地址：https://arxiv.org/abs/1701.06538

主要內容：該論文引入了稀疏門控專家混合層 (MoE) 架構，通過條件計算解決了模型容量與計算成本的矛盾。該架構包含成千上萬個「專家」子網絡，由一個門控網絡為每個輸入僅激活少數幾個專家進行處理。這使得模型參數可增加超 1000 倍，而計算成本僅有微小增加，從而在不犧牲效率的情況下，極大地提升了模型的知識吸收能力。

影響：這項工作首次在實踐中大規模證明了條件計算的可行性，為構建擁有數千億甚至萬億參數的巨型模型鋪平了道路。MoE 已成為現代頂尖 LLM (如 Mixtral) 的核心技術之一，它通過讓專家網絡實現功能分化，在提升模型性能的同時保持了計算效率，對整個 AI 領域的大模型發展產生了深遠影響。

重要優化與應用

Improving Language Understanding by Generative Pre-Training (2018)

地址: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Deep contextualized word representations (2018)

地址: https://aclanthology.org/N18-1202/

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020)

地址: https://arxiv.org/abs/2005.11401

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2020)

地址: https://arxiv.org/abs/1910.10683

RoBERTa: A Robustly Optimized BERT Pretraining Approach (2019)

地址: https://arxiv.org/abs/1907.11692

Holistic Evaluation of Language Models (HELM) (2022)

地址: https://arxiv.org/abs/2211.09110

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (2024)

地址: https://arxiv.org/abs/2403.04132

LIMA: Less Is More for Alignment (2023)

地址: https://arxiv.org/abs/2305.11206

Grouped-query attention (2023)

地址: https://arxiv.org/abs/2305.13245

Fast Inference from Transformers via Speculative Decoding (2022)

地址: https://arxiv.org/abs/2211.17192

GPTQ: Accurate Post-Training Quantization for Generative Language Models (2022)

地址: https://arxiv.org/abs/2210.17323

LLaVA: Visual Instruction Tuning (2023)

地址: https://arxiv.org/abs/2304.08485

PaLM 2 / BLOOM / Qwen (Series) (2022-2023)

PaLM 2 地址: https://ai.google/static/documents/palm2techreport.pdf

BLOOM 地址: https://arxiv.org/abs/2211.05100

Qwen 地址: https://arxiv.org/abs/2309.16609

Universal and Transferable Adversarial Attacks on Aligned Language Models (2023)

地址: https://arxiv.org/abs/2307.15043

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training (2023)

地址: https://arxiv.org/abs/2308.01320

前沿探索與新趨勢

Language Models are Unsupervised Multitask Learners (2019)

地址: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

DistilBERT, a distilled version of BERT (2019)

地址: https://arxiv.org/abs/1910.01108

Efficient Transformers (Sparse / Longformer / Reformer / Performers) (2019-2020)

Sparse Transformers 地址: https://arxiv.org/abs/1904.10509

Longformer 地址: https://arxiv.org/abs/2004.05150

Reformer 地址: https://arxiv.org/abs/2001.04451

Performers 地址: https://arxiv.org/abs/2009.14794

SentencePiece: A simple and language independent subword tokenizer (2018)

地址: https://arxiv.org/abs/1808.06226

Generative Agents: Interactive Simulacra of Human Behavior (2023)

地址: https://arxiv.org/abs/2304.03442

Voyager: An Open-Ended Embodied Agent with Large Language Models (2023)

地址: https://arxiv.org/abs/2305.16291

Textbooks Are All You Need (Phi Series) (2023)

地址: https://arxiv.org/abs/2306.11644 (phi-1)

Jamba: A Hybrid Transformer-Mamba Language Model (2024)

地址: https://arxiv.org/abs/2403.19887

WizardLM: Empowering Large Language Models to Follow Complex Instructions (2023)

地址: https://arxiv.org/abs/2304.12244

TinyLlama: An Open-Source Small Language Model (2024)

地址: https://arxiv.org/abs/2401.02385

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)

地址: https://arxiv.org/abs/2501.12948

Train Short, Test Long: Attention with Linear Biases (ALiBi) (2021)

地址: https://arxiv.org/abs/2108.12409

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (2023)

地址: https://arxiv.org/abs/2306.00978

Red Teaming Language Models with Language Models (2022)

地址: https://arxiv.org/abs/2202.03286

Universal Language Model Fine-tuning for Text Classification (ULMFiT) (2018)

地址: https://arxiv.org/abs/1801.06146

XLNet: Generalized Autoregressive Pretraining for Language Understanding (2019)

地址: https://arxiv.org/abs/1906.08237

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation... (2020)

地址: https://aclanthology.org/2020.acl-main.703/

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2020)

地址: https://arxiv.org/abs/2003.10555

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)

地址: https://arxiv.org/abs/2006.16668

MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING (MMLU) (2020)

地址: https://arxiv.org/abs/2009.03300

Beyond the Imitation Game: Quantifying and extrapolating... (BIG-bench) (2022)

地址: https://arxiv.org/abs/2206.04615

Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models... (2023)

地址: https://arxiv.org/abs/2312.12148

DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale (2022)

地址: https://arxiv.org/abs/2207.00032

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.