85篇大模型論文，合集！附:項目代碼

2025-06-18 11:36:53　來源: 機器學習與Python社區(qū)

北京舉報

分享至

大模型有多火，自不必多說，但是想發(fā)論文完全沒頭緒？那你一定不要錯過這6個，備受頂會青睞的方向！

LLM+合成數(shù)據(jù)：當下的新興方向，還不算卷。其緩解了大模型依賴海量數(shù)據(jù)，而諸多真實數(shù)據(jù)難獲取等問題。各類O1模型，已驗證了其有效性。

LLM+獎勵模型：當下的迫切需求！大模型生成的毒性內(nèi)容、幻覺等問題嚴重影響落地，而獎勵模型雖對提升對齊效果作用顯著，但目前泛化能力都很弱，難以應(yīng)對復(fù)雜任務(wù)。可以關(guān)注代理型獎勵模型、自我反思獎勵模型……

大模型推理：在學術(shù)界和工業(yè)界都是熱門，可發(fā)揮空間很大。Scaling Law、在線強化學習等都值得探索。

長文本：目前數(shù)據(jù)質(zhì)量、位置編碼、工程優(yōu)化等是重點。

LLM-as-a Judge：用大模型進行打分、排序、篩選等，能參與的環(huán)節(jié)很多，像是數(shù)據(jù)合成、增強；模型訓練、評估等。

安全對齊：確保大模型與人類的價值觀、倫理規(guī)范一致，目前還在起步，同時也有政策壓力，創(chuàng)新機會多。

為方便大家研究的進行，每個方向，我都給大家準備了創(chuàng)新思路和源碼，共85種，一起來看！

掃描下方二維碼，回復(fù)「85LLM」

免費獲取全部論文合集及項目代碼

LLM+合成數(shù)據(jù)

GPT-FL: Generative Pre-trained Model-Assisted Federated Learning

內(nèi)容：本文提出了一種名為 GPT-FL 的生成式預(yù)訓練模型輔助的聯(lián)邦學習框架，旨在通過利用生成式預(yù)訓練模型生成多樣化的合成數(shù)據(jù)來提升聯(lián)邦學習的性能。這些合成數(shù)據(jù)被用于在服務(wù)器上集中訓練下游模型，然后在標準聯(lián)邦學習框架下用私有客戶端數(shù)據(jù)進行微調(diào)。實驗表明，GPT-FL 在模型測試精度、通信效率和客戶端采樣效率方面均優(yōu)于現(xiàn)有的聯(lián)邦學習方法，并且無論目標數(shù)據(jù)是否在預(yù)訓練生成模型的領(lǐng)域內(nèi)，都能顯著提升性能。

LLM獎勵模型

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

內(nèi)容：本文提出了一種名為“代理獎勵建模”的獎勵系統(tǒng)，旨在將人類偏好與可驗證的正確性信號相結(jié)合，以提高大型語言模型（LLMs）的獎勵模型（RMs）的可靠性。作者實現(xiàn)了一個名為REWARDAGENT的獎勵代理，通過整合人類偏好獎勵和兩個可驗證信號（事實性和指令遵循性）來提供更可靠的獎勵。實驗表明，REWARDAGENT在現(xiàn)有的獎勵模型基準測試和真實世界的下游任務(wù)中均顯著優(yōu)于傳統(tǒng)的獎勵模型，并且能夠有效提升LLMs在各種自然語言處理基準測試中的性能。

LLM推理

VIDEOTREE: Adaptive Tree-based Video Representation for LLMReasoning on Long Videos

內(nèi)容：本文提出了一種名為 vIDEOTREE的框架，用于在長視頻上為大型語言模型（LLM）推理構(gòu)建自適應(yīng)的樹形視頻表示。該框架通過迭代提取與查詢相關(guān)的視頻信息，形成層次化的視頻表示，從而提高長視頻理解的效率和準確性。具體而言，VIDEOTREE 首先通過視覺聚類、關(guān)鍵幀字幕生成和相關(guān)性評分等步驟動態(tài)選擇與查詢相關(guān)的關(guān)鍵幀，然后利用層次化結(jié)構(gòu)逐步細化信息，最終將提取的信息輸入 LLM 進行推理。實驗表明，該方法在多個長視頻問答數(shù)據(jù)集上優(yōu)于現(xiàn)有的無訓練方法，并且在推理效率和準確性上均表現(xiàn)出色。

長文本

OMNIKV: DYNAMIC CONTEXT SELECTION FOR EFFI CIENT LONG-CONTEXT LLMS

內(nèi)容：本文提出了 OmniKV，這是一種針對長文本場景下的大型語言模型（LLM）推理的高效方法，能夠在不損失性能的情況下顯著減少 GPU 內(nèi)存占用并加速解碼效率。OmniKV 通過利用層間注意力相似性和動態(tài)上下文選擇機制，避免了傳統(tǒng)方法中基于注意力分數(shù)丟棄不重要標記的做法，從而在多步推理場景中保持了關(guān)鍵信息的完整性。實驗表明，OmniKV 在多個基準測試中均取得了最佳性能，尤其是在多步推理任務(wù)中表現(xiàn)突出，并且能夠在單個 A100 GPU 上擴展 Llama-3-8B 的最大上下文長度從 128K 提高到 450K。

掃描下方二維碼，回復(fù)「85LLM」

免費獲取全部論文合集及項目代碼

LLM-as-a-Judge

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

內(nèi)容：本文提出了MLLM-as-a-Judge，這是一個用于評估多模態(tài)大型語言模型（MLLM）在視覺-語言任務(wù)中作為評判者能力的新基準。研究者們從圖像配對、模型響應(yīng)收集到人類標注對比等多個步驟構(gòu)建了該基準，并在評分評估、成對比較和批量排序三個任務(wù)中測試了 11 種主流 MLLM 的表現(xiàn)。結(jié)果顯示，盡管 MLLM 在成對比較任務(wù)中與人類偏好較為接近，但在評分評估和批量排序任務(wù)中存在顯著差異，且存在自我偏好、位置偏好、長度偏好等偏差問題。此外，研究還發(fā)現(xiàn)多步推理鏈（CoT）方法并未提升模型作為評判者的性能，而提供詳細的圖像描述可以顯著提升傳統(tǒng) LLM 在多模態(tài)任務(wù)中的評判表現(xiàn)。

安全對齊

Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models

內(nèi)容：文章提出在微調(diào)大型語言模型（LLMs）時面臨的安全風險，以及如何量化和評估這些風險。包括風險類型，分析在微調(diào)過程中可能出現(xiàn)的風險，例如模型生成有害內(nèi)容、隱私泄露、對抗攻擊等和風險量化方法，用于衡量這些風險的具體指標和方法，幫助研究人員和開發(fā)者更好地理解和管理風險。

掃描下方二維碼，回復(fù)「85LLM」

免費獲取全部論文合集及項目代碼

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.