大模型有多火,自不必多說,但是想發(fā)論文完全沒頭緒?那你一定不要錯過這6個,備受頂會青睞的方向!
LLM+合成數(shù)據(jù):當下的新興方向,還不算卷。其緩解了大模型依賴海量數(shù)據(jù),而諸多真實數(shù)據(jù)難獲取等問題。各類O1模型,已驗證了其有效性。
LLM+獎勵模型:當下的迫切需求!大模型生成的毒性內(nèi)容、幻覺等問題嚴重影響落地,而獎勵模型雖對提升對齊效果作用顯著,但目前泛化能力都很弱,難以應(yīng)對復(fù)雜任務(wù)。可以關(guān)注代理型獎勵模型、自我反思獎勵模型……
大模型推理:在學術(shù)界和工業(yè)界都是熱門,可發(fā)揮空間很大。Scaling Law、在線強化學習等都值得探索。
長文本:目前數(shù)據(jù)質(zhì)量、位置編碼、工程優(yōu)化等是重點。
LLM-as-a Judge:用大模型進行打分、排序、篩選等,能參與的環(huán)節(jié)很多,像是數(shù)據(jù)合成、增強;模型訓練、評估等。
安全對齊:確保大模型與人類的價值觀、倫理規(guī)范一致,目前還在起步,同時也有政策壓力,創(chuàng)新機會多。
為方便大家研究的進行,每個方向,我都給大家準備了創(chuàng)新思路和源碼,共85種,一起來看!
掃描下方二維碼,回復(fù)「85LLM」
免費獲取全部論文合集及項目代碼
LLM+合成數(shù)據(jù)
GPT-FL: Generative Pre-trained Model-Assisted Federated Learning
內(nèi)容:本文提出了一種名為 GPT-FL 的生成式預(yù)訓練模型輔助的聯(lián)邦學習框架,旨在通過利用生成式預(yù)訓練模型生成多樣化的合成數(shù)據(jù)來提升聯(lián)邦學習的性能。這些合成數(shù)據(jù)被用于在服務(wù)器上集中訓練下游模型,然后在標準聯(lián)邦學習框架下用私有客戶端數(shù)據(jù)進行微調(diào)。實驗表明,GPT-FL 在模型測試精度、通信效率和客戶端采樣效率方面均優(yōu)于現(xiàn)有的聯(lián)邦學習方法,并且無論目標數(shù)據(jù)是否在預(yù)訓練生成模型的領(lǐng)域內(nèi),都能顯著提升性能。
LLM獎勵模型
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
內(nèi)容:本文提出了一種名為“代理獎勵建模”的獎勵系統(tǒng),旨在將人類偏好與可驗證的正確性信號相結(jié)合,以提高大型語言模型(LLMs)的獎勵模型(RMs)的可靠性。作者實現(xiàn)了一個名為REWARDAGENT的獎勵代理,通過整合人類偏好獎勵和兩個可驗證信號(事實性和指令遵循性)來提供更可靠的獎勵。實驗表明,REWARDAGENT在現(xiàn)有的獎勵模型基準測試和真實世界的下游任務(wù)中均顯著優(yōu)于傳統(tǒng)的獎勵模型,并且能夠有效提升LLMs在各種自然語言處理基準測試中的性能。
LLM推理
VIDEOTREE: Adaptive Tree-based Video Representation for LLMReasoning on Long Videos
內(nèi)容:本文提出了一種名為 vIDEOTREE的框架,用于在長視頻上為大型語言模型(LLM)推理構(gòu)建自適應(yīng)的樹形視頻表示。該框架通過迭代提取與查詢相關(guān)的視頻信息,形成層次化的視頻表示,從而提高長視頻理解的效率和準確性。具體而言,VIDEOTREE 首先通過視覺聚類、關(guān)鍵幀字幕生成和相關(guān)性評分等步驟動態(tài)選擇與查詢相關(guān)的關(guān)鍵幀,然后利用層次化結(jié)構(gòu)逐步細化信息,最終將提取的信息輸入 LLM 進行推理。實驗表明,該方法在多個長視頻問答數(shù)據(jù)集上優(yōu)于現(xiàn)有的無訓練方法,并且在推理效率和準確性上均表現(xiàn)出色。
長文本
OMNIKV: DYNAMIC CONTEXT SELECTION FOR EFFI CIENT LONG-CONTEXT LLMS
內(nèi)容:本文提出了 OmniKV,這是一種針對長文本場景下的大型語言模型(LLM)推理的高效方法,能夠在不損失性能的情況下顯著減少 GPU 內(nèi)存占用并加速解碼效率。OmniKV 通過利用層間注意力相似性和動態(tài)上下文選擇機制,避免了傳統(tǒng)方法中基于注意力分數(shù)丟棄不重要標記的做法,從而在多步推理場景中保持了關(guān)鍵信息的完整性。實驗表明,OmniKV 在多個基準測試中均取得了最佳性能,尤其是在多步推理任務(wù)中表現(xiàn)突出,并且能夠在單個 A100 GPU 上擴展 Llama-3-8B 的最大上下文長度從 128K 提高到 450K。
掃描下方二維碼,回復(fù)「85LLM」
免費獲取全部論文合集及項目代碼
LLM-as-a-Judge
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
內(nèi)容:本文提出了MLLM-as-a-Judge,這是一個用于評估多模態(tài)大型語言模型(MLLM)在視覺-語言任務(wù)中作為評判者能力的新基準。研究者們從圖像配對、模型響應(yīng)收集到人類標注對比等多個步驟構(gòu)建了該基準,并在評分評估、成對比較和批量排序三個任務(wù)中測試了 11 種主流 MLLM 的表現(xiàn)。結(jié)果顯示,盡管 MLLM 在成對比較任務(wù)中與人類偏好較為接近,但在評分評估和批量排序任務(wù)中存在顯著差異,且存在自我偏好、位置偏好、長度偏好等偏差問題。此外,研究還發(fā)現(xiàn)多步推理鏈(CoT)方法并未提升模型作為評判者的性能,而提供詳細的圖像描述可以顯著提升傳統(tǒng) LLM 在多模態(tài)任務(wù)中的評判表現(xiàn)。
安全對齊
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models
內(nèi)容:文章提出在微調(diào)大型語言模型(LLMs)時面臨的安全風險,以及如何量化和評估這些風險。包括風險類型,分析在微調(diào)過程中可能出現(xiàn)的風險,例如模型生成有害內(nèi)容、隱私泄露、對抗攻擊等和風險量化方法,用于衡量這些風險的具體指標和方法,幫助研究人員和開發(fā)者更好地理解和管理風險。
掃描下方二維碼,回復(fù)「85LLM」
免費獲取全部論文合集及項目代碼
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.