近兩年LLM在學術界與工業界的發展大家都有目共睹。到了今年,以預訓練LLM為代表的大模型PK上半場已然結束,接下來就要進入下半場大模型2.0時代了。
那么在這新賽道,關于大模型我們還有什么可做的創新?要知道,如今的大模型研究已經從單純的"規模競賽"轉向"效能突破"與"應用重構",研究者們致力于構建可持續進化的智能生態系統。因此,多模態大模型、智能體agent等這類圍繞大模型技術演進核心矛盾的方向尤其值得關注。
為了幫助大家了解LLM技術進展,同時也給論文er做一些創新點推薦,這次我從輸入、模型/范式、輸出3個方面整理了203篇大模型前沿論文,包含熱門的RAG、LLM推理等方向,基本都有開源代碼方便復現,希望可以給各位的論文添磚加瓦。
掃碼添加小享,回復“2025大模型”
免費獲取全部論文+源碼
輸入 TrustRAG: Enhancing Robustness and Trustworthiness in RAG
方法:論文提出了 TrustRAG,一個用于增強檢索增強生成系統魯棒性和可信度的框架,通過 K-means 聚類過濾潛在惡意文檔,并結合語言模型的內部知識與外部信息進行沖突解決和自評估,生成準確可信的回答。
創新點:
通過K-means聚類結合余弦相似度與ROUGE指標,高效識別過濾惡意文檔,顯著降低攻擊成功率。
融合語言模型內部知識與外部文檔,通過自評估機制解決沖突,提升回答準確性與可信度。
無需訓練,可靈活集成至任意語言模型,多數據集驗證其防御效果優越。

方法:論文提出了一種新的在線強化學習框架StepGRPO,通過引入逐步推理獎勵機制,幫助多模態大模型提升推理能力。它利用軟關鍵步驟匹配和邏輯評估為推理過程提供密集獎勵,解決了傳統方法中獎勵稀疏的問題,從而讓模型更好地理解和生成推理路徑。
創新點:
提出了一種新的在線強化學習框架StepGRPO,專門用于提升多模態大模型的推理能力。
引入了兩種基于規則的逐步推理獎勵機制:StepRAR 和StepRVR,分別獎勵包含關鍵中間步驟和邏輯一致的推理路徑。
通過組內相對優化和密集獎勵信號,解決了傳統方法中獎勵稀疏的問題,顯著提升了模型的推理性能。

掃碼添加小享,回復“2025大模型”
免費獲取全部論文+源碼
TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and Agent Generation
方法:論文提出了一種用于解決復雜現實任務的多智能體方法,通過動態地將復雜任務分解為更小的子任務,并為每個子任務生成專門的子智能體,從而提高智能體在多樣化和不可預測現實任務中的適應性和上下文感知能力。
創新點:
提出了基于動態任務分解和智能體生成的多智能體框架TDAG,動態分解任務并生成子智能體,提升復雜任務適應性。
構建ItineraryBench基準,能夠更準確地評估智能體在復雜多步驟任務中的表現。
實驗驗證了TDAG框架在ItineraryBench上的有效性,顯著優于現有基線方法。

方法:論文提出了一種基于“空中計算”的分布式設備上大模型推理框架,通過利用無線多址信道的模擬疊加特性來加速張量并行化中的頻繁全歸約操作,從而顯著降低推理延遲并提高準確性,使資源受限的邊緣設備能夠高效地進行大模型推理。
創新點:
提出基于“空中計算”的分布式大模型推理框架,利用無線信道模擬疊加特性加速張量并行全歸約,顯著降低通信開銷。
針對傳輸誤差,設計聯合模型分配與收發器優化方法,建模為混合時間尺度隨機非凸問題,結合SDR與SCA算法求解。
仿真實驗表明,該方法有效降低推理延遲、提升準確性,證實其在資源受限邊緣設備上的實用可行性。

掃碼添加小享,回復“2025大模型”
免費獲取全部論文+源碼
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.