網易首頁 > 網易號 > 正文申請入駐

【阿姆斯特丹博士論文】語言模型與人類理解與行為的對齊

2025-07-20 17:06:03　來源: 人工智能學家

北京舉報

分享至

來源：專知

語言模型（LM）在自然語言處理領域取得了顯著進展，但它們仍與人類的理解和行為存在偏差，從而限制了其在現實應用中的有效性。本論文從兩個角度探討了語言模型對齊的問題：其一是使模型的理解與人類對齊，其二是使模型的行為與人類對齊。具體而言，我們圍繞四個關鍵主題展開研究：（i）通過去偏表示學習實現理解對齊；（ii）通過“強對弱”學習實現行為對齊；（iii）通過“弱對強”學習實現行為對齊；（iv）通過測試時行為反思實現行為對齊。

我們首先聚焦于微調過程中的表示對齊，提出了一個能夠減少偏倚潛在特征并捕捉其動態影響的框架，從而提升模型在分布外數據上的泛化能力。接著，在“強對弱”學習的設定下，我們提出了一種行為對齊方法，用于提升知識密集型任務中的完整性、事實性和邏輯性，該方法融合了細粒度與粗粒度的知識信號。隨后，我們研究了“弱對強”對齊的情境，即更強大的語言模型需從較弱的人類監督中學習。為此，我們引入了一種迭代式偏好優化策略，促進“弱教師”與“強學生”之間的互學機制。最后，我們在推理階段關注模型行為的對齊，嘗試緩解語言模型決策中的認知偏差。我們提出了一種包括三個連續步驟的方法——偏差識別、偏差分析與認知去偏——以迭代方式減少提示中的潛在認知偏差。

語言是人類的一項基本認知能力，使我們能夠理解并交流多樣且復雜的概念，這一能力使智人（Homo sapiens）有別于其他所有物種【59, 78, 104, 105, 218】。大約在五千年前，人類發明了書面語言【9, 131】，從而實現了信息在時間與空間上的保存與傳播【93, 288】。在此基礎上，自然語言處理（NLP）作為一個致力于使機器理解與生成自然語言的研究領域逐步發展起來【276】。早期的 NLP 系統主要依賴基于規則的方法，但自然語言本身的復雜性與歧義性帶來了巨大挑戰【110, 188】。近年來，語言模型（LM）取得了突破性進展，這主要得益于 Transformer 神經網絡結構的提出【285】，以及模型規模、數據規模和訓練時長的顯著擴展【134】。

由此誕生的預訓練語言模型（如 BERT【62】和 GPT-4【208】）構成了強大的通用語言理解與生成基礎，可以方便地適配多種自然語言理解（NLU）【26, 272, 312】與自然語言生成（NLG）任務【28, 209, 221】。

強大語言模型的發展通常經歷三個關鍵階段：（i）預訓練：語言模型通過自監督學習在大規模文本語料上進行訓練，從中捕捉語言模式、結構與世界知識【124, 275】，這一階段為語言模型提供了全面的語言與語境理解能力。（ii）微調：通過監督微調與偏好優化，在標注數據集上對預訓練模型進行領域特定的適配【71, 209, 223】，以提升其在特定領域的性能，同時使其行為更符合人類偏好，并具備更強的指令跟隨能力。（iii）提示工程：通過策略性設計任務特定的自然語言提示（prompts），實現對語言模型的調用，而無需修改模型參數【28, 305, 354】。盡管取得了諸多進展，近期研究發現語言模型在語言理解【23, 86, 101】和生成行為【29, 126, 273】方面仍存在對齊偏差，這些問題最終影響其有效性與可靠性。因此，本論文探索語言模型與人類理解及行為的對齊，如圖 1.1 所示，重點關注微調與提示工程階段。

我們首先探討微調階段語言模型與人類理解的對齊。雖然經過微調的語言模型【62, 168】在許多 NLU 基準任務（如自然語言推理，NLI【26, 312】）上取得了優異表現，研究表明這些模型往往依賴數據集中的偏差特征，而非人類真正關心的、與任務相關的語義特征【68, 190, 240】。例如，Gururangan 等人【101】發現，在 NLI 數據集中，語言模型傾向于利用負面詞匯（如 nobody、no、never、nothing）與“矛盾”標簽之間的虛假關聯進行預測，導致模型在缺乏這種偏差的分布外數據上表現不佳。因此，我們旨在開發去偏表示學習方法，以減少表示中的偏差特征，并推動模型編碼更多符合人類意圖的、與任務相關的特征。

接下來我們研究語言模型在微調階段與人類行為的對齊，尤其是在所謂的“強對弱”設定下。該設定的問題在于：經過微調的語言模型在處理復雜的知識密集型問答任務時，常常難以有效利用相關知識【16, 32, 42, 335】。已有研究表明，語言模型可能產生不完整的答案（知識覆蓋不足）【25, 253, 321】，事實錯誤的答案（內容不符合事實）【197, 290, 291】，或邏輯混亂的答案（結構不連貫）【42, 132, 362】。這些問題源于模型在常規微調過程中缺乏對知識的深入理解。為了解決上述問題，我們提出了一種“強對弱”學習方法，以增強模型在微調過程中的細粒度與粗粒度知識感知能力。

隨后，我們進一步探討更具挑戰性的“弱對強”設定下語言模型與人類行為的對齊問題。在這一設定中，目標是用由較弱人類智能體生成的弱標簽，對更強大的語言模型進行微調。隨著微調語言模型在某些任務上逐漸接近甚至超越人類水平【29, 31, 83】，使其行為符合人類價值觀變得愈發緊迫。在語言模型能力超過人類的情境中，我們面臨一個“弱對強”對齊問題：如何用噪聲較大的弱監督信號，去有效對齊更強的模型。因此，我們探索“弱對強”學習方法，推動“弱教師”與“強學生”之間的互學機制，即通過迭代強化模型未熟悉的積極行為，并懲罰其熟悉的消極行為。

最后，我們將注意力轉向測試階段的提示工程，研究如何在該階段實現語言模型行為與人類的對齊。語言模型在輔助決策方面展現出巨大潛力，尤其是在金融、醫療與法律等場景下作為個人助理的應用。雖然提示工程顯著提升了語言模型在決策任務中的能力，但模型內部固有的認知偏差仍構成重大挑戰。認知偏差是決策過程中系統性偏離理性或規范的行為模式，可能導致模型生成不準確的輸出。當前先進的提示設計方法并未充分考慮語言模型中的認知偏差，因此這類偏差削弱了模型在決策任務中的可靠性?；诖?，我們提出一種“測試時行為反思”（test-time behavior reflection）方法，依次執行三個步驟——偏差識別、偏差分析與認知去偏——以迭代方式緩解提示中的潛在認知偏差。

綜上所述，本論文系統探討了在不同場景下語言模型與人類理解與行為的對齊方法。研究結果強調了對齊方法在構建高效、可靠語言模型中的關鍵作用。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.