99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

【阿姆斯特丹博士論文】語言模型與人類理解與行為的對齊

0
分享至


來源:專知

語言模型(LM)在自然語言處理領域取得了顯著進展,但它們仍與人類的理解和行為存在偏差,從而限制了其在現實應用中的有效性。本論文從兩個角度探討了語言模型對齊的問題:其一是使模型的理解與人類對齊,其二是使模型的行為與人類對齊。具體而言,我們圍繞四個關鍵主題展開研究:(i)通過去偏表示學習實現理解對齊;(ii)通過“強對弱”學習實現行為對齊;(iii)通過“弱對強”學習實現行為對齊;(iv)通過測試時行為反思實現行為對齊。

我們首先聚焦于微調過程中的表示對齊,提出了一個能夠減少偏倚潛在特征并捕捉其動態影響的框架,從而提升模型在分布外數據上的泛化能力。接著,在“強對弱”學習的設定下,我們提出了一種行為對齊方法,用于提升知識密集型任務中的完整性、事實性和邏輯性,該方法融合了細粒度與粗粒度的知識信號。隨后,我們研究了“弱對強”對齊的情境,即更強大的語言模型需從較弱的人類監督中學習。為此,我們引入了一種迭代式偏好優化策略,促進“弱教師”與“強學生”之間的互學機制。最后,我們在推理階段關注模型行為的對齊,嘗試緩解語言模型決策中的認知偏差。我們提出了一種包括三個連續步驟的方法——偏差識別、偏差分析與認知去偏——以迭代方式減少提示中的潛在認知偏差。

語言是人類的一項基本認知能力,使我們能夠理解并交流多樣且復雜的概念,這一能力使智人(Homo sapiens)有別于其他所有物種【59, 78, 104, 105, 218】。大約在五千年前,人類發明了書面語言【9, 131】,從而實現了信息在時間與空間上的保存與傳播【93, 288】。在此基礎上,自然語言處理(NLP)作為一個致力于使機器理解與生成自然語言的研究領域逐步發展起來【276】。早期的 NLP 系統主要依賴基于規則的方法,但自然語言本身的復雜性與歧義性帶來了巨大挑戰【110, 188】。近年來,語言模型(LM)取得了突破性進展,這主要得益于 Transformer 神經網絡結構的提出【285】,以及模型規模、數據規模和訓練時長的顯著擴展【134】。

由此誕生的預訓練語言模型(如 BERT【62】和 GPT-4【208】)構成了強大的通用語言理解與生成基礎,可以方便地適配多種自然語言理解(NLU)【26, 272, 312】與自然語言生成(NLG)任務【28, 209, 221】。

強大語言模型的發展通常經歷三個關鍵階段:(i)預訓練:語言模型通過自監督學習在大規模文本語料上進行訓練,從中捕捉語言模式、結構與世界知識【124, 275】,這一階段為語言模型提供了全面的語言與語境理解能力。(ii)微調:通過監督微調與偏好優化,在標注數據集上對預訓練模型進行領域特定的適配【71, 209, 223】,以提升其在特定領域的性能,同時使其行為更符合人類偏好,并具備更強的指令跟隨能力。(iii)提示工程:通過策略性設計任務特定的自然語言提示(prompts),實現對語言模型的調用,而無需修改模型參數【28, 305, 354】。盡管取得了諸多進展,近期研究發現語言模型在語言理解【23, 86, 101】和生成行為【29, 126, 273】方面仍存在對齊偏差,這些問題最終影響其有效性與可靠性。因此,本論文探索語言模型與人類理解及行為的對齊,如圖 1.1 所示,重點關注微調與提示工程階段。

我們首先探討微調階段語言模型與人類理解的對齊。雖然經過微調的語言模型【62, 168】在許多 NLU 基準任務(如自然語言推理,NLI【26, 312】)上取得了優異表現,研究表明這些模型往往依賴數據集中的偏差特征,而非人類真正關心的、與任務相關的語義特征【68, 190, 240】。例如,Gururangan 等人【101】發現,在 NLI 數據集中,語言模型傾向于利用負面詞匯(如 nobody、no、never、nothing)與“矛盾”標簽之間的虛假關聯進行預測,導致模型在缺乏這種偏差的分布外數據上表現不佳。因此,我們旨在開發去偏表示學習方法,以減少表示中的偏差特征,并推動模型編碼更多符合人類意圖的、與任務相關的特征。

接下來我們研究語言模型在微調階段與人類行為的對齊,尤其是在所謂的“強對弱”設定下。該設定的問題在于:經過微調的語言模型在處理復雜的知識密集型問答任務時,常常難以有效利用相關知識【16, 32, 42, 335】。已有研究表明,語言模型可能產生不完整的答案(知識覆蓋不足)【25, 253, 321】,事實錯誤的答案(內容不符合事實)【197, 290, 291】,或邏輯混亂的答案(結構不連貫)【42, 132, 362】。這些問題源于模型在常規微調過程中缺乏對知識的深入理解。為了解決上述問題,我們提出了一種“強對弱”學習方法,以增強模型在微調過程中的細粒度與粗粒度知識感知能力。

隨后,我們進一步探討更具挑戰性的“弱對強”設定下語言模型與人類行為的對齊問題。在這一設定中,目標是用由較弱人類智能體生成的弱標簽,對更強大的語言模型進行微調。隨著微調語言模型在某些任務上逐漸接近甚至超越人類水平【29, 31, 83】,使其行為符合人類價值觀變得愈發緊迫。在語言模型能力超過人類的情境中,我們面臨一個“弱對強”對齊問題:如何用噪聲較大的弱監督信號,去有效對齊更強的模型。因此,我們探索“弱對強”學習方法,推動“弱教師”與“強學生”之間的互學機制,即通過迭代強化模型未熟悉的積極行為,并懲罰其熟悉的消極行為。

最后,我們將注意力轉向測試階段的提示工程,研究如何在該階段實現語言模型行為與人類的對齊。語言模型在輔助決策方面展現出巨大潛力,尤其是在金融、醫療與法律等場景下作為個人助理的應用。雖然提示工程顯著提升了語言模型在決策任務中的能力,但模型內部固有的認知偏差仍構成重大挑戰。認知偏差是決策過程中系統性偏離理性或規范的行為模式,可能導致模型生成不準確的輸出。當前先進的提示設計方法并未充分考慮語言模型中的認知偏差,因此這類偏差削弱了模型在決策任務中的可靠性。基于此,我們提出一種“測試時行為反思”(test-time behavior reflection)方法,依次執行三個步驟——偏差識別、偏差分析與認知去偏——以迭代方式緩解提示中的潛在認知偏差。

綜上所述,本論文系統探討了在不同場景下語言模型與人類理解與行為的對齊方法。研究結果強調了對齊方法在構建高效、可靠語言模型中的關鍵作用。





閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
時機已到,該收拾馮德萊恩了!中國一道禁令封鎖,決定殺雞儆猴

時機已到,該收拾馮德萊恩了!中國一道禁令封鎖,決定殺雞儆猴

別人都叫我阿腈
2025-07-20 08:57:58
央視夸完就翻車!AI公司解散員工與中國切割,帶核心技術轉移國外

央視夸完就翻車!AI公司解散員工與中國切割,帶核心技術轉移國外

青煙小先生
2025-07-19 16:25:01
國民黨的底牌露出來了,朱立倫公開叫板大陸,馬英九表態讓人失望

國民黨的底牌露出來了,朱立倫公開叫板大陸,馬英九表態讓人失望

放開他讓wo來
2025-07-19 09:35:56
郎咸平評宗家遺產爭奪:杜建英水平太臭,三子女可能不是宗慶后的

郎咸平評宗家遺產爭奪:杜建英水平太臭,三子女可能不是宗慶后的

南宗歷史
2025-07-19 00:05:23
臺風“韋帕”跑偏!新一輪暴雨大暴雨轉移,19~20降雨分布如下

臺風“韋帕”跑偏!新一輪暴雨大暴雨轉移,19~20降雨分布如下

娛樂圈見解說
2025-07-20 10:34:29
時機已到,該收拾馮德萊恩了!中國一道禁令封鎖,必須殺雞儆猴

時機已到,該收拾馮德萊恩了!中國一道禁令封鎖,必須殺雞儆猴

視聽故事局
2025-07-19 16:57:41
A股半年預揭秘:超40%企業預盈,下半年投資機會你不可錯過!

A股半年預揭秘:超40%企業預盈,下半年投資機會你不可錯過!

聞號說經濟
2025-07-20 12:06:12
“最帥和尚”金漢杰,曾是浙江公務員,出家后被富婆花400萬求婚

“最帥和尚”金漢杰,曾是浙江公務員,出家后被富婆花400萬求婚

三公子娛樂丫
2025-07-17 18:20:02
世界最大水電工程開工!中國打出的,不止是一座水電站!

世界最大水電工程開工!中國打出的,不止是一座水電站!

西域都護
2025-07-20 10:12:19
探花里出現過的女生,哪一個才是yyds?哪一個是真情流露享受的?

探花里出現過的女生,哪一個才是yyds?哪一個是真情流露享受的?

說真話的小陳
2025-07-20 14:48:27
印度“學乖了”,雅魯藏布江開工,莫迪一聲不吭,美要失望了

印度“學乖了”,雅魯藏布江開工,莫迪一聲不吭,美要失望了

南宮一二
2025-07-20 09:15:49
看完電視劇《長安的荔枝》,再看電影,想說:沒有對比就沒有傷害

看完電視劇《長安的荔枝》,再看電影,想說:沒有對比就沒有傷害

小丸子的娛樂圈
2025-07-18 10:09:05
福建艦萬事俱備,八一入列?突然殺出一個“四川艦”,誰也沒料到

福建艦萬事俱備,八一入列?突然殺出一個“四川艦”,誰也沒料到

智觀科技
2025-07-19 12:14:06
蒙古國墮落成“性旅游業”大國?建國已經百年,為何越混越慘?

蒙古國墮落成“性旅游業”大國?建國已經百年,為何越混越慘?

柳絮憶史
2025-07-17 14:28:56
太難了!深圳一注冊1400多萬工廠被迫搬至東莞,未提及員工補償

太難了!深圳一注冊1400多萬工廠被迫搬至東莞,未提及員工補償

火山詩話
2025-07-19 13:15:34
斯基拉:迪亞斯即將以7500萬歐轉會至拜仁,合同將到2030年

斯基拉:迪亞斯即將以7500萬歐轉會至拜仁,合同將到2030年

懂球帝
2025-07-20 18:35:09
章子怡一覺醒來天塌了!知名導演曝一線女星耍大牌,網友細扒炸鍋

章子怡一覺醒來天塌了!知名導演曝一線女星耍大牌,網友細扒炸鍋

失寵的小野豬
2025-07-20 19:41:55
2019年岳父滅女婿滿門,女兒寫下諒解書繼承家產,三年后執行死刑

2019年岳父滅女婿滿門,女兒寫下諒解書繼承家產,三年后執行死刑

談史論天地
2025-05-31 16:05:02
廣東一高??胺Q爆冷之王,缺額超6300人,個別專業組竟無人報考

廣東一高??胺Q爆冷之王,缺額超6300人,個別專業組竟無人報考

百家論大學
2025-07-20 14:00:02
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
2025-07-20 21:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4033文章數 37236關注度
往期回顧 全部

教育要聞

中國郵儲銀行山東分行2025校園招聘錄用250人,山東女子第一

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

健康
藝術
本地
家居
房產

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

家居要聞

簡構智居 現代功能美學

房產要聞

海南中學江東校區學區劃片重磅出爐!這些項目贏麻了!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临桂县| 陆良县| 滦平县| 武汉市| 仙游县| 福清市| 通江县| 治县。| 资兴市| 高雄县| 财经| 安龙县| 嘉兴市| 色达县| 汽车| 伽师县| 武乡县| 建宁县| 塔河县| 苍山县| 海阳市| 神农架林区| 漾濞| 岢岚县| 蚌埠市| 弋阳县| 湘阴县| 吴川市| 安化县| 东乌珠穆沁旗| 淮阳县| 松溪县| 横峰县| 长阳| 轮台县| 武冈市| 宝山区| 绿春县| 铜梁县| 通城县| 微山县|