99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

【阿姆斯特丹博士論文】語言模型與人類理解與行為的對齊

0
分享至


來源:專知

語言模型(LM)在自然語言處理領域取得了顯著進展,但它們仍與人類的理解和行為存在偏差,從而限制了其在現實應用中的有效性。本論文從兩個角度探討了語言模型對齊的問題:其一是使模型的理解與人類對齊,其二是使模型的行為與人類對齊。具體而言,我們圍繞四個關鍵主題展開研究:(i)通過去偏表示學習實現理解對齊;(ii)通過“強對弱”學習實現行為對齊;(iii)通過“弱對強”學習實現行為對齊;(iv)通過測試時行為反思實現行為對齊。

我們首先聚焦于微調過程中的表示對齊,提出了一個能夠減少偏倚潛在特征并捕捉其動態影響的框架,從而提升模型在分布外數據上的泛化能力。接著,在“強對弱”學習的設定下,我們提出了一種行為對齊方法,用于提升知識密集型任務中的完整性、事實性和邏輯性,該方法融合了細粒度與粗粒度的知識信號。隨后,我們研究了“弱對強”對齊的情境,即更強大的語言模型需從較弱的人類監督中學習。為此,我們引入了一種迭代式偏好優化策略,促進“弱教師”與“強學生”之間的互學機制。最后,我們在推理階段關注模型行為的對齊,嘗試緩解語言模型決策中的認知偏差。我們提出了一種包括三個連續步驟的方法——偏差識別、偏差分析與認知去偏——以迭代方式減少提示中的潛在認知偏差。

語言是人類的一項基本認知能力,使我們能夠理解并交流多樣且復雜的概念,這一能力使智人(Homo sapiens)有別于其他所有物種【59, 78, 104, 105, 218】。大約在五千年前,人類發明了書面語言【9, 131】,從而實現了信息在時間與空間上的保存與傳播【93, 288】。在此基礎上,自然語言處理(NLP)作為一個致力于使機器理解與生成自然語言的研究領域逐步發展起來【276】。早期的 NLP 系統主要依賴基于規則的方法,但自然語言本身的復雜性與歧義性帶來了巨大挑戰【110, 188】。近年來,語言模型(LM)取得了突破性進展,這主要得益于 Transformer 神經網絡結構的提出【285】,以及模型規模、數據規模和訓練時長的顯著擴展【134】。

由此誕生的預訓練語言模型(如 BERT【62】和 GPT-4【208】)構成了強大的通用語言理解與生成基礎,可以方便地適配多種自然語言理解(NLU)【26, 272, 312】與自然語言生成(NLG)任務【28, 209, 221】。

強大語言模型的發展通常經歷三個關鍵階段:(i)預訓練:語言模型通過自監督學習在大規模文本語料上進行訓練,從中捕捉語言模式、結構與世界知識【124, 275】,這一階段為語言模型提供了全面的語言與語境理解能力。(ii)微調:通過監督微調與偏好優化,在標注數據集上對預訓練模型進行領域特定的適配【71, 209, 223】,以提升其在特定領域的性能,同時使其行為更符合人類偏好,并具備更強的指令跟隨能力。(iii)提示工程:通過策略性設計任務特定的自然語言提示(prompts),實現對語言模型的調用,而無需修改模型參數【28, 305, 354】。盡管取得了諸多進展,近期研究發現語言模型在語言理解【23, 86, 101】和生成行為【29, 126, 273】方面仍存在對齊偏差,這些問題最終影響其有效性與可靠性。因此,本論文探索語言模型與人類理解及行為的對齊,如圖 1.1 所示,重點關注微調與提示工程階段。

我們首先探討微調階段語言模型與人類理解的對齊。雖然經過微調的語言模型【62, 168】在許多 NLU 基準任務(如自然語言推理,NLI【26, 312】)上取得了優異表現,研究表明這些模型往往依賴數據集中的偏差特征,而非人類真正關心的、與任務相關的語義特征【68, 190, 240】。例如,Gururangan 等人【101】發現,在 NLI 數據集中,語言模型傾向于利用負面詞匯(如 nobody、no、never、nothing)與“矛盾”標簽之間的虛假關聯進行預測,導致模型在缺乏這種偏差的分布外數據上表現不佳。因此,我們旨在開發去偏表示學習方法,以減少表示中的偏差特征,并推動模型編碼更多符合人類意圖的、與任務相關的特征。

接下來我們研究語言模型在微調階段與人類行為的對齊,尤其是在所謂的“強對弱”設定下。該設定的問題在于:經過微調的語言模型在處理復雜的知識密集型問答任務時,常常難以有效利用相關知識【16, 32, 42, 335】。已有研究表明,語言模型可能產生不完整的答案(知識覆蓋不足)【25, 253, 321】,事實錯誤的答案(內容不符合事實)【197, 290, 291】,或邏輯混亂的答案(結構不連貫)【42, 132, 362】。這些問題源于模型在常規微調過程中缺乏對知識的深入理解。為了解決上述問題,我們提出了一種“強對弱”學習方法,以增強模型在微調過程中的細粒度與粗粒度知識感知能力。

隨后,我們進一步探討更具挑戰性的“弱對強”設定下語言模型與人類行為的對齊問題。在這一設定中,目標是用由較弱人類智能體生成的弱標簽,對更強大的語言模型進行微調。隨著微調語言模型在某些任務上逐漸接近甚至超越人類水平【29, 31, 83】,使其行為符合人類價值觀變得愈發緊迫。在語言模型能力超過人類的情境中,我們面臨一個“弱對強”對齊問題:如何用噪聲較大的弱監督信號,去有效對齊更強的模型。因此,我們探索“弱對強”學習方法,推動“弱教師”與“強學生”之間的互學機制,即通過迭代強化模型未熟悉的積極行為,并懲罰其熟悉的消極行為。

最后,我們將注意力轉向測試階段的提示工程,研究如何在該階段實現語言模型行為與人類的對齊。語言模型在輔助決策方面展現出巨大潛力,尤其是在金融、醫療與法律等場景下作為個人助理的應用。雖然提示工程顯著提升了語言模型在決策任務中的能力,但模型內部固有的認知偏差仍構成重大挑戰。認知偏差是決策過程中系統性偏離理性或規范的行為模式,可能導致模型生成不準確的輸出。當前先進的提示設計方法并未充分考慮語言模型中的認知偏差,因此這類偏差削弱了模型在決策任務中的可靠性?;诖?,我們提出一種“測試時行為反思”(test-time behavior reflection)方法,依次執行三個步驟——偏差識別、偏差分析與認知去偏——以迭代方式緩解提示中的潛在認知偏差。

綜上所述,本論文系統探討了在不同場景下語言模型與人類理解與行為的對齊方法。研究結果強調了對齊方法在構建高效、可靠語言模型中的關鍵作用。





閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

林子說事
2025-07-25 19:26:25
原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

歷史縱觀
2025-07-24 22:12:19
0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

侃球熊弟
2025-07-25 23:44:26
知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

藍鯨新聞
2025-07-25 16:03:22
36款熱門車高危智駕場景測試,“團滅”!

36款熱門車高危智駕場景測試,“團滅”!

第一財經資訊
2025-07-25 13:35:25
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

普覽
2025-07-17 19:04:48
考生稱被“廈大馬來分?!闭`錄取,考609分最后選擇復讀

考生稱被“廈大馬來分?!闭`錄取,考609分最后選擇復讀

大象新聞
2025-07-24 20:01:22
涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

南方都市報
2025-07-25 14:44:29
微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

農村情感故事
2025-07-16 13:33:48
克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

趣文說娛
2025-07-24 17:22:53
布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

懂球帝
2025-07-26 00:55:07
馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

雪靈谷
2025-07-24 10:58:07
8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

趣談人物紀
2025-07-23 12:00:03
理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

駕仕派
2025-07-23 13:35:15
火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

埃文凱爾
2025-07-26 00:34:47
陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

狼叔評論
2025-07-26 00:13:10
開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

80后體育大蜀黍
2025-07-25 23:55:26
丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

南海浪花
2025-07-25 08:29:37
大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

奧字侃娛
2025-07-24 15:30:13
2025-07-26 01:51:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37238關注度
往期回顧 全部

教育要聞

TTS新傳論文帶讀:愛考“媒介學”的院校看過來!!胡翼青老師新論文來啦!!!!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

親子
時尚
教育
健康
公開課

親子要聞

小宸哥歷險記之門外有人:不要給陌生人開門

今年夏天一定要有這件衣服,好看又復古!

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 昌宁县| 夏邑县| 同心县| 开阳县| 刚察县| 兴安县| 无锡市| 松原市| 赞皇县| 晋城| 定结县| 襄城县| 无棣县| 博野县| 巴彦淖尔市| 宝清县| 同仁县| 桃园县| 大丰市| 上蔡县| 张家川| 衡阳县| 重庆市| 延津县| 海口市| 宿迁市| 潍坊市| 嘉祥县| 武鸣县| 枣阳市| 宣武区| 巴东县| 万山特区| 平罗县| 积石山| 临安市| 长葛市| 萨迦县| 泾阳县| 志丹县| 航空|