99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

北大發布首篇大語言模型心理測量學系統綜述:評估、驗證、增強

0
分享至



隨著大語言模型(LLM)能力的快速迭代,傳統評估方法已難以滿足需求。如何科學評估 LLM 的「心智」特征,例如價值觀、性格和社交智能?如何建立更全面、更可靠的 AI 評估體系?北京大學宋國杰教授團隊最新綜述論文(共 63 頁,包含 500 篇引文),首次嘗試系統性梳理答案。



  • 論文標題:Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
  • 論文鏈接:https://arxiv.org/abs/2505.08245
  • 項目主頁:https://llm-psychometrics.com
  • 資源倉庫:https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics

背景

大語言模型(LLMs)的出現,推動了人工智能技術的快速發展。它們在自然語言理解和生成等方面表現出較強的通用能力,并已廣泛應用于聊天機器人、智能搜索、醫療、教育、科研等多個領域。AI 正逐步成為社會基礎設施的重要組成部分。

與此同時,如何科學、嚴謹地評估這些能力不斷提升的 AI 系統,成為亟需解決的問題。 LLM 評估面臨的挑戰包括但不限于:

  • LLMs 展現出的「心智」特征(如性格、價值觀、認知偏差等)超出了傳統評測的覆蓋范圍;
  • 模型的快速迭代和訓練數據的持續更新,使得靜態基準測試難以長期適用;
  • LLMs 對提示和上下文高度敏感,評估結果易受細微變化影響,難以保證結果的穩定性和有效性;
  • 隨著 AI 與人類交互的日益深入,單純依賴任務分數的評估方式已難以滿足「以人為本」的需求;
  • AI 逐步應用于多模態和智能體系統,對評估方法的廣度和深度提出了更高要求。

這些挑戰與心理測量學長期關注的核心問題高度契合:如何科學量化和理解復雜、抽象的心理特質(如知識、技能、性格、價值觀等)。心理測量學通過將這些特質轉化為可量化的數據,為教育、醫療、商業和治理等領域的決策提供支持。

將心理測量學的理論、工具和原則引入大語言模型的評估,為系統理解和提升 AI「心智」能力提供了新的方法路徑,并推動了「LLM 心理測量學(LLM Psychometrics)」這一交叉領域的發展。這一方向有助于更全面、科學地認識和界定人工智能的能力邊界。

主要內容

這篇綜述論文首次系統梳理了 LLM 心理測量學的研究進展,結構如下圖所示。



心理測量和 LLM 基準的差異與評估原則的革新



圖:心理測量學和 AI 基準的對比

在大語言模型的評估領域,傳統 AI 基準測試和心理測量學看似都依賴測試項目和分數來衡量能力,但兩者的內核卻截然不同。

傳統 AI 評測更注重模型在具體任務上的表現和排名,強調測試的廣度和難度,往往依賴大規模數據集和簡單的準確率指標,結果多局限于特定場景,難以反映模型的深層能力。

而心理測量學則以「構念」為核心,追求對心理特質的深入理解,強調測試項目的科學設計和解釋力,采用如項目反應理論(IRT)等先進統計方法,力求讓測試結果既可靠又具備預測力,能夠揭示個體在多樣認知任務中的表現規律。 正是基于這種理念的轉變,研究者們提出了三大創新方向。

首先,使用「構念導向」的評估思路,不再滿足于表層分數,而是深入挖掘影響模型表現的潛在變量。

其次,研究者們引入心理測量學的嚴謹方法,提出證據中心基準設計等新范式,結合心理測量學輔助工具,規避數據污染,提升測試的科學性和可解釋性。

最后,研究者們將項目反應理論應用于 AI 評測,實現了動態校準項目難度、智能調整權重、自動生成不同難度的新測試項目,并探索了 AI 與人類反應分布的一致性,使得不同 AI 系統間、AI 與人類之間的比較更加科學和公平。

這一系列革新,正推動 AI 評估從「分數導向」走向「科學解碼」,為理解和提升大語言模型的「心智」能力打開了全新視角。

測量構念的擴展

LLM 展現出類人的心理構念,這些構念對模型行為產生深遠影響,包括人格構念(性格,價值觀,道德觀,態度與觀點)、能力構念(啟發式偏差,心智理論,情緒智能,社交智能,心理語言學能力,學習認知能力)。該綜述系統梳理了針對這些心理構念的評估工作,綜述了相關理論、工具和主要結論。



測量方法

LLM 心理測量學的方法體系為 LLM「心智」能力的系統評估奠定了基礎,主要包括測試形式、數據來源、提示策略、輸出評分和推理參數五個方面。

測試形式分為結構化(如選擇題、量表評分,便于自動化和客觀評估,但生態效度有限)和非結構化(如開放對話、智能體模擬,更貼近真實應用,能捕捉復雜行為,但標準化和評分難度較高)。

數據與任務來源既有標準心理學量表,也有人工定制項目以貼合實際應用,還有 AI 生成的合成項目,便于大規模多樣化測試。提示策略涵蓋角色扮演(模擬不同身份特征)、性能增強(如思維鏈、情感提示提升能力)、以及提示擾動和對抗攻擊(測試模型穩定性)。

輸出與評分分為封閉式(結構化輸出,基于概率或預設標準)和開放式(基于規則、模型或人工評分),后者更具挑戰性。推理參數(如解碼方式)也會影響評估結果,需結合確定性與隨機性設置,全面揭示模型特性。



測量驗證

與傳統 AI 基準測試不同,LLM 心理測量學強調理論基礎、標準化和可重復性,需建立嚴格的驗證體系以確保測試的可靠性、效度和公平性。

本文系統梳理了三個關鍵方面:

首先,可靠性關注測試結果的穩定性,包括重測信度、平行形式信度和評分者信度;當前測試的信度面臨挑戰,如 LLM 在提示擾動中表現出不穩定性。

其次,效度評估測試是否準確測量目標構念,涉及內容效度、構念效度和校標效度等,主要挑戰包含數據污染、LLM 與人類在心理構念的內部表征上存在差異,評估結果向真實場景的可遷移性等。

最后,文章歸納了近期研究提出的標準和建議,為 LLM 心理測量學建立科學方法論基礎。



基于心理測量學的增強方法

心理測量學不僅為 LLM 評估提供理論基礎,也為模型開發和能力提升開辟了新路徑。當前,心理測量學主要在特質調控、安全對齊和認知增強三大方向增強 LLM。

特質調控方面,通過結構化心理量表提示、推理干預和參數微調等方法,LLM 能夠模擬和調節多樣的人格特質,廣泛應用于個性化對話、角色扮演和人口模擬。

安全對齊方面,研究揭示了模型心理特質與安全性、價值觀對齊的密切關系,借助價值觀理論、道德基礎理論和強化學習等手段,推動模型更好地契合人類期望與倫理標準。

認知增強方面,心理學啟發的提示策略、角色扮演及偏好優化等方法,有效提升了 LLM 的推理、共情和溝通能力。

整體來看,心理測量學為 LLM 的安全性、可靠性和人性化發展提供了堅實支撐,推動 AI 邁向更高水平的智能與社會價值。

未來展望

該綜述總結了 LLM 心理測量學的發展趨勢、挑戰與未來方向。當前,LLM 在人格測量及其驗證上取得初步成果,但能力測試的信效度驗證和廣泛測試的真實場景泛化仍待加強。傳統人類構念難以直接遷移,需發展適用于 LLM 的新理論和測量工具。

研究還需區分模型表現出的特質(perceived traits)與對齊特質(aligned traits),關注評估主觀性。模型擬人化方式、統計分析方式及多語言、多輪交互、多模態和智能體環境等新維度帶來挑戰。項目反應理論(IRT)為高效評估和模型區分提供新思路。

未來還應推動心理測量在模型增強和訓練數據優化等方面的應用。 AI 發展已進入「下半場」,評估的重要性與挑戰性日益凸顯。LLM 心理測量學為評估人類水平 AI 提供了重要范式,有助于推動 AI 向更安全、可靠、普惠的方向發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
章家敦耽誤美國二十年

章家敦耽誤美國二十年

求實處
2025-05-28 00:42:04
白眼狼!中國記者探訪巴勒斯坦難民營,被人追著辱罵種族歧視話語

白眼狼!中國記者探訪巴勒斯坦難民營,被人追著辱罵種族歧視話語

史紀文譚
2025-05-28 20:13:56
公安局干部被曝開車撞死2歲男童,男童家屬:他駕駛證已過期!當地介入處理

公安局干部被曝開車撞死2歲男童,男童家屬:他駕駛證已過期!當地介入處理

揚子晚報
2025-05-27 18:21:20
空戰慘敗帶來深深焦慮,印度要造自己的第五代戰機

空戰慘敗帶來深深焦慮,印度要造自己的第五代戰機

上觀新聞
2025-05-28 19:20:08
談判結束,美3路人馬離開北京,特朗普或將被迫繼續向中國認慫?

談判結束,美3路人馬離開北京,特朗普或將被迫繼續向中國認慫?

科技講者66
2025-05-28 12:32:08
最后3天,美防長確認參會,馬克龍也將出席,中方安排讓人意外

最后3天,美防長確認參會,馬克龍也將出席,中方安排讓人意外

嘆知
2025-05-27 14:39:11
朱從玖的好記性

朱從玖的好記性

新浪財經
2025-05-28 15:48:09
事關非機動車!上海警方再次強調:這些行為,或擔事故全責

事關非機動車!上海警方再次強調:這些行為,或擔事故全責

新民晚報
2025-05-28 18:10:46
挨了一巴掌的馬克龍,在越南說了些啥?危險!

挨了一巴掌的馬克龍,在越南說了些啥?危險!

新民晚報
2025-05-28 09:21:21
今年最強降雨!極端性強,致災性強!浙江暴雨大暴雨

今年最強降雨!極端性強,致災性強!浙江暴雨大暴雨

魯中晨報
2025-05-28 07:18:03
又當又立!陶晶瑩采訪中大放厥詞:臺藝人很辛苦不想牽扯立場問題

又當又立!陶晶瑩采訪中大放厥詞:臺藝人很辛苦不想牽扯立場問題

小娛樂悠悠
2025-05-28 07:59:16
43歲余文樂在臺北,開奔馳G500買咖啡,胡子花白顯老態,花期好短

43歲余文樂在臺北,開奔馳G500買咖啡,胡子花白顯老態,花期好短

尋墨閣
2025-05-27 17:15:44
投票決勝輪遺憾出局,中國未能獲得2029世乒賽舉辦權

投票決勝輪遺憾出局,中國未能獲得2029世乒賽舉辦權

雷速體育
2025-05-27 22:09:21
美國爆中國黑料,說中國知名高校開始清退留學生,真的假的?

美國爆中國黑料,說中國知名高校開始清退留學生,真的假的?

慧翔百科
2025-05-28 12:33:00
演員尤勇智公開批評鋼琴家朗朗表演作秀夸張,網友:一針見血!

演員尤勇智公開批評鋼琴家朗朗表演作秀夸張,網友:一針見血!

素衣讀史
2025-05-28 11:03:11
武漢一網紅大橋底下圈地收費,或違反當地安全管理條例“只能用作公益性用途”

武漢一網紅大橋底下圈地收費,或違反當地安全管理條例“只能用作公益性用途”

可達鴨面面觀
2025-05-28 12:12:51
楊穎又整容了?網友:挑眉、撇嘴是對自己美貌的絕對自信!

楊穎又整容了?網友:挑眉、撇嘴是對自己美貌的絕對自信!

情感大頭說說
2025-05-28 02:58:21
王菲最新亮相好似要出家,看一旁謝霆鋒有2個明顯變化

王菲最新亮相好似要出家,看一旁謝霆鋒有2個明顯變化

并不擅長圈粉的鐵任
2025-05-27 22:21:01
阿維塔風阻事件風波再起:測試車采用定制版前唇?

阿維塔風阻事件風波再起:測試車采用定制版前唇?

手機中國
2025-05-28 18:33:55
你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
2025-05-28 21:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10547文章數 142325關注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

武漢網紅大橋打卡點圍欄已拆除 員工稱押金措施也取消

頭條要聞

武漢網紅大橋打卡點圍欄已拆除 員工稱押金措施也取消

體育要聞

鄭欽文勢不可擋!近4年3進法網32強

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

74歲王石罕見發聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態度原創

房產
本地
游戲
親子
公開課

房產要聞

看完這份數據,你應該對海南樓市有信心!

本地新聞

中國最費腿的城市,不止重慶

2025 CiGA Game Jam報名開始!

親子要聞

艾媒咨詢 | 2025年中國托育行業消費行為調查數據

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 深泽县| 上犹县| 泗洪县| 合水县| 金华市| 五指山市| 乌什县| 阿城市| 垫江县| 吉木萨尔县| 会同县| 孟津县| 桃江县| 蚌埠市| 明光市| 铁力市| 胶南市| 灌阳县| 晋中市| 大渡口区| 承德市| 香格里拉县| 宜黄县| 馆陶县| 类乌齐县| 东辽县| 安宁市| 云霄县| 阿拉善右旗| 黎川县| 灌云县| 河池市| 南阳市| 太仆寺旗| 涞源县| 长宁县| 全椒县| 格尔木市| 盱眙县| 靖边县| 宜章县|