網易首頁 > 網易號 > 正文申請入駐

北大發布首篇大語言模型心理測量學系統綜述：評估、驗證、增強

2025-05-27 15:53:26　來源: 機器之心Pro

北京舉報

分享至

隨著大語言模型（LLM）能力的快速迭代，傳統評估方法已難以滿足需求。如何科學評估 LLM 的「心智」特征，例如價值觀、性格和社交智能？如何建立更全面、更可靠的 AI 評估體系？北京大學宋國杰教授團隊最新綜述論文（共 63 頁，包含 500 篇引文），首次嘗試系統性梳理答案。

論文標題：Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
論文鏈接：https://arxiv.org/abs/2505.08245
項目主頁：https://llm-psychometrics.com
資源倉庫：https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics

背景

大語言模型（LLMs）的出現，推動了人工智能技術的快速發展。它們在自然語言理解和生成等方面表現出較強的通用能力，并已廣泛應用于聊天機器人、智能搜索、醫療、教育、科研等多個領域。AI 正逐步成為社會基礎設施的重要組成部分。

與此同時，如何科學、嚴謹地評估這些能力不斷提升的 AI 系統，成為亟需解決的問題。 LLM 評估面臨的挑戰包括但不限于：

LLMs 展現出的「心智」特征（如性格、價值觀、認知偏差等）超出了傳統評測的覆蓋范圍；
模型的快速迭代和訓練數據的持續更新，使得靜態基準測試難以長期適用；
LLMs 對提示和上下文高度敏感，評估結果易受細微變化影響，難以保證結果的穩定性和有效性；
隨著 AI 與人類交互的日益深入，單純依賴任務分數的評估方式已難以滿足「以人為本」的需求；
AI 逐步應用于多模態和智能體系統，對評估方法的廣度和深度提出了更高要求。

這些挑戰與心理測量學長期關注的核心問題高度契合：如何科學量化和理解復雜、抽象的心理特質（如知識、技能、性格、價值觀等）。心理測量學通過將這些特質轉化為可量化的數據，為教育、醫療、商業和治理等領域的決策提供支持。

將心理測量學的理論、工具和原則引入大語言模型的評估，為系統理解和提升 AI「心智」能力提供了新的方法路徑，并推動了「LLM 心理測量學（LLM Psychometrics）」這一交叉領域的發展。這一方向有助于更全面、科學地認識和界定人工智能的能力邊界。

主要內容

這篇綜述論文首次系統梳理了 LLM 心理測量學的研究進展，結構如下圖所示。

心理測量和 LLM 基準的差異與評估原則的革新

圖：心理測量學和 AI 基準的對比

在大語言模型的評估領域，傳統 AI 基準測試和心理測量學看似都依賴測試項目和分數來衡量能力，但兩者的內核卻截然不同。

傳統 AI 評測更注重模型在具體任務上的表現和排名，強調測試的廣度和難度，往往依賴大規模數據集和簡單的準確率指標，結果多局限于特定場景，難以反映模型的深層能力。

而心理測量學則以「構念」為核心，追求對心理特質的深入理解，強調測試項目的科學設計和解釋力，采用如項目反應理論（IRT）等先進統計方法，力求讓測試結果既可靠又具備預測力，能夠揭示個體在多樣認知任務中的表現規律。正是基于這種理念的轉變，研究者們提出了三大創新方向。

首先，使用「構念導向」的評估思路，不再滿足于表層分數，而是深入挖掘影響模型表現的潛在變量。

其次，研究者們引入心理測量學的嚴謹方法，提出證據中心基準設計等新范式，結合心理測量學輔助工具，規避數據污染，提升測試的科學性和可解釋性。

最后，研究者們將項目反應理論應用于 AI 評測，實現了動態校準項目難度、智能調整權重、自動生成不同難度的新測試項目，并探索了 AI 與人類反應分布的一致性，使得不同 AI 系統間、AI 與人類之間的比較更加科學和公平。

這一系列革新，正推動 AI 評估從「分數導向」走向「科學解碼」，為理解和提升大語言模型的「心智」能力打開了全新視角。

測量構念的擴展

LLM 展現出類人的心理構念，這些構念對模型行為產生深遠影響，包括人格構念（性格，價值觀，道德觀，態度與觀點）、能力構念（啟發式偏差，心智理論，情緒智能，社交智能，心理語言學能力，學習認知能力）。該綜述系統梳理了針對這些心理構念的評估工作，綜述了相關理論、工具和主要結論。

測量方法

LLM 心理測量學的方法體系為 LLM「心智」能力的系統評估奠定了基礎，主要包括測試形式、數據來源、提示策略、輸出評分和推理參數五個方面。

測試形式分為結構化（如選擇題、量表評分，便于自動化和客觀評估，但生態效度有限）和非結構化（如開放對話、智能體模擬，更貼近真實應用，能捕捉復雜行為，但標準化和評分難度較高）。

數據與任務來源既有標準心理學量表，也有人工定制項目以貼合實際應用，還有 AI 生成的合成項目，便于大規模多樣化測試。提示策略涵蓋角色扮演（模擬不同身份特征）、性能增強（如思維鏈、情感提示提升能力）、以及提示擾動和對抗攻擊（測試模型穩定性）。

輸出與評分分為封閉式（結構化輸出，基于概率或預設標準）和開放式（基于規則、模型或人工評分），后者更具挑戰性。推理參數（如解碼方式）也會影響評估結果，需結合確定性與隨機性設置，全面揭示模型特性。

測量驗證

與傳統 AI 基準測試不同，LLM 心理測量學強調理論基礎、標準化和可重復性，需建立嚴格的驗證體系以確保測試的可靠性、效度和公平性。

本文系統梳理了三個關鍵方面：

首先，可靠性關注測試結果的穩定性，包括重測信度、平行形式信度和評分者信度；當前測試的信度面臨挑戰，如 LLM 在提示擾動中表現出不穩定性。

其次，效度評估測試是否準確測量目標構念，涉及內容效度、構念效度和校標效度等，主要挑戰包含數據污染、LLM 與人類在心理構念的內部表征上存在差異，評估結果向真實場景的可遷移性等。

最后，文章歸納了近期研究提出的標準和建議，為 LLM 心理測量學建立科學方法論基礎。

基于心理測量學的增強方法

心理測量學不僅為 LLM 評估提供理論基礎，也為模型開發和能力提升開辟了新路徑。當前，心理測量學主要在特質調控、安全對齊和認知增強三大方向增強 LLM。

特質調控方面，通過結構化心理量表提示、推理干預和參數微調等方法，LLM 能夠模擬和調節多樣的人格特質，廣泛應用于個性化對話、角色扮演和人口模擬。

安全對齊方面，研究揭示了模型心理特質與安全性、價值觀對齊的密切關系，借助價值觀理論、道德基礎理論和強化學習等手段，推動模型更好地契合人類期望與倫理標準。

認知增強方面，心理學啟發的提示策略、角色扮演及偏好優化等方法，有效提升了 LLM 的推理、共情和溝通能力。

整體來看，心理測量學為 LLM 的安全性、可靠性和人性化發展提供了堅實支撐，推動 AI 邁向更高水平的智能與社會價值。

未來展望

該綜述總結了 LLM 心理測量學的發展趨勢、挑戰與未來方向。當前，LLM 在人格測量及其驗證上取得初步成果，但能力測試的信效度驗證和廣泛測試的真實場景泛化仍待加強。傳統人類構念難以直接遷移，需發展適用于 LLM 的新理論和測量工具。

研究還需區分模型表現出的特質（perceived traits）與對齊特質（aligned traits），關注評估主觀性。模型擬人化方式、統計分析方式及多語言、多輪交互、多模態和智能體環境等新維度帶來挑戰。項目反應理論（IRT）為高效評估和模型區分提供新思路。

未來還應推動心理測量在模型增強和訓練數據優化等方面的應用。 AI 發展已進入「下半場」，評估的重要性與挑戰性日益凸顯。LLM 心理測量學為評估人類水平 AI 提供了重要范式，有助于推動 AI 向更安全、可靠、普惠的方向發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.