網易首頁 > 網易號 > 正文申請入駐

Nat.Mach.Intell. AI+psy 速遞：大語言模型時代下的人機交互與協作

2025-05-21 19:46:34　來源: 集智俱樂部

北京舉報

分享至

導語

今天將分享發表在Nature Machine Intelligence（計算機、工程技術Q1/IF=18.8）上與AI+心理學相關的文章，共4篇（同樣僅篩選研究論文）。研究主題涵蓋人類與AI交互、人機協作、人類對大語言模型輸出準確性的感知、LLM取代人類被試的風險，都還是比較新穎且熱門的話題，文章的可讀性也很高。

歡迎你去集智斑圖，獲得沉浸式的閱讀體驗：

葦草psy| 來源

下述幾篇文章我們也在聯系葦草Psy公眾號的主理人來給我們在「」讀書會做一次論文解讀分享。掃碼加入讀書會：

1 人機協作提高共情能力

論文題目：Human–AI collaboration enables more empathic conversations in text-based peer-to-peer mental health support

人機協作使基于文本的點對點心理健康支持中能夠進行更具共情的對話

https://www.nature.com/articles/s42256-022-00593-2

推薦理由：2023年發表，在Google Scholar上已經被引300多次，是人與AI協作改善人類能力的一篇典型文章

摘要：人工智能 (AI) 的進步使得系統能夠增強并與人類協作，執行一些簡單的機械任務，例如安排會議和檢查文本語法。然而，由于 AI 系統難以理解復雜的人類情感，且這些任務具有開放性，這種人機協作對更復雜的任務（例如進行共情對話）提出了挑戰。本文，我們關注點對點心理健康支持，在這個環境中，共情對于成功至關重要。我們研究了 AI 如何與人類協作，在文本式在線支持對話中促進同伴共情。我們開發了 HAILEY，這是一個 AI 在環代理，它提供即時反饋，幫助提供支持的參與者（同伴支持者）以更具共情的方式回應尋求幫助的人（尋求支持者）。我們在大型在線點對點支持平臺 TalkLife（N ?= 300）上開展了一項非臨床隨機對照試驗，對 HAILEY 進行了評估。我們發現，人機協作方法可使同伴間的對話共情整體提升 19.6%。此外，我們發現，在自認為提供支持存在困難的同伴支持者子樣本中，共情提升幅度更大，達到了 38.9%。我們系統地分析了人機協作模式，發現同伴支持者能夠直接或間接地利用人工智能反饋，而不會過度依賴人工智能，同時反饋后的自我效能感有所提升。我們的研究結果表明，反饋驅動、人工智能在環路的寫作系統在賦能人類完成開放式、社交性和高風險任務（例如共情對話）方面具有巨大的潛力。

2 人類心智模型如何影響人類與AI的交互

論文題目：Influencing human–AI interaction by priming beliefs about AI can increase perceived trustworthiness, empathy and effectiveness

通過啟動對人工智能的信念來影響人與人工智能的互動，可以提高感知到的可信度、共情和有效性

https://www.nature.com/articles/s42256-023-00720-7

推薦理由：2023年發表，Google Scholar上已經被引90多次，探討人類的信念的作用

摘要：隨著基于大型語言模型的對話代理變得越來越像人類，用戶開始將它們視為同伴，而不僅僅是助手。我們的研究探索了人類對人工智能系統心智模型的改變如何影響他們與系統的交互。參與者與同一個對話人工智能進行交互，但受到關于人工智能內在動機的不同啟動語句的影響：關愛、操縱或無動機。我們發現，那些感知到人工智能具有關愛動機的人也認為它更值得信賴、更有共情、表現更佳，并且啟動和初始心智模型的影響在更復雜的人工智能模型中更強。我們的研究還表明，用戶和人工智能在短時間內強化了用戶的心智模型，形成了一個反饋回路；未來的研究應該探究其長期影響。這項研究強調了人工智能系統的引入方式的重要性，這將顯著影響交互和人工智能的體驗。

3 大語言模型知道的和人類認為它知道的

論文題目：What large language models know and what people think they know ?

大型語言模型知道什么以及人們認為它們知道什么？

https://www.nature.com/articles/s42256-024-00976-7

推薦理由：2025年1月發表，3月份Nature官方又發布一篇對此論文的評論說明，兩篇文章都值得一讀

Bridging the gap between machine confidence and human perceptions

https://www.nature.com/articles/s42256-025-01013-x

摘要：隨著人工智能系統，尤其是大型語言模型 (LLM)，越來越多地融入到決策過程中，信任其輸出至關重要。為了贏得人類的信任，LLM 必須經過良好的校準，以便能夠準確評估并傳達其預測正確的可能性。盡管近期的研究主要關注 LLM 的內部置信度，但人們對其如何有效地向用戶傳達不確定性卻知之甚少。本文，我們探討了校準差距（指人類對 LLM 生成答案的置信度與模型實際置信度之間的差異）和辨別差距（反映人類和模型區分正確答案和錯誤答案的能力）。我們對多項選擇題和簡答題的實驗表明，當提供默認解釋時，用戶傾向于高估 LLM 答案的準確性。此外，即使額外的長度并沒有提高答案的準確性，更長的解釋也會增強用戶的信心。通過調整 LLM 解釋以更好地反映模型的內部置信度，校準差距和辨別差距均有所縮小，顯著提高了用戶對 LLM 準確性的感知。這些發現強調了準確的不確定性溝通的重要性，并強調了解釋長度對人工智能輔助決策環境中用戶信任的影響。

4 大語言模型被試可能會加劇種群隔離

論文題目：Large language models that replace human participants can harmfully misportray and flatten identity groups

取代人類被試的大型語言模型可能會對身份群體造成有害的錯誤描繪和扁平化

推薦理由：2025年1月發表

摘要：大型語言模型 (LLM) 的功能和普及度不斷提升，推動了其在新領域的應用——包括在計算社會科學、用戶測試、注釋任務等領域替代人類被試。在許多情況下，研究人員試圖將調查問卷分發給能夠代表目標人群的被試樣本。這意味著，要成為合適的替代模型，LLM 需要能夠捕捉位置性（即性別和種族等社會身份的相關性）的影響。然而，我們表明，當前 LLM 的訓練方式存在兩個固有的局限性，阻礙了這一點。我們分析性地論證了 LLM 為何容易錯誤地描繪和扁平化人口群體的代表性，然后通過一系列涉及 16 種人口身份的 3,200 名被試的人類研究，在四個 LLM 上實證證明了這一點。我們還討論了關于身份提示如何將身份本質化的第三個局限性。自始至終，我們將每一個局限性都與認知不公的歷史聯系起來，這種不公違背了生活經驗的價值，解釋了為什么替代性學習對邊緣化人口群體有害。總而言之，我們敦促謹慎使用 LLM 來替代身份與當前任務相關的人類被試。同時，如果 LLM 替代的益處大于弊端（例如，讓人類被試參與可能會對他們造成損害，或者目標是補充而非完全替代），我們通過實證證明，我們的推理時間技術可以減少（但不會消除）這些弊端。

注：中文標題、摘要由Google Translate直譯，缺少嚴格的校對，部分術語可能并不準確。

「大模型時代下的人機交互與協同」讀書會

集智俱樂部聯合中國科學技術大學教授趙云波、華東師范大學副教授吳興蛟兩位老師共同發起。本次讀書會將探討：

人類智能和機器智能各自的優勢有哪些？智能邊界如何？如何通過更有效的標注策略和數據生成技術來解決數據稀缺問題？如何設計更加高效的人機協作系統，實現高效共贏的效果？如何提高機器決策的可解釋性與透明性，確保系統的可信度？如何通過多模態協作融合不同感知通道，應對復雜的決策任務？

讀書會計劃從6月21日開始，每周六晚19:00-21:00進行，預計持續約8周。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入，共同探討。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.