導語
今天分享發表在Nature Machine Intelligence(計算機、工程技術Q1/IF=18.8)上與AI+心理學相關的文章,共4篇(同樣僅篩選研究論文)。研究主題涵蓋人類與AI交互、人機協作、人類對大語言模型輸出準確性的感知、LLM取代人類被試的風險,都還是比較新穎且熱門的話題,文章的可讀性也很高。
歡迎你去集智斑圖,獲得沉浸式的閱讀體驗:
葦草psy| 來源
讀書會推薦
集智俱樂部最近策劃了與此相關的主題讀書會,歡迎你加入:
「」讀書會主要聚焦于人機共生的未來,探討人類智能和機器智能各自的優勢有哪些?智能邊界如何?如何通過更有效的標注策略和數據生成技術來解決數據稀缺問題?如何設計更加高效的人機協作系統,實現高效共贏的效果?如何提高機器決策的可解釋性與透明性,確保系統的可信度?如何通過多模態協作融合不同感知通道,應對復雜的決策任務?
1 人機協作提高共情能力
論文題目:Human–AI collaboration enables more empathic conversations in text-based peer-to-peer mental health support
人機協作使基于文本的點對點心理健康支持中能夠進行更具共情的對話
https://www.nature.com/articles/s42256-022-00593-2
推薦理由:2023年發表,在Google Scholar上已經被引300多次,是人與AI協作改善人類能力的一篇典型文章
摘要:人工智能 (AI) 的進步使得系統能夠增強并與人類協作,執行一些簡單的機械任務,例如安排會議和檢查文本語法。然而,由于 AI 系統難以理解復雜的人類情感,且這些任務具有開放性,這種人機協作對更復雜的任務(例如進行共情對話)提出了挑戰。本文,我們關注點對點心理健康支持,在這個環境中,共情對于成功至關重要。我們研究了 AI 如何與人類協作,在文本式在線支持對話中促進同伴共情。我們開發了 HAILEY,這是一個 AI 在環代理,它提供即時反饋,幫助提供支持的參與者(同伴支持者)以更具共情的方式回應尋求幫助的人(尋求支持者)。我們在大型在線點對點支持平臺 TalkLife(N ?= 300)上開展了一項非臨床隨機對照試驗,對 HAILEY 進行了評估。我們發現,人機協作方法可使同伴間的對話共情整體提升 19.6%。此外,我們發現,在自認為提供支持存在困難的同伴支持者子樣本中,共情提升幅度更大,達到了 38.9%。我們系統地分析了人機協作模式,發現同伴支持者能夠直接或間接地利用人工智能反饋,而不會過度依賴人工智能,同時反饋后的自我效能感有所提升。我們的研究結果表明,反饋驅動、人工智能在環路的寫作系統在賦能人類完成開放式、社交性和高風險任務(例如共情對話)方面具有巨大的潛力。
圖為一項以300名TalkLife同伴支持者為參與者的隨機對照試驗。我們將參與者隨機分為“僅人類(控制組)”和“人類+AI(實驗組)”,并分別要求他們在沒有反饋和有反饋的情況下,撰寫對求助者帖子的支持性和共情回應。為了確定即時人類-AI協作是否有助于提高表達出的共情程度,超越了傳統(但較少見)培訓方法的潛力,兩組參與者在開始研究前都接受了初步的共情培訓。(a) 在沒有AI的情況下,人類同伴支持者面對的是一個空白聊天框來撰寫他們的回復(這是目前的現狀)。由于同伴支持者通常未接受過如共情等最佳實踐療法的培訓,因此他們很少能進行高度共情的對話。(b) 我們的反饋代理(HAILEY)在支持者撰寫回復時提供即時AI反饋提示。(c) HAILEY隨后建議可以對回復做出哪些更改以使其更加共情,這些建議包括可插入的新句子,以及用更共情的語句替換現有句子的選項。參與者可以通過點擊插入和替換按鈕接受這些建議,繼續編輯回復或在需要時獲取更多反饋。
2 人類心智模型如何影響人類與AI的交互
論文題目:Influencing human–AI interaction by priming beliefs about AI can increase perceived trustworthiness, empathy and effectiveness
通過啟動對人工智能的信念來影響人與人工智能的互動,可以提高感知到的可信度、共情和有效性
https://www.nature.com/articles/s42256-023-00720-7
推薦理由:2023年發表,Google Scholar上已經被引90多次,探討人類的信念的作用
摘要:隨著基于大型語言模型的對話代理變得越來越像人類,用戶開始將它們視為同伴,而不僅僅是助手。我們的研究探索了人類對人工智能系統心智模型的改變如何影響他們與系統的交互。參與者與同一個對話人工智能進行交互,但受到關于人工智能內在動機的不同啟動語句的影響:關愛、操縱或無動機。我們發現,那些感知到人工智能具有關愛動機的人也認為它更值得信賴、更有共情、表現更佳,并且啟動和初始心智模型的影響在更復雜的人工智能模型中更強。我們的研究還表明,用戶和人工智能在短時間內強化了用戶的心智模型,形成了一個反饋回路;未來的研究應該探究其長期影響。這項研究強調了人工智能系統的引入方式的重要性,這將顯著影響交互和人工智能的體驗。
圖為實驗設計與主要發現的概覽。a. 向個體提供關于AI系統的信息啟動可以影響他們對該AI代理的心智模型,進而導致用戶體驗上的差異。像基于大型語言模型(LLM)這樣的復雜AI系統,其行為可能會強化用戶的這種心智模型。用戶報告了感知上的差異,這表現在對可信度、共情能力、有效性等方面的主觀評價上,同時也可能偏向用戶與AI的互動方式。b. 對話式AI界面。此界面應用于研究中的所有條件。c. 研究程序的流程圖,描繪了不同的啟動條件。
3 大語言模型知道的和人類認為它知道的
論文題目:What large language models know and what people think they know ?
大型語言模型知道什么以及人們認為它們知道什么?
https://www.nature.com/articles/s42256-024-00976-7
推薦理由:2025年1月發表,3月份Nature官方又發布一篇對此論文的評論說明,兩篇文章都值得一讀
Bridging the gap between machine confidence and human perceptions
https://www.nature.com/articles/s42256-025-01013-x
摘要:隨著人工智能系統,尤其是大型語言模型 (LLM),越來越多地融入到決策過程中,信任其輸出至關重要。為了贏得人類的信任,LLM 必須經過良好的校準,以便能夠準確評估并傳達其預測正確的可能性。盡管近期的研究主要關注 LLM 的內部置信度,但人們對其如何有效地向用戶傳達不確定性卻知之甚少。本文,我們探討了校準差距(指人類對 LLM 生成答案的置信度與模型實際置信度之間的差異)和辨別差距(反映人類和模型區分正確答案和錯誤答案的能力)。我們對多項選擇題和簡答題的實驗表明,當提供默認解釋時,用戶傾向于高估 LLM 答案的準確性。此外,即使額外的長度并沒有提高答案的準確性,更長的解釋也會增強用戶的信心。通過調整 LLM 解釋以更好地反映模型的內部置信度,校準差距和辨別差距均有所縮小,顯著提高了用戶對 LLM 準確性的感知。這些發現強調了準確的不確定性溝通的重要性,并強調了解釋長度對人工智能輔助決策環境中用戶信任的影響。
圖為評估模型置信度與人類對模型置信度之間校準差距的方法概覽。該方法操作如下:對于多項選擇題,首先向大語言模型(LLM)提問以獲取每個選項的模型置信度(步驟1),然后選擇最可能的答案并讓LLM生成解釋(步驟2),最后展示問題和LLM解釋給用戶,收集用戶對模型正確性的置信度(步驟3)。在一個示例中,模型對選項C的置信度為0.46,而用戶的置信度為0.95。對于簡答題,方法相似,但額外增加一步讓LLM評估先前答案的準確性,并通過不確定性語言表達低置信度(如示例中的0.18)。在這兩個示例中,正確答案分別為“A”和“blue bird”。
4 大語言模型被試可能會加劇種群隔離
論文題目:Large language models that replace human participants can harmfully misportray and flatten identity groups
取代人類被試的大型語言模型可能會對身份群體造成有害的錯誤描繪和扁平化
https://www.nature.com/articles/s42256-025-00986-z
推薦理由:2025年1月發表,不當的使用大模型的文本生成能力會嚴重污染人類接觸的信息流,從而造成社會影響,值得關注
摘要:大型語言模型 (LLM) 的功能和普及度不斷提升,推動了其在新領域的應用——包括在計算社會科學、用戶測試、注釋任務等領域替代人類被試。在許多情況下,研究人員試圖將調查問卷分發給能夠代表目標人群的被試樣本。這意味著,要成為合適的替代模型,LLM 需要能夠捕捉位置性(即性別和種族等社會身份的相關性)的影響。然而,我們表明,當前 LLM 的訓練方式存在兩個固有的局限性,阻礙了這一點。我們分析性地論證了 LLM 為何容易錯誤地描繪和扁平化人口群體的代表性,然后通過一系列涉及 16 種人口身份的 3,200 名被試的人類研究,在四個 LLM 上實證證明了這一點。我們還討論了關于身份提示如何將身份本質化的第三個局限性。自始至終,我們將每一個局限性都與認知不公的歷史聯系起來,這種不公違背了生活經驗的價值,解釋了為什么替代性學習對邊緣化人口群體有害。總而言之,我們敦促謹慎使用 LLM 來替代身份與當前任務相關的人類被試。同時,如果 LLM 替代的益處大于弊端(例如,讓人類被試參與可能會對他們造成損害,或者目標是補充而非完全替代),我們通過實證證明,我們的推理時間技術可以減少(但不會消除)這些弊端。
圖為論文概要。探討大語言模型(LLM)提示人口學身份信息的四個可能原因:當答案依賴于身份歸屬時、當身份與答案相關時、當答案具有主觀性且身份可能起作用時,以及當意圖通過引入身份信息提高回答覆蓋范圍時。同時,我們也分析了提示身份信息可能帶來的三個問題,說明這些內在局限性的來源,并介紹了我們在分析中用于捕捉該現象的多種測量方法,提出了一種在允許使用身份提示時可采用的具體替代方案,并解釋了潛在危害的成因
注:中文標題、摘要由Google Translate直譯,缺少嚴格的校對,部分術語可能并不準確。
集智編輯部|編譯
「大模型時代下的人機交互與協同」讀書會
集智俱樂部聯合中國科學技術大學教授趙云波、華東師范大學副教授吳興蛟兩位老師共同發起。本次讀書會將探討:
人類智能和機器智能各自的優勢有哪些?智能邊界如何?如何通過更有效的標注策略和數據生成技術來解決數據稀缺問題?如何設計更加高效的人機協作系統,實現高效共贏的效果?如何提高機器決策的可解釋性與透明性,確保系統的可信度?如何通過多模態協作融合不同感知通道,應對復雜的決策任務?
讀書會計劃從6月21日開始,每周六晚19:00-21:00進行,預計持續約8周。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入,共同探討。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.