99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

JHU提出最強ToM方法,AutoToM橫掃五大基準

0
分享至



本文有三位共同第一作者,分別為 Zhining Zhang(張芷寧)、Chuanyang Jin(金川楊)、Mung Yao Jia。他們在約翰霍普金斯大學 Social Cognitive AI Lab 共同完成這篇論文。本文的指導老師為 Tianmin Shu(舒天民),是 JHU Social Cognitive AI Lab 的主任。該實驗室致力于構建能夠在現實世界中理解、推理和與人類互動的社會智能系統,從而推進以人為中心的 AI。

如何讓 AI 像人一樣思考?如何擁有像人一樣的認知能力和社會能力?

心智能力(Theory of Mind, ToM)是指通過觀察他人的行為來理解他們內心想法的能力,這一能力對開發具備社會智能的智能體至關重要。

近日,來自JHU 的研究團隊提出了 AutoToM,一種全自動、開放式的心智推理方法。作為首個面向開放場景的 model-based ToM 方法,以類似人類的思維模式,AutoToM 在 5 個基準測試中都取得了最好成績,并展現出良好的可擴展性、魯棒性以及可解釋性。



  • 論文標題:AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind
  • 論文地址:https://arxiv.org/abs/2502.15676
  • 項目主頁:https://chuanyangjin.com/AutoToM/
  • 代碼地址:https://github.com/SCAI-JHU/AutoToM

基于模型的心智推理

當前在實現心智能力的推理方面主要有兩種方法:

  • 使用大型語言模型(LLM)來推理他人的心理狀態。然而,即使使用了換位思考、變化追蹤和時空推理等提示策略,LLM 在復雜情境中仍然會出現系統性的錯誤。

  • 采用基于模型的推理方法。特別是貝葉斯逆向規劃(Bayesian Inverse Planning, BIP)。BIP 假設 agent 會根據一個貝葉斯心智模型(Bayesian Theory of Mind, BToM)做出理性行為。這個模型使用 MDP、POMDP、I-POMDP 等給定框架描述 observation、belief、action、goal 等心理變量之間的依賴關系,來模擬 agent 做出行為的過程。BIP 通過逆推這個生成過程,來判斷哪些潛在心理狀態可能導致我們觀察到的行為。

JHU 該團隊之前的論文(ACL 2024 杰出論文獎)將 BIP 和 LLM 結合,以實現既具可擴展性又穩健的模型化心智推理。這類方法更加穩健,在特定領域中相較于直接使用 LLM 有明顯優勢,但它們依賴的是固定、人工設計的模型,沒有辦法泛化到不同的領域。



不同基準測試中的示例問題及其所需的 BToM 模型。

AutoToM

第一個適應開放場景的 model-based ToM 方法

AutoToM 引入了一種全新范式。它是一種完全自動化、開放式的基于模型的 ToM 推理方法。AutoToM 實現了對貝葉斯逆向規劃的全流程自動化,包括模型結構的提出與調整、關鍵時間點的識別、假設的生成以及貝葉斯推理的執行。

它無需任何領域知識,可在任意情境中運行,能夠推斷任何心理狀態,推理涉及任意數量的智能體,并支持任意層級的遞歸推理。這體現了團隊對一種開放、通用且穩健的機器心理理論的愿景。



AutoToM 的流程圖。X 是已知的可觀測變量,V 是潛在的心理變量,q 表示問題中查詢的變量。ts:t 表示用于推理的信息來自 ts 到 t 的時間段。變量 s、o、b、a、g 分別表示 state、observation、belief、action、goal,圖中的實線箭頭表示模型中它們的依賴關系。

全自動的貝葉斯逆向規劃

給定一個貝葉斯心智理論模型(BToM)中,我們引入大語言模型(LLM)作為計算后端,用于實現貝葉斯逆向規劃(BIP)的各個關鍵環節。

假設采樣(Hypothesis Sampling)

傳統的 BIP 方法通常依賴人為設定的假設空間,以及為每個潛在心理變量指定具體的假設表示方式。而我們的假設采樣模塊則利用 LLM,根據上下文中可觀測變量及其取值,生成一小集合的高質量假設。隨后,我們還會通過假設篩選機制,去除不太可能的假設,從而壓縮假設空間。

貝葉斯推理(Bayesian Inference)

我們使用 LLM 來估計 BToM 模型中每個局部條件概率。接著,通過對非目標潛在變量進行邊緣化,我們得到目標變量的后驗概率。與以往方法相比,我們的方法具有更強的通用性:支持任意結構的 BToM 模型,能夠同時考慮多個潛在變量,并支持任意層級的高階的心智推理。



在給定的 BToM 模型下,AutoToM 進行全自動的貝葉斯逆向規劃。

全自動的模型發現與改進

之前的方法依賴于人工設計的 BToM 模型,這限制了它們在特定領域外的適用性。相比之下,AutoToM 能夠自動提出模型,并動態調整模型結構,從而在推理過程中兼顧有效性(即準確地推斷出智能體的心理狀態)和高效性(即盡可能簡化模型和計算復雜度)。

信息提取

信息提取模塊會處理給定的信息,識別可觀測變量的取值,包括狀態、動作和言語等信息,并按時間順序組織。

提出初始模型

我們使用 LLM 根據已有的信息和任務提出一個初始的 BToM 模型。基于該模型,我們執行自動化的 BIP。如果該模型的效用超過某個閾值,我們便接受該模型的推理結果,否則將進行后續的模型調整。

模型調整

我們通過兩種方式迭代式地優化初始模型:變量調整和時間節點調整。

  • 變量調整:在某個具體時間點上,我們會引入新的、相關的潛變量來擴展模型結構,從而緩解推理過程中的不確定性。每引入一個變量,我們都會重新計算模型效用,并選擇提升效用最大的修改方案進行保留。

  • 時間節點調整:以往的研究通常假設所有歷史都是相關的,而 AutoToM 能夠在上下文中發現相關的歷史信息,這種能力對于 AutoToM 在長上下文環境中成功進行心理理論推理并降低計算成本至關重要。從最小的時間范圍開始,如果在當前的時間范圍內,變量調整仍無法顯著提升模型效用,我們會考慮加入新的時間節點以引入更多上下文信息。在考慮新的時間節點后,會在此基礎上繼續執行變量調整。



AutoToM 通過在變量調整和時間節點調整之間交替進行,自動優化 BToM 模型。

自動適應情境,橫掃五大基準測試

該團隊在 ToMi、BigToM、MMToM-QA、MuMA-ToM 和 Hi-ToM 五個測試基準上進行了測試。這些基準覆蓋了不同的心理變量、環境、agent 數量、有無語言表達、措辭風格以及模態類型。

與 AutoToM 不同,許多近年來的 ToM 方法只能應用于特定的基準測試。而在通用的方法中,AutoToM 在所有基準測試中都取得了最優的表現。



AutoToM 和 baselines 在所有基準測試上的表現。

本文的消融研究突出了 AutoToM 在變量調整、時間步調整和假設減少方面的優勢。AutoToM 能夠構建一個合適的模型,該模型不僅支持豐富的 ToM 推理,還能減少計算量,在準確性和成本之間取得平衡。



AutoToM 及其消融方法在所有基準測試中的平均正確率與計算量。

總結和展望

總的來說,AutoToM 是一個 ToM 推理任務的新穎框架。面對任何 ToM 推理問題,AutoToM 都可以自動構建一個合適的 BToM 模型,并借助 LLM 執行自動的貝葉斯逆向規劃。

AutoToM 在所有測試上取得了最好的結果,這是因為 BIP 在面對復雜環境和較長上下文時可以穩健地推理。此外,AutoToM 具有可解釋性,能夠通過其發現的概率模型來解釋模型的判斷過程。

該論文為實現更具人類思維特征的推理方式,以及構建具有人類認知基礎、具備可擴展性、穩健性和開放性的心理能力模型,指明了一個有前景的方向。該論文也引發了關于 inference-time compute,以及可擴展的 model-based inference 的廣泛討論。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李晨深夜發文,官宣喜訊,網友:希望范冰冰不會后悔

李晨深夜發文,官宣喜訊,網友:希望范冰冰不會后悔

不八卦掌門人
2025-05-02 19:22:00
伊能靜五一帶婆婆女兒英國度假,生圖素顏臉暗沉,百萬護膚沒白花

伊能靜五一帶婆婆女兒英國度假,生圖素顏臉暗沉,百萬護膚沒白花

八斗小先生
2025-05-04 11:26:42
馬克威廉姆斯:如果我決賽0比18輸給趙心童 那也不是世界末日

馬克威廉姆斯:如果我決賽0比18輸給趙心童 那也不是世界末日

羅克
2025-05-04 11:26:47
“不能讓李嘉誠跑了!”中方這回下了死命令,有一道口子決不能開

“不能讓李嘉誠跑了!”中方這回下了死命令,有一道口子決不能開

科技處長
2025-04-30 18:29:56
導演、演員郭少雄,凌晨離世

導演、演員郭少雄,凌晨離世

浙江之聲
2025-05-03 22:51:10
7-1讓國外網友看呆:趙心童在摧毀傳奇!他天賦是奧沙利文后最強

7-1讓國外網友看呆:趙心童在摧毀傳奇!他天賦是奧沙利文后最強

我愛英超
2025-05-05 00:17:08
真正有遠見的父母,都在給孩子做"多巴胺戒斷",手機癮瞬間消失了

真正有遠見的父母,都在給孩子做"多巴胺戒斷",手機癮瞬間消失了

第一心理
2025-05-04 17:30:22
冠軍的滋味!戴爾社媒曬抽雪茄,慶祝職業生涯首冠

冠軍的滋味!戴爾社媒曬抽雪茄,慶祝職業生涯首冠

直播吧
2025-05-05 06:37:18
汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

火之文
2025-02-04 13:22:59
40歲許瑋甯爆懷孕!低調藏肚4個月...結婚3年做人成功當媽

40歲許瑋甯爆懷孕!低調藏肚4個月...結婚3年做人成功當媽

ETtoday星光云
2025-05-05 08:58:10
有得有失!孫興慜堅守熱刺十載,當隊長成佳話,但俱樂部至今0冠

有得有失!孫興慜堅守熱刺十載,當隊長成佳話,但俱樂部至今0冠

直播吧
2025-05-05 10:33:11
G7勇士103-89擊敗火箭 球員評價:3人滿分,3人良好,3人崩盤

G7勇士103-89擊敗火箭 球員評價:3人滿分,3人良好,3人崩盤

籃球資訊達人
2025-05-05 11:22:56
科爾:希爾德不僅手感出色&還限制了范弗里特 攻防兼備

科爾:希爾德不僅手感出色&還限制了范弗里特 攻防兼備

直播吧
2025-05-05 11:47:15
追平丁俊暉破百紀錄!趙心童單屆世錦賽18桿單桿破百,6-1領先

追平丁俊暉破百紀錄!趙心童單屆世錦賽18桿單桿破百,6-1領先

直播吧
2025-05-04 23:11:16
劉嘉玲豪宅爭議背后:當極繁主義成為生活態度,你敢不敢這么活?

劉嘉玲豪宅爭議背后:當極繁主義成為生活態度,你敢不敢這么活?

阿離家居
2025-05-02 06:51:52
消息稱蘋果iPhone 18 Pro系列將采用屏下 Face ID,左上角有挖孔

消息稱蘋果iPhone 18 Pro系列將采用屏下 Face ID,左上角有挖孔

IT之家
2025-05-04 07:04:09
烏克蘭8名游騎兵特種兵在庫爾斯克殲滅一個朝鮮排,消滅25名敵人

烏克蘭8名游騎兵特種兵在庫爾斯克殲滅一個朝鮮排,消滅25名敵人

環球熱點快評
2025-05-02 09:48:24
荷蘭科技專家:中國當初囤積了大量來自于ASML的進口光刻機,為的就是與美國在芯片技術上面打持久戰

荷蘭科技專家:中國當初囤積了大量來自于ASML的進口光刻機,為的就是與美國在芯片技術上面打持久戰

逍遙漠
2025-04-22 20:04:10
三屆視帝斷崖式衰老忽然極速回春,頭發濃密自稱「63歲少年」

三屆視帝斷崖式衰老忽然極速回春,頭發濃密自稱「63歲少年」

粵睇先生
2025-05-05 02:16:24
解惑了!難怪官小姐會看上肖某,心甘情愿當三并懷孕生產

解惑了!難怪官小姐會看上肖某,心甘情愿當三并懷孕生產

辣條小劇場
2025-04-29 03:29:24
2025-05-05 12:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

牛彈琴:中國人還在過節 美國和以色列卻倒吸一口涼氣

頭條要聞

牛彈琴:中國人還在過節 美國和以色列卻倒吸一口涼氣

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

林心如霍建華一家三口手牽手散步好有愛

財經要聞

巴菲特老矣,價值投資尚能飯否?

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

游戲
旅游
本地
教育
軍事航空

5200萬人隔空互動,一場星鐵LIVE為何讓玩家如此共情?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

教育要聞

加權費馬點終極大總結!

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 赫章县| 泸州市| 漠河县| 镇雄县| 孝昌县| 六枝特区| 始兴县| 文山县| 南靖县| 德州市| 沐川县| 金坛市| 资兴市| 甘肃省| 晋宁县| 象州县| 炎陵县| 九台市| 丽水市| 甘洛县| 烟台市| 江阴市| 珠海市| 黄平县| 元朗区| 南昌市| 仁布县| 应用必备| 兖州市| 犍为县| 来凤县| 天门市| 广宁县| 梓潼县| 巫溪县| 明星| 陵川县| 南通市| 汉川市| 孙吴县| 甘泉县|