NeurIPS 2024｜實(shí)時交互打破AI瓶頸：GUIDE解鎖人機(jī)協(xié)同新范式

2025-06-18 20:24:22　來源: 集智俱樂部

北京舉報(bào)

分享至

摘要

在瞬息萬變的現(xiàn)實(shí)世界中，人工智能（AI）需要在時間緊迫、反饋稀缺的場景下迅速學(xué)習(xí)并做出精準(zhǔn)決策，如搜索救援、災(zāi)難響應(yīng)和醫(yī)療急救等高風(fēng)險(xiǎn)任務(wù)。然而，傳統(tǒng)強(qiáng)化學(xué)習(xí)受限于稀疏獎勵和高維視覺輸入的復(fù)雜性，難以高效應(yīng)對動態(tài)環(huán)境。人類引導(dǎo)的機(jī)器學(xué)習(xí)雖能通過反饋提升AI能力，但離散信號的粗糙性和高昂的人工成本限制了其應(yīng)用。如何在降低人類負(fù)擔(dān)的同時，讓AI在復(fù)雜任務(wù)中實(shí)現(xiàn)實(shí)時、持續(xù)的優(yōu)化？杜克大學(xué)與陸軍研究實(shí)驗(yàn)室提出的GUIDE框架給出了突破性答案。GUIDE不僅在尋寶、捉迷藏等任務(wù)中展現(xiàn)出超越傳統(tǒng)方法的性能，還為搜救機(jī)器人、醫(yī)療輔助等領(lǐng)域的人機(jī)交互與協(xié)同繪制了技術(shù)藍(lán)圖。本文將帶你了解這一創(chuàng)新框架，揭示其在AI與人類的協(xié)作應(yīng)用上的未來可能。

關(guān)鍵詞：人工智能，人機(jī)交互，實(shí)時反饋，自主進(jìn)化

班嶄丨作者

Ava丨審校

如果你對大模型時代，人機(jī)如何交互與協(xié)作感興趣，那強(qiáng)烈推薦你加入集智俱樂部最近策劃的。

論文題目：GUIDE: Real-Time Human-Shaped Agents 論文鏈接：https://neurips.cc/virtual/2024/poster/95640

為什么需要實(shí)時人類引導(dǎo)

在現(xiàn)實(shí)世界中，許多任務(wù)（如搜索救援、災(zāi)難響應(yīng)和醫(yī)療急救）要求人工智能（AI）在時間緊迫、環(huán)境反饋稀疏的條件下快速學(xué)習(xí)并決策。傳統(tǒng)強(qiáng)化學(xué)習(xí)（RL）方法在這些場景中常因兩大瓶頸表現(xiàn)不佳：其一是稀疏獎勵困境，即成功信號極少（例如僅在找到目標(biāo)時獲得獎勵），導(dǎo)致智能體探索效率低下；其二是高維視覺輸入的挑戰(zhàn)，即從原始圖像中提取有效特征并關(guān)聯(lián)長期決策太過復(fù)雜。盡管人類引導(dǎo)的機(jī)器學(xué)習(xí)（Human-in-the-Loop）通過整合人類反饋來增強(qiáng)AI學(xué)習(xí)能力，但現(xiàn)有方法仍存在顯著局限。例如，模仿學(xué)習(xí)或偏好反饋僅能提供“好/中/差”三類離散信號，無法傳遞細(xì)膩的行為指導(dǎo)；同時，這些方法依賴預(yù)先收集的離線數(shù)據(jù)集，難以適應(yīng)動態(tài)環(huán)境變化，且持續(xù)的人工標(biāo)注成本高昂。更關(guān)鍵的是，人類反饋本身受個體差異（如認(rèn)知能力、反應(yīng)速度）影響，其質(zhì)量參差不齊。

如何設(shè)計(jì)一個既能有效減少人工輸入的需求，又能允許持續(xù)訓(xùn)練的強(qiáng)化學(xué)習(xí)框架？

連續(xù)反饋與自動化模擬的雙重創(chuàng)新

針對這一挑戰(zhàn)，杜克大學(xué)與陸軍研究實(shí)驗(yàn)室團(tuán)隊(duì)提出了GUIDE框架（Grounding Real-Time Human-Shaped Agents）。該框架通過兩大技術(shù)創(chuàng)新實(shí)現(xiàn)了人機(jī)協(xié)作的突破。首先，連續(xù)反饋機(jī)制重新定義了人機(jī)交互模式：訓(xùn)練者通過鼠標(biāo)在界面中連續(xù)滑動（而非點(diǎn)擊按鈕）實(shí)時評估智能體行為，反饋值范圍從-1到1連續(xù)可調(diào)（圖1）。這一設(shè)計(jì)不僅顯著提升了人類反饋的信息密度（圖2），還以更自然的交互方式減少操作干擾，保持訓(xùn)練流程連貫。

圖1. 作者提出的GUIDE是一種新穎的實(shí)時人類引導(dǎo)智能體框架，無需人工培訓(xùn)即可實(shí)現(xiàn)持續(xù)反饋和不斷改進(jìn)。

圖2. 與傳統(tǒng)的離散反饋（A）相比，同一實(shí)驗(yàn)對象在同一任務(wù)中提供的連續(xù)反饋（B）包含更豐富的信息。

其次，反饋模擬器的引入實(shí)現(xiàn)了從“人工指導(dǎo)”到“自主進(jìn)化”的平滑過渡。在人類引導(dǎo)階段，系統(tǒng)將連續(xù)反饋轉(zhuǎn)化為密集獎勵，與稀疏環(huán)境獎勵融合驅(qū)動策略優(yōu)化；進(jìn)入自動化階段后，神經(jīng)網(wǎng)絡(luò)模擬器在線學(xué)習(xí)人類反饋模式，逐步替代人工輸入（圖3）。關(guān)鍵技術(shù)層面，作者采用最先進(jìn)的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)方法，對Deep TAMER （Training an Agent Manually via Evaluative Reinforcement）進(jìn)行了改進(jìn)，實(shí)現(xiàn)了處理連續(xù)動作空間的actor-critic框架，結(jié)合模型架構(gòu)（即目標(biāo)網(wǎng)絡(luò)軟更新, target net soft update）和優(yōu)化策略（即Adam優(yōu)化器代替隨機(jī)梯度下降）方面的進(jìn)展，不僅將Deep TAMER擴(kuò)展到連續(xù)動作和最新的強(qiáng)化學(xué)習(xí)實(shí)踐中，還保持了將實(shí)時人類反饋整合到學(xué)習(xí)過程中的核心方法。

圖3. GUIDE框架包括兩個階段：在人工指導(dǎo)階段，人工培訓(xùn)師會觀察智能體的狀態(tài)和行動，并提供實(shí)時、持續(xù)的反饋。反饋值被轉(zhuǎn)化為每一步的密集獎勵，并與環(huán)境獎勵相結(jié)合。與此同時，作者訓(xùn)練一個人類反饋模擬器，該模擬器會接收狀態(tài)和行動對（state-action pair），并對反饋值進(jìn)行回歸。在自動引導(dǎo)階段，訓(xùn)練的模擬器會代替人類提供反饋，以繼續(xù)改進(jìn)策略，從而有效減少人類的工作量和認(rèn)知負(fù)荷。

為驗(yàn)證框架有效性，研究團(tuán)隊(duì)在視覺導(dǎo)航（尋寶）、多體對抗（捉迷藏）和運(yùn)動控制（保齡球）三類任務(wù)中展開系統(tǒng)性實(shí)驗(yàn)（圖4）。結(jié)果顯示，在僅接受10分鐘人類反饋加10分鐘自動化訓(xùn)練的條件下，GUIDE在尋寶任務(wù)中的成功率較DDPG（Deep Deterministic Policy Gradient）基線最高提升30%，在相同的人類指導(dǎo)時間下，較改進(jìn)版c-Deep TAMER提升50%。值得注意的是，在動態(tài)對抗的捉迷藏任務(wù)中，智能體能夠快速逼近專家設(shè)計(jì)的啟發(fā)式獎勵上限，且GUIDE達(dá)到基線相同性能所需的訓(xùn)練時間縮短一半，展現(xiàn)出顯著的計(jì)算效率優(yōu)勢。

圖4. GUIDE性能評估。在具有挑戰(zhàn)性的任務(wù)（尋寶和捉迷藏任務(wù)）中，GUIDE的表現(xiàn)始終優(yōu)于所有其他基線。

評估人類引導(dǎo)機(jī)器算法的一個重要方面是該方法對不同人類訓(xùn)練者的穩(wěn)健性。當(dāng)人類反饋模式發(fā)生改變時，通用的算法應(yīng)仍能保持強(qiáng)大的性能。然而，通常由于人類參與者的規(guī)模限制（N < 10），之前的方法往往很少討論這個方面。在圖5中，所有普通用戶（未經(jīng)訓(xùn)練，N = 50）的平均成功率都大大超過了RL基準(zhǔn)線，同時在具有挑戰(zhàn)性的尋寶任務(wù)和捉迷藏任務(wù)中，成功率也超過了經(jīng)過大幅增強(qiáng)的c-Deep TAMER。

圖5. GUIDE框架對個體差異的強(qiáng)穩(wěn)健性。從左到右，顯示了模型性能隨訓(xùn)練時間的變化情況。在每個子圖中，X軸是以任務(wù)得分量化的訓(xùn)練里程碑，Y軸表示在給定時間內(nèi)能夠訓(xùn)練智能體達(dá)到里程碑的人類比例。

從實(shí)驗(yàn)室到真實(shí)世界的挑戰(zhàn)

盡管取得顯著進(jìn)展，GUIDE框架仍存在改進(jìn)空間。當(dāng)前實(shí)驗(yàn)集中于中等規(guī)模環(huán)境，超大規(guī)模部署（如城市級導(dǎo)航）的可行性尚未驗(yàn)證；人類反饋的異構(gòu)性（如反應(yīng)速度差異）可能影響訓(xùn)練穩(wěn)定性，而反饋模擬器的黑箱特性潛藏獎勵偏移風(fēng)險(xiǎn)。展望未來，研究團(tuán)隊(duì)提出三方面發(fā)展方向：通過整合語音、手勢等多模態(tài)輸入提升交互自然性；開發(fā)自適應(yīng)延遲校準(zhǔn)機(jī)制以匹配不同用戶的認(rèn)知負(fù)載；引入可解釋AI技術(shù)監(jiān)控模擬器決策邏輯，構(gòu)建倫理安全屏障。這些改進(jìn)將推動框架從實(shí)驗(yàn)室向真實(shí)世界應(yīng)用跨越。

GUIDE框架的核心價(jià)值在于開創(chuàng)了人機(jī)協(xié)同的新范式。通過連續(xù)反饋與模擬替代的雙階段設(shè)計(jì)，它既能在10分鐘指導(dǎo)內(nèi)實(shí)現(xiàn)顯著性能提升，降低人類負(fù)擔(dān)，又通過自動化模塊平衡自主性與可控性。這項(xiàng)工作不僅為稀疏獎勵下的實(shí)時決策任務(wù)提供了高效解決方案，更為搜救機(jī)器人、醫(yī)療輔助系統(tǒng)等關(guān)鍵領(lǐng)域的人機(jī)協(xié)作繪制了技術(shù)藍(lán)圖。隨著后續(xù)研究的深入，這種融合人類直覺與機(jī)器效率的混合智能體系，有望在復(fù)雜現(xiàn)實(shí)場景中釋放更大潛能。

「大模型時代下的人機(jī)交互與協(xié)同」

讀書會

集智俱樂部聯(lián)合中國科學(xué)技術(shù)大學(xué)教授趙云波、華東師范大學(xué)副教授吳興蛟兩位老師共同發(fā)起。本次讀書會將探討：

人類智能和機(jī)器智能各自的優(yōu)勢有哪些？智能邊界如何？如何通過更有效的標(biāo)注策略和數(shù)據(jù)生成技術(shù)來解決數(shù)據(jù)稀缺問題？如何設(shè)計(jì)更加高效的人機(jī)協(xié)作系統(tǒng)，實(shí)現(xiàn)高效共贏的效果？如何提高機(jī)器決策的可解釋性與透明性，確保系統(tǒng)的可信度？如何通過多模態(tài)協(xié)作融合不同感知通道，應(yīng)對復(fù)雜的決策任務(wù)？

讀書會7月4日開始第一次分享，每周六進(jìn)行，預(yù)計(jì)持續(xù)約8周，具體時間社群通知，誠摯邀請領(lǐng)域內(nèi)研究者、尋求跨領(lǐng)域融合的研究者加入，共同探討。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.