摘要
在瞬息萬變的現(xiàn)實(shí)世界中,人工智能(AI)需要在時間緊迫、反饋稀缺的場景下迅速學(xué)習(xí)并做出精準(zhǔn)決策,如搜索救援、災(zāi)難響應(yīng)和醫(yī)療急救等高風(fēng)險(xiǎn)任務(wù)。然而,傳統(tǒng)強(qiáng)化學(xué)習(xí)受限于稀疏獎勵和高維視覺輸入的復(fù)雜性,難以高效應(yīng)對動態(tài)環(huán)境。人類引導(dǎo)的機(jī)器學(xué)習(xí)雖能通過反饋提升AI能力,但離散信號的粗糙性和高昂的人工成本限制了其應(yīng)用。如何在降低人類負(fù)擔(dān)的同時,讓AI在復(fù)雜任務(wù)中實(shí)現(xiàn)實(shí)時、持續(xù)的優(yōu)化?杜克大學(xué)與陸軍研究實(shí)驗(yàn)室提出的GUIDE框架給出了突破性答案。GUIDE不僅在尋寶、捉迷藏等任務(wù)中展現(xiàn)出超越傳統(tǒng)方法的性能,還為搜救機(jī)器人、醫(yī)療輔助等領(lǐng)域的人機(jī)交互與協(xié)同繪制了技術(shù)藍(lán)圖。本文將帶你了解這一創(chuàng)新框架,揭示其在AI與人類的協(xié)作應(yīng)用上的未來可能。
關(guān)鍵詞:人工智能,人機(jī)交互,實(shí)時反饋,自主進(jìn)化
班嶄丨作者
Ava丨審校
如果你對大模型時代,人機(jī)如何交互與協(xié)作感興趣,那強(qiáng)烈推薦你加入集智俱樂部最近策劃的。
論文題目:GUIDE: Real-Time Human-Shaped Agents 論文鏈接:https://neurips.cc/virtual/2024/poster/95640
為什么需要實(shí)時人類引導(dǎo)
在現(xiàn)實(shí)世界中,許多任務(wù)(如搜索救援、災(zāi)難響應(yīng)和醫(yī)療急救)要求人工智能(AI)在時間緊迫、環(huán)境反饋稀疏的條件下快速學(xué)習(xí)并決策。傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)方法在這些場景中常因兩大瓶頸表現(xiàn)不佳:其一是稀疏獎勵困境,即成功信號極少(例如僅在找到目標(biāo)時獲得獎勵),導(dǎo)致智能體探索效率低下;其二是高維視覺輸入的挑戰(zhàn),即從原始圖像中提取有效特征并關(guān)聯(lián)長期決策太過復(fù)雜。盡管人類引導(dǎo)的機(jī)器學(xué)習(xí)(Human-in-the-Loop)通過整合人類反饋來增強(qiáng)AI學(xué)習(xí)能力,但現(xiàn)有方法仍存在顯著局限。例如,模仿學(xué)習(xí)或偏好反饋僅能提供“好/中/差”三類離散信號,無法傳遞細(xì)膩的行為指導(dǎo);同時,這些方法依賴預(yù)先收集的離線數(shù)據(jù)集,難以適應(yīng)動態(tài)環(huán)境變化,且持續(xù)的人工標(biāo)注成本高昂。更關(guān)鍵的是,人類反饋本身受個體差異(如認(rèn)知能力、反應(yīng)速度)影響,其質(zhì)量參差不齊。
如何設(shè)計(jì)一個既能有效減少人工輸入的需求,又能允許持續(xù)訓(xùn)練的強(qiáng)化學(xué)習(xí)框架?
連續(xù)反饋與自動化模擬的雙重創(chuàng)新
針對這一挑戰(zhàn),杜克大學(xué)與陸軍研究實(shí)驗(yàn)室團(tuán)隊(duì)提出了GUIDE框架(Grounding Real-Time Human-Shaped Agents)。該框架通過兩大技術(shù)創(chuàng)新實(shí)現(xiàn)了人機(jī)協(xié)作的突破。首先,連續(xù)反饋機(jī)制重新定義了人機(jī)交互模式:訓(xùn)練者通過鼠標(biāo)在界面中連續(xù)滑動(而非點(diǎn)擊按鈕)實(shí)時評估智能體行為,反饋值范圍從-1到1連續(xù)可調(diào)(圖1)。這一設(shè)計(jì)不僅顯著提升了人類反饋的信息密度(圖2),還以更自然的交互方式減少操作干擾,保持訓(xùn)練流程連貫。
圖1. 作者提出的GUIDE是一種新穎的實(shí)時人類引導(dǎo)智能體框架,無需人工培訓(xùn)即可實(shí)現(xiàn)持續(xù)反饋和不斷改進(jìn)。
圖2. 與傳統(tǒng)的離散反饋(A)相比,同一實(shí)驗(yàn)對象在同一任務(wù)中提供的連續(xù)反饋(B)包含更豐富的信息。
其次,反饋模擬器的引入實(shí)現(xiàn)了從“人工指導(dǎo)”到“自主進(jìn)化”的平滑過渡。在人類引導(dǎo)階段,系統(tǒng)將連續(xù)反饋轉(zhuǎn)化為密集獎勵,與稀疏環(huán)境獎勵融合驅(qū)動策略優(yōu)化;進(jìn)入自動化階段后,神經(jīng)網(wǎng)絡(luò)模擬器在線學(xué)習(xí)人類反饋模式,逐步替代人工輸入(圖3)。關(guān)鍵技術(shù)層面,作者采用最先進(jìn)的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)方法,對Deep TAMER (Training an Agent Manually via Evaluative Reinforcement)進(jìn)行了改進(jìn),實(shí)現(xiàn)了處理連續(xù)動作空間的actor-critic框架,結(jié)合模型架構(gòu)(即目標(biāo)網(wǎng)絡(luò)軟更新, target net soft update)和優(yōu)化策略(即Adam優(yōu)化器代替隨機(jī)梯度下降)方面的進(jìn)展,不僅將Deep TAMER擴(kuò)展到連續(xù)動作和最新的強(qiáng)化學(xué)習(xí)實(shí)踐中,還保持了將實(shí)時人類反饋整合到學(xué)習(xí)過程中的核心方法。
圖3. GUIDE框架包括兩個階段: 在人工指導(dǎo)階段,人工培訓(xùn)師會觀察智能體的狀態(tài)和行動,并提供實(shí)時、持續(xù)的反饋。反饋值被轉(zhuǎn)化為每一步的密集獎勵,并與環(huán)境獎勵相結(jié)合。與此同時,作者訓(xùn)練一個人類反饋模擬器,該模擬器會接收狀態(tài)和行動對(state-action pair),并對反饋值進(jìn)行回歸。在自動引導(dǎo)階段,訓(xùn)練的模擬器會代替人類提供反饋,以繼續(xù)改進(jìn)策略,從而有效減少人類的工作量和認(rèn)知負(fù)荷。
為驗(yàn)證框架有效性,研究團(tuán)隊(duì)在視覺導(dǎo)航(尋寶)、多體對抗(捉迷藏)和運(yùn)動控制(保齡球)三類任務(wù)中展開系統(tǒng)性實(shí)驗(yàn)(圖4)。結(jié)果顯示,在僅接受10分鐘人類反饋加10分鐘自動化訓(xùn)練的條件下,GUIDE在尋寶任務(wù)中的成功率較DDPG(Deep Deterministic Policy Gradient)基線最高提升30%,在相同的人類指導(dǎo)時間下,較改進(jìn)版c-Deep TAMER提升50%。值得注意的是,在動態(tài)對抗的捉迷藏任務(wù)中,智能體能夠快速逼近專家設(shè)計(jì)的啟發(fā)式獎勵上限,且GUIDE達(dá)到基線相同性能所需的訓(xùn)練時間縮短一半,展現(xiàn)出顯著的計(jì)算效率優(yōu)勢。
圖4. GUIDE性能評估。在具有挑戰(zhàn)性的任務(wù)(尋寶和捉迷藏任務(wù))中,GUIDE的表現(xiàn)始終優(yōu)于所有其他基線。
評估人類引導(dǎo)機(jī)器算法的一個重要方面是該方法對不同人類訓(xùn)練者的穩(wěn)健性。當(dāng)人類反饋模式發(fā)生改變時,通用的算法應(yīng)仍能保持強(qiáng)大的性能。然而,通常由于人類參與者的規(guī)模限制(N < 10),之前的方法往往很少討論這個方面。在圖5中,所有普通用戶(未經(jīng)訓(xùn)練,N = 50)的平均成功率都大大超過了RL基準(zhǔn)線,同時在具有挑戰(zhàn)性的尋寶任務(wù)和捉迷藏任務(wù)中,成功率也超過了經(jīng)過大幅增強(qiáng)的c-Deep TAMER。
圖5. GUIDE框架對個體差異的強(qiáng)穩(wěn)健性。從左到右,顯示了模型性能隨訓(xùn)練時間的變化情況。在每個子圖中,X軸是以任務(wù)得分量化的訓(xùn)練里程碑,Y軸表示在給定時間內(nèi)能夠訓(xùn)練智能體達(dá)到里程碑的人類比例。
從實(shí)驗(yàn)室到真實(shí)世界的挑戰(zhàn)
盡管取得顯著進(jìn)展,GUIDE框架仍存在改進(jìn)空間。當(dāng)前實(shí)驗(yàn)集中于中等規(guī)模環(huán)境,超大規(guī)模部署(如城市級導(dǎo)航)的可行性尚未驗(yàn)證;人類反饋的異構(gòu)性(如反應(yīng)速度差異)可能影響訓(xùn)練穩(wěn)定性,而反饋模擬器的黑箱特性潛藏獎勵偏移風(fēng)險(xiǎn)。展望未來,研究團(tuán)隊(duì)提出三方面發(fā)展方向:通過整合語音、手勢等多模態(tài)輸入提升交互自然性;開發(fā)自適應(yīng)延遲校準(zhǔn)機(jī)制以匹配不同用戶的認(rèn)知負(fù)載;引入可解釋AI技術(shù)監(jiān)控模擬器決策邏輯,構(gòu)建倫理安全屏障。這些改進(jìn)將推動框架從實(shí)驗(yàn)室向真實(shí)世界應(yīng)用跨越。
GUIDE框架的核心價(jià)值在于開創(chuàng)了人機(jī)協(xié)同的新范式。通過連續(xù)反饋與模擬替代的雙階段設(shè)計(jì),它既能在10分鐘指導(dǎo)內(nèi)實(shí)現(xiàn)顯著性能提升,降低人類負(fù)擔(dān),又通過自動化模塊平衡自主性與可控性。這項(xiàng)工作不僅為稀疏獎勵下的實(shí)時決策任務(wù)提供了高效解決方案,更為搜救機(jī)器人、醫(yī)療輔助系統(tǒng)等關(guān)鍵領(lǐng)域的人機(jī)協(xié)作繪制了技術(shù)藍(lán)圖。隨著后續(xù)研究的深入,這種融合人類直覺與機(jī)器效率的混合智能體系,有望在復(fù)雜現(xiàn)實(shí)場景中釋放更大潛能。
「大模型時代下的人機(jī)交互與協(xié)同」
讀書會
集智俱樂部聯(lián)合中國科學(xué)技術(shù)大學(xué)教授趙云波、華東師范大學(xué)副教授吳興蛟兩位老師共同發(fā)起。本次讀書會將探討:
人類智能和機(jī)器智能各自的優(yōu)勢有哪些?智能邊界如何?如何通過更有效的標(biāo)注策略和數(shù)據(jù)生成技術(shù)來解決數(shù)據(jù)稀缺問題?如何設(shè)計(jì)更加高效的人機(jī)協(xié)作系統(tǒng),實(shí)現(xiàn)高效共贏的效果?如何提高機(jī)器決策的可解釋性與透明性,確保系統(tǒng)的可信度?如何通過多模態(tài)協(xié)作融合不同感知通道,應(yīng)對復(fù)雜的決策任務(wù)?
讀書會7月4日開始第一次分享,每周六進(jìn)行,預(yù)計(jì)持續(xù)約8周,具體時間社群通知,誠摯邀請領(lǐng)域內(nèi)研究者、尋求跨領(lǐng)域融合的研究者加入,共同探討。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.