99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NeurIPS 2024|實(shí)時交互打破AI瓶頸:GUIDE解鎖人機(jī)協(xié)同新范式

0
分享至


摘要

在瞬息萬變的現(xiàn)實(shí)世界中,人工智能(AI)需要在時間緊迫、反饋稀缺的場景下迅速學(xué)習(xí)并做出精準(zhǔn)決策,如搜索救援、災(zāi)難響應(yīng)和醫(yī)療急救等高風(fēng)險(xiǎn)任務(wù)。然而,傳統(tǒng)強(qiáng)化學(xué)習(xí)受限于稀疏獎勵和高維視覺輸入的復(fù)雜性,難以高效應(yīng)對動態(tài)環(huán)境。人類引導(dǎo)的機(jī)器學(xué)習(xí)雖能通過反饋提升AI能力,但離散信號的粗糙性和高昂的人工成本限制了其應(yīng)用。如何在降低人類負(fù)擔(dān)的同時,讓AI在復(fù)雜任務(wù)中實(shí)現(xiàn)實(shí)時、持續(xù)的優(yōu)化?杜克大學(xué)與陸軍研究實(shí)驗(yàn)室提出的GUIDE框架給出了突破性答案。GUIDE不僅在尋寶、捉迷藏等任務(wù)中展現(xiàn)出超越傳統(tǒng)方法的性能,還為搜救機(jī)器人、醫(yī)療輔助等領(lǐng)域的人機(jī)交互與協(xié)同繪制了技術(shù)藍(lán)圖。本文將帶你了解這一創(chuàng)新框架,揭示其在AI與人類的協(xié)作應(yīng)用上的未來可能。

關(guān)鍵詞:人工智能,人機(jī)交互,實(shí)時反饋,自主進(jìn)化

班嶄丨作者

Ava丨審校

如果你對大模型時代,人機(jī)如何交互與協(xié)作感興趣,那強(qiáng)烈推薦你加入集智俱樂部最近策劃的。


論文題目:GUIDE: Real-Time Human-Shaped Agents 論文鏈接:https://neurips.cc/virtual/2024/poster/95640

為什么需要實(shí)時人類引導(dǎo)

在現(xiàn)實(shí)世界中,許多任務(wù)(如搜索救援、災(zāi)難響應(yīng)和醫(yī)療急救)要求人工智能(AI)在時間緊迫、環(huán)境反饋稀疏的條件下快速學(xué)習(xí)并決策。傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)方法在這些場景中常因兩大瓶頸表現(xiàn)不佳:其一是稀疏獎勵困境,即成功信號極少(例如僅在找到目標(biāo)時獲得獎勵),導(dǎo)致智能體探索效率低下;其二是高維視覺輸入的挑戰(zhàn),即從原始圖像中提取有效特征并關(guān)聯(lián)長期決策太過復(fù)雜。盡管人類引導(dǎo)的機(jī)器學(xué)習(xí)(Human-in-the-Loop)通過整合人類反饋來增強(qiáng)AI學(xué)習(xí)能力,但現(xiàn)有方法仍存在顯著局限。例如,模仿學(xué)習(xí)或偏好反饋僅能提供“好/中/差”三類離散信號,無法傳遞細(xì)膩的行為指導(dǎo);同時,這些方法依賴預(yù)先收集的離線數(shù)據(jù)集,難以適應(yīng)動態(tài)環(huán)境變化,且持續(xù)的人工標(biāo)注成本高昂。更關(guān)鍵的是,人類反饋本身受個體差異(如認(rèn)知能力、反應(yīng)速度)影響,其質(zhì)量參差不齊。

如何設(shè)計(jì)一個既能有效減少人工輸入的需求,又能允許持續(xù)訓(xùn)練的強(qiáng)化學(xué)習(xí)框架?

連續(xù)反饋與自動化模擬的雙重創(chuàng)新

針對這一挑戰(zhàn),杜克大學(xué)與陸軍研究實(shí)驗(yàn)室團(tuán)隊(duì)提出了GUIDE框架(Grounding Real-Time Human-Shaped Agents)。該框架通過兩大技術(shù)創(chuàng)新實(shí)現(xiàn)了人機(jī)協(xié)作的突破。首先,連續(xù)反饋機(jī)制重新定義了人機(jī)交互模式:訓(xùn)練者通過鼠標(biāo)在界面中連續(xù)滑動(而非點(diǎn)擊按鈕)實(shí)時評估智能體行為,反饋值范圍從-1到1連續(xù)可調(diào)(圖1)。這一設(shè)計(jì)不僅顯著提升了人類反饋的信息密度(圖2),還以更自然的交互方式減少操作干擾,保持訓(xùn)練流程連貫。


圖1. 作者提出的GUIDE是一種新穎的實(shí)時人類引導(dǎo)智能體框架,無需人工培訓(xùn)即可實(shí)現(xiàn)持續(xù)反饋和不斷改進(jìn)。


圖2. 與傳統(tǒng)的離散反饋(A)相比,同一實(shí)驗(yàn)對象在同一任務(wù)中提供的連續(xù)反饋(B)包含更豐富的信息。

其次,反饋模擬器的引入實(shí)現(xiàn)了從“人工指導(dǎo)”到“自主進(jìn)化”的平滑過渡。在人類引導(dǎo)階段,系統(tǒng)將連續(xù)反饋轉(zhuǎn)化為密集獎勵,與稀疏環(huán)境獎勵融合驅(qū)動策略優(yōu)化;進(jìn)入自動化階段后,神經(jīng)網(wǎng)絡(luò)模擬器在線學(xué)習(xí)人類反饋模式,逐步替代人工輸入(圖3)。關(guān)鍵技術(shù)層面,作者采用最先進(jìn)的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)方法,對Deep TAMER (Training an Agent Manually via Evaluative Reinforcement)進(jìn)行了改進(jìn),實(shí)現(xiàn)了處理連續(xù)動作空間的actor-critic框架,結(jié)合模型架構(gòu)(即目標(biāo)網(wǎng)絡(luò)軟更新, target net soft update)和優(yōu)化策略(即Adam優(yōu)化器代替隨機(jī)梯度下降)方面的進(jìn)展,不僅將Deep TAMER擴(kuò)展到連續(xù)動作和最新的強(qiáng)化學(xué)習(xí)實(shí)踐中,還保持了將實(shí)時人類反饋整合到學(xué)習(xí)過程中的核心方法。


圖3. GUIDE框架包括兩個階段: 在人工指導(dǎo)階段,人工培訓(xùn)師會觀察智能體的狀態(tài)和行動,并提供實(shí)時、持續(xù)的反饋。反饋值被轉(zhuǎn)化為每一步的密集獎勵,并與環(huán)境獎勵相結(jié)合。與此同時,作者訓(xùn)練一個人類反饋模擬器,該模擬器會接收狀態(tài)和行動對(state-action pair),并對反饋值進(jìn)行回歸。在自動引導(dǎo)階段,訓(xùn)練的模擬器會代替人類提供反饋,以繼續(xù)改進(jìn)策略,從而有效減少人類的工作量和認(rèn)知負(fù)荷。

為驗(yàn)證框架有效性,研究團(tuán)隊(duì)在視覺導(dǎo)航(尋寶)、多體對抗(捉迷藏)和運(yùn)動控制(保齡球)三類任務(wù)中展開系統(tǒng)性實(shí)驗(yàn)(圖4)。結(jié)果顯示,在僅接受10分鐘人類反饋加10分鐘自動化訓(xùn)練的條件下,GUIDE在尋寶任務(wù)中的成功率較DDPG(Deep Deterministic Policy Gradient)基線最高提升30%,在相同的人類指導(dǎo)時間下,較改進(jìn)版c-Deep TAMER提升50%。值得注意的是,在動態(tài)對抗的捉迷藏任務(wù)中,智能體能夠快速逼近專家設(shè)計(jì)的啟發(fā)式獎勵上限,且GUIDE達(dá)到基線相同性能所需的訓(xùn)練時間縮短一半,展現(xiàn)出顯著的計(jì)算效率優(yōu)勢。


圖4. GUIDE性能評估。在具有挑戰(zhàn)性的任務(wù)(尋寶和捉迷藏任務(wù))中,GUIDE的表現(xiàn)始終優(yōu)于所有其他基線。

評估人類引導(dǎo)機(jī)器算法的一個重要方面是該方法對不同人類訓(xùn)練者的穩(wěn)健性。當(dāng)人類反饋模式發(fā)生改變時,通用的算法應(yīng)仍能保持強(qiáng)大的性能。然而,通常由于人類參與者的規(guī)模限制(N < 10),之前的方法往往很少討論這個方面。在圖5中,所有普通用戶(未經(jīng)訓(xùn)練,N = 50)的平均成功率都大大超過了RL基準(zhǔn)線,同時在具有挑戰(zhàn)性的尋寶任務(wù)和捉迷藏任務(wù)中,成功率也超過了經(jīng)過大幅增強(qiáng)的c-Deep TAMER。


圖5. GUIDE框架對個體差異的強(qiáng)穩(wěn)健性。從左到右,顯示了模型性能隨訓(xùn)練時間的變化情況。在每個子圖中,X軸是以任務(wù)得分量化的訓(xùn)練里程碑,Y軸表示在給定時間內(nèi)能夠訓(xùn)練智能體達(dá)到里程碑的人類比例。

從實(shí)驗(yàn)室到真實(shí)世界的挑戰(zhàn)

盡管取得顯著進(jìn)展,GUIDE框架仍存在改進(jìn)空間。當(dāng)前實(shí)驗(yàn)集中于中等規(guī)模環(huán)境,超大規(guī)模部署(如城市級導(dǎo)航)的可行性尚未驗(yàn)證;人類反饋的異構(gòu)性(如反應(yīng)速度差異)可能影響訓(xùn)練穩(wěn)定性,而反饋模擬器的黑箱特性潛藏獎勵偏移風(fēng)險(xiǎn)。展望未來,研究團(tuán)隊(duì)提出三方面發(fā)展方向:通過整合語音、手勢等多模態(tài)輸入提升交互自然性;開發(fā)自適應(yīng)延遲校準(zhǔn)機(jī)制以匹配不同用戶的認(rèn)知負(fù)載;引入可解釋AI技術(shù)監(jiān)控模擬器決策邏輯,構(gòu)建倫理安全屏障。這些改進(jìn)將推動框架從實(shí)驗(yàn)室向真實(shí)世界應(yīng)用跨越。

GUIDE框架的核心價(jià)值在于開創(chuàng)了人機(jī)協(xié)同的新范式。通過連續(xù)反饋與模擬替代的雙階段設(shè)計(jì),它既能在10分鐘指導(dǎo)內(nèi)實(shí)現(xiàn)顯著性能提升,降低人類負(fù)擔(dān),又通過自動化模塊平衡自主性與可控性。這項(xiàng)工作不僅為稀疏獎勵下的實(shí)時決策任務(wù)提供了高效解決方案,更為搜救機(jī)器人、醫(yī)療輔助系統(tǒng)等關(guān)鍵領(lǐng)域的人機(jī)協(xié)作繪制了技術(shù)藍(lán)圖。隨著后續(xù)研究的深入,這種融合人類直覺與機(jī)器效率的混合智能體系,有望在復(fù)雜現(xiàn)實(shí)場景中釋放更大潛能。

「大模型時代下的人機(jī)交互與協(xié)同」

讀書會

集智俱樂部聯(lián)合中國科學(xué)技術(shù)大學(xué)教授趙云波、華東師范大學(xué)副教授吳興蛟兩位老師共同發(fā)起。本次讀書會將探討:

人類智能和機(jī)器智能各自的優(yōu)勢有哪些?智能邊界如何?如何通過更有效的標(biāo)注策略和數(shù)據(jù)生成技術(shù)來解決數(shù)據(jù)稀缺問題?如何設(shè)計(jì)更加高效的人機(jī)協(xié)作系統(tǒng),實(shí)現(xiàn)高效共贏的效果?如何提高機(jī)器決策的可解釋性與透明性,確保系統(tǒng)的可信度?如何通過多模態(tài)協(xié)作融合不同感知通道,應(yīng)對復(fù)雜的決策任務(wù)?

讀書會7月4日開始第一次分享,每周六進(jìn)行,預(yù)計(jì)持續(xù)約8周,具體時間社群通知,誠摯邀請領(lǐng)域內(nèi)研究者、尋求跨領(lǐng)域融合的研究者加入,共同探討。

詳情請見:

1.

2.

3.

4.

5.

6.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京軍區(qū)司令空缺,林彪趁機(jī)點(diǎn)將,毛主席反問:是你四野的人吧?

北京軍區(qū)司令空缺,林彪趁機(jī)點(diǎn)將,毛主席反問:是你四野的人吧?

南書房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機(jī)壞了!官方緊急回應(yīng)

突然崩了!很多人以為手機(jī)壞了!官方緊急回應(yīng)

浙江之聲
2025-07-21 11:06:07
宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險(xiǎn)了

宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險(xiǎn)了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時我看起來沮喪只因?yàn)槲蚁胨X

楊瀚森:不在乎別人看法,有時我看起來沮喪只因?yàn)槲蚁胨X

懂球帝
2025-07-21 10:53:50
歐盟向我國出手后,德財(cái)長:中國“垃圾產(chǎn)品”,誓言清零中國制造

歐盟向我國出手后,德財(cái)長:中國“垃圾產(chǎn)品”,誓言清零中國制造

游古史
2025-07-21 11:13:05
衛(wèi)生間男女標(biāo)識亂象叢生,抽象粗俗、不良暗示,人民日報(bào)下場怒批

衛(wèi)生間男女標(biāo)識亂象叢生,抽象粗俗、不良暗示,人民日報(bào)下場怒批

大魚簡科
2025-07-20 11:37:40
王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

小娛樂悠悠
2025-07-21 09:39:48
LV近42萬香港客戶資料外泄,香港隱私公署展開調(diào)查

LV近42萬香港客戶資料外泄,香港隱私公署展開調(diào)查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊(duì)記列新援優(yōu)缺點(diǎn)

湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊(duì)記列新援優(yōu)缺點(diǎn)

羅說NBA
2025-07-21 10:10:45
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛車

今天說故事
2025-07-02 17:31:55
終于離隊(duì)了!布倫森:我感覺每一年步行者都在賣特納

終于離隊(duì)了!布倫森:我感覺每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

患者心跳未停就被開胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

中產(chǎn)生活指南針
2025-07-21 12:51:22
1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

天夢見證
2025-07-14 22:02:22
25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

無名講堂
2025-07-18 18:44:40
明日開播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

明日開播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產(chǎn)證上的人去世了,家人一直住著,不辦過戶行不行?

房產(chǎn)證上的人去世了,家人一直住著,不辦過戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識技能
5234文章數(shù) 4646關(guān)注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰(zhàn)術(shù)

娛樂要聞

周渝民談大S離開,F(xiàn)4會努力再合體

財(cái)經(jīng)要聞

宗馥莉?yàn)楹我獙?小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設(shè)計(jì)師全新力作 榮威M7正式亮相

態(tài)度原創(chuàng)

游戲
家居
親子
本地
公開課

外媒點(diǎn)名10款被微交易毀掉的神作:第1曾是現(xiàn)象級作品

家居要聞

別樣老上海 重塑復(fù)古優(yōu)雅

親子要聞

天水幼兒園鉛中毒大結(jié)局!央視通報(bào)調(diào)查結(jié)果,這次終于真相大白了

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 庆云县| 汶上县| 竹溪县| 呼和浩特市| 盱眙县| 邓州市| 神木县| 鄂州市| 蒙自县| 闽清县| 咸宁市| 台南县| 河源市| 扶风县| 盐山县| 昌图县| 邹城市| 金沙县| 图木舒克市| 凌源市| 洪洞县| 嵊州市| 阜阳市| 玉山县| 诏安县| 余干县| 文成县| 资中县| 乡城县| 基隆市| 花莲县| 江津市| 建阳市| 汽车| 阜平县| 秀山| 韩城市| 潢川县| 九江市| 江华| 威信县|