微軟在其官方網(wǎng)站發(fā)布了一款名為 Magentic-UI 的開(kāi)源瀏覽器網(wǎng)絡(luò)任務(wù)智能體。該智能體是在之前微軟開(kāi)源的 Magentic-One 基礎(chǔ)上進(jìn)行開(kāi)發(fā)的,支持通過(guò)人機(jī)協(xié)同的方式來(lái)提升執(zhí)行效率和準(zhǔn)確性。
根據(jù)GAIA測(cè)試結(jié)果顯示,配備輔助信息的模擬用戶(hù)時(shí),Magentic-UI 的任務(wù)完成率從自主操作時(shí)的30.3%提升到了51.9%,同時(shí)準(zhǔn)確率提高了71%。此外,Magentic-UI 在執(zhí)行任務(wù)過(guò)程中,僅有10%的情況會(huì)向模擬用戶(hù)請(qǐng)求幫助,且平均每項(xiàng)任務(wù)僅需約1.1次協(xié)助。
開(kāi)源地址:https://github.com/microsoft/magentic-ui
Magentic-UI的核心優(yōu)勢(shì)之一在于其以人為中心的設(shè)計(jì)理念。不同于傳統(tǒng)Agent注重完全自動(dòng)化和機(jī)器自主執(zhí)行任務(wù),Magentic-UI更強(qiáng)調(diào)人與系統(tǒng)的深度互動(dòng)與協(xié)作。在傳統(tǒng)Agent的使用過(guò)程中,用戶(hù)往往無(wú)法全面了解系統(tǒng)的操作細(xì)節(jié)和決策過(guò)程,且在出現(xiàn)異常時(shí)難以干預(yù)和糾正。
而Magentic-UI則通過(guò)人機(jī)協(xié)作模式,將人類(lèi)的作用貫穿于整個(gè)任務(wù)執(zhí)行環(huán)節(jié),使用戶(hù)能夠?qū)崟r(shí)監(jiān)控Agent的行為,及時(shí)做出調(diào)整和指導(dǎo),從而提升任務(wù)執(zhí)行的靈活性與可靠性。這種設(shè)計(jì)不僅增強(qiáng)了用戶(hù)對(duì)系統(tǒng)的掌控感,也創(chuàng)造了更高效且可信的工作流程。
在規(guī)劃階段,Magentic-UI強(qiáng)調(diào)與用戶(hù)的協(xié)同合作,而非單純依賴(lài)預(yù)設(shè)程序或算法來(lái)制定任務(wù)方案。系統(tǒng)首先通過(guò)與用戶(hù)溝通,充分了解其需求和期望,然后生成一份初步的分步驟計(jì)劃。用戶(hù)可以借助計(jì)劃編輯器或通過(guò)文本反饋的形式,對(duì)該計(jì)劃進(jìn)行直接修改。
用戶(hù)能夠根據(jù)自身經(jīng)驗(yàn)和對(duì)任務(wù)的理解,靈活地增刪步驟、調(diào)整順序,甚至重新編寫(xiě)部分內(nèi)容,以確保計(jì)劃更貼合實(shí)際需求。這種協(xié)同規(guī)劃模式有效地融合了用戶(hù)的專(zhuān)業(yè)知識(shí)和系統(tǒng)能力,從而提升了任務(wù)執(zhí)行的質(zhì)量與效率。
在任務(wù)執(zhí)行階段,Magentic-UI依舊保持與用戶(hù)的緊密配合。系統(tǒng)會(huì)及時(shí)向用戶(hù)展示即將采取的具體操作——例如點(diǎn)擊某個(gè)按鈕、輸入信息或訪(fǎng)問(wèn)特定網(wǎng)頁(yè)等,同時(shí)實(shí)時(shí)反饋網(wǎng)頁(yè)上的相關(guān)信息,確保用戶(hù)對(duì)進(jìn)展一目了然并能做出必要的干預(yù)。
用戶(hù)可以隨時(shí)中斷Agent的操作,并通過(guò)自然語(yǔ)言向Agent反饋問(wèn)題、提出建議或進(jìn)行糾正。此外,用戶(hù)也可以直接接管瀏覽器操作,親自完成某些步驟,隨后再將控制權(quán)交還給Agent。這樣的協(xié)同執(zhí)行方式使用戶(hù)能夠及時(shí)發(fā)現(xiàn)并處理Agent在執(zhí)行過(guò)程中可能出現(xiàn)的錯(cuò)誤,避免任務(wù)失敗或帶來(lái)不良影響。
Magentic-UI還特別設(shè)立了“行動(dòng)保護(hù)”機(jī)制,在執(zhí)行可能產(chǎn)生不可逆后果的操作前,會(huì)主動(dòng)請(qǐng)求用戶(hù)確認(rèn)。這類(lèi)操作包括關(guān)閉標(biāo)簽頁(yè)、點(diǎn)擊可能帶來(lái)副作用的按鈕或提交表單等。用戶(hù)可以依據(jù)自身判斷決定是否批準(zhǔn)Agent執(zhí)行這些動(dòng)作,從而有效降低因Agent盲目操作而產(chǎn)生的風(fēng)險(xiǎn)。與此同時(shí),Magentic-UI通過(guò)沙盒技術(shù)將瀏覽器和代碼執(zhí)行器等工具運(yùn)行在受保護(hù)的獨(dú)立環(huán)境中,進(jìn)一步保障操作安全,防范潛在的安全隱患。
關(guān)于Magentic-UI的框架,當(dāng)用戶(hù)提交一個(gè)自動(dòng)化任務(wù)請(qǐng)求時(shí),系統(tǒng)首先接收用戶(hù)輸入,這可能是簡(jiǎn)單的文本指令,也可能包含圖像信息的復(fù)雜需求。系統(tǒng)的核心組件——協(xié)調(diào)器,基于強(qiáng)大的大語(yǔ)言模型(LLM)能力,生成一份詳細(xì)的初步分步驟計(jì)劃,明確指出需要訪(fǎng)問(wèn)的網(wǎng)頁(yè)、執(zhí)行的操作以及調(diào)用的輔助工具。
完成初步計(jì)劃后,Magentic-UI不會(huì)立即執(zhí)行,而是進(jìn)入關(guān)鍵的協(xié)同規(guī)劃階段。用戶(hù)可以通過(guò)直觀的計(jì)劃編輯界面對(duì)生成的任務(wù)步驟進(jìn)行調(diào)整,包括添加、刪除、調(diào)整順序,甚至重新編寫(xiě)某些步驟,從而確保最終方案更符合實(shí)際需求和用戶(hù)預(yù)期。
Magentic-UI能夠即時(shí)響應(yīng)用戶(hù)的修改建議,結(jié)合用戶(hù)反饋對(duì)任務(wù)計(jì)劃進(jìn)行調(diào)整。這種互動(dòng)保證了用戶(hù)的專(zhuān)業(yè)知識(shí)和期望能夠充分融入規(guī)劃環(huán)節(jié),從而提升任務(wù)的準(zhǔn)確性和執(zhí)行效率。
在用戶(hù)確認(rèn)或調(diào)整后,計(jì)劃進(jìn)入執(zhí)行階段。整個(gè)執(zhí)行過(guò)程保持高度透明且協(xié)作,系統(tǒng)會(huì)實(shí)時(shí)向用戶(hù)展示即將執(zhí)行的具體操作內(nèi)容,如點(diǎn)擊某個(gè)按鈕、輸入搜索詞或訪(fǎng)問(wèn)特定網(wǎng)頁(yè)。同時(shí),Magentic-UI也會(huì)持續(xù)反饋網(wǎng)頁(yè)上的相關(guān)信息,幫助用戶(hù)及時(shí)掌握進(jìn)展情況。
用戶(hù)可以隨時(shí)中止Magentic-UI的操作,通過(guò)自然語(yǔ)言提供反饋以指出問(wèn)題或提出改進(jìn)建議。如果認(rèn)為需要,用戶(hù)還可以直接接管瀏覽器,親自完成某些環(huán)節(jié),再將控制權(quán)交還給系統(tǒng)。
此外,Magentic-UI具備自我學(xué)習(xí)能力。任務(wù)完成后,它會(huì)根據(jù)用戶(hù)反饋和執(zhí)行情況不斷優(yōu)化和積累分步驟計(jì)劃,構(gòu)建一個(gè)不斷豐富的計(jì)劃庫(kù),提升未來(lái)任務(wù)的執(zhí)行效果。
在未來(lái)的使用中,當(dāng)用戶(hù)提交類(lèi)似以往的任務(wù)時(shí),Magentic-UI能夠迅速查找并應(yīng)用已有的相關(guān)計(jì)劃,顯著提升任務(wù)處理的效率。此外,用戶(hù)可以隨時(shí)訪(fǎng)問(wèn)并編輯已保存的計(jì)劃,根據(jù)實(shí)際需求進(jìn)行調(diào)整和優(yōu)化,以更好地適應(yīng)各種任務(wù)環(huán)境。
目前,Magentic-UI在GitHub上已獲得超過(guò)4200顆星的關(guān)注,同時(shí)其采用MIT許可證,支持商業(yè)用途。
我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,讓AI助力您的未來(lái)發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.