網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一文搞懂：RAG、Agent與多模態(tài)的行業(yè)實(shí)踐與未來(lái)趨勢(shì)

2025-04-27 15:18:54　來(lái)源: AI科技大本營(yíng)

北京舉報(bào)

分享至

大模型作為產(chǎn)業(yè)變革的核心引擎。通過(guò)RAG、Agent與多模態(tài)技術(shù)正在重塑AI與現(xiàn)實(shí)的交互邊界。三者協(xié)同演進(jìn)，不僅攻克了數(shù)據(jù)時(shí)效性、專業(yè)適配等核心挑戰(zhàn)，更推動(dòng)行業(yè)從效率革新邁向業(yè)務(wù)重構(gòu)。本文將解析技術(shù)演進(jìn)脈絡(luò)、實(shí)戰(zhàn)經(jīng)驗(yàn)與未來(lái)圖景，為讀者提供前沿趨勢(shì)的全局視角與產(chǎn)業(yè)升級(jí)的實(shí)踐指引。

作者 | 蔣進(jìn)

出品丨騰訊云開(kāi)發(fā)者

大模型技術(shù)正加速滲透至產(chǎn)業(yè)核心場(chǎng)景，成為驅(qū)動(dòng)數(shù)字化轉(zhuǎn)型的智能引擎。全球機(jī)器學(xué)習(xí)大會(huì)（ML-Summit）聚焦大模型技術(shù)的創(chuàng)新突破與產(chǎn)業(yè)實(shí)踐，深入探討其前沿方向與落地路徑。作為AI發(fā)展的核心驅(qū)動(dòng)力，檢索增強(qiáng)生成（RAG）通過(guò)動(dòng)態(tài)知識(shí)融合技術(shù)突破大模型的靜態(tài)知識(shí)邊界；智能體（Agent）借助自主決策與多任務(wù)協(xié)同能力重構(gòu)人機(jī)協(xié)作范式；多模態(tài)大模型則依托跨模態(tài)語(yǔ)義理解技術(shù)解鎖復(fù)雜場(chǎng)景的落地潛力。三者協(xié)同演進(jìn)，不僅攻克了數(shù)據(jù)時(shí)效性、隱私安全與專業(yè)適配等關(guān)鍵難題，更在醫(yī)療診斷、金融風(fēng)控、智能制造等領(lǐng)域催生從效率革新到業(yè)務(wù)重構(gòu)的行業(yè)級(jí)變革。

ML-Summit會(huì)議大模型內(nèi)容分布

RAG：大模型的動(dòng)態(tài)知識(shí)引擎，解決模型靜態(tài)知識(shí)邊界、時(shí)效性與可信度問(wèn)題。

Agent：大模型的智能執(zhí)行中樞，賦予模型自主規(guī)劃、決策與工具調(diào)用能力。

多模態(tài)：大模型的感知升級(jí)底座，突破單一模態(tài)理解限制，實(shí)現(xiàn)真實(shí)世界全息認(rèn)知。

知識(shí)增強(qiáng)（RAG）→ 行為智能（Agent）→ 感知升級(jí)（多模態(tài)）→ 完整智能體

RAG：大模型觸手

RAG（Retrieval-Augmented Generation，檢索增強(qiáng)生成）是一種結(jié)合信息檢索與生成模型的技術(shù)。其核心思想是：在生成答案前，先從外部知識(shí)庫(kù)（如文檔、數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)）中檢索相關(guān)證據(jù)，再基于檢索結(jié)果和用戶輸入生成更準(zhǔn)確、可靠的回答。如下圖所示為一個(gè)最簡(jiǎn)RAG示意圖。

（注：圖源網(wǎng)絡(luò)）

從形態(tài)上說(shuō)，LLM充當(dāng)大腦角色用于生成答案，檢索充當(dāng)觸手角色用于收集證據(jù)。RAG就是一個(gè)帶觸手（外掛知識(shí)庫(kù)）的大模型系統(tǒng)。

1.1 為什么需要RAG

大模型在很多領(lǐng)域表現(xiàn)出色，但依然存在局限性，這些局限性使得RAG成為大模型的重要補(bǔ)充。

模型能力：大模型訓(xùn)練完成后模型的能力就固定了。比如：我們問(wèn)ChatGPT東方甄選小作文的事情，ChatGPT表示不知道。原因是：GPT-4訓(xùn)練數(shù)據(jù)知識(shí)收集截止到2023年10月份。RAG通過(guò)外掛實(shí)時(shí)知識(shí)庫(kù)，可以有效改善這類問(wèn)題。

ChatGPT時(shí)效性

數(shù)據(jù)隱私：大模型很難覆蓋隱私數(shù)據(jù)和私域數(shù)據(jù)，本地部署RAG系統(tǒng)，也可以改善此類問(wèn)題。

可解析性：RAG檢索結(jié)果提供事實(shí)依據(jù)，減少猜測(cè)性回答。同時(shí)生成答案可標(biāo)注來(lái)源文檔，增強(qiáng)可信度。

成本優(yōu)化：長(zhǎng)上下文模型，處理全文輸入成本高，RAG檢索關(guān)鍵片段壓縮輸入長(zhǎng)度，使得RAG在處理長(zhǎng)文本時(shí)更加效。

LLM與RAG差異

RAG不僅解決大模型的局限性，也帶來(lái)更高的生成質(zhì)量和成本優(yōu)化，RAG可以根據(jù)不同領(lǐng)域的需求，定制化地提供專業(yè)答案。

1.2 RAG存在挑戰(zhàn)

盡管RAG帶來(lái)了許多優(yōu)勢(shì)，但在實(shí)際應(yīng)用中面臨一些挑戰(zhàn)，特別是在RAG構(gòu)建過(guò)程中。RAG構(gòu)建包含4個(gè)主要步驟：文檔轉(zhuǎn)為數(shù)據(jù)、數(shù)據(jù)分塊、數(shù)據(jù)向量化、向量存儲(chǔ)。

1.2.1 文本向量化難點(diǎn)

文檔以文字為主，也包含圖片、表格、公式等信息。文檔中存在成千上百萬(wàn)的文字信息，大量數(shù)據(jù)后如何對(duì)數(shù)據(jù)分塊（涉及權(quán)衡文本顆粒度、上下文的完整性）選擇適合的文本顆粒度（數(shù)據(jù)分塊）能夠平衡檢索的精準(zhǔn)和召回。

RAG構(gòu)建過(guò)程中存在的挑戰(zhàn)

1.2.2 多模態(tài)文檔難點(diǎn)

多模態(tài)文檔中圖片、圖表等結(jié)構(gòu)化多模態(tài)內(nèi)容處理方式更加復(fù)雜。如何將不同模態(tài)的數(shù)據(jù)（文本，圖像、視頻）融合在一起，提高理解的準(zhǔn)確性是挑戰(zhàn)。

多模態(tài)文檔結(jié)構(gòu)復(fù)雜（注：圖源網(wǎng)絡(luò)）

目前針對(duì)復(fù)雜文檔結(jié)構(gòu)處理鏈路包含四個(gè)階段：文檔解析器（ocr識(shí)別及坐標(biāo)、圖片識(shí)別及坐標(biāo)、工具解析器等）、文檔結(jié)構(gòu)化（為數(shù)據(jù)建立索引順序）、文檔理解（數(shù)據(jù)整理為可序列化的結(jié)構(gòu)）。整體看文檔的解析鏈路長(zhǎng)，步驟多，內(nèi)容不好校核。

復(fù)雜文檔常規(guī)解析鏈路（注：圖源網(wǎng)絡(luò)）

1.2.2 可控檢索難點(diǎn)

檢索錯(cuò)誤是RAG應(yīng)用中的一個(gè)常見(jiàn)問(wèn)題，比如：噪聲數(shù)據(jù)、數(shù)據(jù)分塊（上下文錯(cuò)誤處理）、特性向量化過(guò)程（BGE能力不足）等等。召回率與精準(zhǔn)率是一個(gè)對(duì)立矛盾體。因此需要對(duì)RAG系統(tǒng)做可控處理。

RAG可控處理一種思路

1.3 RAG發(fā)展

因多模態(tài)數(shù)據(jù)處理與向量化檢索的技術(shù)瓶頸，RAG系統(tǒng)的穩(wěn)定性常受制約，因此推動(dòng)多模態(tài)文檔的統(tǒng)一化處理范式與新一代檢索架構(gòu)，成為突破RAG能力邊界的兩大關(guān)鍵路徑。

1.3.1 多模態(tài)文檔處理

在視覺(jué)問(wèn)答（VAQ）任務(wù)中，多模態(tài)文檔的解析需融合文本與布局理解能力。例如，當(dāng)解析“兩個(gè)品牌在分辨率參數(shù)上的差異”時(shí)，模型不僅需識(shí)別圖像中的文字內(nèi)容，還需解析文本間的排版邏輯與表格結(jié)構(gòu)信息。若要在回答時(shí)提升準(zhǔn)確性，需確保模型在處理文本時(shí)保留其原始結(jié)構(gòu)特征。

多模態(tài)模型提取文字及視覺(jué)問(wèn)答

多模態(tài)處理文檔不僅可以將不同模態(tài)的數(shù)據(jù)（文本、圖像、表格）映射到同一個(gè)語(yǔ)義空間，進(jìn)而提高數(shù)據(jù)的可用性和檢索效率，也有利于模型對(duì)于文檔的理解。

1.3.2 基于記憶驅(qū)動(dòng)RAG

RAG的另一個(gè)發(fā)展方向是記憶驅(qū)動(dòng)RAG。與傳統(tǒng)的基于向量的RAG相比，記憶驅(qū)動(dòng)RAG利用LLM的KV緩存作為動(dòng)態(tài)索引，具備更高的靈活性和適應(yīng)性。如圖所示Standard RAG與Meno RAG在原理及使用方式存在明顯區(qū)別。

向量RAG與Meno RAG的差異

使用場(chǎng)景：若需求為靜態(tài)知識(shí)快速檢索（如客服標(biāo)準(zhǔn)問(wèn)答），優(yōu)先選擇向量RAG；BGE（智源通用嵌入模型）、Jina Embeddings（長(zhǎng)文本優(yōu)化）。若需求為動(dòng)態(tài)交互與終身學(xué)習(xí)（如個(gè)性化醫(yī)療助手），探索記憶驅(qū)動(dòng)RAG Memo RAG（智源研究院）：KV緩存壓縮 + 動(dòng)態(tài)記憶索引。

Agent：大模型集成體

Agent技術(shù)是大模型的重要集成體，能夠?qū)崿F(xiàn)自主執(zhí)行任務(wù)、做出決策和與環(huán)境互動(dòng)。如圖所示，海綿寶寶的形象展示一個(gè)大模型如何一步步進(jìn)化為一個(gè)超強(qiáng)的智能體。

注：圖源網(wǎng)絡(luò)

2.1 Agent概要

AI agent是指使用 AI 技術(shù)設(shè)計(jì)和編程的一種計(jì)算機(jī)程序，其可以獨(dú)立地進(jìn)行某些任務(wù)并對(duì)環(huán)境做出反應(yīng)。AI代理可以被視為一個(gè)智能體，它能夠感知其環(huán)境，自己決策和行動(dòng)來(lái)改變環(huán)境。如圖所示是一個(gè)最簡(jiǎn)Agent系統(tǒng)圖。

Agent系統(tǒng)圖

Agent通過(guò)結(jié)合LLM、規(guī)劃、反饋和工具，形成一個(gè)完整的智能系統(tǒng)。Agent包含感知層、決策層、執(zhí)行層，最終形成具有自主性、反應(yīng)性、主動(dòng)性和社會(huì)性。

2.2 Agent實(shí)踐

已有不少Agent開(kāi)源項(xiàng)目，通過(guò)項(xiàng)目實(shí)踐可加深對(duì)Agent理解。Agent實(shí)踐分為兩種類型：自主智能體和生成智能體。

2.2.1 自主智能與生成智能

自主智能體：自主執(zhí)行任務(wù)、做出決策和與環(huán)境互動(dòng)的智能系統(tǒng)。生成智能體：利用生成模型來(lái)創(chuàng)造新的數(shù)據(jù)或內(nèi)容的智能系統(tǒng)。如圖所示，Auto-GPT（自主智能）自問(wèn)自答，斯坦福小鎮(zhèn)虛擬世界（生成智能）。

自主智能體與生成智能體的區(qū)別：

2.2.2 Agent核心框架

成熟的Agent框架可降低開(kāi)發(fā)成本，MetaGPT和AutoGen是當(dāng)前最流行的兩個(gè)框架。MetaGPT通過(guò)為GPT模型分配不同角色來(lái)模擬協(xié)作的軟件公司結(jié)構(gòu)，以處理復(fù)雜任務(wù)；AutoGen作為開(kāi)源框架，專注于通過(guò)多智能體對(duì)話和增強(qiáng)的LLM推理開(kāi)發(fā)大型語(yǔ)言模型應(yīng)用。

MetaGPT與AutoGen對(duì)比

MetaGPT和AutoGen各有特點(diǎn)，MetaGPT：軟件公司的“數(shù)字CTO”；AutoGen：定制化AI的“樂(lè)高工廠。MetaGPT更適合需要全面自動(dòng)化和協(xié)作的軟件開(kāi)發(fā)任務(wù)，而AutoGen更適合需要靈活定制和對(duì)話的LLM應(yīng)用開(kāi)發(fā)。

2.2.3 Multi-Agent系統(tǒng)

現(xiàn)實(shí)世界任務(wù)往往過(guò)于復(fù)雜，單Agent難以勝任，需要多個(gè)Agent協(xié)作。以漫畫(huà)圖所示，從一個(gè)需求到最終交付的產(chǎn)品。首先：計(jì)劃、需求分析、框架設(shè)計(jì)、系統(tǒng)方案、編碼實(shí)現(xiàn)、功能性測(cè)試，最后是產(chǎn)品交付。如此復(fù)雜的系統(tǒng)需要多人合作，Multi-Agent系統(tǒng)在處理復(fù)雜任務(wù)方面具有顯著優(yōu)勢(shì)。

單智能體與多智能體，無(wú)論在任務(wù)類型與核心技術(shù)都存在明顯差別。

單智能體與多智能體對(duì)比

任務(wù)解構(gòu)能力：通過(guò)分布式子任務(wù)分工協(xié)作，Multi-Agent系統(tǒng)能夠分解任務(wù)，提高了任務(wù)處理的效率。
效能突破邊界：通過(guò)并行架構(gòu)和冗余容錯(cuò)設(shè)計(jì)，Multi-Agent系統(tǒng)能夠顯著提高計(jì)算效率和系統(tǒng)魯棒性。
動(dòng)態(tài)環(huán)境適應(yīng)：通過(guò)實(shí)時(shí)交互網(wǎng)絡(luò)，Multi-Agent系統(tǒng)能夠快速適應(yīng)動(dòng)態(tài)環(huán)境，更好地應(yīng)對(duì)復(fù)雜變化環(huán)境。

2.3 Agent應(yīng)用

盡管Agent技術(shù)在多個(gè)領(lǐng)域展示了其強(qiáng)大的應(yīng)用價(jià)值，但我們也面臨一些挑戰(zhàn)。

2.3.1 應(yīng)用難點(diǎn)

如圖所示顯示各方面的挑戰(zhàn)，如：技術(shù)能力、系統(tǒng)設(shè)計(jì)、安全性及經(jīng)濟(jì)效益。

應(yīng)對(duì)上述問(wèn)題存在的方案：

復(fù)雜任務(wù)規(guī)劃，通過(guò)分層的方式逐步解決復(fù)雜任務(wù)。
動(dòng)態(tài)環(huán)境適應(yīng)：元學(xué)習(xí)（Meta-Learning）+ 世界模型可以提高Agent在動(dòng)態(tài)環(huán)境中的適應(yīng)能力。
多智能體協(xié)作：通過(guò)博弈論和聯(lián)邦學(xué)習(xí)，多智能體系統(tǒng)實(shí)現(xiàn)高效的協(xié)作。
可解釋性提升：因果推理模型 + 決策樹(shù)蒸餾可以提高Agent的可解釋性，Agent的決策過(guò)程更加透明。
價(jià)值觀對(duì)齊：基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）可以解決Agent的價(jià)值觀對(duì)齊問(wèn)題。

2.3.2 行業(yè)應(yīng)用

Agent技術(shù)在多個(gè)領(lǐng)域展示了其強(qiáng)大的應(yīng)用價(jià)值。

Agent行業(yè)應(yīng)用效果

Agent的落地應(yīng)用始終面臨真實(shí)世界的復(fù)雜性挑戰(zhàn)。要處理工業(yè)質(zhì)檢中的視覺(jué)缺陷檢測(cè)、金融報(bào)告中的圖表解析等任務(wù)，必須突破單模態(tài)限制——這正是多模態(tài)大模型的技術(shù)使命。

多模態(tài)技術(shù)應(yīng)用

多模態(tài)大模型的應(yīng)用非常廣泛，涵蓋了多個(gè)行業(yè)和領(lǐng)域。本文分享三個(gè)團(tuán)隊(duì)的工作，紫東太初多模態(tài)預(yù)訓(xùn)練、360團(tuán)隊(duì)多模態(tài)世界目標(biāo)檢測(cè)、騰訊團(tuán)隊(duì)視頻號(hào)多模態(tài)審核。

3.1 紫東太初--多模態(tài)任務(wù)統(tǒng)一

將目標(biāo)檢測(cè)、分割、OCR等傳統(tǒng)CV任務(wù)統(tǒng)一到圖文大模型中是紫東太初項(xiàng)目中的核心技術(shù)之一。使用LLM的自回歸統(tǒng)一編碼預(yù)測(cè)，在統(tǒng)一表達(dá)的同時(shí)，顯式增強(qiáng)了圖文大模型的局部感知能力。

任務(wù)設(shè)計(jì)：為了加強(qiáng)多模態(tài)大模型視覺(jué)局部理解能力，在MLLM回歸任務(wù)中統(tǒng)一傳統(tǒng)CV任務(wù)，數(shù)據(jù)集新增了900k條包含box，mask，細(xì)粒度標(biāo)準(zhǔn)的定位數(shù)據(jù)。不同的多模態(tài)任務(wù)通過(guò)指令跟隨實(shí)現(xiàn)，比如指代檢測(cè)、指代分割等。

CV與文本任務(wù)統(tǒng)一（注：紫東太初團(tuán)隊(duì)在ML-Summit大會(huì)分享）

訓(xùn)練策略：第一階段使用圖文數(shù)據(jù)對(duì)，實(shí)現(xiàn)模型跨模態(tài)間對(duì)齊；第二階段，使用多模態(tài)指代任務(wù)以及一系列細(xì)粒度任務(wù)，增強(qiáng)模型數(shù)據(jù)能力。第三階段，運(yùn)用強(qiáng)化學(xué)習(xí)，讓模型更好跟隨用戶指令，明白使用意圖。

不同階段訓(xùn)練策略（注：紫東太初團(tuán)隊(duì)在ML-Summit大會(huì)分享）

模型效果：訓(xùn)練多模態(tài)大模型不僅有優(yōu)秀的通用能力，也擁有視覺(jué)定位功能。視覺(jué)Grounding任務(wù)超越同期最優(yōu)定位優(yōu)化模型CogVLM-17B首次在目標(biāo)檢測(cè)、開(kāi)放目標(biāo)計(jì)數(shù)任務(wù)上精度超越多個(gè)目標(biāo)檢測(cè)、目標(biāo)計(jì)數(shù)專有模型。

3.2 360研究院--開(kāi)放世界目標(biāo)檢測(cè)

360研究院的開(kāi)放世界目標(biāo)檢測(cè)技術(shù)，已廣泛應(yīng)用于智能硬件、自動(dòng)駕駛等領(lǐng)域。傳統(tǒng)小模型因泛化能力不足難以應(yīng)對(duì)開(kāi)放場(chǎng)景的檢測(cè)需求，而該任務(wù)恰恰是多模態(tài)大模型構(gòu)建通用感知能力的關(guān)鍵環(huán)節(jié)。檢測(cè)能力為何成為多模態(tài)大模型的必備屬性？其必要性主要體現(xiàn)在以下四方面：

盡管目標(biāo)檢測(cè)能夠幫助多模態(tài)大模型提升能力，但在實(shí)際應(yīng)用中也需要解決以下幾個(gè)挑戰(zhàn)。首先是數(shù)據(jù)獲取與標(biāo)注瓶頸，未知類別數(shù)據(jù)稀缺。其次是數(shù)據(jù)分布復(fù)雜性挑戰(zhàn)，長(zhǎng)尾類別識(shí)別困境。最后是模型能力跨類遷移能力弱，環(huán)境適應(yīng)性不足。

3.3 騰訊--多模態(tài)視頻號(hào)審核

隨著視頻號(hào)平臺(tái)內(nèi)容生態(tài)的快速擴(kuò)張，視頻內(nèi)容及用戶評(píng)論數(shù)量呈現(xiàn)持續(xù)高速增長(zhǎng)態(tài)勢(shì)，而人工審核（人審）在應(yīng)對(duì)海量審核任務(wù)時(shí)正面臨明顯的效率瓶頸與質(zhì)量挑戰(zhàn)。為有效提升內(nèi)容審核的時(shí)效性與準(zhǔn)確性，亟需構(gòu)建覆蓋算法模型優(yōu)化、審核機(jī)制創(chuàng)新、標(biāo)準(zhǔn)體系完善及數(shù)據(jù)可解析性提升等維度的綜合解決方案。

模型層面：引入垂類大模型。

強(qiáng)大的自然語(yǔ)言處理能力，準(zhǔn)確識(shí)別潛在的違規(guī)信息。多模態(tài)模型可以多種類型的數(shù)據(jù)，全面覆蓋審核需求。

審核層面：分甬道審核流程。

疑似低違規(guī)（白甬道）：對(duì)于疑似違規(guī)程度低的內(nèi)容，簡(jiǎn)化審核流程，減少人工干預(yù)，從而大幅提高審核效率。

疑似高違規(guī)（黑甬道）：對(duì)于疑似違規(guī)程度高的內(nèi)容，并提供違規(guī)信息的預(yù)警，幫助審核員集中精力處理高違規(guī)內(nèi)容。

視頻號(hào)審核系統(tǒng)解決方案

多維度特征輸入：視頻圖片，文本內(nèi)容（標(biāo)題、圖片OCR、ASR、評(píng)論）等多維度數(shù)據(jù)，幫助模型更準(zhǔn)確地判斷是否有害。

模型基座預(yù)訓(xùn)練：模型輔助+人工標(biāo)注的方式構(gòu)建垂類場(chǎng)景預(yù)訓(xùn)練數(shù)據(jù)集，選擇通用多模態(tài)基座在垂類數(shù)據(jù)上預(yù)訓(xùn)練。

數(shù)據(jù)優(yōu)化與微調(diào)：基于人工審核反饋，進(jìn)行了多輪迭代優(yōu)化訓(xùn)練，確保其在實(shí)際應(yīng)用中具備更高的準(zhǔn)確性和魯棒性。

多元信息數(shù)據(jù)流融合

騰訊視頻審核系統(tǒng)融合文本RAG（政策庫(kù)檢索）與多模態(tài)內(nèi)容理解，通過(guò)審核Agent實(shí)現(xiàn)違規(guī)內(nèi)容主動(dòng)攔截。

大模型未來(lái)發(fā)展趨勢(shì)

算法層面：模型將從網(wǎng)絡(luò)架構(gòu)、動(dòng)態(tài)可學(xué)習(xí)、多模態(tài)對(duì)齊統(tǒng)一展現(xiàn)出全模態(tài)能力（AGI）
產(chǎn)品層面：將會(huì)看到越來(lái)越多以大模型為基礎(chǔ)復(fù)雜系統(tǒng)，具有人機(jī)協(xié)同交互能力。
領(lǐng)域?qū)用妫涸诟鞔诡愵I(lǐng)域深度結(jié)合，推動(dòng)社會(huì)資源的重構(gòu)。能力由軟到硬，AI機(jī)器人將直接用于真實(shí)世界。

未來(lái)大模型將呈現(xiàn)三螺旋發(fā)展：RAG向多模態(tài)知識(shí)圖譜演進(jìn)，構(gòu)建虛實(shí)融合的認(rèn)知網(wǎng)絡(luò)；Agent向具身智能進(jìn)化，形成環(huán)境自適應(yīng)決策系統(tǒng)；多模態(tài)向神經(jīng)符號(hào)系統(tǒng)升級(jí)，實(shí)現(xiàn)可解釋的感知推理。三者深度融合將催生新一代產(chǎn)業(yè)智能體，在手術(shù)機(jī)器人、智能電網(wǎng)等場(chǎng)景實(shí)現(xiàn)感知-認(rèn)知-決策-執(zhí)行的完整閉環(huán)。

備注：文章部分圖片源于互聯(lián)網(wǎng)及公開(kāi)論文，多模態(tài)任務(wù)統(tǒng)一章節(jié)圖示來(lái)源于紫東太初團(tuán)隊(duì)在ML-Summit大會(huì)分享。

本文轉(zhuǎn)載自「騰訊云開(kāi)發(fā)者」，點(diǎn)擊下方名片查看原文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.