智東西
作者 中國AI算力大會
6月26日,首屆2025中國AI算力大會在北京隆重舉行。實(shí)在智能合伙人、核心算法負(fù)責(zé)人歐陽小剛在大會主會場以《實(shí)在Agent智能體技術(shù)與端側(cè)應(yīng)用探索》為主題發(fā)表演講。
歐陽小剛指出,“大模型和智能體的結(jié)合,正在推動企業(yè)工作方式從‘以人為中心、AI輔助’向‘以AI為中心、人類輔助’的深刻轉(zhuǎn)變。”
相較于早期AI只能在有限流程內(nèi)完成部分替代,如今以大模型為核心的智能體正逐步具備跨域、多步驟的動態(tài)任務(wù)處理能力,為企業(yè)帶來了深刻的流程重塑和提質(zhì)增效的機(jī)會。
演講中,歐陽小剛圍繞企業(yè)級智能體能力體系的構(gòu)建、端側(cè)算力部署的探索、產(chǎn)品架構(gòu)設(shè)計(jì)及客戶案例分享等方面,展開了深入講述。
以下為歐陽小剛的演講實(shí)錄:
大家下午好,我是實(shí)在智能核心算法部的負(fù)責(zé)人歐陽小剛。今天在座的各位專家多聚焦于算力以及底層硬件方向,我們公司則更關(guān)注大模型和智能體在應(yīng)用層的落地,以及在落地過程中與算力結(jié)合過程中的探索與思考。
隨著大模型和人工智能技術(shù)的發(fā)展,企業(yè)端或辦公端的工作方式正在發(fā)生顯著變化。
過去以人為中心,AI更多承擔(dān)輔助工具的角色,幫助實(shí)現(xiàn)部分工作的自動化或效率提升,例如OCR、NLP等技術(shù)輔助,完成部分信息抽取和流程自動化。
如今,隨著大模型在意圖理解、邏輯推理等方面能力的持續(xù)增強(qiáng),以及智能體(agent)概念的快速發(fā)展,工作模式正在向“以AI為中心、人類輔助”轉(zhuǎn)變。
一、從有限域到無限域,通用智能體架構(gòu)讓大腦與手腳“融合”
傳統(tǒng)軟件大多只能完成預(yù)定義、有限域的任務(wù),比如財(cái)務(wù)、物流中的標(biāo)準(zhǔn)化操作。但是現(xiàn)在企業(yè)的需求往往是跨域的、動態(tài)的,甚至不可預(yù)知的,要求AI能在一個流程結(jié)束后自動銜接下一個環(huán)節(jié),實(shí)現(xiàn)跨系統(tǒng)、跨業(yè)務(wù)模塊的協(xié)同聯(lián)動。
那么,通用智能體該如何適應(yīng)當(dāng)下的這種改變呢?或者說,通用智能體應(yīng)該具備什么樣的能力,擁有哪些特性?
這種情況下,我們就需要一個既具備泛化能力,又能在垂直行業(yè)場景中擁有足夠操作能力的智能體,也就是說,既要有“大腦”能力,也要有“手腳”能力。
大腦主要是大模型提供的意圖理解、推理規(guī)劃能力,手腳則是底層的RPA、MCP、A2A等能力,保證真正把規(guī)劃轉(zhuǎn)成可執(zhí)行的動作。
大模型本身在通用層面存在一定的能力瓶頸,所以通用智能體需要在任務(wù)理解上掌握足夠多的領(lǐng)域知識和行業(yè)Know-How,以此來保證執(zhí)行模塊可以覆蓋到PC端、網(wǎng)頁端、手機(jī)端,甚至各類定制化軟件系統(tǒng)。
因此,實(shí)在智能的目標(biāo)是打造一個具備泛化能力且操作完備的企業(yè)級通用智能體。
在這樣的背景下,我們提出的實(shí)在Agent,就是一個面向流程自動化的通用智能體產(chǎn)品。這是一款能夠自主規(guī)劃流程,并能夠模擬人類在電腦、手機(jī)等系統(tǒng)中自動工作的通用智能體和軟件機(jī)器人。
和目前大家看到的Manus、Browser User等產(chǎn)品相比,我們的方案在整體架構(gòu)上做了更深度的融合,不僅僅是云端控制,而是具備本地深度接入、執(zhí)行以及可持續(xù)優(yōu)化能力。
二、多層次算力與流程閉環(huán):打造企業(yè)可控的自動化智能體
具體來看,實(shí)在Agent的底層架構(gòu)分成幾個層次。第一層是基礎(chǔ)算力,包括私有化集群、云端算力資源、端側(cè)算力資源,都在企業(yè)不同部署需求下發(fā)揮作用。
第二層是算法層,除了垂直領(lǐng)域大模型和多模態(tài)大模型以外,也考慮在端側(cè)引入大模型加專家小模型的混合部署,保證本地可控性、降低推理延遲,同時節(jié)省算力成本。
再往上是數(shù)據(jù)層和知識層,包括企業(yè)自有的知識、外部的公共知識,通過能力層,比如RAG、屏幕理解、多模態(tài)理解、軟件操作能力,形成可執(zhí)行的流程閉環(huán)。
在場景層,目前我們聚焦在四大主要方向:流程辦理、知識問答、數(shù)據(jù)分析、文檔處理。
比如流程辦理,不只是一個業(yè)務(wù)系統(tǒng)的自動化,而是可以跨越多個業(yè)務(wù)模塊,實(shí)現(xiàn)系統(tǒng)間的信息流轉(zhuǎn)和自動化接管。知識問答則通過RAG技術(shù),讓大模型結(jié)合企業(yè)自有知識庫,形成真正可用的問答助手。數(shù)據(jù)分析里,支持跨系統(tǒng)信息整合、結(jié)構(gòu)化輸出。文檔處理方面,則從文檔解析、抽取到自動審核,都做了深度集成。
在應(yīng)用端,該智能體兼容OA、ERP、CRM、WMS這些企業(yè)核心軟件系統(tǒng)。
此外,實(shí)在Agent包括兩種形態(tài):一是API-Agent工作流模式,將大模型、知識庫、文檔能力與RPA能力組合;二是UI-Agent模式,可通過一句話指令生成可執(zhí)行工作流,由RPA組件自動完成操作。
三、核心模型與產(chǎn)品能力:支撐智能體可持續(xù)演進(jìn)
核心技術(shù)層面,我們重點(diǎn)訓(xùn)練了專屬的TARS大模型,在步驟拆解、組件映射上,相比GPT-4o、DeepSeek-R1、Qwen2.5-72B等在多個指標(biāo)上超越,并且支持私有化部署。
第二是TARS-VL多模態(tài)大模型,它針對GUI界面和屏幕語義的理解,做了大規(guī)模訓(xùn)練,包括元素定位、狀態(tài)判定、異常識別,在Mind2Web、ScreenSpot等標(biāo)準(zhǔn)數(shù)據(jù)集上取得較為顯著的成績,且提升GUI理解能力大約3個百分點(diǎn)。
第三,除外對兩個模型的強(qiáng)化以外,在落地過程中,我們還結(jié)合超過1000款企業(yè)常用軟件、上萬種業(yè)務(wù)場景做了預(yù)訓(xùn)練,形成一個包含流程操作、數(shù)據(jù)采集、狀態(tài)識別等能力的知識庫和指令體系。
這樣即使面對陌生的軟件環(huán)境,也能快速適配并遷移操作策略,降低未知適配的成本。
在產(chǎn)品特性方面,實(shí)在Agent支持一句話生成流程,用戶不需要專業(yè)技能就能使用,具備極簡易用性。
它打通了AI與RPA工作流的整合,能真正跨系統(tǒng)完成數(shù)據(jù)流轉(zhuǎn),本地RPA流程也支持一鍵跳轉(zhuǎn)到流程可視化編輯界面,方便后期優(yōu)化。并且其還內(nèi)置了大量工具和模板,包括網(wǎng)頁抓取、IPD文檔處理、網(wǎng)絡(luò)搜索、流程市場,方便企業(yè)快速復(fù)用并減少重復(fù)開發(fā)。
我們也建設(shè)了一個智慧中心,能對智能體、知識庫、工具進(jìn)行上下架管理,并提供數(shù)據(jù)可視化分析,未來也能接入企業(yè)自研或者外部采購的大模型,靈活地按需配置。
四、跨端探索與端側(cè)優(yōu)化:讓智能體觸達(dá)真實(shí)業(yè)務(wù)場景
智能體的能力需要算力的支持,無論是私有化算力集群、云端資源,還是端側(cè)硬件,都必須形成協(xié)同。
特別是在端側(cè)部署方面,客戶普遍要求數(shù)據(jù)安全可控,需要通過模型量化、裁剪及大模型和小模型的混合部署方案,兼顧性能和成本。此外,在算法層面可采用輕量模型預(yù)處理,結(jié)合大模型完成復(fù)雜推理,降低算力占用并優(yōu)化執(zhí)行效率。
實(shí)在智能還建設(shè)了數(shù)字員工運(yùn)營平臺,將已執(zhí)行過的流程和任務(wù)規(guī)劃經(jīng)驗(yàn)沉淀為長期記憶,供后續(xù)智能體規(guī)劃調(diào)用,實(shí)現(xiàn)持續(xù)優(yōu)化。
在算力和需求雙向驅(qū)動的架構(gòu)里,我們規(guī)劃的是服務(wù)端管理與下發(fā)、端側(cè)執(zhí)行、以及通過數(shù)字員工運(yùn)營平臺形成可持續(xù)優(yōu)化的反饋回路。
在前后端系統(tǒng)聯(lián)調(diào)和部署加速方面,實(shí)在Agent也做了多種探索。
在PC端,我們與惠普基于ZBook系列AI PC產(chǎn)品,共同打造了一套適合企業(yè)場景的端側(cè)智能體解決方案。考慮到PC端相較一體機(jī)或工作站的算力限制,我們在方案中引入本地小型知識庫,以及大模型與小模型混合部署方案,用于屏幕識別與頁面處理。
歐陽小剛提到與惠普聯(lián)合打造的Z系列數(shù)字員工一體機(jī),搭載實(shí)在智能的企業(yè)大腦服務(wù),開箱30分鐘完成部署,核心業(yè)務(wù)與數(shù)據(jù)全程本地處理。
Z系列數(shù)字員工一體機(jī)基于HP Z8 Fury G5工作站,得益于四塊NVIDIA? RTX 5880 Ada的強(qiáng)大算力,輕松支持部門級與企業(yè)級的AI部署方案。
例如,在頁面理解上,將傳統(tǒng)CNN訓(xùn)練的目標(biāo)檢測能力和OCR能力,與多模態(tài)大模型進(jìn)行任務(wù)路由,通過OCR或目標(biāo)檢測對頁面進(jìn)行預(yù)處理,再交由大模型做深入識別,從而加快整體推理過程并降低對高性能顯存的占用。
在手機(jī)端,我們也打造了“實(shí)在手機(jī)Agent”,包含兩種形態(tài)。一種是通過手機(jī)遠(yuǎn)程控制PC端或云端的智能體體系,實(shí)現(xiàn)任務(wù)下發(fā)和狀態(tài)監(jiān)控,方便企業(yè)移動辦公;另一種則在手機(jī)本地運(yùn)行輕量化智能體,通過語音或觸控下發(fā)指令,完成信息采集、自動化任務(wù)處理等場景。
舉例來說,一個場景是通過智能體收集全網(wǎng)熱點(diǎn)信息并匯總成報(bào)告,另一個是為經(jīng)常出差人員提供的生活助理功能,支持在12306等平臺通過語音操作完成電子發(fā)票申請和開票流程。
此外,我們還在探索基于云手機(jī)的批量運(yùn)行方案,對于需要大規(guī)模并行操作的企業(yè)任務(wù),例如多店鋪的銷售數(shù)據(jù)采集或評論抓取,實(shí)在Agent可以在云手機(jī)環(huán)境中實(shí)現(xiàn)大規(guī)模智能體并行調(diào)度,完成信息收集、匯總、分析等全流程能力。
車機(jī)端的探索也在持續(xù)推進(jìn),雖然目前仍處于早期階段,但我們嘗試通過視覺理解和模型調(diào)度來實(shí)現(xiàn)對車載第三方應(yīng)用的操作,因?yàn)檐嚈C(jī)自帶的軟件通常可以被控制,但第三方軟件缺乏可用接口,需要通過純視覺的方式實(shí)現(xiàn)元素定位和功能觸發(fā)。這一原理與PC端和手機(jī)端的智能體能力邏輯是一致的。
在整體應(yīng)用場景和客戶案例方面,目前我們落地較多的領(lǐng)域包括審核審計(jì)、數(shù)據(jù)挖掘研判、智能問答等。比如在與某商業(yè)地產(chǎn)企業(yè)合作的案例中,采用API Agent的工作流模式,打造了一個超級助理,整合知識查詢、數(shù)據(jù)分析和多智能體協(xié)同,實(shí)現(xiàn)從智能問數(shù)到多模型治理的端到端流程,顯著優(yōu)化分析效率。
舉個具體例子,超級助理可以針對“米村拌飯”這樣的企業(yè)進(jìn)行洞察分析,先理解分析需求,然后篩選合適的能力模塊,規(guī)劃并執(zhí)行分析步驟,形成洞察報(bào)告。
另一個案例是與浙江菜鳥物流合作,圍繞人才補(bǔ)貼申請審核、智能偏倉預(yù)警等業(yè)務(wù)流程,結(jié)合智能體與RPA能力打造數(shù)字員工方案,實(shí)現(xiàn)大幅度節(jié)省人工人天的投入,提高整體審核效率和準(zhǔn)確性。
客戶對引入數(shù)字員工后的ROI評估非常明確:就是原本需要多少人力和時間完成的任務(wù),現(xiàn)在通過智能體自動完成,直接節(jié)約人力資源成本,達(dá)到提質(zhì)增效的目標(biāo)。
最后簡要介紹一下公司情況。實(shí)在智能成立于2018年,總部位于杭州,在北京、上海、廣州、深圳、日本東京、馬來西亞吉隆坡等地均設(shè)有分支機(jī)構(gòu)。服務(wù)客戶主要涵蓋央國企、世界500強(qiáng)企業(yè),在金融、制造、政務(wù)、電商等領(lǐng)域均有大量落地案例。
我們的愿景是,“讓智能體成為企業(yè)可信賴、可控、可持續(xù)優(yōu)化的數(shù)字員工。”
謝謝大家。
以上是歐陽小剛演講內(nèi)容的完整整理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.