實(shí)在智能歐陽小剛：Agent端側(cè)性能超GPT-4o 10%，一體機(jī)30分鐘開箱部署

2025-07-08 18:35:28　來源: 智東西

北京舉報(bào)

分享至

智東西
作者中國AI算力大會

6月26日，首屆2025中國AI算力大會在北京隆重舉行。實(shí)在智能合伙人、核心算法負(fù)責(zé)人歐陽小剛在大會主會場以《實(shí)在Agent智能體技術(shù)與端側(cè)應(yīng)用探索》為主題發(fā)表演講。

歐陽小剛指出，“大模型和智能體的結(jié)合，正在推動企業(yè)工作方式從‘以人為中心、AI輔助’向‘以AI為中心、人類輔助’的深刻轉(zhuǎn)變。”

相較于早期AI只能在有限流程內(nèi)完成部分替代，如今以大模型為核心的智能體正逐步具備跨域、多步驟的動態(tài)任務(wù)處理能力，為企業(yè)帶來了深刻的流程重塑和提質(zhì)增效的機(jī)會。

演講中，歐陽小剛圍繞企業(yè)級智能體能力體系的構(gòu)建、端側(cè)算力部署的探索、產(chǎn)品架構(gòu)設(shè)計(jì)及客戶案例分享等方面，展開了深入講述。

以下為歐陽小剛的演講實(shí)錄：

大家下午好，我是實(shí)在智能核心算法部的負(fù)責(zé)人歐陽小剛。今天在座的各位專家多聚焦于算力以及底層硬件方向，我們公司則更關(guān)注大模型和智能體在應(yīng)用層的落地，以及在落地過程中與算力結(jié)合過程中的探索與思考。

隨著大模型和人工智能技術(shù)的發(fā)展，企業(yè)端或辦公端的工作方式正在發(fā)生顯著變化。

過去以人為中心，AI更多承擔(dān)輔助工具的角色，幫助實(shí)現(xiàn)部分工作的自動化或效率提升，例如OCR、NLP等技術(shù)輔助，完成部分信息抽取和流程自動化。

如今，隨著大模型在意圖理解、邏輯推理等方面能力的持續(xù)增強(qiáng)，以及智能體（agent）概念的快速發(fā)展，工作模式正在向“以AI為中心、人類輔助”轉(zhuǎn)變。

一、從有限域到無限域，通用智能體架構(gòu)讓大腦與手腳“融合”

傳統(tǒng)軟件大多只能完成預(yù)定義、有限域的任務(wù)，比如財(cái)務(wù)、物流中的標(biāo)準(zhǔn)化操作。但是現(xiàn)在企業(yè)的需求往往是跨域的、動態(tài)的，甚至不可預(yù)知的，要求AI能在一個流程結(jié)束后自動銜接下一個環(huán)節(jié)，實(shí)現(xiàn)跨系統(tǒng)、跨業(yè)務(wù)模塊的協(xié)同聯(lián)動。

那么，通用智能體該如何適應(yīng)當(dāng)下的這種改變呢？或者說，通用智能體應(yīng)該具備什么樣的能力，擁有哪些特性？

這種情況下，我們就需要一個既具備泛化能力，又能在垂直行業(yè)場景中擁有足夠操作能力的智能體，也就是說，既要有“大腦”能力，也要有“手腳”能力。

大腦主要是大模型提供的意圖理解、推理規(guī)劃能力，手腳則是底層的RPA、MCP、A2A等能力，保證真正把規(guī)劃轉(zhuǎn)成可執(zhí)行的動作。

大模型本身在通用層面存在一定的能力瓶頸，所以通用智能體需要在任務(wù)理解上掌握足夠多的領(lǐng)域知識和行業(yè)Know-How，以此來保證執(zhí)行模塊可以覆蓋到PC端、網(wǎng)頁端、手機(jī)端，甚至各類定制化軟件系統(tǒng)。

因此，實(shí)在智能的目標(biāo)是打造一個具備泛化能力且操作完備的企業(yè)級通用智能體。

在這樣的背景下，我們提出的實(shí)在Agent，就是一個面向流程自動化的通用智能體產(chǎn)品。這是一款能夠自主規(guī)劃流程，并能夠模擬人類在電腦、手機(jī)等系統(tǒng)中自動工作的通用智能體和軟件機(jī)器人。

和目前大家看到的Manus、Browser User等產(chǎn)品相比，我們的方案在整體架構(gòu)上做了更深度的融合，不僅僅是云端控制，而是具備本地深度接入、執(zhí)行以及可持續(xù)優(yōu)化能力。

二、多層次算力與流程閉環(huán)：打造企業(yè)可控的自動化智能體

具體來看，實(shí)在Agent的底層架構(gòu)分成幾個層次。第一層是基礎(chǔ)算力，包括私有化集群、云端算力資源、端側(cè)算力資源，都在企業(yè)不同部署需求下發(fā)揮作用。

第二層是算法層，除了垂直領(lǐng)域大模型和多模態(tài)大模型以外，也考慮在端側(cè)引入大模型加專家小模型的混合部署，保證本地可控性、降低推理延遲，同時節(jié)省算力成本。

再往上是數(shù)據(jù)層和知識層，包括企業(yè)自有的知識、外部的公共知識，通過能力層，比如RAG、屏幕理解、多模態(tài)理解、軟件操作能力，形成可執(zhí)行的流程閉環(huán)。

在場景層，目前我們聚焦在四大主要方向：流程辦理、知識問答、數(shù)據(jù)分析、文檔處理。

比如流程辦理，不只是一個業(yè)務(wù)系統(tǒng)的自動化，而是可以跨越多個業(yè)務(wù)模塊，實(shí)現(xiàn)系統(tǒng)間的信息流轉(zhuǎn)和自動化接管。知識問答則通過RAG技術(shù)，讓大模型結(jié)合企業(yè)自有知識庫，形成真正可用的問答助手。數(shù)據(jù)分析里，支持跨系統(tǒng)信息整合、結(jié)構(gòu)化輸出。文檔處理方面，則從文檔解析、抽取到自動審核，都做了深度集成。

在應(yīng)用端，該智能體兼容OA、ERP、CRM、WMS這些企業(yè)核心軟件系統(tǒng)。

此外，實(shí)在Agent包括兩種形態(tài)：一是API-Agent工作流模式，將大模型、知識庫、文檔能力與RPA能力組合；二是UI-Agent模式，可通過一句話指令生成可執(zhí)行工作流，由RPA組件自動完成操作。

三、核心模型與產(chǎn)品能力：支撐智能體可持續(xù)演進(jìn)

核心技術(shù)層面，我們重點(diǎn)訓(xùn)練了專屬的TARS大模型，在步驟拆解、組件映射上，相比GPT-4o、DeepSeek-R1、Qwen2.5-72B等在多個指標(biāo)上超越，并且支持私有化部署。

第二是TARS-VL多模態(tài)大模型，它針對GUI界面和屏幕語義的理解，做了大規(guī)模訓(xùn)練，包括元素定位、狀態(tài)判定、異常識別，在Mind2Web、ScreenSpot等標(biāo)準(zhǔn)數(shù)據(jù)集上取得較為顯著的成績，且提升GUI理解能力大約3個百分點(diǎn)。

第三，除外對兩個模型的強(qiáng)化以外，在落地過程中，我們還結(jié)合超過1000款企業(yè)常用軟件、上萬種業(yè)務(wù)場景做了預(yù)訓(xùn)練，形成一個包含流程操作、數(shù)據(jù)采集、狀態(tài)識別等能力的知識庫和指令體系。

這樣即使面對陌生的軟件環(huán)境，也能快速適配并遷移操作策略，降低未知適配的成本。

在產(chǎn)品特性方面，實(shí)在Agent支持一句話生成流程，用戶不需要專業(yè)技能就能使用，具備極簡易用性。

它打通了AI與RPA工作流的整合，能真正跨系統(tǒng)完成數(shù)據(jù)流轉(zhuǎn)，本地RPA流程也支持一鍵跳轉(zhuǎn)到流程可視化編輯界面，方便后期優(yōu)化。并且其還內(nèi)置了大量工具和模板，包括網(wǎng)頁抓取、IPD文檔處理、網(wǎng)絡(luò)搜索、流程市場，方便企業(yè)快速復(fù)用并減少重復(fù)開發(fā)。

我們也建設(shè)了一個智慧中心，能對智能體、知識庫、工具進(jìn)行上下架管理，并提供數(shù)據(jù)可視化分析，未來也能接入企業(yè)自研或者外部采購的大模型，靈活地按需配置。

四、跨端探索與端側(cè)優(yōu)化：讓智能體觸達(dá)真實(shí)業(yè)務(wù)場景

智能體的能力需要算力的支持，無論是私有化算力集群、云端資源，還是端側(cè)硬件，都必須形成協(xié)同。

特別是在端側(cè)部署方面，客戶普遍要求數(shù)據(jù)安全可控，需要通過模型量化、裁剪及大模型和小模型的混合部署方案，兼顧性能和成本。此外，在算法層面可采用輕量模型預(yù)處理，結(jié)合大模型完成復(fù)雜推理，降低算力占用并優(yōu)化執(zhí)行效率。

實(shí)在智能還建設(shè)了數(shù)字員工運(yùn)營平臺，將已執(zhí)行過的流程和任務(wù)規(guī)劃經(jīng)驗(yàn)沉淀為長期記憶，供后續(xù)智能體規(guī)劃調(diào)用，實(shí)現(xiàn)持續(xù)優(yōu)化。

在算力和需求雙向驅(qū)動的架構(gòu)里，我們規(guī)劃的是服務(wù)端管理與下發(fā)、端側(cè)執(zhí)行、以及通過數(shù)字員工運(yùn)營平臺形成可持續(xù)優(yōu)化的反饋回路。

在前后端系統(tǒng)聯(lián)調(diào)和部署加速方面，實(shí)在Agent也做了多種探索。

在PC端，我們與惠普基于ZBook系列AI PC產(chǎn)品，共同打造了一套適合企業(yè)場景的端側(cè)智能體解決方案。考慮到PC端相較一體機(jī)或工作站的算力限制，我們在方案中引入本地小型知識庫，以及大模型與小模型混合部署方案，用于屏幕識別與頁面處理。

歐陽小剛提到與惠普聯(lián)合打造的Z系列數(shù)字員工一體機(jī)，搭載實(shí)在智能的企業(yè)大腦服務(wù)，開箱30分鐘完成部署，核心業(yè)務(wù)與數(shù)據(jù)全程本地處理。

Z系列數(shù)字員工一體機(jī)基于HP Z8 Fury G5工作站，得益于四塊NVIDIA? RTX 5880 Ada的強(qiáng)大算力，輕松支持部門級與企業(yè)級的AI部署方案。

例如，在頁面理解上，將傳統(tǒng)CNN訓(xùn)練的目標(biāo)檢測能力和OCR能力，與多模態(tài)大模型進(jìn)行任務(wù)路由，通過OCR或目標(biāo)檢測對頁面進(jìn)行預(yù)處理，再交由大模型做深入識別，從而加快整體推理過程并降低對高性能顯存的占用。

在手機(jī)端，我們也打造了“實(shí)在手機(jī)Agent”，包含兩種形態(tài)。一種是通過手機(jī)遠(yuǎn)程控制PC端或云端的智能體體系，實(shí)現(xiàn)任務(wù)下發(fā)和狀態(tài)監(jiān)控，方便企業(yè)移動辦公；另一種則在手機(jī)本地運(yùn)行輕量化智能體，通過語音或觸控下發(fā)指令，完成信息采集、自動化任務(wù)處理等場景。

舉例來說，一個場景是通過智能體收集全網(wǎng)熱點(diǎn)信息并匯總成報(bào)告，另一個是為經(jīng)常出差人員提供的生活助理功能，支持在12306等平臺通過語音操作完成電子發(fā)票申請和開票流程。

此外，我們還在探索基于云手機(jī)的批量運(yùn)行方案，對于需要大規(guī)模并行操作的企業(yè)任務(wù)，例如多店鋪的銷售數(shù)據(jù)采集或評論抓取，實(shí)在Agent可以在云手機(jī)環(huán)境中實(shí)現(xiàn)大規(guī)模智能體并行調(diào)度，完成信息收集、匯總、分析等全流程能力。

車機(jī)端的探索也在持續(xù)推進(jìn)，雖然目前仍處于早期階段，但我們嘗試通過視覺理解和模型調(diào)度來實(shí)現(xiàn)對車載第三方應(yīng)用的操作，因?yàn)檐嚈C(jī)自帶的軟件通常可以被控制，但第三方軟件缺乏可用接口，需要通過純視覺的方式實(shí)現(xiàn)元素定位和功能觸發(fā)。這一原理與PC端和手機(jī)端的智能體能力邏輯是一致的。

在整體應(yīng)用場景和客戶案例方面，目前我們落地較多的領(lǐng)域包括審核審計(jì)、數(shù)據(jù)挖掘研判、智能問答等。比如在與某商業(yè)地產(chǎn)企業(yè)合作的案例中，采用API Agent的工作流模式，打造了一個超級助理，整合知識查詢、數(shù)據(jù)分析和多智能體協(xié)同，實(shí)現(xiàn)從智能問數(shù)到多模型治理的端到端流程，顯著優(yōu)化分析效率。

舉個具體例子，超級助理可以針對“米村拌飯”這樣的企業(yè)進(jìn)行洞察分析，先理解分析需求，然后篩選合適的能力模塊，規(guī)劃并執(zhí)行分析步驟，形成洞察報(bào)告。

另一個案例是與浙江菜鳥物流合作，圍繞人才補(bǔ)貼申請審核、智能偏倉預(yù)警等業(yè)務(wù)流程，結(jié)合智能體與RPA能力打造數(shù)字員工方案，實(shí)現(xiàn)大幅度節(jié)省人工人天的投入，提高整體審核效率和準(zhǔn)確性。

客戶對引入數(shù)字員工后的ROI評估非常明確：就是原本需要多少人力和時間完成的任務(wù)，現(xiàn)在通過智能體自動完成，直接節(jié)約人力資源成本，達(dá)到提質(zhì)增效的目標(biāo)。

最后簡要介紹一下公司情況。實(shí)在智能成立于2018年，總部位于杭州，在北京、上海、廣州、深圳、日本東京、馬來西亞吉隆坡等地均設(shè)有分支機(jī)構(gòu)。服務(wù)客戶主要涵蓋央國企、世界500強(qiáng)企業(yè)，在金融、制造、政務(wù)、電商等領(lǐng)域均有大量落地案例。

我們的愿景是，“讓智能體成為企業(yè)可信賴、可控、可持續(xù)優(yōu)化的數(shù)字員工。”

謝謝大家。

以上是歐陽小剛演講內(nèi)容的完整整理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.