單一模型無法解決生產級問題,AI落地產業有三要素。
2025中國生成式AI大會于4月1日-2日在北京舉行,在大會首日GenAI應用論壇上,楓清科技創始人兼CEO高雪峰以《知識引擎和大模型雙輪驅動的下一代行業智能體平臺》為題發表演講。
自2021年成立以來,高雪峰介紹到,楓清科技(Fabarta)在過去的幾年當中一直致力于把人工智能的技術跟實際的產業落地的場景融合在一起,完成真正的AI產業落地。
總結過往經驗,高雪峰認為AI技術在產業中落地有三個關鍵要素:知識引擎、行業大模型、智能體平臺。要把生成式AI技術應用到產業端,最需要實現決策智能。
對此,楓清科技采取了以數據為中心的AI平臺架構落地的范式,還推出知識引擎和行業大模型雙輪驅動的智能體平臺,幫助企業實現多場景價值落地。
以下為高雪峰的演講實錄:
今天將提及三個概念:第一是知識引擎,我們屬于多模態的知識引擎;第二是懂行業的行業大模型;第三是行業的智能體平臺。
當人工智能技術真正融入產業時,必須具備這三個要素,才能實現平臺驅動下多價值場景的人工智能技術落地。
我們先回顧這張圖,大家應該在很多場合見過,它展示的是人工智能的發展歷史。我們都清楚,“人工智能” 一詞于 1956 年的達特茅斯會議被提出。
自人工智能概念提出至今,至少經歷了兩個波峰與兩個寒冬。
第一個是在最開始,我記得在一個跳棋程序中,人工智能借助機器學習戰勝了所有人類棋手,致使1956年的人們就宣稱人工智能時代即將來臨。
然而,不到十年,因算力不足無法將機器學習能力提升至超越人類專家水平,行業迅速進入首個寒冬。
隨后,基于符號邏輯推理的專家系統誕生,即我們所說的 “符號與知識工程”。這推動人工智能迎來第二個波峰,各行業涌現出大量專家系統。
但人們逐漸發現,此類系統難以突破認知局限,無法向通用知識拓展,且構建成本高昂,行業旋即陷入第二個寒冬。
此后,深度學習技術不斷發展,直至當下,我們已共同見證人工智能擁抱產業的意義重大波峰來臨,或即將到來。
這一階段的標志性技術成果,就是那篇有關Transformer的論文。深度學習與強化學習的發展,已讓我們認識到泛化智能的存在。
我們常混淆一個概念:將大語言模型或多模態大模型這類生成式人工智能,誤作通用智能。
而把生成式人工智能技術應用到產業端,最需要的是決策智能。
生成智能到決策智能的演進是一個漫長且需構建諸多技術壁壘的過程,無法單純依賴基于概率的Transformer技術實現跨越。
所以,縱觀AI發展的歷史,只有把符號邏輯推理和概率體系深度融合,才能真正地從生成式智能邁向企業需要的決策智能。
在過去兩年,大家對人工智能領域的關注點發生了轉變。
第一,起初人們多用大語言模型聊天,如今越來越多的人開始關注人工智能技術能否真正融入產業,并帶來產業價值的切實提升。
我國也在這兩年提出了人工智能+的概念和理念,并寫進了政府工作報告,強調人工智能與產業融合,發揮新質生產力的作用。
第二,以往人們以模型為中心進行探索,如今逐漸轉向以數據為中心,或模型與數據雙中心的體系架構。
還有最重要的一點,大家不再盲目追求巨量參數模型,而是在模型參數增大、泛化能力提升的同時,開始注重邏輯推理能力的增強。
因此我們知道,連接主義、符號主義、行為主義(即具身智能)三者融合,才能開啟真正意義上的強人工智能時代。
一、用平臺驅動解決人工智能產業落地的四大挑戰
那么,生成式的人工智能技術在產業端落地,一定會遇到幾個無法繞開的問題:
第一是模型幻覺。無論大語言模型或多模態大模型多么強大,都不可避免存在幻覺,即所謂 “一本正經的胡說八道”。
第二是可解釋性。任何大語言模型給出決策建議時,都無法提供該建議背后詳盡的邏輯依據。
第三是推理能力。即使我們通過強化學習改進模型COT(思維鏈)的推理能力,但其精準推理仍存在幻覺問題。
所以在企業決策場景中,如果涉及精準推理,還是需要其他技術輔助完成。
最后是企業級的能力以及數據的安全和時效方面的考慮。
針對以上人工智能技術在企業落地必須考慮的問題,楓清科技采取了兩個步驟:
第一,落地以數據為中心的人工智能平臺架構范式。
第二,推出知識引擎與行業大模型雙輪驅動的新一代行業智能體平臺,輔助企業實現人工智能場景價值落地。
這里有諸多具體且有價值的創新:例如,我們把圖結構跟向量、JSON以及各種原文的文本信息進行多模態的存儲和計算;
同時自研Hybrid RAG體系,能夠更容易地提取多元異構數據與大模型的提示詞(prompts)相結合,融合企業的多模態數據與AI能力,智能化構建知識。
我們給大型的產業或是企業去做人工智能的場景落地時,一定是用平臺驅動的方式。
二、人工智能平臺架構的演進:從煙囪式到統一匯聚、雙輪驅動
回到人工智能平臺,我相信大家對此都不陌生,早在十年前我們就在談人工智能平臺的概念。
接下來來看看我們的行業智能體平臺有什么不同:
從六七年前我們做人工智能平臺的時候,應用場景、數據以及模型各自獨立,像一個個 “煙囪” 般存在。所以,那時的人工智能平臺更像是人工智能應用的交易市場(marketplace)。隨著大語言模型的推出,所有的模型慢慢地匯聚到一個或者幾個大模型體系中。
同樣的,我們會把企業的所有的多模態數據匯聚到企業統一的知識引擎中。如此一來,底層的數據知識與中間層的模型至少已逐步完成了匯聚整合。
這種匯聚使得人工智能平臺驅動并實現多場景價值落地成為可能。
那么我們也不是單純拿一個現成的大模型,或者對一個行業模型進行調優,又或者給企業提供一款產品,讓其開箱即用就實現整個產業的智能化,這是完全不現實的。
我們會通過行業智能體的平臺,結合統一的模型、數據和知識,從而賦能企業當中豐富多樣的智能化場景。
在切實幫助企業進行人工智能產業落地的時候,一定會經歷這樣的幾個階段:
第一個階段是關注。現在大家已經不用強調這一點了,從春節期間DeepSeek火爆出圈以來各行各業基本上都會與我們的團隊交流:我們想要運用人工智能,改變場景價值和實際產業價值,我們可以有什么樣的路徑?
第二個階段是評估。我們需要對企業的數據狀況,以及企業對想要實現的人工智能場景價值的預期,進行梳理和評估。
接著是設計階段。要明確企業實施人工智能時,其智能化應用的具體形態。
最后才是搭建平臺。在搭建好的平臺上選取1至3個試驗性場景來落地實施。由于模型能夠完全整合在一起,底層的數據和知識也可隨著不同場景的實現而匯聚,進而真正達成平臺驅動。
這是我們給所有的產業中的龍頭企業、大型企業,賦能全平臺實現人工智能場景落地時,一定會采用的企業架構。
最底層存在典型的基礎設施,涵蓋不同的大模型、模型工廠,甚至還涉及模型訓練推理的加速等基礎能力。
然后行業的數據集是不斷地要豐富的。
大約兩年前,我們跟所有的大型的客戶、鏈主企業溝通時發現,他們只構建了最底層的基座,然后就要拿底層基座的能力去賦能上面豐富的場景價值,結果遭遇了前文所提及的大語言模型在產業落地過程中的各類問題。
因此,我們幫他在中間加了一層,即構建企業的知識中臺。
其中包含我剛才所提到的,我們需要智能化地搭建企業多模態知識引擎,還需構建契合該行業的智能體平臺,從而真正通過以數據為中心的這一層,將底層的模型與上層豐富的智能化應用連接起來。
三、從數據到知識再到應用:做真正懂行業的模型
談到我剛才提到的三要素,我們先看一下懂行業的模型。
我前一陣跟一位三甲醫院的科室主任交流,他提到自己正在使用DeepSeek滿血版本的大模型,把所有復雜的病例扔進去,讓它給出診斷建議(不是診療建議),據他所說,該模型的表現已能達到真正研究生或博士水平的 80%-90%。
這是由于在這個細分行業里,大量開放的診療路徑、醫學文獻等相關數據,都已納入到泛化的大語言模型的訓練數據之中。
所以,在任何一個精準行業里,其實我們很少會對大參數的模型進行微調,因為拿少量的數據進行微調反而會造成“泥牛入海”的反作用效果。
但是,懂行業的模型的需求依然存在。
在與諸多龍頭行業合作時,我們發現像新材料這類公開數據較少的領域,需要利用行業的推理數據來蒸餾出規模并非很大的模型,盡管生成這些推理訓練數據頗具難度。
這里面存在兩個關鍵訴求:
第一,細分行業的數據具有特殊性,不會出現在自然界的公域數據中。所以我們必須依靠這些獨特數據來訓練行業模型,以提升模型在該細分行業的推理和生成能力。
第二,模型尺寸問題。考慮到企業在端測、邊測等場景下的模型推理需求,我們需要從大參數模型中蒸餾出一些中小參數模型,來實現云邊端模型智能一體化的效果。
其次是我們提到的知識引擎。這是我們對整個行業的多模態數據,用AI的方式智能構建相應知識引擎的具體步驟。
我們把傳統的數據存儲和計算轉變為知識的記憶和推理,并開放基本問答、智能問述、權限管理、安全管理以及知識反饋等眾多企業級能力。通過智能體平臺的智能體大腦,連接各類處理和分析數據的工具,最終賦能多場景價值的應用。
這里要特別提到,只有符號邏輯推理、概率和向量融合在一起,才能產生更智能的價值。
我們將圖的數據結構融入產品的每個角落,把多模態數據各種描述信息的元數據,整個成一張龐大的企業數據資產地圖。同時,抽取文本、視頻等非結構化數據的元數據,借助圖結構構建知識體系。
企業結構化數據(如數倉和數據源里的數據)之間存在如血緣關系、列算子級血緣等復雜的關系,我們可智能構建呈現此類結構化數據的圖結構復雜關系。
并且,還能把結構化數據中的復雜血緣關系,與企業文本中的實體和文本向量化數據,進一步構建出更復雜的關系。
這是我們完整的企業工作流:把多模態引擎的知識數據與企業知識庫中的數據相結合,再配合行業模型,借助智能體大腦,優化梳理知識庫與各類數據、智能問述、指標以及科技情報等分析之間的基本鏈路邏輯。
四、行業智能體平臺賦能產業:場景案例全解析
這是我們為頭部央企實施的方案:基于知識引擎與行業模型,融合開放、基礎的通用智能體能力,通過深諳企業知識的智能體大腦,將其賦能于企業全產業鏈周期與版圖,真正實現了以企業內部知識驅動的人工智能多場景價值落地。
更深入的舉幾個例子,比如說我們可以幫助企業實現更精準、豐富的知識問答,這并非簡單上傳文檔后進行泛化聊天。
企業級的知識問答會涵蓋復雜的權限管控信息,甚至會精確到這個用戶不能問該Excel文件里相關的任何的信息,或者是只有經理級別的員工才能訪問某文件夾里面所有文檔內容。
我們都知道,這是無法通過向大模型投喂全部數據并微調來實現的,但是我們知識引擎就能夠解決這樣的問題。
還有企業的智能指標管理。這也并非傳統BI報表疊加自然語言處理形成的ChatBI,它是具備多模態數據深度根因分析能力的。
舉個例子,財務報表場景中,二級公司做賬時可能將退款誤納入收入計算,導致收入虛高并與供應鏈數據嚴重不匹配。此類問題僅憑 ChatBI 或常規數倉指標報表難以發現。
但是通過多模態數據——鏈接了所有供應鏈的詳細數據,系統可精準識別上述風險點,提示財務收入確認與供應鏈信息存在顯著矛盾。
這才是真正意義上的企業智能決策輔助。
再包括我們在輔助AI科技情報上面也做了大量特定的知識處理,比如論文、專利、各種實驗數據等等。
在特定的領域里面,如晶體、化工催化和蛋白質新材料領域,都有十分復雜的論文或數據結構表達,天然地與圖和向量融合的分布式存儲模式匹配起來。
基于此,我們就能夠在精準的知識邏輯上做復雜的推理,調用模型的生成能力,生成相應的文章、綜述和翻譯等等。
還有一個多模態領域的應用就是企業的安全生產。這個場景涉及高頻的實時視頻流反饋,我們會通過綜合分析復雜的產線標準作業流程(SOP)及各類操作手冊,識別產線操作中的風險點,并預判可能引發的嚴重后果。
在科技情報的領域里面,前兩天我們剛剛跟中國中化與吉林大學的計算機學院成立了“AI + 新材料”的聯合實驗室。
依托我們的知識引擎和智能體平臺能力,真正地推動傳統的科學計算的產業鏈的信息向新一代AI技術智能規劃的轉型,為傳統科學計算領域賦予了強大的生成式智能化能力。
同時,結合公域和實驗室積累的科技情報的知識性數據,我們會在不久的將來開放高質量材料數據及科學計算智能化服務,面向全社會共享。
此次新成立的聯合實驗室,正是產學研一體化的典型實踐案例。
最后分享一個小型的、基于復雜的架構的知識引擎和行業智能體平臺以及我們的智能體大腦產生的,針對金融客戶的智能指標問述的例子。
下面為大家詳細解讀,我們以企業的不良貸款這一指標進行深入分析。
首先,智能體大腦會調用多種展示工具、生成工具和分析工具,以此來理解用戶的需求,并智能檢索數倉及指標中的各類數據,以豐富多樣的形式將這些數據展示出來。
其次,智能體大腦不僅能完成上述操作,同時也能調用最基本的線性分析的回歸計算等傳統的小模型,借助這些模型為用戶解讀數據的基本規律。
再者,除了展示數據和分析規律外,智能體大腦還具備多維度分析能力,其中涵蓋了最基本維度的根因分析。
除此之外,我們也能夠進行相應的預測,即判斷這個指標數據后期的發展趨勢。
最后,文本中的全部數據和信息都被融合到了統一的底層知識網絡中。
此時,我們可以發現,企業知識庫的信息以及金融監督管理局的所有風險數據,都會自動融入我們的知識網絡,這一過程是智能構建的,無需人工進行數據提取、標注等任何操作。
我們會梳理金融監督管理局的各項要求,以此判斷具體違反了哪些規定。針對不良貸款超標的情況,可總結出可能由兩個事件原因導致。
此時能夠追溯眾多數據源頭展開分析。具體而言,情況分析客戶在更豐富的企業數據圖譜中存在哪些不良交易,或者存在何種風險實控情況;也包括客戶在企業數據圖譜上,是否有不良交易,以及風險實控人的擔保風險狀況。
這些都可以通過龐大的地下鏈接到一起的知識網絡,通過智能體的大腦去分析所有的原因。
這就是我們展示的一個關于智能指標的例子。它不再是單純的BI工具套上自然語言的外衣,而是真正地去重構了指標和BI體系的底層數據到知識的管理架構,是智能化高效地建立的知識體架構。
今天我簡短的分享,是為了表達:人工智能各種技術要真正在實際的企業或者產業中落地,并帶來實現高價值場景,絕非依靠單一產品、單一技術或單一模型就能解決,這是一個復雜的、生產層面的問題。
只有我們把各種人工智能技術融合成生態跟產業相融合,才能真正地讓我們當下都非常癡迷的人工智能技術的生命力變得更加完全和繁榮。
以上是高雪峰演講內容的完整整理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.