知識庫成為大模型落地的熱門場景,現實中卻走入了 “技術炫酷卻用不起來” 的窘境。
整理|保文;編輯|燕子
AI 能改變傳統知識管理的困境嗎?
在「DeepTalk」的第二個系列話題欄目「AI 的爭議」對話中,崔牛會創始人 & CEO 崔強與藍凌副總裁劉向華,圍繞 “AI≈知識庫?為什么叫好不叫座?” 這一主題進行了深入討論。
劉向華認為,當下中國的企業知識管理將因 AI 技術的發展而重新回熱。在 AI 時代,構建 “AI 友好型” 知識庫將有助于企業實現數據資產價值的最大化。
但也不要為了追求 AI 技術去搞技術,什么技術好用就用什么,不應執著于用大模型解決一切問題。
以下是經牛透社編輯整理的對話內容:(有刪減)
Tips:觀看對話原視頻,可通過【牛透社視頻號-直播回放-5月28日】獲取
幻想與現實
崔強:今晚我們討論的話題是 “AI≈知識庫?為什么叫好不叫座?”。第一個話題是 AI 知識庫的幻想與現實。為什么大家覺得 AI 知識庫應該是殺手級的應用呢?
劉向華:我覺得還是要把 AI 的概念縮小一下,這波 AI 的主題是大模型,大模型是適合用來處理文本型數據的,以前我們稱非結構化數據,比如文檔、音視頻等。
大模型最適合處理的數據類型正好在傳統知識庫領域,所以知識庫就變成第一個熱門場景了。ChatGPT 出來時,我們已經非常清醒地知道國內的企業知識管理也將重新回熱。
崔強:大模型來了之后,現在的企業知識庫應用是一個什么狀態?
劉向華:藍凌主要還是面向大中型企業,中小企業的知識庫我們涉獵得不是特別多(這方面的市場空間也相對小一點)。
從大中型企業知識庫的建設角度來說,這波 AI 來了以后,絕大部分企業都會與大模型結合,主要場景有智能搜索、智能問答等。問答場景比搜索場景更加具體或碎片化,比如關于制度、客服、工單的問答等。
崔強:現在我們可以看到一些 AI 知識庫的案例,真正落地的效果怎么樣?企業級知識庫和個人知識庫之間,除了權限之外還有什么明顯的差異?
劉向華:個人知識庫跟企業級知識庫差別非常大。首先企業級知識庫存在權限管理的問題,但更大、更深的區別在于知識體系的設計,這個其實是個知識體系治理的問題。
一個公司的知識庫應該分多少類?這些知識庫有哪些是可以共用的?最重要的知識是哪些?每一類知識庫的索引標簽是什么……
而且從老板和 CIO 的全局視角看,不可能任由每個員工公有云、私有云到處搭自己的知識庫,因為除了知識重復、標準知識的版本管理之外,還可能有一些涉密知識等。
另外,企業知識庫還面臨內容一致性的問題,在企業中,不同版本的制度、SOP 等文檔可能既需要同時留存,還要讓 AI 能夠識別最新的版本避免誤導,這些問題在個人知識庫里幾乎是不考慮的。
崔強:如果站在企業級知識庫的角度,怎么看飛書剛推出的知識問答,能打幾分?
劉向華:還是偏向于個人或者小團隊級別,缺少很多東西。企業級知識庫作為 ToB 產品,除了用戶態的易用性之外,還要保障管理態(符合組織管理要求),以及生長態(可開發可擴展)。
整體上看它的用戶態是 OK,但管理態和生長態較弱,希望它能夠再成長。做 ToB 需要很多 Know-how。
崔強:大模型來了之后,藍凌的知識庫產品有了哪些變化?
劉向華:我們在做一個對 AI 更友好的知識庫。AI 沒出來之前,我們大部分知識庫系統都是給人用,可能注重的是剛才說的用戶態、管理態、生長態,歸根到底是給人用。
有了 AI 以后,要考慮知識庫如何給 AI 用。
我們在實施 AI 項目時要考慮數據質量(如何獲得更高質量的知識),讓 AI 更好地理解,同時降低大模型幻覺,保證嚴謹性。此外,還要考慮很多技術和工具,比如知識體系梳理,知識圖譜建模、自動入圖、多庫多文檔的切片策略等。
崔強:傳統知識管理最大的問題是什么?是用戶不愿意用,還是用不起來?AI 來了會改變這一點嗎?
劉向華:肯定會。傳統知識管理,項目的成功實施都需要做管理和運營的配套,主要是因為傳統知識管理系統的易用性并不是那么好。
最近五年來,許多 ToB 軟件開始學習 ToC 軟件的用戶交互,在易用性上提高了很多,但仍會出現員工不愿共享知識的問題。
如何讓員工主動自愿貢獻知識,公司要有制度或激勵措施,比如一些積分設計或流程約束等。
比如藍凌每實施一個項目,都會要求項目經理寫復盤報告,要做 “知識收割”。但 “知識收割” 是要花時間和整理的,如果沒有公司的制度要求和配套管理就很難做,這也意味著系統推廣門檻的提升。
此外,還有文化。很多知識管理做得比較好的公司,它們的企業文化也是相對比較活躍的,員工愿意主動貢獻和分享知識。
有了 AI 之后,可以幫員工提高效率,寫匯報材料更簡單,這也會激發員工有更多動機參與知識庫建設。
大模型幻覺
崔強:你怎么看待大模型和知識嚴謹性的沖突?
劉向華:我把 AI 在企業內的應用拆分成兩類:一類是與文字理解和生成相關的,這一類追求 100% 準確度是很難的,接近 OK 就可以了,所謂文無第一嘛;第二類是與現在的智能體強相關的。
智能體背后是大模型賦能的工作流,沒有大模型之前,它是基于規則流轉,而規則是符號或者確定性的東西,所以,流程自動化可以追求 100% 的準確。加了大模型以后有可能做 100% 的準確,這要看規則和大模型能力的互相滲透了。
目前很多智能體開發平臺、編排平臺,仍在走自動化的方向,追求 100% 的準確,是因為企業級應用如果做不到足夠嚴謹,就可能出事故。
崔強:如何看待大模型 “投毒” 的問題?在企業級知識庫中,如何判斷 AI 的輸出是可靠的?
劉向華:大模型和人類都是有幻覺的。首先,不能完全杜絕大模型幻覺,要清晰每個技術的邊界。其次,才是追求如何減少幻覺。此外,還要注意數據(知識)質量,這包含了剛才所說的內容一致性、知識體系搭建等問題。
原則上,如果你要找的東西就在一篇文檔內,而且知識庫里只有一篇文章,大概率不會有太大幻覺。要找的東西越少,或者給它的語料越小,大模型的回答就越準確。如果企業的知識庫中有幾十萬、上百萬文檔,在治理上就要下很大功夫。
所以,第一是數據治理問題;第二是大部分企業級知識庫都采用 RAG 去匹配大模型,因為無法把企業的知識庫通過預訓練的方式給到大模型,RAG 的本質是做切片和向量化,向量化策略也可以影響到模型輸出的幻覺。
如果只做向量檢索,當涉及多個文檔時就會造成上下文丟失,藍凌的解決方案是混合檢索,把知識圖譜、數據庫檢索等多種檢索手段合在一起,以此來減少幻覺生成。
所以,克服大模型幻覺的方法,一是要把知識治理做得更好。二是通過一些輔助算法,不能單靠大模型或者 RAG 算法。
崔強:專家體系的價值還有多少?AI 未來能不能變成專家,自主地輸出知識,能否信任它?
劉向華:最終一定會,但無法預測需要多長時間。目前專家仍是不可或缺的,特別是在知識經驗萃取角度。
隨著 AI 越來越聰明,它在不斷消化專家的思維模式時,可能在文件處理、文檔理解等某些方面替代或超越專家,但專家在某個領域的業務 Know-how 仍是無法被 AI 替代的。
此外,在很多大企業,尤其是一些知識密集型企業,要考慮知識體系的頂層設計和規劃,這方面還不可能全部依賴 AI,還要靠專家。
崔強:對結果準確度要求不是那么高的領域,比如營銷、客服等場景,AI 可能發展得比較快。在知識庫領域,哪些場景是可以模糊的,哪些場景是必須要求精準的?
劉向華:偏Copilot(輔助類)的,比如輔助生成、輔助搜索、輔助問答等,不需要 100% 準確,或者不需要太精準,文無第一;偏自動化執行的,是必須精準的,武無第二。
大模型帶來兩類主要能力,一類是語言理解能力,一類是思考或執行能力(分配工作的能力)。語言理解和生成這部分能力是免不了有幻覺的,不應苛求絕對精確。工作流程自動化,執行類的能力是可以要求比較精準的,主要方法是植入規則,或者知識圖譜等。
所以,輔助類的能力可以不苛求準確,但自動化的部分一定要嚴謹、準確。
崔強:現在看原來一部分 RPA 廠商就轉得比較快,轉到了數字員工,RPA+Agent 可能會更靠譜一些。你怎么判斷這兩者的結合?
劉向華:實際上,傳統RPA 廠商是被 AI 變革或者被顛覆的那一波。
以前的 RPA 技術,更多是通過編程方式去模擬手工電腦上的操作。現在凡是模擬人的視覺和點擊操作的這部分能力,恰恰是大模型所擅長的。
所以 RPA 廠商是一定要自我革命的,不是拿大模型去補充它,而是要盡快換代。
AI 知識庫的新變化
崔強:原來做系統是給人用,現在做系統是給 AI 用,也就是要讓 AI 能看得懂。在 AI 時代,知識庫產品的形態會發生什么變化嗎?
劉向華:大模型時代的組織級知識庫,或者知識體系,有兩個比較大的變化:一是用戶的使用態或者交互方式的變化,即不一定到知識庫檢索或查詢,可能是通過問答或個人助理的方式完成交互。
從組織態上,會存在體系梳理和整體質量優化的變化。這里我拆了兩塊東西,第一塊要有知識庫體系規劃的設計,可以借助大模型輔助做更好的體系設計;第二塊要解決知識碎片化的問題。一旦知識庫做好以后,我們可以把知識庫當作一種服務嵌入每個作業場景。
從使用態來講,以前的知識庫是只給人用,現在的知識庫是給算法用。算法根據用戶當前所在的場景和用戶意圖能夠主動推送相關知識,這是 AI 知識庫的一個發展方向。
知識庫還要提供 API 給 AI 用。不只是存儲,還要輸出服務。
崔強:Agent 有點像當年的 SaaS。剛開始大家都是在單點突破形成一個小閉環。未來這些單點是不是又要整合在一起變成一個相對 “All in one” 的東西?
劉向華:這波 AI 跟以往 PC 互聯網、移動互聯網相比至少要高出一個量級,它是工業革命級別的,這是不同的地方。
相同的地方是當 AI 或者移動端出來時,所有的產品形態或者商業模式都是不清晰的,所以就百花齊放、百家爭鳴了。
越是單點場景,場景越細碎,AI 的結果就越精準。所以,現階段一定是碎片化的場景,用碎片化的技術,再加上一些碎片化的數據(知識點、知識庫)支撐,形成產品場景的閉環。
這一點很像 2014 年前后我們做 SaaS ,當時主流大都是單點 SaaS 追求小而美,當技術發展到相對成熟的時間段,大家又開始考慮整體效率的問題,解決局部最優但全局無法最優的問題。
此外,很多企業都在追求超級入口,所以我認為,三五年后,大一統仍將是一個趨勢。
崔強:企業級會有入口嗎?企業級入口大概是什么樣子?原來說協同是入口,在 AI 時代這點會變化嗎?
劉向華:從乙方來看,大部分廠商都想追求入口;從甲方看,企業也希望有一個統一入口。
AI 時代這兩塊的入口可能是一致的,每個人只要有一個隨身超級助理,既負責記錄用戶行為,又負責傳遞公司知識,但現在還沒有到成熟的程度,也許要等三五年之后。
崔強:現在 Agent 產品和原有的產品,在使用體驗和交互邏輯上幾乎完全不同。你們在實踐中的感受是怎么樣的,用戶的使用習慣會產生哪些改變?
劉向華:現在很多企業用戶還不是特別習慣用語言對話的交互方式。我們碰到的大部分客戶還是習慣GUI(圖形用戶界面)的交互方式,但也不排斥多一個 AI 助手的幫助。
崔強:是一個加分項?
劉向華:是的。我們不能忘記語言交互的呈現豐富度是遠遠弱于圖形交互的。所以,不要為了追求技術去搞技術。
崔強:通用大模型的投入很高。在一些小的領域里邊,可能需要一些專業化的小模型。如何看待這兩者的關系,在實際應用中兩者如何配合或者互補?
劉向華:我們現在的判斷是互補關系。以藍凌的藍博士 AI 中臺為例,我們集成了若干個通用大模型,因為不同的通用大模型所擅長的領域也不同。此外,還會有許多小模型(更準確的稱呼是小型工具,如 OCR 識別等),它們可以做一部分自動識別、自動化操作等偏智能的工作。
未來它們一定是大模型的補充,幫助大模型完成一個自動化的作業流程。什么東西好用就用什么,不應該試圖用大模型來解決一切問題。
崔強:企業有那么多知識,有沒有機會形成企業的私有知識大模型?
劉向華:目前,由于預訓練成本很高,可能只有少數企業具備這樣的可能性。從科學角度說,如果一個大模型內放了全世界的知識,再把一個企業內的知識 “摻和” 進去,就像一滴水放進大海,是沒有什么意義的,不可能指望一滴水能改變大海的咸度。
所以用企業知識去訓練大模型,可能本身就是一個偽命題,沒有搞清楚大模型的原理,更可行的方式是去做通用大模型的輔助小模型,或者小的數據集、知識集,幫助大模型來降低幻覺。
崔強:多模態、情景感知、角色扮演等新特征在知識管理中會出現嗎?
劉向華:這是個好問題,一定會出現。AI 如果最終能產生 10 倍價值,一定是干了某些替代人的事情。
如果 AI 能替代人做事情,那一定具備了情景感知的能力,只要感知得到,自動化就很容易做,新的環境感知設備或者技術一定能夠催生很多大模型應用。
角色扮演是純虛擬的形式,其實更容易做。
崔強:未來 3~5 年,整個知識管理或者 AI 知識庫會發展到一個什么階段?
劉向華:我個人是偏樂觀的,它會變成企業數字化的一個必需品。以前,如果沒有知識庫,企業有網盤也可以,但現在不行了,必須對 AI 友好。
大部分企業的數據資產,只有 20% 左右是存在數據庫里的,剩下 80% 是以會議紀要、設計稿等以文件形式存放的,它們都是極好的 AI 養料。
對于大部分企業來說,我認為建設一個對 AI 友好的知識庫,是一個十分劃得來而且必需的事情,有利于最大化地挖掘企業數據資產,AI 知識庫的未來是比較樂觀的。
說明:文章為牛透社原創,未經允許謝絕轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.