本文由作者參加九派新聞直播九派圓桌《manus爆火,套殼還是創新》討論時的發言整理而成
Manus離通用人工智能體差距較遠
Manus爆火有多方面因素。
首先,Manus的核心技術在于多智能體系統的協同,它能夠動態協調專用大模型,把這些大模型進行統籌調用,最后組織起來。另外,它的用戶體驗現在看來還不錯,在界面和交互設計上的工作做得也較好。
現在,大家都希望大模型能落地,Manus應市場需求做了一些相應的能量釋放,比如在人力資源、金融等領域。
當然,Manus也有炒作成分,目前邀請碼也是是“一碼難求”。如果它的技術能夠經得起檢驗,未來可能走得更遠,如果還處在比較初級的階段,大家也是一時熱鬧。
事實上,“通用智能體”的概念是大家的一個夢想。我們一直認為以現在的數學和物理學想做到“通用”是特別難的。
因為通用有三個特點:首先是主動性。通用的自主性很強,像人一樣,它會有“want”,即知道我想干什么,我想用什么;第二,它的基本的功能是能干很多事,既能炒股,也能篩選簡歷,還能夠圍棋等等。最后,一個智能體要有價值觀。現在的智能體沒有價值觀,它的事實和價值不對齊,常會出現所謂的“機器幻覺”、“機器錯誤”以及“機器欺騙”等東西。它還是被動的token,吃了很多人為的NLP、自然語言里面的一些符號,再相應用tranformer架構處理,吐出相應的輸出,這些輸出有好有壞。
所以,我們說Manus是通過“規劃-執行-驗證”這三個獨立代理的分工協作實現了任務的分解,工具的調用和動態的修正就是修正全流程的自動化,在簡歷篩選的過程中,它能夠自壓縮文件、分析內容生成排名報告,全程無需人參與。
但是,它只有自動化過程是確定的。
Manus的不確定性還體現在它調用的例如deepseek、 claude 這些大模型存在的不確定性。它本身是要按照確定的流程來進行分工拆解的,所以真正的智能里一定有不確定性,而自動化里卻包含了確定的流程、確定輸入、確定處理、確定的輸出、確定反饋,我們叫做自動化過程。
Manus里有很多自動化的成分,但不確定性的成分相對來說比較少。所以我們說Manus離通用人工智能體還差距還比較遠。
在AI領域,“套殼”和“蒸餾”每天都在進行
Manus光靠賣邀請碼是肯定不能回本的。
另外,我個人認為它是一個集成的系統,底層是用別人的東西,門檻相對較低。像 deepseek的門檻就相對高,因為它涉及到算法的優化,還有一些工程困難。
Manus存在很多不確定性和一些沒有解決的技術或原理性的問題,比如數據的不完備性、數據的偏差和數據的造假,數據問題它很難擺平。第二個就是算法問題。無論是deepseek、claude,還是Chat GTP也好,他們都是基于transformer架構
Transform架構本身就是多內存的神經網絡系統,這個系統里有兩個基本函數,一個是線性函數,一個是激活函數。這兩個函數在一起,就會產生一個非線性的復合函數,造成在反向傳播過程中,它的權重分配的不可解釋性黑盒。它們在基因里面就帶著“機器可能會產生錯誤”,也叫“機器幻覺”。
另外,這個架構在使用過程中有很多噪聲干擾,很難屏蔽,在實際工程落地的過程中,它會有各種各樣的偏差和誤差積累,會造成應用的落地困難。
我覺得Manus是一個集成的開拓者,但它要想在這個領域里面保持領先,難度還是比較大的。
春節期間,很多人說Open AI要告deepseek“蒸餾”的問題。其實,“套殼”和“蒸餾”每天都在進行。學生在“蒸餾”老師,我在“蒸餾”朋友,這也很正常,因為沒有前人就沒有后人。在大模型領域,或者說AI領域里,這屬于比較正常的兩個詞。
但是,現在的智能體,無論是單智能體還是多智能體,和大模型不太一樣。Open AI的奧爾特曼說過一句話,大模型有五個發展階段,第一個是交互,問他問題,它能回答。第二個是推理,deepseek r1就是一個推理模型,其實GPT 4也是。第三個階段是調用,我感覺Manus更多的是調用。第四個是創新。第五個涉及到組織。
目前,大多數的實踐還停留在較淺的層次,因為深層的多智能體模型之間的協同工作極為困難。我認為,目前能夠達到讓人為之一振的產品和系統已經相當不易。然而,我們也需要冷靜地看待,因為正如之前所說,Manus的門檻相對較低,并不像DeepSeek或OpenAI最初出現時那樣耀眼奪目。但是,我們既要保護它,又要清醒地認識到其不足之處,繼續前進,做得更好。
機器想取代人,很困難
機器取代人是很困難的,因為人類的智能遠遠超越機器智能。但是不可否定的是,機器智能可能在某些領域可以幫助人類,比如下棋、做一些蛋白質的結構分析等。
從機理上來說,人的認知和機器的認知是兩碼事。
人工智能到目前有三個瓶頸,第一個瓶頸是可解釋性,它有黑盒、有不透明的部分,我們叫“可解釋性不足”,不能舉一反三;第二個瓶頸涉及到機器學習和人類學習是兩個基本的不同的學習機制,人類的學習能夠產生范圍不確定的隱性規則和秩序,比如一個小孩學習了一個新詞,能夠很恰當地用到另外一個領域,機器則可能張冠李戴,不像小孩那么機靈;第三個瓶頸在于人類的常識特別復雜。人類常識包括了生理、心理、物理、數理、倫理、法理,還有好多道理融合在一起,形成了習俗和社會常識。
機器目前的編程是比較單一的,是基于數理化的過程。例如,大模型就只有兩個支柱,一個是token把word映射到歐幾里得空間,變成一組向量,這個向量包括很多屬性,deepseek里面就有6000多個屬性,不止是數學屬性,還有常識的屬性、上下文的屬性,還有很多臨近附近詞之間的關系屬性等。這些屬性是一個詞映射到了一個空間,通過計算向量來反映詞和詞之間的關系。
另外一個支柱就是attention注意力模型,它有三個參數Q、K、V。這三個參數矩陣,它計算完后得出一個上下文之間的關聯度,就是它的統計概率。
如果用這么簡單的語言想要將人類的復雜提煉出來,那是在開玩笑。因為人類很多非語言的東西,只可意會不可言傳。很多人類自己都沒解釋清楚的東西,機器更無法找到這個語料。
我不排除機器會產生機器意識,但是機器的意識和人類的意識是兩個概念。人類的意識能夠更有穿透性,是感性的。目前來看,機器沒有倫理,也沒有感性,它還是人的一種工具而已,它想取代人還是很困難的。
幻覺問題,單靠Manus解決不了
對于大模型的落地、工程化以及應用來說,解決幻覺這一問題至關重要。否則,誰會愿意使用一個可能產生無法控制的幻覺和錯誤的系統呢?這將導致生產工程中的錯誤和失誤。所以這個問題不是Manus解決不了,它需要大模型廠商系統思考。
最近,我閱讀了一篇來自浙江大學的文章,其中一位副教授利用交互式的與或邏輯關系來解決大模型中的不可解釋性問題,即幻覺產生的原因。這種方法使得大模型變得更加透明和可解釋,從而可以控制其輸出的正確性。他采用的與和或邏輯關系是布爾代數中的基本函數,這種方法在中小規模的神經網絡系統中已經顯示出良好的效果。
但是在多內層的聚系統,我們稱之為聚系統大模型里面,它的效果到目前還不明顯。因為還沒有大模型讓他測試,像DVC科研、GPT等大模型公司沒有讓他驗證這個理論,因此其有效性仍然存疑。
我們還考慮了另一種方法,即 RGA,這是一種檢索增強生成的方法。通過比較不同大模型的輸出,可以驗證某個模型的性能,甚至通過人工檢索來得出結論,檢查大模型是否出現了幻覺,并糾正事實性或價值性的錯誤。
目前,我們正在探索一種新的方法,即HRGA,將人機環境整合到系統中,以統一檢測潛在問題。在關鍵的精密工業或安全領域,人的作用至關重要。例如,在核電廠等關鍵設施中,完全依賴機器監控是不可想象的。因此,我們提出了HRAG,即人機聯合的檢索增強生成方法,這可能在關鍵部位或重要環節減少機器幻覺和欺騙的發生。
深入探究的話,我們對transformer架構也持懷疑態度。去年10月左右,英偉達的CEO 黃仁勛進行了一次采訪,在采訪中,他邀請了transformer架構論文的八位作者中的七位,討論了這一架構。結果這七位作者一致認為 transformer 架構存在許多缺陷和不足。這表明,transformer 架構可能是產生機器幻覺的根本原因。因此,要想從根本上解決這一問題,必須開發出不同于 transformer 架構的新技術,可能會有新的大模型或智能體出現來解決這一挑戰。
AI時代的人才不是專業導向,而是愛好導向
目前,多模態學習和強化學習正成為研究的熱點。以deep seek為例,它在推理過程中完全依賴于強化學習,大幅減少了人為的微調和干預。其他一些模型也在強化學習和多模態學習方面投入了大量精力。
多模態學習涉及將文本、語音、圖像、視頻等多種狀態綜合處理,類似于人類同時使用視覺、聽覺、嗅覺、味覺和觸覺。但我想強調的是,目前計算機或人工智能領域的多模態學習主要還是以計算為主,尚未達到人類那種感性的水平。
我個人認為,當前的多模態學習就像盲人摸象,只能看到局部,要么是聽覺,要么是視覺,要么是嗅覺,而整合這些能力相對較弱。其次,強化學習似乎有些過度熱衷。強化學習的本質是獎懲機制,通過獎勵和懲罰來強化或削弱某些行為。然而,人類的強化學習要復雜得多,有時獎勵可能意味著抑制,有時懲罰可能意味著鼓勵。目前,機器的強化學習還很難掌握這些復雜的概念,它基本上還停留在比較簡單的幼年階段,類似于小孩做對了就獎勵,做錯了就懲罰。因此,這種強化學習相對薄弱。
人類的學習除了獎懲之外,還包括反復訓練以提高能力。目前,雖然多模態和強化學習被使用,但它們采用的還是人工智能領域常用的方法。我認為這些方法不可能顛覆強化學習的慣性,因此多模態學習也不可能有突破性的進展。如果有突破,它將具有獨特的價值,它不再是單一訓練,而是綜合性的訓練,這才是真正令人畏懼的。
因此,目前多模態和強化學習的研究,我們都不滿意,認為這些研究過于簡單,將人類的認知遷移到機器上的成分太少,過于單純。我們希望有成年人的強化學習和多模態學習機制能夠遷移到機器上,這可能是通往通用人工智能的一個途徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.