嘉賓 | 胡亮、王鵬偉
對(duì)話 | 唐小引
責(zé)編 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
2025 年被業(yè)界稱(chēng)為“具身智能元年”并非偶然。
自年初以來(lái),一系列現(xiàn)象級(jí)事件不斷將具身智能推向公眾視野:從春晚開(kāi)始,宇樹(shù)機(jī)器人頻頻登上熱搜,逐漸風(fēng)靡全國(guó)并走向世界;一眾技術(shù)“大佬”紛紛投身機(jī)器人創(chuàng)業(yè),大批創(chuàng)業(yè)項(xiàng)目集中涌現(xiàn),幾乎所有人都在下注——通用機(jī)器人的時(shí)代,仿佛觸手可及。
但在熱潮背后,泡沫的質(zhì)疑也不絕于耳。英偉達(dá) CEO 黃仁勛的一句“通用機(jī)器人時(shí)代已經(jīng)到來(lái)”,在全球技術(shù)圈引發(fā)輿論轟動(dòng)。然而,另一邊知名投資人朱嘯虎卻宣布“正批量退出人形機(jī)器人公司”,引發(fā)外界對(duì)這個(gè)賽道可持續(xù)性的擔(dān)憂。
那么,具身智能到底進(jìn)展如何?在技術(shù)理想和工程現(xiàn)實(shí)之間,它面臨著哪些關(guān)鍵挑戰(zhàn)?是模型不夠強(qiáng)、數(shù)據(jù)不夠多,還是架構(gòu)不夠靈活?從“整花活”到“干真活”,中間到底還隔著多遠(yuǎn)的距離?
帶著這些問(wèn)題,由 CSDN 主辦的《萬(wàn)有引力》欄目特別邀請(qǐng)到了兩位深耕 AI 與機(jī)器人領(lǐng)域的一線專(zhuān)家:同濟(jì)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授、博導(dǎo)胡亮,智源具身智能大模型負(fù)責(zé)人、RoboBrain 與 RoboOS 負(fù)責(zé)人王鵬偉做客直播間,在CSDN &《新程序員》執(zhí)行總編、《萬(wàn)有引力》主理人唐小引的主持下,一起深入探討了當(dāng)下這場(chǎng)風(fēng)口之上的技術(shù)革命:具身智能——它真的是下一個(gè)技術(shù)奇點(diǎn),還是又一場(chǎng)資本追逐下的幻影?
AI 產(chǎn)品爆發(fā),但你的痛點(diǎn)解決了嗎?8.15-16 北京威斯汀·全球產(chǎn)品經(jīng)理大 會(huì) PM-Summit,3000+ AI 產(chǎn)品人社群已就位。
直面 AI 落地難題、拆解頭部案例、對(duì)接精準(zhǔn)資源!
掃碼登記信息,添加小助手進(jìn)群,搶占 AI 產(chǎn)品下一波紅利:
進(jìn)群后,您將有機(jī)會(huì)得到:
· 最新、最值得關(guān)注的 AI 產(chǎn)品資訊及大咖洞見(jiàn)
· 獨(dú)家視頻及文章解讀 AGI 時(shí)代的產(chǎn)品方法論及實(shí)戰(zhàn)經(jīng)驗(yàn)
· 不定期贈(zèng)送 AI 產(chǎn)品干貨資料和秘籍
以下為對(duì)話內(nèi)容(為方便閱讀,進(jìn)行了適當(dāng)?shù)奈谋緝?yōu)化):
怎么“轉(zhuǎn)型”到具身智能這條路上的?
唐小引:請(qǐng)兩位老師先給大家打個(gè)招呼,并做一下自我介紹,尤其可以談?wù)勛约菏窃趺醋呱暇?/strong>身智能這條道路的。我記得,王老師和胡老師的研究方向其實(shí)有一些轉(zhuǎn)型的過(guò)程?
王鵬偉:大家好,我是王鵬偉,來(lái)自智源研究院具身智能大模型研究中心。我們的團(tuán)隊(duì)目前設(shè)在北京。借著唐老師的提問(wèn),我來(lái)簡(jiǎn)單講講自己從業(yè)十余年來(lái)的研究經(jīng)歷和方向轉(zhuǎn)變。
我讀博時(shí)的研究方向主要是知識(shí)圖譜(Knowledge Graph)和信息檢索(Information Retrieval)。博士畢業(yè)后,我的興趣逐步轉(zhuǎn)向自然語(yǔ)言處理(NLP)方向。
2018 年左右,AI 領(lǐng)域迎來(lái)了預(yù)訓(xùn)練模型的第一波浪潮,BERT 橫空出世,基于 Transformer 架構(gòu)的預(yù)訓(xùn)練方法成為熱點(diǎn)。剛看到 BERT 時(shí),我還在想:“哇,這個(gè)模型參數(shù)這么大,肯定很難用起來(lái)吧?”——但現(xiàn)在回過(guò)頭來(lái)看,BERT 這樣的 12 層模型,已經(jīng)非?!靶∏伞绷?。
在那之后,我一直在做預(yù)訓(xùn)練模型相關(guān)研究,研究重心也逐步延伸到多模態(tài)預(yù)訓(xùn)練大模型。到了去年,產(chǎn)業(yè)界開(kāi)始密集關(guān)注具身智能的發(fā)展。
我個(gè)人認(rèn)為,從多模態(tài)大模型走向具身智能,其實(shí)是一個(gè)非常絲滑的過(guò)程。如果沒(méi)有多模態(tài)大模型的基礎(chǔ)、沒(méi)有海量數(shù)據(jù)積累和底層基礎(chǔ)設(shè)施的提升,是難以實(shí)現(xiàn)具身智能的。從這個(gè)角度來(lái)看,具身智能是從“虛擬”世界向“現(xiàn)實(shí)”延展的一次躍遷,也是一個(gè)漸進(jìn)而自然的技術(shù)演化。
唐小引:這其實(shí)也涉及到個(gè)人賽道選擇的問(wèn)題。現(xiàn)在有很多研究者依然選擇去做基礎(chǔ)大模型的訓(xùn)練,也有人將重心轉(zhuǎn)向應(yīng)用層,比如做 Agent 或具體應(yīng)用。而你選擇了從多模態(tài)進(jìn)一步走向具身智能,把大模型“接入現(xiàn)實(shí)世界”,這是出于怎樣的考慮?
王鵬偉:我原來(lái)本科學(xué)的就是電子系,所以從很早開(kāi)始我就對(duì)硬件系統(tǒng)感興趣。在看到具身智能這個(gè)方向逐漸發(fā)展起來(lái)時(shí),我就很好奇:現(xiàn)在我們習(xí)慣于和大模型在“虛擬世界”里對(duì)話交互,那么把它部署到真實(shí)的物理環(huán)境中會(huì)發(fā)生什么?
因?yàn)檎f(shuō)白了,物理世界的交互環(huán)境所面臨的挑戰(zhàn)要復(fù)雜得多。比如環(huán)境的不確定性、三維空間的感知與推理等,在我看來(lái)這些任務(wù)都更困難,而我本身也比較喜歡去做一些有挑戰(zhàn)性的事情。
胡亮:大家好,我是來(lái)自同濟(jì)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的胡亮。今天的主題是具身智能,我們目前的研究,也主要聚焦于具身智能背后所需的大語(yǔ)言模型技術(shù)。當(dāng)然,未來(lái)我們也計(jì)劃將目前研發(fā)的大模型應(yīng)用于具身智能系統(tǒng),實(shí)現(xiàn)更深層次的融合。
其實(shí),我們對(duì) AI 和機(jī)器學(xué)習(xí)的研究開(kāi)始得比較早。在大模型還沒(méi)興起之前,我們主要聚焦在數(shù)據(jù)驅(qū)動(dòng)的研究方向上,比如數(shù)據(jù)挖掘、推薦系統(tǒng)等。后來(lái)隨著深度學(xué)習(xí)的發(fā)展,尤其是 NLP 技術(shù)的突破,我們逐步轉(zhuǎn)向了對(duì)大模型的研究。
不過(guò),我們畢竟是高校,大模型研究無(wú)法像工業(yè)界那樣快速落地應(yīng)用,所以我們更專(zhuān)注于大模型與前沿科研領(lǐng)域的一些結(jié)合。
比如,當(dāng)前大模型面臨的首要問(wèn)題之一是訓(xùn)練成本極高,同時(shí)其耗電量也非常大。如果把這樣一個(gè)高能耗的大模型作為機(jī)器人的“智能大腦”,顯然不現(xiàn)實(shí):可能機(jī)器人開(kāi)機(jī)一分鐘電就用完了。因此,具身智能的發(fā)展必須朝著低能耗的方向不斷演進(jìn)。
另一方面,盡管當(dāng)前 AI 算法已經(jīng)取得了很大進(jìn)步,可大模型在應(yīng)對(duì)任務(wù)差異性較大的情境時(shí),還存在較大局限。這也就是為什么現(xiàn)在還沒(méi)有一個(gè)通用的“家務(wù)機(jī)器人”。比如掃地要買(mǎi)掃地機(jī)器人,洗碗需要洗碗機(jī)器人,疊被子還要一個(gè)專(zhuān)門(mén)的疊被子機(jī)器人。每一個(gè)家務(wù)場(chǎng)景都要買(mǎi)一臺(tái)特定的機(jī)器人——不像人類(lèi),只要吃一碗飯,就能把所有的這些活都干了。
這反映出兩個(gè)問(wèn)題。第一,當(dāng)前模型在多任務(wù)場(chǎng)景下的泛化能力比較弱;第二,當(dāng)遇到新的任務(wù)時(shí),模型的快速適應(yīng)和學(xué)習(xí)能力仍較差。因此,我們需要探索一些新的機(jī)制,推動(dòng)大模型從功耗優(yōu)化、到任務(wù)適應(yīng)能力的各個(gè)層面,全面朝著可用于具身智能的目標(biāo)演進(jìn)。
舉個(gè)例子,我們可以思考:為什么人腦的功耗遠(yuǎn)低于數(shù)萬(wàn)塊 GPU 構(gòu)建的系統(tǒng),卻能處理更多更復(fù)雜的任務(wù)?這是否說(shuō)明,當(dāng)下的大模型架構(gòu)其實(shí)還有改進(jìn)空間?是否可以構(gòu)建一種更加高效、低功耗,同時(shí)具備強(qiáng)任務(wù)泛化能力的新架構(gòu)?
事實(shí)上,目前的大模型架構(gòu)已經(jīng)有近十年沒(méi)有出現(xiàn)革命性變化了。大多數(shù)仍基于 Transformer 架構(gòu),依賴龐大的參數(shù)數(shù)量。這就意味著需要更多 GPU 資源,帶來(lái)巨大的訓(xùn)練成本和能耗。而高昂的訓(xùn)練成本,也讓我們難以頻繁訓(xùn)練大模型去適應(yīng)新任務(wù),這進(jìn)一步限制了其在具身智能領(lǐng)域中的應(yīng)用能力。
此外,從感知層面來(lái)看,大模型與機(jī)器人之間也存在不小的“Gap”。機(jī)器人通常配備了多種傳感器,如觸覺(jué)、語(yǔ)音、視覺(jué)等,而當(dāng)前大模型主要還是使用自然語(yǔ)言訓(xùn)練,少部分?jǐn)U展到圖像——與機(jī)器人在物理世界中的多模態(tài)傳感器體系并不匹配。這就導(dǎo)致了目前大模型與具身智能之間結(jié)合的深度依然很淺,實(shí)際落地還面臨很多技術(shù)難題。
因此,我們團(tuán)隊(duì)正在探索一種全新的方向:能否研發(fā)出一種真正低功耗、任務(wù)泛化能力更強(qiáng)的大模型架構(gòu),同時(shí)能將機(jī)器人所具備的多模態(tài)感知能力整合進(jìn)來(lái),從而支持持續(xù)學(xué)習(xí)和新任務(wù)適應(yīng)能力,使模型逐步具備類(lèi)似人類(lèi)的智能進(jìn)化能力。
具身智能,將從 Pipeline 向“端到端”演進(jìn)
唐小引:王老師這次參加帶來(lái)了團(tuán)隊(duì)圍繞具身智能的最新研究進(jìn)展,可以和大家分享一下核心內(nèi)容嗎?
王鵬偉:好的。在這次的分享中,我主要探討了從人工智能到具身智能的整體發(fā)展趨勢(shì),并介紹了當(dāng)前在做具身智能時(shí),我們主要采用的技術(shù)路徑。目前來(lái)看,具身智能的實(shí)現(xiàn)路線非常多樣,并沒(méi)有出現(xiàn)某一條被普遍認(rèn)可的“標(biāo)準(zhǔn)路線”,大家都還在不斷探索和試錯(cuò)。
剛剛提到,我此前是做多模態(tài)大語(yǔ)言模型出身的,轉(zhuǎn)向具身智能領(lǐng)域之后,經(jīng)歷了一段明顯的“陣痛期”。盡管在大語(yǔ)言模型層面,例如語(yǔ)言生成、推理能力都表現(xiàn)良好,但到了機(jī)器人這邊就頻繁遇到問(wèn)題,比如數(shù)據(jù)難以獲取、硬件不完善等。
這實(shí)際上就形成了一個(gè)“死”循環(huán):硬件本身不夠成熟,很多機(jī)器人兩周就壞一次,然后修理又花兩周,所以一個(gè)月中機(jī)器人就一半在壞、一半在修。除了穩(wěn)定性問(wèn)題,機(jī)器人在操作過(guò)程中還經(jīng)常出現(xiàn)軌跡預(yù)測(cè)異常。這些硬件上的不穩(wěn)定,直接造成了系統(tǒng)難以落地的困難;而落地困難,又讓數(shù)據(jù)采集變得更復(fù)雜。
目前行業(yè)的主流做法是依賴“數(shù)據(jù)采集場(chǎng)”的方式,進(jìn)行主動(dòng)的數(shù)據(jù)收集。但從 AI 技術(shù)發(fā)展的歷史來(lái)看,僅靠主動(dòng)采集是遠(yuǎn)遠(yuǎn)不夠的。如果希望 AI 技術(shù)快速提升,它必須具備被動(dòng)式地生產(chǎn)數(shù)據(jù)的機(jī)制,也就是說(shuō)系統(tǒng)在執(zhí)行任務(wù)過(guò)程中能自然地產(chǎn)生、標(biāo)注并篩選大量數(shù)據(jù)。但現(xiàn)在這種方式還未普及,主要還是依賴大量人力去主動(dòng)建設(shè)數(shù)據(jù)采集場(chǎng)地。這種模式下數(shù)據(jù)量嚴(yán)重不足,也就限制了模型的訓(xùn)練能力,進(jìn)而又影響了系統(tǒng)本身的優(yōu)化能力,形成一種惡性循環(huán)。
所以目前在具身智能領(lǐng)域,主要存在兩種技術(shù)路線,一種是模塊化的分層思維,另一種是端到端架構(gòu)。而這兩種范式,廣泛存在于過(guò)去十幾年的 AI 應(yīng)用中。我舉個(gè)例子,比如搜索。在 ChatGPT 出現(xiàn)之前,無(wú)論是搜索還是聊天系統(tǒng)基本都采用模塊化架構(gòu):一個(gè)指令輸入后,系統(tǒng)會(huì)先進(jìn)行 NER(Named Entity Recognition,命名實(shí)體識(shí)別)工作、語(yǔ)法解析,再根據(jù)實(shí)體判斷用戶意圖——是搜索、聊天還是搜歌。整個(gè)過(guò)程采用的是流水線式架構(gòu)(Pipeline)。
而現(xiàn)在,像 ChatGPT 這樣的系統(tǒng)可以通過(guò)一個(gè)端到端的大模型統(tǒng)一處理全部任務(wù)。這種架構(gòu)有更高的性能上限,也能自動(dòng)處理許多長(zhǎng)尾問(wèn)題。以前遇到系統(tǒng)無(wú)法識(shí)別的輸入,往往要靠人工補(bǔ)充規(guī)則或數(shù)據(jù);而現(xiàn)在這些邊緣用例可以被模型自然地學(xué)習(xí)和覆蓋。
以前,我們?cè)谶_(dá)摩院做了一個(gè)詩(shī)歌對(duì)話系統(tǒng),本來(lái)很自信它能跟用戶暢聊所有詩(shī)歌類(lèi)內(nèi)容。后來(lái)某天晚上,一個(gè)阿里的高級(jí)領(lǐng)導(dǎo)試用時(shí),突然輸入了一句“白日依什么?”這種不完整、模糊的提問(wèn)——很出乎意料,因?yàn)榇蟛糠侄紩?huì)問(wèn)“白日依山盡的下一句是什么”這種問(wèn)題。然后我們的這個(gè)系統(tǒng)當(dāng)場(chǎng)“掛掉”了,因?yàn)樗蕾嚨氖悄K化 Pipeline 的方式,可 ChatGPT 就能把這個(gè)問(wèn)題解決得很好。
自動(dòng)駕駛也面臨類(lèi)似情況,在具身智能領(lǐng)域同樣如此。Pipeline 這種方式的優(yōu)勢(shì)是魯棒性強(qiáng),可以快速適應(yīng) ToB 工業(yè)場(chǎng)景甚至 ToC 消費(fèi)場(chǎng)景。一旦實(shí)現(xiàn)大規(guī)模落地,就能自然收集被動(dòng)數(shù)據(jù),這些數(shù)據(jù)又可用于微調(diào)模型,推動(dòng)系統(tǒng)向更強(qiáng)大的端到端架構(gòu)發(fā)展。
所以說(shuō),我在全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)上分享的報(bào)告就是圍繞這樣的演化路徑展開(kāi)的,同時(shí)也介紹了我們北京智源研究所在分層架構(gòu)方面的研發(fā)成果:發(fā)布了“具身大腦”和“具身大小腦”的操作框架。
目前,國(guó)內(nèi)外并沒(méi)有一套可即插即用的具身智能系統(tǒng)框架。比如,很多用戶買(mǎi)了機(jī)器人卻發(fā)現(xiàn)動(dòng)不了,因?yàn)檫€需自己編寫(xiě)大量底層代碼,處理系統(tǒng)調(diào)度邏輯等。為了解決這個(gè)問(wèn)題,我們發(fā)布了 RoboOS 和 RoboBrain 框架,采用統(tǒng)一的 OpenAI 接口范式,兼容市面上主流機(jī)器人設(shè)備——包括宇樹(shù)機(jī)器人、松靈機(jī)器人、UR5、Franka 等。用戶按照我們的方式設(shè)置之后,即可快速啟動(dòng)機(jī)器人,完成包括地形理解、物品抓取等復(fù)雜任務(wù),真正實(shí)現(xiàn)一站式服務(wù)。
唐小引:聽(tīng)完王老師的分享,感覺(jué)好像解開(kāi)了我之前對(duì)具身智能的一些誤解。
此前,我在很多關(guān)于具身智能或大模型的討論中,經(jīng)常聽(tīng)到 System 1 和 System 2,也就是“快思考”和“慢思考”。而在具身智能領(lǐng)域,很多人提到的是“大小腦”。王老師,是否可以請(qǐng)你分析一下具身智能中的“大小腦”概念,幫助我們厘清這些術(shù)語(yǔ)之間的關(guān)系?
王鵬偉:好的?!翱煜到y(tǒng)”和“慢系統(tǒng)”,也就是所謂的 System 1 和 System 2,其實(shí)本質(zhì)上和具身智能中的“大小腦”思路非常相似。所謂快系統(tǒng),是指無(wú)需過(guò)多思考就能迅速作出反應(yīng)的模塊;慢系統(tǒng)則需要進(jìn)行較深層次的推理,比如借助 CoT(Chain of Thought,思維鏈)方式逐步處理復(fù)雜任務(wù),這是大模型中常用的一種范式。
至于具身智能中“大小腦”這個(gè)概念,它其實(shí)是中國(guó)技術(shù)圈的一種本土化表述,在國(guó)外沒(méi)有這種叫法,而是用“hierarchical”(分層)來(lái)描述。那為什么國(guó)內(nèi)叫“大小腦”,我覺(jué)得可能是把它類(lèi)比成了人腦的一些功能:比如大腦主要負(fù)責(zé)控制中樞、感知、理解和決策;而小腦則偏向于控制動(dòng)作執(zhí)行,如抓取、放置等操作行為,從而就有了“大小腦”這個(gè)叫法。
那它與“快系統(tǒng)”和“慢系統(tǒng)”的差異在哪里呢?實(shí)際上,在最新的系統(tǒng)設(shè)計(jì)中,這兩者已經(jīng)趨于融合了。比如 OpenAI 投資的公司 Figure 推出了一個(gè)具身智能系統(tǒng) Helix,它就采用了雙系統(tǒng)架構(gòu):快系統(tǒng)類(lèi)比于小腦,用于高頻率的實(shí)時(shí)控制;慢系統(tǒng)類(lèi)比于大腦,負(fù)責(zé)邏輯推理和復(fù)雜感知。
因?yàn)槁到y(tǒng)涉及邏輯和理解能力,所以模型參數(shù)量較大,響應(yīng)頻率(赫茲率)較低。例如一個(gè) 7B 參數(shù)的大模型,處理速度一般只能達(dá)到 10Hz,這已經(jīng)是上限了。而快系統(tǒng)需要更高的反應(yīng)速度,必須要達(dá)到 30 赫茲以上,這樣人眼去看這個(gè)機(jī)械臂的操作就會(huì)相對(duì)絲滑流暢一些。
所以我認(rèn)為,“快系統(tǒng)、慢系統(tǒng)”和“大小腦”在設(shè)計(jì)邏輯上并沒(méi)有太本質(zhì)的區(qū)別,只是術(shù)語(yǔ)表達(dá)有所不同。
唐小引:你剛才也提到了“端到端”的技術(shù)路線。過(guò)去,我在自動(dòng)駕駛領(lǐng)域也經(jīng)常接觸到“端到端”和“泛化能力”這些概念,而這些詞在大模型領(lǐng)域也很常見(jiàn)。那么這些技術(shù)關(guān)鍵詞,在不同場(chǎng)景下的含義是否一致,還是有區(qū)別的?
王鵬偉:歸根到底,具身智能還是屬于 AI 范疇的。從發(fā)展路徑看,AI 的各個(gè)領(lǐng)域普遍經(jīng)歷了從分層 Pipeline 向端到端的演進(jìn)過(guò)程,包括信息檢索、聊天系統(tǒng)、自動(dòng)駕駛等。所以對(duì)于具身而言,也是這樣的。而這種演進(jìn)背后的本質(zhì)原因,就是數(shù)據(jù)的匱乏。
在 Transformer 架構(gòu)出現(xiàn)之前,大家普遍采用 Pipeline 是因?yàn)椋阂环矫鏀?shù)據(jù)不夠多,另一方面硬件基礎(chǔ)設(shè)施無(wú)法支撐大規(guī)模數(shù)據(jù)的訓(xùn)練與消費(fèi)。而 Transformer 的出現(xiàn)推動(dòng)了底層算力結(jié)構(gòu)升級(jí),進(jìn)一步使得基礎(chǔ)模型的訓(xùn)練成為可能——以此為轉(zhuǎn)折點(diǎn),AI 系統(tǒng)便逐步從 Pipeline 向端到端過(guò)渡。
那智駕也是一樣的問(wèn)題?,F(xiàn)在國(guó)內(nèi)市場(chǎng),“端到端”已成為一種宣傳標(biāo)簽,很多客戶可能并不理解這個(gè)詞到底是什么意思,但他們知道這代表著更先進(jìn)的智能水平。如果車(chē)企如果沒(méi)有“端到端”這個(gè)標(biāo)簽,用戶甚至可能都不會(huì)考慮購(gòu)買(mǎi)。就像國(guó)外的特斯拉,它的數(shù)據(jù)儲(chǔ)備達(dá)到一定量之后,就足以支撐它去優(yōu)化整個(gè)端到端的系統(tǒng)。
所以說(shuō),不論是大模型、自動(dòng)駕駛還是具身智能,它們的技術(shù)發(fā)展路徑基本高度一致,都是從 Pipeline 向端到端的演進(jìn)。
唐小引:也就是說(shuō),其實(shí)端到端這個(gè)概念在智駕和具身智能中并無(wú)本質(zhì)區(qū)別?有很多人都說(shuō),現(xiàn)在的智能汽車(chē)可能也是另一種形式的機(jī)器人。
王鵬偉:沒(méi)錯(cuò)。在具身智能領(lǐng)域中,有一部分從業(yè)者就是從智駕行業(yè)轉(zhuǎn)過(guò)來(lái)的,有很多客戶也都來(lái)自汽車(chē)行業(yè),因?yàn)?strong>他們的車(chē)廠本身就是一個(gè)天然的具身智能訓(xùn)練場(chǎng)和應(yīng)用場(chǎng)景。
“具身”與“智能”之間,目前還沒(méi)有真正協(xié)作起來(lái)
唐小引:接下來(lái),請(qǐng)胡老師和大家講講團(tuán)隊(duì)最新的研究進(jìn)展,為什么從類(lèi)腦認(rèn)知多模態(tài)大模型著手,希望無(wú)縫連接人類(lèi)大腦、AI 大腦和機(jī)器人大腦?
胡亮:剛才我簡(jiǎn)單提到了一些當(dāng)前大模型在與具身智能結(jié)合時(shí)存在的問(wèn)題。其實(shí)現(xiàn)在主流的大模型架構(gòu),與人類(lèi)大腦的結(jié)構(gòu)差異還是非常大的。它本質(zhì)上還是一種數(shù)學(xué)模型,是通過(guò)大規(guī)模的數(shù)據(jù)訓(xùn)練和參數(shù)調(diào)優(yōu)形成的,并不具備生物神經(jīng)系統(tǒng)那樣的結(jié)構(gòu)與學(xué)習(xí)機(jī)制。
所以我們目前的研究重點(diǎn)之一,就是在探索“人類(lèi)、AI 大模型與具身智能機(jī)器人”這三者之間的協(xié)同機(jī)制。但從現(xiàn)狀來(lái)看,這三者之間還存在顯著的 Gap,還沒(méi)有一種有效方式能真正把它們連接起來(lái)。
以具身智能為例,機(jī)器人在很大程度上還被定位為一種服務(wù)于人類(lèi)的工具。當(dāng)然,未來(lái)到底是 AI 統(tǒng)治人類(lèi)還是人類(lèi)統(tǒng)治 AI ,這就是后續(xù)的問(wèn)題了。但在當(dāng)前階段,我們的目標(biāo)還是想讓機(jī)器人更好地理解并滿足人類(lèi)的需求。
而這就有一個(gè)問(wèn)題:我們要怎么把意圖和需求準(zhǔn)確地傳達(dá)給機(jī)器人?目前在這方面,確實(shí)還缺乏一個(gè)清晰、有效的“橋梁”,大多數(shù)機(jī)器人還是在執(zhí)行預(yù)設(shè)任務(wù),比如在春晚上跳舞或在街道上奔跑等。
唐小引:對(duì),關(guān)于這一點(diǎn)我也有體會(huì)。前幾天我參觀宇樹(shù)機(jī)器人的演示,原本我以為可以直接和機(jī)器人進(jìn)行語(yǔ)音交互,比如我說(shuō)“揮揮手”,它就會(huì)響應(yīng)動(dòng)作。但我發(fā)現(xiàn),原來(lái)所有交互都是工程師在后臺(tái)操控的。還有前陣子的機(jī)器人跑半馬比賽,很多人都說(shuō)“參賽跑步的是機(jī)器人,結(jié)果累斷腿的是工程師”。所以我感覺(jué),這些都反映出了胡老師剛才所說(shuō)的具身智能的真實(shí)現(xiàn)狀。
胡亮:現(xiàn)在具身智能的水平,如果能把一些預(yù)設(shè)任務(wù)完成好,就已經(jīng)是不錯(cuò)的成果了。它目前根本無(wú)法真正理解人的需求和意圖,并以此來(lái)自主地執(zhí)行任務(wù)。要實(shí)現(xiàn)這一目標(biāo),至少在短期內(nèi)需要有巨大的技術(shù)突破。
而我們目前在做的工作,就是在探索“人腦、AI 大腦與機(jī)器人”三者之間的 Gap 到底在哪里?我們能不能通過(guò)某些技術(shù)手段,彌補(bǔ)這其中的一部分 Gap?當(dāng)然,我們也不指望在短期內(nèi)就完全解決這個(gè)問(wèn)題,但我們希望通過(guò)提出新的范式和路徑,哪怕是微小的推動(dòng),也能讓這一進(jìn)程往前走一些。
所以,我們的研究會(huì)圍繞這三者之間的關(guān)系展開(kāi):首先會(huì)深入分析當(dāng)前大模型的局限,然后討論現(xiàn)階段機(jī)器人存在的核心問(wèn)題。就像我剛才說(shuō)的,雖然我們管它叫“具身智能”,但目前的情況是,它的“具身”與“智能”之間,其實(shí)還沒(méi)有形成真正的聯(lián)系。
唐小引:之前我們都說(shuō)從“離身智能”到“具身智能”,但胡老師認(rèn)為“具身”與“智能”之間還沒(méi)有聯(lián)系?
胡亮:有些聯(lián)系,但是還沒(méi)有真正協(xié)作起來(lái),技術(shù)上還存在很多難題。我們也在思考,有沒(méi)有新方法能推動(dòng)這方面的改進(jìn)。
目前,人和機(jī)器的交互主要依賴語(yǔ)音,但語(yǔ)音本身就存在很大限制。現(xiàn)實(shí)中常見(jiàn)的做法是,用戶將需求告訴工程師,由工程師再去操作機(jī)器人。然而,這種模式在一些關(guān)鍵場(chǎng)景中并不適用。例如在自動(dòng)駕駛中,如果前方突發(fā)危險(xiǎn)情況,人類(lèi)駕駛員需要通過(guò)語(yǔ)音下達(dá)指令,AI 分析并做出反應(yīng),這一來(lái)一回可能已經(jīng)耽誤十幾秒,車(chē)早就撞了。
因此我們?cè)谒伎?,是否可以探索一種更快、更直接的交互方式。我們都知道,大腦中意圖的生成速度其實(shí)遠(yuǎn)快于語(yǔ)言表達(dá),感知系統(tǒng)的反應(yīng)也快于身體動(dòng)作。所以如果我們能夠提取出大腦中潛在的意圖信號(hào),將其直接解碼為 AI 可以理解的信息,實(shí)現(xiàn)“人腦—AI 大腦”的直連,就有可能繞過(guò)語(yǔ)音這些中間步驟,大幅提升人機(jī)交互和協(xié)作的效率。
唐小引:也就是說(shuō),我腦子里想到什么、不需要開(kāi)口說(shuō),系統(tǒng)也能理解?這個(gè)要怎么實(shí)現(xiàn)呢?
胡亮:這其實(shí)不難實(shí)現(xiàn)。舉個(gè)例子,當(dāng)你走在房間里,遠(yuǎn)處出現(xiàn)一個(gè)坑的時(shí)候,其實(shí)你的大腦早已做出了反應(yīng)。這個(gè)時(shí)候,如果 AI 能夠接收到你大腦的這個(gè)信號(hào),它就不需要你再描述“前面有個(gè)坑,我們要向右轉(zhuǎn)”這類(lèi)信息。因?yàn)楫?dāng)你說(shuō)完這些話的時(shí)候,可能已經(jīng)撞上去了。事實(shí)上在你的感知中,你的大腦很快就完成了一個(gè)決策。我們現(xiàn)在的目標(biāo)就是把人類(lèi)的這種快速?zèng)Q策能力與機(jī)器決策結(jié)合起來(lái),形成一個(gè)更魯棒的決策系統(tǒng)。
唐小引:我們?cè)谘芯看竽P偷臅r(shí)候,一直說(shuō)它的邊界還是語(yǔ)言。那現(xiàn)在從技術(shù)實(shí)現(xiàn)上看,是不是已經(jīng)能突破這個(gè)“語(yǔ)言的邊界”了?
胡亮:現(xiàn)在的話,其中大模型中訓(xùn)練得最好的還是語(yǔ)言相關(guān)的模型。但在視覺(jué)領(lǐng)域,尤其是對(duì)圖像的理解上,大模型還沒(méi)有取得突破性進(jìn)展?,F(xiàn)階段的模型更多是在處理圖像中的對(duì)象識(shí)別,而非真正理解圖像的內(nèi)涵。
比如,我們給 AI 生成模型輸入“人和馬的關(guān)系”這樣的描述,它可能會(huì)生成“人騎馬”的圖片,也可能會(huì)生成“馬騎人”的圖片。這就說(shuō)明模型還不能真正理解現(xiàn)實(shí)世界中的常識(shí)邏輯,而是更側(cè)重于處理一些文本內(nèi)容的語(yǔ)義理解。
我們之所以能理解空間中的“上下左右”,是因?yàn)槿祟?lèi)大腦本身具備空間感知能力。但對(duì)機(jī)器來(lái)說(shuō),“上”和“下”到底代表什么,它其實(shí)并不理解。雖然我們可以將“上”這個(gè)概念表示成語(yǔ)義向量,但它在物理空間中具體代表什么,模型是無(wú)法理解的。也就是說(shuō),想要實(shí)現(xiàn)具備真實(shí)環(huán)境感知能力的大模型,還有很長(zhǎng)的路要走。目前的大模型主要還是運(yùn)作在語(yǔ)義理解層面。
在現(xiàn)有的具身智能技術(shù)中,常見(jiàn)的方式是將視覺(jué)場(chǎng)景轉(zhuǎn)化為文字描述,再交由大語(yǔ)言模型學(xué)習(xí)——但這種方式本身就存在問(wèn)題。因?yàn)槲淖直磉_(dá)的是語(yǔ)義,而空間關(guān)系則屬于物理層面。當(dāng)你把物理場(chǎng)景翻譯成文字后,空間中的物理關(guān)系就會(huì)被簡(jiǎn)化為抽象語(yǔ)義,這會(huì)導(dǎo)致模型失去了對(duì)真實(shí)空間結(jié)構(gòu)的理解能力:雖然文字可以描述為“上下左右”,但在模型眼里,它們只是向量,并不具備明確的物理指向性。
所以我們也正在探索一種新的方式:能否將真實(shí)世界中的空間關(guān)系直接引入到模型訓(xùn)練中?這可能需要引入多模態(tài)的數(shù)據(jù)輸入,比如加入人類(lèi)大腦中的空間感知信號(hào)。雖然目前大模型還是側(cè)重于語(yǔ)言,但若要實(shí)現(xiàn)真正的具身智能,這應(yīng)該是一個(gè)值得深入探索的重要方向。
唐小引:我之前對(duì)具身智能的理解是,大家在實(shí)踐中首先面臨的挑戰(zhàn)主要是數(shù)據(jù)缺乏,其次是計(jì)算能力和系統(tǒng)架構(gòu)等技術(shù)問(wèn)題。但聽(tīng)胡老師你這么解釋?zhuān)?strong>具身智能真正要解決的第一步,應(yīng)該是建立起對(duì)現(xiàn)實(shí)世界的感知與交互能力?
胡亮:可以這樣理解。我們與現(xiàn)實(shí)世界進(jìn)行交互,和在仿真環(huán)境中進(jìn)行交互是存在本質(zhì)區(qū)別的。因?yàn)榉抡姝h(huán)境不可能把現(xiàn)實(shí)世界中所有的物理屬性都完整地建模出來(lái)。哪怕僅有一兩處關(guān)鍵細(xì)節(jié)被忽略,模型在訓(xùn)練過(guò)程中未能考慮這些要素,就有可能在實(shí)際部署中因這些細(xì)節(jié)而出現(xiàn)嚴(yán)重偏差,從而導(dǎo)致整個(gè)模型在真實(shí)世界的運(yùn)行失敗。
我們距離真正的“具身智能”還有多遠(yuǎn)?
唐小引:今年 3 月黃教主曾說(shuō)“通用機(jī)器人時(shí)代已經(jīng)來(lái)了”,可實(shí)際上從具身智能研究者的角度來(lái)看,普遍還是認(rèn)為我們離這個(gè)目標(biāo)還有很長(zhǎng)一段路要走。
那如果站在現(xiàn)在這個(gè)時(shí)間點(diǎn),去展望未來(lái)具身智能的發(fā)展路徑,我想最后提出兩個(gè)問(wèn)題:第一,我們距離真正的具身智能還有多遠(yuǎn)?第二,通往這個(gè)目標(biāo)的過(guò)程中,我們大概會(huì)經(jīng)歷哪些階段,以及每個(gè)階段的核心目標(biāo)是什么?
胡亮:我們現(xiàn)在確實(shí)面臨不少挑戰(zhàn),前面也提到過(guò)一些。但如果看得更深一點(diǎn),問(wèn)題主要集中在兩個(gè)方面。
首先,我們當(dāng)前最主流的 AI 范式還是基于 Transformer 架構(gòu)的大模型。但過(guò)去幾年,針對(duì) Transformer 本身的改進(jìn)已經(jīng)越來(lái)越少,它的潛力可能已接近上限?,F(xiàn)在更多的創(chuàng)新都是在它的外圍,比如構(gòu)建 Agent 系統(tǒng)等。而這也帶來(lái)了一個(gè)問(wèn)題:Transformer 作為現(xiàn)在 AI 的“大腦”,它和具身智能還沒(méi)有實(shí)現(xiàn)很好的適配。
Transformer 有一個(gè)關(guān)鍵特點(diǎn)是“存算一體”,也就是知識(shí)和任務(wù)執(zhí)行邏輯都存儲(chǔ)在模型的參數(shù)之中。參數(shù)越多、知識(shí)越多,模型能力就越強(qiáng),但同時(shí)也越脆弱——因?yàn)槲覀儫o(wú)法明確區(qū)分哪些參數(shù)負(fù)責(zé)知識(shí),哪些負(fù)責(zé)任務(wù)邏輯。當(dāng)我們更新模型去學(xué)習(xí)新知識(shí)時(shí),可能會(huì)意外破壞已有的任務(wù)執(zhí)行能力。這就會(huì)導(dǎo)致模型在真實(shí)世界中與機(jī)器人的協(xié)作不夠穩(wěn)定,魯棒性較差。
人類(lèi)則不同。我們即使沒(méi)有外部知識(shí)輸入,也能依靠本能執(zhí)行一些任務(wù),后天的知識(shí)和記憶更多是疊加在這個(gè)基礎(chǔ)之上。即使大腦某個(gè)區(qū)域受損,人可能會(huì)失去記憶,但仍維持正常的生活??纱竽P筒皇沁@樣,如果我們刪除了它部分記憶或知識(shí),往往就會(huì)導(dǎo)致它無(wú)法完成任務(wù)。
基于這些考慮,我們認(rèn)為,當(dāng)前以 Transformer 為基礎(chǔ)的大模型架構(gòu),可能并不適用于具身智能的長(zhǎng)期發(fā)展目標(biāo)。因此,我們或許可以從架構(gòu)層面對(duì) Transformer 進(jìn)行適當(dāng)?shù)膬?yōu)化,使其更好地支持機(jī)器人在現(xiàn)實(shí)世界中的穩(wěn)定協(xié)作能力。
唐小引:那要如何去對(duì)模型的架構(gòu)進(jìn)行調(diào)整?
胡亮:這個(gè)問(wèn)題我們還在研究過(guò)程中。實(shí)際上在大模型出現(xiàn)之前,也就是大約 10 年前,國(guó)外就已經(jīng)有關(guān)于這方面的探索了。例如,有一種叫做記憶網(wǎng)絡(luò)(Memory Networks),還有一種叫做神經(jīng)圖靈機(jī)(Neural Turing Machine),它們的特點(diǎn)就是把記憶與邏輯執(zhí)行分開(kāi)管理。
也就是說(shuō),通過(guò)分離記憶和任務(wù)執(zhí)行能力,我們可以對(duì)大模型進(jìn)行改進(jìn),把與任務(wù)執(zhí)行無(wú)關(guān)的知識(shí)和邏輯,劃分到不同模塊中。這就類(lèi)似于人腦,不同類(lèi)型的記憶會(huì)被存儲(chǔ)在不同的腦部區(qū)域,我們對(duì)世界的感知、知識(shí)和記憶也都是存儲(chǔ)在不同區(qū)域的。
而這種設(shè)計(jì)的優(yōu)勢(shì)在于,現(xiàn)在的大模型參數(shù)可能多達(dá)上千億,即便是執(zhí)行非常簡(jiǎn)單的任務(wù),模型也會(huì)把幾乎所有參數(shù)都激活計(jì)算一遍——但實(shí)際上,簡(jiǎn)單任務(wù)只需調(diào)用部分特定的知識(shí)和記憶就好了。如果我們將模型劃分為若干個(gè)模塊,每個(gè)模塊負(fù)責(zé)特定類(lèi)型的知識(shí)和記憶,當(dāng)執(zhí)行特定任務(wù)時(shí),比如掃地,僅需調(diào)用掃地相關(guān)的記憶模塊。這樣不僅減少了計(jì)算資源的消耗,也讓模型更加高效。
另外,當(dāng)我們需要更新模型的知識(shí)時(shí),也只需要擴(kuò)展記憶模塊,而不會(huì)破壞執(zhí)行任務(wù)的基礎(chǔ)模塊。比如在其他機(jī)器上學(xué)習(xí)到的新知識(shí),可以通過(guò)共享記憶擴(kuò)展的方式,更新整體模型,而不影響任務(wù)執(zhí)行能力。這種架構(gòu)設(shè)計(jì)也有助于實(shí)現(xiàn)多智能體協(xié)作,形成一種群體智能,更好地推動(dòng) AGI 的發(fā)展。
唐小引:好,那請(qǐng)王老師來(lái)分享一下你的觀點(diǎn)和答案?
王鵬偉:胡老師剛才的分享是從底層的模型架構(gòu)和原理出發(fā),對(duì)最基本的架構(gòu)進(jìn)行了迭代更新。實(shí)際上,任何一項(xiàng)工業(yè)技術(shù)的發(fā)展都離不開(kāi)底層架構(gòu)的演進(jìn)。從專(zhuān)家系統(tǒng)模型到 CNN 再到 Transformer,每一次架構(gòu)的更新,都是一次重要飛躍,推動(dòng)了技術(shù)整體向前發(fā)展。
唐小引:我發(fā)現(xiàn)在具身智能這一塊,其實(shí)跟大模型也有些類(lèi)似。一談到“痛點(diǎn)”,很多問(wèn)題都是共通的?
王鵬偉:確實(shí)如此,但具身智能的“痛點(diǎn)”往往更多。一些在大模型中不是問(wèn)題的問(wèn)題,在具身智能中會(huì)變得非常棘手。而且,根據(jù)機(jī)器人的不同構(gòu)型,這些問(wèn)題的表現(xiàn)也不一樣。就像目前普及度最廣的四足形式“機(jī)械狗”,它已經(jīng)發(fā)展了相當(dāng)長(zhǎng)時(shí)間,具備較強(qiáng)的耐用性,即使被拉到雪地中、摔倒,也幾乎不會(huì)損壞。
相比之下,像輪式底盤(pán)的雙臂機(jī)器人,它的控制難度就要比機(jī)械狗大很多。在導(dǎo)航等基礎(chǔ)任務(wù)上,原本在機(jī)械狗上效果良好的算法,遷移到這類(lèi)機(jī)器人上后,效果可能就會(huì)打折扣。再進(jìn)一步是最近非常受關(guān)注的人形機(jī)器人,它的挑戰(zhàn)更大,其難點(diǎn)也恰恰在于它的“人形”結(jié)構(gòu)。
還是以導(dǎo)航為例,相比輪式機(jī)器人和機(jī)械狗這種低重心的穩(wěn)定結(jié)構(gòu),人形機(jī)器人因?yàn)槭请p足結(jié)構(gòu),行走時(shí)高低起伏、震動(dòng)較大,對(duì)傳感器系統(tǒng)造成的挑戰(zhàn)更大。比如你讓它前進(jìn) 3 米,實(shí)際可能只走了 2.5 米,那這算多走了一步,還是少走了一步?目前都還沒(méi)有非常精準(zhǔn)的機(jī)制。同樣,如果你讓它左轉(zhuǎn) 30 度,它是通過(guò)雙腳慢慢轉(zhuǎn)動(dòng)實(shí)現(xiàn)的,大致達(dá)到目標(biāo)角度,但精度遠(yuǎn)不如其他構(gòu)型。
所以我認(rèn)為,現(xiàn)在無(wú)論是機(jī)器人本體,還是其上的大語(yǔ)言模型,都有巨大的優(yōu)化空間。比如胡老師剛才提到的“空間感知”就是一個(gè)非常典型的例子,可目前所有的大語(yǔ)言模型,包括 GPT 系列在內(nèi),幾乎都無(wú)法勝任——但這恰恰是具身智能中特別需要的能力。在真實(shí)空間里,如果讓機(jī)器人執(zhí)行任務(wù),首先必須理解指令,然后做出物理動(dòng)作。這兩個(gè)階段目前都還有很大的提升空間。
過(guò)去,我們常常依賴模擬器來(lái)生成訓(xùn)練數(shù)據(jù),然后在真實(shí)機(jī)器人上部署。但從模擬器到真實(shí)環(huán)境的 Gap 非常大,原因在于模擬環(huán)境中很難窮舉現(xiàn)實(shí)中的各種變量,比如摩擦力、材質(zhì)硬度等等。即使模擬做得再好,也會(huì)受到物理機(jī)械性能的限制。比如,讓一個(gè)機(jī)器人擦桌子,如果沒(méi)有觸覺(jué)反饋,它可能會(huì)認(rèn)為桌面是一個(gè)障礙物,從而觸發(fā)保護(hù)機(jī)制,自動(dòng)停止動(dòng)作。
所以我認(rèn)為,未來(lái)五到十年,會(huì)是軟硬件交替迭代的關(guān)鍵期。算法層面的升級(jí),會(huì)推動(dòng)硬件架構(gòu)的進(jìn)步,而硬件的進(jìn)步又會(huì)反過(guò)來(lái)加速算法研究的演進(jìn)。我印象很深的是 Elon Musk 在書(shū)中提到的一個(gè)觀點(diǎn):未來(lái)家用機(jī)器人數(shù)量可能會(huì)與汽車(chē)數(shù)量持平。也就是說(shuō),幾乎每個(gè)家庭都有可能擁有一臺(tái)機(jī)器人,來(lái)協(xié)助人們完成各種任務(wù)。
唐小引:我覺(jué)得,現(xiàn)在機(jī)器人好像比汽車(chē)還多了?像現(xiàn)在的掃地機(jī)器人,就運(yùn)用了部分自動(dòng)駕駛技術(shù),甚至有些廠商還在掃地機(jī)器人中接入了大語(yǔ)言模型。除此之外,各種各樣的功能也都逐漸“機(jī)器人化”了。那么,我們是不是可以設(shè)想一下:未來(lái)是否會(huì)有一種機(jī)器人,它可以像人一樣,在家中完成各種任務(wù),比如既能掃地、也能洗碗,各種事情都能干?
王鵬偉:對(duì),理想狀態(tài)當(dāng)然是一個(gè)機(jī)器人能完成所有的事情,但目前確實(shí)受到理論研究方面的限制,還存在很多壁壘。因此,現(xiàn)在的機(jī)器人還是更偏向于“專(zhuān)用型”。比如某個(gè)機(jī)器人會(huì)做某項(xiàng)任務(wù),那它就只能做這項(xiàng)任務(wù)。
不過(guò),從去年下半年到今年上半年的發(fā)展來(lái)看,形勢(shì)正在發(fā)生變化:當(dāng)前已經(jīng)開(kāi)始出現(xiàn)多任務(wù)混合訓(xùn)練的趨勢(shì)。只要機(jī)器人具備一個(gè)強(qiáng)大的基礎(chǔ)模型,它就有可能同時(shí)執(zhí)行多個(gè)任務(wù)。這種機(jī)器人不再是“我只會(huì)這一個(gè)任務(wù),其他不會(huì)”,而是可以根據(jù)不同的指令,激活模型中的不同區(qū)域,從而執(zhí)行多種不同的任務(wù)。
唐小引:那最后總結(jié)一句:具身智能是一條正確但非常艱難的道路,對(duì)嗎?
王鵬偉:沒(méi)錯(cuò)。
唐小引:好的,非常感謝王老師和胡老師的精彩分享。
2025 全球產(chǎn)品經(jīng)理大會(huì)
8 月 15–16 日
北京·威斯汀酒店
2025 全球產(chǎn)品經(jīng)理大會(huì)將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實(shí)戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設(shè)計(jì)、用戶體驗(yàn)、增長(zhǎng)運(yùn)營(yíng)、智能落地等核心議題,展開(kāi) 12 大專(zhuān)題分享,洞察趨勢(shì)、拆解路徑、對(duì)話未來(lái)。
更多詳情與報(bào)名,請(qǐng)掃碼下方二維碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.