99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型和具身智能究竟是什么關系?

0
分享至


【導讀】具身智能與大模型頻頻被提及,但具身智能 = 機器人 + 大模型嗎?本文摘自北京郵電大學人工智能學院副教授陳光(@愛可可-愛生活)的新書《走進具身智能》,作者很明確地表示,大模型雖然是實現具身智能的重要工具,但并不是其全部。當前,包括英偉達、智源、智元等多家機構先后發布具身多模態大模型,通過本文,能夠厘清它們之間的脈絡。3 月 28 日(星期五)晚 19:30,CSDN《萬有引力》特別邀請到了陳光老師在直播間里與大家一起共話具身智能,歡迎朋友們預約關注。

本文經出版社授權摘自《走進具身智能》

出品 | CSDN(ID:CSDNnews)

近年來,以 ChatGPT 為代表的大語言模型可謂人工智能領域的一顆新星。它們通過海量語料的預訓練,掌握了強大的語言理解和生成能力。你可以與它們進行流暢的對話,它們能夠理解你的意圖,并給出恰如其分的回應。更令人驚嘆的是,它們還能完成寫作、翻譯、問答等各種語言任務,仿佛一位博學的專家。

那么,什么是大語言模型呢?簡單來說,它是一種基于深度學習的語言模型,通過在大規模語料庫上進行預訓練,學習語言的統計規律和語義表示。與傳統的語言模型不同,大語言模型通常擁有數億、數十億甚至上萬億的參數,能夠捕捉語言中的深層次語義關系。

大語言模型的強大之處在于其出色的語言理解和生成能力。傳統的自然語言處理系統往往針對特定任務設計,如情感分析、命名實體識別等,難以應對復雜、多變的語言場景。而大語言模型通過學習語言的內在規律,具備一定的語言泛化能力。它們能夠理解詞語的多義性、語句的歧義性,能夠根據上下文推斷單詞的含義,生成連貫、流暢的文本。這使得它們能夠在多種語言任務上取得優異的表現,激發 AGI 的潛力。

除了語言理解和生成外,一些大語言模型還展現出驚人的知識獲取和推理能力。以 GPT-3 為例,它在預訓練過程中學習了海量的事實性知識,如歷史事件、科學常識、地理信息等。這些知識不是它簡單地死記硬背獲取的,而是以語義表示的形式內化于模型的。當你問及一個知識點時,它能夠從語義記憶中檢索相關信息,并以自然語言的形式表達出來。更令人驚嘆的是,它還能夠利用已有知識進行推理,回答一些需要邏輯分析的復雜問題。這種能力的突破,讓我們看到了語言模型向知識模型、推理模型進化的無限可能。

但大語言模型的魅力遠不止于此。多模態模型,如 CLIP、DALL·E 等,正在打破語言與視覺的壁壘。它們能夠理解圖像中的內容,并用自然語言描述它,甚至根據文字指令生成逼真的圖像。這意味著,機器不僅能讀懂文字,還能看懂世界,這為人機交互提供了無限可能。

多模態模型的意義在于,它為機器賦予了一種近乎人類的感知和理解能力。我們人類之所以智能,很大程度上是因為我們能夠統一處理來自不同感官的信息,并在不同模態之間進行轉換和聯想。我們能夠用語言描述看到的畫面,也能根據語言指令在大腦中想象一個場景。多模態模型正是對這種能力的初步模擬。它們打破了語言與視覺的邊界,讓機器能夠像人一樣理解這個多元、多彩的世界并與之交互。

當然,目前的多模態模型還處于起步階段,它們在理解抽象概念、進行常識推理等方面還有很大的提升空間。但它們代表人工智能發展的一個重要方向,那就是通過多模態學習,構建更加全面、更加貼近人類認知的機器智能。可以想象,未來的智能系統不僅能聽懂我們的話,還能讀懂我們的表情,甚至能感知我們的情緒。它們將以更加自然、更加人性化的方式與我們互動,成為我們生活中不可或缺的伙伴。

大語言模型和多模態模型的強大能力,為具身智能的實現開辟了廣闊的空間。它們不僅提升了智能系統的語言理解和生成能力,還賦予了機器多感官感知和推理的潛力。當這些先進的人工智能模型與機器人技術相結合,一個全新的具身智能時代即將到來。

首先,大語言模型讓機器人擁有了理解復雜語言指令的能力。在傳統的機器人系統中,人們通常需要使用特定的編程語言或簡單的語音命令來控制機器人。這對于普通用戶來說存在一定的門檻,限制了機器人的使用場景和人群。但是,當我們將大語言模型賦予機器人,情況就大不相同了。

想象一下,當你對家用服務機器人說“請把客廳的玩具收拾到盒子里,然后把地拖一下”,它能準確理解你的意圖,并自主完成一系列任務。這聽起來似乎很簡單,但其背后蘊含了極其復雜的語言理解和任務規劃能力。機器人需要理解“收拾”“玩具”“盒子”等詞語的含義,也需要將語言命令映射到具體的動作序列,還需要在執行過程中實時感知環境的變化,動態調整自己的行為。大語言模型強大的語義理解和邏輯推理能力,為實現這一切提供了基礎。

同樣的變化也正在工業領域上演。裝配機器人是工業自動化的重要組成部分,但傳統的裝配機器人通常只能按照預先編程的指令重復工作,缺乏靈活性和適應性。但如果我們為裝配機器人配備大語言模型,它就能根據工人的口頭指令,自主理解裝配任務的要求,并根據實際情況靈活調整裝配步驟和參數。這將大幅提升工業機器人的智能水平,讓它們成為真正意義上的智能工人。

可以想象,未來的機器人不僅能聽懂我們的指令,還能與我們進行流暢的對話。我們可以用自然語言詢問機器人工作的進度,了解它遇到的問題,甚至與它討論更高層次的任務規劃和優化策略。這種自然、高效的人機交互方式,將極大地提升機器人的易用性和實用性,讓越來越多的人能夠享受智能技術的便利。

其次,多模態模型讓具身智能系統擁有了多感官的感知和決策能力。在現實世界中,我們人類是通過多種感官來認識世界的。我們不僅能看,還能聽、觸摸、嗅。這些不同模態的信息相互補充,讓我們能夠全面、立體地感知周圍的環境。而傳統的機器人系統往往只依賴單一的感知模態,如視覺或觸覺,難以應對復雜多變的現實世界。

多模態模型的出現,正在改變這一切。還是以自動駕駛汽車為例,它需要實時處理來自多個傳感器的海量信息,包括攝像頭的視頻流、激光雷達的點云數據、GPS 的定位信息等。傳統的自動駕駛算法通常是針對單一模態設計的,如計算機視覺算法主要處理圖像信息,點云處理算法主要處理激光雷達數據。這種割裂的處理方式難以全面感知汽車周圍的環境,難以做出準確、可靠的決策。

如果我們將多模態模型應用于自動駕駛汽車,情況就大為不同。多模態模型能夠學習不同感知模態之間的關聯和互補關系,從而獲得對環境更全面、更準確的理解。例如,當視覺模態受到惡劣天氣的影響時,多模態模型可以更多地依靠激光雷達的信息來感知障礙物;當 GPS 信號不穩定時,多模態模型可以結合視覺里程計和慣性導航的結果來估計自身位置。這種多模態的感知融合大大提高了自動駕駛汽車的可靠性。

多模態感知的優勢不僅體現在環境感知上,還體現在人機交互和決策優化上。以智能助理為例,我們希望它不僅能聽懂我們的語音指令,還能讀懂我們的表情和情緒,提供更加個性化、更加貼心的服務。這就需要智能助理具備語音識別、人臉識別、情緒分析等多模態感知能力。

想象一下,當你下班回到家中,智能音箱通過人臉識別和情緒分析發現你似乎心情不佳。它會主動詢問你的情況,并根據你的反饋給出一些緩解壓力的建議,如播放一些舒緩的音樂或者有趣的視頻。如果它發現你正在做飯,還會主動提醒你食材的保質期,或推薦一些相關的菜譜。這種個性化、情境化的交互服務,必須建立在多模態感知和理解的基礎之上。

多模態模型還能幫助機器人在復雜環境中進行智能決策。以家用服務機器人為例,當它在執行清潔任務時,需要根據房間的布局、家具的擺放、地面的材質等因素,動態規劃最優的清潔路徑。傳統的規劃算法通常只考慮幾何信息,難以應對家居環境的多樣性和不確定性。但如果我們將多模態模型與規劃算法相結合,機器人就能更好地理解環境的語義信息,做出更加智能的決策。

例如,多模態模型可以通過視覺和觸覺信息識別出地毯、瓷磚、木地板等地面材質,并根據材質的特點調整清潔設備的工作模式和力度;它還可以通過物體識別和場景理解,判斷沙發、茶幾、電視柜等家具的功能和重要程度,從而合理安排清潔的優先級。這種融合多模態感知的智能決策,將大幅提升家用服務機器人的工作效率和服務質量。

最后,大模型正在革新人機交互的方式,讓人與機器的溝通變得更加自然、更加高效。在傳統的人機交互中,我們往往需要學習復雜的操作命令或適應不人性化的交互界面。這不僅增大了使用的難度,還影響了用戶體驗。但有了自然語言交互,這一切都將成為過去。

自然語言是人類最熟悉、最便捷的交互方式之一。我們從小就學會了用語言表達自己的想法,用語言與他人溝通。如果機器也能理解和說出自然語言,那么人機交互將變得無比自然和流暢。我們可以像與朋友聊天一樣,用口語化的表達與機器對話。我們可以用簡單的語句描述我們的需求,機器就能準確理解我們的意圖,并給出合適的回應。

以智能家居為例,我們可以用自然語言控制家中的各種設備。“幫我把臥室的燈調暗一點”“把客廳的空調溫度調高兩度”“播放我最喜歡的那首歌”……這些再自然不過的語句,智能家居系統都能聽懂并執行對應動作。我們不需要記憶復雜的控制命令,也不需要在手機的 APP 中點來點去,只需要說出我們的需求,智能家居就會為我們服務。這種自然語言交互讓智能家居真正成為我們生活中貼心的助手。

自然語言交互的優勢不僅在于便捷,還在于它讓人機交互變得更加人性化。傳統的人機界面往往是冷冰冰的,缺乏人性化的設計。但如果機器能夠通過自然語言與我們溝通,并帶有一定的情感色彩,我們與機器之間就能建立起更加友好、更加信任的關系。

舉個例子,當你在使用智能音箱時,它不會只機械地回答你的問題,而會用輕松愉悅的語氣與你聊天,會關心你的感受,會在恰當的時候給你一些鼓勵和安慰。久而久之,你會感覺智能音箱不僅僅是一個冰冷的機器,更像是一個可以傾訴、可以依靠的朋友。這種情感化的人機交互將極大地提升用戶的使用黏性和忠誠度。

情感計算和情感交互是人機交互的一個重要發展方向。我們人類的情感是多樣的、復雜的,包括喜怒哀樂、悲歡離合。情感在我們的日常交流中扮演著重要的角色,影響著我們的思維和行為。如果機器也能理解和表達情感,那么人機交互將變得更加完整、更加立體。

大語言模型和多模態模型正是實現情感計算的重要工具。基于文本、語音、表情等多模態信息,機器可以分析用戶的情緒狀態,判斷用戶的喜好和意圖。同時,機器還可以根據上下文生成恰如其分的情感反饋,用語音的抑揚頓挫、遣詞造句來表達情感。

想象一下,當你對智能助理說“我今天工作很累,感覺很沮喪”時,它會用溫柔的語氣安慰你“辛苦了,你已經做得很好了。放松一下,聽聽音樂,明天會是嶄新的一天”。當你對智能助理說“我剛完成了一個重要項目,感覺很興奮”時,它會用歡快的語氣祝賀你“太棒了,你真是個了不起的人!我為你感到驕傲,一起慶祝一下吧”。這種溝通情感、交流感受的過程,會讓你與智能助理之間產生更多的共鳴和信任,讓你感受到被理解、被支持的溫暖。

當然,正如在之前討論的,情感交互還有很長的路要走。我們不能指望機器在短時間內就能完全理解人類復雜的情感世界,也不能奢望機器能夠真正與人類產生情感共鳴。但至少,大模型讓機器在理解和表達情感方面邁出了重要的一步。隨著情感計算技術的不斷發展,未來的人機交互必將變得更加自然、更加友好,讓機器真正成為我們情感上的伙伴。

大模型與具身智能的結合,正在全方位地改變人機協作的方式。通過語言指令的理解與執行,機器人將成為更加智能、更加靈活的工作助手;通過多模態感知與決策,機器人將能夠更好地理解和適應復雜的現實環境;通過自然語言交互和情感計算,機器人將成為我們更加貼心、更加友好的生活伙伴。

盡管大模型為具身智能帶來了諸多突破,但我們也要清醒地認識到其局限性和面臨的挑戰。

首先,大模型在常識推理和因果理解方面的表現還有所欠佳。它更多的是基于海量數據的統計學習,對復雜現實世界的因果邏輯的了解還不夠深入。這導致它在處理一些需要高層認知的任務時,表現得還不夠出色。提升模型的常識和邏輯推理能力,是一個亟待解決的難題。

其次,大模型的公平性、透明度和可解釋性也備受關注。預訓練模型可能繼承了訓練數據中的偏見,如性別歧視、種族歧視等,這些偏見有可能被放大,影響模型的公平性。此外,模型的決策過程往往是“黑盒”,我們難以理解它為何做出某種判斷,這影響了人們對其決策的信任度。提高模型的透明度和可解釋性,是學界和業界共同的努力方向。

最后,大模型對海量數據和算力的依賴,也限制了它的應用范圍。高質量的數據獲取成本高昂,模型的訓練和部署也需要大量算力支持,這對中小企業和普通用戶來說是一個挑戰。如何降低模型開發的門檻,讓更多人能夠受益于這項技術,是一個值得深思的問題。

當我們看到大模型在語言理解、知識表示、邏輯推理等方面的驚人表現時,產生的一個自然而然的想法就是:如果我們把大模型與機器人結合起來,是不是就能實現真正的具身智能?換句話說,具身智能 = 機器人 + 大模型嗎?

乍一看,這個等式似乎很有道理。機器人提供了感知、交互、行動的物理載體,大模型提供了理解、決策、學習的智能內核,兩者結合,不就是我們理想中的具身智能嗎?但如果我們深入思考,就會發現這個等式存在一些問題。

首先,大模型雖然是實現具身智能的重要工具,但并不是其全部。具身智能不僅需要智能的大腦,還需要強健的身體。機器人的物理屬性,如材料、結構、傳動、控制等,都會影響其在現實世界中的表現。一個智能算法如果沒有合適的硬件作為載體,是難以發揮其應有的作用的。因此,我們不能簡單地把具身智能等同于機器人加大模型。具身智能的實現既需要先進的人工智能算法,也需要精良的機器人硬件。兩者缺一不可,相輔相成。

其次,具身智能的內涵遠遠超越了單純的模型堆砌。真正的具身智能系統應該具有主動學習和探索的能力。它不應該滿足于被動地接受訓練,而應該主動地感知環境、積累經驗、優化策略。通過不斷的試錯和反饋,它應該能夠在實踐中學習,在學習中進步。這種在線學習和持續進化的能力,是具身智能的關鍵特征。因此,我們不能把具身智能簡單地理解為大模型的堆砌和組合。具身智能的真正內涵在于通過身體與環境的交互,在實踐中學習、適應、進化。

再次,人機協同與互補是具身智能不可或缺的重要一環。具身智能的目標不只是創造完全獨立、完全自主的機器人,而是創造能與人類和諧共處、互幫互助的智能伙伴。我們要充分認識到人類智能的獨特價值,如創造力、同理心、責任感等,并將其作為具身智能設計的重要考量。我們要探索人機協同的新模式、新機制,讓人與機器在各自擅長的領域發揮所長,在彼此信任的基礎上實現優勢互補。只有這樣,具身智能才能真正成為造福人類的力量。

最后,具身智能的發展不能只關注技術本身,更要關注其倫理和社會影響。我們要全面評估具身智能對就業、隱私、安全等方面的影響,并采取相應的對策。我們要建立適應新技術的法律法規,明確機器人的權利和義務。我們更要加強倫理道德建設,確保具身智能的發展始終以人為本、以善為先。只有在技術和人文的雙重考量下,具身智能才能走上健康、可持續發展的道路。

具身智能絕非簡單的機器人加大模型。它是一個復雜的系統工程,需要在算法、硬件、交互、學習等多個層面進行協同設計和優化。它更是一個社會性的命題,需要我們在發展技術的同時,兼顧倫理、法律、就業等諸多因素。

展望未來,大模型與具身智能的結合將引領我們走向更高智能的新境界。

知識圖譜和因果推理技術的進步,將幫助具身智能系統形成更加完善的世界模型,增強它的常識理解和邏輯推理能力。元學習和遷移學習方法的創新,將使具身智能系統能夠高效地學習新知識、適應新環境,具備更強的可塑性和靈活性。

更令人向往的是,人機協同有望開創智能時代的新范式。未來,人類和智能機器將攜手并進,在各自擅長的領域發揮所長。人類的創造力、同理心、責任感等獨特稟賦,將與機器的計算力、記憶力、感知力形成互補,共同應對未來世界的種種挑戰。

【直播推薦】

3 月 28 日 19:30,CSDN《萬有引力》欄目特別邀請到北京郵電大學人工智能學院副教授陳光(@愛可可-愛生活)深圳市人工智能與機器人研究院副研究員夏軒、Roboraction.AI 首席執行官黃浴,在CSDN &《新程序員》執行總編、《萬有引力》主理人唐小引主持下,以“十問具身智能”為切入點,深入探討當前具身智能技術最新進展、核心挑戰與未來方向,共同探索通用機器人的真正邊界,歡迎朋友們預約關注。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭欽文VS阿尼西莫娃,開球時間公布,誰能打進決賽?溫網迎好消息

鄭欽文VS阿尼西莫娃,開球時間公布,誰能打進決賽?溫網迎好消息

體育大學僧
2025-06-14 09:21:20
女子相親帶男閨蜜,男子一看上車就走,女子賴著不走,男子要報警

女子相親帶男閨蜜,男子一看上車就走,女子賴著不走,男子要報警

辣媒專欄記錄
2025-06-13 10:55:03
中美談判細節曝光,美財長問:能給我中國最好的高超音速導彈嗎?

中美談判細節曝光,美財長問:能給我中國最好的高超音速導彈嗎?

頭條爆料007
2025-06-13 08:22:23
伊朗軍頭被一鍋端的真相

伊朗軍頭被一鍋端的真相

難得君
2025-06-14 12:00:08
王實味被平反了嗎?

王實味被平反了嗎?

特例的貓
2025-06-13 07:59:28
中共中央批準:陳杰同志任上海市委常委

中共中央批準:陳杰同志任上海市委常委

澎湃新聞
2025-06-13 22:08:09
你真的以為中國內卷是因為14億人太多嗎?

你真的以為中國內卷是因為14億人太多嗎?

流蘇晚晴
2025-06-08 18:56:42
希門內斯:梅西沒說錯,阿根廷墨西哥的的敵意更多來自我們這邊

希門內斯:梅西沒說錯,阿根廷墨西哥的的敵意更多來自我們這邊

雷速體育
2025-06-14 07:24:32
法足協主席:齊達內愿意執教法國令我欣慰,接替日期還未確定

法足協主席:齊達內愿意執教法國令我欣慰,接替日期還未確定

懂球帝
2025-06-14 11:01:14
美媒稱伊朗伊斯蘭革命衛隊下屬“圣城旅”指揮官卡尼喪生,伊朗暫未回應

美媒稱伊朗伊斯蘭革命衛隊下屬“圣城旅”指揮官卡尼喪生,伊朗暫未回應

環球網資訊
2025-06-14 09:03:47
國安隊下半賽季還沒開踢,核心就提前收到一份大禮,引發球迷熱議

國安隊下半賽季還沒開踢,核心就提前收到一份大禮,引發球迷熱議

懂個球
2025-06-14 11:00:04
連正眼都不瞧!男子健身模特比賽現場,多名女性工作人員表現淡定

連正眼都不瞧!男子健身模特比賽現場,多名女性工作人員表現淡定

火山詩話
2025-06-10 07:11:31
女生是不是每天都換內褲?網友的大實話,看完驚掉下巴!

女生是不是每天都換內褲?網友的大實話,看完驚掉下巴!

墻頭草
2025-06-12 10:49:50
退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,還能環游世界4圈,比在陸地上便宜得多!

退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,還能環游世界4圈,比在陸地上便宜得多!

背包旅行
2025-06-13 10:35:37
發球有威脅,攔網給力,中國男排打破連敗紀錄!海寧堅持正確道路

發球有威脅,攔網給力,中國男排打破連敗紀錄!海寧堅持正確道路

金毛愛女排
2025-06-14 00:00:04
同是數學天才!韋東奕留校,牟曉生赴美,如今誰更勝一籌?

同是數學天才!韋東奕留校,牟曉生赴美,如今誰更勝一籌?

阿器談史
2025-06-13 03:26:27
31家A股公司發布股票回購相關進展

31家A股公司發布股票回購相關進展

環球網資訊
2025-06-14 09:11:11
面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

霹靂炮
2025-04-23 23:16:50
“深受折磨”,深圳一小區業主紛紛貼“吵”字!有人遲遲不敢入住

“深受折磨”,深圳一小區業主紛紛貼“吵”字!有人遲遲不敢入住

南方都市報
2025-06-13 22:36:21
國乒男單接近全軍覆沒!僅剩1人晉級8強,林鐘勛松島輝空被淘汰

國乒男單接近全軍覆沒!僅剩1人晉級8強,林鐘勛松島輝空被淘汰

國乒二三事
2025-06-14 06:06:29
2025-06-14 12:43:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
手機
本地
健康
數碼

家居要聞

森林幾何 極簡灰調原木風

手機要聞

小米 Poco F7 手機渲染圖曝光:驍龍 8s Gen 4 芯片、7550mAh電池

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

呼吸科專家破解呼吸道九大謠言!

數碼要聞

REDMI即將發布首款旗艦小平板 全面超越iPad mini

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平乐县| 班玛县| 万全县| 冷水江市| 瓮安县| 灵山县| 宝鸡市| 盖州市| 运城市| 株洲县| 临洮县| 赤峰市| 浦城县| 内江市| 论坛| 阜宁县| 修武县| 从江县| 略阳县| 祁门县| 沙洋县| 射洪县| 福贡县| 正镶白旗| 阳山县| 富蕴县| 泊头市| 庄浪县| 江城| 天津市| 顺义区| 仲巴县| 正宁县| 金川县| 澄迈县| 茂名市| 开封市| 新乡市| 内丘县| 军事| 易门县|