作者 | AICon 全球人工智能開發與應用大會
策劃 | 李忠良
編輯 | 宇琪
開年以來,DeepSeek-R1 推理模型將 AI 浪潮推向新的高度,各行各業迅速跟進落地,智能硬件在大模型時代浮現出全新形態。那么智能硬件在計算能力上有哪些演進?大廠又應如何布局智能硬件、應對計算平臺的變遷?
近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了未來智能聯合創始人 & CTO 王松擔任主持人,和李未可科技合伙人 & 算法實驗室負責人古鑒、網易有道 AI Infra 負責人張廣勇一起,在AICon全球人工智能開發與應用大會2025 上海站即將召開之際,共同探討 GPT 時代,智能硬件的挑戰與機遇。
部分精彩觀點如下:
回歸硬件設計的本質,關鍵是圍繞使用場景來匹配硬件和軟件的能力。
未來眼鏡必定會擁有自己的算力平臺。
像耳機、眼鏡等設備,隨著場景化的結合和 AI 與硬件的融合,用戶體驗會不斷提升。
在 5 月 23-24 日將于上海舉辦的 AICon 全球人工智能開發與應用大會上,我們特別設置了【智能硬件落地實踐】專題。該專題將聚焦智能硬件領域的創新趨勢與行業變遷,并邀請相關廠商分享最新技術進展,從多個維度探討未來發展方向。
查看大會日程解鎖更多精彩內容:https://aicon.infoq.cn/2025/shanghai/schedule
以下內容基于直播速記整理,經 InfoQ 刪減。
技術演進驅動產品創新
王松:過去這一年,有沒有哪款智能硬件或者產品形態讓你們覺得——“這個真的不一樣”?核心技術上有哪些本質提升?
古鑒:我對字節推出的 Ola Friend 這款產品印象深刻。最初,我并沒有特別關注它,但在購買和使用后,我發現它的體驗非常順暢。特別是它與大模型的交互、與豆包的溝通速度和流暢性、喚醒能力以及降噪效果都讓我感到滿意。我認為這款產品是一個大模型的入門級產品,但它確實達到了我對 AI 硬件的期待。
王松:你平時的使用場景是什么?
古鑒:聽歌、詢問一些問題,我的孩子也喜歡與豆包聊天。
張廣勇:我并沒有特別關注某一款產品,但這幾年智能硬件領域取得了顯著進展。例如,AIPC、以及智能眼鏡、人形機器人等產品,還有有道推出的詞典筆和答疑筆等,這些產品已經結合大模型從理論走向了實際應用。
總體來說,設備的輕便性、流暢性和質量都比預期的進展要快。最令人印象深刻的是這些設備的低延遲,避免了人們對大模型可能產生的慢速反應的擔憂,在智能硬件上落地后,用戶體驗得到了極大的提升,使得人與設備的交流更加自然。
王松:隨著模型壓縮、量化等技術發展,哪些過去無法實現的功能現在可以落地到設備端?
古鑒:我們已經做了三代眼鏡。在第一代產品中,我們使用了安卓系統,并將一些功能,比如 SLAM 技術,應用到帶攝像頭的運動型眼鏡上。然而,當我們進入第二代和第三代時,發現將一些復雜的算法,甚至是大模型算法落地到端側,實際操作的難度相當高。例如,現在將一個可能占用幾 GB 的模型放到手機上,雖然可以實現,但在功耗和效果方面仍無法滿足用戶的基本體驗。而我們的產品是一個只有幾十克的眼鏡,至今仍面臨很大的挑戰。如果要做一款端側的大模型產品,既能滿足用戶的要求,又能在特定場景下順暢使用,難度確實很高。因此,我們目前仍覺得基于云端的模型是最佳方案。
張廣勇:最初,我們的功能主要集中在查詞和翻譯上。但現在,我們已經上線了更多的大模型能力,比如 AI 老師的答疑功能,以及語法精講、單詞講解等多種大模型功能。關于落地模式,我們有幾種選擇。一種是純云端,另一種是云端與本地結合的模式。由于手機算力相比于大模型仍然差距較大,某些大模型無法在本地運行,因此我們使用基座模型和云端計算。而對于需要語音識別、OCR 等交互的場景,我們可以在本地使用算力處理離線任務。
除了云端結合外,我們還上線了純離線的大模型。雖然這些模型的規模沒有達到云端那種幾十甚至上百 B 的規模,但我們已經實現了 0.5B 到 3B 的離線大模型。這些模型支持中英互譯,以及古詩文翻譯等功能,單個模型能夠完成多個任務。
相對于原來的離線功能,我們使用離線大模型進行翻譯,質量上有了很大的提升,已超過了在線 NMT 的質量。
王松:您說的離線功能是依賴于手機端的離線模式嗎?
張廣勇:不是的,我們的離線功能是基于詞典筆的。詞典筆可以獨立使用,特別是針對學生,因為家長通常不會把手機給孩子使用。我們希望詞典筆能獨立運作,而且學生可以在戶外或教室等地方使用。因此我們部署的離線功能完全基于詞典筆本身的算力,不需要借助手機或其他設備。這樣一來,即使沒有網絡連接,詞典筆也能使用。
技術實現與跨團隊協同
王松:智能硬件需要軟件、算法、硬件、產品團隊深度協作,協作過程中遇到過哪些關鍵矛盾,如何尋找最佳平衡?
張廣勇:從硬件團隊的角度來看,硬件工程師追求性能穩定、成本可控和可量產。產品團隊則更關注用戶體驗和上市時間,通常需要壓縮開發周期。但硬件開發與 APP 開發不同,硬件不僅需要研發,還涉及許多其他因素,AI 算法模塊。AI 的迭代速度較慢,這給產品開發帶來時間上的壓力,導致硬件和產品需求之間存在沖突。
從軟件和算法的角度來看,我們希望具備靈活的開發能力。在詞典筆上,我們部署了本地模型,理想情況下希望本地算力和內存越大越好,但這會大幅增加硬件成本,特別是對于像我們這種小型硬件產品,成本壓力較大。由于詞典筆的市場定位和價格較低,它的算力和內存遠不及手機。因此,在硬件有限的情況下,部署多個 AI 模型面臨更大挑戰。此外,產品團隊面臨的需求變化頻繁,尤其是 AI 結合的新產品,使得算法的迭代變得更加復雜。在 APP 端,由于內存有限,無法支持過多底層算法模塊,需要進行整體優化。最終,我們的目標是打造一款具有優秀用戶體驗的產品,確保我們的智能硬件具備高質量、低延遲、低成本、低功耗的整體優勢。
古鑒:硬件產品的定義在初期階段至關重要。首先,我們需要明確硬件的使用場景,并在此基礎上做出合理的妥協。例如,在我們設計的眼鏡中,雖然 AI 眼鏡是面向大眾市場的,我們必須確保用戶能夠長時間佩戴,且眼鏡外觀應應該考慮到主打的人群。
功能定義同樣至關重要。作為重語音交互的產品,我們就需要為眼鏡設計特定功能,如降噪和特定詞匯識別等。與此同時,還要在電池容量和外觀設計之間找到平衡。性能與外觀之間的矛盾將不可避免地在這一過程中顯現。例如,一些人可能希望眼鏡具備與用戶長期互動的能力,甚至實現類似智能助手的功能。回歸硬件設計的本質,關鍵是圍繞使用場景來匹配硬件和軟件的能力。
王松:是否曾因設備算力限制被迫簡化功能,甚至是模型?可以分享通過算法優化或硬件適配破局的案例嗎?
古鑒:在設計過程中,確實會面臨舍棄一些功能的情況。現在我們的設計更多采用的是分發模型。很多人會問我們在設計 AI 眼鏡時使用了哪家的大模型,對此,我認為需要更詳細地解釋:我們并不是只使用一個大模型,實際上是多個模型的組合,包括小模型、分發模型、聊天模型和 Agent 模型等。在這種情況下,我們需要確保分發過程足夠快,因此可能會選擇較小的模型。
但在聊天時,為了確保準確性,避免出現錯誤的回答,我們則會使用較大的模型。使用大模型時,回復速度可能相對較慢。那么如何在這個過程中解決等待時間的問題呢?因為眼鏡設備的用戶耐心是非常有限的,所以必須在短時間內給予用戶反饋。這些都是設計中非常重要且具有挑戰性的部分,尤其是在 Agent 功能中。很多 Agent 的接入方式甚至會涉及不同的大模型,這也是硬件和軟件設計中一個比較復雜的難點。
王松:古老師提到一個非常關鍵的點——不同的功能或場景可能需要使用不同的模型。前置部分實際上相當于你們內部的一個 MOE 模型。
古鑒:對,因為很多時候,如果你只是問一個簡單的“你好”,卻還需要調用 Deepseek 模型,那就會浪費很多資源,關鍵是如何進行分發。例如,當我分發完后,就可以確定是否調用豆包模型或 Deepseek 模型等,這樣的設計非常重要。
張廣勇:詞典筆同時使用云端和端側模型。關于云端部分,我們使用了有道自研的“子曰”教育大模型。由于端側的算力較小,例如我們使用的詞典筆配置的是 A53 CPU,相比手機芯片要弱得多。因此,從第二代到現在的第七代,我們在算法和工程上進行了大量優化,包括采用蒸餾、MOE、量化等。由于第三方計算庫性能不足,我們自己實現了一些底層計算庫,并采用了混合精度量化技術,讓我們的模型可以部署在詞典筆本地。由于算力和內存的限制,我們的模型初期較小,性能優化不足,但這并非終點。隨著性能的提升,算法模型的大小也在逐步,最終優化后,模型的參數量提高了一倍。從 2018 年至今,我們針對離線機器翻譯已經優化了多個版本,即提升了質量又降低了延遲,大幅提升用戶體驗。
此外,我們與上下游的合作也非常緊密,尤其是與芯片廠商的深度合作。智能硬件的落地需要 AI 能力的支持,而芯片廠商的合作至關重要。端側使用的 NPU 芯片比 CPU 更強大,功耗更低。舉例來說,我們的 OCR 模型從 CPU 切換到 NPU 后,模型規模增大了 15 倍,錯誤率下降了 60% 以上,識別速度提升了 50%。
用戶體驗與交互設計
王松:如何協調算法性能、硬件能力和用戶體驗,以實現高效的硬件交互設計?
張廣勇:雖然詞典筆現在上線的模型還不是端到端的多模態模型,但我們的用戶體驗功能已經是多模態的。用戶不僅可以通過文本輸入,也可以通過語音輸入,尤其詞典筆的掃描輸入更高效,是用戶最喜歡的輸入方式。當然,這個過程是逐步探索的,我們在 7 代詞典筆上增加了攝像頭,以便更好地讓用戶使用。
在詞典筆的設計上,原本只提供查詞和翻譯功能,形態較為長條且集中在筆頭部分。隨著答疑功能的加入,尤其是題目講解等需求,我們發現全屏更適合這種功能,因此我們將它升級為全屏設計,提升了屏幕的顯示效果,使用更為便捷。
古鑒:雖然一些廠商可能會結合戒指或手機來控制眼鏡,但我們一直相信一體式設計,即眼鏡本身的交互方式是最完整的。因此,我們的核心依然是語音體驗。我們認為語音交互是所有交互方式中最基礎的部分,此外可能還會在鏡腿上增加一些簡單的滑動操作。
在語音交互方面,我們注重語音識別和指令識別等基礎功能。尤其是在雙芯片設計中,我們如何進行降噪、聲源定位等優化,都是交互設計的重要部分。同時,我們還考慮了喚醒詞和翻譯過程中的同聲傳譯,比如回聲消除和語種區分等。這些功能在實際場景中的應用非常復雜,因此我們在確定場景后,會圍繞場景優化硬件和軟件的核心能力。
王松:很多人認為眼鏡是下一代計算平臺,您怎么看。
古鑒:我之前一直從事 AR 行業,現在我認為眼鏡仍然無法完全脫離手機。然而,未來眼鏡必定會擁有自己的算力平臺。如果眼鏡要與未來的技術變革相適應,可能會顛覆現有的應用商店,取而代之的是類似于 Agent store 的系統,眼鏡必須擺脫手機的限制。
未來,眼鏡將具備眼球追蹤、SIM 卡和攝像頭等功能。如何在保證這些功能的同時,實現續航和電池的妥協,且保持眼鏡輕巧(如低于 40 克,最好控制在 30 至 35 克之間),將是一個巨大的挑戰。我認為,這一目標可能還需要 3 到 5 年,甚至更長的時間才能實現。
王松:聽說 Apple 的 Vision Pro 2 已經在開發了,您覺得它的一代產品成功嗎?
古鑒:我認為第一代并不算成功,它的重量超過 600 克,銷量也沒達到預期。我認為第二代會更加注重優化,它可能會對標 Meta 的眼鏡,或者采用像碳化硅材料這樣的新型顯示技術。
王松:在未來的多模態感知技術中,對于 AI Infra 的架構設計有哪些挑戰?
古鑒:我們預計下個月就會推出帶攝像頭的眼鏡。之前,我們已經用這款帶攝像頭的眼鏡進行過多模態應用的測試,例如在博物館內進行文物識別等。我認為有幾個關鍵點需要注意。首先是多模態傳輸協議的問題,如何將圖片等數據快速傳輸到云端,同時保證速度和功耗的低消耗。其次是向量存儲問題,尤其是多模態數據存儲和文字對齊等,這也是一個技術難點。
另外,進行并行計算也是一個重要問題。傳輸過程中,可能需要同時進行語音計算等操作。此外,交互模式也會有很大變化。比如,當看到一張圖片時,系統可能會主動告訴你它是什么,或者你可以主動詢問:“這張圖是什么?”這些交互方式如何做到自然流暢,是架構設計中的一個挑戰。我認為底層架構的關鍵部分包括向量存儲和多模態傳輸協議的設計。
張廣勇:從用戶角度來看,我們的詞典筆已經是一個多模態產品,具備筆頭掃描、攝像頭拍照和語音輸入功能。當然,從端到端的方案來看,現在的流程還是串行的,未來肯定會向端到端的多模態模型發展。如果是完整的多模態模型,我們可能會將拍攝的圖片直接傳輸到云端的大模型進行處理。而現在采用的是本地和云端相結合的模式,先在本地進行 OCR 文字識別,然后只傳輸文字,這樣可以大大減少傳輸量。
目前,在圖片傳輸和獲取方面,我們的技術已經比較成熟,并且在產品上已經落地。未來可能還是聚焦在云端多模態模型的部署,包括分布式并行計算、數據量分離、量化等各種挑戰。如果加入更多的模態和不同的網絡結構,部署會變得更加復雜,需要結合像 GPU 或其他芯片進行設計開發,盡量確保模型能夠在保證低延遲的同時,實現較高的吞吐量。
場景化應用
王松:在教育硬件中,如何通過算法優化和 AI Infra 的支持,確保模型的快速響應和高精度知識輸出?
張廣勇:首先,關于幻覺問題,我們基于子曰教育大模型,并結合了 RAG、知識庫等技術,通過多年的教育積累和數據支持,來規避這些問題。在低延遲方面,我們采用了 INT8、INT4、FP16 等混合量化方式,利用低精度充分發揮本地算力。而在高精度方面,我們采用了混合量化技術,因為純 INT4 精度可能無法滿足要求,混合使用 INT8 和 FP16 能夠既保證精度,又能提供快速響應。
王松:你們端側的 OCR 識別率怎么樣?
張廣勇:我們的 OCR 識別率對于常規文本來說,通常能達到 98% 以上。當然,識別的準確度與詞典筆的使用習慣有關,如果用戶沒有正確對準掃描區域或者沒有拍好照片,可能會影響識別效果。在這種情況下,用戶有時會重新掃描。如果掃描到位,常規文本的識別沒有問題,甚至對于一些復雜場景,比如藝術字、手寫等場景,我們也能保持較高的準確度。
王松:那么像 OCR 這種場景,離線模式已經足夠應對了?
張廣勇:對,對于大多數情況,離線能力已經足夠。不過,對于一些復雜的場景,比如復雜的公式識別,離線模式可能因算力限制而無法處理得很好,這時我們會結合一些在線能力來解決。
王松:古老師能否分享一些具體的算法優化策略或 AI Infra 架構設計,以展示在這兩個領域的差異化調優實踐?
古鑒:整體速度仍然是一個關鍵問題。比如在部署模型時,我們可能會先使用類似投機采樣的小模型進行序列探測,然后再由大模型進行驗證。另外,在設計過程中,我們致力于提升用戶的體驗。與手機聊天的文字輸入相比,用戶與眼鏡交互時的感受是完全不同的。我們設計了分發策略,通過快速處理大量標注的語料,包括系統語料、閑聊語料和指令語料,從而訓練了我們的分發大模型。
舉個例子,當用戶問天氣時,系統能夠快速調用天氣信息。如果用戶說:“我吃飽了,想去西湖玩”,系統需要判斷是調用導航功能,還是提供西湖周邊的美食推薦等。這一切依賴于我們的訓練策略,通過對大量數據進行標注,整體速度得以提升。
在用戶體驗方面,我們還加入了一些優化,比如在搜索過程中,系統會提示用戶稍等一下。當用戶收到類似反饋時,通常會愿意等待幾秒鐘。此時,我們可以提供更好的反饋,提升用戶體驗。
王松:您認為哪些 AI Infra 層面的技術創新可以有效提升產品的場景適應性和用戶體驗?能否分享一個您參與或了解的成功案例,詳細說明如何通過算法和 AI Infra 的結合,實現產品的場景化設計與用戶價值感知的提升?
張廣勇:主要集中在兩個大場景:查詞翻譯和 AI 答疑老師。查詞翻譯功能結合了 OCR、翻譯和 TTS 技術,AI 答疑功能則是在大模型的支持下,能夠為用戶提供更多的價值。答疑功能的目標并不是替代老師,而是作為對老師的補充。例如,傳統的輔導老師在學科上有明確分工,而 AI 大模型則可以在同一個模型下處理所有學科的問題。如果學生在學習數學時遇到歷史問題,AI 大模型也可以幫助解答。
此外,AI 大模型還能夠提供更好的交互體驗。與傳統的固定答疑方式不同,大模型可以實現靈活的互動,學生可以隨時打斷并提問,向模型詢問具體知識點或相關百科知識,這樣可以讓學習過程更有趣,也能拓寬學生的知識面。
古鑒:目前,我們正在與一些展會和外貿場景結合,打造一個完整的解決方案。這個方案包括多語種翻譯,特別是一些小語種的翻譯,同時也包括全天候記錄和總結功能。尤其是在專業場景中,比如前幾天我參加了廣交會,現場的確感受到了不同國家的人們都需要翻譯服務。
雖然英語翻譯設備很多,但對于小語種、專業詞匯和不同口音的翻譯需求,仍然存在挑戰。我們的眼鏡可以快速與用戶進行交流,尤其是在展會中,展商需要記錄與客戶的溝通內容。如果一天與 100 個客戶交流,記不住所有細節是很常見的。我們的方案能夠幫助展商記錄下交流內容、總結對話,甚至保留翻譯歷史和音頻文件,便于后續聯系潛在買家。我認為這是一個基于實際場景的有效翻譯解決方案。
王松:如果能加上視頻和拍照功能,記錄現場情況并還原場景,用戶的印象可能會更加深刻。
古鑒:確實,收到反饋后,我們計劃在攝像頭版本中加入拍攝名片和合照的功能,將這些內容插入到記錄中,這樣可以讓記錄更加完整。
王松:端側能力開發中,選擇開源模型還是自研閉源方案?考慮的維度有哪些?
張廣勇:端側的算法和模型優化主要依賴兩部分:一是算法,二是模型工程。我們會基于一些開源模型,結合我們的數據進行深度優化。對于云端來說,開源的推理框架非常多且效果不錯,但在端側,開源推理框架較少,效果也有限。主要原因在于,詞典筆的算力和內存非常有限,內存僅為 1GB,而一些模型動輒需要幾百兆的內存。此外,使用第三方框架時,速度往往無法達到實時要求。因此,我們選擇自己實現底層服務,即提升了速度,又降低了運行內存,使內存消耗保持在可控范圍內。這也反映了端側和云側模型部署的一個重要區別:云側可以通過擴展多臺機器和多個卡來滿足用戶需求,但在端側,一臺設備上的芯片需要同時支持多個功能模塊,例如離線大模型、OCR、TTS、ASR 等。這個限制使得在端側部署本地模型更具有挑戰。
古鑒:目前,我們還沒有一個完全開源的端側解決方案,因為眼鏡的算力有限。我們認為,眼鏡和手機都是個人設備,用戶的聊天記錄等數據應該保留在本地,以確保隱私安全。因此,我們傾向于使用開源解決方案,并經過優化以適應手機或眼鏡端。然而,現在看來,眼鏡端直接運行端側模型仍然有一定距離。
王松:您預計眼鏡上大概需要多長時間才能直接運行離線模型呢?
古鑒:這肯定與電池技術的發展密切相關。例如,現在有些半固態電池已經在使用,如果芯片算力得到提升,電池續航也能增加,我覺得在未來一兩年內是很有可能實現的。現在,許多公司都在探索這種可能性。端側的模型相對較小,可能會解決特定場景的問題,而不是像我們所說的大型離線模型方案。因此,這種小型離線模型的實現是非常有可能的。
王松:您認為 AI Agent 深度嵌入硬件會帶來哪些范式級體驗變革?
古鑒:我們非常重視 Agent 這一概念,因為我們認為眼鏡應當是一個隨身設備,像個人助手一樣。例如,我們有自己的 Agent store。此外,我們還在探索 MCP 方案,希望能夠接入更多的 Agent 框架。Agent 的優勢在于,它能夠突破傳統數據限制,連接所有 APP,并記錄用戶的使用情況,從而提供更個性化的幫助。我們希望在眼鏡上實現類似的功能,例如通過 Agent 來點咖啡、點外賣,訂票等。通過 Agent,你不再需要打開手機,這正是未來的發展趨勢。
張廣勇:我們的 AI 答疑老師本質上是一個 Agent,具備幾個特點。首先,它可以實現個性化教學,因材施教,并且支持全科目教學。傳統教育中,各學科相對獨立,但在 AI 智能體的支持下,學生可以跨學科學習,打破學科之間的壁壘。
其次,AI 智能體可以增強學生的學習體驗,提升交互性。例如,對于立體幾何等空間感較強的學科,學生可能難以理解,但如果通過視頻或動畫形式展現,學習起來更加形象化。AI 可以根據學生的需求生成內容,甚至讓學生自己根據想法繪制和生成學習內容,而不再局限于固定格式。
此外,AI 還可以促進學生從被動學習轉向主動學習。傳統教育方式中,學生主要接受老師的講授,而現在,學生可以通過掃描、拍照、語音交互等方式主動探索知識。與 AI 的互動讓學生可以隨時提問,激發更主動的學習興趣。AI 不僅能生成視頻和動畫,還能創作其他作品,這為學生提供了更多可能性。
王松:我認為未來 AI 與人類的交互將有兩種模式。第一種是 Copilot 模式,主要的活動還是由人類主導,而 AI 在旁邊提供高度智能的輔助。這種模式是未來無法避免的,因為人類始終是主角。第二種模式則是,人在開始時設定任務,然后 AI 獨立完成,直到任務完成后再通知人類。未來,我認為這兩種模式將并行很長一段時間。人類會繼續參與,但也能偶爾“偷懶”。因此,這兩種模式在未來都非常重要。
王松:未來 2-3 年最看好的智能硬件場景是什么?
張廣勇:對于我們自己的產品,我們主要做的是 AI 與教育結合的學習智能硬件產品,像我們今年推出的 spaceone 答疑筆,具有全屏,更適合大模型的功能落地。基于這些硬件,再加上大語言模型、推理模型和多模態模型的能力,我們的產品能夠提供一個非常自然的交互體驗,無論是語音還是拍照,都能順暢進行。
對于其他產品,用戶體驗會越來越好。例如,我使用了豆包耳機,原本以為延遲大、會卡頓,但實際使用后發現它的交互非常自然,反應也非常快,可以方便地解決各種問題。
像耳機、眼鏡等設備,隨著場景化的結合和 AI 與硬件的融合,用戶體驗會不斷提升。當然,智能硬件面臨的挑戰,特別是功耗和重量問題,特別是眼鏡設備需要更便攜,未來這些設備的缺陷會逐漸得到彌補,體驗也會越來越好。
古鑒:我還是非常看好眼鏡的發展。比如說,未來的教育中,孩子們的近視率很高,很多家長不希望孩子使用手機。如果孩子戴上眼鏡,可以用它來掃題、提示學習內容,甚至引導坐姿糾正等,我認為這就是眼鏡在教育領域的一個重要應用場景。
除了眼鏡,還有像項鏈、戒指等設備,必須與 AI 結合。通過這些隨身硬件收集個人數據,并訓練出一個個人助手或輔助系統,將大大提升用戶體驗。未來,甚至有可能將這些數據與腦機接口或機器人技術結合,從而使用戶擁有一個“替身”,幫助完成許多任務。這樣,用戶就可以更多地享受生活,而不必擔心瑣事。大模型只是一個起點,隨著技術進步,人類的工作將逐步減少,我們將更多依賴“Avatar”來完成工作。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.