電影《銀河系漫游指南》中的巴別魚
科幻小說《銀河系漫游指南》里面有種叫巴別魚的生物,可以突破傳統翻譯工具的物理限制,通過解析腦電波實現跨物種語言的即時互譯。這個看似遙不可及的幻想,如今在深圳一家名為時空壺的公司手中,正逐步走向現實。
時空壺是全球首創AI同傳翻譯耳機的公司,他們正在用技術打破人類之間的語言壁壘,讓跨語言交流變得如同說同一種母語一樣自然。從2016年創立至今,他們的產品已銷往全球170多個國家,并且在北美市場占據了40%的份額,用戶突破百萬。今年初,中國海關總署甚至將時空湖的W4 Pro同傳翻譯耳機作為中國從“制造”到“智造”轉型的代表展示給全世界。
隨著大模型技術的發展,AI翻譯正從簡單的“直譯”進化為理解語境、把握情感的"意譯"。年初在拉斯維加斯舉辦的消費電子展(CES)上,時空壺發布了翻譯行業的首個人工智能同聲傳譯系統Timekettle Babel OS (The Road to Babel Fish 通往巴別魚之路),首次將大語言模型作為AI翻譯的底層能力,打造逼近母語的自然交流體驗,賦能時空壺各終端硬件和軟件應用。
其中“Babel”在希伯來語中的原意是“混亂”。《圣經》中有一個“巴別塔”(Tower of Babel)的故事。根據這個故事,人類原本說同一種語言,并試圖建造一座通天塔。上帝為了阻止這一計劃,讓人類說不同的語言,相互無法理解,從而使塔無法完成。
在跟時空壺創始人田力的對話中,他提到當美國一位牧師使用時空壺的產品讓說不同語言的教徒能在同一次禮拜中交流時,牧師感嘆道:“上帝要愛世人,但是你們這個產品幫助我們把不同的族裔的人聚在了一起……宗教還沒做到這一點,科技產品幫我們做到這一點。”
在一個日益全球化但語言障礙依然存在的世界,科技能否真正打破人類交流的最后屏障?我跟田力探討了時空壺面臨和克服的技術挑戰:從雙向收音的藍牙通信難題,到無需喚醒詞的語音識別,再到真正意義上的雙向同聲傳譯。時空壺的技術壁壘到底在哪里?為什么連蘋果、科大訊飛這樣的科技巨頭也難以復制他們的核心功能?在AI時代,語言翻譯技術的未來在哪里?
存在于科幻小說中的“巴別魚”如何在現實中逐步成形,以及它將如何改變我們理解與交流的方式,這是本期播客的主要內容。
以下為節選。
品牌淵源與科幻DNA
潘亂:“時空壺”這個名字聽起來像科幻小說中的裝置,它有什么來源或典故嗎?
田力:這個淵源很有意思。我是科幻迷,最喜歡的作家之一是阿西莫夫。他有本被譽為歷史上最偉大的中篇科幻之一《永恒的終結》,里面有個懸浮在空中的時間機器叫”時空壺”。我們公司前臺就做了這么一個裝置,公司名字就這么來的。
潘亂:貝佐斯曾表示《星際迷航》影響了Alexa的設計,馬斯克則稱《銀河系漫游指南》啟發了他的太空探索。我看你們公司會議室也都是用科幻元素的名字命名的,時空壺還有哪些元素是直接從科幻作品中獲得靈感的?
田力:我們的會議室都是以著名科幻作家或作品命名的。我們現在所在的會議室叫“三體”。我們即將建設的聲學實驗室很可能會叫“42實驗室”,取自《銀河系漫游指南》中“宇宙的終極答案”。
還有一個會議室叫“巴別魚”,也來自《銀河系漫游指南》。主角在宇宙飛船上聽不懂外星人說話,就塞了一只魚在耳朵里,就能聽懂外星人說話。這個形象在英美國家非常深入人心,知名度接近西游記在中國的地位。
在科幻世界中,翻譯設備的想象有兩個著名IP:一個是巴別魚,另一個是《星際迷航》里的宇宙翻譯器。這些科幻作品對我們的產品開發有天然的啟發。
創業初心與技術突破
潘亂:你大概是什么樣的從業背景,為什么會想到創業做AI同傳耳機這個方向?
田力:我并沒有一開始就想做這件事。我的性格比較喜歡折騰,不太喜歡做同質化的事情。我從上一家硬件創業公司出來后,因為之前的工作關系,認識了很多AI公司的人,包括微軟、谷歌、科大訊飛等。
創業的契機源于三件事:
第一,當時我意識到2016年左右AI技術有了重大突破,但很多公司在做AI To B,做解決方案和項目,最后變成了軟件項目外包公司。很少有公司能做出產品讓普通消費者感受到AI的價值。
第二,我父母去歐洲旅游時,雖然我給他們下載了很多翻譯APP,但他們回來說連去便利店買水的勇氣都沒有。我媽媽在阿爾卑斯山突發高原反應,但無法與說法語的醫生交流。他們覺得拿著手機那種尷尬的姿勢交流不符合習慣。
第三,我在深圳高交會親自嘗試用翻譯APP與外國展商交流,發現實際效果很差。需要按住說話、松開翻譯,對方要看屏幕,反應遲鈍,還容易錯過對方的開頭幾句話。很難堅持超過一分鐘的交流。
這讓我認識到,雖然AI翻譯技術已經較為成熟,但在現實中兩個不同語言的人很難像朋友聊天一樣自然交流。問題不在于翻譯技術本身,而是需要創造一個讓人們愿意交流的場景。
潘亂:你曾是華為中國區最年輕的金牌個人獲獎者,華為工作經歷對你有什么幫助?
田力:華為對我是從0到1的歷練。它在中國可能是管理最好的公司,沒有之一。在華為我做市場工作,雖然學的是工科。華為教會我基本素養和思維方式的轉變。比如,做一個好的銷售,首先是利他而非利己的,需要關心對方的感受,理解對方的價值點。華為也教會我職業素養、如何與上下級同事合作、如何交付等基本訓練。
開拓新品類的挑戰與思考
潘亂:時空壺最近被《新聞聯播》深度報道了近四分鐘,這是很有含金量的認可。中國海關總署也認可它為代表中國從“制造”到“智能制造”轉型的典范。你如何看待中國在全球AI硬件行業中的地位演變,像時空壺這樣的公司能扮演什么角色?
田力:首先感謝CCTV和海關領導的認可。我們對自己定位很清晰,我們是產品公司,是小公司,在這個大潮中只是一朵小浪花,但努力成為“弄潮兒”。
從我的角度看,中國的基礎設施、技術和信息流動,已經讓深圳的創業者,或中國任何角落的創業者能夠共享全球資源和視野。我們站在巨人肩膀上,以前是谷歌、微軟、科大訊飛,今天則是OpenAI、DeepSeek等。
就像從哈勃到韋伯望遠鏡,是有遞進關系的。我們享受了基礎設施的便利,包括物理和信息層面的,開發時可以利用大家的經驗和教訓。
潘亂:為什么這波AI硬件公司大多聚集在深圳?
田力:硬件這塊主要是產業鏈便利。在深圳,打車半小時就能到達很多上下游合作伙伴,有很多交流活動。比如韶音在我們旁邊,大疆在15分鐘車程內,還有很多優秀硬件公司都在附近,方便交流。
上游如東莞、惠州有很多工廠,非常開放,即使我們是小公司,他們也愿意嘗試合作。我們第一代產品就是在一家上市公司的幾千人工廠生產的,很感謝他們。
深圳還有很多方案商,這在其他地方可能不是特色。想做產品時,不需要從零開始思考用什么芯片,而是可以找方案商,他們像導師一樣幫你完成市場認知建立、技術方案選擇、芯片選型等全流程,幾乎可以“拎包入駐”。
潘亂:作為新品類的開創者,時空壺最大的優勢是什么?在沒有成熟市場參照的情況下,你如何判斷產品方向的正確性?
田力:正因為我們是新品類的開拓者,在無人區行走,就像發現新大陸一樣有先發優勢。前提是你沒有“死在沙灘上”,而是真的登陸了。
關于如何判斷方向正確性,實事求是地說,最初我們并不確定。我們的第一代產品設計——兩個人各戴一只耳機交流——當時有很大爭議。大家認為陌生人很難接受這種方式。
但我們決定先做出我們設想中的體驗,再檢驗市場接受度。即使只有少部分人接受,只要他們的體驗被顛覆,那這個無人區的探索就算階段性成功。然后通過與用戶深度交流,發現產品問題,進一步改進。
我們的終極目標很清晰:就是讓人們像我們現在這樣自然交流。蘋果產品的目標是“disappear”,讓用戶幾乎感覺不到它的存在。我們也一樣,希望最終的體驗不需要規劃、不需要教育,就像人類上百萬年的自然交流方式——看著對方的眼睛,張口說話,不需要做操作,像朋友一樣聊天。
技術突破:從無到有的探索
潘亂:“把翻譯軟件塞進藍牙耳機”這事難在哪里?
田力:最初我以為很簡單,找人開發翻譯軟件,找個藍牙耳機和它結合就完了。但我找遍了很多方案商,都說做不了。
為什么?我們設想的場景是兩個人各帶一個耳機進行交流。但標準的藍牙耳機在錄音時只有一只耳機在工作。雖然播放音樂是左右聲道立體聲,但錄音時變成了單通道,像單行道一樣。這就導致兩人各戴一只耳機對話時,只有一人的聲音能被錄進來,給對方戴耳機就沒意義了。
這是我們首先遇到的挑戰,是通信技術問題,而不是AI技術問題。之前沒有人解決是因為沒有這個需求。過去人們可能會分享耳機聽音樂,但很少有人想分享耳機一起通話。所以從藍牙協議1.0到現在,一直沒有解決多人錄音的問題。
作為創業公司,我們本想把現有技術組合起來,但立刻撞上第一堵墻。在深圳這樣的硬件之都都找不到解決方案,甚至咨詢了高通、海思等芯片廠商的工程師,他們都確認這個問題沒有現成解決方案。
所以我們只能自己搞。雖然公司2016年成立,但真正作為正式項目開始是2017年,第一代產品到2019年才出來。當時我預計三個月能出產品,結果搞了一年半才做出來,而且只能算40分的產品。
潘亂:在對話過程中如何確保只收錄我們兩個人的對話,過濾掉背景噪音?
田力:解決了通信問題后,我們面臨的第二個挑戰是語音識別問題。人與人的對話與人機對話不同,不能有喚醒詞。我們需要開發一套算法,不需要喚醒詞但能檢測說話的開始和結束。
當時智能音箱流行,都需要喚醒詞。還有耳機可以用“嘿,Siri!”喚醒。但我們的產品不能有喚醒詞,因為這不符合人類交流習慣。
這需要先降噪,然后檢測說話的開始和結束,專業術語叫VAD(Voice Activity Detection))檢測。目的是解放雙手,讓兩個人交流時能自由自在地溝通,不需要每次都點一下按鈕。我們的目標是“想說就說,想停就停”,甚至可以打斷對方,像正常人類交流一樣。
我們解決了通信問題、喚醒問題后,終于達到了兩個人可以相對自在地交流的程度。但那時還是“單向同傳”——我說話你可以邊聽翻譯,但你說話必須等我說完。下一步挑戰是實現兩個人可以同時說話。
W4 Pro的設計理念
潘亂:時空壺W4 Pro的外觀與普通TWS耳機有明顯區別,為什么選擇這種形狀?它如何支持你們的技術需求?
田力:我們做W4 Pro是想嘗試開放式耳機設計,有些用戶覺得這種設計長時間佩戴更舒適。其次,我們希望在上面展現更好的技術,比如三麥克風陣列算法,形成更強的降噪效果。
這對我們的場景非常關鍵,因為兩個人各戴一個耳機交流時,我的聲音很容易串到你的耳機里。普通耳機場景不存在這個問題,因為人們通常不會在旁邊有人說話時打電話。但我們的產品恰恰是兩個人戴著耳機互相對話,兩個耳機都在收音。
我們必須屏蔽掉對方的聲音,只收集佩戴者的聲音。普通耳機很難做到這一點。而且我們對聲音質量的要求更高,因為這個聲音最終要給機器識別并翻譯。機器對錯誤的容忍度比人耳低,因為人有大腦可以自行腦補。所以我們使用三麥克風和更先進的技術來更好地屏蔽周圍聲音,包括對話對象的聲音。
從挫折中重生
潘亂:新聞聯播報道提到2019年時空壺面臨重大挫折。你們的復盤結果是什么,之后做了哪些調整?
田力:這像是技術拼圖。就像大疆要實現航拍,先要做飛控,然后是遠程圖傳系統,再到自己做攝像頭、云臺等,一點點拼成完整技術鏈條。
我們也是如此。當你戴上我們的耳機時,從錄音到傳輸到云端處理再返回耳機,整個過程延遲要控制在幾百毫秒內,是一個完整技術鏈條。翻譯部分主要在云端,包含語音識別、機器翻譯、語音合成三個步驟。
2019-2020年時,我們沒有能力自己做這些AI引擎,因為燒錢且有些是“重復造輪子”。我們與翻譯引擎的關系像滴滴與地圖的關系—滴滴需要地圖,但不必從創業第一天就自己做地圖。當時幾乎所有互聯網公司都做翻譯和識別,而且差別不大,成本也低。
所以我們更關注當時業界未解決的問題—真正沉浸式的交流場景,而翻譯只是整個過程中的一個環節。直到最近我們才開始自己做引擎。
差異化競爭優勢
潘亂:蘋果為AirPods增加了實時翻譯功能,科大訊飛也推出支持40多種語言的翻譯耳機。時空壺與它們相比有何獨特之處?為什么這些擁有強大語音識別和AI技術的公司不能簡單復制你們的雙向同聲傳譯能力?
田力:最初他們可能看不上這個市場。我們為了解決通信問題,犧牲了聽音樂功能。這部分是技術限制,也是戰略決策。我們希望消費者把我們的產品視為可穿戴的翻譯設備,而不是能翻譯的音樂耳機。
其實早在2018-2019年,谷歌的Pixel Buds配合Pixel手機已能進行翻譯,但交流方式是戴耳機的人把手機湊到對方面前,像采訪一樣。對陌生人來說挺尷尬的。
我們與大公司相比的最大優勢是專注。這是我們看好但別人不看好的領域,我們投入大量精力、技術和know-how,形成了今天的壁壘。但必須承認,創業公司的壁壘大多是動態的,不是靜態的。就像特斯拉如果停止創新,其他公司可能三年內就能追上。
我們的領先窗口期可能只有半年。我們的優勢是在這個領域的專注積累,以及解決通信技術、降噪技術上的突破。這些技術是為特定交流場景服務的,不一定適用于其他領域。
用戶體驗與場景拓展
潘亂:讓陌生人愿意戴耳機交流有難度。你有沒有想過開發不需要對方佩戴但仍可轉化為語音的產品形式?
田力:耳機對我們來說不是最重要的,重要的是場景。我們希望提供自由、沉浸式的跨語言交流體驗。
很顯然,在路上隨便問路這種簡單交流,給陌生人分享耳機不方便。所以我們最初設計就明確,這不是為所有場景設計的產品。
人類交流在時間、空間和對象上非常多元豐富。今天我們一對一交流是一種場景;爬山時遇到背包客想邊走邊聊是另一種場景;開會時一對多又是另一種場景...這是一個排列組合的網絡,我們目前只解決了其中一個點。
我們有其他模式,比如我戴耳機通過外設收音,適合聽會為主不需要交流的場景;或者通過手機外放讓對方聽到翻譯,交流不那么自由但更簡便。
至于不需要對方佩戴的交流方式,我們在研究。眼鏡可以快速看到翻譯結果,但對方是否有眼鏡?除非全世界都有你的眼鏡,這需要難以想象的市場占有率。
全球反饋與獨特使用案例
潘亂:你們的產品已銷往170多個國家,有哪些使用方式讓你印象深刻?
田力:因為我們在無人區探索,看到的風景總是不一樣的。最初我們以為產品主要用于旅行,但發現很多意想不到的使用方式。
舉兩個例子:在英國,家長買我們的產品與孩子練習外語。比如,中國家長英語不好但想和孩子練習,他們接孩子放學路上,家長戴一只耳機說中文“我們去超市吧”,孩子戴另一只聽到“Let's go to supermarket”,可以用英語回答。普通翻譯APP也能做,但沒有這種沉浸感。
另一個是美國一個教堂的神父。他的教堂有講西班牙語的墨西哥信眾,他本會說西班牙語,但要做兩次禮拜,一次英語一次西班牙語。他用我們的產品,讓墨西哥信眾戴耳機,自己用英語布道,聽不懂英語的人戴耳機聽西班牙語。神父反饋說:“上帝要愛世人,你們的產品幫助我們把不同族裔的人聚在一起(bring people together)。”這正好對應圣經中巴別塔的故事—上帝讓人類說不同語言使他們無法合作。
這些使用方式表明,人們渴望更親密的關系,渴望更自然的交流狀態,超越了翻譯技術本身。
潘亂:你們的產品能用于跨國戀愛或家庭交流嗎?
田力:這是很經典的使用場景,尤其在美國和歐洲。今年1月在美國時,我約了一位用戶吃飯,他是拉斯維加斯曼達里灣酒店的調酒師,在哥倫比亞有個女朋友。他們語言不通,有時她來美國找他,有時他去哥倫比亞。他們用我們的產品交流。
還有使用場景是與外國親屬溝通。比如與岳父母交流,過去總要讓配偶充當翻譯,現在可以直接交流,建立更好的關系。所有這些都指向一件事:更好的人際關系。
AI與翻譯技術進化
潘亂:你們的產品支持40種語言和93種口音,準確率達95-96%。哪些語言最難準確翻譯,你們如何衡量翻譯的“準確性”?
田力:翻譯不存在絕對的準確性問題。有人說“翻譯是遺憾的藝術”,因為你永遠不能完全理解一個民族的思想。語言背后是文化、是文明的思考,中英文有很多無法完全準確還原的內容。
一般來說,中英德日法西這些大語種翻譯準確率相對較高。小語種如印尼語、馬來語,甚至阿拉伯語(雖不算小語種)的識別和翻譯準確率都不高。
部分原因是語言結構不同,但很大原因是這些語言為主的國家在AI投入和人才密集度較低。阿拉伯世界在AI上的投入、積累的數據比中美差很遠。基礎設施差一點,使用體驗就會與中英文翻譯相距甚遠。
這也是我們在研究的方向—大廠關注的大語種之外,很多角落被遺忘,但實際痛點依然存在。
潘亂:在翻譯過程中,如何處理語氣詞、停頓詞、重復詞?
田力:這涉及直譯和意譯的區別。絕大多數情況下人們需要的是意譯。所以語氣詞等是否保留取決于目的—有人希望保留因為它表達了情緒,而不僅是把口語表達變成新聞稿。
大模型時代的翻譯正逐漸從直譯向意譯進化,這更符合人類表達習慣,尤其對口語化溝通更有價值。
大模型時代的翻譯革命
潘亂:用戶反饋中提到翻譯錯誤、語種不全、延遲高、易掉線等問題。大型語言模型的出現會如何改變這些問題?
田力:首先討論“快”(延遲)和“準”(準確率)。關于延遲,我們需要理解體驗變化—從過去按住說完放開等翻譯的交替傳譯,到現在邊說邊聽到翻譯的同聲傳譯,用戶感知的延遲概念已經變了。
現在的挑戰不是說完一句話到翻譯出來的延遲,而是開始說話到開始翻譯的延遲。對人類同傳譯員的要求是兩三秒內開始翻譯,無論句子多長,這要求更高。
關于準確率,大模型時代確實有顯著改善。它更容易理解真實意思,而不是逐字直譯。它能去掉廢話語氣詞,糾正語法錯誤,使表達更清晰。
潘亂:與傳統生硬翻譯相比,時空壺結合大模型的翻譯有何改進?
田力:這就像人類頂級同傳譯員的能力。一個頂級譯員能在你開始說話后兩三秒內開始翻譯,即使你的句子很長或有轉折。
他們如何做到?首先會提前了解會議主題背景,分析講話主旨。他們能從上下文理解避免低級錯誤—比如在金融論壇,如果聽到“披薩”一詞可能會自動忽略或糾正,因為背景是金融概念。
他們關注的是傳達概念而非逐字翻譯。這正是大模型時代AI能做到的—更深刻理解主旨,這是我們正在做的。
潘亂:時空壺開發的Babel OS系統是業界首個AI同傳翻譯大模型,它與通用大模型在翻譯場景下有何專業優勢?
田力:我們的Babel OS不僅是語言模型,而是包含整套技術的系統。它服務于完整交流場景,包含翻譯引擎和前端技術。
在大模型時代,最直接的變化是在“快”和“準”兩方面。從技術角度,過去是從識別到翻譯到語音合成的級聯式模型,現在大模型正向端到端模型發展—中文語音進,英文語音出(speech to speech translation)。
這像是多語言精通者的思維方式—不是先翻譯再理解,而是直接理解后用另一種語言表達。當AI通過這種方式處理時,能更精準傳達意思。
此外,當一個模型處理多種語言時,可以利用語言間的相通性,提高效率和準確率。當然,即使是OpenAI、微軟、谷歌也難以覆蓋所有語種(全球有4000多種定義語言)。我們可以在某些小語種發揮優勢,大語種則采用大公司已做好的部分。從終極角度看,翻譯能力不可能被一家公司壟斷,一定是博采眾長的過程。
翻譯技術的分級標準
潘亂:現在很多產品宣稱能實現實時翻譯,但它們之間有何區別?可以定量分析嗎?
田力:我們現在自己有時會拿自動駕駛作參照物,就比方自動駕駛的分級,你看它是從 L1 到L5,那我們其實也同樣可以對標。比方說什么是L1?就是當年大家拿一個電子詞典,或者一個手機 APP 去打字給對方看的翻譯,這是一個文本翻譯,它的效率是最低的。然后到了進化到 L2 的時代的時候,它更像是接近于那種終于可以從逐字逐句的翻譯變成我說話,他幫我語音的翻譯了。
我們給自己定義成我們當前處于 L3,就是類似于那種語音的同傳翻譯,比方說我邊說你會邊聽到,而且你也可以就是雙向同傳的這種交流,正常的交流不會變成了我說話的時候你就被禁言了,你想補充一個什么事兒想說就說,想停就停。所以 L3 我們定義是類似于語音同傳的這種翻譯,這是我們現在能做到的事兒,但這個還僅僅只是在翻譯的交互模式上的一個進化。
L3 到 L4 的本質的最大的區別是在于從直譯到意譯的質變。L4 可能就能從捕捉你的聲音的語氣、情緒的很多東西,包括你的意思的一些真實的表達的意圖的東西,和人類的水平是同樣了。L3 可能只能說你接近于人,但是 L4 你就能達到和人的水平是一致了。比方說你說話時是疑問的,是質問的、是憤怒的還是愉悅的,都可以在翻譯過程中把這個結果進行修正。很多個性化的表達,習慣性的表達,很多的專業術語都能在 L4 這個檔位得到解決,也就是說它就可以等同于人類頂尖語言的水平。
L5就是超越人類的水平了。超越人類水平就是什么呢?它可以在一個多模態的層面上去觀察你想要表達的意思,比方說現在大家還是基于你說話的信息,但未來可能是你的表情,你的過去的積累的一些你的溝通習慣,這些東西就相當于你真的是有了一個私人秘書,對你“察言觀色”,理解你說話的“弦外之音”,甚至可以替你發言。
端側AI的未來
潘亂:考慮到網絡環境和隱私顧慮,你們是否計劃將翻譯處理從云端轉移到設備本地?
田力:這非常重要。由于網絡不穩定和隱私需求,對端側處理的需求越來越大。我們正在開發端側方案,雖然有算力限制導致翻譯能力弱化的權衡。
人的交流對實時性要求非常高。網絡不好時,用戶會焦慮,甚至導致交流中斷。所以端側模型勢在必行。我們正研究如何用僅有過去1%參數量的模型在終端設備上實現翻譯體驗。大概今年下半年會發布相關消息。
未來展望
潘亂:耳機是一個自然的起點,但肯定不是跨語言交流的唯一解決方案。你們已經推出了X1語音翻譯機等非耳機產品,未來還計劃開發哪些非耳機產品?針對不同的使用場景(例如旅游、會議、工廠、學校等),你對擴展到耳機之外的其他形態有什么愿景?
田力:無論是耳機還是其他形態,都只是一種介質(手段),不是目的。我們的目標是讓不同場景中的人們能自然無障礙地交流。
介質可能是眼鏡、領夾式麥克風、手表或純軟件(我們也有純軟件產品)。重要的是在特定場景下讓交流舒適自然。
比如X1的演講模式,臺下觀眾不需要我們的硬件產品,只需手機掃碼就能聽到自己語言的翻譯。這不會增加我們的硬件銷量,但能創造更好的體驗,讓人們眼睛一亮:“我終于能聽懂你說什么了!”
我們的終極目標始終是做出現實版的“巴別魚”,在此過程中會嘗試各種形態。
潘亂:感覺你是一個非常謹慎的創業者,會把很多問題都前置思考,然后再去做決定,這會不會讓你在這個速度上產生一些問題?你怎么平衡這個事情的?
田力:這個問題其實你會發現其實它是一個雙向的,一方面我們確實是在做一個無人區的探索,但另一方面你也感覺到好像我們對這個事又比較謹慎。在你看來這兩個是矛盾的,但其實在我看起來它不算矛盾,是因為你本來就是在做一個新的東西,那新的東西你確實就要想清楚你到底在服務什么樣的人群,而不是擴大化的事情。
我們是希望你真的有需求的時候找我們,因為這個時候你的產品的方向,你的該迭代的東西,你才會看的更清楚。我覺得這個其實并不影響我們在往前進的速度,只不過我們要清晰的認知到現在的產品,在我的心目中,現在可能還沒有達到那種理想的狀態,還沒有達到那種真正的像科幻里邊那種,是一個珠穆朗瑪峰的東西。我們現在可能只是還達不到這個 8,800 多米的高度,我可能還在五六千米的位置,還在往上攀登,但是我們的慶幸之處在于,當我爬到五六千米的時候,其實已經能滿足相當一部分人他的需求了,只是 8,000 多米的時候,是一個任何人都能感受到你這個產品魅力的時候,都能解決他的問題的時候。
潘亂:你給時空壺的產品打多少分?什么會代表“100分產品”?你覺得8 千米那時候是一個什么樣的產品形態?
田力:從產品適用范圍和細節改善角度,我給70分。這不是說質量有問題,而是我們還不能解決所有語言障礙。語言障礙非常多,是個多維矩陣,我們只解決了一點點。
未來隨著AI模型進化,能更好傳遞意圖、情緒,體驗細節更實時、延遲更短,AI總結能讓交流更及時,就像從L3到L4自動駕駛,L3還需要人接管,L4就不用總是操心了。
那如果說到8,000米理想的狀態,理想狀態就是巴別魚—戴在耳朵里的設備,讓你不再擔心語言障礙。第一天就能看到遠方的大洋,但需要哪條河流能到達,你不知道,只知道一直向那個方向走。
潘亂:如果不考慮當前技術限制,你認為語言翻譯的終極形態是什么?
田力:我經常問新同事:“30年后翻譯產品會變成什么樣?”有人說是腦機接口,如三體人用腦電波交流;有人提到《黑鏡》里的隱形眼鏡;《流浪地球》里吳京與俄羅斯人交流時各戴一個耳機。
郭帆導演曾在節目中用過我們的耳機,調侃說:現在科幻電影不好拍,還沒拍完,產品先做出來了。
終極狀態是你感受不到它的存在,像空氣一般無感。它可能在不同場景有不同形態—銀行或醫院里的固定裝置,戶外則是便攜設備。形態一定是多元化的。
最終這些分支是否會閉合成統一形態?
這是非常有趣的問題。看整個產業的進化史會很有意思。我們希望活到那一天,成為基礎設施提供者之一。那時人們不再擔心語言障礙,像基礎設施一樣隨處可用,我們希望成為其中最重要的玩家之一。
結語
潘亂:在這個充滿不確定性的世界,語言障礙仍是人類連接的最大挑戰之一。時空壺正用科技力量打破這一障礙,讓我們距離科幻小說中描繪的無障礙交流未來更近一步。期待有朝一日,語言不再是人類溝通的障礙,希望時空壺能加速這一天的到來。
田力:謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.