就在上個月,2025 世博會在日本開幕。雖然這屆倉促舉辦的世博會在網上充滿爭議,但我們也不得不承認,這一屆世博會確實給我們帶來了不少「樂子」。其中最具傳播效果的,莫過于日媒采訪時使用的翻譯設備搞錯了語氣,把「有看到什么厲害的東西嗎?」翻譯成了「有什么了不起的?」。
當然了,我們都知道,這只是翻譯設備對上下文理解不夠深入所引發的小誤會。但如果從用戶的角度看,翻譯設備作為跨語言交流的媒介,確實需要一個更清晰、明確的能力邊界定義,最好是像汽車的輔助駕駛、自動駕駛分類一樣,有一個清晰的評級。
比如被廣大 90 后學生當成掌機玩的電子詞典,就只能被歸類成 L1 翻譯——這類翻譯設備本質就是一個數字化、支持快速搜索和朗讀功能的字典:其翻譯引擎基于傳統的文本引擎打造,只能執行最基本的詞對詞翻譯。即使你把整句話打進去,L1 翻譯也只能一個詞一個詞翻譯。前段時間網絡熱哏中把「白花了」翻譯成「White Flowers」的情況,就是 L1 翻譯的通病。?
L2 翻譯的原理和 L1 翻譯類似,其本質也是詞對詞的「映射」翻譯。只不過為了方便用戶,L2 翻譯「外掛」了語音識別模塊,可以自動把聽到的語音轉寫成文字,不再需要用戶自己打字。后續也有部分品牌將 L2 翻譯集成到耳機中,但「翻譯耳機」充其量只是翻譯設備形態的變化,并未改變翻譯時一人說,另一人只能干等的單向翻譯邏輯。
和自動駕駛技術一樣,L3 也是翻譯技術的分水嶺:因引入了 AI 大模型,L3 翻譯有了理解語義和上下文聯系的能力;而多模態模型等技術也顯著加快了語音翻譯的進程。體驗上,借助矢量降噪技術, L3 翻譯實現了對「雙向同傳」技術的突破,因此 L3 級別的 AI 同傳也是目前體驗最好的一種翻譯模式。目前,谷歌、蘋果等企業都停留在 L2 級別。
不同 AI 翻譯模型的能力可以說千差萬別:有些品牌能做到語義、情緒的精準傳達,有些就只能「僅供參考」——開頭是小雷提到的「有什么了不起的?」,就是翻譯錯誤的最好例子。
那有沒有翻譯的正面案例呢?當然有,前段時間又一次登上《新聞聯播》的時空壺,就是目前AI同傳的代表,也是唯一一款達到L3水準的AI同傳耳機。
在《新聞聯播》中,記者用將近 4 分鐘的時間,向外界展示了時空壺如何用 AI 技術發力翻譯賽道。《新聞聯播》、將近 4 分鐘的深度報道,相信大家都能感受到時空壺這 AI 同傳技術的含金量。說起來,這已經是 2025 年里時空壺第二次登上央視舞臺了。作為成立接近十年的「老企業」,時空壺又如何在 AI 時代找到自己的競爭力呢?
傳統翻譯有何問題?
在雷科技看來,時空壺之所以能用極短的時間坐上翻譯設備的頭把交椅,并將領先優勢延續了近十年,這背后離不開時空壺對翻譯軟硬件技術的深度探索。
基于多年的技術積累,時空壺突破了雙向同傳的技術限制,率先邁進 L3 翻譯的階段,隨后在場景拓展、 AI 大模型升級等方面實現飛躍,與傳統的 L2 翻譯拉開了體驗的代差。那么這個代差體現在哪里呢?我們不妨先看看傳統的 L2 翻譯模式有何問題:?
剛剛提到,無論是手持的「翻譯機」還是佩戴的「翻譯耳機」,L2 翻譯設備都無法擺脫 L1 翻譯效率低、錯誤率高的問題。即使從文字輸入轉變為語音輸入和 TTS 語音輸出,其算法依舊是老舊的L1 翻譯模式。這導致 L2 時代的翻譯耳機需要極長的翻譯時間,只能做到「偽同傳」——一個人說話時,另一個人只能干等。
而且為了控制成本,這些 L2 翻譯耳機通常基于市面上成熟的 TWS 公模開發。而這些公模 TWS 顯然不會針對翻譯耳機特殊的工作環境(背景噪聲大、對話距離近,佩戴時間長,人聲降噪要求高)開發。
以小雷參加 CES 等海外展會的體驗為例:普通的翻譯耳機幾乎無法識別小雷或對方在說什么,更不用說將語音轉成文字并準確翻譯了。
但要說對用戶體驗影響最大的,還得是 L2 翻譯耳機的「偽同傳」問題。小雷參加 CES、MWC 等海外展會,通常都帶有采訪任務。為了保證雙方發言的準確性,我們在采訪時通常都會說各自的母語,再由翻譯設備進行翻譯。
此時, L2 翻譯耳機「單向同傳」的短板就暴露出來了。由于翻譯耳機一次只能處理一個人說話(無論從現場收音質量還是模型翻譯質量的角度),用 L2 翻譯耳機進行采訪會嚴重影響雙方的交流效率。即使我們用 DeepSeek 等 AI 大語言模型來翻譯,也改變不了 L2 單向「偽同傳」的情況。
這里我給大家模擬一下 L2 翻譯耳機的使用場景:
1. 我對耳機說中文問題;
2. 說完后 App 后臺翻譯句子;
3. 翻譯完成后用 TTS 在對方耳機中播放;
4. 對方聽完后說外語回答;
5. 說完后 App 后臺翻譯句子;
6. 翻譯完成后用 TTS 在我耳機中播放;
7. 回到第一步并循環
毫無疑問,這種翻譯模式極為麻煩,即使一方說完句子,我們也要等翻譯耳機識別、翻譯、播放,然后再根據自己的理解進行回復。而這種低效的單向翻譯模式,也無力承載訪談、商務咨詢、產品發布會等深度交流的場景,光是在餐廳點菜就已經摸到了翻譯能力的上限。
用 AI 突破限制,以技術重構翻譯?
和單向翻譯相比,L3 翻譯的雙向同傳模式允許對話雙方各說各話,各自的同傳會將譯文同時輸出給對方,省略了單向翻譯中的等待的步驟。而且人類的交流天生是需要雙向的,「雙向同傳」模式天然更符合人類母語交流的習慣。?
既然單向翻譯有這么多問題,那大家為什么不做雙向同傳呢?
首先,在面對面交流中翻譯設備難以區分發言人。還是以小雷的海外采訪經歷為例:摩肩接踵的展館很難找到一個安靜的采訪空間,我們用翻譯耳機必須必須足夠大聲;但因傳統翻譯耳機的收音模式未經優化,我說話的聲音不僅會被我的耳機捕捉到,同時也會被對方的耳機捕捉到。這會直接打破翻譯鏈路,導致翻譯混亂。
此外,傳統 L2 翻譯耳機缺乏上下文聯系的能力,本身也不適合采訪這種深度、長時間、貫穿上下文的對話模式。即使我們準備兩套翻譯設備,只會帶來雙倍、甚至是更多的麻煩。事實上,這也是市面上大多數翻譯設備不提供雙向翻譯模式的根本原因。
但對時空壺來說,恰恰是雙向同傳及其背后的技術挑戰,讓時空壺在眾多翻譯設備中脫穎而出,吸引了央視的大篇幅報道。
首先,時空壺利用軟硬合一的矢量降噪技術優化了收音效果、為雙向翻譯的語音識別準確率打下基礎。
2021年,時空壺發布了第一代雙向同傳耳機——W3。W3 的出現標志了行業在雙向翻譯(L3 翻譯)中取得的從零到一的突破。作為 W3 的「繼任者」,W4 Pro 基于 W3 的成功經驗,針對 W3 找到的體驗短板做出了多項改進。
在 IFA 期間,小雷就發現 W4 Pro 的長桿耳機造型、搭配每邊三麥克風陣列與時空壺的軟件降噪技術,不僅可以在嘈雜環境中準確捕捉對話的聲音,還能精確地將對話雙方的聲音分離,確保每只耳機「只聽一人講話」。這一矢量降噪技術從源頭確保了翻譯原聲的準確度,為雙向同傳開了個好頭。
而在翻譯環節,時空壺也充分開發、整合了 AI 大模型的能力——在時空壺 App 中,W4 Pro 翻譯耳機的用戶可以隨時切換傳統的 AI 機器翻譯(NMT 模式)和大語言模型翻譯(LLM 翻譯模式)。
得益于大模型的加入,時空壺的雙向翻譯擁有了對上下文的理解能力,可以理解對話場景,并根據歷史對話,排除不符合語境的多音字、多義詞分支,獲得更準確的翻譯效果。
以「手沖咖啡」為例,大語言模型驅動的翻譯模式就能準確識別出沖洗和沖泡,并給出正確的譯文,避免「直譯」帶來的誤會。
除了更準確的翻譯效果外,大語言模型的加入也讓時空壺擁有了「過濾」能力。這里的過濾說的并不是過濾環境噪聲,而是過濾用戶重復的語氣輔助詞,比如思考時無意識發出的「啊」「嗯」「那個」等無意義的語氣詞。順帶一提,時空壺甚至能「過濾」掉因緊張、口吃而重復說出的詞。
而在功能拓展方面,W4 Pro 也沿著雙向同傳的路徑,拓展出電話翻譯、音視頻翻譯等等場景,帶來了「全場景翻譯」的能力。
但其中最重要的,在我看來還得是大語言模型對翻譯的「提速」。因倒裝句的存在,傳統的 NMT(神經機器翻譯)模式必須等句子說完才能走翻譯的流程,這其實也是雙向同傳真正「卡脖子」的地方。
但大語言模型的加入讓時空壺有了理解上下文的能力,能準確「預判」雙方的含義和原句的完成進度,能像真人同傳那樣進行「開放式翻譯」——在句子說完之前就輸出譯文,并根據原文的語義及時調整輸出的譯文。
這一技術創新改變了傳統翻譯的模式,讓譯文可以伴隨原聲「同時」出現,顯著壓縮了對話翻譯所需的時間,讓用戶可以更早聽到翻譯結果,也讓「雙向同傳」走向現實。
是什么讓時空壺堅持到現在?
盡管「雙向同傳」技術、以及背后對技術探索的堅持讓時空壺從一眾翻譯設備中脫穎而出。但回看時空壺自 2016 年創立以來的眾多明星時刻,雷科技幾乎可以肯定,將翻譯硬件行業帶入 L3 時代的雙向同傳技術,只不過是時空壺近 10 年發展史中眾多技術亮點之一。在翻譯硬件行業,時空壺必將迎來更多技術突破。
小雷之所以敢下這樣的判斷,其實也和時空壺這個品牌的「使命」相關。剛剛提到,創立于 2016 年的時空壺還有不到一年的時間就要迎來自己的十歲生日了。但大多數人不知道的是,2017 年時空壺就作為首批成員入選了騰訊 AI 加速器;2018 年時空壺更是憑借 WT2 Plus 翻譯耳機與 Concorde、Orange、LVMH、軟銀等重量級企業達成合作伙伴關系,成功登頂美國亞馬遜銷量榜首。
那么是什么推動著時空壺在翻譯領域不斷創新呢?拋開那些「外在的榮譽」,時空壺在翻譯領域深耕多年的原因解釋起來甚至有些意料之外的幽默——時空壺的創始人田力是一個「科幻迷」,想把《銀河系漫游指南》中的「巴別魚」帶進現實。
1979 年,英國作家道格拉斯·亞當斯出版了科幻巨作《銀河系漫游指南》,書中提到一種虛構的生物——巴別魚。這種小魚能接受環境中的「精神頻率」,并向攜帶者傳輸。只要你將巴別魚放進耳朵里,就能立刻理解宇宙中的任何語言。
盡管書中用諷刺筆調描寫巴別魚,但其背后同樣蘊含著積極、理想主義的哲學內核:巴別魚象征著人類對「交流、溝通」的終極追求——不再被語言隔閡束縛,每一個聲音都能被理解。
而「巴別魚」式的交流模式,也是時空壺奮斗的終極目標。
在去年 IFA 現場,雷科技與時空壺 CEO 田力進行了一次深度訪談,當時田力一針見血地分享了他對翻譯硬件的看法:
耳機不是目的,翻譯設備未來有可能是眼鏡,有可能是領夾麥克風,形態其實沒有那么重要。時空壺的宗旨不是去做耳機,是如何讓人們能夠沉浸式跨語言交流。
翻譯成對產品的討論,那就是「如何為用戶帶來沉浸、無感、讓人察覺不到跨語言的障礙,這才是翻譯設備需要解決的問題」。
這些思考在時空壺的產品上同樣有所體現:W4 Pro 用開放式設計換來了長時間使用的舒適度;全自動的雙向翻譯模式不需要雙方切換發言人,不會打斷深度交流時的思路……類似的理念也體現在不久前剛剛升級實現全球第一款純離線翻譯的新 T1 和 AI 同聲傳譯器 X1 中。
從這個角度看,這種對無障礙交流的使命感,才是推動時空壺在翻譯領域創新的真正動力——就連時空壺的品牌 Logo,也是對「巴別魚」的一種致敬。
有趣的是,在 L1-L5 翻譯分級中,時空壺還埋藏了一個小彩蛋——在時空壺準備發力的 L4 翻譯、全智能 L5 翻譯之后,還有一個 L∞ 級翻譯。而 L∞ 級翻譯的代表,恰恰也是時空壺的終極目標——巴別魚。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.