前兩天,我去深圳圍觀了一場AI翻譯和人類同傳的對決。
坦白說,比賽開始之前,我心里一直在犯嘀咕。
眾所周知,同聲傳譯是翻譯行業的天花板,而且這次參賽的人類譯員隊,有人從事大型跨國企業的翻譯,有人為國家政要擔任過同傳,可謂高手中的高手。
而AI翻譯隊,是時空壺W4 ProAI翻譯耳機。
去年9月,國際消費電子展(IFA)期間,我介紹過時空壺W4 Pro,當時,這款耳機的定位還只是“個人語音翻譯助理”。
到12月,W4 Pro先是和翻譯專業的同學來了波人機大戰1.0,今年3月份,又登上了《新聞聯播》,足足報道了4分鐘,排面拉滿。
到6月,更是直接和高級譯員PK上了。
這是啥速度,能在短短9個月的時間,從“個人助理”向“高級同傳”發起挑戰啊?
答案很明顯,AI。
保守地說,AI一天,人類100年,現階段的AI,當個智能翻譯助手問題不大,但同聲傳譯畢竟不是文字翻譯,AI要完成“拾取聲音—轉為文本—云端翻譯—語音輸出”這么一整套流程,要求你必須聽得懂、翻得快,還要譯得準。
雖然我看好AI的能力,但和經驗豐富的高級譯員對戰,初出茅廬的時空壺W4 Pro感覺不妙啊。
反過來,要是AI翻譯贏了,是不是AI取代人類的清單上,又多了一個同聲傳譯?
但看完比賽后,我發現事情還有第三種可能。
咱們先說比賽。
整個人機大戰2.0共有兩個環節,第一個環節是「基礎翻譯」。現場邀請英、日、法、西班牙語語種的外籍人士朗讀相應的外文,AI翻譯隊和高級譯員隊以同傳的方式輸出,再由評委按照準確性、流暢程度、專業適配性和文化適配性進行綜合打分。
萬萬沒想到,一上來就是大活兒。
首先是口音問題,也不知道是上臺緊張,還是并非母語,英語朗讀者很多詞吐字不清,讓我一度懷疑自己的耳朵,法語咱也不懂,但主持人形容語速挺快,好像在唱Rap。
其次是內容過于專業,日語題中,出現了西安鐘鼓樓、明神宗萬歷10年這種歷史、地標性詞匯,西語翻譯則是大量的醫療專有詞匯,非醫學專業看完兩眼一黑。
不過,這也算是同聲傳譯的日常。
畢竟,不是所有人都會標準的播音腔,而且不同行業都有專業性極高的詞匯,需要進行大量前期準備。
第一個環節,高級譯員的速度更快,基本上第一句念完,翻譯就能跟上,很多專業性詞匯,像是前面提到的鐘樓、鼓樓,還有一處專業地名「迎祥觀」,譯員也進行了準確翻譯,但是當信息密度過高時,會遺漏一些關鍵信息。
而時空壺AI隊在一開始,會有大概3-5秒的延遲,但一旦開始翻譯,就能穩定輸出,準確性、完整度也幾乎無懈可擊。除了個別專有名詞無法準確表述,比方說「迎祥觀」,大模型訓練時「迎賓館」出現的次數更多,權重更大,AI翻譯就把「迎祥觀」翻成了「迎賓館」。
到了第二個環節的「關鍵詞提取大比拼」,更是加上了嘈雜的環境音,專業度極強的量子計算、哲學、美學等概念,再加上三哥咖喱味的英語,直接給比賽上了個強度。
綜合來說,時空壺AI隊和高級譯員隊各有優勢:
人類譯員跟著講者翻譯,能更好地還原當時的語氣和感情。就像商務談判中的“No”,如果不是對方明確拒絕,就有談的空間,也就意味著“Yes”。
但在兼顧聽、記、譯、說的情況下,人類譯員會因為高強度多線程工作可能出現疏漏。
相比之下,AI就像一個么得感情的翻譯器,可以通過理解上下文,生成準確的翻譯,也不會像人一樣受到環境的影響。
但也正因為要理解上下文,AI翻譯會顯得慢上半拍。
兩輪比賽下來,時空壺AI隊和高級譯員隊各有千秋,最終AI隊以1170的成績,贏得了這次人機大戰比賽。
AI翻譯比同傳譯員得分更高,是不是意味著AI就要取代同傳了?
我問了現場AI領域、翻譯行業的專家,學者,他們的回答驚人的一致:
AI不會取代人類。
AI翻譯更高效、更準確,而且不知疲倦,而人類譯員更有溫度、更能傳遞情緒,更適合文化交流,雙方側重點不一樣。
因此,AI翻譯和人類不是你死我活的競爭,還有第三種可能:人機協同。
我們完全可以把AI作為工具,完成基礎性的翻譯工作,再由人類去完成更高級的文化溝通,情感交流。
實際上,現在很多業內人事,都會借助AI工具來提升工作效率。
現場參賽的那位日語同傳譯員跟我說,她平常經常會用到AI,很多工作先讓AI翻譯,自己再核對一遍,而且AI的詞庫更全,還能學到一些新單詞。
正如在中英同傳領域從業20多年的趙晨威所說,AI不會取代人類,但是AI會取代不會用AI的人類。
但話又說回來,同樣是AI翻譯,大廠的模型更大,實力更強,為什么偏偏是時空壺W4 Pro脫穎而出了?
抱著這樣的疑問,我又去了一趟時空壺公司,發現問題的答案很簡單——無他,唯堅持爾(也沒啥,就是干)
2016年,市面上也有各種翻譯設備,但要么翻譯質量不高,只能簡單直譯,要么就是高延遲,反應慢。
恰好當年,AlphaGo和李世石的圍棋大戰,讓全世界看到了人工智能的潛力。
于是,時空壺創始人田力決定,造一臺AI翻譯設備,不僅能用,更要好用。
一個好用的翻譯設備,應該是“無形”的,它要夠準確,夠即時,夠方便,才能讓人們在跨語言交流的時候,盡可能忽略翻譯產品,而專注于交流本身。
但等開始創業才發現,不是同行不想做,而是不好做啊。
之前市面上的翻譯設備,主要采用的是點按操作,你按一下說一句,我再按一下說一句,非常不方便。
而時空壺堅持從更底層——也就是通信技術上下功夫,經過3年研發,攻下了“雙向同傳”技術。
雙向同傳的核心在于四通道同步處理:A母語輸入、翻譯輸出以及B母語輸入、再翻譯輸出同步進行,從而降低延遲。
還有一個關鍵,在于收音。
面對面交流,翻譯設備不僅要隔離外部環境雜音,還要識別A說了什么,B說了什么,一不小心就搞錯了說話主體。
時空壺采用三麥克風陣列+矢量降噪技術,通過軟硬件的配合,定向定距識別佩戴者的聲音,排除其他雜音干擾。
他們的工程師還帶著W4 Pro去地鐵、商場等人流密集的場所測試,驗證矢量降噪技術的可行性,從輸入端上保證了音源的準確性。
解決了聽得清、翻(傳輸)得快的問題,還要保證譯得準。
AI要理解上下文,才能準,但這又會慢。針對AI這個“bug”,時空壺又開發了一套Babel OS巴別系統,這個系統的核心在于AI語義分割,AI會判斷你是否說完了,然后自動分割長句開始輸出,不用等一句話說完再翻譯,在翻譯的準確和即時之間找到了平衡。
在AI翻譯領域堅持近10年之后,時空壺做到了行業頭部,W4 Pro的平均延遲更是壓縮到了3-5秒,實現了L3級的AI翻譯。
這個AI翻譯的分級標準,有點類似自動駕駛行業的智駕等級。因為沒有明確的行業等級,大家都說自己是AI翻譯耳機,“開局一句話,其余全靠編”也行,翻譯慢悠悠也算,導致行業生態很亂。
而有了分級標準,一方面可以避免同行渾水摸魚,另一方面也是對未來AI翻譯設備的想象。
在時空壺看來,目前W4 Pro還處于語音同聲傳譯的L3級,L4級將支持多模態輸入,能識別講話的人語氣、表情、動作,讓翻譯更貼合情境,到L5級就類似agent,不僅能幫你翻譯,還會根據場合幫你修飾,甚至可能比你說話還好聽。
從人機大戰1.0到現在的2.0,AI在半年時間內,AI同傳就可以和高級譯員同臺競技且更勝一籌,按照這個節奏,未來人機大戰3.0版本又會有什么樣的精彩呈現?
而除了AI隊和人類隊,如果像評委們所說的,再出現一個人機協同隊,三方爭霸,這畫面想想就刺激!
到那時,時空壺的AI翻譯技術會達到什么程度?AI翻譯設備會變成什么形態?人機協同又將會碰撞出什么樣的火花?
現在很難想象,一切皆有可能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.