文| 劉澍
很多科技創(chuàng)始人,可以借助AI升級個人名片,打造更親切的海外形象,讓全球領略到新一代中國企業(yè)家的風采。
使用外語出口成章,AI可以幫你。
一周前,小鵬汽車創(chuàng)始人何小鵬在視頻號上發(fā)布了一支由AI打造的宣傳片。視頻里,他將全球首款AI汽車“小鵬P7+”開到了火星,呈現(xiàn)了一個未來的科技世界。
這不僅給自家汽車賺足了噱頭,也給AI視頻工具打出了廣告,讓業(yè)內(nèi)外看到了AI創(chuàng)作愈發(fā)品質(zhì)化。
不止于此,視頻引言段,何小鵬一口流利的英文演講更是令人贊嘆。
Many people ask me,Can you describe clearly to us what the future AI car will look like and why do people say that the XPENG P7+ could be the pioneer of future AI cars?
宣傳片中,何小鵬甫一登場,即用了一個超長的英文復合句子表達了視頻的主題——小鵬P7+是未來AI汽車的開啟者。
?
這句話抑揚頓挫、發(fā)音標準、節(jié)奏清晰,讓人懷疑,何小鵬是不是在英美長期生活過。
配合著他從容自信的神態(tài)和動作,一瞬間,一個優(yōu)秀的中國企業(yè)家精英立身于前。
隨后,不管是他幽默風趣地介紹產(chǎn)品,還是表達對AI未來的愿景都透著一股令人信服的能量。
針對何小鵬這條視頻,經(jīng)緯中國創(chuàng)始管理合伙人張穎發(fā)表了評論:
而這種流利的英文表達目前類似HeyGen這樣的AI視頻翻譯工具可以做到。
作為在相關領域較為優(yōu)秀的 AI 工具,在正常的語言翻譯之外,HeyGen還可以模擬真人的口型、音色、語氣,實現(xiàn)更真實的視頻語音轉(zhuǎn)譯。
此前,“霉霉”泰勒·斯威夫特和川普說普通話、郭德綱飆英文的視頻曾經(jīng)走紅網(wǎng)絡,這兩支視頻疑似出自HeyGen之手。
除了HeyGen,國內(nèi)外還有其他的AI工具,正在為大眾提供相關服務。
比如大家熟悉的剪映,現(xiàn)在也可以讓視頻中講中文的人一鍵說外語。
能預見的是,隨著技術的提升,接下來的轉(zhuǎn)譯視頻會越來越真。
這有利有弊,一方面,可以降低不同地區(qū)人群的溝通交流成本;
另一方面,需要提防不法之徒侵害社會安全,今年就曾有過社交賬號“俄羅斯美女”的詐騙活動,引發(fā)了行業(yè)與公眾對AI數(shù)據(jù)安全、倫理道德、法律責任的廣泛關注。
△ AI生成的“俄羅斯美女”
生產(chǎn)工具決定生產(chǎn)力,并且其變革推動著社會形態(tài)的變遷?。
盡管對于AI的使用仍有很多問題待于跟進,但是面對勢不可擋之潮,優(yōu)先嘗試可能更利于工作與生活。
尤其是很多企業(yè)家,可以借助AI鍍金個人名片,打造更親切和高知的海外形象,讓全球領略到中國企業(yè)家的風采。
以董明珠為例,“中女”崛起是近幾年世界范圍內(nèi)的熱門話題,請她用一口流利的英文,輸出中國女性的獨立、堅韌和氣度,勢必會引起一波熱議。
△ 董明珠
再以任正非為例,華為公司在他的帶領下,不僅在技術上取得了重大突破,還在國際市場上贏得了廣泛的認可和尊重。
如果能再“說”一口流利的外語,那么世界將進一步欣賞到其個人魅力、卓越的領導力和精準的戰(zhàn)略眼光。
△ 任正非
另外,其他想從事海外工作的國內(nèi)創(chuàng)始人亦可使用此方法,進行個人和公司品牌包裝。
對此,極客電影推薦7款AI視頻語音轉(zhuǎn)譯工具,各位極客朋友們可以擇選其中,嘗試一番。
01 HeyGen
HeyGen原名“Movio”,其背后公司時云科技由Joshua Xu和Wayne Liang于2020 年11月在洛杉磯創(chuàng)立。所使用的模型是自研的多模態(tài)內(nèi)容生成引擎“Surreal Engine”。
△ Wayne Liang(左)和 Joshua Xu(右)
在今年3月21日,HeyGen正式發(fā)布了5.0版本,當前支持40多種語言下300多種語音的自然發(fā)音,可以讓用戶從不同種族、年齡和姿勢的 100多個AI頭像中進行選擇,使其以自然的口型同步進行念稿,具有非常豐富的個性化設置。
其核心在于深度融合了語音識別、語音合成、口型生成以及視頻處理等多項先進技術。
以泰勒·斯威夫特說普通話為例,首先,HeyGen通過先進的語音識別技術,將霉霉的英文原聲轉(zhuǎn)換為文字,確保信息的準確無誤;
接著,利用語音合成技術,將識別出的文字轉(zhuǎn)換為地道的中文發(fā)音,發(fā)音、音色和語調(diào)在這個環(huán)節(jié)完成;
然后,采用面部捕捉和口型生成技術,實現(xiàn)口型匹配,同時深度分析霉霉的面部特征,生成與中文發(fā)音相對應的口型動畫。
最后,將生成的中文發(fā)音和口型動畫與原始視頻進行融合,確保聲音、口型與視頻畫面的同步。
02 BodyTalk
BodyTalk也是一款能夠?qū)⒁曨l中人物聲音精準轉(zhuǎn)換為其他語言的AI工具,由一家名為Panjaya的公司創(chuàng)立。
區(qū)別于HeyGen為全自研技術,BodyTalk采用的是“自研+三方”的混合型技術策略,其中,唇形同步引擎為內(nèi)部研發(fā)。
目前,BodyTalk支持29種語言的翻譯,可以復制說話者的原聲特征,以及自動調(diào)整視頻中人物的面部表情和肢體動作,使其與新語言的語音模式自然匹配。
其工作流程首先是進行音頻翻譯,然后是生成模仿原聲說話者的新語音,接著是自動調(diào)整視頻中說話者的口型和動作以匹配新的語言表達。處理一段視頻的時間大抵需要幾分鐘。
△ BodyTalk工作流程
03 LipDub
LipDub是一款視頻語音翻譯和口型同步的移動APP,由2021年成立的公司Captions出品,目前支持28種語言,早些時候曾在App Store上線。
其能夠準確識別視頻中的語音,使用GPT-4將其翻譯成其他語言,并使用“ zero-shot model(零樣本模型)”算法,將翻譯后的語音與視頻人物的口型進行匹配,讓用戶在幾分鐘內(nèi)“用外語交流”。
使用過程亦相對簡單:上傳一段視頻、選擇目標語言、獲得帶有新語音和口型同步的翻譯視頻。全程僅需要幾分鐘的時間。
04 LipDub AI
LipDub AI由加拿大公司MARZ開發(fā),其與Captions 的LipDub不是一款工具。LipDub AI主要面向影視行業(yè),為影視配音提供高質(zhì)量的翻譯視頻。
其處理1分鐘的視頻片段需要的運行時間不到20分鐘。
區(qū)別于其他口型配音AI,LipDub AI沒有采用外部大型語言模型,而是使用自己的生成模型,該模型通過錄音進行訓練。
05 AI Dubbing
AI Dubbing支持多語言語音合成、聲音復制、文本和音頻處理技術,可以把任意一段音頻或者視頻快速翻譯為29種語言,并且保留說話者的音色特征和情感。
使用上,訪問其官網(wǎng),點擊生成一個新項目,上傳視頻并選擇需要轉(zhuǎn)換語種的語言。
另外,AI Dubbing官網(wǎng)還支持粘貼Youtube、TikTok、X(推特)、Vimeo等平臺的鏈接。點擊最下方的Create按鈕,開始音頻復制,完成后即可預覽效果。
06 Verbalate
Verbalate由澳大利亞人Grant Davies研發(fā),可支持30分鐘的視頻。
作為一款通用的視頻翻譯和唇語同步工具,它能夠輕松地將音頻/視頻內(nèi)容轉(zhuǎn)換為多種語言,并具備語音克隆和唇語同步功能,觸達全球受眾,解鎖新收入,并擴大視頻內(nèi)容制作規(guī)模。
使用上,只需上傳一段音頻或視頻內(nèi)容,并選擇要翻譯成的語言。軟件將使用語音克隆和唇語同步技術,無縫地翻譯和同步內(nèi)容。
您還可以自定義音軌并導出翻譯后的視頻。
07 Spotify
流媒體巨頭Spotify也未甘于人后,去年測試了“語音翻譯(Voice Translation)”功能,可以復刻播客主播的聲音,并使用一樣的語氣,節(jié)奏和速度,提供西班牙語,法語和德語的聽力體驗。
該功能是Spotify在OpenAI 的自動語音識別 (ASR) 系統(tǒng)Whisper的幫助下開發(fā)的,使用了語音轉(zhuǎn)文本生成AI模型來翻譯音頻文件,并使用語音復制模型來匹配原始說話者的風格。
這項技術的早期測試已經(jīng)在一些流行的英語播客上進行了,Spotify打算將這一功能擴展到更多的播客,甚至嘗試為多語種主持人提供人工智能配音的內(nèi)容。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.