本文部分內容參考自賬號 「沉浸式翻譯」
沉浸式翻譯團隊最近開源了他們PDF翻譯工具——「BabelDOC PDF」 。BabelDOC 在很大程度上解決了 PDF 機翻中出現的排版亂碼、串行等不可用的「老大難」 問題,可以直接輸出對版的精準 PDF。
產品發布后,BabelDOC 一舉沖進了 Github 全站全開發語言 Trending 榜的前三。
隨后,BabelDOC又上新了多語種支持功能,支持使用拉丁字母的語言翻譯成簡體中文、繁體中文、日文和韓文。同時,上線了中、日、韓三國文字之間的互譯功能。
目前,免費用戶每月可享 1000 頁解析額度及 GLM-4-FLASH 翻譯。Pro 用戶最多可享受每月 10000 頁解析額度,可以使用 DeepSeek 翻譯模型。
Founder Park 正在搭建「AI產品市集」社群,邀請從業者、開發人員和創業者,掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
01
BabelDOC 是如何實現「精準翻譯+版式對版」 的?
我們先來看 BabelDOC 實現的效果。BabelDOC 能夠完整地提取并翻譯 PDF 中內嵌圖表、腳注、公式等非文本元素,能實現譯文與源文件之間像素級版式對齊。同時,BabelDOC 能夠自動識別學術論文/招股書/行業白皮書等專業文檔結構,確保翻譯后布局與數據可視化效果,同原文檔高度一致。
在技術方面,首先,BabelDOC 會完整地解析 PDF 的內容,包括讀取文件頭尾來了解 PDF 的結構、讀取圖片/文字等元素。在處理以上步驟后,BabelDOC PDF 引入了「AI 布局識別」技術,來辨認文本的布局、段落結構,以及一些復雜的內容排版情況,例如圖片、表格和數學公式,并「記憶」下來。
接著,在布局識別完成后,提取文本并交給大語言模型進行翻譯。
然后,把翻譯好的文字同上面識別記錄下來的排版情況進行比對,智能匹配對應的字體、行距等樣式,確保文本能夠適應新的布局。
當遇到圖片和復雜公式時,BabelDOC PDF 會對其進行識別和解析。富文本的文字部分進行對應的翻譯,公式則以原封不動地以字符形式保留。
最后,通過智能渲染的方式,將翻譯好的文字調整好大小尺寸,將上面所提到的數學公式、圖片、表格等重新排版一遍,寫入新文檔。
由此,做好翻譯和排版復原 PDF 文檔完成。
02
PDF 翻譯為什么那么復雜?
要了解 BabelDOC PDF,我們需要花一點時間了解 PDF (Portable Document Format),這個堪稱數字出版歷史上最有影響的發明之一。
PDF 文檔源自行業內響當當的 Adobe 公司,是該公司聯合創始人約翰·沃諾克(John Warnock)于上世紀 90 年代初發明的,目的是為了解決文檔不同設備上顯示效果不一致的問題。PDF 問世后增加了大量交互、加密等功能,并于 2008 年被國際標準化組織(ISO)采納為國際標準(ISO 32000-1:2008)。相比于常見的 。DOCX 格式文檔,PDF 在可編輯性上略遜一籌,但有自己獨特的優勢,可以參考下表:
這些優缺點都源自 PDF 的文件結構。PDF 的文件結構可以理解為「一張充滿二進制代碼和文本的紙」,其架構如同枝繁葉茂的大樹,結構是這樣構成的——
大樹的根部是「文件頭尾」:包含一系列二進制代碼,讓讀文件的程序(包括 BabelDOC PDF)將其識別為二進制文件,而不是純文本,并給出交叉引用表等資源的位置。
大樹的末端枝干是 Page Tree,又稱「頁面樹」:每個分支代表 PDF 中的一個頁面,記錄了圖片、文字等元素的「引用」情況
大樹的主干分叉部分是「交叉引用表」:當讀文件的程序遇到交叉引用表,就如同看到了什么信息存放在哪里(頁面樹)的指路牌,可以順藤摸瓜找到對應的信息
大樹的葉子、花朵、果實是「資源」:包含了組成文檔所需的各種細節,如具體的字體、圖像、顏色空間等
大樹的導管系統是「內容流」:記錄了 PDF 頁面的繪制指令,描述了程序如何在頁面上還原出文本、圖像等元素。
所以當一個程序打開 PDF 文檔時,我們可以大致把打開的過程想象為下圖的流程——
當然,這只是個形象的比喻,實際上的過程比這個復雜很多,大家能理解基本的原理就好。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.