網易首頁 > 網易號 > 正文申請入駐

揭秘CLIPTER：當AI懂得看全局圖像，文本識別能力為何大幅提升？

2025-05-17 23:41:32　來源: 清風鑒史

廣東舉報

分享至

在人類閱讀文字的過程中，我們不僅關注字符本身，更會下意識地利用周圍環境信息來輔助理解。當字跡模糊或被部分遮擋時，這種能力尤為重要。然而，傳統的AI文本識別系統卻像戴著＂眼罩＂，只能看到裁剪后的文字區域，完全忽視了周圍的場景信息。CLIPTER模型打破了這一限制，它通過巧妙融合視覺語言模型的全局理解能力，讓AI首次能夠＂看懂＂整個圖像場景，從而在識別模糊文本、理解環境相關文字時展現出驚人的提升。當AI開始像人類一樣思考＂這個標志出現在加油站＂或＂這個文字可能是菜單上的價格＂時，文本識別技術迎來了一次意義非凡的飛躍。

裸眼的識別

想象一下這樣的場景：你走在路上，遠遠看到一塊招牌，上面的字模模糊糊，但你知道這是一家咖啡店，所以很自然地就能猜到招牌上寫的應該是＂咖啡＂或相關的詞語。這種利用環境線索輔助理解文字的能力，對人類來說非常自然，但對當前的人工智能系統來說卻是個大難題。

當前主流的文本識別技術采用＂裁剪后識別＂的策略。這種方法先在圖像中定位文字位置，然后將文字區域裁剪出來，再送入識別模型。乍看很合理，但實際上這種做法相當于給AI戴上了＂眼罩＂，讓它只能看到孤立的文字，而看不到周圍的場景。

比如TRBA、ABINet和PARSeq等目前領先的文本識別系統，都是在裁剪后的文本圖像上運行。這些模型在干凈清晰的文本上表現出色，但在處理現實場景中常見的模糊、低分辨率、被部分遮擋或光線不佳的文字時，準確率就大打折扣。

以圖1中的幾個例子為例，一些招牌上的＂exit＂、＂beer＂和＂departures＂等詞，如果單獨看文字部分，字體扭曲或模糊不清，傳統識別系統往往會錯誤識別為＂part＂、＂beef＂或＂defartures＂。但對人類來說，僅需看一眼整個場景，就能正確理解這些詞的含義，因為我們能從上下文得到提示。

這種局限性在處理詞匯表外（OOV）詞時尤為明顯。所謂詞匯表外詞，指的是訓練數據中未出現過的詞匯，如特定的品牌名稱、街道名稱或獨特的標識。研究表明，當面對這類詞匯時，傳統識別系統往往會＂硬湊＂一個訓練中見過的相似詞，而不是忠實地識別實際文字。

2023年的一項研究顯示，面對OOV詞時，主流文本識別系統的錯誤率會比常見詞高出10%至15%。這一差距在街景圖像中尤為顯著，因為街景中包含大量特定地點的名稱、商店標志等非通用詞匯。

更棘手的是，在真實應用場景中，我們經常需要識別文本質量很差的圖像。無論是監控攝像頭拍攝的模糊畫面，還是從遠處拍攝的街景照片，或是光線不佳環境下的文檔，傳統的＂盲眼＂識別方式都難以應對這些挑戰。

全局視覺思維

CLIPTER模型的出現為這一問題提供了創新解決方案。CLIPTER的名稱源于＂CLIP TExt Recognition＂，其核心理念是利用視覺語言模型（如CLIP）提取整個圖像的語義信息，來輔助文本識別過程。

CLIP（Contrastive Language-Image Pre-training）是OpenAI于2021年發布的多模態模型，它通過大規模圖像-文本對訓練，習得了豐富的視覺-語言關聯知識。CLIPTER巧妙地利用了CLIP對整體場景的理解能力，為文本識別提供額外的上下文信息。

CLIPTER框架包含四個核心組件：圖像編碼器、特征池化層、集成點選擇和融合機制。這些組件共同工作，將全局場景信息與局部文本特征有機融合。

圖像編碼器的作用是提取整個圖像的語義表示。CLIPTER探索了多種編碼器，包括純視覺模型（如ViT、MAE和DiNO）和視覺語言模型（如CLIP、BLIP和GiT）。實驗結果表明，視覺語言模型表現更優，這是因為它們在預訓練過程中不僅學習了圖像內容，還學習了與之相關的文本描述，使得提取的特征更加豐富且與文本識別任務相關。

特征池化組件用于減少圖像特征的數量，平衡計算開銷和表示能力。CLIPTER采用了一種靈活的池化策略，保留代表整個圖像的特殊標記（[class]），并對其他特征進行二維平均池化。實驗表明，即使只使用CLIP的單一全局表示（相當于無限大池化核），也能顯著提升識別性能。

集成點選擇決定了在識別模型的哪個階段融入全局信息。CLIPTER設計了兩類集成策略：早期融合和晚期融合。早期融合在視覺編碼階段注入全局信息，將場景表示視為額外的視覺內容；晚期融合則在解碼階段提供上下文信息，條件化預測過程。不同的識別架構適合不同的集成點，例如PARSeq和TRBA對集成點不太敏感，而ABINet則從晚期融合中獲益更多。

融合機制是CLIPTER的核心創新點，它負責將全局場景信息與局部文本特征有機結合。CLIPTER設計了兩種融合方案：多頭交叉注意力（MH-CA）和門控注意力。前者是標準的注意力機制，后者則是一種輕量級替代方案，適用于單一全局表示的情況。

更重要的是，CLIPTER引入了一種基于tanh函數的門控機制，實現了從預訓練模型到場景感知模型的平穩過渡。這一機制在訓練初期保持原始文本特征不變，隨著訓練進行，逐漸增加融合特征的權重。這種設計確保了模型可以在保留原有能力的基礎上，逐步學習利用場景信息。

CLIPTER框架的靈活性使其可以與各種現有文本識別架構集成。例如，對于TRBA這樣的結構，CLIPTER可以選擇在視覺特征提取后、上下文建模前或解碼階段進行融合；對于PARSeq，可以在ViT模型后或解碼器內部進行融合。這種靈活性使CLIPTER成為一個通用的增強工具，可以應用于現有和未來的文本識別系統。

實際應用中，CLIPTER的輕量級版本（使用CLIPbase編碼器和門控注意力機制）僅增加了約8%的端到端延遲（每圖像約12毫秒），同時顯著提升了識別性能。這一性能提升在處理模糊文本時尤為明顯，例如原本識別為＂mariboro＂的文字，在利用場景信息后，正確識別為＂marlboro＂品牌名。

總的來說，CLIPTER通過引入全局場景信息，成功克服了傳統文本識別方法的＂盲眼＂限制。它讓AI系統能夠像人類一樣，在文字難以直接辨認時，借助周圍環境線索進行推斷，從而在各種復雜場景下實現更準確的文本識別。

實測數據說話

CLIPTER模型不只是紙上談兵，它通過一系列嚴格的實驗測試證明了自己的實力。研究團隊在12個公共基準測試集上對CLIPTER進行了全面評估，這些測試集涵蓋了各種復雜場景，從清晰整潔的文檔到模糊不清的街景照片，從簡單的標識到復雜的商業標牌。

結果令人振奮：CLIPTER在所有測試中都展現出顯著的性能提升。具體來看，當將CLIPTER集成到TRBA模型中時，識別準確率平均提高了0.9%；集成到ViTSTR-S中時提高了1.4%；集成到ABINet-VIS中時提高了1.7%；集成到ABINet中時提高了0.4%。最引人注目的是，當CLIPTER與當前最先進的PARSeq模型結合時，在所有數據集上的加權平均準確率提高了0.8%，創造了新的行業記錄。

這些數字可能看起來不大，但在文本識別領域，0.8%的提升已經非常顯著。考慮到PARSeq模型已經經過精心優化，能在此基礎上再提升0.8%，相當于減少了5.5%的相對錯誤率，這在實際應用中意味著每處理1000個文本，就能多正確識別8個。

深入分析不同類型的數據集，CLIPTER在街景圖像上表現尤為出色。以Uber數據集為例，這個數據集主要包含街道名稱和商業標識，其中許多文本實例模糊、被遮擋或分辨率低。在這樣具有挑戰性的場景中，CLIPTER將PARSeq的錯誤率降低了近10%。這正說明了場景上下文在理解低質量文本時的關鍵作用。

除了常規測試，研究團隊還專門評估了CLIPTER在詞匯表外（OOV）詞匯上的表現。OOV詞匯測試使用了一個專門設計的基準，包含25，647個在訓練數據中未出現過的詞。測試結果表明，當將CLIPTER集成到PARSeq中時，OOV詞的識別準確率提高了2.48%，遠高于在常見詞上1.25%的提升。這一結果證實了場景信息對理解獨特或罕見詞匯的重要價值。

更讓人驚喜的是CLIPTER在低數據環境下的表現。傳統深度學習模型通常需要大量標注數據才能取得良好效果，但在現實應用中，獲取大規模標注數據往往成本高昂。CLIPTER通過利用預訓練視覺語言模型的泛化能力，在訓練數據有限的情況下依然表現出色。實驗顯示，使用僅10%訓練數據的CLIPTER能達到使用25%數據的基線模型相同的表現；使用40%數據的CLIPTER則能匹敵使用全部數據的基線模型。這一特性使CLIPTER特別適合資源受限的場景。

值得一提的是，CLIPTER的實現非常高效。在端到端評估中，研究人員將GLASS文本檢測器與PARSeq識別器串聯，形成完整的文本識別流程。結果表明，即使考慮所有計算環節，添加CLIPTER僅增加了8%的總體延遲（每圖像約12毫秒），同時性能優于現有的端到端文本識別方法。這種高效的計算特性使CLIPTER在實際應用中具有很高的實用價值。

研究團隊還進行了詳盡的消融研究，分析了CLIPTER各組件的貢獻。結果表明，使用視覺語言模型（如CLIP、BLIP）作為圖像編碼器比純視覺模型（如DiNO、MAE）效果更好；適當的特征池化可以在保持性能的同時顯著減少計算開銷；不同的識別架構需要不同的集成點；而門控融合機制則在計算效率和性能提升之間取得了很好的平衡。這些發現為將來集成CLIPTER到其他文本識別架構提供了寶貴指南。

應用與前景

CLIPTER技術的出現為多個領域帶來了新的可能。在街景導航中，準確識別路牌和商店標識對自動駕駛和位置服務至關重要。傳統方法在處理遠距離、部分遮擋或光線不佳條件下的標識時常常失敗，而CLIPTER通過理解整個場景，能大幅提高這類情況下的識別準確率。

電子商務是另一個受益領域。在線購物平臺需要從產品圖片中提取文字信息，如品牌名稱、型號和規格等。這些文字常常以各種藝術字體出現，或混合在復雜背景中，給識別帶來挑戰。CLIPTER利用產品整體外觀和場景信息，可以更準確地識別這些關鍵文本，從而提升產品分類和搜索的準確性。

文檔數字化也可從CLIPTER獲益。在掃描古籍、歷史文件或質量不佳的打印材料時，文字可能因褪色、破損或污漬而難以辨認。CLIPTER通過分析文檔的整體結構和內容，可以更好地推斷這些有問題區域的文字，提高OCR（光學字符識別）的整體質量。

安防監控系統也能借助CLIPTER提升性能。監控攝像頭拍攝的圖像往往分辨率低、噪點多、角度偏，導致文字識別困難重重。CLIPTER通過考慮場景上下文，能更準確地識別車牌號碼、身份證信息或其他關鍵文字，為安防系統提供更可靠的數據支持。

對移動應用開發者而言，CLIPTER技術開啟了新的可能性。拍照翻譯應用可以更準確地處理菜單、路標或說明書上的文字；增強現實應用可以更精確地識別和替換現實環境中的文本；而輔助視覺應用則可以更好地幫助視力障礙者理解周圍的文字信息。

從技術演進的角度看，CLIPTER代表了一種新的思路：將大規模預訓練模型的知識遷移到特定任務中。它不需要從頭訓練一個理解場景和文本的復雜模型，而是巧妙地結合了現有的視覺語言模型和文本識別模型，各取所長。這種模塊化設計使CLIPTER能夠隨著基礎模型的進步而不斷提升，比如當更強大的視覺語言模型出現時，可以直接替換CLIPTER中的圖像編碼器部分。

CLIPTER的另一個重要意義在于它縮小了端到端方法和級聯方法之間的差距。傳統上，文本識別有兩種主要范式：端到端模型在一步中同時檢測和識別文本，而級聯方法則先檢測文本位置再識別內容。端到端方法理論上能利用全局信息，但通常計算復雜且難以訓練；級聯方法模塊化程度高，易于實現和優化，但缺乏全局視角。CLIPTER為級聯方法注入了全局視角，同時保持了其模塊化優勢，實現了兩全其美。

在實際部署中，CLIPTER的輕量級版本（使用單一CLIP表示和門控注意力）特別實用。它僅增加約10%的計算開銷，卻能顯著提升識別性能。對于資源受限的設備，如手機或嵌入式系統，這種高效的性能提升尤為寶貴。測試顯示，在主流手機上，CLIPTER的輕量級版本僅增加約20毫秒的處理時間，幾乎不影響用戶體驗，卻能明顯改善識別結果。

展望未來，CLIPTER還有廣闊的發展空間。一方面，隨著更強大的視覺語言模型出現，CLIPTER可以直接受益；另一方面，研究人員可以探索更多融合場景信息的方式，比如引入多尺度特征融合或動態集成點選擇。此外，CLIPTER的思路也可能啟發其他計算機視覺任務，如物體檢測、分割或圖像字幕生成等，通過整合全局和局部信息來提升性能。

總的來說，CLIPTER不僅是文本識別技術的一次重要進步，更代表了一種新的思考方式：在解決具體視覺問題時，不應局限于局部信息，而應考慮更廣泛的上下文。這種思路與人類視覺系統的工作方式更為接近，也許是通向更強大、更通用人工智能系統的重要一步。

參考資料：

Aberdam， A. et al. （2023）. CLIPTER: Looking at the Bigger Picture in Scene Text Recognition. ICCV.
Radford， A. et al. （2021）. Learning Transferable Visual Models From Natural Language Supervision. ICML.
Fang， J. et al. （2022）. PARSeq: A State-of-the-Art Scene Text Recognition Framework. ECCV.
Li， X. et al. （2021）. ABINet: Autonomous Bidirectional Interaction Network for Scene Text Recognition. CVPR.
Baek， J. et al. （2019）. What is Wrong with Scene Text Recognition Models？ ICCV.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.