在人類閱讀文字的過程中,我們不僅關注字符本身,更會下意識地利用周圍環境信息來輔助理解。當字跡模糊或被部分遮擋時,這種能力尤為重要。然而,傳統的AI文本識別系統卻像戴著"眼罩",只能看到裁剪后的文字區域,完全忽視了周圍的場景信息。CLIPTER模型打破了這一限制,它通過巧妙融合視覺語言模型的全局理解能力,讓AI首次能夠"看懂"整個圖像場景,從而在識別模糊文本、理解環境相關文字時展現出驚人的提升。當AI開始像人類一樣思考"這個標志出現在加油站"或"這個文字可能是菜單上的價格"時,文本識別技術迎來了一次意義非凡的飛躍。
裸眼的識別
想象一下這樣的場景:你走在路上,遠遠看到一塊招牌,上面的字模模糊糊,但你知道這是一家咖啡店,所以很自然地就能猜到招牌上寫的應該是"咖啡"或相關的詞語。這種利用環境線索輔助理解文字的能力,對人類來說非常自然,但對當前的人工智能系統來說卻是個大難題。
當前主流的文本識別技術采用"裁剪后識別"的策略。這種方法先在圖像中定位文字位置,然后將文字區域裁剪出來,再送入識別模型。乍看很合理,但實際上這種做法相當于給AI戴上了"眼罩",讓它只能看到孤立的文字,而看不到周圍的場景。
比如TRBA、ABINet和PARSeq等目前領先的文本識別系統,都是在裁剪后的文本圖像上運行。這些模型在干凈清晰的文本上表現出色,但在處理現實場景中常見的模糊、低分辨率、被部分遮擋或光線不佳的文字時,準確率就大打折扣。
以圖1中的幾個例子為例,一些招牌上的"exit"、"beer"和"departures"等詞,如果單獨看文字部分,字體扭曲或模糊不清,傳統識別系統往往會錯誤識別為"part"、"beef"或"defartures"。但對人類來說,僅需看一眼整個場景,就能正確理解這些詞的含義,因為我們能從上下文得到提示。
這種局限性在處理詞匯表外(OOV)詞時尤為明顯。所謂詞匯表外詞,指的是訓練數據中未出現過的詞匯,如特定的品牌名稱、街道名稱或獨特的標識。研究表明,當面對這類詞匯時,傳統識別系統往往會"硬湊"一個訓練中見過的相似詞,而不是忠實地識別實際文字。
2023年的一項研究顯示,面對OOV詞時,主流文本識別系統的錯誤率會比常見詞高出10%至15%。這一差距在街景圖像中尤為顯著,因為街景中包含大量特定地點的名稱、商店標志等非通用詞匯。
更棘手的是,在真實應用場景中,我們經常需要識別文本質量很差的圖像。無論是監控攝像頭拍攝的模糊畫面,還是從遠處拍攝的街景照片,或是光線不佳環境下的文檔,傳統的"盲眼"識別方式都難以應對這些挑戰。
全局視覺思維
CLIPTER模型的出現為這一問題提供了創新解決方案。CLIPTER的名稱源于"CLIP TExt Recognition",其核心理念是利用視覺語言模型(如CLIP)提取整個圖像的語義信息,來輔助文本識別過程。
CLIP(Contrastive Language-Image Pre-training)是OpenAI于2021年發布的多模態模型,它通過大規模圖像-文本對訓練,習得了豐富的視覺-語言關聯知識。CLIPTER巧妙地利用了CLIP對整體場景的理解能力,為文本識別提供額外的上下文信息。
CLIPTER框架包含四個核心組件:圖像編碼器、特征池化層、集成點選擇和融合機制。這些組件共同工作,將全局場景信息與局部文本特征有機融合。
圖像編碼器的作用是提取整個圖像的語義表示。CLIPTER探索了多種編碼器,包括純視覺模型(如ViT、MAE和DiNO)和視覺語言模型(如CLIP、BLIP和GiT)。實驗結果表明,視覺語言模型表現更優,這是因為它們在預訓練過程中不僅學習了圖像內容,還學習了與之相關的文本描述,使得提取的特征更加豐富且與文本識別任務相關。
特征池化組件用于減少圖像特征的數量,平衡計算開銷和表示能力。CLIPTER采用了一種靈活的池化策略,保留代表整個圖像的特殊標記([class]),并對其他特征進行二維平均池化。實驗表明,即使只使用CLIP的單一全局表示(相當于無限大池化核),也能顯著提升識別性能。
集成點選擇決定了在識別模型的哪個階段融入全局信息。CLIPTER設計了兩類集成策略:早期融合和晚期融合。早期融合在視覺編碼階段注入全局信息,將場景表示視為額外的視覺內容;晚期融合則在解碼階段提供上下文信息,條件化預測過程。不同的識別架構適合不同的集成點,例如PARSeq和TRBA對集成點不太敏感,而ABINet則從晚期融合中獲益更多。
融合機制是CLIPTER的核心創新點,它負責將全局場景信息與局部文本特征有機結合。CLIPTER設計了兩種融合方案:多頭交叉注意力(MH-CA)和門控注意力。前者是標準的注意力機制,后者則是一種輕量級替代方案,適用于單一全局表示的情況。
更重要的是,CLIPTER引入了一種基于tanh函數的門控機制,實現了從預訓練模型到場景感知模型的平穩過渡。這一機制在訓練初期保持原始文本特征不變,隨著訓練進行,逐漸增加融合特征的權重。這種設計確保了模型可以在保留原有能力的基礎上,逐步學習利用場景信息。
CLIPTER框架的靈活性使其可以與各種現有文本識別架構集成。例如,對于TRBA這樣的結構,CLIPTER可以選擇在視覺特征提取后、上下文建模前或解碼階段進行融合;對于PARSeq,可以在ViT模型后或解碼器內部進行融合。這種靈活性使CLIPTER成為一個通用的增強工具,可以應用于現有和未來的文本識別系統。
實際應用中,CLIPTER的輕量級版本(使用CLIPbase編碼器和門控注意力機制)僅增加了約8%的端到端延遲(每圖像約12毫秒),同時顯著提升了識別性能。這一性能提升在處理模糊文本時尤為明顯,例如原本識別為"mariboro"的文字,在利用場景信息后,正確識別為"marlboro"品牌名。
總的來說,CLIPTER通過引入全局場景信息,成功克服了傳統文本識別方法的"盲眼"限制。它讓AI系統能夠像人類一樣,在文字難以直接辨認時,借助周圍環境線索進行推斷,從而在各種復雜場景下實現更準確的文本識別。
實測數據說話
CLIPTER模型不只是紙上談兵,它通過一系列嚴格的實驗測試證明了自己的實力。研究團隊在12個公共基準測試集上對CLIPTER進行了全面評估,這些測試集涵蓋了各種復雜場景,從清晰整潔的文檔到模糊不清的街景照片,從簡單的標識到復雜的商業標牌。
結果令人振奮:CLIPTER在所有測試中都展現出顯著的性能提升。具體來看,當將CLIPTER集成到TRBA模型中時,識別準確率平均提高了0.9%;集成到ViTSTR-S中時提高了1.4%;集成到ABINet-VIS中時提高了1.7%;集成到ABINet中時提高了0.4%。最引人注目的是,當CLIPTER與當前最先進的PARSeq模型結合時,在所有數據集上的加權平均準確率提高了0.8%,創造了新的行業記錄。
這些數字可能看起來不大,但在文本識別領域,0.8%的提升已經非常顯著。考慮到PARSeq模型已經經過精心優化,能在此基礎上再提升0.8%,相當于減少了5.5%的相對錯誤率,這在實際應用中意味著每處理1000個文本,就能多正確識別8個。
深入分析不同類型的數據集,CLIPTER在街景圖像上表現尤為出色。以Uber數據集為例,這個數據集主要包含街道名稱和商業標識,其中許多文本實例模糊、被遮擋或分辨率低。在這樣具有挑戰性的場景中,CLIPTER將PARSeq的錯誤率降低了近10%。這正說明了場景上下文在理解低質量文本時的關鍵作用。
除了常規測試,研究團隊還專門評估了CLIPTER在詞匯表外(OOV)詞匯上的表現。OOV詞匯測試使用了一個專門設計的基準,包含25,647個在訓練數據中未出現過的詞。測試結果表明,當將CLIPTER集成到PARSeq中時,OOV詞的識別準確率提高了2.48%,遠高于在常見詞上1.25%的提升。這一結果證實了場景信息對理解獨特或罕見詞匯的重要價值。
更讓人驚喜的是CLIPTER在低數據環境下的表現。傳統深度學習模型通常需要大量標注數據才能取得良好效果,但在現實應用中,獲取大規模標注數據往往成本高昂。CLIPTER通過利用預訓練視覺語言模型的泛化能力,在訓練數據有限的情況下依然表現出色。實驗顯示,使用僅10%訓練數據的CLIPTER能達到使用25%數據的基線模型相同的表現;使用40%數據的CLIPTER則能匹敵使用全部數據的基線模型。這一特性使CLIPTER特別適合資源受限的場景。
值得一提的是,CLIPTER的實現非常高效。在端到端評估中,研究人員將GLASS文本檢測器與PARSeq識別器串聯,形成完整的文本識別流程。結果表明,即使考慮所有計算環節,添加CLIPTER僅增加了8%的總體延遲(每圖像約12毫秒),同時性能優于現有的端到端文本識別方法。這種高效的計算特性使CLIPTER在實際應用中具有很高的實用價值。
研究團隊還進行了詳盡的消融研究,分析了CLIPTER各組件的貢獻。結果表明,使用視覺語言模型(如CLIP、BLIP)作為圖像編碼器比純視覺模型(如DiNO、MAE)效果更好;適當的特征池化可以在保持性能的同時顯著減少計算開銷;不同的識別架構需要不同的集成點;而門控融合機制則在計算效率和性能提升之間取得了很好的平衡。這些發現為將來集成CLIPTER到其他文本識別架構提供了寶貴指南。
應用與前景
CLIPTER技術的出現為多個領域帶來了新的可能。在街景導航中,準確識別路牌和商店標識對自動駕駛和位置服務至關重要。傳統方法在處理遠距離、部分遮擋或光線不佳條件下的標識時常常失敗,而CLIPTER通過理解整個場景,能大幅提高這類情況下的識別準確率。
電子商務是另一個受益領域。在線購物平臺需要從產品圖片中提取文字信息,如品牌名稱、型號和規格等。這些文字常常以各種藝術字體出現,或混合在復雜背景中,給識別帶來挑戰。CLIPTER利用產品整體外觀和場景信息,可以更準確地識別這些關鍵文本,從而提升產品分類和搜索的準確性。
文檔數字化也可從CLIPTER獲益。在掃描古籍、歷史文件或質量不佳的打印材料時,文字可能因褪色、破損或污漬而難以辨認。CLIPTER通過分析文檔的整體結構和內容,可以更好地推斷這些有問題區域的文字,提高OCR(光學字符識別)的整體質量。
安防監控系統也能借助CLIPTER提升性能。監控攝像頭拍攝的圖像往往分辨率低、噪點多、角度偏,導致文字識別困難重重。CLIPTER通過考慮場景上下文,能更準確地識別車牌號碼、身份證信息或其他關鍵文字,為安防系統提供更可靠的數據支持。
對移動應用開發者而言,CLIPTER技術開啟了新的可能性。拍照翻譯應用可以更準確地處理菜單、路標或說明書上的文字;增強現實應用可以更精確地識別和替換現實環境中的文本;而輔助視覺應用則可以更好地幫助視力障礙者理解周圍的文字信息。
從技術演進的角度看,CLIPTER代表了一種新的思路:將大規模預訓練模型的知識遷移到特定任務中。它不需要從頭訓練一個理解場景和文本的復雜模型,而是巧妙地結合了現有的視覺語言模型和文本識別模型,各取所長。這種模塊化設計使CLIPTER能夠隨著基礎模型的進步而不斷提升,比如當更強大的視覺語言模型出現時,可以直接替換CLIPTER中的圖像編碼器部分。
CLIPTER的另一個重要意義在于它縮小了端到端方法和級聯方法之間的差距。傳統上,文本識別有兩種主要范式:端到端模型在一步中同時檢測和識別文本,而級聯方法則先檢測文本位置再識別內容。端到端方法理論上能利用全局信息,但通常計算復雜且難以訓練;級聯方法模塊化程度高,易于實現和優化,但缺乏全局視角。CLIPTER為級聯方法注入了全局視角,同時保持了其模塊化優勢,實現了兩全其美。
在實際部署中,CLIPTER的輕量級版本(使用單一CLIP表示和門控注意力)特別實用。它僅增加約10%的計算開銷,卻能顯著提升識別性能。對于資源受限的設備,如手機或嵌入式系統,這種高效的性能提升尤為寶貴。測試顯示,在主流手機上,CLIPTER的輕量級版本僅增加約20毫秒的處理時間,幾乎不影響用戶體驗,卻能明顯改善識別結果。
展望未來,CLIPTER還有廣闊的發展空間。一方面,隨著更強大的視覺語言模型出現,CLIPTER可以直接受益;另一方面,研究人員可以探索更多融合場景信息的方式,比如引入多尺度特征融合或動態集成點選擇。此外,CLIPTER的思路也可能啟發其他計算機視覺任務,如物體檢測、分割或圖像字幕生成等,通過整合全局和局部信息來提升性能。
總的來說,CLIPTER不僅是文本識別技術的一次重要進步,更代表了一種新的思考方式:在解決具體視覺問題時,不應局限于局部信息,而應考慮更廣泛的上下文。這種思路與人類視覺系統的工作方式更為接近,也許是通向更強大、更通用人工智能系統的重要一步。
參考資料:
Aberdam, A. et al. (2023). CLIPTER: Looking at the Bigger Picture in Scene Text Recognition. ICCV.
Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML.
Fang, J. et al. (2022). PARSeq: A State-of-the-Art Scene Text Recognition Framework. ECCV.
Li, X. et al. (2021). ABINet: Autonomous Bidirectional Interaction Network for Scene Text Recognition. CVPR.
Baek, J. et al. (2019). What is Wrong with Scene Text Recognition Models? ICCV.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.