99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

揭秘CLIPTER:當AI懂得看全局圖像,文本識別能力為何大幅提升?

0
分享至

在人類閱讀文字的過程中,我們不僅關注字符本身,更會下意識地利用周圍環境信息來輔助理解。當字跡模糊或被部分遮擋時,這種能力尤為重要。然而,傳統的AI文本識別系統卻像戴著"眼罩",只能看到裁剪后的文字區域,完全忽視了周圍的場景信息。CLIPTER模型打破了這一限制,它通過巧妙融合視覺語言模型的全局理解能力,讓AI首次能夠"看懂"整個圖像場景,從而在識別模糊文本、理解環境相關文字時展現出驚人的提升。當AI開始像人類一樣思考"這個標志出現在加油站"或"這個文字可能是菜單上的價格"時,文本識別技術迎來了一次意義非凡的飛躍。


裸眼的識別

想象一下這樣的場景:你走在路上,遠遠看到一塊招牌,上面的字模模糊糊,但你知道這是一家咖啡店,所以很自然地就能猜到招牌上寫的應該是"咖啡"或相關的詞語。這種利用環境線索輔助理解文字的能力,對人類來說非常自然,但對當前的人工智能系統來說卻是個大難題。

當前主流的文本識別技術采用"裁剪后識別"的策略。這種方法先在圖像中定位文字位置,然后將文字區域裁剪出來,再送入識別模型。乍看很合理,但實際上這種做法相當于給AI戴上了"眼罩",讓它只能看到孤立的文字,而看不到周圍的場景。

比如TRBA、ABINet和PARSeq等目前領先的文本識別系統,都是在裁剪后的文本圖像上運行。這些模型在干凈清晰的文本上表現出色,但在處理現實場景中常見的模糊、低分辨率、被部分遮擋或光線不佳的文字時,準確率就大打折扣。

以圖1中的幾個例子為例,一些招牌上的"exit"、"beer"和"departures"等詞,如果單獨看文字部分,字體扭曲或模糊不清,傳統識別系統往往會錯誤識別為"part"、"beef"或"defartures"。但對人類來說,僅需看一眼整個場景,就能正確理解這些詞的含義,因為我們能從上下文得到提示。


這種局限性在處理詞匯表外(OOV)詞時尤為明顯。所謂詞匯表外詞,指的是訓練數據中未出現過的詞匯,如特定的品牌名稱、街道名稱或獨特的標識。研究表明,當面對這類詞匯時,傳統識別系統往往會"硬湊"一個訓練中見過的相似詞,而不是忠實地識別實際文字。

2023年的一項研究顯示,面對OOV詞時,主流文本識別系統的錯誤率會比常見詞高出10%至15%。這一差距在街景圖像中尤為顯著,因為街景中包含大量特定地點的名稱、商店標志等非通用詞匯。

更棘手的是,在真實應用場景中,我們經常需要識別文本質量很差的圖像。無論是監控攝像頭拍攝的模糊畫面,還是從遠處拍攝的街景照片,或是光線不佳環境下的文檔,傳統的"盲眼"識別方式都難以應對這些挑戰。

全局視覺思維

CLIPTER模型的出現為這一問題提供了創新解決方案。CLIPTER的名稱源于"CLIP TExt Recognition",其核心理念是利用視覺語言模型(如CLIP)提取整個圖像的語義信息,來輔助文本識別過程。

CLIP(Contrastive Language-Image Pre-training)是OpenAI于2021年發布的多模態模型,它通過大規模圖像-文本對訓練,習得了豐富的視覺-語言關聯知識。CLIPTER巧妙地利用了CLIP對整體場景的理解能力,為文本識別提供額外的上下文信息。

CLIPTER框架包含四個核心組件:圖像編碼器、特征池化層、集成點選擇和融合機制。這些組件共同工作,將全局場景信息與局部文本特征有機融合。

圖像編碼器的作用是提取整個圖像的語義表示。CLIPTER探索了多種編碼器,包括純視覺模型(如ViT、MAE和DiNO)和視覺語言模型(如CLIP、BLIP和GiT)。實驗結果表明,視覺語言模型表現更優,這是因為它們在預訓練過程中不僅學習了圖像內容,還學習了與之相關的文本描述,使得提取的特征更加豐富且與文本識別任務相關。


特征池化組件用于減少圖像特征的數量,平衡計算開銷和表示能力。CLIPTER采用了一種靈活的池化策略,保留代表整個圖像的特殊標記([class]),并對其他特征進行二維平均池化。實驗表明,即使只使用CLIP的單一全局表示(相當于無限大池化核),也能顯著提升識別性能。

集成點選擇決定了在識別模型的哪個階段融入全局信息。CLIPTER設計了兩類集成策略:早期融合和晚期融合。早期融合在視覺編碼階段注入全局信息,將場景表示視為額外的視覺內容;晚期融合則在解碼階段提供上下文信息,條件化預測過程。不同的識別架構適合不同的集成點,例如PARSeq和TRBA對集成點不太敏感,而ABINet則從晚期融合中獲益更多。

融合機制是CLIPTER的核心創新點,它負責將全局場景信息與局部文本特征有機結合。CLIPTER設計了兩種融合方案:多頭交叉注意力(MH-CA)和門控注意力。前者是標準的注意力機制,后者則是一種輕量級替代方案,適用于單一全局表示的情況。

更重要的是,CLIPTER引入了一種基于tanh函數的門控機制,實現了從預訓練模型到場景感知模型的平穩過渡。這一機制在訓練初期保持原始文本特征不變,隨著訓練進行,逐漸增加融合特征的權重。這種設計確保了模型可以在保留原有能力的基礎上,逐步學習利用場景信息。

CLIPTER框架的靈活性使其可以與各種現有文本識別架構集成。例如,對于TRBA這樣的結構,CLIPTER可以選擇在視覺特征提取后、上下文建模前或解碼階段進行融合;對于PARSeq,可以在ViT模型后或解碼器內部進行融合。這種靈活性使CLIPTER成為一個通用的增強工具,可以應用于現有和未來的文本識別系統。

實際應用中,CLIPTER的輕量級版本(使用CLIPbase編碼器和門控注意力機制)僅增加了約8%的端到端延遲(每圖像約12毫秒),同時顯著提升了識別性能。這一性能提升在處理模糊文本時尤為明顯,例如原本識別為"mariboro"的文字,在利用場景信息后,正確識別為"marlboro"品牌名。

總的來說,CLIPTER通過引入全局場景信息,成功克服了傳統文本識別方法的"盲眼"限制。它讓AI系統能夠像人類一樣,在文字難以直接辨認時,借助周圍環境線索進行推斷,從而在各種復雜場景下實現更準確的文本識別。

實測數據說話

CLIPTER模型不只是紙上談兵,它通過一系列嚴格的實驗測試證明了自己的實力。研究團隊在12個公共基準測試集上對CLIPTER進行了全面評估,這些測試集涵蓋了各種復雜場景,從清晰整潔的文檔到模糊不清的街景照片,從簡單的標識到復雜的商業標牌。


結果令人振奮:CLIPTER在所有測試中都展現出顯著的性能提升。具體來看,當將CLIPTER集成到TRBA模型中時,識別準確率平均提高了0.9%;集成到ViTSTR-S中時提高了1.4%;集成到ABINet-VIS中時提高了1.7%;集成到ABINet中時提高了0.4%。最引人注目的是,當CLIPTER與當前最先進的PARSeq模型結合時,在所有數據集上的加權平均準確率提高了0.8%,創造了新的行業記錄。

這些數字可能看起來不大,但在文本識別領域,0.8%的提升已經非常顯著。考慮到PARSeq模型已經經過精心優化,能在此基礎上再提升0.8%,相當于減少了5.5%的相對錯誤率,這在實際應用中意味著每處理1000個文本,就能多正確識別8個。

深入分析不同類型的數據集,CLIPTER在街景圖像上表現尤為出色。以Uber數據集為例,這個數據集主要包含街道名稱和商業標識,其中許多文本實例模糊、被遮擋或分辨率低。在這樣具有挑戰性的場景中,CLIPTER將PARSeq的錯誤率降低了近10%。這正說明了場景上下文在理解低質量文本時的關鍵作用。

除了常規測試,研究團隊還專門評估了CLIPTER在詞匯表外(OOV)詞匯上的表現。OOV詞匯測試使用了一個專門設計的基準,包含25,647個在訓練數據中未出現過的詞。測試結果表明,當將CLIPTER集成到PARSeq中時,OOV詞的識別準確率提高了2.48%,遠高于在常見詞上1.25%的提升。這一結果證實了場景信息對理解獨特或罕見詞匯的重要價值。

更讓人驚喜的是CLIPTER在低數據環境下的表現。傳統深度學習模型通常需要大量標注數據才能取得良好效果,但在現實應用中,獲取大規模標注數據往往成本高昂。CLIPTER通過利用預訓練視覺語言模型的泛化能力,在訓練數據有限的情況下依然表現出色。實驗顯示,使用僅10%訓練數據的CLIPTER能達到使用25%數據的基線模型相同的表現;使用40%數據的CLIPTER則能匹敵使用全部數據的基線模型。這一特性使CLIPTER特別適合資源受限的場景。

值得一提的是,CLIPTER的實現非常高效。在端到端評估中,研究人員將GLASS文本檢測器與PARSeq識別器串聯,形成完整的文本識別流程。結果表明,即使考慮所有計算環節,添加CLIPTER僅增加了8%的總體延遲(每圖像約12毫秒),同時性能優于現有的端到端文本識別方法。這種高效的計算特性使CLIPTER在實際應用中具有很高的實用價值。

研究團隊還進行了詳盡的消融研究,分析了CLIPTER各組件的貢獻。結果表明,使用視覺語言模型(如CLIP、BLIP)作為圖像編碼器比純視覺模型(如DiNO、MAE)效果更好;適當的特征池化可以在保持性能的同時顯著減少計算開銷;不同的識別架構需要不同的集成點;而門控融合機制則在計算效率和性能提升之間取得了很好的平衡。這些發現為將來集成CLIPTER到其他文本識別架構提供了寶貴指南。

應用與前景


CLIPTER技術的出現為多個領域帶來了新的可能。在街景導航中,準確識別路牌和商店標識對自動駕駛和位置服務至關重要。傳統方法在處理遠距離、部分遮擋或光線不佳條件下的標識時常常失敗,而CLIPTER通過理解整個場景,能大幅提高這類情況下的識別準確率。

電子商務是另一個受益領域。在線購物平臺需要從產品圖片中提取文字信息,如品牌名稱、型號和規格等。這些文字常常以各種藝術字體出現,或混合在復雜背景中,給識別帶來挑戰。CLIPTER利用產品整體外觀和場景信息,可以更準確地識別這些關鍵文本,從而提升產品分類和搜索的準確性。

文檔數字化也可從CLIPTER獲益。在掃描古籍、歷史文件或質量不佳的打印材料時,文字可能因褪色、破損或污漬而難以辨認。CLIPTER通過分析文檔的整體結構和內容,可以更好地推斷這些有問題區域的文字,提高OCR(光學字符識別)的整體質量。

安防監控系統也能借助CLIPTER提升性能。監控攝像頭拍攝的圖像往往分辨率低、噪點多、角度偏,導致文字識別困難重重。CLIPTER通過考慮場景上下文,能更準確地識別車牌號碼、身份證信息或其他關鍵文字,為安防系統提供更可靠的數據支持。

對移動應用開發者而言,CLIPTER技術開啟了新的可能性。拍照翻譯應用可以更準確地處理菜單、路標或說明書上的文字;增強現實應用可以更精確地識別和替換現實環境中的文本;而輔助視覺應用則可以更好地幫助視力障礙者理解周圍的文字信息。

從技術演進的角度看,CLIPTER代表了一種新的思路:將大規模預訓練模型的知識遷移到特定任務中。它不需要從頭訓練一個理解場景和文本的復雜模型,而是巧妙地結合了現有的視覺語言模型和文本識別模型,各取所長。這種模塊化設計使CLIPTER能夠隨著基礎模型的進步而不斷提升,比如當更強大的視覺語言模型出現時,可以直接替換CLIPTER中的圖像編碼器部分。

CLIPTER的另一個重要意義在于它縮小了端到端方法和級聯方法之間的差距。傳統上,文本識別有兩種主要范式:端到端模型在一步中同時檢測和識別文本,而級聯方法則先檢測文本位置再識別內容。端到端方法理論上能利用全局信息,但通常計算復雜且難以訓練;級聯方法模塊化程度高,易于實現和優化,但缺乏全局視角。CLIPTER為級聯方法注入了全局視角,同時保持了其模塊化優勢,實現了兩全其美。

在實際部署中,CLIPTER的輕量級版本(使用單一CLIP表示和門控注意力)特別實用。它僅增加約10%的計算開銷,卻能顯著提升識別性能。對于資源受限的設備,如手機或嵌入式系統,這種高效的性能提升尤為寶貴。測試顯示,在主流手機上,CLIPTER的輕量級版本僅增加約20毫秒的處理時間,幾乎不影響用戶體驗,卻能明顯改善識別結果。

展望未來,CLIPTER還有廣闊的發展空間。一方面,隨著更強大的視覺語言模型出現,CLIPTER可以直接受益;另一方面,研究人員可以探索更多融合場景信息的方式,比如引入多尺度特征融合或動態集成點選擇。此外,CLIPTER的思路也可能啟發其他計算機視覺任務,如物體檢測、分割或圖像字幕生成等,通過整合全局和局部信息來提升性能。


總的來說,CLIPTER不僅是文本識別技術的一次重要進步,更代表了一種新的思考方式:在解決具體視覺問題時,不應局限于局部信息,而應考慮更廣泛的上下文。這種思路與人類視覺系統的工作方式更為接近,也許是通向更強大、更通用人工智能系統的重要一步。

參考資料:

  1. Aberdam, A. et al. (2023). CLIPTER: Looking at the Bigger Picture in Scene Text Recognition. ICCV.

  2. Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML.

  3. Fang, J. et al. (2022). PARSeq: A State-of-the-Art Scene Text Recognition Framework. ECCV.

  4. Li, X. et al. (2021). ABINet: Autonomous Bidirectional Interaction Network for Scene Text Recognition. CVPR.

  5. Baek, J. et al. (2019). What is Wrong with Scene Text Recognition Models? ICCV.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
深夜突發!中國突增4國免簽!創史上新高

深夜突發!中國突增4國免簽!創史上新高

澳洲紅領巾
2025-05-30 09:43:10
開了四年的“特斯拉”,突然要花15萬換電池?車主:莫名其妙

開了四年的“特斯拉”,突然要花15萬換電池?車主:莫名其妙

瀟湘晨報
2025-06-01 11:07:20
印度竄訪臺灣,央視公布印飛機墜毀視頻,印總參謀長:數量不重要

印度竄訪臺灣,央視公布印飛機墜毀視頻,印總參謀長:數量不重要

星光看娛樂
2025-06-02 08:34:28
職工醫保個人賬戶余額可以轉賬啦!

職工醫保個人賬戶余額可以轉賬啦!

子長融媒體中心
2025-05-31 13:15:43
找一個人和你做愛到老有多難

找一個人和你做愛到老有多難

曾奇峰心理工作室
2025-04-19 11:59:48
炸裂!阿根廷記者:伊卡爾迪前妻旺達正在勾搭巴黎后衛阿什拉夫

炸裂!阿根廷記者:伊卡爾迪前妻旺達正在勾搭巴黎后衛阿什拉夫

雷速體育
2025-06-02 17:23:15
為讓玩家泄憤,成人公司將礙事莉做成了娃娃

為讓玩家泄憤,成人公司將礙事莉做成了娃娃

街機時代
2025-06-02 15:00:03
“沒有假球 全是世仇”!球賽變互懟大會,梗也太密了...這次“散裝”大江蘇贏麻了→

“沒有假球 全是世仇”!球賽變互懟大會,梗也太密了...這次“散裝”大江蘇贏麻了→

上觀新聞
2025-06-02 11:28:53
比亞迪突曝大消息:事關負債5800多億,不裝了,攤牌了

比亞迪突曝大消息:事關負債5800多億,不裝了,攤牌了

杜家科技
2025-05-31 23:27:45
只要以色列敢開第一槍,伊朗空軍包括陸軍都會給以色列毀滅性報復

只要以色列敢開第一槍,伊朗空軍包括陸軍都會給以色列毀滅性報復

起喜電影
2025-06-03 01:24:59
妻子癱瘓,兒子成“惡霸”,被排擠的白燕升終于坦白離開內幕

妻子癱瘓,兒子成“惡霸”,被排擠的白燕升終于坦白離開內幕

洲洲影視娛評
2025-06-01 23:00:07
國足出征印尼25人大名單:劉若釩落選,王鈺棟、楊明洋在列

國足出征印尼25人大名單:劉若釩落選,王鈺棟、楊明洋在列

直播吧
2025-06-02 14:53:34
家電三巨頭差距斷崖:美的凈利潤385億,海爾187億,格力讓人意外

家電三巨頭差距斷崖:美的凈利潤385億,海爾187億,格力讓人意外

說說史事
2025-06-01 11:23:56
2個月沒首發!葡媒:本菲卡接受現實,努涅斯500萬歐附加費已泡湯

2個月沒首發!葡媒:本菲卡接受現實,努涅斯500萬歐附加費已泡湯

直播吧
2025-06-03 00:29:15
"你沒有牌了",足以載入史冊的一天,為烏克蘭的行動點贊

"你沒有牌了",足以載入史冊的一天,為烏克蘭的行動點贊

山河路口
2025-06-02 12:53:52
馬斯克被曝與日本女歌手生下第14個孩子,網友都在猜是中日混血的她!

馬斯克被曝與日本女歌手生下第14個孩子,網友都在猜是中日混血的她!

東京新青年
2025-06-01 18:10:17
鄭欽文終極對手?斯維亞泰克:我以為我在跟辛納打

鄭欽文終極對手?斯維亞泰克:我以為我在跟辛納打

三哥搞笑侃球
2025-06-03 02:16:54
英國呼吁幫助烏克蘭發展核武器,俄洲際導彈工廠與核潛艇基地遭襲

英國呼吁幫助烏克蘭發展核武器,俄洲際導彈工廠與核潛艇基地遭襲

史政先鋒
2025-06-02 16:46:00
不僅炸毀轟炸機!摩薩德盛贊烏克蘭同行,俄議員怒稱有些人要殺頭

不僅炸毀轟炸機!摩薩德盛贊烏克蘭同行,俄議員怒稱有些人要殺頭

鷹眼Defence
2025-06-02 17:27:52
太原一路虎車酒吧門口橫沖直撞,警方回應:李某彪被當場控制!

太原一路虎車酒吧門口橫沖直撞,警方回應:李某彪被當場控制!

大象新聞
2025-06-02 17:47:03
2025-06-03 03:43:00
清風鑒史 incentive-icons
清風鑒史
作有深度的歷史解讀
2621文章數 36637關注度
往期回顧 全部

科技要聞

下周的WWDC,蘋果AI依舊不會有“驚喜”

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

大S女兒來北京!馬筱梅帶她喝下午茶

財經要聞

近期大火的"穩定幣、RWA"是什么?誰將受益?

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

藝術
親子
本地
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

特意去查了一下李亞鵬的培德書院。

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中國記者拿著美菲勾結證據對質 菲律賓防長當場急了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 诏安县| 东明县| 鄂尔多斯市| 柘荣县| 白沙| 全南县| 图片| 禄丰县| 昌宁县| 宿松县| 广宗县| 宁武县| 元阳县| 温泉县| 太康县| 昭苏县| 林州市| 新丰县| 竹山县| 象州县| 禹城市| 兴隆县| 广元市| 若尔盖县| 德安县| 陆丰市| 瑞安市| 新田县| 临洮县| 中阳县| 鹤壁市| 正阳县| 德昌县| 万载县| 田林县| 锡林浩特市| 葵青区| 铁力市| 瑞丽市| 融水| 庆元县|