Event Analyticsacross Languagesand Communities
跨語言與社區的事件分析
https://library.oapen.org/bitstream/handle/20.500.12657/96074/9783031644511.pdf?sequence=1#page=243
概述
自然災害、恐怖襲擊等突發事件,足球世界杯等計劃性事件,以及歐洲移民危機和軍事沖突等長期演變的事件,都會影響全球不同語言背景的社區和社會。新聞網站和社交媒體對這些事件的報道,導致了來自異構來源的大量多語言事件信息。處理這些信息需要方法、工具和數據集,以實現跨語言的事件信息互聯、驗證、情境化和分析,并提供直觀的多語言信息交互方式。這些技術對于數字人文研究者、記憶機構、出版商、媒體監測公司和記者等利益相關者群體至關重要。本書展示了跨語言和跨社區的事件分析研究成果,推動了這一領域的發展。
圖 1 概述了 CLEOPATRA 國際培訓網絡(ITN),這是本書的核心組成部分。該項目提供了一個獨特的跨學科和跨部門的研究與培訓計劃,探索如何分析和理解影響我們生活和社會的主要事件在線上如何呈現。這些事件以多種歐洲語言(包括英語和德語,以及資源較少的克羅地亞語和斯洛文尼亞語)的豐富資源表示。通過數據挖掘和自然語言處理(NLP)等領域的創新方法,以及創建新的以事件為中心的數據集(如包含 15 種語言中超過 100 萬個事件的**開放事件知識圖譜(OEKG)),實現了對這些事件的分析和探索。
CLEOPATRA ITN 項目于 2019 年 1 月啟動,持續至 2023 年 6 月,見證了 NLP 從基于 Transformer 的語言模型向大語言模型(LLMs)時代的過渡。LLMs 在人工智能(AI)的多個領域取得了重大突破,尤其是在文本生成和理解方面,打破了以往的語言障礙。本書展示的方法和資源需要在這一過渡背景下進行審視。這些方法包括命名實體識別、對話式問答和事件敘事化,這些任務現在和未來也可以通過 LLMs 實現。
本書的目的有兩個:首先,展示在 LLMs 引入之前的事件分析領域最先進的 NLP 方法,為未來的發展提供基準;其次,強調即使在 LLMs 時代,所提出的方法和資源仍然具有重要價值,特別是在解決 LLMs 在可靠性方面的固有缺陷時。在涉及不同文化和感知的敏感領域,真實性是不可或缺的維度,可以通過精心設計的模型架構和符號知識表示(如以事件為中心的知識圖譜)來實現。
CLEOPATRA ITN 的一個核心方面是創建支持事件分析的資源,最終形成了包含符號事件知識(如事實、多語言文本、新聞文章、圖像、示例問題及其答案)的 OEKG。在進行事件分析時,這些可信資源的可用性至關重要,因為事件的感知可能高度依賴于接收者的特征,包括政治觀點和文化影響。隨著越來越多的信息來源出現在網絡上(尤其是社交媒體),LLMs 基于未公開資源生成文本的能力幾乎不受限制,通常缺乏進一步調查的參考依據。因此,AI 生成的虛假信息預計將通過欺騙性敘述、篡改圖像和深度偽造視頻主導未來的虛假信息環境,使用戶和算法難以區分真相與虛構。
通過 CLEOPATRA ITN 的研究和資源,我們旨在為事件分析提供基礎,支持開發和評估未來技術,以實現真實且有依據的事件分析。
本書結構
本書分為三個部分,分別關注跨語言和跨社區事件分析的不同方面:
第一部分:以事件為中心的多語言和多模態 NLP 技術
介紹處理多語言信息所需的 NLP 技術的最新發展。特別是,本部分包含五章,展示了支持資源較少語言的 NLP 方法,以及處理多模態信息以從異構來源推進事件分析的技術。
第二部分:以事件為中心的多語言知識技術
討論將多語言事件信息集成到知識圖譜中并提供用戶訪問的技術。本部分的貢獻包括 OEKG,一個包含 15 種語言中超過 100 萬個事件的多語言事件知識圖譜。此外,還介紹了 QuoteKG(引述知識圖譜)以及事件推薦和對話式問答的方法。
第三部分:事件分析
涵蓋多語言事件分析的三個選定方面,即事件中心新聞傳播障礙的分析、社交媒體中的聲明檢測以及事件敘事化作為呈現事件數據的手段。
第一部分:以事件為中心的多語言和多模態 NLP 技術
本書的第一部分包含五章,主要涉及應用于不同類型事件文本的自然語言處理(NLP)新方法的研究。CLEOPATRA 項目最初在其 NLP 活動中依賴于現有且經過驗證的方法,涵蓋了常見的任務,如詞形還原、詞性/形態句法標注(PoS/MSD)、命名實體識別與分類(NERC)、依存句法分析等。然而,該項目也正值大語言模型(LLMs)在 NLP 處理流程中引入的初期,LLMs 對 NLP 方法論產生了深遠影響,并在幾年內引發了范式轉變。因此,第一部分中的一些章節展示了仍基于先前方法的研究,而其他章節則已將 LLMs 作為其方法論核心。
第 1 章 提出了一個適用于任何語言的通用命名實體識別(UNER)框架。該提案受到 NLP 領域中兩個類似倡議的啟發,即通用依存關系(UD)和通用標注集(UT)。它整合了所有先前的 NERC 方法,并提出了一種三層層次化的命名實體分類,與相關的 dBpedia 條目相結合,從而將名稱直接關聯到概念數據空間中的項目。
第 2 章 研究了如何將全球發布的大量新聞與相關地理位置進行情境化?,F有的地理位置估計方法主要基于文本或照片作為獨立任務。由于新聞照片可能缺乏地理線索,而文本可能包含多個地點,僅基于單一模態識別新聞故事的核心位置具有挑戰性。本章引入了用于新聞文檔多模態地理位置估計的新數據集,同時考慮文本和照片,并取得了更好的結果。
第 3 章 探討了語言類型學中的計算方法如何改進語言分類結果。由于 CLEOPATRA 項目主要面向事件的多語言處理,本章提出了一種使用可比樹庫(如關于 2019 年歐盟選舉的新聞語料庫)或平行樹庫(如平行 UD)中的句法特征來測量語言距離的新方法。該方法還可以測量訓練數據中哪些語言組合可以改進依存句法分析的結果。
第 4 章介紹了為大規模多語言和多模態新聞集合中的情感分析(SA)和仇恨言論檢測開發的方法。由于文本或句子的情感對意見形成至關重要,而仇恨言論似乎比以前更頻繁出現(盡管尚未有人能明確定義該術語涵蓋的具體概念),這一任務變得越來越重要。本章展示的研究成功整合了多模態信息以獲取整體上下文,并將該方法應用于一個具體的示例任務。
第 5 章以 LLMs 在低資源語言中的應用為主題,結束了第一部分。由于在最流行的多語言 LLMs 中,低資源語言的詞匯在工作字典中往往嚴重不足,本章提出了通過將這些語言的“脆弱詞匯”引入多語言 LLMs 的字典中,并提供合理的嵌入初始化,隨后在可用低資源語料庫的限制下進行微調的策略。
第一部分的章節涵蓋了 CLEOPATRA 事件處理流程中開發并用于多語言處理的 NLP 方法集,展示了如何將語言技術與知識技術成功結合,以在事件相關數據的自動處理中取得更好的結果。
第 1 章 UNER:通用命名實體識別框架
Diego Alves, Gaurisha Thakkar, and Marko Tadic
摘要
命名實體識別與分類(NERC)是自然語言處理(NLP)中的一項重要任務,廣泛應用于交互式問答、摘要生成、關系抽取和文本挖掘等應用中?,F有的 NERC 語料庫遵循不同的標注方案,這些方案在格式和復雜性方面因研究需求而異:從單層層次標注(如“人物”、“地點”和“組織”)到多層標注方案。受通用依存關系(Universal Dependencies, UD)框架在解析樹標準化表示方面的啟發,我們開發了通用命名實體識別(UNER)框架,該框架包括一個多層 NERC 層次結構和一個對應的工作流程,用于從 Wikipedia 和 DBpedia 解析數據并將其轉換為 UNER 標注。
本章介紹了 UNER 層次結構及其數據提取和標注的工作流程。所提出的流程用于生成一個英語語料庫,并對其進行了定性和定量評估。此外,還提出并討論了七種標注改進策略,表明使用**開放事件知識圖譜(OEKG)中的信息可以改進我們的數據集。
1.1 引言
命名實體識別與分類(NERC)是自然語言處理(NLP)中的一個重要子領域,因為從文本中提取信息具有重要意義。它最早于 1995 年在第六屆消息理解會議(MUC-6)上定義(Chinchor 1998),此后被廣泛應用于各種 NLP 應用中,包括事件和關系抽取、問答系統以及面向實體的搜索。例如,MUC-7(Chinchor 1998)定義了一個 2 層層次結構,每層有 3-8 個節點,而 Second Harem NERC 方案(Freitas 等,2010)由 3 層組成,每層有 10 到 36 個節點。
為了創建一個通用的多語言命名實體標注方案,我們提出了**通用命名實體識別(UNER)框架**,這是一個多層次的 NERC 層次結構。UNER 基于 Sekine NERC 層次結構(Sekine 2007),并進行了特定修改,使其能夠輕松轉換為其他 NERC 方法。結合該框架,我們提出了一種從 Wikipedia 自動提取和標注文本的流程,并根據 UNER 層次結構進行標注。該流程應用于英文 Wikipedia,生成的 UNER 語料庫經過定性和定量評估。
在 1.2 節中,我們詳細描述了 UNER 框架和層次結構;在 1.3 節中,我們詳細介紹了數據提取和標注的工作流程。1.4 節展示了 UNER 英文語料庫及其評估結果。1.5 節描述了為提高標注語料庫的精確率和召回率而進行的實驗,1.6 節總結了我們的結論和未來潛在的研究方向。
1.2 UNER 標注框架定義
本節概述了 UNER 層次結構及其在版本 1 和版本 2 之間的變化。
1.2.1 UNER:版本 1
UNER 層次結構的第一個版本(Alves 等,2020)基于 Sekine(2007)提出的 NERC 層次結構,該結構在比較的 NERC 方案中具有最高的概念復雜性(Alves 等,2020)。每個 UNER 層級的節點數量如表 1.1 所示。
提出的 UNER 層次結構由 4 個層級組成。層級 0 是根節點,所有其他層級均由此派生。層級 1 包含三個主要類別,對應于 MUC-7(Chinchor 1998)的主要類別:**名稱**、**時間表達式**和**數值表達式**。層級 2 包含 29 個命名實體類別,這些類別在層級 3 中細分為 95 種類型。此外,層級 4 包含 129 個子類型(Alves 等,2020)。
因此,UNER 層次結構的第一個版本涵蓋了 215 個標簽,這些標簽最多可包含 4 個層級的粒度,具體取決于命名實體類型的詳細程度。UNER 標簽由每個層級的標簽組成,用連字符“-”分隔。由于層級 0 是根節點且對所有實體通用,因此不在標簽中描述。例如:
- UNER 標簽 Name-Event-Natural_Phenomenon-Earthquake 由層級 1 的 Name、層級 2 的 Event、層級 3 的 Natural Phenomenon 和層級 4 的 Earthquake 組成。
1.2.2 UNER:版本 2
使用 Wikipedia 數據和與 DBpedia 信息相關的元數據生成 UNER 標注數據集的想法促使我們修訂了最初提出的 UNER 層次結構。主要原因是自動標注過程基于 UNER 標簽與 DBpedia 類之間的等價列表。在生成等價列表時,我們發現并非所有 UNER 標簽都有對應的 DBpedia 類。這適用于絕大多數時間和數值表達式。因此,我們開發了 UNER 的版本 2,并在項目的 GitHub 網頁上發布。它由 124 個標簽組成,其層次結構詳見表 1.2。
此外,在標注過程中,我們使用了 IOB 格式(Ramshaw 和 Marcus,1999),因為許多 NERC 系統廣泛使用該格式,如 Alves 等(2020)所示。因此,每個標注的實體標記在 UNER 標簽的開頭還會收到字母“B”(如果標記是實體的第一個標記)或“I”(如果標記在實體內部)。非實體標記僅接收標簽“O”。
1.3 數據提取與標注
開發的工作流程允許從 Wikipedia(適用于該數據庫中的任何語言)提取文本和元數據,隨后通過某些標記(實體)的超鏈接識別 DBpedia 類,并將其轉換為 UNER 類型和子類型(最后兩步與語言無關)。
一旦數據提取和標注的主要過程完成,工作流程會提出后處理步驟,以改進分詞、實現 IOB 格式(Ramshaw 和 Marcus,1999),并收集有關生成語料庫的統計信息。整個過程如圖 1.1 所示,分為三個子過程。
1.3.1 文本和元數據提取
1. 從維基百科轉儲文件中提取:對于給定的語言,我們從維基媒體網站獲取其最新的轉儲文件。接著,我們使用WikiExtractor工具進行文本提取,并保留文章中的超鏈接。這些超鏈接指向其他維基百科頁面,以及指向這些命名實體的唯一標識符。我們提取所有唯一的超鏈接并按字母順序排序。我們從超鏈接中提取文章路徑,去除域名和子域名信息。這些文章路徑被視為命名實體。
2. 維基百科-DBpedia實體鏈接:對于從轉儲文件中提取的所有唯一命名實體,我們使用SPARQLWrapper通過SPARQL查詢向DBpedia端點發送請求,以識別與該實體關聯的各類別。此步驟為步驟1中的每個命名實體生成一組它所屬的DBpedia類別。
3. 維基百科-DBpedia-UNER反向映射:對于步驟1中提取的每個命名實體,我們使用步驟2生成的類別集合以及UNER/DBpedia映射模式,為每個命名實體分配UNER類別。對于一個實體,從DBpedia響應中獲取的所有類別都會被映射到一個層級值,解析并選擇最高層級的類別,然后將其映射到UNER類別。為了構建最終的標注數據集,我們僅選擇包含至少一個命名實體的句子。這減少了標注的稀疏性,從而降低了測試模型中的假陰性率。此步驟從整個維基百科轉儲文件中生成了特定語言的初始標注語料庫。
1.3.2 標注過程
1. UNER/DBpedia映射:此映射器將每個DBpedia類別鏈接到一個UNER標簽。提取的命名實體可能具有多個DBpedia類別。它為每個DBpedia類別分配最合適的UNER標簽。例如,實體“2015 European Games”具有以下DBpedia類別及其對應的UNER等價類別:
- dbo:Event—Name-Event-Historical-Event
- dbo:SoccerTournament—Name-Event-Occasion-Game
- dbo:SocietalEvent—Name-Event-Historical-Event
- dbo:SportsEvent—Name-Event-Occasion-Game
- owl:Thing—NULL
左側的值表示DBpedia類別,而其對應的UNER等價類別顯示在右側。它將所有DBpedia類別映射到其UNER對應類別。
2. DBpedia層級:此映射器為每個DBpedia類別分配一個優先級。這用于從關聯的類別集合中選擇特定的DBpedia類別。以下是類別及其優先級的示例:
? dbo:Event—2
? dbo:SoccerTournament—4
? dbo:SocietalEvent—2
? dbo:SportsEvent—4
? owl:Thing—1
對于實體“2015 European Games”,DBpedia類別**SoccerTournament**優先于其他類別,因為它具有更高的優先級值。如果提取的實體有兩個具有相同層級值的類別,則選擇列表中的第一個類別作為最終類別。所有DBpedia類別都根據DBpedia本體分配了層級值,其中類別以結構化的順序呈現,這使我們能夠定義層級級別。
1.3.3 后處理步驟
后處理步驟對應于三個不同的腳本,這些腳本提供以下功能:
1. 改進分詞(使用正則表達式):通過將標點符號與單詞分離來優化分詞。此外,它將IOB格式(Ramshaw和Marcus 1999)應用于文本中的UNER標注。
2. 計算生成語料庫的統計信息:包括總詞元數、非實體詞元數(標簽“O”)、實體詞元數(標簽“B”或“I”)以及實體數(標簽“B”)。該腳本還提供了所有UNER標簽及其在語料庫中出現次數的列表。
3. 列出語料庫中的實體(詞元及其對應的UNER標簽)。每個識別的實體在此列表中僅出現一次,即使它在語料庫中多次出現。
整個流程和后處理步驟均應用于英語,生成了UNER英語語料庫,該語料庫將在下一節中描述和評估。此基線語料庫是后續章節中改進實驗的基礎。
1.4 UNER英語語料庫(基線)
在本節中,我們將詳細介紹UNER英語語料庫及其評估活動,該活動旨在檢查數據的整體質量。
1.4.1 基本信息
英文維基百科由6,188,204篇文章組成(3.3 GB)。在應用所提出工作流程的主要處理后,我們獲得了分文件夾存儲的標注文本文件(17,150個文件,分布在172個文件夾中)(Alves等,2021)。
通過應用前述的后處理步驟,我們獲得了關于語料庫的統計信息。表1.3展示了關于詞元和實體數量的主要統計數據。在UNER英語語料庫中,8.9%的詞元是實體。表1.4則展示了最頻繁出現的NERC類別的統計數據。
如第1.2.2節所述,用于標注英文維基百科文本的UNER層級結構由124個不同的多層次標簽組成,這些標簽與DBpedia類別具有對應關系。然而,在UNER英語語料庫中,僅出現了99個不同的UNER標簽(占總數的80%)。
如前所述,UNER層級結構由類別、類型和子類型組成。UNER在其第二層級中包含了NERC中最常用的類別(人物、地點、組織)。因此,可以基于這些廣泛使用的通用類別對生成的語料庫進行分析。這三個類別覆蓋了生成語料庫中68.2%的命名實體。
1.4.2 定性評估
為了評估工作流程的這一步驟,我們對從UNER英語語料庫中隨機選擇的943個實體進行了分析。對于每個實體,我們檢查了其關聯的DBpedia類別以及最終選擇的UNER標簽。表1.5展示了此次評估的結果。
在選定的樣本中,91%的實體被正確地標記了UNER標簽。然而,6%的實體雖然關聯了正確的UNER類型,但其子類型較為泛化。例如,Bengkulu本應被標記為Name-Location-GPE-City,但卻被標記為**Name-Location-GPE-GPE_Other。錯誤可能源于與詞元關聯的DBpedia類別存在錯誤,或者是由于DBpedia與UNER之間定義的優先級規則和等價關系所致。
1.4.3 UNER英語黃金數據集
除了上述統計信息外,我們還從生成的語料庫中選取了一個樣本,并由一名標注者使用WebAnno(Eckart de Castilho等,2016)進行了校正。該樣本對應于輸出文件夾中的一個完整文件,包含519個句子和105個不同的UNER標簽。標注工作由項目組中的一名非英語母語成員完成,遵循客觀的指導原則。在存在多種可能標注的情況下,標注者會做出最終選擇,以確保每個實體在黃金數據集中僅有一個標簽。表1.6展示了用于創建黃金數據集的文件的基線標注評估結果,包括精確率(Precision)、召回率(Recall)和F1值(F1-measure),并考慮了所有105個標簽的均值。
如前所述,特定命名實體的標注依賴于超鏈接的存在。然而,如果實體在文章中多次提及,這些鏈接并不總是與詞元相關聯。這可能是導致召回率較低的主要原因之一。
1.5 數據集改進
通過使用UNER英語黃金數據集對基線標注文件進行評估,我們發現自動標注工作流程仍有改進空間,尤其是在減少假陰性數量方面。我們采用了基于詞典和知識圖譜的策略來完善英語語料庫的標注。以下是實驗設計和評估結果的詳細說明。
1.5.1 實驗設計
我們進行了七項不同的實驗:
1. 全局詞典:從整個UNER英語語料庫中,我們建立了一個單詞語實體及其對應UNER標簽的詞典。由于同一實體可能因關聯的DBpedia類別而在語料庫中出現不同的UNER標簽,我們為每個實體選擇了出現次數最多的標簽。該詞典用于補充語料庫的標注。僅考慮長度超過兩個字符的實體,并排除了數字實體。最終全局詞典包含826,371個實體。
2. 僅包含多詞語實體的全局詞典:與前一實驗類似,但僅考慮由多個詞元組成的實體。全局詞典共包含665,081個多詞語實體。
3. 局部詞典:在此設置中,我們將每個維基百科轉儲文件視為一篇文章,并應用“每篇文章一個含義”的策略。文章中每個鏈接到UNER的實體都會被緩存到局部查找詞典中,以其文本為鍵,UNER類別為值。對于給定文章中鍵的后續出現,我們使用相應的UNER類別進行標注。我們推測,實體更有可能在同一篇文章中重復出現,而不是在完全不相關的文章中。例如,Barack Obama作為人物更有可能出現在描述他作為總統的文章中,而不是出現在關于他的虛構內容的文章中。
4. 全局OEKG詞典:開放事件知識圖譜(OEKG)是一個多語言的事件中心資源。其實例具有特定的DBpedia類別,因此我們將全局詞典中的所有單詞語條目與OEKG中的元素進行了交集處理。對于每個實體,其關聯的OEKG中的DBpedia類別被映射到UNER。全局OEKG詞典包含128,813個條目。
5. 僅包含多詞語實體的全局OEKG詞典:與實驗4類似,但僅考慮由多個詞元組成的實體(共110,226個實體)。
6. 局部詞典后接全局OEKG詞典:將實驗3與使用實驗4建立的詞典進行標注補充相結合。
7. 局部詞典后接僅包含多詞語實體的OEKG詞典:使用實驗5的詞典對實驗3的語料庫進行補充標注。
在所有實驗中,詞典按實體從長到短的順序排列(“最長匹配”策略),以確保優先標注多詞語實體而非單詞語實體。
1.5.2 評估
評估使用了之前介紹的黃金語料庫進行。基線是對應文件的自動標注結果,其標注流程如第1.4節所述。
黃金語料庫包含105個不同的UNER標簽,但基線標注文件僅包含62個標簽。對于每個可能的標簽,我們計算了精確率(Precision)、召回率(Recall)和F1值(F1-measure)。由于采用了IOB格式(Ramshaw和Marcus 1999),每個UNER標簽可以以“B”或“I”開頭,非實體詞元則標記為“O”。
在基線標注文件的62個標簽中,只有45個標簽的結果不為0。因此,下表1.7中的值僅考慮了這些標簽,并代表了所有相關標簽的平均值。表1.7展示了基線及前一節中描述的每個實驗的評估指標。
全局詞典方法(實驗1)提供了最高的召回率(相比基線提高了+3.7),但精確率顯著降低(-40.8)。當僅使用多詞元實體的全局詞典時(實驗2),也觀察到類似情況。其他實驗并未顯著降低精確率,在某些情況下甚至有所提高。除實驗3、6和7外,所有實驗的召回率均高于基線。使用局部詞典并未有效提升召回率。
從F1值的角度來看,最佳選擇是使用經過OEKG驗證的詞典(實驗4)。其精確率略低于基線(-1.8),但召回率和F1值均有所提高(分別提高了+1.9和+1.6)。
表1.8展示了僅考慮UNER層級結構頂層時的各實驗評估結果。同樣采用了IOB格式,因此UNER標簽可以以“B”或“I”開頭,非實體詞元標記為“O”。
在此場景下,基線標注的精確率最高。使用全局詞典時(實驗1)召回率最高,但正如之前觀察到的,這種情況下精確率相比基線大幅下降(-51.0)。實驗4的F1值最高,與之前考慮所有UNER層級的評估結果一致。
因此,在改進實驗中,最佳選擇是使用基于開放事件知識圖譜(OEKG)優化的詞典。該資源能夠更精確地識別特定的DBpedia類別,從而在不顯著損失精確率的情況下提高召回率。
1.6 結論與未來方向
在本章中,我們介紹了UNER層級結構,旨在作為命名實體識別與分類(NERC)的通用框架。此外,我們描述了一種自動工作流程,通過使用維基百科和DBpedia數據并遵循UNER層級結構,生成多語言命名實體識別語料庫。整個過程是開源的,可應用于任何擁有維基百科和DBpedia的語言。
我們還展示了使用所提出流程生成的英語UNER語料庫。該數據集通過手動標注的黃金數據集進行了描述和評估。盡管精確率得分高于60,但召回率低于30。因此,我們進行了一系列實驗以改進最終的標注數據集。
我們發現,最佳結果是通過使用實體詞典并結合開放事件知識圖譜(OEKG)驗證關聯的DBpedia類別獲得的:精確率為76.9,召回率為31.0,F1值為36.0。然而,這些結果表明,召回率和F1值仍有改進空間。
作為未來工作的方向,我們的主要重點是提高召回率,以獲得更高效的工作流程,從而能夠為維基百科上所有語言生成UNER語料庫。利用生成的語料庫,可以訓練深度學習模型以實現自動命名實體識別與分類。此外,UNER層級結構還應補充更精細的時間標簽,這些標簽在UNER v.2中被排除在外。
第2章 新聞文檔中的多模態地理位置估計
Golsa Tahmasebzadeh, Eric Müller-Budack, Ralph Ewerth
摘要
隨著互聯網上新聞文檔的激增,在線閱讀新聞已成為人們日常生活中獲取信息的重要途徑。然而,人們對日益增多的虛假信息表示擔憂。作為新聞文本的補充,相關照片為讀者提供了額外的信息,幫助他們更高效地獲取所需內容。為了對全球范圍內發布的大量新聞進行情境化分析,地理信息至關重要。此外,地理信息在新聞推薦中也發揮著重要作用,能夠更好地滿足用戶需求?,F有的地理位置估計方法主要基于文本或照片作為獨立任務。然而,新聞照片可能缺乏地理線索,而文本可能包含多個地點。因此,僅依賴單一模態來識別新聞故事的核心地理位置具有挑戰性。
我們引入了用于新聞文檔多模態地理位置估計的新數據集,并在基準數據集上評估了現有方法,同時提出了利用文本和視覺內容進行新聞地理定位的新方法。此外,我們介紹了一個基于新聞照片地理內容的新聞檢索系統——**GeoWINE**,以強調地理位置估計在新聞領域的重要性。
2.1 引言
每天,世界各地都會發生新的事件,社交媒體和互聯網以多種形式(如圖像和文本)以及不同語言傳播新聞。因此,找到管理信息流、從多種來源獲取新聞并保持平衡視角的方法至關重要。事件的關鍵組成部分之一是其發生的地點。由于新聞文檔通常附有照片,確定照片拍攝地點是許多實際應用中的重要環節。例如,新聞檢索(Armitage等,2020)、圖像驗證(Cheng等,2019)以及新聞中的虛假信息檢測(Singhal等,2019)等。大多數現有的照片地理位置預測方法僅依賴于視覺數據(Izbicki等,2019;Kim等,2017;Müller-Budack等,2018),只有少數技術利用了多模態數據(Kordopatis-Zilos等,2017,2016)?,F有的基于圖像的方法主要集中于特定環境,如城市(Berton等,2022;Kim等,2017)或地標(Avrithis等,2010;Boiarov和Tyantov,2019;Weyand等,2020)。
大多數多模態技術利用Yahoo Flickr Creative Commons 100 Million(YFCC100M)數據集(Thomee等,2015),并依賴于與圖像相關的標簽。然而,這些方法未能充分利用新聞文章中可能暗示照片位置的詳細文本信息(如圖2.1b1所示)。BreakingNews數據集(Ramisa等,2018)是一個包含地理標簽的多模態新聞文章集合。這些標簽主要通過資源描述框架(RDF)站點摘要(RSS)獲取,或在不可用時通過分析出版商位置或故事文本推斷得出。然而,這些地理標簽可能不準確或錯誤。此外,BreakingNews數據集的一個局限性是測試集的標簽生成過程與訓練集相同。總體而言,迫切需要提供新聞照片地理標簽的多模態新聞文章數據集,以及準確確定新聞文檔地理位置的多模態方法。
在本章中,我們將地理位置估計任務定義為一個多模態問題。我們提出了多模態方法,整合新聞照片和正文中的視覺和文本信息,以自動識別整個新聞故事的核心位置(Tahmasebzadeh等,2022)或照片的地理位置(Tahmasebzadeh等,2023)。主要貢獻總結如下:(1)我們引入了兩個用于新聞地理位置估計任務的數據集。**MMG-NewsPhoto**(新聞照片的多模態地理位置估計)包含超過50萬篇新聞文章,涵蓋14,000多個城市和241個國家,涉及健康、商業、社會和政治等多個新聞領域;**MM-Locate-News**(新聞中的多模態核心位置估計)包含6,395篇新聞文章,涵蓋237個城市和152個國家,涉及多個領域。(2)我們提出了詳細的標注指南,并識別了新聞中指示照片地理位置的視覺概念。(3)我們引入了利用最先進的視覺和文本特征進行新聞文檔地理定位的多模態方法。(4)我們在引入的數據集上評估了這些方法,并將其性能與最先進技術及一些基線實現進行了比較。(5)為了強調地理位置估計在新聞內容分析中的重要性,我們介紹了基于照片地理位置的信息檢索系統(Tahmasebzadeh等,2020)和照片驗證系統(Tahmasebzadeh等,2021)。
本章的其余部分結構如下:第2.2節描述了相關工作;第2.3節介紹了我們提出的數據集;第2.4節和第2.5節分別介紹了多模態地理位置估計的模型;第2.6節討論了信息檢索方法;第2.7節總結了本章并指出了局限性和未來研究方向。
2.2 相關工作
照片地理位置估計的方法可以根據兩個主要標準進行分類:環境目標和數據類型(即圖像和多模態數據)(Brejcha和Cadík,2017)。在本節中,我們簡要回顧了與照片地理位置估計相關的工作,主要關注多模態方法、現有數據集及其局限性。
基于圖像的方法 許多現有的基于圖像地理定位的方法集中于城市環境(Berton等,2022;Kim等,2017)和自然環境,如山脈(Baatz等,2012;Tomesek等,2022)。一些嘗試在沒有環境先驗假設的情況下在全球范圍內估計照片位置。大多數方法將地理位置估計視為分類問題(Müller-Budack等,2018;Seo等,2018;Theiner等,2022;Weyand等,2016)。例如,通過利用檢索方法和大型地理標記圖像數據庫(Vo等,2017)、使用視覺相似單元的重疊集(Seo等,2018)、結合分層單元結構以及環境場景上下文(Müller-Budack等,2018),或利用對比學習的優勢(Kordopatis-Zilos等,2021)進行了改進。然而,盡管這些方法僅基于視覺信息取得了令人矚目的成果,但新聞提供了文本信息,可以進一步提高性能,特別是在缺乏明顯地理線索的情況下(如圖2.1b所示)。
多模態方法 只有少數方法(Crandall等,2009;Kordopatis-Zilos等,2017,2016;Ramisa等,2018;Serdyukov等,2009)將地理位置估計視為多模態問題,其中大多數依賴于通過生成基于全球文本標簽提及的概率模型來構建大規模地理語言模型(Kordopatis-Zilos等,2017,2016;Serdyukov等,2009)。Crandall等(2009)在兩種粒度上結合了圖像內容和文本元數據:城市級別(≈100公里)和地標級別(≈100米)。Trevisiol等(2013)處理一組視頻的文本信息以確定其地理相關性并找到頻繁匹配項。在沒有此類信息的情況下,他們依賴于視覺特征。隨后,Ramisa等(2018)提出了一種多模態方法,他們使用最近鄰方法和支持向量回歸(SVR)將視覺特征與文本結合。
多模態數據集 大多數多模態方法基于YFCC 100M數據集(Thomee等,2015)或MediaEval Placing Task基準數據集(Larson等,2017),包括圖像、視頻和元數據。Uzkent等(2019)提出的另一個數據集包含來自維基百科的圖像和文本以及衛星圖像。最近,引入了名為多語言和多模態(MLM)的數據集(Armitage等,2020),其中包括來自Wikidata(Vrandecic和Kr?tzsch,2014)的多語言文本和圖像。與之前的數據集不同,Ramisa等(2018)引入的BreakingNews包含多模態新聞文章,與我們的工作最為相關。它包括圖像、文本、標題和元數據(如地理坐標和流行度),并涵蓋體育、政治和健康等多個領域。訓練和評估中提供的地理標簽是從RSS、出版商或新聞文本中提取的。但如第2.1節所述,這些自動推導的位置可能不準確甚至錯誤。相反,我們提供了高質量的手動標注照片地理位置,以確保公平和可靠的評估(Tahmasebzadeh等,2022,2023)。
2.3 提出的數據集
本節概述了為多模態地理位置估計任務提出的兩個數據集:**MMG-NewsPhoto**(Tahmasebzadeh等,2023)和**MM-Locate-News**(Tahmasebzadeh等,2022)。這兩個數據集均由帶有地理標簽的新聞文檔圖像-文本對組成,但標簽的具體含義略有不同。在MMG-NewsPhoto數據集中,標簽僅表示照片的地理位置;而在MM-Locate-News數據集中,標簽不僅表示照片拍攝地點,還表示新聞正文的核心位置。以下部分將詳細討論這兩個數據集。
2.3.1 MMG-NewsPhoto數據集
本節將介紹用于新聞照片多模態地理位置估計的MMG-NewsPhoto數據集的創建和標注過程。
2.3.1.1 數據集創建
我們使用了Good News(Biten等,2019)和CC-News(Mackenzie等,2020)數據集提供的文章集合。Good News(Biten等,2019)是一個包含466,000個圖像-標題對的圖像標題生成數據集。基于新聞文章的網頁鏈接,我們提取了所有包含正文、標題、圖像鏈接(及其對應標題)和領域標簽的文章。CC-News(Mackenzie等,2020)包含從約30,000個獨特新聞來源中提取的4,400萬篇英文文檔。我們根據新聞文章數量對來源進行排序,并按照上述方法從前20個來源中抓取新聞文檔。最后,我們下載了所有圖像,并丟棄了損壞或無法訪問的圖像。最終,我們獲得了約1,000萬個數據樣本,包括正文以及每個樣本中至少一個圖像-標題對。
初始清理 我們基于正文的TF-IDF(詞頻-逆文檔頻率)余弦相似度(歸一化到[0, 1])移除冗余文檔(僅保留一個),相似度閾值設為0.5。接下來,我們手動將領域標簽分為10個類別,如健康、商業和政治(完整列表見圖2.2左)。某些領域(如藝術和技術)包含許多無效圖像(如廣告或庫存照片)。我們丟棄了這些類型的圖像,因為它們通常缺乏地理內容或與新聞正文中提到的地點不符。
位置鏈接 我們假設標題中提到的地點是照片地理位置的候選位置。我們應用命名實體識別和消歧技術來提取標題中的所有地點。借鑒相關工作(Müller-Budack等,2021),我們使用spaCy(Honnibal等,2020)提取命名實體,并使用Wikifier(Brank等,2018)將它們鏈接到Wikidata實體。我們僅保留類型為“地點”且具有有效地理坐標(緯度、經度)的實體,這些坐標從Wikidata屬性P625中提取。
照片位置分配 從標題中提取的地點實體并不總是表示照片位置,例如,它們也可能指代實體屬性(如“美國總統拜登”)。因此,我們對標題進行分詞,提取某些介詞(如“across”、“along”和“in”),這些介詞與地點提及結合時更可能指向照片位置。我們保留那些介詞與聲稱的照片位置之間的距離最多為兩個詞元的樣本。此外,刪除具有多個唯一地點的樣本,確保每個樣本僅有一個聲稱的照片位置。
位置豐富化 我們應用反向地理編碼,使用Nominatim將約50,000個從標題中提取的細粒度地點(如城市、道路、建筑物等)映射到城市。接下來,我們從Wikidata中提取相關國家(屬性P17)、大洲(屬性P30)和地理坐標(屬性P625)。
數據采樣 為了進行手動標注,我們選擇了3,000個樣本來構建測試數據集。為避免偏差,樣本選擇遵循以下原則:(1)涵蓋所有領域;(2)涵蓋所有大洲;(3)包括高人口城市(人口至少50萬)和中等人口城市(人口2萬至50萬);(4)文本中至少提到三個唯一地點;(5)正文中真實地點的提及次數不同。最后一點確保包含簡單案例(真實地點頻繁提及)和復雜案例(文本中提到的多個地點頻率相近)。對于簡單案例,僅利用命名實體頻率的文本方法即可實現高性能,而無需考慮圖像?;趶碗s案例,我們可以分析圖像對多模態地理位置估計的直接影響。測試集的統計數據如圖2.2右側所示。從剩余樣本中,隨機選擇10%用于驗證,其余用于訓練。
2.3.1.2 數據注釋過程
我們詳細解釋了用于測試集手動標注的指南,旨在使評估過程公平且透明。標注過程中使用的具體指南可在我們的GitHub頁面5上找到。
地理代表性概念 對于照片地理位置估計,地理代表性圖像描繪了有助于識別其位置的概念。我們將地理代表性概念分為兩類:**強概念**和**弱概念**。強概念是地點的唯一標識,例如圖像中出現的埃菲爾鐵塔可以明確地指向法國巴黎和歐洲大陸。弱概念則為一個或幾個特定地點提供線索,但本身證據不足。例如,某位總統是一個國家的標識,但他可能到訪多個地點。只有圖像中多個弱概念都指向同一地點時,才能確定新聞照片的地理位置。例如,多個車牌或人群可以代表相應的國家。如表2.1所示,我們基于以下八類定義了強或弱視覺概念:建筑、服裝、事件、人群、自然景觀、物體、公眾人物和場景文本。
標注問題(Q) 給定一個圖像-標題對及其鏈接的地點,我們向每個標注者提出以下問題: Q1:這是一個有效樣本嗎?????
為了確定樣本是否適合用于識別照片地理位置,如果圖像是廣告、庫存照片、網頁、地圖或數據可視化,或者鏈接的地點錯誤、不是地點或不是標題中聲稱的照片位置(見“照片位置分配”段落),則標注者選擇“否”。否則,選擇“是”。
Q2:圖像中顯示了哪些弱概念和強概念?
標注者選擇圖像中描繪的強概念或弱概念(表2.1)。
Q3:圖像中顯示了鏈接的城市(Q3.1)、國家(Q3.2)或大洲(Q3.3)嗎?
這些問題旨在獲取不同粒度的真實地點。如果滿足以下條件之一,用戶選擇“是”:(1)至少一個強概念可見;(2)單個弱概念高頻出現(例如多個車牌);(3)至少兩個不同的弱概念組合出現;(4)提供了單個弱概念的有效證明(例如證明地點的網頁)。否則,選擇“否”。如果選擇“是”,還需選擇置信度:“非常自信”、“自信”或“不自信”。
Q4:圖像的環境設置是什么?
用戶選擇以下類別之一:“室內”、“城市戶外”或“自然戶外”,以指示圖像的拍攝環境。
Q5:這是特寫嗎?
由于特寫圖像通常難以預測地點,我們要求標注者判斷圖像是否為特寫。
Q6:你在回答Q3時是否需要外部資源?
最后一個問題用于確定標注者在回答Q3時是否需要外部資源。如果選擇“是”,我們要求標注者提供相關鏈接。
標注者培訓
我們聘請了四名具有計算機科學背景的研究生進行標注工作,每小時支付10歐元(略高于2022年初德國的最低工資)。此外,三名專注于計算機視覺和多模態分析研究的專家(博士和博士后研究人員)也參與了標注。所有標注者均基于標注指南5進行了培訓。我們使用100個樣本進行了兩次試標注,并討論了結果以完善指南。
標注過程 標注任務分為以下兩步進行:
1. 樣本驗證:所有標注者被要求根據Q1驗證3,000個樣本。通過多數投票,獲得了1,700個有效樣本。
2. 詳細標注:對于每個有效樣本,三名標注者對Q2至Q6進行標注,并通過多數投票選擇每個問題中至少兩名標注者達成一致的樣本?;赒3.1至Q3.3的選定答案,我們獲得了最終標注。對于所有問題,答案應為“是”,且置信度為“非常自信”或“自信”。如果至少兩名標注者選擇“不自信”,則由專家重新標注。最終,我們獲得了Q3.1、Q3.2和Q3.3的最終標注,這些標注對應于圖像地理位置的粒度。這些粒度被轉化為測試數據的三個變體:Testcity、Testcountry和Testcontinent。請注意,更細粒度的樣本是更粗粒度樣本的子集。
標注研究結果 我們使用Krippendorff’s alpha(Krippendorff,2011)計算了Q3的標注者間一致性。城市、國家和大陸的一致性分別為0.41、0.41和0.51,我們認為這些值處于低到中等水平。對Q4和Q5的回答表明,40.2%的圖像是特寫,37.7%是室內圖像,這兩類圖像通常描繪的弱地理代表性概念較少,對照片地理位置任務具有挑戰性。在49.7%的樣本中,標注者需要外部資源(Q6)來判斷圖像是否顯示了鏈接地點??傮w而言,這些數字表明該任務對人類來說具有難度,也解釋了Q3的中等標注者一致性。
數據集統計 MMG-NewsPhoto包含554,768個訓練樣本、60,893個驗證樣本和2,259個測試樣本(所有粒度的總和)。數據集涵蓋14,331個城市、241個國家和6個大洲。表2.2顯示了各大洲和前十名國家的數據分布。由于1,700個測試樣本(約57%)是有效的,我們假設訓練集和驗證集中有效樣本的比例相似。
2.3.2 MM-Locate-News數據集
本節介紹了一個名為**多模態新聞核心位置(MM-Locate-News)**的新數據集3。接下來,我們將介紹數據收集和清理步驟(圖2.3),以及標注過程和數據集統計信息。
2.3.2.1 數據集創建
數據收集 該數據集以弱監督的方式收集。為了涵蓋來自六大洲的多種地點,我們從Wikidata(Vrandecic和Kr?tzsch,2014)中提取了所有國家、首都、高人口城市和中等人口城市。對于每個地點,我們使用EventRegistry4查詢2016年至2020年期間的事件,事件類別包括體育、商業、環境、社會、健康和政治。需要注意的是,EventRegistry會自動聚類報道相同(或相似)事件的新聞文章,并且聚類中心點的新聞標題代表事件名稱。為確保質量,我們過濾掉名稱中未包含地點的事件,或者其類別相關性和查詢相關性得分低于每個查詢地點所有事件平均得分的事件。此步驟的直覺是,名稱中提到地點的事件更可能提供聚焦于查詢地點的新聞文章。最后,我們從剩余的事件聚類中提取所有新聞文章。
數據過濾 我們采用以下步驟去除不相關的樣本:
1. 命名實體-查詢地點匹配**:我們假設如果一篇文章至少與一個命名實體在地理上接近,則該文章與查詢地點相關。借鑒相關工作(Müller-Budack等,2021),我們使用spaCy(Honnibal等,2020)提取命名實體,并使用Wikifier(Brank等,2018)將其鏈接到Wikidata以進行消歧。我們提取坐標位置(Wikidata屬性P625),該屬性主要適用于地點(如地標、城市或國家)。對于人物,我們提取出生地(Wikidata屬性P19),因為他們可能在相應的國家(甚至城市)活動。我們計算查詢地點的地理坐標與提取的實體位置之間的大圓距離(GCD)。我們保留包含至少一個命名實體的新聞文章,這些實體的GCD與查詢地點的距離小于k√a,其中a是查詢地點的面積(Wikidata屬性P2046),k是第2.4.2節中定義的超參數。
2. 事件-新聞文章距離:EventRegistry中的每篇新聞文章都被分配了一個相似性度量,表示其與事件的接近程度。我們丟棄相似性低于同一聚類中所有文章平均相似性的文章,以保留與相應事件最相關的新聞文章。
3. 冗余去除:我們使用TF-IDF向量(詞頻-逆文檔頻率)計算新聞文章之間的相似性,并在相似性高于0.5時丟棄其中一篇文章以去除冗余。
4. 罕見地點過濾:在應用過濾步驟1-3后,我們刪除了少于五篇文章的罕見地點(及相關文章),因為這些地點包含的文章數量太少,不適合訓練。
數據集統計 我們總共查詢了853個地點,并提取了13,143篇新聞文章。經過數據清理步驟后,我們最終獲得了6,395篇新聞文章,涵蓋389個地點(237個城市和152個國家)。我們將MM-Locate-News數據集按地點均勻劃分為訓練集、驗證集和測試集,如表2.3所示,大致比例為80:10:10(數據集樣本見圖2.1)。
2.3.2.2 數據標注過程
數據標注 數據集的測試集部分由人工標注。標注者根據表2.4中給出的三個標準(C1–C3),對給定的新聞文章及其圖像和查詢地點進行標注,提供“是”、“否”或“不確定”的標簽。根據不同的答案,這些標準被轉化為不同版本的測試數據,用于評估地理位置估計模型。在T1版本中,文本聚焦于查詢地點;在T2版本中,圖像和文本都代表查詢地點。由于很難找到明確顯示查詢地點的圖像,我們創建了T3版本,其中標注者不確定圖像是否顯示了地點。因此,在文本聚焦于地點且圖像與文本相關的情況下,我們假設圖像也顯示了該地點。
標注者一致性 共有三名用戶對測試集進行了標注,每篇樣本由兩名用戶標注。根據Krippendorff’s alpha(Krippendorff,2011),標準C1、C2和C3的標注者間一致性分別為0.44、0.38和0.55。盡管一致性得分相對中等,但我們注意到百分比一致性較高:C2和C3為80%,C1為66.6%。這是由于標注者對所有標準的答案傾向于“是”導致的。
2.4 新聞照片的多模態地理位置估計
我們將新聞照片的多模態地理位置估計定義為一個分類任務,其中照片位置基于視覺內容和伴隨正文的上下文信息進行預測。對于某一粒度g(例如城市、國家或大洲),數據集中可用的|Cg|個地點被視為目標類別。|Cg|維的獨熱編碼向量yg = [y1, y2, ..., y|Cg|] ∈ {0, 1}|Cg|表示真實地點。在本節的剩余部分,我們定義了從最先進方法中提取的特征,并描述了多模態架構和損失函數。
文本特征 我們使用預訓練的語言模型BERT(Bidirectional Encoder Representations from Transformers,Devlin等,2019)從新聞文章的正文中提取兩種不同類型的文本特征,每種特征的維度均為768。
1. 全局上下文特征:我們平均每個句子的BERT嵌入,生成一個單一向量B-Bd ∈ R768,以編碼全局上下文信息。
2. 實體中心特征:為了創建實體中心嵌入(記為B-Et ∈ R768),我們借鑒相關工作(Müller-Budack等,2021),結合spaCy(Honnibal等,2020)和Wikifier(Brank等,2018)將地點、人物和事件實體鏈接到Wikidata?;谶@些實體的Wikidata標簽提取其BERT嵌入。最后,我們計算實體向量的平均值,同時考慮同一實體的多次提及,因為這些提及可能對照片的地理位置更為重要。
視覺特征 為了表示地理代表性的視覺概念,我們依賴于CLIP(Contrastive Language-Image Pretraining,Radford等,2021)。我們使用ViT-B/32圖像編碼器提取512維特征,記為。
網絡架構 在我們提出的模型架構中,我們的目標是結合文本和視覺特征來預測不同粒度(即城市、國家和大陸級別)的照片地理位置。由于視覺和文本特征的維度不同,我們首先使用le個全連接(FC)層對每個特征向量進行編碼,每層包含ne個神經元。接下來,我們將這些嵌入連接起來,并將其輸入lo個輸出FC層。在隱藏輸出層中,我們使用no個神經元,而在最后的輸出層中,神經元的數量對應于給定粒度g的地點數量|Cg|。為了利用層次信息,我們為城市、國家和大陸級別分別使用獨立的分類器,輸出概率,|Ccontinent| = 6。請注意,除使用softmax的最后一層輸出層外,所有層均使用ReLU(Rectified Linear Unit)激活函數(Nair和Hinton,2010)。更多細節可在GitHub5上找到。
損失函數 為了聚合粒度分類器并突出層次屬性,我們構建了以下多任務學習損失函數:
其中,λg 是訓練過程中為不同粒度學習的相對權重,通過整合對數標準差來考慮損失之間的量級差異。對于單個粒度 g ∈ {城市, 國家, 大陸},交叉熵損失 Lg 的定義如下(公式 2.2)。
2.4.1 實驗設置
本節介紹了在MMG-NewsPhoto數據集和BreakingNews(Ramisa等,2018)數據集上的實驗設置以及不同架構的比較。
評估指標 我們使用預測位置與真實位置的地理坐標之間的大圓距離(GCD)作為評估指標,并在幾個可容忍誤差半徑下進行測量(Hays和Efros,2008)。對于城市、國家和大陸,這些半徑值分別為25公里、200公里和2,500公里。此外,我們還測量了Accuracy@k,該指標表示真實位置是否在模型預測的前k個結果中。
超參數設置 為了提取文本特征,我們將文本限制為500個詞元。我們設置全連接(FC)層的數量為le = 2和lo = 2,并選擇ne = 1,024和no = 512個神經元。單任務學習模型變體(用stl表示)使用單一粒度g進行優化,而其余模型則使用公式(2.1)中提出的多任務損失來學習層次化地理信息。
基線模型 我們將我們的模型與以下基線模型進行比較。需要注意的是,我們沒有對這些模型進行微調,而是使用了它們的官方模型或實現。
2.4.2 MMG-NewsPhoto數據集上的結果
單模態模型的比較 如表2.5所示,在視覺模型方面,CLIPi顯著優于基線模型base(M, f ?)(Müller-Budack等,2018)。在文本模型方面,B-Bd ⊕ B-Et優于單獨的特征。這表明上下文信息以及命名實體及其頻率在新聞照片的地理位置估計中起著至關重要的作用。表2.7報告了Accuracy@k的結果,顯示CLIPi視覺模型在國家和大陸級別上表現優異,但在城市級別上,CLIPi(stl)略勝一籌。在文本模型中,B-Bd ⊕ B-Et在國家和大陸級別上優于其他模型,但在城市級別上并未顯著優于B-Bd ⊕ B-Et(stl)(表2.6)。
多模態模型的比較 如表2.5所示,最佳單模態特征的組合CLIPi ⊕ B-Bd ⊕ B-Et在所有粒度級別上均顯著優于其他模型。關于Accuracy@k,表2.7也證實了相同的結果。對于多任務設置,它在所有粒度上都有效。總之,從較大粒度級別傳播的層次信息不僅提高了較小粒度(如城市)的性能,還提高了國家和大陸級別的性能。
不同領域的比較 圖2.4右側展示了不同模型在各個領域上的Accuracy@1表現。如圖所示,多模態模型在大多數領域中表現最佳。在金融、健康和體育等領域,視覺模型優于文本模型。在電視節目和世界領域,添加視覺信息并沒有幫助;而在健康領域,額外的文本信息對性能沒有顯著影響。
不同概念的比較 圖2.4左側展示了每個概念(見表2.1)的Accuracy@1表現。如圖所示,所提出的多模態模型在除公眾人物和人群之外的所有概念上均優于其他模型。此外,基于多模態模型,事件概念的表現最差,而場景文本的表現最佳。
定性結果 圖2.56展示了不同模型的結果。正如預期的那樣,當圖像中僅包含弱地理代表性概念時,視覺模型會失敗(圖2.5a)。然而,在以下情況下,視覺模型能夠成功:(1)存在強概念(如圖2.5b中的地標);(2)弱概念高頻出現,例如圖2.5d中的士兵。文本模型在以下情況下會失敗:(1)未提及相關地點(圖2.5b);(2)提及了各種不相關的實體,例如圖2.5d中的美國。正如預期的那樣,如果文本中提到了許多與地點相關的實體,文本模型會成功(圖2.5a,c)。當文本提到許多與圖像無關的主題時,多模態模型會失?。▓D2.5d)。相反,在以下任一條件下,多模態模型能夠成功:(1)文本提供了豐富的信息(包括實體和內容),例如圖2.5a,c;(2)圖像展示了強視覺概念,例如圖2.5b。
2.4.3 BreakingNews數據集上的結果
盡管BreakingNews(Ramisa等,2018)提供的地理位置可能不準確(如第2.1節所述),我們仍在該數據集上進行了實驗以進行比較。BreakingNews包含33,376個訓練樣本、11,209個驗證樣本和10,580個測試樣本。Ramisa等(2018)將該任務視為回歸問題,其模型輸出地理坐標。在我們的實驗中,我們將該問題作為分類任務處理,以預測特定的城市、國家或大陸。因此,我們基于大圓距離(GCD)將地理坐標映射到MMG-NewsPhoto中最接近的城市、國家和大陸類別。表2.6展示了我們提出的模型與BreakingNews(縮寫為BN,Ramisa等,2018)方法的比較。比較基于平均和中位數的GCD值(Ramisa等,2018)。我們在兩種設置下評估了我們的方法。在零樣本設置中,模型在MMG-NewsPhoto上訓練并在BreakingNews上測試,無需進一步優化。在第二種配置中,我們在MMG-NewsPhoto上表現最佳的模型在BreakingNews上進行了微調和測試。B-Bd ⊕ B-Et模型在零樣本設置中具有最低的中位數值(470公里),優于VGG19 + Places + W2V矩陣(Ramisa等,2018)(880公里)??傮w而言,比較結果證實了將所提出的模型應用于未見樣本的可行性。在第二種設置(MMG → BN)中,CLIPi ⊕ B-Bd ⊕ B-Et在所有BreakingNews基線上表現最佳,中位數值降低了180-380公里。正如觀察到的,我們的模型在中位數指標上表現更好,即我們的模型對大多數樣本表現更優。
2.5 新聞的多模態核心位置估計
2.5.1 實驗設置
在本節中,我們報告了實驗結果,包括使用GCD評估指標(第2.4.1節)在MM-Locate-News數據集(第2.3.2節)上與最先進方法的比較。
對比系統 我們基于特征模態評估了所提出模型的不同組合。我們還與兩種流行的基于文本的方法(Cliff-clavin,D’Ignazio等,2014;Mordecai,Halterman,2018)和一種基于圖像的最先進模型(ISNs,Individual Scene Networks,Müller-Budack等,2018)進行了比較。
2.5.2 MM-Locate-News數據集上的結果
結果如表2.8所示,并在下文討論。
文本模型 對于較小的GCD閾值(特別是城市和區域),在T2中,B-Et ⊕ B-Bd組合提高了性能;而在T1和T3中,B-Et模型提供了最佳結果。單獨使用時,B-Et比B-Bd的影響更大,這表明命名實體及其頻率在預測新聞核心位置中起著至關重要的作用。雖然Mordecai和Cliff-clavin分別在T1和T3的國家和大陸級別上取得了最佳結果,但與我們的模型相比,這些基線在更細粒度級別上要么不適用(Mordecai),要么表現較差(Cliff-clavin)。
視覺模型 結果表明,CLIPi在所有測試變體中表現良好,在T1和T3上提供了最佳結果,并且與場景特征(Sc ⊕ CLIPi)和地點特征(Lo ⊕ Sc ⊕ CLIPi)的組合可以進一步提高結果。專門為照片地理定位訓練的ISNs在T2上表現優異,因為T2中的圖像描繪了查詢地點并提供了足夠的地理線索。與CLIPi不同,ISNs在其他測試變體上泛化能力較差。
多模態模型 與單模態模型相比,CLIPi與多模態信息的組合在所有測試數據變體和距離閾值上顯著提高了結果。盡管我們的視覺模型在T2中未能超越ISNs,但當與文本特征(Lo ⊕ Sc ⊕ B-Bd ⊕ B-Et)結合時,結果顯著改善。這些結果表明,多模態架構對新聞核心位置估計是有益的。
2.6 信息檢索
在本節中,我們簡要回顧了新聞檢索領域中提出的多種方法。討論的核心是強調新聞文章中地理信息的重要性。這些地理數據通常在定制和優化檢索過程中起著關鍵作用。此外,我們研究了從新聞照片和正文中提取的多模態信息如何增強檢索任務。
2.6.1 GeoWINE:基于地理位置的維基、圖像、新聞和事件檢索
提出的GeoWINE(Tahmasebzadeh等,2021)是一個基于地理位置的多模態檢索系統,包含五個模塊(見圖2.6)。給定一張圖像作為輸入,它首先應用最先進的地理位置估計模型,從Wikidata(Vrandecic和Kr?tzsch,2014)、EventRegistry4和OEKG(Gottschalk等,2021)中檢索數據。地理位置估計模型預測輸入圖像的坐標。第二個模塊在Wikidata上執行地理空間查詢,以檢索距離預測坐標不超過指定半徑的所有特定類型的實體。這里,實體類型和半徑作為系統的輸入。第三個模塊利用從地理位置估計和地點識別任務中派生的三種不同的圖像嵌入表示,以及用于圖像分類的ImageNet模型。這些嵌入用于對與輸入圖像最相似的實體進行排序。最后兩個模塊從EventRegistry和OEKG中檢索相似的新聞和事件。
評估 我們在Google Landmarks數據集(Weyand等,2020)上評估了GeoWINE,其在預測查詢圖像的實體標簽方面表現良好。GeoWINE通過簡潔直觀的用戶界面(UI)和交互式響應時間,使用戶能夠檢索與圖像相關的實體、新聞和事件。據我們所知,這是第一個公開且開源的基于地理位置的多模態檢索演示,支持多種數據源。為了促進可重復性和重用,所有材料均已公開7。
局限性 盡管GeoWINE在地標照片的地理定位方面取得了令人矚目的成果,但其在預測具有新聞特征的文檔中照片位置的效果可能有限。為了改進新聞領域的地理定位和檢索任務,地理位置估計模塊可以替換為結合視覺特征和文本信息的多模態方法,特別是針對新聞照片設計的模型,如第2.4節和第2.5節中提出的方法。
2.6.2 多模態新聞檢索
Tahmasebzadeh等(2020)提出了一種基于零樣本的新聞檢索系統,該系統使用了第2.5節中介紹的各種視覺和文本特征。檢索任務應用于一個包含英語和德語新聞文檔的數據集,分別有348和263個樣本,涵蓋多個領域。
評估 實驗結果表明,在英語新聞中,盡管視覺特征并不優于文本特征,但它們幫助文本特征在環境和健康等領域提高了整體性能(見表2.9中的T ⊕ V列)。另一方面,在政治和金融領域,文本特征優于視覺特征和組合特征。原因之一是這些領域的照片內容在地點、地理位置或物體方面并不顯著。另一個原因是與照片相比,文本內容更為豐富。由于這兩個領域涉及非常具體的事件,如大眾排放丑聞和希臘政府債務危機,文本中存在的特定實體使得實體重疊特征優于其他四種特征類型,包括所有視覺特征。
局限性 總體而言,實驗結果證實了視覺和文本特征的結合可以增強新聞檢索任務。然而,在使用高級視覺描述符來表征新聞圖像的視覺內容方面仍存在差距,特別是在金融和政治等領域。利用能夠識別照片中特定人物的面部檢測器可能會帶來益處,尤其是在這些新聞領域的圖像中經常出現重要人物的情況下。
2.7 局限性與未來工作
在本章中,我們介紹了用于提取新聞文檔地理位置的各種數據集和多模態方法(第2.5節和第2.4節)。此外,我們強調了地理定位在信息檢索中的潛力(第2.6.1節和第2.6.2節)。
視覺特征 我們使用了多種圖像描述符(如CLIPi、場景、地點和物體)來表示照片。所有這些描述符都為整張照片提供了一個特征向量作為通用表示。為了獲得更好的多模態表示,能夠將照片的各個方面與文本匹配,可以表示新聞照片中的個體概念,如人物、事件類型和物體。此外,可以從照片中提取結構化特征,例如表示事件參數關系的場景圖。
文本特征 在文本特征方面,我們依賴于spaCy(Honnibal等,2020)、Wikifier(Brank等,2018)和BERT(Devlin等,2019)嵌入來提取兩種類型的特征B-Bd和B-Et,每種類型作為一個單一向量。為了增強新聞正文的表示,可以包括外部知識,如知識圖譜信息(例如實體類型、事件參數、事件日期)。此外,來自圖像和/或文本的上下文信息(如事件參數和角色、新聞主題和情感)可能對新聞檢索非常有影響。
多語言性 目前,所提出的多模態地理位置估計模型僅限于英語。為了推廣到更多語言,需要在系統中集成命名實體識別工具以及相應語言的文本編碼器?;蛘撸梢约晌谋痉g工具,將任何語言的輸入文本轉換為英語。
應用 我們介紹了利用照片地理定位的信息檢索系統(Tahmasebzadeh等,2021,2020)。作為未來的方向,可以研究新聞文檔地理定位在新聞領域各種任務中的影響,例如假新聞檢測或基于位置需求的新聞推薦。另一方面,所提出的照片地理定位系統可以集成到OEKG(Gottschalk等,2021)中,例如通過相應的圖像擴展節點,或基于地理位置將視覺上相似的實體連接到節點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.