編者薦語
本文創新性地設計了一種基于大語言模型的多智能體協同立場檢測模型。該模型采用零樣本學習策略,通過多個語義感知智能體與對抗智能體的協作,實現文本的多維分析和辯證分析,準確理解和推理文本立場及原因。
摘 要
隨著網民參與互聯網話題討論規模的不斷增大,針對跨域的文本立場檢測需求日漸迫切。在跨域立場檢測過程中,基于傳統機器學習或單一智能體的立場檢測模型通常存在因標注數據少、涉及話題領域多、文本復雜等而導致準確率低的問題,因此設計了一種基于大語言模型多智能體協同的立場檢測模型。采用零樣本學習策略,通過多個語義感知智能體與對抗智能體的協作對文本進行多維分析和辯證分析,能夠理解和推理文本表達的立場和原因。通過實驗對比,該方法提升了跨領域文本立場分析的準確性,同時具有良好的泛化性。
論文結構
0 引 言
1 研究現狀
1.1 立場檢測
1.2 LLM
2 跨域立場檢測框架
2.1 任務描述
2.2 架構設計
3 立場檢測算法設計
3.1 模型設計與提示詞工程
3.2 框架設計
4 立場檢測實驗性能分析
4.1 數據集
4.2 實驗結果與分析
4.2.1 NLPCC2016 微博立場檢測任務
4.2.2 SemEval-2016 Task 6 英文立場檢測
5 討 論
5.1 可解釋性
5.2 可持續性
6 結 語
0 引 言
隨著社交媒體和其他在線平臺用戶量的急速增長,越來越多的民眾習慣于在互聯網中針對目標、事件或話題等內容發表具有個人立場傾向的觀點。因此,識別帖文中的用戶立場,尤其是涉及政治、社會等議題時的立場,顯得尤為重要,利用立場檢測模型掌握互聯網中民眾對于重要議題的立場,針對性地反制敵對勢力的輿論引導,關乎網絡輿情安全乃至國家安全。
傳統的立場檢測方法主要是基于特定領域的語料庫構建立場檢測模型,通過有監督學習的方式實現特定領域內的立場檢測任務,但該方法難以適應跨域話題立場檢測需求。此外,互聯網中的帖文具有表達方式簡潔、包含隱喻、反諷等特點,傳統的立場檢測模型很難綜合考慮文本中的修辭和外部知識特征,從而導致立場檢測的準確性較差。
大語言模型(Large Language Model,LLM)的出現為這一挑戰提供了強大的技術支持,然而,單一的 LLM 仍難以應對海量文本數據的多樣性和復雜性,特別是在跨領域和多主題的情境中。為了克服這一局限,提出基于 LLM 的多智能體(Agent)協同立場檢測模型,該模型采用零樣本學習(Zero-Shot Learning)的方式,通過多個專業化的智能體協作,利用多種文本分析維度和辯證方法的結合提高立場檢測的準確性和魯棒性,旨在提供一個創新的解決方案,以應對日益增長的跨領域立場檢測需求。
1 研究現狀
1.1 立場檢測
立場檢測是自然語言處理(Natural Language Processing,NLP)領域中的一項關鍵任務,用于識別文本作者對相關目標(包括實體、事件、觀點等)的立場,其中立場類別主要包括支持、中立、反對。早期的相關研究 通常將特征工程和傳統的機器學習相結合,構造立場檢測模型,例如,使用詞袋模型提取文本的詞頻、詞向量等信息,再利用樸素貝葉斯、支持向量機等分類模型識別文本對某一特定主題的立場態度。這類模型在小規模、特定領域的數據集上具有較好的立場檢測效果,但其未考慮文本的語義特征,以及目標與文本間的關系,檢測準確率較低。隨著對立場檢測研究的逐漸深入,針對多個細粒度目標進行立場檢測的需求顯現,采用長短期記憶網絡(Long Short-Term Memory,LSTM)、循環神經網絡(Recurrent Neural Network,RNN)等深度學習方法,特別是基于注意力機制的Transformer 等預訓練模型構建立場檢測模型成為普遍實踐,這些模型能夠挖掘文本的上下文語義特征以及文本和目標間的關系,可以提高對目標對象立場檢測的準確性。在此基礎上,為了提高特定領域背景下立場檢測的準確性,融入領域知識圖譜的檢測模型相繼出現,這類模型將通過文本語義信息與目標相關知識相融合的方式進行立場檢測。盡管如此,由于領域知識圖譜無法在新領域適用,可能導致現有立場檢測模型在特定領域上訓練數據時準確率表現良好,但在新領域上的準確率較低,且泛化能力較差。
1.2 LLM
LLM 在 NLP 領域內取得了顯著的進展,通過在大量文本數據上進行訓練以及基于人類反饋的強化學習,提高了對文本的深層語言特征的感知能力。GPT 系列模型通過單向 Transformer 解碼器和自回歸語言建模任務,展現出強大的文本生成和理解能力。由于 GPT3 之后出現的各 種 LLM, 例 如,Meta 的 LLaMa、OpenAI 的 GPT4、谷歌的 Gemini、清華的 ChatGLM、阿里云的千問 Qwen 等,具有更大的訓練數據規模、更多的參數量,更先進的訓練和優化方式,被應用于多個 NLP 評測任務中,并取得了領先的排名。
在實際應用中,由于輸入的社交文本具有用語隨意、缺乏語境、存在隱喻等問題,導致直接利用大模型得到的結果往往不算理想。設計基于不同提示(Prompt)的大模型多智能體,賦予其感知、記憶和推理的能力,經過多輪提問,將任務相關信息、外部知識信息、跨領域信息相結合,往往能夠得到更加準確的結果。例如,Hong 等人提出了大模型智能體 MetaGPT 模型,該模型能夠將復雜任務的編碼過程分解為多個智能體協作的簡單任務序列,從而允許具有人類領域專業知識的智能體驗證、匯總結果,以減少錯誤。但是該模型也只能依賴預定義的智能體處理任務,限制了多智能體協作對不同場景的適應性,亟須一種能夠根據不同任務自適應及促進多個智能體協同的新框架,以提高大模型智能體在面對多領域復雜檢測任務時的準確性和運行效率。
2跨域立場檢測框架
2.1 任務描述
針對跨域話題,設計一種基于 LLM 的多智能體架構,以便于完成針對跨域話題的細粒度立場分析任務。根據輸入文本和用戶設定的提示,設計不同的生成式大模型,通過智能體協同工作,提升針對跨域話題的立場檢測模型準確性。
定義跨域話題立場檢測任務數據集D=(D1,D2,…,Dn), 共 有 n 條 數 據,Di =(ti ,ci ,si ),i=1,2,…,n,其中 ti 為第 i 個話題目標(Topic),ci 為第 i 個文本內容(Content),si 為 ci 針對 ti的立場類別(Stance),包括支持、中立、反對。
結合基于 LLM 的多智能體設計,深度感知、拆解和評估分析立場檢測數據集,針對跨領域話題,實現零樣本立場檢測。零樣本立場檢測適用于數據標注資源有限的情況,這種方法的性能受限于輸入描述的質量、預訓練模型的泛化能力以及相似性度量方法的準確性。由于 LLM 在預訓練時學到了豐富的領域知識,并且多智能體協同能夠進一步提升大模型對跨域立場檢測任務的理解能力,因此本文設計了一種基于 LLM 智能體的跨域立場檢測算法,以提升跨域立場零樣本分類任務的準確性,并對立場檢測結果提供相應的解釋。
2.2 架構設計
立場檢測任務是識別和解釋說話者對某個話題或目標的態度和立場,需要綜合考慮多個層面的分析,包括語義語法、隱藏觀點和領域知識等。首先,針對這 3 個方面構建了語義語法分析智能體、隱藏觀點挖掘智能體、領域知識智能體 3 個感知智能體(Perception Agents)。其中,語義語法分析智能體關注文本的字面含義和結構,包括詞義、句法和語言模式、情感色彩等,對于理解立場至關重要;隱藏觀點挖掘智能體涉及識別文本中隱含的、非直接表達的立場和意圖,包括諷刺、雙關、隱喻等,需要利用上下文信息推斷隱式立場;領域知識智能體結合話題或目標的領域背景知識、專業術語解釋等,考慮具體場景對立場表達的影響。其次,綜合多角度理解文本語義,生成初立場(Initial Stance)。最后,構建對抗智能體(AdversarialAgent),辯證分析感知智能體的初立場結果,從而得到立場結果和形成原因。
基于 LLM 多智能體的跨域立場檢測架構,采用對話式多智能體框架,流程分為 2 個階段,如圖 1 所示。階段 1 為任務和提示詞的設計階段,該階段基于 LLM 構建多個感知智能體,通過從語義語法、隱藏觀點、領域知識 3 個方面深度分析輸入文本和話題內容,得到文本對話題對象的初立場。階段 2 為數據生成與評估階段,該階段基于 LLM 構建對抗智能體,假設對抗智能體持相反立場輸出相關論點,通過對初立場進行逆向分析,最終綜合正 / 逆向分析結論得到立場結果,以及對應立場的原因解釋。
圖 1 基于 LLM-Agents 的跨域立場檢測架構
基于 LLM 的多智能體跨域立場檢測模型,利用了零樣本學習框架,允許智能體在沒有相關領域標注數據的情況下進行跨域立場預測。每個智能體都專注于特定的分析維度,如語義情感、論點結構和話題相關性等,并通過生成式方法理解和推理文本的立場。此外,智能體間的協作機制確保了在面對跨域話題時,模型能夠綜合不同視角的信息,做出更全面的判斷。
3 立場檢測算法設計
在自然語言理解和生成任務中,結構化設計提示詞工程對于創建 LLM 的訓練和測試數據集至關重要,能夠引導 LLM 執行特定的任務或生成特定的輸出,充分發揮大模型在語言理解方面的能力,同時規避模型本身的局限性。
3.1 模型設計與提示詞工程
針對提出的基于 LLM 的多智能體跨域立場檢測模型,2 個階段任務的輸入 / 輸出分別如下:
感知階段(階段 1):
輸入:話題、文本。
輸出:語義理解、隱含觀點、背景知識、初立場。
對抗階段(階段 2):
輸入:話題、文本、感知階段輸出。
輸出:立場、原因解釋。
基于 LLM 的多智能體跨域立場檢測模型 2 個階段的分析過程如圖 2 所示。下面是部分 LLM 智能體的中英文提示詞設計示例,輸入中包含的 {topic}、{text} 分別對應立場檢測數據集中的話題和文本數據。
圖 2 模型 2 個階段分析過程
### 從語義語法的角度分析帖文 {text} 針對話題 {topic} 的立場。
###Consider the implicit meanings to determinethe stance expressed in the tweet{text} towards thetarget{topic}.
### 你是一個反方辯手,假設對話題 {topic}的立場是 {the opposite side of initial stance},你會持什么論點?
3.2 框架設計
基 于 AutoGen 框架使用多智能體對話的方 式 解 決 立 場 辯 證 識 別, 其 可 以 創 建、 組 合代 理 并 實 現 代 理 間 協 作 的 工 作 流 程。首 先,對 LLM 智能體模型進行配置,設置和使用 2 個 ConversableAgent,將 prompt 封裝成 system_message 來賦予智能體角色信息——感知智能體和對抗智能體;其次,設置對話結束參數。基于感知智能體和對抗智能體的立場檢測流程如圖 3 所示。
圖 3 基于 LLM-Agents 的立場檢測流程
通過設計不同的感知智能體和對抗智能體的提示詞,基于 LLM 多智能體協同的 2 個階段立場檢測框架能夠提供強大的立場檢測與原因分析功能,以便于深入理解和推理文本數據中的立場和觀點。
4 立場檢測實驗性能分析
4.1 數據集
本文采用自然語言處理與中文計算會議(NLPCC2016)的中文微博立場檢測任務和 SemEval-2016 Task 6 英文立場檢測 2 個公開數據集來驗證跨域立場檢測模型的有效性。
4.2 實驗結果與分析
本文采用阿里云研發的 140 億參數規模的大模型——千問(qwen-14b)作為基座模型,設計基于大模型智能體的跨域立場檢測模型,并將其命名為 qwen-14b-Agent。qwen-14b 模型是基于Transformer 架構,在超大規模數據上進行訓練得到的預訓練語言模型,在中文理解(C-Eval)、英文理解(MMLU)等評測任務上具有較好的實驗效果。
立場檢測任務的主要評價指標有準確率(Accuracy)、精確率(Percision)、召回率(Recall)和F1 值等。準確率是指分類正確的樣本占總樣本的比例,精確率是指分類正確的正樣本占預測為正樣本的比例,召回率是指分類正確的正樣本占真正的正樣本的比例。F1 值綜合了精確率和召回率,通過調和平均數的方式,來衡量分類模型的精確度。F1 值計算過程如下:
采用 Favg 值作為任務的最終評價指標,Favg值為支持立場值 Ffav 與反對立場值 Fagt 的算術平均值:
4.2.1 NLPCC2016 微博立場檢測任務
NLPCC2016 微博立場檢測任務包含 5 個話題目標:iPhone SE(簡寫為 iPh)、春節放鞭炮(簡寫為 SF)、俄羅斯在敘利亞的反恐行動(簡寫為 RS)、開放二胎(簡寫為 OSC)、深圳禁摩限電(簡寫為 FM)。立場檢測任務不同于傳統的方面級情感分析,其是針對具體目標主題的分析,給定的目標也可能不出現在文本中,具有一定的挑戰性。NLPCC2016 微博立場檢測任務訓練集數據量分布如表 1 所示,表格中的數據代表該話題下該立場的數據條數。
表 1 NLPCC2016 訓練集數據量分布
針對表 1 數據集,對比白靜等人提出的基于注意力 BiLSTM-CNN-ATT 中文微博立場檢測模型,王安君等人提出的基于 Bert-Condition-CNN 的中文微博立場檢測模型,本文提出的 qwen-14b-Agent 模型在跨域話題立場檢測任務下效果顯著。實驗結果對比如表 2 所示,其中,qwen-14b 是指基于單個大模型直接設計 prompt 的立場檢測方式。
表 2 NLPCC2016 微博立場數據集跨域實驗結果
由于數據集話題涉及的領域跨度較大,傳統機器學習模型算法通常不具備泛化性,為了提高立場檢測的準確率,針對跨域多話題的立場檢測往往采用每個話題單獨訓練的方式。然而,LLM 由于其具有豐富的背景知識,在跨域立場檢測任務上具有良好的泛化性。對比每個話題單獨訓練的域內(In-domain)立場分析模型 LSTM、TAN、ATA,與跨域零樣本 qwen-14b-Agent 立場分析模型F1 值結果對比如表 3 所示。
表 3 立場分析模型對比實驗 F1 值結果
TAN 立場檢測模型能夠聯合建模話題與文本,通過文本話題增強實現立場檢測準確率的提升。ATA 立場檢測模型能夠通過 2 個階段的注意力機制,將話題目標與微博文本有 效 地 結 合。由 表 3 可 知, 對 比 其 他 域 內 立場檢測模型,本文提出的跨域立場檢測模型qwen-14b-Agent 在多個話題下 F1 值領先,并且泛化性能強。
基 于 qwen-14b 與 qwen-14b-Agent 在 微 博立場檢測任務中的對比如圖 4 所示。
從圖 4 可以看出,經過基于 LLM 智能體協作交互、辯證分析的立場檢測模型,相較于基座大模型 qwen-14b 來說,準確率在話題范圍得到全面提升。
圖 4 跨域 LLM 立場檢測對比
4.2.2 SemEval-2016 Task 6 英文立場檢測
SemEval-2016 Task 6 數據集是一個包含來自不同領域的 6 個特定目標的英文數據集,包括唐納德·特朗普(Donald Trump,DT)、希拉里·克林頓(Hillary Clinton,HC)、女權運動(FeministMovement,FM)、 墮 胎 合 法 化(Legalization ofAbortion,LA)、無神論(Atheism,A)和氣候變化(Climate Change,CC)。每個領域話題都由 3 個立場標簽之一:贊成、反對或中立組成。
SemEval-2016 Task 6 立場數據量分布如表 4所示。
表 4 SemEval-2016 Task 6 立場數據量分布
通過與 TOAD、PT-HCL、Bert-TGA-Net、Bert-GCN、基于大語言模型的基線 GPT-3.5 等模型的實驗結果進行對比,可以看出基于 LLM 多智能體的 qwen-14b-Agent 在大部分話題取得的分數最高,并且模型在不同領域話題下的分數差異并無懸殊,該模型表現出優異的泛化性和魯棒性。各模型在 SemEval-2016 Task 6 上立場檢測的準確率結果對比如圖 5 所示。
圖 5 SemEval-2016 Task 6 立場檢測對比
實驗結果表明,基于 LLM 多智能體協同的立場檢測模型在多個跨域數據集上的性能表現均較為穩定,且優于現有模型,在跨域立場檢測任務中其具有較強的泛化性和魯棒性。本研究不僅為立場檢測提供了一種新的解決方案,也為如何利用 LLM 智能體解決復雜的 NLP 任務提供了有益參考。未來的工作將集中在進一步優化模型結構、提高智能體間的協作效率,以及探索更多的跨域話題和應用場景方面。
5 討 論
5.1 可解釋性
LLM 在許多分類與檢測任務上都有不俗的表現,然而,大模型的復雜性和黑盒特性給模型計算的可解釋性帶來了挑戰。但是,在本任務中,由于 LLM 具有良好的語義理解和文本生成能力,可以根據立場檢測任務的需求分析文本數據中隱含的立場、觀點,并提供立場檢測的依據,提升了立場檢測結果的可解釋性,能夠增強用戶對模型決策的信任度。
盡管如此,大模型也并非“萬能良藥”,在理解深度方面,雖然 LLM 能夠生成看似合理的文本,但其對人類情感和社會文化背景的理解仍有限制。在生成偏差方面,大模型仍可能生成帶有偏見或不恰當的內容,一般還需要通過后續過濾處理或者重新訓練來避免該問題出現。
5.2 可持續性
LLM 雖然在自然語言處理領域取得了顯著成就,但其開發和運行也面臨著資源、時間和成本方面的挑戰。
在跨域多話題立場分析任務方面,雖然傳統基于有監督學習的機器學習模型比本文提出的基于 LLM Agent 跨域立場檢測模型,在準確性、泛化性等方面不夠理想,但是綜合考慮到時間成本、資源成本等因素,也不失為一種優質的方案。因此,基于 LLM 的立場分析任務在計算效率方面還有進一步持續優化的需求。
6 結 語
本文提出了基于 LLM 多智能體的立場檢測模型,通過構建多個感知智能體對上下文信息、領域知識、隱式表達等方面的細粒度語義感知,結合對抗智能體辯證分析民眾的立場,得到立場結果與相關解釋,形成一個全面的分析結果。該模型有效地克服了傳統模型在處理多樣化文本數據時的局限性,具備高精度的立場檢測能力,為識別和追蹤民眾立場變化、社情掌握與決策支持提供基礎。然而,由于大模型智能體在能效、時間成本上的局限性,立場檢測模型仍有研究與提升的空間。
引用格式
引用格式:尚鈺 , 劉錕 , 韓霄龍 . 基于大語言模型智能體的跨域立場檢測 [J]. 信息安全與通信保密 ,2024(8):62-71.
作者簡介
- 尚 鈺(1993—),女,博士,工程師,主要研究方向為人工智能、自然語言處理;
- 劉 錕(1996—),男,碩士,主要研究方向為自然語言處理;
- 韓霄龍(2000—),男,碩士研究生,主要研究方向為自然語言處理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.