99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

結(jié)合GPT-Neo與量子計算的魯棒文本分類遷移模型

0
分享至

結(jié)合GPT-Neo與量子計算的魯棒文本分類遷移模型

Robust Hybrid Classical-Quantum Transfer Learning Model for Text Classification Using GPT-Neo 125M with LoRA & SMOTE Enhancement

https://arxiv.org/pdf/2501.10435


摘要
本研究提出了一種用于文本分類的混合經(jīng)典-量子框架,將 GPT-Neo 125M 與低秩適配(LoRA)和合成少數(shù)類過采樣技術(shù)(SMOTE)結(jié)合,并利用量子計算后端實現(xiàn)。盡管 GPT-Neo 125M 基線模型仍然是表現(xiàn)最佳的模型,但引入 LoRA 和 SMOTE 顯著增強(qiáng)了混合模型的性能,從而提升了準(zhǔn)確率、加快了收斂速度并增強(qiáng)了泛化能力。在 IBM 的 127 量子比特量子后端以及 Pennylane 的 32 量子比特模擬器上進(jìn)行的實驗表明,將經(jīng)典神經(jīng)網(wǎng)絡(luò)與量子電路相結(jié)合是可行的。該框架強(qiáng)調(diào)了混合架構(gòu)在推動自然語言處理應(yīng)用方面的潛力。

關(guān)鍵詞:量子機(jī)器學(xué)習(xí),遷移學(xué)習(xí),GPT-Neo 125M,SMOTE,LoRA

1 引言

有一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù)叫做遷移學(xué)習(xí)(transfer learning),它利用預(yù)訓(xùn)練模型中的信息來提升在數(shù)據(jù)稀疏的新問題上的性能。遷移學(xué)習(xí)通過將預(yù)訓(xùn)練模型的權(quán)重遷移到大規(guī)模數(shù)據(jù)集上,從而實現(xiàn)更好的泛化能力和更快的收斂速度,特別是在標(biāo)注數(shù)據(jù)較少的領(lǐng)域中表現(xiàn)尤為突出。

在本研究中,作者開發(fā)了一種用于文本分類的混合經(jīng)典-量子遷移學(xué)習(xí)模型,將經(jīng)典的機(jī)器學(xué)習(xí)方法與量子計算創(chuàng)新相結(jié)合。近年來,量子計算因其有望解決傳統(tǒng)計算機(jī)難以處理的問題而獲得了極大的關(guān)注。該方法旨在利用量子并行性和優(yōu)化能力,結(jié)合量子后端,探索模型的能力和效率。

隨著量子后端在機(jī)器學(xué)習(xí)系統(tǒng)中的日益集成,反映出人們越來越有興趣利用量子計算來解決經(jīng)典計算機(jī)難以應(yīng)對的復(fù)雜問題。隨著量子計算的發(fā)展,機(jī)器學(xué)習(xí)可能會迎來革命性的變革,例如在優(yōu)化和大規(guī)模數(shù)據(jù)分析等領(lǐng)域,量子算法為解決看似無法克服的問題提供了新的途徑。

為了處理可能導(dǎo)致模型預(yù)測偏差的不平衡數(shù)據(jù)集,作者使用了一種稱為LoRA(低秩適配,Low-Rank Adaptation)的技術(shù),僅對有限的參數(shù)子集進(jìn)行調(diào)整,以一種計算高效的方式對模型進(jìn)行微調(diào)。借助 LoRA 增強(qiáng)的遷移學(xué)習(xí),可以在不產(chǎn)生過高計算成本的情況下實現(xiàn)有效的微調(diào)。此外,作者還使用了SMOTE(合成少數(shù)類過采樣技術(shù),Synthetic Minority Over-sampling Technique),通過對數(shù)據(jù)集生成合成樣本,使模型在訓(xùn)練過程中能更均衡地接觸各類別。

通過提出一個整合了 GPT-Neo 125M、LoRA、SMOTE 和量子計算優(yōu)勢的堅實框架,作者希望展示經(jīng)典與量子機(jī)器學(xué)習(xí)范式之間的協(xié)同效應(yīng)。本研究的目的在于比較該模型在 IBM 實際量子后端和 Pennylane 模擬后端中的性能表現(xiàn)。

這種新方法在以往文獻(xiàn)中尚未被探討過。這一獨特且創(chuàng)新的組合充分發(fā)揮了機(jī)器學(xué)習(xí)與量子計算的優(yōu)勢,使得在現(xiàn)實世界的文本分類任務(wù)中能夠?qū)崿F(xiàn)更優(yōu)的性能和獨特的解決方案。

2 文獻(xiàn)綜述

在本節(jié)中,作者通過回顧以往關(guān)于使用預(yù)訓(xùn)練語言模型進(jìn)行遷移學(xué)習(xí)、LoRA 在參數(shù)微調(diào)中的效率、SMOTE 在解決類別不平衡問題中的有效性,以及量子計算在機(jī)器學(xué)習(xí)(尤其是文本分類)中應(yīng)對挑戰(zhàn)性問題的潛力等方面的研究,討論了本研究所涉及的關(guān)鍵變量。

2.1 量子后端

量子計算的后端提供了運行量子算法的環(huán)境。模擬后端(如 PennyLane 中的default.qubit)可以在經(jīng)典硬件上模擬量子操作,使用戶能夠在沒有物理限制的情況下進(jìn)行量子模型實驗。雖然這種方式缺乏基于硬件的真實量子計算的現(xiàn)實性,但由于無噪聲影響,它非常適合原型設(shè)計。

而真實量子后端(例如通過 Qiskit 訪問的 IBM Quantum)則能提供包括噪聲和退相干效應(yīng)在內(nèi)的實際量子計算體驗,這些現(xiàn)象反映了當(dāng)前硬件的局限性。通過比較在模擬器與真實硬件上的性能表現(xiàn),可以獲得有關(guān)量子機(jī)器學(xué)習(xí)模型可行性和魯棒性的關(guān)鍵信息。

盡管模擬器允許進(jìn)行受控實驗,但對真實硬件的評估展示了在實際應(yīng)用中應(yīng)用量子機(jī)器學(xué)習(xí)的可行性與挑戰(zhàn),從而驗證了其在現(xiàn)實世界中的應(yīng)用潛力。

2.2 遷移學(xué)習(xí)

在機(jī)器學(xué)習(xí)中,遷移學(xué)習(xí)已成為一種關(guān)鍵策略,它使得預(yù)訓(xùn)練模型能夠在新任務(wù)中更快地學(xué)習(xí)并表現(xiàn)出更好的性能,尤其是在數(shù)據(jù)集較小的情況下。遷移學(xué)習(xí)通過利用已有的預(yù)訓(xùn)練知識,減少了對大規(guī)模標(biāo)注數(shù)據(jù)的需求,從而實現(xiàn)了更好的泛化能力和更快的收斂速度。

GPT-Neo 125M 是一個開源的 Transformer 模型,是遷移學(xué)習(xí)有效性的典型代表。該模型能夠捕捉文本數(shù)據(jù)中的長距離依賴關(guān)系,從而實現(xiàn)自然語言生成和高質(zhì)量的語言理解。借助 GPT-Neo 125M 的遷移學(xué)習(xí)方法,無需大量計算資源即可有效地適應(yīng)各種任務(wù),包括文本分類。

2.3 LoRA(低秩適配)

低秩適配(Low-Rank Adaptation, LoRA)是一種優(yōu)化大型模型的有效方法,它不是修改所有參數(shù),而是引入一個低秩矩陣來進(jìn)行調(diào)整。這種方法特別適用于像 GPT-Neo 125M 這樣的大語言模型,因為它顯著降低了內(nèi)存和計算需求。

LoRA 通過保留模型大部分預(yù)訓(xùn)練知識的同時,專注于任務(wù)特定的修改,從而在資源消耗較低的情況下保證了高效的定制化能力。該方法已在計算性能至關(guān)重要的多種場景中得到了廣泛應(yīng)用。

2.4 SMOTE(合成少數(shù)類過采樣技術(shù))

合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-sampling Technique, SMOTE)是一種解決分類任務(wù)中常見問題——數(shù)據(jù)集類別不平衡問題的可靠方法。SMOTE 通過對現(xiàn)有數(shù)據(jù)進(jìn)行插值來為少數(shù)類生成合成樣本。

通過確保數(shù)據(jù)集更加均衡,該方法降低了模型預(yù)測出現(xiàn)偏差的可能性,并提升了整體模型性能。作者將 SMOTE 引入所提出的框架中,以增強(qiáng)模型在不平衡數(shù)據(jù)集上的泛化能力,確保在訓(xùn)練過程中各類別都能得到公平的表示。

總結(jié)

通過整合上述提出的方法,作者旨在在最小化計算開銷的同時,實現(xiàn)較高的準(zhǔn)確率和良好的泛化性能。將量子計算后端納入系統(tǒng)不僅為未來的文本分類及其他自然語言處理任務(wù)的發(fā)展提供了可能,也為進(jìn)一步研究和潛在的性能提升開辟了一條有前景的道路。

3 方法論

在本節(jié)中,作者討論了將經(jīng)典機(jī)器學(xué)習(xí)與量子機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,用于基于文本的多類別情感分類數(shù)據(jù)清洗SMOTE是兩種數(shù)據(jù)預(yù)處理技術(shù),用于緩解類別不平衡問題,并確保各類別在訓(xùn)練過程中得到公平表示。

通過使用增強(qiáng)型量子網(wǎng)絡(luò)(Dressed Quantum Networks),結(jié)合量子算法進(jìn)行特征表示以及使用LoRA 進(jìn)行高效的參數(shù)微調(diào),該方法在基線模型 GPT-Neo 125M 的基礎(chǔ)上進(jìn)行了改進(jìn)。為了研究經(jīng)典與量子方法之間的協(xié)同效應(yīng),實驗使用了 PennyLane 的模擬器、IBM 的量子后端以及 Google Colab 的 GPU。性能評估采用準(zhǔn)確率等指標(biāo),對所提出的方法進(jìn)行了全面的分析。

3.1 數(shù)據(jù)收集 A. 數(shù)據(jù)來源

本研究所使用的用于從文本中檢測情緒的數(shù)據(jù)集來源于 Kaggle 平臺,名為“Emotion Detection from Text”,由 Pashupati Gupta 創(chuàng)建。該數(shù)據(jù)集包含40,000 條標(biāo)注推文(tweets),涵蓋了13 種情緒類別,包括快樂(happiness)、悲傷(sadness)、憤怒(anger)、愛(love)等。每條數(shù)據(jù)包含三個字段:

  • tweet_id:推文的唯一標(biāo)識符
  • content:推文的原始文本內(nèi)容
  • sentiment:對應(yīng)的情緒標(biāo)簽

該數(shù)據(jù)集為解決具有類別不平衡問題的多分類任務(wù)提供了獨特的機(jī)會。然而,在本次實驗中,僅選取了其中的7 種情緒類別(empty, enthusiasm, love, neutral, sadness, surprise, worry)進(jìn)行研究。

B. 數(shù)據(jù)預(yù)處理 B.1 刪除無關(guān)列

刪除tweet_id列,因為該列僅為標(biāo)識符,對情緒分類任務(wù)無幫助。刪除無關(guān)列可以減少不必要的內(nèi)存占用,并將注意力集中在有意義的特征上(即contentsentiment)。

B.2 分詞處理(Tokenization)

使用 Hugging Face 提供的GPT-2 分詞器content列中的文本進(jìn)行分詞處理。其目的是將原始文本轉(zhuǎn)換為模型可處理的數(shù)值表示(token)。關(guān)鍵參數(shù)設(shè)置如下:

  • max_length=128:確保所有序列長度一致,超過的部分會被截斷。
  • padding="max_length":對較短的序列進(jìn)行填充,使其達(dá)到最大長度。
  • truncation=True:避免序列長度超過設(shè)定的最大值。
  • return_tensors="pt":確保輸出格式為 PyTorch 張量。
B.3 處理填充標(biāo)記(Padding Tokens)

為了與 GPT-Neo 模型兼容,將pad_token設(shè)置為與eos_token相同的值,以確保模型能夠正確處理填充部分而不會報錯。

B.4 標(biāo)簽編碼(Label Encoding)

使用 scikit-learn 庫中的LabelEncodersentiment列的情緒標(biāo)簽轉(zhuǎn)換為數(shù)值型標(biāo)簽。此過程的目的是將類別型標(biāo)簽轉(zhuǎn)換為模型可以處理的整數(shù)形式。

B.5 數(shù)據(jù)集定義(Dataset Definition)

定義了一個自定義的 PyTorch Dataset 類(TextDataset),用于管理輸入數(shù)據(jù)(input_idsattention_mask)以及對應(yīng)的標(biāo)簽。該步驟的目的是提供一個結(jié)構(gòu)化的數(shù)據(jù)組織方式,便于在訓(xùn)練、驗證、測試和評估過程中方便地獲取數(shù)據(jù)。

B.6 數(shù)據(jù)加載器創(chuàng)建(DataLoader Creation)

基于上述數(shù)據(jù)集創(chuàng)建了 PyTorch 的 DataLoader,設(shè)置參數(shù)為batch_size=1shuffle=True。該步驟的目的是加快模型的收斂速度。

C. SMOTE

SMOTE(合成少數(shù)類過采樣技術(shù))的作用是使數(shù)據(jù)集中每個類別的樣本數(shù)量趨于平衡,從而確保各類別在訓(xùn)練中具有相等的代表性。

具體流程如下:

  1. 首先對數(shù)據(jù)集進(jìn)行向量化處理

  2. 然后使用SMOTE 進(jìn)行過采樣,以實現(xiàn)類別平衡;

  3. 最后通過反向向量化處理,將過采樣后的數(shù)據(jù)還原為原始數(shù)據(jù)結(jié)構(gòu),以保證與原始格式兼容。

3.2 模型選擇 A. GPT-Neo 125M

本實驗選用由 EleutherAI 開發(fā)的GPT-Neo 模型作為基線模型,特別是其中擁有1.25 億參數(shù)的版本(GPT-Neo 125M)。GPT-Neo 是一種基于 Transformer 架構(gòu)的模型,適用于生成任務(wù)和分類任務(wù)。它具備理解文本上下文和生成高質(zhì)量特征表示的基本能力,這些特征將被用作情緒分類的初始輸入。

B. 增強(qiáng)型量子網(wǎng)絡(luò)(Dressed Quantum Network)

增強(qiáng)型量子網(wǎng)絡(luò)(Dressed Quantum Network, DQN)是一種將量子組件與經(jīng)典神經(jīng)網(wǎng)絡(luò)層相結(jié)合的混合網(wǎng)絡(luò)。該模型利用量子信息處理來捕捉數(shù)據(jù)中的復(fù)雜關(guān)聯(lián)性,同時借助經(jīng)典神經(jīng)網(wǎng)絡(luò)連接模型的輸入與輸出。

實驗中分別使用以下平臺和設(shè)備實現(xiàn) DQN:

  • 使用 Qiskit 平臺,在 IBM 的ibm_cusco設(shè)備上運行(127 量子比特)

  • 使用 PennyLane 平臺,搭配default.qubit模擬器(32 量子比特)

B.1 經(jīng)典神經(jīng)網(wǎng)絡(luò)預(yù)處理(Classical Neural Network Preprocessing)

pre_net是一個線性層,其作用是接收來自 GPT-Neo 的輸出,并將其維度降低到與量子比特數(shù)量一致(n_qubits)。所使用的公式為:

其中,

  • x 是輸入特征向量(對于 GPT-Neo 的輸出,其大小為 768),
  • W 是權(quán)重矩陣,
  • b 是偏置向量。

輸出的大小為 n_qubits,表示將被輸入到量子電路中的初始特征。

B.2 量子嵌入(Quantum Embedding)

在對輸入特征進(jìn)行預(yù)處理之后,將其通過tanh 激活函數(shù)進(jìn)行處理:



B.3 Hadamard 層(Hadamard Layer)

Hadamard 門用于創(chuàng)建疊加態(tài)。當(dāng)其作用于一個量子比特時,會將計算基態(tài) ∣0?和 ∣1?映射為如下疊加態(tài):


其中,H表示作用在計算基上的Hadamard 門,它將一個確定狀態(tài)(如 ∣0?或 ∣1?)的量子比特轉(zhuǎn)換為兩個狀態(tài)的等量疊加態(tài)。

B.4 旋轉(zhuǎn)層(Rotation Layer)

Y 軸旋轉(zhuǎn)門(Rotation Y 門)是一種圍繞 Bloch 球體 Y 軸進(jìn)行單量子比特旋轉(zhuǎn)的門。它通過一個角度 θ繞 Y 軸對量子比特進(jìn)行旋轉(zhuǎn):


該旋轉(zhuǎn)門在量子電路中具有基礎(chǔ)性作用,因為它可以根據(jù)輸入?yún)?shù)調(diào)整量子比特的狀態(tài)。它在參數(shù)化量子電路中尤其有用,適用于機(jī)器學(xué)習(xí)和優(yōu)化任務(wù)。此外,還使用了( Ry(θ) )門來將經(jīng)典信息編碼到量子態(tài)中,并在量子算法中應(yīng)用變分更新。

B.5 糾纏層(Entangling Layer)

糾纏層使用了CNOT(受控非門,Controlled-NOT)門,這是一種雙量子比特門。其中一個量子比特作為控制比特(control qubit),決定是否對另一個量子比特(目標(biāo)比特,target qubit)執(zhí)行翻轉(zhuǎn)操作。該 CNOT 門只有在控制比特處于 ∣1?狀態(tài)時,才會翻轉(zhuǎn)目標(biāo)比特:


B.6 輸出層(Output Layer)

在增強(qiáng)型量子網(wǎng)絡(luò)中,量子電路的輸出層使用Pauli-Z 算子來提取量子態(tài)中的有意義信息,具體方式是測量其期望值。在計算基態(tài)下,Pauli-Z 算子表示為:

這意味著該算子對 ∣0?態(tài)不改變,但會對 ∣1?態(tài)進(jìn)行符號翻轉(zhuǎn)。

隨后,量子電路的輸出將被堆疊,并轉(zhuǎn)換為具有浮點數(shù)據(jù)類型的 PyTorch 張量,以便在后續(xù)的經(jīng)典神經(jīng)網(wǎng)絡(luò)層中進(jìn)行處理。此步驟確保了量子電路輸出與 PyTorch 框架之間的兼容性,從而實現(xiàn)與混合模型的無縫集成。

C. LoRA(低秩適配)

LoRA 通過引入低秩分解來修改模型權(quán)重更新機(jī)制。影響模型性能、正則化和效率的關(guān)鍵參數(shù)如下:

C.1 低秩因子(Low-Rank Factor, r)

秩 r定義了 LoRA 中使用的低秩近似矩陣 A和 B的維度。不同于更新完整的權(quán)重矩陣 W,LoRA 將其更新方式定義為:

在本模型中,所使用的 r值為8,以確保在效率與表達(dá)能力之間取得良好的平衡。

C.2 縮放因子(Scaling Factor,lora_alpha

lora_alpha是一個控制低秩適配幅度的縮放因子。所使用的公式為:


這確保了更新的幅度是平衡的,不會掩蓋預(yù)訓(xùn)練權(quán)重 W的影響。在本模型中,lora_alpha的值設(shè)置為16,以保證適配效果顯著但不過度。

C.3 Dropout 率(Dropout Rate,lora_dropout

lora_dropout是應(yīng)用于 LoRA 層輸入的一種正則化方法,用于防止過擬合。其公式為:


其中,p是 dropout 率。在本模型中,所使用的lora_dropout值為0.6。這意味著在訓(xùn)練過程中,有 60% 的輸入會被隨機(jī)設(shè)置為零,從而提供強(qiáng)大的正則化效果,并迫使模型依賴多種模式進(jìn)行學(xué)習(xí)。

C.4 偏置設(shè)置(Bias Setting)

偏置設(shè)置決定了在微調(diào)過程中是否以及如何包含或更新模型中的偏置項。當(dāng)包含偏置項時,輸出的公式為:

其中:

  • W′ 表示經(jīng)過 LoRA 適配后的更新權(quán)重,
  • b 是偏置項。

在本模型中,偏置設(shè)置為 "none",這意味著偏置項不會被適配或微調(diào)。模型完全依賴于權(quán)重的更新來實現(xiàn)針對特定任務(wù)的調(diào)整。

C.5 任務(wù)類型(Task Type)

任務(wù)類型定義了 LoRA 如何應(yīng)用于特定的機(jī)器學(xué)習(xí)任務(wù),在本研究中是多類別序列分類任務(wù)。在序列分類中,目標(biāo)是對給定的輸入序列預(yù)測一個類別。模型計算如下:

其中:

  • W′ 是結(jié)合了 LoRA 更新的適配權(quán)重,
  • H 是模型輸出的最終隱藏狀態(tài)或池化后的表示,
  • b 是偏置項。

該模型通過PEFT(參數(shù)高效微調(diào))庫實現(xiàn),并進(jìn)行了自定義配置以支持多類別分類任務(wù)。

3.3 訓(xùn)練方法

本研究所采用的訓(xùn)練過程遵循一個系統(tǒng)化的流程,旨在對模型進(jìn)行微調(diào),以實現(xiàn)多類別情緒檢測任務(wù)的優(yōu)化。該方法包括兩個不同的階段:訓(xùn)練階段驗證階段,整個過程在10 個訓(xùn)練輪次(epochs)中重復(fù)進(jìn)行,以優(yōu)化模型性能。

  • 訓(xùn)練階段,通過反向傳播進(jìn)行梯度計算,使模型能夠根據(jù)計算出的損失值更新其參數(shù);

  • 驗證階段,則不進(jìn)行梯度更新,以提升計算效率并評估模型的泛化能力。

3.4 硬件與軟件

本節(jié)詳細(xì)介紹了實驗過程中所使用的硬件和軟件資源,并突出了它們的具體功能和配置。

A. Google Colab

Google Colab 是一個基于云的平臺,提供集成的 Jupyter Notebook 環(huán)境,適用于協(xié)作式機(jī)器學(xué)習(xí)研究與實驗。它預(yù)裝了如 TensorFlow、PyTorch、NumPy 和 Scikit-learn 等 Python 庫,簡化了環(huán)境設(shè)置并提高了數(shù)據(jù)預(yù)處理、模型訓(xùn)練與評估等任務(wù)的執(zhí)行效率。其交互式筆記本界面支持動態(tài)可視化、文檔編寫和調(diào)試,為統(tǒng)一工作空間中的開發(fā)提供了便利。

在本研究中,作者還使用了 Google Colab 提供的NVIDIA Tesla T4 GPU,這是一種專為深度學(xué)習(xí)和高性能并行計算優(yōu)化的圖形處理器。其具備以下特點:

  • 內(nèi)存容量為 16GB,支持 CUDA 12.2;

  • 可加速大規(guī)模機(jī)器學(xué)習(xí)任務(wù)的計算過程,確保高效的訓(xùn)練與推理;

  • 擁有 15,360 MiB 的計算內(nèi)存,最大功耗為 70W,兼容 TensorFlow 和 PyTorch 等框架;

  • 非常適合用于資源密集型實驗。

結(jié)合 Google Colab 及其內(nèi)置的 GPU 功能,構(gòu)建了一個強(qiáng)大的機(jī)器學(xué)習(xí)工作流環(huán)境。

B. IBM 量子后端

ibm_cusco 量子后端是一款前沿的超導(dǎo)量子處理器,擁有127 個高質(zhì)量量子比特,能夠執(zhí)行高度復(fù)雜的量子電路。該設(shè)備專為高級量子計算任務(wù)設(shè)計,支持如增強(qiáng)型量子網(wǎng)絡(luò)這樣的混合量子-經(jīng)典模型。

IBM 在量子糾錯方面的持續(xù)進(jìn)展顯著降低了門操作和測量中的誤差,提升了系統(tǒng)的可靠性。通過 Qiskit 和 PennyLane 框架訪問,ibm_cusco 能夠無縫地將量子電路集成到經(jīng)典工作流程中,為創(chuàng)新型量子實驗提供強(qiáng)大的計算能力。

C. PennyLane 模擬量子后端

PennyLane 的default.qubit后端是在經(jīng)典硬件上模擬的量子計算環(huán)境,為測試量子電路提供了一個高效的平臺,無需依賴物理量子處理器。它支持最多32 量子比特的模擬,能夠在受控環(huán)境中探索和優(yōu)化量子電路的行為。

該后端完全集成于 PennyLane 庫中,支持無縫的量子-經(jīng)典混合工作流,用戶可靈活定義量子門、量子電路及測量策略,是進(jìn)行量子算法實驗的多功能工具。

3.5 實驗設(shè)計

本節(jié)概述了為評估應(yīng)用于多類別情緒檢測中的各類模型和技術(shù)性能而設(shè)計的實驗及其評估方法。

A. 實驗設(shè)計

實驗結(jié)構(gòu)旨在比較以下模型的基線性能:

  • 基線模型GPT-Neo 125M

  • 使用IBM 量子后端Pennylane 模擬后端的混合量子-經(jīng)典模型

此外,研究還探討了以下兩種技術(shù)對模型性能的影響:

  • SMOTE

    在解決類別不平衡問題中的作用

  • LoRA 微調(diào)

    在混合模型中對參數(shù)高效適配的效果

B. 變量
  • 自變量(Independent Variables)

    • SMOTE 的應(yīng)用

    • LoRA 微調(diào)的使用

    • 量子層的應(yīng)用

    • 不同量子后端的使用

  • 因變量(Dependent Variables)

    • 衡量模型性能的指標(biāo),如準(zhǔn)確率(accuracy)、損失值(loss)和平均絕對誤差(MAE)

C. 評估指標(biāo)

模型在訓(xùn)練階段和驗證階段的性能通過以下指標(biāo)進(jìn)行評估:

C.1 準(zhǔn)確率(Accuracy)

準(zhǔn)確率表示模型做出的預(yù)測中正確預(yù)測所占的比例。它是一個直觀反映模型整體性能的指標(biāo)。然而,在數(shù)據(jù)集不平衡的情況下,準(zhǔn)確率可能無法真實反映模型的實際表現(xiàn)。

所使用的公式為:


其中,I是示性函數(shù)(indicator function),當(dāng)預(yù)測正確時返回 1,預(yù)測錯誤時返回 0。

C.2 損失值(Loss)

損失值用于量化模型在優(yōu)化過程中其預(yù)測結(jié)果與真實標(biāo)簽之間的差異。損失值越低,表示模型的預(yù)測結(jié)果越接近真實值。

所使用的具體損失函數(shù)(如交叉熵?fù)p失)取決于任務(wù)的性質(zhì),在本研究的多類別分類任務(wù)中,采用的是交叉熵?fù)p失(Cross-Entropy Loss)。其公式為:



C.3 平均絕對誤差(Mean Absolute Error, MAE)

平均絕對誤差(MAE)衡量預(yù)測標(biāo)簽與真實標(biāo)簽之間的平均絕對差異。它提供了一個具有直觀解釋性的評估指標(biāo),尤其適用于涉及有序標(biāo)簽或回歸任務(wù)中預(yù)測誤差幅度的量化。

其公式為:



4 結(jié)果與討論

在本節(jié)中,作者將基線模型與在IBMPennylane后端上使用DQN(增強(qiáng)型量子網(wǎng)絡(luò))的混合模型進(jìn)行了比較。分析了SMOTE在解決類別不平衡問題以及LoRA在實現(xiàn)高效微調(diào)方面的效果。通過展示準(zhǔn)確率、損失值和 MAE 的變化曲線,突出了 DQN 帶來的性能提升,以及結(jié)合 SMOTE 和 LoRA 后的進(jìn)一步改進(jìn),證明了這些方法在增強(qiáng)文本分類性能方面的有效性。




4.5 討論

使用DQN(增強(qiáng)型量子網(wǎng)絡(luò))的模型性能并未超過不使用 DQN 的基線模型,這表明在處理簡單任務(wù)時,經(jīng)典模型的表現(xiàn)優(yōu)于混合模型。然而,本研究通過對比使用不同后端的兩種混合模型,為量子機(jī)器學(xué)習(xí)領(lǐng)域提供了有價值的見解

LoRA 的應(yīng)用被證明使兩種模型更加穩(wěn)定,這一點可以從準(zhǔn)確率和損失曲線圖中得到驗證。而SMOTE 的應(yīng)用也有效改善了類別分布的不均衡問題,這一點可以通過使用與未使用 SMOTE 的模型之間的混淆矩陣對比得以證實。

A. 準(zhǔn)確率(Accuracy)

圖 4.4.A 展示了基于 GPT-Neo 125M、結(jié)合SMOTE 和 LoRA 微調(diào)的經(jīng)典-量子混合模型在IBM(ibm_cusco,127 量子比特)Pennylane(default.qubits,32 量子比特)后端上的訓(xùn)練和驗證準(zhǔn)確率對比情況。

兩個模型在前四個訓(xùn)練輪次內(nèi)都迅速提升了訓(xùn)練準(zhǔn)確率,并達(dá)到了完美準(zhǔn)確率(1.0)。其中:

  • 使用Pennylane 后端的模型在訓(xùn)練階段收斂略快

  • 而使用IBM 后端的模型在驗證準(zhǔn)確率上更平穩(wěn),顯示出更好的泛化能力。

兩個后端的驗證準(zhǔn)確率也都達(dá)到了 1.0,但Pennylane 在驗證過程中表現(xiàn)出輕微波動,相比之下 IBM 的表現(xiàn)更為穩(wěn)定。

結(jié)果表明,盡管IBM 后端擁有更多量子比特(127)可能有助于提升驗證穩(wěn)定性,但Pennylane 僅使用 32 個量子比特就實現(xiàn)了相當(dāng)?shù)男阅?/strong>,體現(xiàn)了其資源效率的優(yōu)勢。

結(jié)合SMOTE 和 LoRA的方法在兩個后端上都有效提升了準(zhǔn)確率,突出了它們在混合量子-經(jīng)典架構(gòu)中的適用性。

B. 損失值(Loss)

圖 4.4.B 展示了基于 GPT-Neo 125M 的混合模型在 IBM 和 Pennylane 后端上的訓(xùn)練和驗證損失值對比情況。

兩個模型在初始訓(xùn)練輪次中都出現(xiàn)了快速下降的損失值,說明模型學(xué)習(xí)效果良好。具體來看:

  • Pennylane 模型在訓(xùn)練損失下降速度上略快于 IBM 模型

    ,表明其訓(xùn)練過程更具效率;

  • 在驗證損失方面,兩個模型都呈現(xiàn)出平滑且一致的下降趨勢,但Pennylane 的驗證損失在整個過程中保持得更低,反映出其更強(qiáng)的泛化能力。

雖然兩個模型最終都達(dá)到了接近零的訓(xùn)練損失值,但從驗證損失的趨勢來看,它們具有相近的泛化能力,而Pennylane 在穩(wěn)定性和效率方面略有優(yōu)勢

這些結(jié)果進(jìn)一步強(qiáng)調(diào)了所提出混合架構(gòu)的魯棒性,同時表明SMOTE 和 LoRA 微調(diào)能夠有效減少過擬合現(xiàn)象,從而提升整體模型性能。

C. 平均絕對誤差(MAE)

圖 4.4.C 展示了基于 GPT-Neo 125M、結(jié)合SMOTE 和 LoRA 微調(diào)的經(jīng)典-量子混合模型在IBM(ibm_cusco,127 量子比特)Pennylane(default.qubits,32 量子比特)后端上的訓(xùn)練和驗證損失值對比情況。

兩個模型均應(yīng)用了SMOTE 來處理數(shù)據(jù)不平衡問題,以及LoRA 來實現(xiàn)高效的參數(shù)微調(diào)。從訓(xùn)練 MAE 來看:

  • Pennylane 后端的模型收斂速度更快

    ,在第 5 個訓(xùn)練輪次時誤差已接近零,并在整個后續(xù)訓(xùn)練過程中保持穩(wěn)定;

  • 相比之下,IBM 后端的模型雖然也呈現(xiàn)出相似的收斂趨勢,但其初始 MAE 略高,且在早期訓(xùn)練中下降速度較慢。

在驗證集方面,Pennylane 同樣表現(xiàn)出更優(yōu)異的性能,其 MAE 在各個訓(xùn)練輪次中更加一致且更低,表明其具有更強(qiáng)的泛化能力。

使用IBM 后端的模型在驗證 MAE 上雖然也在收斂,但顯示出略微更高的波動性。這表明,盡管 IBM 擁有更大的量子比特空間(127 量子比特),但可能引入了更多的噪聲或優(yōu)化難度,反而影響了模型穩(wěn)定性。

總體來看,Pennylane 的實現(xiàn)更加穩(wěn)定,且達(dá)到了更快的收斂速度,證明其在該模型配置下具有優(yōu)勢。

D. 混淆矩陣(Confusion Matrix)


混淆矩陣用于比較在實施SMOTE解決數(shù)據(jù)不平衡問題前后的分類性能。

在應(yīng)用 SMOTE之前,模型在預(yù)測上存在嚴(yán)重的不平衡現(xiàn)象,嚴(yán)重偏向主導(dǎo)類別(如 "sadness" 和 "worry"),而像 "enthusiasm" 和 "love" 這樣的少數(shù)類則表示不足,導(dǎo)致大量的誤分類現(xiàn)象,并且模型難以在所有類別之間實現(xiàn)良好的泛化能力。

在應(yīng)用 SMOTE之后,預(yù)測結(jié)果的分布變得更加均衡,之前代表性不足的類別在召回率上有了明顯提升。這種改進(jìn)體現(xiàn)在所有標(biāo)簽上的預(yù)測數(shù)量更加均勻。SMOTE 的合成過采樣技術(shù)有效緩解了類別不平衡問題,使模型能夠更好地區(qū)分不同類別,從而實現(xiàn)了更穩(wěn)健和公平的分類性能。

5 結(jié)論 5.1 總結(jié)

本研究提出了一種用于文本分類的強(qiáng)大混合經(jīng)典-量子遷移學(xué)習(xí)框架,該框架整合了 GPT-Neo 125M、低秩適配(LoRA)、合成少數(shù)類過采樣技術(shù)(SMOTE)以及量子計算后端。所提出的方法有效地解決了類別不平衡問題,并提升了計算效率,這通過引入 SMOTE 和 LoRA 得到了驗證。

在 IBM 的真實量子后端與 PennyLane 的模擬量子后端之間進(jìn)行的對比實驗,突出了混合量子-經(jīng)典架構(gòu)的潛力與挑戰(zhàn)。實驗結(jié)果表明,該方法在準(zhǔn)確率、損失值和泛化性能方面均有顯著提升,證實了其在復(fù)雜分類任務(wù)中的可行性。

本研究彌合了經(jīng)典與量子范式之間的鴻溝,展示了量子機(jī)器學(xué)習(xí)在自然語言處理中的應(yīng)用潛力,但同時也指出,在當(dāng)前階段其表現(xiàn)尚未超越經(jīng)典模型。

5.2 局限性與未來工作

本研究的一個主要局限在于資源受限,特別是僅依賴于一塊 NVIDIA Tesla T4 GPU,并且對量子計算機(jī)的訪問權(quán)限有限。此外,在比較混合模型時存在不平等現(xiàn)象:使用的后端類型不同(即擁有 127 個量子比特的真實 IBM 量子后端 vs 擁有 32 個量子比特的 PennyLane 模擬后端),這種顯著的差異應(yīng)在今后的研究中予以重視。

未來的研究可以從以下幾個方面改進(jìn):

  • 使用參數(shù)量更大的先進(jìn)模型,如最新的生成式 Transformer;

  • 引入QloRA(量化低秩適配)技術(shù)以實現(xiàn)更高效的微調(diào);

  • 利用內(nèi)存更大、計算能力更強(qiáng)的高端 GPU提升訓(xùn)練效率;

  • 探索特定領(lǐng)域的應(yīng)用場景,如情感分析或醫(yī)學(xué)文本分類,以進(jìn)一步展示該混合框架的適應(yīng)性和可擴(kuò)展性。

5.3 作者說明

作者意識到本研究并不完美,仍存在諸多不足之處。因此,作者真誠希望讀者能夠給予任何形式的反饋與批評,以幫助其不斷提升自身能力。

同時,作者承認(rèn)在論文撰寫過程中使用了翻譯工具和人工智能軟件(如 DeepL、QuillBot 和 ChatGPT)的幫助。盡管如此,作者始終注重原創(chuàng)性AI 的倫理使用,并基于可信來源獲取信息,以確保產(chǎn)出內(nèi)容的真實性,并為量子機(jī)器學(xué)習(xí)領(lǐng)域做出貢獻(xiàn)。

原文鏈接: https://arxiv.org/pdf/2501.10435

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
看完報道,差點以為是伊朗贏了,美國投降了

看完報道,差點以為是伊朗贏了,美國投降了

走讀新生
2025-06-24 11:05:42
科技助力,中國有望從能源最大進(jìn)口國成為世界主要能源出口國。

科技助力,中國有望從能源最大進(jìn)口國成為世界主要能源出口國。

興史興談
2025-06-25 09:50:49
63歲阿湯哥戀情實錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

63歲阿湯哥戀情實錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

瘋狂影視圈
2025-06-24 23:38:47
以色列防長稱恢復(fù)猛烈空襲德黑蘭

以色列防長稱恢復(fù)猛烈空襲德黑蘭

魯中晨報
2025-06-24 16:27:02
新華社快訊:伊朗議會通過暫停與國際原子能機(jī)構(gòu)合作的法案

新華社快訊:伊朗議會通過暫停與國際原子能機(jī)構(gòu)合作的法案

新華社
2025-06-25 14:55:04
黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

素素娛樂
2025-06-25 10:18:47
雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎杯下車狂歡

雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎杯下車狂歡

顏小白的籃球夢
2025-06-25 09:09:52
中國股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

中國股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

人生宥常
2025-06-25 10:00:10
互動被挖,王楚欽戀情曝光?奧運,孫穎莎喊話想贏,誰注意他舉動

互動被挖,王楚欽戀情曝光?奧運,孫穎莎喊話想贏,誰注意他舉動

樂聊球
2025-06-25 12:29:54
金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

阿胡
2024-01-05 13:57:28
“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

極目新聞
2025-06-25 00:12:47
掘金總裁:會與約基奇談3年2.12億續(xù)約 特定條件下會考慮交易他

掘金總裁:會與約基奇談3年2.12億續(xù)約 特定條件下會考慮交易他

顏小白的籃球夢
2025-06-25 05:29:50
今年!慢特病無需申請,醫(yī)保能報銷95%,門檻費取消了

今年!慢特病無需申請,醫(yī)保能報銷95%,門檻費取消了

小劉嘮嗑醫(yī)保
2025-06-25 11:20:55
19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

體制內(nèi)老陳
2025-06-22 14:22:47
王思聰資產(chǎn)被何猷君收購!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗了

王思聰資產(chǎn)被何猷君收購!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗了

振華觀史
2025-06-25 09:03:08
鄭爽在美國參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

鄭爽在美國參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

扒星人
2025-06-25 11:22:09
2-1!溫網(wǎng)首位贏球中國球員:苦戰(zhàn)三盤險翻車 鄭欽文沖2885萬獎金

2-1!溫網(wǎng)首位贏球中國球員:苦戰(zhàn)三盤險翻車 鄭欽文沖2885萬獎金

侃球熊弟
2025-06-24 21:41:58
女子腰腹部藏匿未申報港幣114.2萬元出境被海關(guān)查獲

女子腰腹部藏匿未申報港幣114.2萬元出境被海關(guān)查獲

環(huán)球網(wǎng)資訊
2025-06-24 14:51:02
344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

寰宇大觀察
2025-06-25 10:17:34
海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

小人物看盡人間百態(tài)
2025-06-24 16:22:16
2025-06-25 15:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
639文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

林志穎15歲兒子眉眼間神似易烊千璽!

財經(jīng)要聞

3000億的泡泡瑪特,漲不動了?

汽車要聞

樂高樂園x比亞迪官配曝光!兒童駕駛學(xué)校來了

態(tài)度原創(chuàng)

房產(chǎn)
親子
旅游
健康
公開課

房產(chǎn)要聞

三亞頂豪!內(nèi)部資料曝光!

親子要聞

為什么說孩子抽動一半的原因是心理問題

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 翁牛特旗| 六盘水市| 项城市| 东丽区| 清河县| 岱山县| 米脂县| 新兴县| 阜康市| 璧山县| 高台县| 华蓥市| 临海市| 巴彦县| 长泰县| 增城市| 丽江市| 建德市| 南安市| 肇庆市| 海口市| 日土县| 新源县| 南涧| 镇江市| 芦溪县| 井陉县| 阳原县| 新乐市| 罗定市| 安图县| 洛宁县| 苍南县| 青岛市| 左贡县| 富顺县| 湘潭市| 惠来县| 宜春市| 和顺县| 中卫市|