結(jié)合GPT-Neo與量子計算的魯棒文本分類遷移模型
Robust Hybrid Classical-Quantum Transfer Learning Model for Text Classification Using GPT-Neo 125M with LoRA & SMOTE Enhancement
https://arxiv.org/pdf/2501.10435
摘要
本研究提出了一種用于文本分類的混合經(jīng)典-量子框架,將 GPT-Neo 125M 與低秩適配(LoRA)和合成少數(shù)類過采樣技術(shù)(SMOTE)結(jié)合,并利用量子計算后端實現(xiàn)。盡管 GPT-Neo 125M 基線模型仍然是表現(xiàn)最佳的模型,但引入 LoRA 和 SMOTE 顯著增強(qiáng)了混合模型的性能,從而提升了準(zhǔn)確率、加快了收斂速度并增強(qiáng)了泛化能力。在 IBM 的 127 量子比特量子后端以及 Pennylane 的 32 量子比特模擬器上進(jìn)行的實驗表明,將經(jīng)典神經(jīng)網(wǎng)絡(luò)與量子電路相結(jié)合是可行的。該框架強(qiáng)調(diào)了混合架構(gòu)在推動自然語言處理應(yīng)用方面的潛力。
關(guān)鍵詞:量子機(jī)器學(xué)習(xí),遷移學(xué)習(xí),GPT-Neo 125M,SMOTE,LoRA
1 引言
有一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù)叫做遷移學(xué)習(xí)(transfer learning),它利用預(yù)訓(xùn)練模型中的信息來提升在數(shù)據(jù)稀疏的新問題上的性能。遷移學(xué)習(xí)通過將預(yù)訓(xùn)練模型的權(quán)重遷移到大規(guī)模數(shù)據(jù)集上,從而實現(xiàn)更好的泛化能力和更快的收斂速度,特別是在標(biāo)注數(shù)據(jù)較少的領(lǐng)域中表現(xiàn)尤為突出。
在本研究中,作者開發(fā)了一種用于文本分類的混合經(jīng)典-量子遷移學(xué)習(xí)模型,將經(jīng)典的機(jī)器學(xué)習(xí)方法與量子計算創(chuàng)新相結(jié)合。近年來,量子計算因其有望解決傳統(tǒng)計算機(jī)難以處理的問題而獲得了極大的關(guān)注。該方法旨在利用量子并行性和優(yōu)化能力,結(jié)合量子后端,探索模型的能力和效率。
隨著量子后端在機(jī)器學(xué)習(xí)系統(tǒng)中的日益集成,反映出人們越來越有興趣利用量子計算來解決經(jīng)典計算機(jī)難以應(yīng)對的復(fù)雜問題。隨著量子計算的發(fā)展,機(jī)器學(xué)習(xí)可能會迎來革命性的變革,例如在優(yōu)化和大規(guī)模數(shù)據(jù)分析等領(lǐng)域,量子算法為解決看似無法克服的問題提供了新的途徑。
為了處理可能導(dǎo)致模型預(yù)測偏差的不平衡數(shù)據(jù)集,作者使用了一種稱為LoRA(低秩適配,Low-Rank Adaptation)的技術(shù),僅對有限的參數(shù)子集進(jìn)行調(diào)整,以一種計算高效的方式對模型進(jìn)行微調(diào)。借助 LoRA 增強(qiáng)的遷移學(xué)習(xí),可以在不產(chǎn)生過高計算成本的情況下實現(xiàn)有效的微調(diào)。此外,作者還使用了SMOTE(合成少數(shù)類過采樣技術(shù),Synthetic Minority Over-sampling Technique),通過對數(shù)據(jù)集生成合成樣本,使模型在訓(xùn)練過程中能更均衡地接觸各類別。
通過提出一個整合了 GPT-Neo 125M、LoRA、SMOTE 和量子計算優(yōu)勢的堅實框架,作者希望展示經(jīng)典與量子機(jī)器學(xué)習(xí)范式之間的協(xié)同效應(yīng)。本研究的目的在于比較該模型在 IBM 實際量子后端和 Pennylane 模擬后端中的性能表現(xiàn)。
這種新方法在以往文獻(xiàn)中尚未被探討過。這一獨特且創(chuàng)新的組合充分發(fā)揮了機(jī)器學(xué)習(xí)與量子計算的優(yōu)勢,使得在現(xiàn)實世界的文本分類任務(wù)中能夠?qū)崿F(xiàn)更優(yōu)的性能和獨特的解決方案。
2 文獻(xiàn)綜述
在本節(jié)中,作者通過回顧以往關(guān)于使用預(yù)訓(xùn)練語言模型進(jìn)行遷移學(xué)習(xí)、LoRA 在參數(shù)微調(diào)中的效率、SMOTE 在解決類別不平衡問題中的有效性,以及量子計算在機(jī)器學(xué)習(xí)(尤其是文本分類)中應(yīng)對挑戰(zhàn)性問題的潛力等方面的研究,討論了本研究所涉及的關(guān)鍵變量。
2.1 量子后端
量子計算的后端提供了運行量子算法的環(huán)境。模擬后端(如 PennyLane 中的default.qubit
)可以在經(jīng)典硬件上模擬量子操作,使用戶能夠在沒有物理限制的情況下進(jìn)行量子模型實驗。雖然這種方式缺乏基于硬件的真實量子計算的現(xiàn)實性,但由于無噪聲影響,它非常適合原型設(shè)計。
而真實量子后端(例如通過 Qiskit 訪問的 IBM Quantum)則能提供包括噪聲和退相干效應(yīng)在內(nèi)的實際量子計算體驗,這些現(xiàn)象反映了當(dāng)前硬件的局限性。通過比較在模擬器與真實硬件上的性能表現(xiàn),可以獲得有關(guān)量子機(jī)器學(xué)習(xí)模型可行性和魯棒性的關(guān)鍵信息。
盡管模擬器允許進(jìn)行受控實驗,但對真實硬件的評估展示了在實際應(yīng)用中應(yīng)用量子機(jī)器學(xué)習(xí)的可行性與挑戰(zhàn),從而驗證了其在現(xiàn)實世界中的應(yīng)用潛力。
2.2 遷移學(xué)習(xí)
在機(jī)器學(xué)習(xí)中,遷移學(xué)習(xí)已成為一種關(guān)鍵策略,它使得預(yù)訓(xùn)練模型能夠在新任務(wù)中更快地學(xué)習(xí)并表現(xiàn)出更好的性能,尤其是在數(shù)據(jù)集較小的情況下。遷移學(xué)習(xí)通過利用已有的預(yù)訓(xùn)練知識,減少了對大規(guī)模標(biāo)注數(shù)據(jù)的需求,從而實現(xiàn)了更好的泛化能力和更快的收斂速度。
GPT-Neo 125M 是一個開源的 Transformer 模型,是遷移學(xué)習(xí)有效性的典型代表。該模型能夠捕捉文本數(shù)據(jù)中的長距離依賴關(guān)系,從而實現(xiàn)自然語言生成和高質(zhì)量的語言理解。借助 GPT-Neo 125M 的遷移學(xué)習(xí)方法,無需大量計算資源即可有效地適應(yīng)各種任務(wù),包括文本分類。
2.3 LoRA(低秩適配)
低秩適配(Low-Rank Adaptation, LoRA)是一種優(yōu)化大型模型的有效方法,它不是修改所有參數(shù),而是引入一個低秩矩陣來進(jìn)行調(diào)整。這種方法特別適用于像 GPT-Neo 125M 這樣的大語言模型,因為它顯著降低了內(nèi)存和計算需求。
LoRA 通過保留模型大部分預(yù)訓(xùn)練知識的同時,專注于任務(wù)特定的修改,從而在資源消耗較低的情況下保證了高效的定制化能力。該方法已在計算性能至關(guān)重要的多種場景中得到了廣泛應(yīng)用。
2.4 SMOTE(合成少數(shù)類過采樣技術(shù))
合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-sampling Technique, SMOTE)是一種解決分類任務(wù)中常見問題——數(shù)據(jù)集類別不平衡問題的可靠方法。SMOTE 通過對現(xiàn)有數(shù)據(jù)進(jìn)行插值來為少數(shù)類生成合成樣本。
通過確保數(shù)據(jù)集更加均衡,該方法降低了模型預(yù)測出現(xiàn)偏差的可能性,并提升了整體模型性能。作者將 SMOTE 引入所提出的框架中,以增強(qiáng)模型在不平衡數(shù)據(jù)集上的泛化能力,確保在訓(xùn)練過程中各類別都能得到公平的表示。
總結(jié)
通過整合上述提出的方法,作者旨在在最小化計算開銷的同時,實現(xiàn)較高的準(zhǔn)確率和良好的泛化性能。將量子計算后端納入系統(tǒng)不僅為未來的文本分類及其他自然語言處理任務(wù)的發(fā)展提供了可能,也為進(jìn)一步研究和潛在的性能提升開辟了一條有前景的道路。
3 方法論
在本節(jié)中,作者討論了將經(jīng)典機(jī)器學(xué)習(xí)與量子機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,用于基于文本的多類別情感分類。數(shù)據(jù)清洗和SMOTE是兩種數(shù)據(jù)預(yù)處理技術(shù),用于緩解類別不平衡問題,并確保各類別在訓(xùn)練過程中得到公平表示。
通過使用增強(qiáng)型量子網(wǎng)絡(luò)(Dressed Quantum Networks),結(jié)合量子算法進(jìn)行特征表示以及使用LoRA 進(jìn)行高效的參數(shù)微調(diào),該方法在基線模型 GPT-Neo 125M 的基礎(chǔ)上進(jìn)行了改進(jìn)。為了研究經(jīng)典與量子方法之間的協(xié)同效應(yīng),實驗使用了 PennyLane 的模擬器、IBM 的量子后端以及 Google Colab 的 GPU。性能評估采用準(zhǔn)確率等指標(biāo),對所提出的方法進(jìn)行了全面的分析。
3.1 數(shù)據(jù)收集 A. 數(shù)據(jù)來源
本研究所使用的用于從文本中檢測情緒的數(shù)據(jù)集來源于 Kaggle 平臺,名為“Emotion Detection from Text”,由 Pashupati Gupta 創(chuàng)建。該數(shù)據(jù)集包含40,000 條標(biāo)注推文(tweets),涵蓋了13 種情緒類別,包括快樂(happiness)、悲傷(sadness)、憤怒(anger)、愛(love)等。每條數(shù)據(jù)包含三個字段:
tweet_id
:推文的唯一標(biāo)識符content
:推文的原始文本內(nèi)容sentiment
:對應(yīng)的情緒標(biāo)簽
該數(shù)據(jù)集為解決具有類別不平衡問題的多分類任務(wù)提供了獨特的機(jī)會。然而,在本次實驗中,僅選取了其中的7 種情緒類別(empty, enthusiasm, love, neutral, sadness, surprise, worry)進(jìn)行研究。
B. 數(shù)據(jù)預(yù)處理 B.1 刪除無關(guān)列
刪除tweet_id
列,因為該列僅為標(biāo)識符,對情緒分類任務(wù)無幫助。刪除無關(guān)列可以減少不必要的內(nèi)存占用,并將注意力集中在有意義的特征上(即content
和sentiment
)。
B.2 分詞處理(Tokenization)
使用 Hugging Face 提供的GPT-2 分詞器對content
列中的文本進(jìn)行分詞處理。其目的是將原始文本轉(zhuǎn)換為模型可處理的數(shù)值表示(token)。關(guān)鍵參數(shù)設(shè)置如下:
max_length=128
:確保所有序列長度一致,超過的部分會被截斷。padding="max_length"
:對較短的序列進(jìn)行填充,使其達(dá)到最大長度。truncation=True
:避免序列長度超過設(shè)定的最大值。return_tensors="pt"
:確保輸出格式為 PyTorch 張量。
為了與 GPT-Neo 模型兼容,將pad_token
設(shè)置為與eos_token
相同的值,以確保模型能夠正確處理填充部分而不會報錯。
B.4 標(biāo)簽編碼(Label Encoding)
使用 scikit-learn 庫中的LabelEncoder將sentiment
列的情緒標(biāo)簽轉(zhuǎn)換為數(shù)值型標(biāo)簽。此過程的目的是將類別型標(biāo)簽轉(zhuǎn)換為模型可以處理的整數(shù)形式。
B.5 數(shù)據(jù)集定義(Dataset Definition)
定義了一個自定義的 PyTorch Dataset 類(TextDataset
),用于管理輸入數(shù)據(jù)(input_ids
和attention_mask
)以及對應(yīng)的標(biāo)簽。該步驟的目的是提供一個結(jié)構(gòu)化的數(shù)據(jù)組織方式,便于在訓(xùn)練、驗證、測試和評估過程中方便地獲取數(shù)據(jù)。
B.6 數(shù)據(jù)加載器創(chuàng)建(DataLoader Creation)
基于上述數(shù)據(jù)集創(chuàng)建了 PyTorch 的 DataLoader,設(shè)置參數(shù)為batch_size=1
且shuffle=True
。該步驟的目的是加快模型的收斂速度。
C. SMOTE
SMOTE(合成少數(shù)類過采樣技術(shù))的作用是使數(shù)據(jù)集中每個類別的樣本數(shù)量趨于平衡,從而確保各類別在訓(xùn)練中具有相等的代表性。
具體流程如下:
首先對數(shù)據(jù)集進(jìn)行向量化處理;
然后使用SMOTE 進(jìn)行過采樣,以實現(xiàn)類別平衡;
最后通過反向向量化處理,將過采樣后的數(shù)據(jù)還原為原始數(shù)據(jù)結(jié)構(gòu),以保證與原始格式兼容。
本實驗選用由 EleutherAI 開發(fā)的GPT-Neo 模型作為基線模型,特別是其中擁有1.25 億參數(shù)的版本(GPT-Neo 125M)。GPT-Neo 是一種基于 Transformer 架構(gòu)的模型,適用于生成任務(wù)和分類任務(wù)。它具備理解文本上下文和生成高質(zhì)量特征表示的基本能力,這些特征將被用作情緒分類的初始輸入。
B. 增強(qiáng)型量子網(wǎng)絡(luò)(Dressed Quantum Network)
增強(qiáng)型量子網(wǎng)絡(luò)(Dressed Quantum Network, DQN)是一種將量子組件與經(jīng)典神經(jīng)網(wǎng)絡(luò)層相結(jié)合的混合網(wǎng)絡(luò)。該模型利用量子信息處理來捕捉數(shù)據(jù)中的復(fù)雜關(guān)聯(lián)性,同時借助經(jīng)典神經(jīng)網(wǎng)絡(luò)連接模型的輸入與輸出。
實驗中分別使用以下平臺和設(shè)備實現(xiàn) DQN:
使用 Qiskit 平臺,在 IBM 的
ibm_cusco
設(shè)備上運行(127 量子比特)使用 PennyLane 平臺,搭配
default.qubit
模擬器(32 量子比特)
pre_net
是一個線性層,其作用是接收來自 GPT-Neo 的輸出,并將其維度降低到與量子比特數(shù)量一致(n_qubits
)。所使用的公式為:
其中,
- x 是輸入特征向量(對于 GPT-Neo 的輸出,其大小為 768),
- W 是權(quán)重矩陣,
- b 是偏置向量。
輸出的大小為 n_qubits,表示將被輸入到量子電路中的初始特征。
B.2 量子嵌入(Quantum Embedding)
在對輸入特征進(jìn)行預(yù)處理之后,將其通過tanh 激活函數(shù)進(jìn)行處理:
B.3 Hadamard 層(Hadamard Layer)
Hadamard 門用于創(chuàng)建疊加態(tài)。當(dāng)其作用于一個量子比特時,會將計算基態(tài) ∣0?和 ∣1?映射為如下疊加態(tài):
其中,H表示作用在計算基上的Hadamard 門,它將一個確定狀態(tài)(如 ∣0?或 ∣1?)的量子比特轉(zhuǎn)換為兩個狀態(tài)的等量疊加態(tài)。
B.4 旋轉(zhuǎn)層(Rotation Layer)
Y 軸旋轉(zhuǎn)門(Rotation Y 門)是一種圍繞 Bloch 球體 Y 軸進(jìn)行單量子比特旋轉(zhuǎn)的門。它通過一個角度 θ繞 Y 軸對量子比特進(jìn)行旋轉(zhuǎn):
該旋轉(zhuǎn)門在量子電路中具有基礎(chǔ)性作用,因為它可以根據(jù)輸入?yún)?shù)調(diào)整量子比特的狀態(tài)。它在參數(shù)化量子電路中尤其有用,適用于機(jī)器學(xué)習(xí)和優(yōu)化任務(wù)。此外,還使用了( Ry(θ) )門來將經(jīng)典信息編碼到量子態(tài)中,并在量子算法中應(yīng)用變分更新。
B.5 糾纏層(Entangling Layer)
糾纏層使用了CNOT(受控非門,Controlled-NOT)門,這是一種雙量子比特門。其中一個量子比特作為控制比特(control qubit),決定是否對另一個量子比特(目標(biāo)比特,target qubit)執(zhí)行翻轉(zhuǎn)操作。該 CNOT 門只有在控制比特處于 ∣1?狀態(tài)時,才會翻轉(zhuǎn)目標(biāo)比特:
B.6 輸出層(Output Layer)
在增強(qiáng)型量子網(wǎng)絡(luò)中,量子電路的輸出層使用Pauli-Z 算子來提取量子態(tài)中的有意義信息,具體方式是測量其期望值。在計算基態(tài)下,Pauli-Z 算子表示為:
這意味著該算子對 ∣0?態(tài)不改變,但會對 ∣1?態(tài)進(jìn)行符號翻轉(zhuǎn)。
隨后,量子電路的輸出將被堆疊,并轉(zhuǎn)換為具有浮點數(shù)據(jù)類型的 PyTorch 張量,以便在后續(xù)的經(jīng)典神經(jīng)網(wǎng)絡(luò)層中進(jìn)行處理。此步驟確保了量子電路輸出與 PyTorch 框架之間的兼容性,從而實現(xiàn)與混合模型的無縫集成。
C. LoRA(低秩適配)
LoRA 通過引入低秩分解來修改模型權(quán)重更新機(jī)制。影響模型性能、正則化和效率的關(guān)鍵參數(shù)如下:
C.1 低秩因子(Low-Rank Factor, r)
秩 r定義了 LoRA 中使用的低秩近似矩陣 A和 B的維度。不同于更新完整的權(quán)重矩陣 W,LoRA 將其更新方式定義為:
在本模型中,所使用的 r值為8,以確保在效率與表達(dá)能力之間取得良好的平衡。
C.2 縮放因子(Scaling Factor,lora_alpha
lora_alpha
是一個控制低秩適配幅度的縮放因子。所使用的公式為:
這確保了更新的幅度是平衡的,不會掩蓋預(yù)訓(xùn)練權(quán)重 W的影響。在本模型中,lora_alpha
的值設(shè)置為16,以保證適配效果顯著但不過度。
C.3 Dropout 率(Dropout Rate,lora_dropout
lora_dropout
是應(yīng)用于 LoRA 層輸入的一種正則化方法,用于防止過擬合。其公式為:
其中,p是 dropout 率。在本模型中,所使用的lora_dropout
值為0.6。這意味著在訓(xùn)練過程中,有 60% 的輸入會被隨機(jī)設(shè)置為零,從而提供強(qiáng)大的正則化效果,并迫使模型依賴多種模式進(jìn)行學(xué)習(xí)。
C.4 偏置設(shè)置(Bias Setting)
偏置設(shè)置決定了在微調(diào)過程中是否以及如何包含或更新模型中的偏置項。當(dāng)包含偏置項時,輸出的公式為:
其中:
- W′ 表示經(jīng)過 LoRA 適配后的更新權(quán)重,
- b 是偏置項。
在本模型中,偏置設(shè)置為 "none",這意味著偏置項不會被適配或微調(diào)。模型完全依賴于權(quán)重的更新來實現(xiàn)針對特定任務(wù)的調(diào)整。
C.5 任務(wù)類型(Task Type)
任務(wù)類型定義了 LoRA 如何應(yīng)用于特定的機(jī)器學(xué)習(xí)任務(wù),在本研究中是多類別序列分類任務(wù)。在序列分類中,目標(biāo)是對給定的輸入序列預(yù)測一個類別。模型計算如下:
其中:
- W′ 是結(jié)合了 LoRA 更新的適配權(quán)重,
- H 是模型輸出的最終隱藏狀態(tài)或池化后的表示,
- b 是偏置項。
該模型通過PEFT(參數(shù)高效微調(diào))庫實現(xiàn),并進(jìn)行了自定義配置以支持多類別分類任務(wù)。
3.3 訓(xùn)練方法
本研究所采用的訓(xùn)練過程遵循一個系統(tǒng)化的流程,旨在對模型進(jìn)行微調(diào),以實現(xiàn)多類別情緒檢測任務(wù)的優(yōu)化。該方法包括兩個不同的階段:訓(xùn)練階段和驗證階段,整個過程在10 個訓(xùn)練輪次(epochs)中重復(fù)進(jìn)行,以優(yōu)化模型性能。
在訓(xùn)練階段,通過反向傳播進(jìn)行梯度計算,使模型能夠根據(jù)計算出的損失值更新其參數(shù);
在驗證階段,則不進(jìn)行梯度更新,以提升計算效率并評估模型的泛化能力。
本節(jié)詳細(xì)介紹了實驗過程中所使用的硬件和軟件資源,并突出了它們的具體功能和配置。
A. Google Colab
Google Colab 是一個基于云的平臺,提供集成的 Jupyter Notebook 環(huán)境,適用于協(xié)作式機(jī)器學(xué)習(xí)研究與實驗。它預(yù)裝了如 TensorFlow、PyTorch、NumPy 和 Scikit-learn 等 Python 庫,簡化了環(huán)境設(shè)置并提高了數(shù)據(jù)預(yù)處理、模型訓(xùn)練與評估等任務(wù)的執(zhí)行效率。其交互式筆記本界面支持動態(tài)可視化、文檔編寫和調(diào)試,為統(tǒng)一工作空間中的開發(fā)提供了便利。
在本研究中,作者還使用了 Google Colab 提供的NVIDIA Tesla T4 GPU,這是一種專為深度學(xué)習(xí)和高性能并行計算優(yōu)化的圖形處理器。其具備以下特點:
內(nèi)存容量為 16GB,支持 CUDA 12.2;
可加速大規(guī)模機(jī)器學(xué)習(xí)任務(wù)的計算過程,確保高效的訓(xùn)練與推理;
擁有 15,360 MiB 的計算內(nèi)存,最大功耗為 70W,兼容 TensorFlow 和 PyTorch 等框架;
非常適合用于資源密集型實驗。
結(jié)合 Google Colab 及其內(nèi)置的 GPU 功能,構(gòu)建了一個強(qiáng)大的機(jī)器學(xué)習(xí)工作流環(huán)境。
B. IBM 量子后端
ibm_cusco 量子后端是一款前沿的超導(dǎo)量子處理器,擁有127 個高質(zhì)量量子比特,能夠執(zhí)行高度復(fù)雜的量子電路。該設(shè)備專為高級量子計算任務(wù)設(shè)計,支持如增強(qiáng)型量子網(wǎng)絡(luò)這樣的混合量子-經(jīng)典模型。
IBM 在量子糾錯方面的持續(xù)進(jìn)展顯著降低了門操作和測量中的誤差,提升了系統(tǒng)的可靠性。通過 Qiskit 和 PennyLane 框架訪問,ibm_cusco 能夠無縫地將量子電路集成到經(jīng)典工作流程中,為創(chuàng)新型量子實驗提供強(qiáng)大的計算能力。
C. PennyLane 模擬量子后端
PennyLane 的default.qubit
后端是在經(jīng)典硬件上模擬的量子計算環(huán)境,為測試量子電路提供了一個高效的平臺,無需依賴物理量子處理器。它支持最多32 量子比特的模擬,能夠在受控環(huán)境中探索和優(yōu)化量子電路的行為。
該后端完全集成于 PennyLane 庫中,支持無縫的量子-經(jīng)典混合工作流,用戶可靈活定義量子門、量子電路及測量策略,是進(jìn)行量子算法實驗的多功能工具。
3.5 實驗設(shè)計
本節(jié)概述了為評估應(yīng)用于多類別情緒檢測中的各類模型和技術(shù)性能而設(shè)計的實驗及其評估方法。
A. 實驗設(shè)計
實驗結(jié)構(gòu)旨在比較以下模型的基線性能:
基線模型GPT-Neo 125M
使用IBM 量子后端和Pennylane 模擬后端的混合量子-經(jīng)典模型
此外,研究還探討了以下兩種技術(shù)對模型性能的影響:
- SMOTE
在解決類別不平衡問題中的作用
- LoRA 微調(diào)
在混合模型中對參數(shù)高效適配的效果
自變量(Independent Variables):
SMOTE 的應(yīng)用
LoRA 微調(diào)的使用
量子層的應(yīng)用
不同量子后端的使用
因變量(Dependent Variables):
衡量模型性能的指標(biāo),如準(zhǔn)確率(accuracy)、損失值(loss)和平均絕對誤差(MAE)
模型在訓(xùn)練階段和驗證階段的性能通過以下指標(biāo)進(jìn)行評估:
C.1 準(zhǔn)確率(Accuracy)
準(zhǔn)確率表示模型做出的預(yù)測中正確預(yù)測所占的比例。它是一個直觀反映模型整體性能的指標(biāo)。然而,在數(shù)據(jù)集不平衡的情況下,準(zhǔn)確率可能無法真實反映模型的實際表現(xiàn)。
所使用的公式為:
其中,I是示性函數(shù)(indicator function),當(dāng)預(yù)測正確時返回 1,預(yù)測錯誤時返回 0。
C.2 損失值(Loss)
損失值用于量化模型在優(yōu)化過程中其預(yù)測結(jié)果與真實標(biāo)簽之間的差異。損失值越低,表示模型的預(yù)測結(jié)果越接近真實值。
所使用的具體損失函數(shù)(如交叉熵?fù)p失)取決于任務(wù)的性質(zhì),在本研究的多類別分類任務(wù)中,采用的是交叉熵?fù)p失(Cross-Entropy Loss)。其公式為:
C.3 平均絕對誤差(Mean Absolute Error, MAE)
平均絕對誤差(MAE)衡量預(yù)測標(biāo)簽與真實標(biāo)簽之間的平均絕對差異。它提供了一個具有直觀解釋性的評估指標(biāo),尤其適用于涉及有序標(biāo)簽或回歸任務(wù)中預(yù)測誤差幅度的量化。
其公式為:
4 結(jié)果與討論
在本節(jié)中,作者將基線模型與在IBM和Pennylane后端上使用DQN(增強(qiáng)型量子網(wǎng)絡(luò))的混合模型進(jìn)行了比較。分析了SMOTE在解決類別不平衡問題以及LoRA在實現(xiàn)高效微調(diào)方面的效果。通過展示準(zhǔn)確率、損失值和 MAE 的變化曲線,突出了 DQN 帶來的性能提升,以及結(jié)合 SMOTE 和 LoRA 后的進(jìn)一步改進(jìn),證明了這些方法在增強(qiáng)文本分類性能方面的有效性。
4.5 討論
使用DQN(增強(qiáng)型量子網(wǎng)絡(luò))的模型性能并未超過不使用 DQN 的基線模型,這表明在處理簡單任務(wù)時,經(jīng)典模型的表現(xiàn)優(yōu)于混合模型。然而,本研究通過對比使用不同后端的兩種混合模型,為量子機(jī)器學(xué)習(xí)領(lǐng)域提供了有價值的見解。
LoRA 的應(yīng)用被證明使兩種模型更加穩(wěn)定,這一點可以從準(zhǔn)確率和損失曲線圖中得到驗證。而SMOTE 的應(yīng)用也有效改善了類別分布的不均衡問題,這一點可以通過使用與未使用 SMOTE 的模型之間的混淆矩陣對比得以證實。
A. 準(zhǔn)確率(Accuracy)
圖 4.4.A 展示了基于 GPT-Neo 125M、結(jié)合SMOTE 和 LoRA 微調(diào)的經(jīng)典-量子混合模型在IBM(ibm_cusco,127 量子比特)和Pennylane(default.qubits,32 量子比特)后端上的訓(xùn)練和驗證準(zhǔn)確率對比情況。
兩個模型在前四個訓(xùn)練輪次內(nèi)都迅速提升了訓(xùn)練準(zhǔn)確率,并達(dá)到了完美準(zhǔn)確率(1.0)。其中:
使用Pennylane 后端的模型在訓(xùn)練階段收斂略快;
而使用IBM 后端的模型在驗證準(zhǔn)確率上更平穩(wěn),顯示出更好的泛化能力。
兩個后端的驗證準(zhǔn)確率也都達(dá)到了 1.0,但Pennylane 在驗證過程中表現(xiàn)出輕微波動,相比之下 IBM 的表現(xiàn)更為穩(wěn)定。
結(jié)果表明,盡管IBM 后端擁有更多量子比特(127)可能有助于提升驗證穩(wěn)定性,但Pennylane 僅使用 32 個量子比特就實現(xiàn)了相當(dāng)?shù)男阅?/strong>,體現(xiàn)了其資源效率的優(yōu)勢。
結(jié)合SMOTE 和 LoRA的方法在兩個后端上都有效提升了準(zhǔn)確率,突出了它們在混合量子-經(jīng)典架構(gòu)中的適用性。
B. 損失值(Loss)
圖 4.4.B 展示了基于 GPT-Neo 125M 的混合模型在 IBM 和 Pennylane 后端上的訓(xùn)練和驗證損失值對比情況。
兩個模型在初始訓(xùn)練輪次中都出現(xiàn)了快速下降的損失值,說明模型學(xué)習(xí)效果良好。具體來看:
- Pennylane 模型在訓(xùn)練損失下降速度上略快于 IBM 模型
,表明其訓(xùn)練過程更具效率;
在驗證損失方面,兩個模型都呈現(xiàn)出平滑且一致的下降趨勢,但Pennylane 的驗證損失在整個過程中保持得更低,反映出其更強(qiáng)的泛化能力。
雖然兩個模型最終都達(dá)到了接近零的訓(xùn)練損失值,但從驗證損失的趨勢來看,它們具有相近的泛化能力,而Pennylane 在穩(wěn)定性和效率方面略有優(yōu)勢。
這些結(jié)果進(jìn)一步強(qiáng)調(diào)了所提出混合架構(gòu)的魯棒性,同時表明SMOTE 和 LoRA 微調(diào)能夠有效減少過擬合現(xiàn)象,從而提升整體模型性能。
C. 平均絕對誤差(MAE)
圖 4.4.C 展示了基于 GPT-Neo 125M、結(jié)合SMOTE 和 LoRA 微調(diào)的經(jīng)典-量子混合模型在IBM(ibm_cusco,127 量子比特)和Pennylane(default.qubits,32 量子比特)后端上的訓(xùn)練和驗證損失值對比情況。
兩個模型均應(yīng)用了SMOTE 來處理數(shù)據(jù)不平衡問題,以及LoRA 來實現(xiàn)高效的參數(shù)微調(diào)。從訓(xùn)練 MAE 來看:
- Pennylane 后端的模型收斂速度更快
,在第 5 個訓(xùn)練輪次時誤差已接近零,并在整個后續(xù)訓(xùn)練過程中保持穩(wěn)定;
相比之下,IBM 后端的模型雖然也呈現(xiàn)出相似的收斂趨勢,但其初始 MAE 略高,且在早期訓(xùn)練中下降速度較慢。
在驗證集方面,Pennylane 同樣表現(xiàn)出更優(yōu)異的性能,其 MAE 在各個訓(xùn)練輪次中更加一致且更低,表明其具有更強(qiáng)的泛化能力。
使用IBM 后端的模型在驗證 MAE 上雖然也在收斂,但顯示出略微更高的波動性。這表明,盡管 IBM 擁有更大的量子比特空間(127 量子比特),但可能引入了更多的噪聲或優(yōu)化難度,反而影響了模型穩(wěn)定性。
總體來看,Pennylane 的實現(xiàn)更加穩(wěn)定,且達(dá)到了更快的收斂速度,證明其在該模型配置下具有優(yōu)勢。
D. 混淆矩陣(Confusion Matrix)
混淆矩陣用于比較在實施SMOTE解決數(shù)據(jù)不平衡問題前后的分類性能。
在應(yīng)用 SMOTE之前,模型在預(yù)測上存在嚴(yán)重的不平衡現(xiàn)象,嚴(yán)重偏向主導(dǎo)類別(如 "sadness" 和 "worry"),而像 "enthusiasm" 和 "love" 這樣的少數(shù)類則表示不足,導(dǎo)致大量的誤分類現(xiàn)象,并且模型難以在所有類別之間實現(xiàn)良好的泛化能力。
在應(yīng)用 SMOTE之后,預(yù)測結(jié)果的分布變得更加均衡,之前代表性不足的類別在召回率上有了明顯提升。這種改進(jìn)體現(xiàn)在所有標(biāo)簽上的預(yù)測數(shù)量更加均勻。SMOTE 的合成過采樣技術(shù)有效緩解了類別不平衡問題,使模型能夠更好地區(qū)分不同類別,從而實現(xiàn)了更穩(wěn)健和公平的分類性能。
5 結(jié)論 5.1 總結(jié)
本研究提出了一種用于文本分類的強(qiáng)大混合經(jīng)典-量子遷移學(xué)習(xí)框架,該框架整合了 GPT-Neo 125M、低秩適配(LoRA)、合成少數(shù)類過采樣技術(shù)(SMOTE)以及量子計算后端。所提出的方法有效地解決了類別不平衡問題,并提升了計算效率,這通過引入 SMOTE 和 LoRA 得到了驗證。
在 IBM 的真實量子后端與 PennyLane 的模擬量子后端之間進(jìn)行的對比實驗,突出了混合量子-經(jīng)典架構(gòu)的潛力與挑戰(zhàn)。實驗結(jié)果表明,該方法在準(zhǔn)確率、損失值和泛化性能方面均有顯著提升,證實了其在復(fù)雜分類任務(wù)中的可行性。
本研究彌合了經(jīng)典與量子范式之間的鴻溝,展示了量子機(jī)器學(xué)習(xí)在自然語言處理中的應(yīng)用潛力,但同時也指出,在當(dāng)前階段其表現(xiàn)尚未超越經(jīng)典模型。
5.2 局限性與未來工作
本研究的一個主要局限在于資源受限,特別是僅依賴于一塊 NVIDIA Tesla T4 GPU,并且對量子計算機(jī)的訪問權(quán)限有限。此外,在比較混合模型時存在不平等現(xiàn)象:使用的后端類型不同(即擁有 127 個量子比特的真實 IBM 量子后端 vs 擁有 32 個量子比特的 PennyLane 模擬后端),這種顯著的差異應(yīng)在今后的研究中予以重視。
未來的研究可以從以下幾個方面改進(jìn):
使用參數(shù)量更大的先進(jìn)模型,如最新的生成式 Transformer;
引入QloRA(量化低秩適配)技術(shù)以實現(xiàn)更高效的微調(diào);
利用內(nèi)存更大、計算能力更強(qiáng)的高端 GPU提升訓(xùn)練效率;
探索特定領(lǐng)域的應(yīng)用場景,如情感分析或醫(yī)學(xué)文本分類,以進(jìn)一步展示該混合框架的適應(yīng)性和可擴(kuò)展性。
作者意識到本研究并不完美,仍存在諸多不足之處。因此,作者真誠希望讀者能夠給予任何形式的反饋與批評,以幫助其不斷提升自身能力。
同時,作者承認(rèn)在論文撰寫過程中使用了翻譯工具和人工智能軟件(如 DeepL、QuillBot 和 ChatGPT)的幫助。盡管如此,作者始終注重原創(chuàng)性、AI 的倫理使用,并基于可信來源獲取信息,以確保產(chǎn)出內(nèi)容的真實性,并為量子機(jī)器學(xué)習(xí)領(lǐng)域做出貢獻(xiàn)。
原文鏈接: https://arxiv.org/pdf/2501.10435
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.