網易首頁 > 網易號 > 正文申請入駐

Karpathy點贊上下文工程被他提出偽標注方案，充分利用未標注數據

2025-07-06 22:19:12　來源: DeepTech深科技

北京舉報

分享至

近日，美國弗吉尼亞大學教授沈聰和團隊提出一種多示例自適應偽標注方法——MAPLE（Many-Shot Adaptive Pseudo-LabEling）。它是一種專門用于提升大語言模型在多示例學習中表現的新機制，特別適用于只有少量標注數據、但有很多未標注數據的情況。

圖 | 沈聰（來源：沈聰）

在傳統(tǒng)的大語言模型應用中，往往需要大量人工標注的數據，這既昂貴又耗時。研究團隊的工作想解決的是：如何充分利用這些“還沒標注”的數據，幫助模型更好地完成任務？為此研究團隊設計了兩個關鍵技術：

1. 偽標簽樣本的挑選方法：他們通過構建一個圖，把已標注和未標注的數據聯(lián)系起來，挑選出對任務最“有影響力”的未標注樣本，并使用大語言模型給它們打上“偽標簽”。這樣一來，模型就能從這些有代表性的樣本中學到更多。

2. 自適應示例選擇策略：對于每個測試問題，他們會根據它的特點，從標注樣本和偽標簽樣本中智能地挑選出最相關的幾個示例，而不是用一套固定模板。這樣能更有效地提高模型的準確性和泛化能力。

研究團隊做了大量實驗，證明這種方法不僅能減少對昂貴標注數據的依賴，還能在多個真實任務中表現優(yōu)異。對于相關論文，審稿人認為本次研究為大語言模型在低標注場景中的應用提供了一條可行路徑。

這一成果可被用于需要智能處理文本、但缺少大量人工標注數據的場景中，能夠為多示例學習生成大量偽標注的數據。

舉例來說：

首先，可用于客服和問答系統(tǒng)：很多公司有著大量的歷史對話數據，但是沒有標注問題類型。本次方法可以利用這些未標注數據，幫助大語言模型更好地理解和回答用戶的問題，而不需要人工標注大量示例。

其次，可用于醫(yī)療、金融等專業(yè)領域的智能助手：這些領域的標注成本很高，本次方法可以使用少量專家標注數據，再加上大量的未標注案例就能構建更精準的問答系統(tǒng)或摘要系統(tǒng)。

再次，可用于教育類場景：比如自動生成講解或習題反饋。很多題目或學生回答是未標注的，而本次方法可以幫助模型學會更好地給出解釋，進而達到輔助教學的作用。

最后，可用于低資源語言或小語種的AI 應用場景：對于缺乏標注數據的語言，可以通過偽標簽機制挖掘未標注資源，加速這些語言的 AI 系統(tǒng)落地。

總的來說，這項成果可以幫助大語言模型在數據不足的實際環(huán)境中“用少量帶動多數”，更高效地發(fā)揮作用，讓AI 走進更多行業(yè)、更多場景。

（來源：ICML）

據了解，上下文學習（ICL，In-context Learning）是讓模型通過提示中的幾個例子學會如何完成任務，而不需要重新訓練它。隨著大語言模型的更新?lián)Q代，新的模型可以接受更長的文本輸入，這為上下文學習提供了新的機遇。Google 的研究人員在 2024 年的論文中提到通過增加提示中例子的數量可以提升上下文學習的性能，并將其稱之為多示例上下文學習（Many-shot ICL）。

本次研究團隊注意到，為了充分發(fā)揮多示例上下文學習在給定任務上的潛力，往往需要一個包含大量屬于該任務帶標注樣本的數據集，而標注大量數據所需的成本有限制了獲取這樣的數據集的難度，特別是在一些新領域或者較難的任務下。基于以上原因，研究團隊進行了這次研究。他們希望充分利用大語言模型的能力來獲得偽標注數據，從而用于多示例上下文學習。特別地，研究團隊考慮了這樣一個問題：在擁有少量標注數據的情況下，如何選擇未標注的數據進行偽標注，從而讓偽標注數據和少量真實標注的數據可以為一起多示例上下文學習提供高質量的例子。

與此同時，在本次研究之中，研究團隊還解決了以下兩個問題：

第一個是關于模型穩(wěn)定性的問題。最初研究團隊的設想非常理想化：希望只用一些未標注的數據（只提供問題），再加上一小部分標注數據，直接作為多示例輸入給大語言模型進行學習。這樣的方法從資源角度看是最節(jié)省的，他們也覺得這才是“最純粹”的方式。但是，實驗做下來卻發(fā)現效果非常不穩(wěn)定，有時候能提升，有時候反而拖后腿。為此，沈聰和學生們試了很策略但都無法根本解決這個問題。后來，他們做了一個艱難的決定——“退而求其次”轉向使用偽標注的方式來輔助選樣。雖然不如原先設想得那么“優(yōu)雅”，但是確實讓模型的性能提升變得更加可控、更加穩(wěn)定。“這也讓我的學生們第一次意識到，為了解決實際的問題，理想化的思路和實際限制之間經常要做權衡和取舍。”沈聰表示。

第二個是研究團隊找到最終選樣方法的靈感來源。其實他們一直在尋找一個既高效又有效的方法來從未標注數據中選出“關鍵樣本”。有一次在組內討論時，突然有學生聊到他之前曾推導過一些圖結構中影響力相關的理論，但因為當時項目方向不同，這一部分一直沒用上。研究團隊研究了他的推導記錄，發(fā)現這些思想其實可以完美應用在這一問題中——只要做一些針對性的調整。于是學生們修改推導、搭建實驗，沒想到真的跑出來了不錯的結果。

這兩個經歷一個是現實妥協(xié)下的選擇，一個是偶然中的“靈光一閃”，但它們都讓沈聰的學生們對于科研有了更多敬畏和更多熱愛。

最終，相關論文以《MAPLE：多輪自適應偽標記上下文學習》（MAPLE：Many-Shot Adaptive Pseudo-Labeling In-Context Learning）為題發(fā)在第 42 屆國際機器學習大會（ICML，International Conference on Machine Learning）上 [1]。

圖 | 相關論文（來源：ICML）

后續(xù)：

第一，研究團隊希望進一步提升偽標簽的質量和魯棒性。雖然現在的方法已經能選出對于模型推理有幫助的未標注樣本并進行偽標注，但仍然存在一些誤標或不穩(wěn)定的情況。特別是他們觀察到在一些任務上使用更多偽標注的數據會導致性能的下降，其認為這可能是偽標注的標簽引入的噪聲所導致的。接下來他們會探索是否可以引入不確定性估計、集成模型，或者借助大語言模型自身的反饋機制，來判斷哪些偽標簽更可信，從而提升整體效果。

第二，研究團隊想把這套機制拓展到跨任務或跨領域的場景中。現實中很多任務來自不同的數據分布，比如金融、醫(yī)療、教育等，如能使用一個任務中少量的標注，配合另一個任務的未標注數據，仍然能夠實現有效的多示例學習，就會極大提升大語言模型的實際適應能力，而這也涉及到如何在任務之間遷移影響力建圖策略和示例選擇策略。

參考資料：

1.https://arxiv.org/abs/2505.16225

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.