99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

WWW 2025 | OntoTune:利用領域本體驅動大語言模型的自訓練精調

0
分享至

本文提出了基于本體驅動的自訓練微調框架OntoTune,通過上下文學習識別種子模型未掌握的本體知識,并自訓練增強模型與本體的對齊能力。實驗表明,OntoTune 在本體內外任務中均達到最新性能,同時保留了種子模型的原有知識。相比依賴大規模語料庫訓練的領域 LLMs,OntoTune 僅需小規模本體和種子模型即可實現更強泛化能力


論文題目: OntoTune: Ontology-Driven Self-training for Aligning Large Language Models 論文鏈接: https://arxiv.org/pdf/2502.05478 代碼鏈接: https://github.com/zjukg/OntoTune

一、引言

現有的領域特定大型語言模型(LLMs)通常通過使用大規模領域特定語料對通用型LLMs進行微調來開發。然而,在大規模語料上的訓練往往難以有效地組織LLM的領域知識,導致對知識的碎片化理解。受到人類通過思維導圖連接概念并組織知識的啟發,我們旨在通過本體(ontology)中層次化的概念知識來重新組織LLMs的領域知識。從這一視角出發,我們提出了一種基于本體驅動的自訓練框架,稱為OntoTune,其目標是通過上下文學習(in-context learning)將LLMs與本體對齊,從而生成受本體指導的響應。


我們利用上下文學習來識別LLM是否掌握了特定概念的本體知識,并選擇LLM尚未掌握的條目作為訓練集,以進一步將LLM與本體對齊。與基于新收集的大規模領域特定語料的現有領域LLMs相比,我們的OntoTune依賴于現有、長期開發的本體以及LLM自身,大幅減少了數據維護成本,并提供了更好的泛化能力。

二、方法


目標定義

我們首先設定一個目標,用以評估初始模型是否掌握了領域本體知識并能夠指導模型的響應。給定一個與本體知識 密切相關的指令 ,我們可以得到兩種類型的響應:

如果初始模型 在生成響應時已完全掌握并正確利用了本體知識,那么 應該等于 。否則,由于LLM具有上下文學習的能力,包含本體知識 的輸入可以產生更系統化和更具邏輯性的響應,因此 應該優于 。然而,在許多情況下, 與 并不接近或相似。為了將本體知識內化到LLMs中,我們設定優化目標為:


如前所述,這一目標大致意味著 已經掌握了本體知識,并且在生成響應時能夠正確地利用內部的本體知識。

指令文本生成

為了評估大語言模型在各個維度上對本體知識的掌握程度,我們設計了三種不同的概念級指令模板。這些模板從多樣性、概念性和專業性的角度評估種子模型中的本體知識是否能夠有效地指導生成的響應。首先,我們圍繞概念t將指令 作為種子模型的輸入得到對應輸出 。同時,我們將指令與相關的本體知識 作為輸入,得到在本體指導下的輸出 。其中,本體知識 包括概念的定義、上位詞與同義詞,可以直接從本體庫中檢索獲得。我們發現本體庫中缺乏部分概念的定義,因此我們通過種子模型的少樣本學習為這些概念生成相關定義。

不一致文本選擇

對于概念t,如果模型響應 和 是一致的,這表明種子模型中與概念 相關的本體知識可以隱式地指導模型輸出。因此,我們選擇不一致的響應作為訓練集,使種子模型與本體對齊。為了評估不一致性,我們基于三種不同的度量標準計算混合相似度分數:嵌入余弦相似度sim(·)、ROUGE-L和BLEU-4,計算公式為


最終,我們選出一 致性分數最低的k條作為模型訓練語料,包括監督微調(SFT)語料 與直接偏好對齊(DPO)語料 。

大語言模型微調

基于上述構建的訓練集,我們使用三種微調方法得到與本體對齊后的大模型:監督指令微調(SFT)、直接偏好優化(DPO)和監督指令微調結合直接偏好優化(SFT+DPO)。其中,監督指令微調結合直接偏好優化方法參考現有開發領域大模型的訓練流程,先對大模型進行監督指令微調,再采用直接偏好優化。

三、實驗分析

在本文中,我們選擇醫療領域作為示例來評估我們方法的有效性,因為醫療領域受到廣泛關注,并且擁有豐富的評估數據集和基準。具體來說,我們采用了標準化的SNOMED CT 2024國際六月版本作為我們的本體源,其中包含367,978個醫學概念,其中只有8,275個具備相應的定義,以及246,356個分類學關系(例如,“is-a”關系)。為了匹配現有領域特定LLM的訓練規模,我們在每種語料類型中選擇 k = 100,000 個不一致的樣本進行訓練。

領域本體推理


如上表所示,OntoTune~sft~模型在醫療子集數據集上實現了最新的性能表現,相較于初始模型LLaMA3提升了19.45%,相較于TaxoLLaMA提升了11.73%。雖然TaxoLLaMA使用了完整的SNOMED CT本體進行訓練,但并未取得顯著的性能提升。此外,我們觀察到,基于大規模醫學語料訓練的Aloe和Med42-v2表現出了明顯的性能提升。實驗結果表明,與TaxoLLaMA相比,OntoTune能夠更高效地將本體知識融入到LLMs中。值得注意的是,盡管我們的訓練集不包含意大利語和西班牙語數據,OntoTune~sft~在多語言環境中仍然實現了最先進的性能表現,相較于初始模型有顯著提升。這表明我們的OntoTune能夠有效地將初始模型與本體知識對齊,甚至可以泛化到其他分類學場景。

醫學問答


從上表結果可以觀察到,相較于其他基于LLaMA3 8B微調的模型變體,我們的三種OntoTune變體以及TaxoLLaMA方法均實現了顯著的性能提升。盡管在大規模原始語料上訓練的LLMs在某些數據集上表現良好,但它們相較于初始模型的改進并不穩定,且平均分數低于我們的OntoTune。這表明從大規模語料中學習存在一定的挑戰。這表明,即使是小規模但高質量的本體,也有助于增強LLMs在特定領域的能力。

通用能力評估


盡管我們的OntoTune在微調階段并未使用額外的通用指令,卻表現出了良好的性能。由于固定的輸入輸出格式以及缺乏數據多樣性,TaxoLLaMA遭受了最顯著的性能下降。與TaxoLLaMA相比,我們的OntoTune方法并未表現出明顯的災難性遺忘。同樣地,OntoTune~sft~在三種變體中表現最好,相較于初始模型,平均僅下降0.49%。

自我訓練分析


旨在探索數據質量對模型性能的影響,我們從兩個更強大的LLM(LLaMA 3.1 8B和deepseek-v2.5)中蒸餾出更高質量的結果 。然后,我們在相同的超參數設置下,使用 對同一初始模型LLaMA3 8B進行訓練。

上圖展示了三個OntoTune變體在領域問答任務與通用能力的結果。在大多數數據集中,所有三種OntoTune變體的性能都有所提升。其中,自監督訓練的OntoTune~sft~模型表現出穩健且先進的性能,在所有數據集上都實現了提升。可以觀察到,由同系列的LLaMA 3.1蒸餾出的OntoTune~sft~在知識問答數據集(如MMLU和TriviaQA)上的性能下降最小。有趣的是,盡管LLaMA 3.1在數據蒸餾過程中僅專注于醫學領域知識,該模型在推理挑戰數據集(如ARC)和安全性評估數據集(Advbench)上的表現也有所提升。

此外,從deepseek蒸餾出的OntoTune~sft~模型在知識與安全性評估中表現出顯著下降,但推理能力有明顯提升。總體而言,自監督訓練無需依賴更高級的LLM即可實現最為高效的領域對齊,同時極大程度地保留了原始知識。

四、總結

在本文中,我們提出了一種基于本體驅動的自訓練微調框架 OntoTune。該框架利用上下文學習來識別種子模型尚未獲取的特定概念的本體知識,并通過自訓練增強種子模型與本體的對齊能力。實驗結果表明,OntoTune 在本體內的任務(如上位詞發現任務)和本體外的任務(如醫學領域問答任務)中均達到了最新的最先進性能,同時顯著保留了種子模型已有的知識。相比現有的基于大規模高質量語料庫訓練的領域大型語言模型(LLMs),OntoTune 僅依賴一個相對小規模、長期開發的本體及種子模型本身,展現出了更強的泛化能力。

作者:劉治強 來源:公眾號【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

八斗小先生
2025-06-25 18:18:21
莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

娜烏和西卡
2025-06-25 12:51:52
9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

DS北風
2025-06-25 18:04:26
iPhone 17 Pro新機首次亮相,這設計變順眼了!

iPhone 17 Pro新機首次亮相,這設計變順眼了!

科技堡壘
2025-06-25 16:21:24
592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

深析古今
2025-06-25 14:38:26
河南人注意!多地強降水集中在今夜

河南人注意!多地強降水集中在今夜

極目新聞
2025-06-25 19:13:07
無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

火山詩話
2025-06-25 13:41:36
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

180視角
2025-06-25 08:59:42
高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

極目新聞
2025-06-25 11:56:48
42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

五元講堂
2025-06-24 10:14:04
人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

宏哥談商道
2025-06-24 19:00:02
顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

4A廣告網
2025-06-24 09:59:01
從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

互聯網大觀
2025-06-25 11:09:02
如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

紅星新聞
2025-06-25 13:06:12
霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

史書無明
2025-06-25 08:26:46
伊朗稱該國核設施在美國空襲中“嚴重受損”

伊朗稱該國核設施在美國空襲中“嚴重受損”

環球網資訊
2025-06-25 20:15:26
打虎!海南省委常委、秘書長倪強任上落馬!

打虎!海南省委常委、秘書長倪強任上落馬!

上觀新聞
2025-06-25 16:18:25
小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

社會醬
2025-06-25 17:13:35
突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

晉哥說電影
2025-06-25 13:49:11
2025-06-25 21:15:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

健康
數碼
家居
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

數碼要聞

打開京東搜“小米新品0626” 有機會搶先體驗小米AI眼鏡

家居要聞

木質簡約 空間極致利用

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:12天戰爭結束 重建工作開啟

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高邑县| 林芝县| 衡阳市| 陆川县| 铜陵市| 济南市| 阳江市| 桦川县| 鱼台县| 广宗县| 盖州市| 泗阳县| 长岛县| 武冈市| 逊克县| 永昌县| 鄂托克旗| 济宁市| 沧州市| 崇礼县| 海兴县| 揭东县| 滨州市| 勃利县| 绥江县| 绥宁县| 山东| 嵊泗县| 汪清县| 西乌珠穆沁旗| 甘泉县| 文昌市| 闽清县| 卫辉市| 泽普县| 铜梁县| 绥宁县| 天水市| 株洲县| 杭锦旗| 普格县|