99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

【教程】從 0 到 1,微調一個自己專屬的大模型

0
分享至

作者中國科學院大學研究生 徐秉煜 內容來源:SwanLab


1

一、引言1.1 什么是微調大模型?

微調(Fine-tuning)大模型,就像是給一個已經學富五車的大腦(預訓練的基礎大模型),進行一次針對性的“專業強化訓練”。基礎大模型通過海量數據學習了通用的語言規律和世界知識,但對于特定領域、特定任務,它可能還不夠“精通”。微調就是利用少量、高質量的領域數據,在基礎模型之上繼續訓練,讓模型更好地適應新的任務或領域。也就是讓大模型從一個廣度很強的通才,在某個領域樹上的技能加強變成一位專才。

尤其常用的LoRA(Low-Rank Adaptation)等高效微調方法,通過只調整模型中很少一部分參數或添加少量額外層,就能達到很好的效果,大大降低了所需的計算資源和時間,讓模型“學得又快又專”。


Lora微調原理,在大模型權重文件的輸出時,再添加一個可訓練的低秩矩陣1.2 為什么需要微調大語言模型

預訓練的大語言模型雖然強大,能理解和生成各種文本,但它們是“通才”,缺乏對特定領域細致入微的理解或完成特定復雜任務的能力。比如,在一個高度專業的行業(如醫療、法律、金融或企業內部知識庫)中,模型可能不理解行業黑話、處理不了特有的文檔格式或無法給出基于內部規章的準確回答。

通過微調,我們可以用該領域的特有數據對其進行“定制化”訓練,讓模型掌握領域內的專業知識、術語和邏輯,從而使其成為該領域的“專家”,能夠更準確、高效地處理垂直領域的復雜問題,提供更具價值的服務。

2

二、數據集準備2.1 領域大模型微調

想象一下,在您熟悉的某個行業或公司內部,隨著時間的推移,沉淀了無數寶貴的知識和經驗。這些信息通常零散地存儲在各種PDF、Word文檔甚至掃描件中,它們是領域的精華,卻也形成了難以逾越的“知識孤島”。想要從中快速準確地找到所需的信息,或是理解某個復雜概念,往往需要耗費大量時間和精力,對于新手來說更是門檻很高。

試想,如果能有一個AI助手,它不僅能理解通用語言,更能像一位資深的領域專家一樣,透徹地掌握并運用這些獨有的垂直領域知識,隨時為您答疑解惑,那該多好?這正是領域大模型微調的核心價值所在——通過將通用大模型的能力與特定領域的寶貴數據結合,我們可以打造出真正理解并能應用這些知識的垂直領域智能體。

這個時候,用領域內知識微調后大語言模型便能派上用場了。下面我將會從整體流程的角度,梳理一遍大語言模型微調全流程的方法論,以及開源工具的使用,從而實現更加高效、安全的模型訓練與部署。


本文的思路展示,收集領域知識文檔→統一轉換為Markdown格式→構造微調數據集→微調大語言模型

關于一些更加具體的操作后續會逐漸填坑~

2.2 文檔格式的統一轉換

通常,由于行業內多年的知識沉淀,往往會留存大量的文件掃描件,一些遺失多年的word,為了能讓后續對這些文檔能進行統一的處理,我們需要將他們的格式統一為Markdown格式

Markdown是一種輕量級標記語言,排版語法簡潔,讓人們更多地關注內容本身而非排版。它使用易讀易寫的純文本格式編寫文檔,可與HTML混編,可導出 HTML、PDF 以及本身的.md 格式的文件。更多的相關的介紹可以參考這邊的鏈接

Markdown 基本語法 | Markdown 教程markdown.com.cn/basic-syntax/

這邊我以一個國產的工具 MinerU為例,這個工具支持本地離線部署,也可以在線使用,筆者體驗下來這個工具對于pdf的識別相當的好,但是對于doc識別還是不是很好。如果有需要的話可以將doc轉換為pdf再使用MinerU進行識別。

MinerUmineru.net/

這邊我以一篇pdf格式的論文為例,右側是識別出來的Markdown預覽文件,可以看出來對于文字和公式的識別還是相當準確的。


windows客戶端可以在線識別,但是目前只支持導出Latex,docx,HTML格式的文件

如果想要導出Markdown文件到本地,可以在本地本地部署下MinerU,或者直接在魔搭社區的創空間進行體驗

MinerU (PDF轉Markdown/JSON) · 創空間www.modelscope.cn/studios/OpenDataLab/MinerU


2.3 構建微調數據集

現在我們得到了markdown格式的數據文件,但是這些數據仍然不能直接用來微調大模型。因為大模型所完成的任務,是通過問答的形式實現的。也就是說,我們需要將文檔的知識點全都變成一問一答的形式才能進行微調。早期的數據集構造是一個非常耗時,重復性的工作,需要人類去進行一步步地構造問題,并且根據文檔的內容進行解答,但也正是這些前人的不斷努力,堆出了現在大語言模型的繁榮。

在當前的AI水平下,讓大語言模型輔助實現問答對的構造已經是一個很常見的策略了。這邊我們可以使用一個國產開源工具Easy-dataset進行處理。

easy-dataset/README.zh-CN.md at main · ConardLi/easy-datasetgithub.com/ConardLi/easy-dataset/blob/main/README.zh-CN.md


Easy-dataset工具流程示意

在處理文檔之前,首先我們需要本地部署一個基礎的大語言模型,這里我們使用ollama部署qwen2.5-7b模型,具體的操作可以參考下面的鏈接~

Ollama使用指南【超全版】 - 知乎zhuanlan.zhihu.com/p/704951717

總的來說,Easy-dataset通過我們上傳的Markdown文件,將文本內容進行分割,之后讓大語言模型對每個分割的片段進行提問,在生成所有的問題之后,再利用相關的片段與生成的問題對大語言模型進行提問,從而實現了將文檔知識變成問答對的形式。


上傳Markdown之后對文檔進行了切分,總共被分成了33個切片


總共生成了173個問答對


點開其中一個問答對,效果如圖


上面問答對的原文內容如上,可以看出模型對于知識點的提取還是相當準確且有價值的

下一步,我們直接導出微調數據集便可以開始微調。

3

三、 微調大語言模型3.1 成本估算

在本次的演示中,我使用的是Qwen2.5-7B-Instruct 模型,模型的大小為70億參數,權重文件約15GB。在默認參數下,在NVIDIA A100-PCIE-40GB顯卡上進行微調,占用19.79GB顯存。一般來說,只要顯卡顯存大于19.79GB便可以完全復現本次實驗,例如4090 24GB也是可以運行的。

3.2 微調工具的部署

為了微調大語言模型,這邊我們可以使用llamafactory進行微調,Swanlab 進行模型訓練的監測,由于llamafactory是自帶Swanlab適配的,所以僅需要在llamafactory中配置Swanlab秘鑰即可

關于llamafactory的部署,可以參考其中官方文檔

安裝 - LLaMA Factoryllamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

安裝完成后,按照文檔中的要求,導入我們剛才生成的數據集到data文件夾下,之后記得data_info.json進行注冊,啟動llamafactory之后我們便可以預覽數據集了


預覽數據集,確保選中正確的文件3.3 啟用訓練參數的監測工具

為了實時監測訓練的狀態,可以使用Swanlab作為一個跟蹤、記錄、比較、和協作實驗的平臺,這個工具支持實時云端同步訓練的參數變化。可以在官網注冊一個API,添加到llamafactory中即可

SwanLab官方文檔 | 先進的AI團隊協作與模型創新引擎docs.swanlab.cn/


llamafactory中啟用swanlab

配置好參數后便可以愉快地開啟訓練啦~

在Chat處我們首先測試下沒有經過領域數據集微調的模型回答的效果,大模型由于在早期的預訓練階段已經學習大量的公開知識,所以具備一定的知識儲備,但是這邊和我們期望的垂直應用的回答還是有一定的區別。


原始模型的回答

這邊我們選擇好剛才訓練的檢查點路徑,就可以體驗學習了新知識后的模型了


可以看出大模型已經把這些知識學進去了

在Swanlab中,我們也可以查看剛才訓練的各項參數曲線,下面的是我訓練過程的參數曲線(這邊我簡略地設置了下訓練參數,效果可能不佳,具體的需要考慮數據集的數量,基模型大小等因素)


SwanLab基線社區搜索作者ID cathelloya

4

四、 小結

本文紹了如何將領域內零散的知識文檔用于微調大語言模型。首先,通過MinerU等工具將PDF、DOCX等文件統一轉換為Markdown格式。接著,利用Easy-dataset并結合基礎大模型(如通過Ollama部署),將Markdown文檔內容自動化地構建成問答數據集。最后,使用LLaMA Factory框架加載此數據集對大模型進行微調,并借助SwanLab等工具實時監控訓練過程,從而訓練出一個能理解特定領域知識的垂直領域大模型。

5

相關鏈接:
1.SwanLab官方文檔 | 先進的AI團隊協作與模型創新引擎
https://docs.swanlab.cn/

2.easy-dataset/README.zh-CN.md at main · ConardLi/easy-dataset

https://github.com/ConardLi/easy-dataset/blob/main/README.zh-CN.md

3.MinerU

https://mineru.net/

4.Ollama

https://ollama.com/

5.安裝 - LLaMA Factory

https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

作者中國科學院大學研究生 徐秉煜

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

TVB的四小花
2025-06-16 02:57:47
杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

秘密清風
2025-06-27 14:01:20
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

醉臥浮生
2025-06-27 15:48:22
財政部:截至5月末全國地方政府債務余額512475億元

財政部:截至5月末全國地方政府債務余額512475億元

澎湃新聞
2025-06-27 10:36:06
艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

火山詩話
2025-06-26 06:42:34
當年為什么查辦褚時健?

當年為什么查辦褚時健?

顧史
2025-06-09 20:26:22
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

懂球帝
2025-06-27 08:40:19
洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

嘆知
2025-06-23 10:34:33
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

墻頭草
2025-04-01 12:00:11
昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

一盅情懷
2025-06-27 15:54:59
1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

金融界
2025-06-26 23:50:34
塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

東球弟
2025-06-27 12:34:08
笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

深析古今
2025-06-27 17:14:39
萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

史行途
2025-06-27 15:07:11
2025-06-27 21:44:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

手機
數碼
本地
公開課
軍事航空

手機要聞

小米MIX Flip2線下上手:體驗后,說說真實感受

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞:輕巧緊湊,銳龍AI Max+ 395加持

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒揭美軍37小時奔襲伊朗細節

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汪清县| 大连市| 晋州市| 安阳县| 山西省| 海兴县| 静乐县| 米林县| 顺平县| 南宁市| 沁水县| 平邑县| 扶余县| 定边县| 元朗区| 兰考县| 两当县| 凌海市| 尼勒克县| 万州区| 鸡泽县| 靖江市| 宁陵县| 温宿县| 三都| 六安市| 虞城县| 东明县| 常德市| 自治县| 大安市| 清原| 时尚| 探索| 车险| 莎车县| 香河县| 道真| 桂东县| 丽水市| 卢氏县|