99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

豆蔻婦科大模型再突破:釘釘行業訓練平臺+精標數據SFT ,準確率從 77.1%上升至 90.2%

0
分享至

文 | 王強宇

在醫療 AI 領域,通用大語言模型雖憑借海量互聯網數據訓練具備廣泛知識覆蓋面,但在需高度專業判斷的臨床場景中表現欠佳。當醫生詢問疾病鑒別診斷時,通用模型可能給出不準確甚至錯誤建議,這在嚴肅的醫療決策中不可接受。

大家都知道監督微調(SFT)技術是解決上述難題性價比較比較高的方案之一,但SFT也需要具體一定的條件:如高質的數據集,同時由于醫療數據的特殊性和復雜性,模型調優的過程可能非常耗時且難以預測。同時SFT是一個迭代優化的過程,需要不斷地對模型進行訓練、評測和優化。

豆蔻婦科大模型的模型調優經歷了兩個關鍵優化階段:

  • 第一階段(2025年4月):構建SFT基礎模型,采用1300條精標中文婦科問診數據作為訓練樣本,結合教師模型數據蒸餾和人工審核,使模型初步具備專業問診能力,初始準確率達77.1%。

  • 第二階段(2025年6月):通過針對性地合成癥狀數據,重新蒸餾、標注COT,篩選質量更高的數據等,重新進行微調訓練,使得婦科六大癥狀的診斷準確率最終達到了90.2%。此階段的優化策略包括嚴格科學的數據清洗重組流程、數據蒸餾校準技術及基于大模型的自動化評測系統+人工復審機制,該階段的訓練完全基于釘釘行業訓練平臺完成。

以下是豆蔻婦科大模型從第一個版本的準確率77.1%,通過進一步的SFT后,準確率達到90.2%我們團隊的一些方法和心得,供大家參考,歡迎留言討論。

一、訓練數據集的科學篩選(數據集構建與質量控制)

在對優質訓練數據集的篩選過程中,我們實施了三個關鍵步驟:

第一是系統化數據清理,通過建立嚴格的質量控制標準,重點關注推理與結果的一致性檢查,篩選出answer與ground truth不一致的樣本,特別是那些思考過程和輸出結果不一致的情況,這類數據被視為低質量數據。同時進行邏輯鏈條完整性驗證,確保每個診斷結論都有充分的癥狀支撐和推理依據,并對醫學常識合理性進行篩查,剔除違背基本醫學原理的數據,如"男性患者診斷為妊娠"這類明顯錯誤,以及癥狀關聯性不合理的數據,比如"無性生活但指定避孕方式是避孕套"的情況。


同時,對訓練數據集覆蓋度的平衡也做了一些策略:

  • 數據集中的數據,同時需要包含簡單以及復雜的病例數據,充分模擬真實世界的數據。

  • 涵蓋從青春期到更年期的全生命周期病例,以及常見病與罕見病的比例,避免模型出現診斷偏好。

第二是蒸餾數據的校準環節,這是確保思維鏈COT(Chain-of-Thought)數據質量的關鍵步驟。

所有COT數據必須保持推理一致性,COT必須能夠完整支撐最終的診斷結果,特別是在診斷優先級排序上要有明確依據。每個診斷的優先級都需要有清晰的醫學依據支撐,比如"妊娠排在第一位是因為患者月經推遲大于7天,且近期有性生活史"。


為保障鑒別診斷的完備性,需系統性覆蓋全部潛在鑒別診斷方案,并針對各診斷結論提供充分的醫學依據與論證支撐,蒸餾校準流程具體實施細則如下:

人工標注環節:由內部的專業醫學專家團隊,依據現行醫學行業標準,對癥狀數據實施規范化標注作業,構建標準化診斷結果集,為后續流程奠定基準參照體系。

模型推理環節:以標注后的癥狀數據及人工診斷結果為基準,借助教師模型開展推理運算,生成包含初步思維鏈(COT)的推理過程及診斷結論。

完整性質控環節:采用雙重驗證機制,重點核查以下核心要素:

格式規范性驗證:嚴格對照 “1 個最可能診斷 + 2-5 個其他潛在診斷 + 檢查項目建議 + 處置方案建議 + 注意事項說明” 的標準化輸出格式,確保診斷結果格式完整、規范;

診斷結論一致性驗證:通過將模型輸出的診斷結果與人工標注的標準答案進行逐點比對,保障二者完全契合,杜絕任何結論偏差。

智能自動化校驗:引入智能規則引擎,基于預設的醫學邏輯規則,對癥狀描述與診斷結論之間的匹配合理性進行自動化校驗。例如,針對 “患者出現陰道出血癥狀,診斷為宮頸病變” 等診斷結論,依據醫學知識庫中的關聯規則,自動評估其邏輯合理性與臨床可行性。

優化提升環節:由醫學專家團隊對質控后的結果進行人工校準與增強,通過迭代式蒸餾優化策略,持續完善數據質量,確保每個訓練樣本均具備完整且嚴謹的推理邏輯鏈條,以及精準可靠的診斷結論。


第三是持續迭代優化階段:使用優化后的模型對新數據進行推理生成,通過自動化評測系統篩選出評分8分以上的高質量樣本加入訓練集,進行新一輪SFT訓練,形成"訓練-評測-篩選-再訓練"的良性循環。在整個過程中,我們持續監控多項關鍵指標,包括模型在測試集上的準確率變化、六大核心癥狀的分項得分以及罕見病例的識別準確率,確保模型性能得到全方位提升。

二、雙重評估體系:確保醫學準確性

為了評測答案的準確性,我們構建了一套完整的模型質量評估體系,包含自動化評測和人工審核兩個關鍵環節(上圖)。在自動化評測方面,我們開發了基于大模型的裁判系統,該系統采用DeepSeek R1級別的高性能語言模型作為核心評測引擎,按照醫生制定的10分制標準對模型輸出進行客觀評分。這個自動化系統具有三大核心特點:首先,它采用模型驅動評測機制,確保評分過程的準確性和一致性;其次,通過將醫生的評估標準轉化為結構化的prompt,建立標準化的評分框架;最后,系統支持批量自動化處理,能夠快速完成大量樣本的評測,提升評估效率。


為補充自動化評測的不足,我們建立了嚴格的醫生修正反饋機制。由內部婦科專家團隊對模型輸出進行人工審核,特別關注那些處于評分邊界或存在爭議的邊緣案例。專家們會詳細檢查模型輸出的診斷建議,將修正意見反饋到訓練數據中,形成"評估-修正-優化"的閉環迭代機制。這個人機協同的評估體系既保證了評測效率,又確保了專業質量,為模型的持續優化提供了可靠保障。


經驗教訓與挑戰

在垂直領域模型訓練中,盡管有許多論文和教材提供指導,但實際操作中仍面臨諸多挑戰。初期,我們過度依賴了人工標注,導致訓練集數據積累緩慢、效率低下且成本高昂。后面經過策略的調整,設置了“機器蒸餾→專家審核→訓練后評估”的體系后,數據生產效率顯著提升。同時,針對思維鏈推理過程與最終診斷結果脫節的問題,建立嚴格的邏輯一致性檢查機制,確保每個推理步驟都能有效支撐最終結論,避免模型學習出現混亂。

訓練數據集過度集中在常見病,導致模型對罕見病識別能力不足。為此,我們采用平衡采樣策略,對罕見病例進行針對性采樣,確保各類疾病都能獲得足夠的訓練樣本。在評測標準方面,人工評測存在主觀性強、標準不統一的問題,我們引入另一個大模型作為標準化評測工具,有效保證了評分的客觀性和一致性。這些措施共同構成了一個完整的質量保障體系,為專業領域模型的開發提供了可靠支撐。

在醫療大模型的實際應用中,用戶的問題往往零散且不完整,需要模型具備多維思考模式。醫療領域的容錯率極低,大模型不僅要“說出知道的”,更要對依據不足或不確定的情況給出盡可能專業的診斷。豆蔻婦科大模型以真實臨床路徑為藍本,在病例分析過程中不僅精準定位“滴蟲性陰道炎”為首要診斷,還同步考慮性傳播疾病、宮頸病變等多種鑒別診斷,并基于患者17歲青春期特征納入“排卵障礙性出血”評估,形成多層級診斷網絡。這種“全鏈路思維”在復雜癥狀場景中尤為凸顯:當患者出現“灰黃色血性白帶 + 尿頻”復合癥狀時,模型通過邏輯鏈條解析,最終生成包含6項檢查建議(白帶常規、性傳播疾病核酸檢測等)及分層治療方案(甲硝唑用藥 + 性伴侶同治),從“疾病診斷”到“治療方案”的臨床全鏈路思考。這一過程對人力和醫學專業能力要求極高。


有人說訓練大模型,更多的是對數據的清洗、標注,對并模型給出的答案不斷進行反饋、糾正。我們不是在教機器“選對答案”,而是在讓 AI 學會像醫生一樣思考,這也是醫療大模型最大的挑戰

關于訓練平臺

這一次,我們選擇了釘釘企業專屬AI平臺,作為我們的訓練調優核心工具。釘釘企業專屬AI平臺是一款一站式企業專屬大模型生產平臺,專為有調優、后訓練需求的企業和開發者量身打造,提供從數據治理、高效訓練到靈活部署的完整端到端工具鏈,全方位助力企業實現大模型的高效落地與優化。

在這一階段的調優過程中,釘釘企業專屬AI平臺發揮了至關重要的作用。它覆蓋SFT/RFT(GRPO)兩種訓練方法,提供分布式訓練、多Lora部署等加速優化手段,通過頁面后臺和SDK兩種模式,為我們的訓練調優提供了強大的技術支持。在釘釘專業技術人員的緊密協同下,我們實現了訓練效率的大幅提升,將單次訓練時長從26小時縮短至7小時,降幅高達73%。這一顯著的優化成果,充分體現了釘釘煉丹爐大模型服務平臺在提升訓練效率、降低訓練成本方面的卓越價值,也彰顯了釘釘在大模型訓練領域的強大技術實力和專業服務能力。

SFT作為醫學大模型構建基礎能力的核心環節,其重要性不言而喻。它不僅是模型能否輸出符合醫學規范安全建議的關鍵,更是通過高質量思維鏈數據的訓練,使模型得以掌握標準診斷邏輯、實現推理透明化,并廣泛覆蓋常見臨床場景的基礎。

展望未來,我們團隊將積極探索SFT+RL的協同訓練范式,以應對臨床推理中的雙重挑戰。SFT將確保模型對基礎醫學知識的結構化掌握,培養起“循證思維”;而RL則將在實際應用中錘煉模型的判斷力,助其形成“臨床直覺”。我們堅信,這種雙重訓練模式將使AI不僅具備給出符合醫學指南建議的能力,更能針對復雜病例進行上下文感知的個性化推理,最終實現從“醫學詞典”到“會診專家”的華麗蛻變。讓我們共同期待這一天的到來!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
武漢一酒店實行“24小時退房制” 住滿24小時算一天

武漢一酒店實行“24小時退房制” 住滿24小時算一天

閃電新聞
2025-07-11 11:09:41
合同到期!福建隊后衛接近離隊,場均7.6分,助攻能力媲美趙繼偉

合同到期!福建隊后衛接近離隊,場均7.6分,助攻能力媲美趙繼偉

體壇大事記
2025-07-11 15:59:10
8個月,24部作品,出道即巔峰,新有菜,你有沒有認識她?

8個月,24部作品,出道即巔峰,新有菜,你有沒有認識她?

說真話的小陳
2025-07-10 14:52:32
韓旭談張子宇:很開心跟比自己高那么多的人同臺競技

韓旭談張子宇:很開心跟比自己高那么多的人同臺競技

懂球帝
2025-07-11 15:48:07
江蘇村霸聶元元橫行十余年,碾死一只雞索要180萬,因搶生意覆滅

江蘇村霸聶元元橫行十余年,碾死一只雞索要180萬,因搶生意覆滅

天夢見證
2025-03-09 23:29:33
玉米阿姨家庭被扒:老伴早逝,兒子重病纏身,被救女子做法亮了

玉米阿姨家庭被扒:老伴早逝,兒子重病纏身,被救女子做法亮了

二月侃事
2025-07-10 11:28:28
字母哥:C羅是GOAT&他該拿到更多金球獎的 梅西則更是天賦使然

字母哥:C羅是GOAT&他該拿到更多金球獎的 梅西則更是天賦使然

直播吧
2025-07-11 13:51:43
“治港敗類”曾蔭權:治理香港7年,為何卻在卸任后,獲刑20個月

“治港敗類”曾蔭權:治理香港7年,為何卻在卸任后,獲刑20個月

星光看娛樂
2025-03-31 17:52:22
CCTV5直播!中國女籃VS印尼,張子宇挑大梁,宮魯鳴重用李夢替身

CCTV5直播!中國女籃VS印尼,張子宇挑大梁,宮魯鳴重用李夢替身

老葉評球
2025-07-11 10:56:37
剛剛!蘋果官網開啟「買一送一」了!

剛剛!蘋果官網開啟「買一送一」了!

哎咆
2025-07-11 15:58:00
孫穎莎、王曼昱雙雙出局事出有因,王勵勤、馬琳被稱為首要責任人

孫穎莎、王曼昱雙雙出局事出有因,王勵勤、馬琳被稱為首要責任人

金風說
2025-07-11 11:51:03
江蘇一老太癱瘓4年被查懷孕,兒子查看監控后愣住了

江蘇一老太癱瘓4年被查懷孕,兒子查看監控后愣住了

徐俠客有話說
2025-07-10 10:04:50
布朗尼談防守弗拉格:他比我高了15厘米 我就是站住自己的位置

布朗尼談防守弗拉格:他比我高了15厘米 我就是站住自己的位置

直播吧
2025-07-11 11:43:15
特朗普:不配合的國家征收70%關稅,有12個國家上了“黑名單”

特朗普:不配合的國家征收70%關稅,有12個國家上了“黑名單”

現代小青青慕慕
2025-07-11 00:02:35
旅行團遭洗劫后續!大使館出面,意大利警方改口,游客曝更多內幕

旅行團遭洗劫后續!大使館出面,意大利警方改口,游客曝更多內幕

阿纂看事
2025-07-08 17:31:10
1950年哈工大學生孫家棟,決定吃了食堂紅燒肉再回家,卻改變一生

1950年哈工大學生孫家棟,決定吃了食堂紅燒肉再回家,卻改變一生

說一說歷史
2025-07-04 15:26:24
太開放了!屁股夾衣服高開叉到腰!美女超市購物穿成這樣?

太開放了!屁股夾衣服高開叉到腰!美女超市購物穿成這樣?

說點真嘞叭
2025-06-23 08:36:25
1975年,銅樽要被送往日本展覽,專家馬承源摸了一下竟有意外發現

1975年,銅樽要被送往日本展覽,專家馬承源摸了一下竟有意外發現

百態人間
2025-07-10 11:43:58
南寧市邕武路13-1號宏躍球館工程項目5?3事故查明,一工人墜亡

南寧市邕武路13-1號宏躍球館工程項目5?3事故查明,一工人墜亡

中國基建報
2025-07-11 09:14:53
物是人非?林詩棟再次公開談樊振東,才懂小胖在國乒13年失去什么

物是人非?林詩棟再次公開談樊振東,才懂小胖在國乒13年失去什么

行舟問茶
2025-06-28 02:28:46
2025-07-11 17:12:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
120687文章數 860786關注度
往期回顧 全部

健康要聞

呼吸科專家破解呼吸道九大謠言!

頭條要聞

俄羅斯考慮放棄唯一現役航母:修了8年沒修好 或拆解

頭條要聞

俄羅斯考慮放棄唯一現役航母:修了8年沒修好 或拆解

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

新聞聯播鏡頭下的宋佳面相變了

財經要聞

管濤:百年美元信用將崩塌?

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態度原創

親子
數碼
藝術
本地
公開課

親子要聞

忍一時越想越氣,退一步嗷嗷大哭

數碼要聞

精粵推出 Z890 Snow Dream MAX 主板,1088 元

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乌恰县| 涟源市| 济阳县| 公安县| 新晃| 高唐县| 中宁县| 大英县| 乐清市| 十堰市| 丁青县| 陇南市| 罗江县| 岐山县| 东乌珠穆沁旗| 灌阳县| 德昌县| 乌拉特后旗| 永城市| 五华县| 平武县| 崇仁县| 华容县| 周口市| 海城市| 兴隆县| 莫力| 瑞安市| 肥乡县| 滦平县| 会理县| 双峰县| 庄河市| 盈江县| 子洲县| 怀集县| 镇江市| 正镶白旗| 元氏县| 师宗县| 五莲县|