99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

豆蔻婦科大模型再突破:釘釘行業訓練平臺+精標數據SFT ,準確率從 77.1%上升至 90.2%

0
分享至

文 | 王強宇

在醫療 AI 領域,通用大語言模型雖憑借海量互聯網數據訓練具備廣泛知識覆蓋面,但在需高度專業判斷的臨床場景中表現欠佳。當醫生詢問疾病鑒別診斷時,通用模型可能給出不準確甚至錯誤建議,這在嚴肅的醫療決策中不可接受。

大家都知道監督微調(SFT)技術是解決上述難題性價比較比較高的方案之一,但SFT也需要具體一定的條件:如高質的數據集,同時由于醫療數據的特殊性和復雜性,模型調優的過程可能非常耗時且難以預測。同時SFT是一個迭代優化的過程,需要不斷地對模型進行訓練、評測和優化。

豆蔻婦科大模型的模型調優經歷了兩個關鍵優化階段:

  • 第一階段(2025年4月):構建SFT基礎模型,采用1300條精標中文婦科問診數據作為訓練樣本,結合教師模型數據蒸餾和人工審核,使模型初步具備專業問診能力,初始準確率達77.1%。

  • 第二階段(2025年6月):通過針對性地合成癥狀數據,重新蒸餾、標注COT,篩選質量更高的數據等,重新進行微調訓練,使得婦科六大癥狀的診斷準確率最終達到了90.2%。此階段的優化策略包括嚴格科學的數據清洗重組流程、數據蒸餾校準技術及基于大模型的自動化評測系統+人工復審機制,該階段的訓練完全基于釘釘行業訓練平臺完成。

以下是豆蔻婦科大模型從第一個版本的準確率77.1%,通過進一步的SFT后,準確率達到90.2%我們團隊的一些方法和心得,供大家參考,歡迎留言討論。

一、訓練數據集的科學篩選(數據集構建與質量控制)

在對優質訓練數據集的篩選過程中,我們實施了三個關鍵步驟:

第一是系統化數據清理,通過建立嚴格的質量控制標準,重點關注推理與結果的一致性檢查,篩選出answer與ground truth不一致的樣本,特別是那些思考過程和輸出結果不一致的情況,這類數據被視為低質量數據。同時進行邏輯鏈條完整性驗證,確保每個診斷結論都有充分的癥狀支撐和推理依據,并對醫學常識合理性進行篩查,剔除違背基本醫學原理的數據,如"男性患者診斷為妊娠"這類明顯錯誤,以及癥狀關聯性不合理的數據,比如"無性生活但指定避孕方式是避孕套"的情況。


同時,對訓練數據集覆蓋度的平衡也做了一些策略:

  • 數據集中的數據,同時需要包含簡單以及復雜的病例數據,充分模擬真實世界的數據。

  • 涵蓋從青春期到更年期的全生命周期病例,以及常見病與罕見病的比例,避免模型出現診斷偏好。

第二是蒸餾數據的校準環節,這是確保思維鏈COT(Chain-of-Thought)數據質量的關鍵步驟。

所有COT數據必須保持推理一致性,COT必須能夠完整支撐最終的診斷結果,特別是在診斷優先級排序上要有明確依據。每個診斷的優先級都需要有清晰的醫學依據支撐,比如"妊娠排在第一位是因為患者月經推遲大于7天,且近期有性生活史"。


為保障鑒別診斷的完備性,需系統性覆蓋全部潛在鑒別診斷方案,并針對各診斷結論提供充分的醫學依據與論證支撐,蒸餾校準流程具體實施細則如下:

人工標注環節:由內部的專業醫學專家團隊,依據現行醫學行業標準,對癥狀數據實施規范化標注作業,構建標準化診斷結果集,為后續流程奠定基準參照體系。

模型推理環節:以標注后的癥狀數據及人工診斷結果為基準,借助教師模型開展推理運算,生成包含初步思維鏈(COT)的推理過程及診斷結論。

完整性質控環節:采用雙重驗證機制,重點核查以下核心要素:

格式規范性驗證:嚴格對照 “1 個最可能診斷 + 2-5 個其他潛在診斷 + 檢查項目建議 + 處置方案建議 + 注意事項說明” 的標準化輸出格式,確保診斷結果格式完整、規范;

診斷結論一致性驗證:通過將模型輸出的診斷結果與人工標注的標準答案進行逐點比對,保障二者完全契合,杜絕任何結論偏差。

智能自動化校驗:引入智能規則引擎,基于預設的醫學邏輯規則,對癥狀描述與診斷結論之間的匹配合理性進行自動化校驗。例如,針對 “患者出現陰道出血癥狀,診斷為宮頸病變” 等診斷結論,依據醫學知識庫中的關聯規則,自動評估其邏輯合理性與臨床可行性。

優化提升環節:由醫學專家團隊對質控后的結果進行人工校準與增強,通過迭代式蒸餾優化策略,持續完善數據質量,確保每個訓練樣本均具備完整且嚴謹的推理邏輯鏈條,以及精準可靠的診斷結論。


第三是持續迭代優化階段:使用優化后的模型對新數據進行推理生成,通過自動化評測系統篩選出評分8分以上的高質量樣本加入訓練集,進行新一輪SFT訓練,形成"訓練-評測-篩選-再訓練"的良性循環。在整個過程中,我們持續監控多項關鍵指標,包括模型在測試集上的準確率變化、六大核心癥狀的分項得分以及罕見病例的識別準確率,確保模型性能得到全方位提升。

二、雙重評估體系:確保醫學準確性

為了評測答案的準確性,我們構建了一套完整的模型質量評估體系,包含自動化評測和人工審核兩個關鍵環節(上圖)。在自動化評測方面,我們開發了基于大模型的裁判系統,該系統采用DeepSeek R1級別的高性能語言模型作為核心評測引擎,按照醫生制定的10分制標準對模型輸出進行客觀評分。這個自動化系統具有三大核心特點:首先,它采用模型驅動評測機制,確保評分過程的準確性和一致性;其次,通過將醫生的評估標準轉化為結構化的prompt,建立標準化的評分框架;最后,系統支持批量自動化處理,能夠快速完成大量樣本的評測,提升評估效率。


為補充自動化評測的不足,我們建立了嚴格的醫生修正反饋機制。由內部婦科專家團隊對模型輸出進行人工審核,特別關注那些處于評分邊界或存在爭議的邊緣案例。專家們會詳細檢查模型輸出的診斷建議,將修正意見反饋到訓練數據中,形成"評估-修正-優化"的閉環迭代機制。這個人機協同的評估體系既保證了評測效率,又確保了專業質量,為模型的持續優化提供了可靠保障。


經驗教訓與挑戰

在垂直領域模型訓練中,盡管有許多論文和教材提供指導,但實際操作中仍面臨諸多挑戰。初期,我們過度依賴了人工標注,導致訓練集數據積累緩慢、效率低下且成本高昂。后面經過策略的調整,設置了“機器蒸餾→專家審核→訓練后評估”的體系后,數據生產效率顯著提升。同時,針對思維鏈推理過程與最終診斷結果脫節的問題,建立嚴格的邏輯一致性檢查機制,確保每個推理步驟都能有效支撐最終結論,避免模型學習出現混亂。

訓練數據集過度集中在常見病,導致模型對罕見病識別能力不足。為此,我們采用平衡采樣策略,對罕見病例進行針對性采樣,確保各類疾病都能獲得足夠的訓練樣本。在評測標準方面,人工評測存在主觀性強、標準不統一的問題,我們引入另一個大模型作為標準化評測工具,有效保證了評分的客觀性和一致性。這些措施共同構成了一個完整的質量保障體系,為專業領域模型的開發提供了可靠支撐。

在醫療大模型的實際應用中,用戶的問題往往零散且不完整,需要模型具備多維思考模式。醫療領域的容錯率極低,大模型不僅要“說出知道的”,更要對依據不足或不確定的情況給出盡可能專業的診斷。豆蔻婦科大模型以真實臨床路徑為藍本,在病例分析過程中不僅精準定位“滴蟲性陰道炎”為首要診斷,還同步考慮性傳播疾病、宮頸病變等多種鑒別診斷,并基于患者17歲青春期特征納入“排卵障礙性出血”評估,形成多層級診斷網絡。這種“全鏈路思維”在復雜癥狀場景中尤為凸顯:當患者出現“灰黃色血性白帶 + 尿頻”復合癥狀時,模型通過邏輯鏈條解析,最終生成包含6項檢查建議(白帶常規、性傳播疾病核酸檢測等)及分層治療方案(甲硝唑用藥 + 性伴侶同治),從“疾病診斷”到“治療方案”的臨床全鏈路思考。這一過程對人力和醫學專業能力要求極高。


有人說訓練大模型,更多的是對數據的清洗、標注,對并模型給出的答案不斷進行反饋、糾正。我們不是在教機器“選對答案”,而是在讓 AI 學會像醫生一樣思考,這也是醫療大模型最大的挑戰

關于訓練平臺

這一次,我們選擇了釘釘企業專屬AI平臺,作為我們的訓練調優核心工具。釘釘企業專屬AI平臺是一款一站式企業專屬大模型生產平臺,專為有調優、后訓練需求的企業和開發者量身打造,提供從數據治理、高效訓練到靈活部署的完整端到端工具鏈,全方位助力企業實現大模型的高效落地與優化。

在這一階段的調優過程中,釘釘企業專屬AI平臺發揮了至關重要的作用。它覆蓋SFT/RFT(GRPO)兩種訓練方法,提供分布式訓練、多Lora部署等加速優化手段,通過頁面后臺和SDK兩種模式,為我們的訓練調優提供了強大的技術支持。在釘釘專業技術人員的緊密協同下,我們實現了訓練效率的大幅提升,將單次訓練時長從26小時縮短至7小時,降幅高達73%。這一顯著的優化成果,充分體現了釘釘煉丹爐大模型服務平臺在提升訓練效率、降低訓練成本方面的卓越價值,也彰顯了釘釘在大模型訓練領域的強大技術實力和專業服務能力。

SFT作為醫學大模型構建基礎能力的核心環節,其重要性不言而喻。它不僅是模型能否輸出符合醫學規范安全建議的關鍵,更是通過高質量思維鏈數據的訓練,使模型得以掌握標準診斷邏輯、實現推理透明化,并廣泛覆蓋常見臨床場景的基礎。

展望未來,我們團隊將積極探索SFT+RL的協同訓練范式,以應對臨床推理中的雙重挑戰。SFT將確保模型對基礎醫學知識的結構化掌握,培養起“循證思維”;而RL則將在實際應用中錘煉模型的判斷力,助其形成“臨床直覺”。我們堅信,這種雙重訓練模式將使AI不僅具備給出符合醫學指南建議的能力,更能針對復雜病例進行上下文感知的個性化推理,最終實現從“醫學詞典”到“會診專家”的華麗蛻變。讓我們共同期待這一天的到來!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比特幣突然狂飆,超19萬人爆倉!

比特幣突然狂飆,超19萬人爆倉!

證券時報e公司
2025-07-11 07:49:22
由校轉政!鄭州大學黨委書記調任河南教育廳長,是升職了嗎?

由校轉政!鄭州大學黨委書記調任河南教育廳長,是升職了嗎?

史座y
2025-07-11 10:07:00
四川青年競技再發聲:我們是消極比賽,那國足0-3韓國是什么

四川青年競技再發聲:我們是消極比賽,那國足0-3韓國是什么

懂球帝
2025-07-11 09:03:03
青島今天最高34℃,高溫還將持續10天!

青島今天最高34℃,高溫還將持續10天!

先鋒新聞
2025-07-11 07:01:05
2025年養老金上漲2%,養老金調整方案,三步走上調,3類人多漲

2025年養老金上漲2%,養老金調整方案,三步走上調,3類人多漲

史行途
2025-07-10 16:18:05
泰總理又換人?佩通坦王者歸來,美包機直飛亞洲,把泰國安排妥了

泰總理又換人?佩通坦王者歸來,美包機直飛亞洲,把泰國安排妥了

通鑒史智
2025-07-11 08:37:15
我爸59歲鬧離婚,我媽秒答應,走出民政局我媽催:趕緊收拾東西走

我爸59歲鬧離婚,我媽秒答應,走出民政局我媽催:趕緊收拾東西走

詭譎怪談
2025-07-11 07:20:14
這次孫菲菲的爆料,將王陽的“體面”撕得稀碎,蔣欣的清醒是對的

這次孫菲菲的爆料,將王陽的“體面”撕得稀碎,蔣欣的清醒是對的

頭號劇委會
2025-07-08 20:27:49
原來我吃的都是荔枝“尸體”?兩廣人,跟你們拼了!

原來我吃的都是荔枝“尸體”?兩廣人,跟你們拼了!

躺倒鴨
2025-07-10 13:45:04
全球最大成人網站OnlyFans賣身了,原來只值這個價?

全球最大成人網站OnlyFans賣身了,原來只值這個價?

差評XPIN
2025-07-11 00:11:44
中國需準備應對俄羅斯解體,確保700萬土地安全

中國需準備應對俄羅斯解體,確保700萬土地安全

阿釗是個小小評論員
2025-07-09 17:34:00
孫穎莎、王曼昱為何全爆冷,兩大短板遭針對,世界前二輸得不冤

孫穎莎、王曼昱為何全爆冷,兩大短板遭針對,世界前二輸得不冤

清游說娛
2025-07-11 12:44:52
1954年,彭德懷和李志強閑聊時,給她橘子吃,李:我來不是為了吃

1954年,彭德懷和李志強閑聊時,給她橘子吃,李:我來不是為了吃

簡史檔案館
2025-07-10 10:35:03
孫一寧線下居然長這樣...

孫一寧線下居然長這樣...

喜歡歷史的阿繁
2025-07-11 06:14:36
當初掏空家底,舉債120億收購沃爾沃,如今15年過去,吉利賺了多少

當初掏空家底,舉債120億收購沃爾沃,如今15年過去,吉利賺了多少

楊哥歷史
2025-04-09 10:28:49
澳外長拱火:美國不想與中國交戰,但…

澳外長拱火:美國不想與中國交戰,但…

觀察者網
2025-07-11 09:54:15
再簽5年2.87億!雷霆為何豪擲8.22億留下新三少?4大理由給出答案

再簽5年2.87億!雷霆為何豪擲8.22億留下新三少?4大理由給出答案

鍋子籃球
2025-07-11 11:08:31
在健身房,被惡心到了。

在健身房,被惡心到了。

健身迷
2025-07-02 00:21:44
被指行李過多?國足官方回應:為此向公眾介紹一些基本信息和常識

被指行李過多?國足官方回應:為此向公眾介紹一些基本信息和常識

直播吧
2025-07-10 21:10:48
如果你最近經常無意識做出這個動作,立刻!馬上休息!

如果你最近經常無意識做出這個動作,立刻!馬上休息!

奔波兒灞與灞波兒奔
2025-07-09 22:14:43
2025-07-11 13:47:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
120670文章數 860785關注度
往期回顧 全部

健康要聞

呼吸科專家破解呼吸道九大謠言!

頭條要聞

白家犯罪細節披露:強迫20名女子賣淫 不接客關小黑屋

頭條要聞

白家犯罪細節披露:強迫20名女子賣淫 不接客關小黑屋

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結束

娛樂要聞

楊少華靈堂細節 楊家兒子榨干老父親?

財經要聞

"它經濟"崛起 國產品牌快速追趕國際巨頭

科技要聞

李斌豁出去了!5米大車預售不到20萬

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態度原創

本地
旅游
房產
教育
軍事航空

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

重磅!招商+平安出手,拿下海南440畝灣區大盤!

教育要聞

特別的緣分!603分、604分!同班同學一起上湖大!

軍事要聞

俄羅斯對烏克蘭發動最大規模無人機襲擊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 璧山县| 余干县| 浦江县| 哈巴河县| 桑植县| 曲沃县| 永康市| 宝清县| 临朐县| 遵化市| 朔州市| 大埔区| 遵义市| 株洲市| 理塘县| 咸阳市| 三台县| 宁武县| 富顺县| 科尔| 鸡东县| 奉节县| 中宁县| 永康市| 册亨县| 新疆| 神农架林区| 沙洋县| 兰溪市| 洞口县| 广饶县| 江西省| 犍为县| 津市市| 翁牛特旗| 迁西县| 江门市| 黑龙江省| 五华县| 新余市| 泗水县|