網易首頁 > 網易號 > 正文申請入駐

國內首個通過主任醫師評測的大模型來了！免費用，技術秘籍公開

2025-07-23 20:02:06　來源: 智東西

北京舉報

分享至

智東西
作者 ZeR0
編輯漠影

國內首個通過主任醫師評測的大模型，已在夸克AI搜索上線。

智東西7月23日報道，今日，夸克宣布夸克健康大模型成功通過中國12門核心學科的主任醫師筆試評測，創國內首例，展現出垂類大模型在醫學領域的應用潛力。

12門核心學科分別是：普通內科學、普通外科學、婦產科學、兒科學、皮膚與性病、腫瘤內科學、耳鼻咽喉學、麻醉學、口腔醫學、眼科學、精神病學。

在垂類模型與通用模型對比中，夸克健康大模型在初級、中級、副高、高級醫療場景中的答題正確率均超過新版DeepSeek-R1和o3-mini，并呈現出難度越高、領先優勢越明顯的性能曲線，展現出在復雜醫學推理任務中的突破。

這是繼5月通過副主任醫師職稱考試后，夸克健康大模型能力的又一次升級。

“主任級AI醫生”能力已集成到夸克的AI搜索中。

用戶用夸克查詢健康問題時，選擇深度搜索即可調用，相當于配備了一個線上的專業醫生。

夸克健康算法負責人徐健，夸克健康運營負責人、心內科副主任醫師趙存忠，夸克健康產品負責人姚垚，與智東西等媒體進行深入交流，詳細解讀了夸克健康大模型的背后技術細節與夸克健康產品策略。

夸克健康大模型以通義千問為基礎，針對醫學垂類場景進行深度工程化。據夸克健康算法負責人徐健分享，其模型的核心特點與技術構建策略包括：

知識性強，用高質量數據繼續訓練底座大模型；
正確性對齊技術，把握住錯誤邊界；
引入慢思考能力，基于高質量推理訓練數據，通過強化學習構建推理大模型，驅動模型在面對復雜醫療問題時，能夠分階段、層層深入地推導出最終答案，提升在案例分析題等上的效果。

在接受采訪期間，徐健、趙存忠、姚垚總結了夸克健康對風險控制的全方位約束策略：

事前，通過底層算法和數據工作預防，產品滿意度準確率達標后才會上線；
事中，模型對敏感或不確定問題拒答，產品設計兜底話術、增加溯源引用，采取機器抽查、人工抽查等策略，并對用戶問題分類界定、分層處理；
事后，根據用戶反饋，反復迭代改進模型。

趙存忠告訴智東西，夸克健康大模型會在線滿足普適化需求的基礎上，后續針對各類有高頻需求的主流學科去做針對性訓練，對嚴肅醫療診斷類的一些專科或疑難雜癥進一步深入。

當智東西問到如何兼顧讓用戶易理解和表達準確性，姚垚告訴智東西，兩者的提升并不矛盾，夸克健康在整體回復樣本設計上追求對用戶的實用性，在技術上持續提升準確率，在內容定義時關注讓回答更易理解。徐健補充說，文字風格遷移不是技術難點，夸克多年來做內容科普使其擅長于此，大模型擬合能力非常強。

姚垚透露說，夸克當前有2億月活用戶，健康需求很大，健康產品的信任感會影響對整個平臺的信任。

據分享，未來，夸克健康業務目標堅定，以滿足C端用戶科普需求為主，短期內聚焦幫用戶解決健康問題，關注用戶滿意度、留存、活躍度等情況，不考慮做強商業化嘗試。

一、基于通義千問，訓練臨床思維，構建慢思考能力

夸克健康大模型通過真實醫生標注、“問—思—答”整組數據驅動強化學習，不僅掌握醫學知識，而且醫學思維的路徑選擇、證據整合與多解平衡能力。

其核心突破之一，是構建出“慢思考能力”，打造多階段慢思考推理系統，從表象判斷到深度病因分析，學會醫學臨床診療思維。

這一能力融合了鏈式推理與多階段臨床演繹路徑建模，驅動模型在面對復雜醫療問題時分階層層推導，先推病，再解題，從病史分析、初步診斷、鑒別診斷、結合選項分析到總結得出答案。

而構建慢思考能力的前提，是擁有高質量推理訓練數據。

為此，夸克構建了“雙數據產線 + 雙獎勵機制”的工程體系。

訓練數據上，將醫學數據劃分為“可驗證”和“不可驗證”兩類，分別對應診斷類任務和健康建議類任務。

夸克以“病藥術檢”任務為訓練主線，構建有特色的醫療領域可驗證推理任務，覆蓋疾病推理、檢查推理、疾病推理、手術推理、藥品推理等。

訓練方法上，引入“過程獎勵模型”和“結果獎勵模型”，分別評估模型推理鏈的合理性與最終結論的準確性，根據反饋進行調整，顯著提升模型的臨床可解釋性和推理一致性。

其體系設計了多階段強化學習流程，包括冷啟動數據的嚴格人工校驗、多輪樣本篩選與難度遞進訓練策略，以及用于防止“高分投機”的作弊識別機制。

談到夸克健康大模型的優勢，徐健總結了三點：（1）差異化，在專業數據投入更大精力；（2）產品具備更強實操性，提供明確的就醫建議；（3）讓內容變得更可信，主要策略包括加固循證、強化推理可解釋性等。

二、4大類數據建設和評估，三招降幻覺+提高準確率

優質數據建設、正確性對齊及循證技術、醫療慢思考推理能力，缺一不可。

在構建大規模高質量醫療領域數據及語料上，夸克對4大類數據（資料庫、病歷、知識庫、合成數據）進行建設和評估。

1、全面的數據分類與評估：根據科室分布、實體、循證等級、meta信息等，篩選真正有價值的醫療高價值數據。

2、語料探查技術指引目標：基于醫療強大的檢索能力，進行數據層探查，搜索/知識覆蓋率達到95%+。

3、時效性更新技術：新熱挖掘、數據接口輪詢等，獲得最新藥品官方數據等。

4、圖譜及合成數據設計：知識轉譯、知識析構等。

夸克遵循數據驅動的長期迭代主義，構建可規模化的優質數據合成產線和訓練：精細治理診療數據，擴大可用數據量級；在強化過程中構建的推理過程和推理結果的準確獎勵，復用在數據篩選中；模型和數據螺旋迭代升級的，自動化的數據分層采樣管道，實現規模化的樣本加工、合成和分布控制；人類專家集中產能處理痛點數據-冷啟動中臨床思維的標注。

為了提高專業性，夸克健康大模型擁有千人規模的專業醫師標注團隊，其中超過400名均為副主任醫師及以上的高資歷醫療專家。

徐健說，用戶原始數據不會被用于訓練，只會將經過用戶授權的數據脫敏加工后，再用于改進模型效果。

健康醫療大模型的問答，容錯率遠低于常規通用大模型。夸克用三招來提高模型回答的準確性。

第一招，通過訓練的全鏈路正確性微調，嚴格控制模型內在幻覺。

比如，藥品相關信息如果輸入錯了，就會出現藥不對癥、可能影響健康的。對此，夸克在預訓練知識注入階段，覆蓋國內外全部藥品說明書；在用藥能力微調（SFT）階段，構建N個藥品使用對齊任務，單獨激發把事情做對的穩定性；在錯誤反饋對齊（RLHF）階段，形成錯誤-正確的正負力，使用RM數據增強技術、負反饋抑制錯誤能力。

第二招，構建百萬量級臨床術語集和知識圖譜，通過底層的權威醫學知識庫，確保模型輸出內容專業、及時。

第三招，通過深度搜索技術及循證數據體系，強化外在正確性，讓輸出結果透明有依據。

三、多類診療場景準確率與人類醫生相當，主任醫師現身給夸克“批卷”

從診療效果來看，在門診常見病場景下，夸克健康大模型診斷top1準確率達到90.78%，與人類醫生書寫的病歷準確率水平相當。在疑難病例上，模型top1準確率達到85.51%；單從診斷任務能力上近似可看成三級醫院全科主任級別能力，足以作為大多數醫生好用的助手。

當然，考試只是衡量大模型的維度之一，實際體驗才是硬本事。

安貞醫院心臟外科主任醫師謝進生認為，夸克在一些問題上回答專業度比專業醫生還要強。

北京大學人民醫院皮膚科主任醫師、教授、碩士生導師李厚敏在試用夸克健康大模型后感受到危機感，認為這樣的AI工具確實改變診療過程，為醫生減負。

她分別展示了從主任醫師角度和從患者角度提問的示例。

在一個從醫生角度提問的案例中，李厚敏評價夸克給出的答案有這些亮點：方案全面，結構清晰，治療分段合理，符合臨床路徑，實操指導性強，關注患者心理應對及長期管理。

她也給出了如何做得更好的建議：方案中沒有說明各階段干預的時機、療效觀察點及聯合治療順序，略欠動態管理指導價值。

一類從患者角度的常見皮膚病提問是：臉上反復長痘，醫生給開了激素類外用藥，但自己比較猶豫，擔心激素會讓皮膚變薄、依賴，停藥后會更嚴重，不敢用，該怎么辦？

李厚敏認為夸克在明確用藥必要性方面的回復很科學，有助于緩解患者恐懼，并向患者提供多種替代方案選擇、傳達綜合治療管理理念。不過，回答中沒有明確提及激素的特點和“緩撤藥”、“維持期隔日/間斷用藥”等具體策略，略有欠缺關于定期復診或建立長期隨訪計劃的提示。

在她看來，AI應用能夠幫助皮膚科輔助診斷與分型，提高早期識別率，并優化隨訪管理與個性化治療方案。

精神科與皮膚科的需求有所不同。

武漢大學人民醫院精神衛生中心負責人、主任醫師、教授、博士生導師王惠玲也用常用的專業臨床問題來考驗夸克。從結果來看，她評價夸克的回答邏輯清晰，符合臨床實際流程，所給建議的操作性很強，符合臨床實際處理習慣，策略制定有據可循。

就優化方案而言，她建議在策略制定上應該更加重視患者可能存在的不良意念風險，建議增加干預自殺危機的響應策略。

從患者角度，一類常見問題是：被醫生診斷抑郁并給出用藥建議，但擔心服藥會成癮、帶來巨大的副作用。

王惠玲評價說，夸克的回答簡單通俗地指出了患者的“成癮”誤區，可降低醫患溝通成本，并分層列出常見及罕見副作用，在用藥建議上還提供了輔助的非藥物干預方式。不過回答中缺少在實際醫患溝通中精神科醫生對患者的“共情”，情感支持稍顯不足。

在她看來，AI應用能幫助精神科分析語音模式、書寫內容、可穿戴設備數據等，量化患者的情緒波動，輔助識別早期惡化信號，為醫生提供更客觀的參考。另外，很多患者存在病恥感，在線匿名的AI心理教育工具或其他在線咨詢入口，能讓更多患者敢于邁出求助的第一步。

需注意的是，AI無法替代醫生精準評估不良意念所帶來的風險，也很難在治療不理想時用共情給患者足夠寬慰。

四、中國超50%醫學生都在用夸克

憑借在醫學領域的專業性，夸克AI搜索吸引了一大批醫學生和醫生群體。

據夸克健康運營負責人趙存忠分享，夸克健康產品主要面向C端，圍繞兩類場景，一是基于搜索場景的權威健康顧問，幫普通人解決日常健康問題；二是基于醫護人員的專業成長助手，幫醫學生解決涉及臨床診療、學習、資料類、考試專業需求的專業問題。

夸克健康為用戶提供知識科普、生活指導、健康管理、疾病診療的全面服務，能提高健康知識的普及性、用戶自我健康管理能力、全民健康素養，有效提高醫療資源可利用性和普及性。

目前夸克健康積累的用戶大多為年輕人，18-40歲居多，通常在上午開始搜索健康問題，晚上則是了解健康問題的最高峰。

夸克健康在全國醫學生中月活用戶（MAU）已突破200萬，覆蓋率過半。他們廣泛使用夸克做三件事：基礎知識搜索、考試備考AI搜題、臨床輔助診療。

面向醫學生，夸克做了三大核心需求產品：解題查解析（AI搜題），術語解釋（專業問答），教材知識點（專業百科）。其專業搜索將逐步延伸到低年資醫生等垂直人群，滿足臨床的知識查詢和處理決策、用藥需求，并涵蓋高年資醫生的科研、學術搜索及高效工作。

五、曬夸克健康搜索“全家福”，做有溫度的AI健康顧問

夸克的健康搜索內容體系，包括夸克健康百科、夸克健康問答等產品。

夸克健康百科包含醫典百科、就醫指南；夸克健康問答包括通用問答、AIGC問答、SGS問答、深度搜索、健康助手自診、學術搜索、包含專業資料的循證體系及知識圖譜等，為用戶提供權威、實用、精準的內容搜索。

夸克健康醫療搜索產品的演進，從傳統生產（外發人工生產）到AIGC（模型批量生產）再到SGS（模型即時生成），用戶搜索字數表達明顯增加，逐漸能精準滿足復雜長尾問答需求，給出明確結論。

其算法團隊與醫療團隊共同搭建循證體系，包含千億級圖譜病歷、教材指南、文獻論文、試題詞典，提供專業檢索。

深度搜索、深度思考能力則提高了對問題理解的精準度，使模型對于問題的回復的思考路徑拆解更合理、解答的邏輯性更好，居家緩解、就醫推薦的實用性更強，與醫院角色形成互補。

夸克健康助手開發基于醫學臨床思維的健康自診，可以為用戶提供全面的自我判斷和就醫推薦，提供癥狀自查、報告解讀、在線問診、AI自測、健康計算等功能。

該工具構建了基于醫學知識系統的對話反問功能，可以在對話中收集足夠的用戶病癥信息，給出推理分析，并給出實用的居家建議，判斷病情需要就醫，給出與科室推薦、檢查建議，提供導醫問診服務。

夸克健康大模型還能作為健康生活科普助手，生成滿足飲食、健康、運動的科普內容及優質筆記，為用戶提供精準生活指導。

夸克健康利用AI相機功能為用戶識熱量、配料表分析、皮膚自診等，提供健康飲食輔助決策及小病自查自管。比如拍張照，問AI這款零食健不健康、這個舌苔是否正常等。

除了準確率高，夸克健康還注重做有溫度的AI健康顧問，按照真實醫生診療路徑分階段、分專科訓練診斷能力，在提供精準推理診斷的同時，以共情化滿足用戶的心理感受。

其健康agent是一個全科智能協同中樞，定位全科健康管家，有兩大核心能力：

一是統一管理，全科健康管家統一管理信息和輸入輸出，用戶健康問題需求由全科agent調度，

二是分發協同，所有用戶請求經過全科agent初步處理，根據干預措施調用其他子agent，輸出最終行動方案。

結語：健康大模型L4級基本到來，將惠及精準醫療科普

在溝通會上，徐健總結了當前健康大模型能力水位：微軟、OpenAI、訊飛等AI公司的模型或AI產品，在指定場景已做到與醫生水平相當；在學術界，近1年Nature系列發了21篇醫學大模型論文；在行業界，信通院發布《基于大模型的患者醫療服務應用場景及能力分級框架（2025年）》，提供了應用場景醫療服務能力的清晰分級。

L1級是信息輔助，L2級是單任務智能輔助，L3級是多任務智能輔助，L4級是高級協同決策輔助，最高等級L5智慧協同創新輔助能發現一些醫生在診療過程中想不到的創新做法。

參考這個分級，今天，能與醫生高級協同決策輔助的copilot助手（L4級別）基本到來，也將更好地幫助普通用戶在健康問題上減少醫患信息差。

夸克健康大模型及產品矩陣，正通過引入更強的推理能力，突破技術瓶頸，幫助醫生節約時間、放大專業價值，并助力緩解醫療資源短缺問題，實現更加精準的醫療科普。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.