智東西
作者 ZeR0
編輯 漠影
國內首個通過主任醫師評測的大模型,已在夸克AI搜索上線。
智東西7月23日報道,今日,夸克宣布夸克健康大模型成功通過中國12門核心學科的主任醫師筆試評測,創國內首例,展現出垂類大模型在醫學領域的應用潛力。
12門核心學科分別是:普通內科學、普通外科學、婦產科學、兒科學、皮膚與性病、腫瘤內科學、耳鼻咽喉學、麻醉學、口腔醫學、眼科學、精神病學。
在垂類模型與通用模型對比中,夸克健康大模型在初級、中級、副高、高級醫療場景中的答題正確率均超過新版DeepSeek-R1和o3-mini,并呈現出難度越高、領先優勢越明顯的性能曲線,展現出在復雜醫學推理任務中的突破。
這是繼5月通過副主任醫師職稱考試后,夸克健康大模型能力的又一次升級。
“主任級AI醫生”能力已集成到夸克的AI搜索中。
用戶用夸克查詢健康問題時,選擇深度搜索即可調用,相當于配備了一個線上的專業醫生。
夸克健康算法負責人徐健,夸克健康運營負責人、心內科副主任醫師趙存忠,夸克健康產品負責人姚垚,與智東西等媒體進行深入交流,詳細解讀了夸克健康大模型的背后技術細節與夸克健康產品策略。
夸克健康大模型以通義千問為基礎,針對醫學垂類場景進行深度工程化。據夸克健康算法負責人徐健分享,其模型的核心特點與技術構建策略包括:
- 知識性強,用高質量數據繼續訓練底座大模型;
- 正確性對齊技術,把握住錯誤邊界;
- 引入慢思考能力,基于高質量推理訓練數據,通過強化學習構建推理大模型,驅動模型在面對復雜醫療問題時,能夠分階段、層層深入地推導出最終答案,提升在案例分析題等上的效果。
在接受采訪期間,徐健、趙存忠、姚垚總結了夸克健康對風險控制的全方位約束策略:
- 事前,通過底層算法和數據工作預防,產品滿意度準確率達標后才會上線;
- 事中,模型對敏感或不確定問題拒答,產品設計兜底話術、增加溯源引用,采取機器抽查、人工抽查等策略,并對用戶問題分類界定、分層處理;
- 事后,根據用戶反饋,反復迭代改進模型。
趙存忠告訴智東西,夸克健康大模型會在線滿足普適化需求的基礎上,后續針對各類有高頻需求的主流學科去做針對性訓練,對嚴肅醫療診斷類的一些專科或疑難雜癥進一步深入。
當智東西問到如何兼顧讓用戶易理解和表達準確性,姚垚告訴智東西,兩者的提升并不矛盾,夸克健康在整體回復樣本設計上追求對用戶的實用性,在技術上持續提升準確率,在內容定義時關注讓回答更易理解。徐健補充說,文字風格遷移不是技術難點,夸克多年來做內容科普使其擅長于此,大模型擬合能力非常強。
姚垚透露說,夸克當前有2億月活用戶,健康需求很大,健康產品的信任感會影響對整個平臺的信任。
據分享,未來,夸克健康業務目標堅定,以滿足C端用戶科普需求為主,短期內聚焦幫用戶解決健康問題,關注用戶滿意度、留存、活躍度等情況,不考慮做強商業化嘗試。
一、基于通義千問,訓練臨床思維,構建慢思考能力
夸克健康大模型通過真實醫生標注、“問—思—答”整組數據驅動強化學習,不僅掌握醫學知識,而且醫學思維的路徑選擇、證據整合與多解平衡能力。
其核心突破之一,是構建出“慢思考能力”,打造多階段慢思考推理系統,從表象判斷到深度病因分析,學會醫學臨床診療思維。
這一能力融合了鏈式推理與多階段臨床演繹路徑建模,驅動模型在面對復雜醫療問題時分階層層推導,先推病,再解題,從病史分析、初步診斷、鑒別診斷、結合選項分析到總結得出答案。
而構建慢思考能力的前提,是擁有高質量推理訓練數據。
為此,夸克構建了“雙數據產線 + 雙獎勵機制”的工程體系。
訓練數據上,將醫學數據劃分為“可驗證”和“不可驗證”兩類,分別對應診斷類任務和健康建議類任務。
夸克以“病藥術檢”任務為訓練主線,構建有特色的醫療領域可驗證推理任務,覆蓋疾病推理、檢查推理、疾病推理、手術推理、藥品推理等。
訓練方法上,引入“過程獎勵模型”和“結果獎勵模型”,分別評估模型推理鏈的合理性與最終結論的準確性,根據反饋進行調整,顯著提升模型的臨床可解釋性和推理一致性。
其體系設計了多階段強化學習流程,包括冷啟動數據的嚴格人工校驗、多輪樣本篩選與難度遞進訓練策略,以及用于防止“高分投機”的作弊識別機制。
談到夸克健康大模型的優勢,徐健總結了三點:(1)差異化,在專業數據投入更大精力;(2)產品具備更強實操性,提供明確的就醫建議;(3)讓內容變得更可信,主要策略包括加固循證、強化推理可解釋性等。
二、4大類數據建設和評估,三招降幻覺+提高準確率
優質數據建設、正確性對齊及循證技術、醫療慢思考推理能力,缺一不可。
在構建大規模高質量醫療領域數據及語料上,夸克對4大類數據(資料庫、病歷、知識庫、合成數據)進行建設和評估。
1、全面的數據分類與評估:根據科室分布、實體、循證等級、meta信息等,篩選真正有價值的醫療高價值數據。
2、語料探查技術指引目標:基于醫療強大的檢索能力,進行數據層探查,搜索/知識覆蓋率達到95%+。
3、時效性更新技術:新熱挖掘、數據接口輪詢等,獲得最新藥品官方數據等。
4、圖譜及合成數據設計:知識轉譯、知識析構等。
夸克遵循數據驅動的長期迭代主義,構建可規模化的優質數據合成產線和訓練:精細治理診療數據,擴大可用數據量級;在強化過程中構建的推理過程和推理結果的準確獎勵,復用在數據篩選中;模型和數據螺旋迭代升級的,自動化的數據分層采樣管道,實現規模化的樣本加工、合成和分布控制;人類專家集中產能處理痛點數據-冷啟動中臨床思維的標注。
為了提高專業性,夸克健康大模型擁有千人規模的專業醫師標注團隊,其中超過400名均為副主任醫師及以上的高資歷醫療專家。
徐健說,用戶原始數據不會被用于訓練,只會將經過用戶授權的數據脫敏加工后,再用于改進模型效果。
健康醫療大模型的問答,容錯率遠低于常規通用大模型。夸克用三招來提高模型回答的準確性。
第一招,通過訓練的全鏈路正確性微調,嚴格控制模型內在幻覺。
比如,藥品相關信息如果輸入錯了,就會出現藥不對癥、可能影響健康的。對此,夸克在預訓練知識注入階段,覆蓋國內外全部藥品說明書;在用藥能力微調(SFT)階段,構建N個藥品使用對齊任務,單獨激發把事情做對的穩定性;在錯誤反饋對齊(RLHF)階段,形成錯誤-正確的正負力,使用RM數據增強技術、負反饋抑制錯誤能力。
第二招,構建百萬量級臨床術語集和知識圖譜,通過底層的權威醫學知識庫,確保模型輸出內容專業、及時。
第三招,通過深度搜索技術及循證數據體系,強化外在正確性,讓輸出結果透明有依據。
三、多類診療場景準確率與人類醫生相當,主任醫師現身給夸克“批卷”
從診療效果來看,在門診常見病場景下,夸克健康大模型診斷top1準確率達到90.78%,與人類醫生書寫的病歷準確率水平相當。在疑難病例上,模型top1準確率達到85.51%;單從診斷任務能力上近似可看成三級醫院全科主任級別能力,足以作為大多數醫生好用的助手。
當然,考試只是衡量大模型的維度之一,實際體驗才是硬本事。
安貞醫院心臟外科主任醫師謝進生認為,夸克在一些問題上回答專業度比專業醫生還要強。
北京大學人民醫院皮膚科主任醫師、教授、碩士生導師李厚敏在試用夸克健康大模型后感受到危機感,認為這樣的AI工具確實改變診療過程,為醫生減負。
她分別展示了從主任醫師角度和從患者角度提問的示例。
在一個從醫生角度提問的案例中,李厚敏評價夸克給出的答案有這些亮點:方案全面,結構清晰,治療分段合理,符合臨床路徑,實操指導性強,關注患者心理應對及長期管理。
她也給出了如何做得更好的建議:方案中沒有說明各階段干預的時機、療效觀察點及聯合治療順序,略欠動態管理指導價值。
一類從患者角度的常見皮膚病提問是:臉上反復長痘,醫生給開了激素類外用藥,但自己比較猶豫,擔心激素會讓皮膚變薄、依賴,停藥后會更嚴重,不敢用,該怎么辦?
李厚敏認為夸克在明確用藥必要性方面的回復很科學,有助于緩解患者恐懼,并向患者提供多種替代方案選擇、傳達綜合治療管理理念。不過,回答中沒有明確提及激素的特點和“緩撤藥”、“維持期隔日/間斷用藥”等具體策略,略有欠缺關于定期復診或建立長期隨訪計劃的提示。
在她看來,AI應用能夠幫助皮膚科輔助診斷與分型,提高早期識別率,并優化隨訪管理與個性化治療方案。
精神科與皮膚科的需求有所不同。
武漢大學人民醫院精神衛生中心負責人、主任醫師、教授、博士生導師王惠玲也用常用的專業臨床問題來考驗夸克。從結果來看,她評價夸克的回答邏輯清晰,符合臨床實際流程,所給建議的操作性很強,符合臨床實際處理習慣,策略制定有據可循。
就優化方案而言,她建議在策略制定上應該更加重視患者可能存在的不良意念風險,建議增加干預自殺危機的響應策略。
從患者角度,一類常見問題是:被醫生診斷抑郁并給出用藥建議,但擔心服藥會成癮、帶來巨大的副作用。
王惠玲評價說,夸克的回答簡單通俗地指出了患者的“成癮”誤區,可降低醫患溝通成本,并分層列出常見及罕見副作用,在用藥建議上還提供了輔助的非藥物干預方式。不過回答中缺少在實際醫患溝通中精神科醫生對患者的“共情”,情感支持稍顯不足。
在她看來,AI應用能幫助精神科分析語音模式、書寫內容、可穿戴設備數據等,量化患者的情緒波動,輔助識別早期惡化信號,為醫生提供更客觀的參考。另外,很多患者存在病恥感,在線匿名的AI心理教育工具或其他在線咨詢入口,能讓更多患者敢于邁出求助的第一步。
需注意的是,AI無法替代醫生精準評估不良意念所帶來的風險,也很難在治療不理想時用共情給患者足夠寬慰。
四、中國超50%醫學生都在用夸克
憑借在醫學領域的專業性,夸克AI搜索吸引了一大批醫學生和醫生群體。
據夸克健康運營負責人趙存忠分享,夸克健康產品主要面向C端,圍繞兩類場景,一是基于搜索場景的權威健康顧問,幫普通人解決日常健康問題;二是基于醫護人員的專業成長助手,幫醫學生解決涉及臨床診療、學習、資料類、考試專業需求的專業問題。
夸克健康為用戶提供知識科普、生活指導、健康管理、疾病診療的全面服務,能提高健康知識的普及性、用戶自我健康管理能力、全民健康素養,有效提高醫療資源可利用性和普及性。
目前夸克健康積累的用戶大多為年輕人,18-40歲居多,通常在上午開始搜索健康問題,晚上則是了解健康問題的最高峰。
夸克健康在全國醫學生中月活用戶(MAU)已突破200萬,覆蓋率過半。他們廣泛使用夸克做三件事:基礎知識搜索、考試備考AI搜題、臨床輔助診療。
面向醫學生,夸克做了三大核心需求產品:解題查解析(AI搜題),術語解釋(專業問答),教材知識點(專業百科)。其專業搜索將逐步延伸到低年資醫生等垂直人群,滿足臨床的知識查詢和處理決策、用藥需求,并涵蓋高年資醫生的科研、學術搜索及高效工作。
五、曬夸克健康搜索“全家福”,做有溫度的AI健康顧問
夸克的健康搜索內容體系,包括夸克健康百科、夸克健康問答等產品。
夸克健康百科包含醫典百科、就醫指南;夸克健康問答包括通用問答、AIGC問答、SGS問答、深度搜索、健康助手自診、學術搜索、包含專業資料的循證體系及知識圖譜等,為用戶提供權威、實用、精準的內容搜索。
夸克健康醫療搜索產品的演進,從傳統生產(外發人工生產)到AIGC(模型批量生產)再到SGS(模型即時生成),用戶搜索字數表達明顯增加,逐漸能精準滿足復雜長尾問答需求,給出明確結論。
其算法團隊與醫療團隊共同搭建循證體系,包含千億級圖譜病歷、教材指南、文獻論文、試題詞典,提供專業檢索。
深度搜索、深度思考能力則提高了對問題理解的精準度,使模型對于問題的回復的思考路徑拆解更合理、解答的邏輯性更好,居家緩解、就醫推薦的實用性更強,與醫院角色形成互補。
夸克健康助手開發基于醫學臨床思維的健康自診,可以為用戶提供全面的自我判斷和就醫推薦,提供癥狀自查、報告解讀、在線問診、AI自測、健康計算等功能。
該工具構建了基于醫學知識系統的對話反問功能,可以在對話中收集足夠的用戶病癥信息,給出推理分析,并給出實用的居家建議,判斷病情需要就醫,給出與科室推薦、檢查建議,提供導醫問診服務。
夸克健康大模型還能作為健康生活科普助手,生成滿足飲食、健康、運動的科普內容及優質筆記,為用戶提供精準生活指導。
夸克健康利用AI相機功能為用戶識熱量、配料表分析、皮膚自診等,提供健康飲食輔助決策及小病自查自管。比如拍張照,問AI這款零食健不健康、這個舌苔是否正常等。
除了準確率高,夸克健康還注重做有溫度的AI健康顧問,按照真實醫生診療路徑分階段、分專科訓練診斷能力,在提供精準推理診斷的同時,以共情化滿足用戶的心理感受。
其健康agent是一個全科智能協同中樞,定位全科健康管家,有兩大核心能力:
一是統一管理,全科健康管家統一管理信息和輸入輸出,用戶健康問題需求由全科agent調度,
二是分發協同,所有用戶請求經過全科agent初步處理,根據干預措施調用其他子agent,輸出最終行動方案。
結語:健康大模型L4級基本到來,將惠及精準醫療科普
在溝通會上,徐健總結了當前健康大模型能力水位:微軟、OpenAI、訊飛等AI公司的模型或AI產品,在指定場景已做到與醫生水平相當;在學術界,近1年Nature系列發了21篇醫學大模型論文;在行業界,信通院發布《基于大模型的患者醫療服務應用場景及能力分級框架(2025年)》,提供了應用場景醫療服務能力的清晰分級。
L1級是信息輔助,L2級是單任務智能輔助,L3級是多任務智能輔助,L4級是高級協同決策輔助,最高等級L5智慧協同創新輔助能發現一些醫生在診療過程中想不到的創新做法。
參考這個分級,今天,能與醫生高級協同決策輔助的copilot助手(L4級別)基本到來,也將更好地幫助普通用戶在健康問題上減少醫患信息差。
夸克健康大模型及產品矩陣,正通過引入更強的推理能力,突破技術瓶頸,幫助醫生節約時間、放大專業價值,并助力緩解醫療資源短缺問題,實現更加精準的醫療科普。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.