人和人之間最好的關系源于信任,人和AI也是如此。
信任的構建歷來是醫療領域的核心命題,當隨著AI的深度介入,這一古老命題正被賦予新的內涵。
要讓用戶建立對AI的深度信任,分為“顯性”和“隱性”兩個維度。
顯性維度很好理解,也很容易被感知,AI要具備專業醫生的“能力”,起碼具備臨床執業醫師資格,再往上通過高級別職稱考試,這種可驗證的統一資質評估體系提供了一條清晰可量化的信任建立路徑。
隱性維度不易被察覺,但絕不該被忽視,即AI是否真正像人類醫生那樣思考,具備臨床思維和循證方法,執行診斷和治療醫學狀況所涉及的復雜推理,這是模型最終能否妥善處理醫療難題的關鍵。
正因如此,AI長期以來處于“業界普遍看好卻難以被醫生和患者完全接納”的微妙境地。
如何改變這一現狀,夸克給出了答案。
7月23日,夸克健康大模型成功通過中國12門核心學科的主任醫師筆試評測,成為國內首個完成這一挑戰的大模型。離上次通過12門副主任醫師職稱考試僅僅隔了兩個月。
表面上看,從副主任醫師到主任醫師不過是技術的迭代和場景的優化,但背后其實蘊藏的是夸克作為一家科技創新組織對于“AI如何變革醫療”的深度思考。
相較于依賴通用大模型微調的路徑,夸克健康大模型走出了一條面向垂直場景的深度工程化路線,釋放出醫學領域垂類模型的巨大潛力。
“我們不是在訓練AI回答醫學問題,而是在訓練它學會醫學思維”,夸克健康算法負責人徐健說。
目前,這一“主任級AI醫生”已全面集成至夸克的AI搜索中,用戶在查詢健康問題時,選擇深度搜索即可調用。
主任級AI醫生,實測效果震撼
在中國醫療衛生系統中,主任醫師是醫生職稱體系中的正高級別,代表著醫生在專業領域的最高水平。
申報主任醫師的考生往往已經是在臨床一線工作十余年以上的資深專家。即便如此,其通過率仍僅維持在60%左右,足見難度之高。
此前,國內?模型多停留在臨床執業醫師資格考試階段,只能拿到初級職稱。而夸克則實現從初級到副高級職稱再到正高級職稱的“三級跳”。
在此次評測中,夸克健康大模型整體正確率達到了67.7%,顯著超越DeepSeekV3、O3-mini等通?模型。
在垂類模型與通用模型對比中,夸克健康大模型呈現出難度越高、領先優勢越明顯的現象,展現出在復雜醫學推理任務中的突破。
圖:夸克模型診斷推理能力增強,從表象判斷到深度病因分析
北京大學醫學部皮膚與性病學系主任李厚敏對此給予高度評價,她表示,作為一名皮膚科醫生,如何制定兼顧療效、安全性與患者期望的綜合治療策略是一項巨大挑戰。
在實際使用中,夸克會按照“控痘-祛痕-修復-管理”四步走,邏輯清晰,循序漸進;對異維A酸等關鍵藥物明確了推薦累積劑量和沖擊療法參數,增強了方案的操作性與指導性。
安貞醫院心臟外科主任醫師謝進生表示,夸克在一些問題上回答專業度比專業醫生還要強。
而對于患者而言,夸克健康大模型相當于隨身配備一個主任醫師級別的權威顧問,當遇到健康問題時,可以獲得及時、專業、可靠的醫療支持。
無論是寶寶突發不適的新手父母,還是需要定期監測的慢性病患者,夸克可以勝任多樣場景下的個性化健康需求。
值得注意的是,夸克健康大模型并非要取代醫生,而是作為專業醫療體系的重要補充,縮短用戶與優質醫療之間的距離。
打造全國“首個”,夸克憑什么?
對于日常對話來說,通用模型足矣,但對于醫療而言,垂類模型卻是必選項。
這是醫療的天然屬性決定的,它是一個依賴大量行業know-how的領域,需要對模型進?針對性的訓練和評估。
這一挑戰的本質在于清晰地界定模型從哪些數據、以何種方式學到哪些知識,因此真實數據、可靠推理和專業知識,成為醫療健康大模型的“鐵三角”。
依托搜索入口的天然優勢,夸克從2020年開始,歷時5年,沉淀220萬?活搜索?志、億級醫學知識圖譜,以及帶有ICD編碼的《夸克醫學術語集(Quark Med OmnisCT)》,為醫療場景中的任務多樣性、術語標準化奠定基礎。
為了滿足大模型對訓練數據的更高要求,夸克打造了“數據產線”,包含以?量真實醫生標注為基礎的結構化數據、專業醫???標注數據以及高質量的思考數據。
這一成果背后是夸克組建的千人規模的專業醫師標注團隊,其中超過400名為副主任醫師及以上的高資歷醫療專家。
另外,夸克還構建了一個全?性、權威性、時效性兼具的醫療知識庫,涵蓋6萬冊教材指南、5000余萬中英??獻、20余萬藥品說明書等,確保了模型輸出內容專業、及時。
現代醫療實踐中,醫生在面對患者時并非簡單地給出答案,而是通過有目的的提問、信息收集和邏輯推理,逐步形成診斷和決策。
然而,如何將這一復雜過程“內化”到模型的推理框架中,使其像人類醫生一樣進行思考和判斷,一直是AI醫療面臨的核心難題。
夸克健康大模型引?慢思考能力,融合了鏈式推理(Chain-of-Thought)與多階段臨床演繹路徑建模,驅動模型在?對復雜醫療問題時,能夠分階段、層層深?地推導出最終答案。
此外,考慮到健康需求是一種低頻剛需,用戶通常是有健康需求或處于健康困擾,夸克通過偏好獎勵模型對齊風格,使得回答體現出適度的情感關懷。
圖:夸克健康大模型判斷?戶的潛在情緒,并優先進?情緒安撫
目前夸克已獲得專業人群的廣泛認可,吸引了一大批醫學生和醫生群體用戶。
夸克健康運營負責人趙存忠介紹,目前平臺在全國醫學生中月活用戶已突破 200 萬,覆蓋率過半。
醫療健康大模型 從滲透到全力加速
一直以來,醫療界存在著“不可能三角”,即診療的質量(看得好病)、可及性(看得上病)與成本(看得起病)不能被同時滿足。
傳統AI技術曾試圖破解這一難題,卻受限于單任務處理能力、嚴重的"幻覺"問題以及解釋性不足等缺陷。
大模型的出現,開啟了AI醫療的新篇章。其強大的語義理解/生成能力以及多模態融合,顯著提升了準確性。
截止2023年底,中國行業大模型中醫療占比已達到 21.9%,醫療健康已經成為我國大模型的第一大應用場景。
而這一趨勢,隨著DeepSeek的橫空出世進一步加速。
DeepSeek的影響已超越了單純的技術突破范疇,它的“一炮而紅”對終端用戶更是一次直觀且有力的市場教育,使得市場對醫療大模型從過去的“被動接受”轉變為如今的“主動擁抱”。
數據顯示,當前中國醫療大模型市場規模接近20億元,未來預計以高達140%的年平均增長率,于2028年突破百億元。
今年7月,信通院發布了基于大模型的患者醫療服務應用場景及能力分級框架,劃分了L1到L5的能力標準,其中L4代表高級協同輔助決策。徐健的判斷是,L4級別的、能與醫生高級協同決策輔助的copilot時代基本到來。
最近一系列來自科技大廠以及學術界的證據也顯示,醫療大模型正在接近這一更高級別智能水平的拐點演進。
包括微軟CEO公開聲稱其診斷系統在疑難診斷上準確率遠超人類醫生、OpenAI的GPT4.1在HealthBench基準測試中的5個場景下已經超過醫生的平均水平,以及近1年內Nature系列發21篇醫學大模型論文,涵蓋9個主要醫學場景。
然而,要打造與醫生高級協同決策輔助的模型,僅僅依靠GPT、DeepSeek們遠遠不夠。
通用模型的出現固然提供了強大的基礎能力,但醫療場景的特殊性和復雜性決定了,如何構建真正契合臨床需求的垂類模型,才是亟待攻克的核心命題。
這是因為,垂類模型最終解決的是信任問題——而信任,恰恰是AI醫療的第一道關口,也是最高的壁壘。
要贏得用戶的深度信賴,就要做到在每一次問答中都能提供如同資深醫療專家般專業、精準且可驗證的判斷,經受住臨床實踐中各種復雜場景的長期檢驗。
對此有深刻認識的夸克選擇了一條難、慢但正確的道路,持之以恒地構建真正可信賴的模型和可信賴的服務。
從行業演進的角度看,通用模型是醫療大模型的起點,而垂類模型的成熟及其信任機制的建立才是其價值最大化并真正服務于臨床實踐的必由之路。夸克選擇沖在最前面,為整個行業“打個樣”。
今年年初,世界經濟論壇發布報告《人工智能驅動健康的未來:引領潮流》,認為全球醫療體系正站在重大轉折點,AI的廣泛應用將重塑醫療生態。
這是一個注定將被AI改寫的萬億級賽道,而夸克健康大模型的戰略價值正在于此,其不僅是撬動龐大醫療市場的支點,更是一個通向智慧健康時代的接口。
未來,隨著模型效果的持續提升與規模效應的進一步顯現,醫生、患者及各類用戶將形成更加緊密的連接,共同推動醫療健康行業向“創新、普惠、智能”的新范式躍遷。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.