5月27日,國內權威醫療大模型評測平臺MedBench發布最新評測榜單,深蘭科技DeepBlue-MR-v1醫療大模型不僅以復雜醫學推理評測第一的成績持續霸榜,而且在多個綜合評測中以94.2的高分榮膺桂冠。
榜單顯示,參與本次評測的大模型有騰訊優圖天衍醫學大模型、基于華為盤古大模型研發的潤醫醫療大模型、云知聲UniGPT-Med-U1大模型等。
復雜醫學推理評測持續霸榜
多維度綜合測評獲得第一
MedBench是中文醫療大模型第一權威評測平臺,由上海人工智能實驗室與上海市數字醫學創新中心聯合國內多家醫療機構和科研單位設立,該平臺匯聚了頂級醫療機構的專家經驗和知識儲備,已為全球超387個模型提供評測,華為、百度等頭部企業將其視為技術驗證門檻,部分醫院更將評測結果納入采購參考,同時其評測體系被納入國家藥監局AI三類證申報支持范疇,并發表于中科院一區期刊,形成“產學研用評”閉環生態。在國際層面,MedBench垂域深度可比肩MIMIC-CXR等國際知名評測體系,但更加適配中文醫療場景需求,成為全球醫療AI賽道的重要參考系。
深蘭科技DeepBlue-MR-v1醫學推理大模型是由深蘭科技自主研發的醫學推理大模型,擅長臨床醫學問診、輔助醫學診斷和制定診療方案等任務。通過對醫學教科書、診療指南、專家論文、病案病歷、醫學推理、醫學術語以及心理咨詢等海量數據的清洗、構建和醫學專家團隊標注,運用自研訓練體系,實現了人類醫學推理能力對齊的基于Transformer架構的稠密大語言模型。DeepBlue-MR-v1醫學推理大模型在海量高質量的醫學數據上進行預訓練,構建醫學推理語義空間,然后通過后訓練監督微調、醫學推理指令增強和多階段自適應強化學習算法實現醫學推理能力迭代提高。
醫學推理能力是AI醫療皇冠上的明珠。深蘭科技DeepBlue-MR-v1醫療大模型,自登頂MedBench復雜醫學推理能力榜首至今,持續霸榜并擴大領先優勢。在保持復雜醫學推理能力的絕對領先優勢的同時,還在醫學語言理解、醫學語言生成、醫學知識問答、復雜醫學推理、醫療安全和倫理共五個維度的綜合得分也榮登MedBench榜首,該成績充分彰顯了行業領先的技術實力。
深蘭AI問診助手落地湖北多家三甲醫院
目前,基于DeepBlue-MR-v1醫療大模型,深蘭科技所開發的AI醫療產品,已形成涵蓋“AI問診助手”、“遠程視頻問診”、“輔助診斷系統”及“醫學專家知識庫”等在內的智能體產品矩陣。與武漢市中心醫院、武漢協和醫院、武漢市血液中心、武漢市精衛中心、武漢市武東醫院等多家醫療機構達成合作,將聯手推動AI技術在問診、診斷、專科服務等場景的深度應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.