- 新聞頻道 董碩 訊
近日,海豚智能與牛津大學、劍橋大學與北京航空航天大學等合作伙伴共同發布大模型測評基準U2-Bench。這是全球首個專為大模型超聲圖像理解能力設計的多任務測評基準。U2-Bench 收錄了7,241例來自 15 個解剖部位的病例,覆蓋疾病診斷、病灶定位、報告生成等 8 大任務、50 個臨床場景,以此來全面、客觀、準確的評估多模態大模型在復雜超聲數據上的表現。
?在最新測試中,海豚智能的首個自研超聲大模型Dolphin-V1在U2-Bench上綜合得分(U2-Score)為0.4748,位居全球第一,遠超第二名Google Gemini-2.5-Pro-Preview(0.2968),以及DeepSeek-VL2(0.2630)、GPT-4o(0.2253)等模型。其中模型在超聲標準切面識別任務上表現優異,對于心臟與胎兒的標準切面識別的準確率超過85%,遠超在該任務上單項排名第二的谷歌醫療大模型MedGemma的56%與29%。
海豚智能U2-Bench的構建及后續工作獲得了多位科學家的大力支持和高度評價,其中包括:
雅克·蘇凱院士(指導模型臨床場景設計):法國國家技術科學院院士,國家高性能醫療器械創新中心影像中心首席科學家,逸超醫療董事長,世界超聲領域第一次和第二次革命的推動者、引領者,飛利浦醫療前CTO。
Alison Noble院士(指導模型測評任務設計):英國皇家學會副主席,牛津大學終身教授,大英帝國司令勛章獲得者,前MICCAI主席,當代超聲AI界的全球領軍人物。
李舟軍教授(指導大模型相關思路設計):北京航空航天大學教授,全球前2%頂尖科學家。
“U2-Bench 的誕生離不開海豚智能這群富有創造力的年輕人們的努力,”,雅克·蘇凱院士表示,“很高興看到他們為超聲領域帶來的變革,這將成為超聲AI研究的新篇章。”
Alison Noble 院士表示,“公開統一的測評基準對于超聲大模型走向臨床應用至關重要。”
?海豚智能創始人,CEO勒安捷表示:“U2-Bench 不僅填補了醫療超聲大模型領域評測的空白,更為大模型在超聲領域的應用帶來了更多的可能性。非常感謝雅克院士、 Alison院士和李舟軍教授在這個過程中給予我們的無私幫助,以及團隊伙伴們日以繼夜的辛苦工作。
作為一家醫學影像大模型公司,我們認為實現技術在醫療場景中的落地至關重要,這也是我們強調要將臨床洞見融入到AI模型的研發流程中的關鍵原因。測評結果顯示,我們即將在 7 月發布的Dolphin-V1.0大模型已在 U2-Bench 上超越了 Google與 DeepSeek。未來,我們將進一步推進模型的落地,繼續與合作伙伴們共建臨床上高效、可信的超聲大模型。”
相關資料:
論文:“U2-Bench: Benchmarking Large Vision-Language Models on Ultrasound Understanding”
關于海豚智能:?海豚智能(海寧海豚之聲醫療科技有限公司)由來自牛津大學、劍橋大學、愛丁堡大學、北京航空航天大學、香港中文大學等高校的95后團隊創立,是一家致力于打造新一代智能醫學影像引擎的企業。公司已經自研全球首個通用超聲多模態大模型,并與戰略合作方逸超醫療合作,實現了模型在全球首個GPU平面波超聲設備e-Pascal的部署,構建了全球首個超聲智能體,預計將于2025年7月正式發布。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.