AI 醫療公司 OpenEvidence 在 2 月份獲得紅杉資本新一輪的 7500 萬美元融資,估值超過 10 億美元,成為了新的 AI 獨角獸。
更為耀眼的是它的用戶數據,官方聲稱,1/4 的美國用戶醫生已經在使用 OpenEvidence 的工具。
「如果算上所有活躍用戶,每月有 30-40 萬人接觸我們的系統,其中 20 多萬醫生會登錄并提問。換句話說,美國大約 10%-25% 的醫生,已經在某種程度上使用 OpenEvidence 了。」
成立于 2021 年,OpenEvidence 專注于提供專業的 AI 醫學知識助手,向所有醫生免費開放,通過廣告產生收入,產品迅速實現了自發傳播,并與《新英格蘭醫學雜志》等出版機構達成戰略合作。
這種增長方式也是紅杉投資決策的關鍵因素。紅杉合伙人 Pat Grady 領導了這一輪投資,他認為 OpenEvidence 的采用與消費者互聯網產品的傳播方式相似。「沒有多少醫療工具能像消費者應用程序那樣傳播,但這是其中之一。」
創始人 Daniel Nadler 最近參與紅杉資本的播客節目,對于 AI 醫療產品的落地、增長,以及如何做沒有幻覺的 AI 模型,輸出了很多干貨信息。Founder Park 基于播客節目整理了文章。
Key Message:
傳統上,醫療 AI 產品往往需要通過醫院或其他機構的審批,而 OpenEvidence 直接面向醫生,讓他們能快速獲取最新醫學知識。這種方式讓產品更快得到廣泛應用。
醫生也是普通人,醫生也是消費者。如果你做出一個足夠好的產品,能夠真正改變他們的工作方式,甚至改變整個行業,然后直接放在 AppStore 上,但真的有效。
除了工作時間長、醫學院的高強度學習,還有醫生人數本來就不夠,他們還要面對一個極大的挑戰——醫學知識的更新速度太快,大約每五年翻一倍,根本跟不上。
但對醫生來說,幾乎所有情況都是特殊案例,都屬于「邊緣情況」。醫生的日常工作,就是不停地查找這些特殊案例對應的解決方案。
我們的目標是「對醫學做 JPEG 壓縮」。所以,我們的訓練數據主要是同行評審的醫學文獻,以及 FDA(美國食品藥品監督管理局)和 CDC(美國疾病控制與預防中心)發布的權威信息。
我們解決幻覺的方法就是徹底避免讓 OpenEvidence 連接到公共互聯網,所有訓練數據都必須是經過同行評審的醫學研究。而且我們也不像那些只靠一個大模型的做法,而是用了多個模型組成的「集成架構」,每個模型負責不同的任務
雖然已經被說了無數遍,但我也找不到更好的表達方式:頂尖人才只想和頂尖人才共事。
Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產品/案例,Founder Park 會主動做宣傳。
01醫生當作普通消費者,不去攻略醫院高層
Pat Grady: 目前有多少醫生會使用 OpenEvidence?
Daniel Nadler:現在大概有 10 萬名美國醫生在用,還有一些來自全球其他地方的用戶。
Pat Grady: 那一年前呢?
Daniel Nadler:可能才一千人,甚至更少。其實很多人可能不知道,美國大約有 100 萬名醫生,要為 3.4 億人口提供醫療服務。這本身就是個值得討論的問題。而在這 100 萬名醫生中,如今大概有 10 萬人每個月會使用 OpenEvidence。
如果算上所有活躍用戶,每月有 30-40 萬人接觸我們的系統,其中 20 多萬醫生會登錄并提問。換句話說,美國大約 10%-25% 的醫生,已經在某種程度上使用 OpenEvidence 了。
Pat Grady: Sequoia 主要投資科技行業,而不是醫療行業。但據我了解,在醫療領域,10 萬名醫生短時間內開始使用一個新產品,是非常不尋常的。一般來說,醫療行業的增長速度沒這么快。你們到底做對了什么?
Daniel Nadler:這也是我們合作愉快的原因——因為你們不是傳統的醫療投資人,而我們的做法也不是典型的醫療行業做法。我們的關鍵點在于,我們認識到——醫生也是普通人,醫生也是消費者。
事實上,每個人都是消費者。而你們的投資策略也抓住了這一點,你們不會把「消費者互聯網」單獨當成一類,然后把醫療行業歸為一個獨立、封閉、難以滲透的領域。你們把所有行業都用互聯網的增長曲線來看待,我們的思路也是一樣的。
如果你從「自上而下」的方式入手,比如很多人說醫療行業很難進入,做醫療創業太難了,別去碰這個行業……
Pat Grady:其實,從過往的案例來看,這種說法也不是沒有道理。
Daniel Nadler:沒錯。因為大家的思路都一樣——他們都在用同樣的方式「撞墻」。他們想辦法去找某個大型醫療集團的高層,比如首席醫療信息官(CMIO)或者首席技術官(CTO),然后想方設法約個會,爭取見上一面。
哪怕他們人脈再廣,光是把這場會議安排上,就得等三四個月。等終于開上第一場會,他們會興奮地擊掌:「太棒了!反饋很好!」
然后呢?然后他們要安排第二場會,可能是跟醫院的「AI 委員會」開會。這又得等三個月。等到真的去開會了,這期間醫院的 AI 策略可能已經變了,政策環境可能也變了,甚至美國總統換了,新政府突然有了新的 AI 監管要求。于是會議又被推遲,一年過去了,他們可能還在第三、第四場會議的路上。而真正需要這個工具的醫生呢?在這個過程中,他們根本沒機會用上。
我在這方面有很多經驗——這已經不是我第一次創業了。在創辦 OpenEvidence 之前,我已經成功賣掉了一家 AI 公司。
Daniel Nadler:我對美國大公司的運作方式再熟悉不過了。這不只是醫療行業的問題,所有大機構運作起來都差不多。我很清楚這個套路,知道它行不通。尤其是對我來說,這是我的第二家公司,我想做的不是一場漫長的審批馬拉松,而是真正讓醫生用得上的產品。如果我花幾年時間做了一家「有使命感、有影響力」的醫療AI公司,結果醫生根本沒法用,那還有什么意義?
所以我們選擇了完全不同的方式。醫生也是普通人,醫生也是消費者。如果你做出一個足夠好的產品,能夠真正改變他們的工作方式,甚至改變整個行業,然后直接放在 AppStore 上——這聽起來像是創業入門課 101 的內容,但真的有效。
我們就是這么做的。我們沒有燒錢做市場推廣,也沒有鋪天蓋地的廣告,一切都是醫生之間的「口口相傳」。當醫生覺得這個工具真的好用,他們就會告訴身邊的同行。然后越來越多人開始用,形成了自然的增長。
這種增長模式和特斯拉早期的策略很像。特斯拉一開始幾乎不做廣告,而當時汽車廣告是整個廣告行業的重頭戲。大家都覺得,要想賣車,必須砸大錢做廣告。但特斯拉說:「我們就做一款超級棒的車,讓用戶自己去傳播。開過的人會覺得『天吶,這比其他車好太多了!』然后主動推薦給別人。」
同樣的事情發生在 OpenEvidence 身上。醫生從 App Store 下載試用,覺得好用就推薦給同行。一年前,可能只有幾百上千人用它;今天,已經有幾十萬醫生在用了。大概占美國所有執業醫生的 10% -25%。具體比例取決于計算方式,因為拿到行醫執照的醫生比真正活躍執業的醫生多,但即使按最低標準計算,OpenEvidence 也已經覆蓋了 10% 以上的美國醫生。而這一切,完全是靠產品口碑驅動的。
Pat Grady:大家可能很容易理解「什么是好車」,但「什么是醫生需要的好應用」可能就沒那么直觀了。
Daniel Nadler:沒錯。
02
醫學知識增長速度太快,醫生根本跟不上
Pat Grady:醫生們到底在這個應用里干嘛?他們為什么這么喜歡它?
Daniel Nadler:我覺得一款產品好不好,最核心的一點就是它能不能真正解決問題。很多科技產品其實是「先有解決方案,再找問題」,但真正好的產品必須從實際痛點出發,提供真正有效的解決方案。那么,做醫生最難的是什么?
除了工作時間長、醫學院的高強度學習,還有醫生人數本來就不夠,他們還要面對一個極大的挑戰——醫學知識的更新速度太快,像消防水管噴涌而出的信息流,根本跟不上。
很多人沒意識到這個問題,但實際上,每分鐘就有兩篇新的醫學論文發表,一天 24 小時不間斷,一周七天都如此。Nature 曾經有篇研究表明,醫學知識每 73 天就翻一倍。當然,這個算法可能有點激進,我們在 OpenEvidence 內部做了一次更保守的測算,結果是大約每五年翻一倍。這里的統計方式很關鍵,比如如果把所有的引用都算進去,可能就會得出 73 天這個結果。但醫學研究并不是所有論文的質量都一樣,真正對醫生有用的,往往是頂尖的期刊,比如影響因子最高的前三分之一的期刊。即便只看這些,醫學知識每五年就翻一倍。
如果你稍微算一下,就會發現這意味著什么:1950 年,醫學知識大約 50 年翻一倍,而現在是 5 年。換句話說,在 1950 年,一個醫生從醫學院畢業,他學到的知識在整個職業生涯中還能管用。到他退休時,可能有一半的知識過時了,但影響不大,因為他的職業生涯也差不多結束了。而且那時候的醫學進展也沒那么快,所以醫生還能靠日常學習慢慢跟上。
但今天情況完全不同了。醫生還沒等到完成住院醫師或進修醫師培訓,他們在醫學院學到的內容就已經有一半過時了。醫學教育曾經是醫生獲取知識的主要方式,但現在,它能支撐醫生知識面的時間可能只有幾年。
舉個例子,假設一個銀屑病患者去看皮膚科醫生。理論上,醫生可以查閱最新的生物制劑研究,挑選最安全、最有效的治療方案。但問題是,皮膚科醫生可能會關注皮膚病相關的醫學期刊,但如果這個患者同時患有多發性硬化癥(MS),那情況就復雜了。MS 主要屬于神經科的研究范疇,指望皮膚科醫生把所有的神經科期刊也都看完,顯然不現實。更別說不同疾病之間的交叉領域,信息量更是龐大。
在這種情況下,醫生就很難辦。一方面,他們不能隨便給患者開藥,萬一藥物影響了 MS 的病情怎么辦?另一方面,他們也不能什么都不做,因為風險不明確就不治療銀屑病,這對患者的生活質量影響很大。他們需要找到最靠譜的最新研究,比如 IL-17 和 IL-23 抑制劑的療效和安全性,尤其是針對同時患有 MS 的患者。
在 OpenEvidence 之前,醫生要查這些信息特別費勁。去 Google 搜?搜不到有用的信息。去 PubMed 查?最多就是給你一堆論文標題,但你要的并不是一篇通用的綜述論文,而是一個非常具體的問題:對既有銀屑病又有 MS 的患者,IL-17 抑制劑和 IL-23 抑制劑哪個更安全?哪個更有效?
這就是 OpenEvidence 存在的意義——讓醫生可以快速找到最新、最準確的醫學證據。像這樣的問題,并不是個例,而是每天都會發生的情況。醫學涉及的領域太廣了,每一個病例幾乎都是一個「邊緣案例」,需要醫生在大量信息中尋找最相關的答案。
Pat Grady:是的。
Daniel Nadler:從工程的角度來看,醫學的復雜度可以說是無限大的。雖然不是真正的「無限」,但對醫生來說,幾乎所有情況都是特殊案例,都屬于「邊緣情況」。醫生的日常工作,就是不停地查找這些特殊案例對應的解決方案。換句話說,如果你能幫助醫生更高效地找到這些罕見病例的參考資料,比如在頂級醫學期刊里找到關于銀屑病合并多發性硬化癥患者,IL-17 和 IL-23 抑制劑安全性比較的研究,那么你就大大改善了醫生的工作體驗。更重要的是,這樣還能提高患者的治療效果,避免因為醫生不知道「IL-17 對銀屑病效果很好,但對有多發性硬化癥的患者來說,IL-23 其實更安全」這樣的關鍵信息,而導致病情惡化。
醫生之所以可能不知道這些信息,并不是他們的問題,而是因為在他們上醫學院的時候,這些研究根本還不存在。像 IL-23 抑制劑,2017 到 2019 年才出現,就算是現在還很年輕的醫生,讀書時也沒學過這些新知識。他們只能在畢業后自己去追蹤最新的研究。但問題是,這種「邊緣情況」太多了,每一個這樣的案例背后,可能還有成千上萬個類似的情況需要關注。在有 OpenEvidence 之前,醫生要想隨時跟上這些更新,幾乎是不可能的,而這就可能影響到患者的治療效果。
很多醫生用 OpenEvidence 后告訴我們,他們會用它來查找那些自己一輩子可能只遇到一兩次的病例。而當越來越多醫生都這樣說,涉及的病例各不相同時,我們就意識到,醫學知識的「長尾」有多么驚人——雖然沒有真正無限長,但對人腦來說,已經復雜到幾乎無法完全掌握。而 OpenEvidence 的作用,就是幫助醫生在這條漫長的「長尾」里,精準找到他們需要的知識。
Pat Grady:醫學知識增長的速度非常快,這本來是件好事,但問題在于,醫生的學習能力是有限的,無法完全消化這些海量的新信息。就像一個不斷被裝滿的桶,里面的「潛在能量」很大,但沒法順利轉化成「動能」,因為醫生無法高效地吸收和應用這些信息。AI 擅長處理海量文本、進行推理,所以 AI 的出現正好可以解決這個問題,把這些醫學知識轉化成醫生真正可用的工具。
03
把不抓取互聯網信息,只從專業渠道獲取內容
Pat Grady: 那么,OpenEvidence 這個名字里的「Evidence」到底指的是什么?
Daniel Nadler:簡單來說,OpenEvidence 的「evidence」就是經過同行評審的醫學文獻。更重要的是,我們要明確它不是什么。過去很多大公司嘗試用 AI 做醫學應用,但最后「翻車」了,其中一個重要原因就是它們的數據來源有問題——它們直接從網上抓取信息,比如各種健康博客,甚至是社交媒體上的帖子。而這些內容的作者,大多數既不是醫生,也沒有醫學背景,很多人同時還寫旅游攻略、做美食博客,真正的專業知識有限。
問題是,AI 學習的內容就是這些博客里的信息,所以當大模型在早期階段輸出一些荒謬的醫學建議時,問題不在于 AI「瘋了」,而是它學到的東西本來就不夠專業。而 OpenEvidence 完全走了另一條路,我們的模型不聯網,不會去抓取互聯網上的內容。我們的數據來源是像《新英格蘭醫學雜志》這樣的頂級醫學期刊,我們還和他們建立了戰略合作關系。
Pat Grady:《新英格蘭醫學雜志》一般不會隨便授權AI公司使用他們的研究數據吧?
Daniel Nadler:確實不會。據我所知,我們是唯一一家獲得授權的 AI 公司。很多 AI 公司都去找他們談合作,但基本都被拒絕了。
Pat Grady:為什么他們似乎信任 OpenEvidence,而不信任其他公司?你們到底有什么特別的地方,讓他們愿意合作?
Daniel Nadler:具體的細節就不展開了,簡單來說,很多知名 AI 公司去找《新英格蘭醫學雜志》,問他們:「我們能用你們的數據來訓練模型嗎?」結果被直接拒絕了。我不去揣測他們拒絕的具體原因,也不能替他們發言,但總之他們說了「不」。
而我們的情況完全不同,我們壓根沒去主動找他們,而是他們主動找到我們。怎么回事呢?《新英格蘭醫學雜志》編輯委員會里的幾位重量級人物本身就是 OpenEvidence 的深度用戶,他們希望自己常用的工具里能包含他們的內容。
Pat Grady:(笑)
Daniel Nadler:這就是最理想的情況,對吧?所以他們主動找上門來,我們也花了很多時間去打磨合作框架,確保合作方式符合他們的品牌定位,保護他們的學術權威性。畢竟,他們是醫學界的「天花板」,是行業頂尖的醫學期刊,而且他們是非盈利機構,不是靠商業化賺錢的。就算有人砸再多錢,他們也不會因為錢而輕易妥協。事實上,一些資金雄厚的 AI 公司確實嘗試用巨額資金打動他們,但他們依然拒絕了。如果他們是私營企業,可能會接受,但他們是由馬薩諸塞州醫學會運營的非營利機構,他們更看重自己的學術使命,而不是短期的商業利益。
對 OpenEvidence 來說,這個合作就像是「水到渠成」。雜志社的核心人員本身就是我們的用戶,他們用了覺得好,就主動找我們談合作。如果我們采取傳統的企業 SaaS 推廣模式,比如先花很長時間去談醫院的大規模合作,等著參加第 17 次會議,還沒用戶使用,那《新英格蘭醫學雜志》的人也不會接觸到這個產品,更談不上喜歡上它。最終,我們也不會有這個機會達成合作。
所以,這就形成了一個良性循環:我們把產品免費推出去,讓人們自發使用,然后核心用戶群里剛好有《新英格蘭醫學雜志》的重要人物,他們用著覺得不錯,就主動找到我們,最終促成了合作。現在,我們的模型可以基于他們完整的數據進行訓練,而市場上其他 AI 產品都做不到這一點,我可以很肯定地說,目前 OpenEvidence 是唯一一個完整訓練了《新英格蘭醫學雜志》全文的 AI 產品。
04
Open 意味著直接觸達和信息公平
Pat Grady:剛才聊了「Evidence」這個詞的含義,現在來說說「Open」。為什么「Open」這么重要?它意味著什么?
Daniel Nadler:「Open」對我來說,一開始就意味著很多東西,其中最核心的一點是我們的市場策略。它時刻提醒我,OpenEvidence 不是一家傳統的企業 SaaS 公司。我的第一家公司就是做企業 SaaS 的,那種模式可以很賺錢,你也很清楚,企業 SaaS 賽道能跑出很多成功的公司。
但在做第二家公司的時候,我不想重復自己,我希望它不僅僅是個有影響力、有使命驅動的公司,還要和我的第一家公司完全不同。所以,我決定不走企業 SaaS 模式,而是直接面向個人用戶,或者更準確地說,面向「專業用戶」。「Open」這個詞,就代表了這種理念:我們直接觸達醫生,而不是讓醫院管理層或其他人來做中間商。醫生是直接的使用者,他們的痛點很明顯——工作負擔過重、時間不夠、患者太多,還要處理海量的醫學信息。我們的目標就是幫他們解決這個問題,讓他們更輕松地獲取關鍵信息。
此外,「Open」還代表著醫療信息的公平性。在美國的醫療體系里,資源分配非常不均衡,就像社會其他領域一樣,有錢的醫院可以買到所有最先進的工具,甚至有預算去試用各種軟件,但最終可能真正使用的寥寥無幾。如果你讓馬斯克去審計這些頂級醫院的 SaaS 支出,他估計會大跌眼鏡——他們買了一堆工具,但真正用的卻少之又少。
Pat Grady:是的。
Daniel Nadler:你看,一方面大型醫院、研究機構在用高端科技,但另一方面,在美國農村地區,或者一些經濟條件較差的城市里,很多醫生其實是私人執業,或者是在小型診所里工作,比如不到 10 人的團隊。很多人可能不知道,其實醫生也是小企業主,他們不是都在那些資金雄厚的大型醫院系統里上班。很多醫生是自己開診所的,就像上世紀 50 年代那樣,他們有自己的診所,可能只有一兩個行政助理或者秘書幫忙,剩下的所有事都得自己操心——看病、管理、處理各種行政事務,全都壓在他們身上。而且他們沒有龐大的科技預算,更別提像大學那種基金會支持了。他們根本負擔不起每年 1 萬、2 萬美元的軟件訂閱費。
所以,這就是「開放」的意義。我們收到一封來自喬治亞州奧爾巴尼的一位醫生的信,他是當地一家癌癥中心的主任,同時也是一名社區腫瘤醫生。他說 OpenEvidence 已經成為他日常行醫的生命線,讓他的癌癥治療方式發生了巨大變化。而我對奧爾巴尼并不了解,就上網查了一下,發現這里位于喬治亞州西南部,75% 的人口是非裔美籍,家庭收入中位數是 4.3 萬美元/年。
然后我開始拼湊這個醫生的處境——他可能是方圓 50 英里內唯一的腫瘤科醫生,或者就算有第二個醫生,也要服務大范圍、經濟條件一般的患者。他根本不可能拿出 1 萬、2 萬美元去訂購 SaaS 軟件。而這就是「開放」的意義。我們還收到來自阿拉斯加費爾班克斯的一封信,一位醫生說她在當地的社區診所工作,幾乎沒有機會接觸到專科醫生。OpenEvidence 讓她能夠獲取專科級別的醫學知識,即便她所在的地方根本沒有相關的專家資源。
想想這個場景,她在一個小型社區診所,不是在有充足資金的大醫院上班,她根本不可能花大價錢買這些軟件。所以,這就是「開放」的意義——它適用于全國的每一位醫生。我們很自豪,OpenEvidence 不僅僅被梅奧診所(美國著名的醫療機構)使用,我們當然很喜歡梅奧診所,甚至曾在那孵化過一部分產品,很多頂級醫院的醫生也在用它,但它的價值不僅限于這些精英醫療機構。我們的用戶遍布全美,從鄉村診所到城市醫院,從梅奧診所到克利夫蘭診所,甚至在沃爾特·里德國家軍事醫療中心,幫助政府為士兵和退伍軍人提供治療,而政府不需要花三年時間走采購流程。
再舉個例子,美國退伍軍人事務部(VA)是全國最大的醫療系統之一,也是最重要的醫療體系之一,因為它為軍人和退伍軍人提供治療。而 VA 采購新技術通常需要三年時間,如果 OpenEvidence 不是開放的,我們可能還在政府的審批流程里徘徊,等著決定 VA 里的醫生能不能用它來幫助退伍軍人。而現在,我們已經收到來自 VA 醫生的信,他們說 OpenEvidence 在關鍵時刻幫助他們做出治療決定,改善了退伍軍人的護理質量。這讓我每天醒來都充滿動力。這就是「開放」的意義。
05
專注小模型,只對醫學數據做「JPEG 壓縮」
Pat Grady:你們算是為醫療行業打造了一款「殺手級應用」,而且效果很好。我們的很多聽眾也在做類似的事情,試圖用 AI 打造自己的「殺手級應用」。所以,我很好奇,你們是怎么做出來的?它是基于 GPT-3 或 GPT-4 的某種封裝嗎?背后的技術是什么?能不能講講?
Daniel Nadler:我分兩部分來講,一部分是我們是怎么做的,另一部分是對聽眾來說有哪些可借鑒的地方。我猜很多聽眾的應用可能不像醫療領域這么特殊,所以也想談談更通用的方法。
在醫療領域,我們的解決方式是組建了一支博士級別的科學家團隊。我的聯合創始人 Zachary Ziegler 是哈佛的計算機科學家,師從 NLP 領域的頂級學者 Alexander Rush。Evan Hernandez 來自 MIT 的 Jacob Andreas 實驗室,還有 Eric Lehman 也是 MIT 的。我們招募了一群站在語言模型最前沿的科學家,他們來自當時全球最強的兩三所研究機構。
為什么要這么做?因為我們要解決的是醫學領域的問題,而這個問題門檻極高、難度極大,當時還沒有人真正解決。那些大互聯網公司做的醫學 AI 產品,早期基本都翻車了,出過不少尷尬的事故,大家應該都記得。所以,我們的策略是結合學術和工程實力來攻克這個問題。我們不僅僅是在做工程實現,還在做原創的研究和知識探索。
當時整個行業的趨勢是拼模型規模,所有人都在追求更大的語言模型,比如 DeepMind 出的 Chinchilla 論文*,大家都在討論「更大、更大、更大」。但我們反其道而行之,我們的思路是——與其追求龐大的通用模型,不如訓練更小、更專業化的模型,在特定領域里做到極致。今天這已經成了共識,比如 DeepSeek 也在走類似的路,但在 2022 年那個時候,這并不是顯而易見的選擇。
*論文地址:https://arxiv.org/abs/2203.15556
我們的模型在通用對話上可能很差,寫詩、閑聊這些完全不行,一旦離開醫學領域就會崩潰。但在醫學領域,它的表現極其精準,效果遠超那些大而全的模型。我們以學術的方式去做這件事,發表了論文《我們還需要臨床語言模型嗎?*》(Do We Still Need Clinical Language Models?)。這篇論文在 2023 年被評為醫療 AI 領域最佳論文,吸引了很多關注。這是行業里第一篇明確提出「在醫學領域,小而精的模型比大模型更好」的研究。
*論文地址:https://arxiv.org/abs/2302.08091
現在回頭看,大家可能會覺得這個思路很合理,但在當時,行業的主流方向還是規模化擴展。我們的做法類似于 JPEG 壓縮,語言模型就像是對世界的「壓縮」。關鍵問題是:你在壓縮什么樣的「世界」?這又回到了我們之前討論的公共互聯網。
Pat Grady:是的。
Daniel Nadler:如果說大模型是在對整個互聯網做「JPEG 壓縮」,那它們的訓練方式其實就是盡可能多地獲取數據,越多越好。那么,所有這些數據從哪來?當然是公共互聯網。但就像 Ilya 說的,你到底在壓縮什么呢?你壓縮的就是整個公共互聯網。這也就是為什么 2022 年底、2023 年初的時候,很多大模型的輸出會顯得有點尷尬,是因為它們的「壓縮」方式導致的。
而我們的方法不太一樣,我們的目標是「對醫學做 JPEG 壓縮」。所以,我們的訓練數據主要是同行評審的醫學文獻,以及 FDA(美國食品藥品監督管理局)和 CDC(美國疾病控制與預防中心)發布的權威信息。幸運的是,在我們正式和《新英格蘭醫學雜志》(NEJM)合作之前,我們已經發現了一個關鍵優勢:根據美國版權法,美國政府創作的內容默認屬于公共領域。這也是維基百科能夠使用大量公共數據的原因之一。
所以,在早期,我們主要利用 Creative Commons(知識共享許可協議)下的公開數據。這個方法不是所有領域都能用,比如法律、會計、稅務等很多信息都受保護。但醫學領域的很多高質量內容,尤其是 FDA 和 CDC 發布的信息,都是免費的。所以,我們用這些數據做訓練,同時規避了版權問題,建立了一個足夠好用的系統,讓醫生可以下載使用。這樣,我們就吸引了像《新英格蘭醫學雜志》這樣的機構主動聯系合作,最終拿到了更多原本受版權保護的內容。這種「飛輪效應」逐步推動了整個系統的成長。
我們的方式非常技術導向,也非常學術化,主要是因為醫學領域的準確性太重要了,不能出錯。
06
專業數據、多模型組合,解決幻覺問題
Pat Grady:對,我正想問你這個問題。現在很多醫生在用 OpenEvidence 來做臨床決策,那它的「幻覺」(hallucination)問題怎么解決?
Daniel Nadler:是的。而且,順便說一句,這也是給創業者或者工程師的一點思考,有些應用場景里,幻覺不只是「沒那么煩人」,甚至是個「特色功能」。比如 Midjourney,就是個很好的例子。
Pat Grady:對。
Daniel Nadler:Midjourney 其實就是靠「幻覺」做出獨特的藝術效果的。所以,有時候,聰明的做法不是把幻覺當成缺陷,而是想辦法把它變成優勢。說到這,我想到一個可以創業的點子——如果要在金融領域用大模型,那其實可以反過來利用幻覺,把它當成風險管理的工具。
金融行業有一個核心問題就是「黑天鵝事件」(極端低概率但高影響的風險)。傳統的計算機系統很難想象這些極端情況,但大模型的「幻覺」能力可能剛好能彌補這個短板。我自己就做過一些實驗,把我的投資組合信息喂給模型,然后讓它「幻想」可能的風險。它給出的結果有時候讓我挺驚訝的,比如我很喜歡英偉達,但模型居然能想到一些我自己完全沒考慮過的潛在風險。
所以,大模型的應用才剛剛開始,我們現在也許只開發了 1% 的潛力,還有 99% 的可能性等著被發掘。對于創業者來說,這其實是個巨大的機會。
但回到醫學領域,這種做法就完全行不通。我們解決幻覺的方法就是徹底避免讓 OpenEvidence 連接到公共互聯網,所有訓練數據都必須是經過同行評審的醫學研究。而且我們也不像那些只靠一個大模型的做法,而是用了多個模型組成的「集成架構」,每個模型負責不同的任務,比如檢索、排序等。這樣才能達到 OpenEvidence 目前的準確度。
這些模型的「JPEG 壓縮」對象,只包含同行評審的醫學文獻,所以它不會生成超出這些文獻的信息。這就解決了一半的問題,而另一半的問題,是讓醫生能直接查看答案的來源。我們很早就做了這點,甚至比 ChatGPT 還早。我們的系統會提供可追溯的參考文獻,醫生可以點進去,直接查閱相關研究。這樣不僅提升了可信度,還讓醫生真正能依賴它做決策。
這個方法還意外帶來了和醫學期刊的雙贏合作。我們并不是簡單地「壓縮」期刊的內容然后輸出,而是直接把流量送回期刊網站。結果我們幫助醫學期刊獲得了數千萬次訪問量,很多醫生因為 OpenEvidence 的推薦,發現了他們本來不會注意到的研究。這就形成了一個良性循環,醫學期刊也愿意讓我們收錄他們的內容,最終受益的是醫生和患者。
更有意思的是,很多醫學協會也主動找上門來,希望我們能收錄他們的指南。這樣一來,不僅醫生能獲得更準確的信息,期刊和協會也能得到更多關注,整個生態都受益。這才是 OpenEvidence 真正的價值所在——它不僅提供了準確的醫學信息,還搭建了一個對所有人都有利的知識共享平臺。
07
技術在迭代,但底層邏輯不會變
Pat Grady:Kensho *已經創立十多年了,這些年AI和機器學習的發展突飛猛進。如果我們對比 Kensho 和 OpenEvidence 的底層架構,有多少是一樣的?又有哪些不同?其實我想問背后的問題是,一個真正能跑起來的 AI 應用,究竟有多少是靠最近的技術突破?又有多少是建立在傳統的工程和機器學習方法之上的?
*Kensho,Daniel Nadler 早年創立的 AI 金融量化分析系統,2008 年被標準普爾以 7 億美元的價格收購。
Daniel Nadler:Kensho 誕生的時候,根本還沒有大語言模型,甚至連小一點的語言模型都沒有,還沒有 BERT,基本上什么都沒有。甚至可以說,那時候連「火」都快沒了。
Pat Grady:(笑)
Daniel Nadler:所以很難比較,對吧?當時 Kensho 其實是 NLP 領域的早期嘗試。當然,到我把公司賣掉的時候,它已經成熟很多了。但如果你回到 2013 年我剛創立 Kensho 的時候,那和今天完全是兩個時代。不過,有一點是相同的:無論做什么AI,底層的基礎架構都非常重要。
比如,我們自己訓練模型,剛才也聊過這個。即使你不訓練自己的模型,只是接一個現成的大模型 API,一旦你的產品做得足夠好,流量上來了,它遲早會崩掉。而你肯定希望自己能做到這一步,做到 API 頂不住的程度。而當它真的崩掉的時候,你就需要傳統軟件工程里那一整套基礎設施,必須有非常扎實的工程能力才能支撐起來。
這點 Kensho 和 OpenEvidence 是一樣的,因為它們都是高要求的系統。拿金融領域來說,海量資金都是基于這些數據流動的,你不可能讓系統在交易過程中突然崩掉。所以這其實是件好事。我覺得,ChatGPT 爆火之后,很多人擔心「游戲規則是不是變了?」
Pat Grady:是啊。
Daniel Nadler:但我要說,規則并沒有變。技術確實更先進了,這是一個持續發展的過程。技術一直都在進步,比如 1982 到 1987,或者 1993 到 1997,每個時代技術都會比之前更強。這次的進步確實是個飛躍,有非線性的增長,甚至可以說是指數級的提升。是的,Ray Kurzweil 說的都對,他早就預測到了。
但從更宏觀的角度看,這仍然是一個循序漸進的過程,就像物理學的定律不會突然改變,哪怕我們在研究光速旅行,從十分之一光速提升到二分之一光速,技術復雜度可能呈指數級增長,但物理定律始終沒變。AI 也是一樣,它的發展是非線性的,但本質上還是一個連續的過程。所以從工程和創業的角度來看,過去重要的東西今天依然重要。在 Kensho 時代重要的事情,今天在 OpenEvidence 依然重要。
還有一點,團隊的水平也很關鍵。Kensho 和 OpenEvidence 之所以能成功,很大程度上是因為我們找到了非常聰明的人來做這件事。
08
招聘,只招頂尖人才
Pat Grady:說到團隊,你剛才提到了 Zach、Evan、Eric 和 Micah。你是怎么吸引到這些人的?面對那么多選擇,他們為什么愿意加入 OpenEvidence?
Daniel Nadler:這個問題 Steve Jobs 早就說過了,雖然已經被說了無數遍,但我也找不到更好的表達方式:頂尖人才只想和頂尖人才共事。
精英人才想要和精英人才待在一起。這就像海豹突擊隊的 BUD/S(海軍海豹突擊隊的篩選過程)選拔,很多人報名參加,不是因為他們覺得自己一定能成功,而是他們想看看自己能不能跟上隊伍。他們想挑戰自己,想知道自己的極限在哪。這種心態,從古希臘時代就有了,無論是在戰爭、工程、體育,還是金融領域,最優秀的人都想知道自己到底有多強,而唯一的方法就是和最優秀的人競爭,看看自己能不能匹配上他們的水平。
所以,這就是我在 Kensho 的做法,而現在在 OpenEvidence 也是一樣的,事實證明,這種方式非常有效。雖然現在這個觀點可能有點「政治不正確」,但說實話,我就是想找高智商的人,除此之外,我不在乎別的。我不在乎你的背景、長相、身份,我只在乎你是不是一個聰明到極致的人。這就是事實,我也沒法掩飾。
回到團隊,比如 OpenEvidence 最初的核心成員:Zachary Ziegler、Jonas Wolf、Evan Hernandez、Eric Lehman、Micah Smith,他們幾乎都是哈佛或 MIT 的博士。但我要澄清,這不是因為我刻意去這些學校找人,而是因為在 Kensho 的經驗讓我意識到,如果你讓高智商、學習速度極快的人去攻克一個難題,他們的進展會遠超一支普通規模大 100 倍的團隊。
對所有在聽的人來說,最讓人安心的一點就是,游戲規則沒變。物理定律沒變,重要的事情依然重要:頂級團隊、高智商人才、高學習能力的人、極度渴望成功的人、強烈的求知欲,這些都還是關鍵因素。
而當我說「高智商」時,我指的是 高神經可塑性(neuroplasticity)。我指的是大腦學習新知識、適應新環境的能力,而不是能多快解開魔方(因為解魔方和 IQ 其實沒什么強相關性)。
Pat Grady:你說的是 Fran?ois Chollet 對智力的定義:能高效習得新技能的能力。
Daniel Nadler:沒錯。所謂的高智商,就是指能快速吸收、理解、應用全新的知識。而這在任何時代都重要——1000 年前重要,3000 年前也重要,只不過應用的領域不同了。以前是在戰爭、軍事戰術、孫子兵法里,現在是在 AI、工程、金融等領域。
我平時喜歡研究軍事歷史,像克勞塞維茨、馬基雅維利、孫子這些經典的戰爭理論,也研究拿破侖、亞歷山大大帝這些歷史人物。他們并不是軍隊里體格最強壯的人,但他們有一個共同點,就是能在瞬息萬變的戰場上,完全調整自己的思維方式,迅速適應新的戰局。
這就是我們現在所說的「神經可塑性」——他們能夠在最短的時間內調整自己的認知框架,找到最優解。
過去 3000 年里,人類的活動方式確實變化很大。戰爭仍然存在,但大多數人已經不再像古希臘城邦時代那樣為了生存而戰斗。但不變的是,想要取得突破性成功,核心仍然是大腦的學習能力和適應能力。
09
從商業角度來說,最偉大的公司會出現在應用層
Pat Grady:第一個問題。這個數字肯定沒法準確衡量,因為它需要一個「假如沒有」的對比場景。但我們猜測,OpenEvidence 的使用方式可能真的在挽救生命,比如幫助醫生做出更好的臨床決策。那么,我們什么時候可以說 OpenEvidence 已經拯救了一百萬條生命?
Daniel Nadler:一百萬條生命?這感覺像在做麥肯錫的面試題,需要推理一下,比如說,如果有 15 萬或 50 萬名醫生在用,每個醫生每天要看多少病人?其中有多少是危及生命的情況?我是這樣想的……
Pat Grady:要不要聽聽我的算法?
Daniel Nadler:好啊,說說看。
Pat Grady:我的算法是,這取決于數據來源,但每年大約有 30 萬到 80 萬人死于醫療失誤。當然,并不是所有這些死亡都跟醫生當場的決策有關,可能還有其他因素。但我們先取 30 萬這個低值,再砍一半,得到 15 萬。這樣算下來,大概 6 年半就能達到一百萬的數字。當然,這是在 OpenEvidence 完全普及的情況下,所以再給它幾年發展時間,可能 8 到 9 年后,也就是 2034 年 11 月 4 日,我們能達到這個目標。
Daniel Nadler:我打算拿這個當面試題了。
Pat Grady:(笑)行啊,行啊。
Daniel Nadler:我唯一想補充的是,2030 年代,OpenEvidence 可能真的已經拯救了一百萬條生命,但這不包括那些因為醫生避免了用錯藥而沒有惡化的病人,比如今天有個醫生沒有給 MS(多發性硬化癥)患者開錯生物制劑。這樣的情況每天都在發生。還有一個醫生在羅德島給我們寫信,說他用 OpenEvidence 判斷病人癥狀是否符合肺栓塞,最后發現確實符合,于是立刻送進急診,救了病人的命。
所以,OpenEvidence 其實已經在救人了,我們知道這點,因為醫生告訴了我們。但類似這樣的例子很多,有的病人可能只是病情沒變嚴重,或者一些并發癥被及時控制。這種影響的規模,早就達到百萬級了。
Pat Grady:好的,下一個問題。你覺得大模型會不會變成一個通用的、標準化的商品?
Daniel Nadler:我覺得它們確實在變得越來越強,成本也在下降。而且 Ray Kurzweil 說的基本上都對。所以最前沿的東西不會被「商品化」,因為前沿永遠是前沿。但如果說 ChatGPT 剛推出時那種「哇塞」的感覺,它的成本最終會趨近于零。
Pat Grady:對。
Daniel Nadler:這就是為什么我覺得,真正有趣的商業機會不在底層大模型,而是在應用層面。當然,在大模型層面依然有很多學術上、科學上的突破,但從商業角度來說,最偉大的公司會出現在應用層。
Pat Grady:總結得很好。那 AGI(通用人工智能)呢?你覺得它已經實現了嗎?或者什么時候會實現?
Daniel Nadler:我覺得我們已經實現了,只是大家一直在改定義。圖靈測試?我們早就通過了。然后大家又說,AGI 需要在多個領域達到高中生水平?好了,現在也達到了。再后來變成「AGI 需要大學生水平」?這個也實現了。現在有人說,要在所有學科都達到博士水平,這才是 AGI。等到真的實現了,人們可能又會說:「不行,AGI 其實是要有『意識』。」
其實大家真正想問的是:AI 什么時候會有自我意識?什么時候能像電影里那樣變得「覺醒」?但問題是,我不確定這種「意識」到底是不是神經網絡到一定復雜度后自然涌現的東西。這其實是一個哲學問題。
Pat Grady:明白,那如果讓你推薦AI相關的內容,不包括這個播客,你會推薦什么?
Daniel Nadler:《Understand》(中文名《領悟),Ted Chiang(特德·姜)的小說。
Pat Grady:為什么?
Daniel Nadler:我不想劇透,你自己去體驗吧。Ted Chiang 是最偉大的科幻作家之一,他寫過《降臨》(電影原作)。《Understand》是他 90 年代初寫的,完美展現了「智能指數級增長」是什么感覺。
大多數人可能會期待我推薦一本非虛構書籍,比如去讀 Chinchilla 論文之類的。但如果你想真正理解,我們這個時代正在發生的事情,這本小說能從敘事角度捕捉到那種加速感。
Pat Grady:最后一個問題。你覺得AI在未來 20 年里最積極、最正面的影響會是什么?它會如何讓我們的生活變得更好?
Daniel Nadler:我必須說,是「個性化醫療」。
個性化醫療一直是「明天的事」,就像量子計算、核聚變,感覺總是快實現了但又差點意思。不過實際上,我們剛才聊的 OpenEvidence,本質上已經是個性化醫療的起點了,比如針對某個病人特定的并發癥來推薦合適的生物制劑。但這只是冰山一角。
我認為,再過 10 年,不管是 OpenEvidence 還是其他 AI,都會把病人的所有具體情況與全球所有相關醫學知識進行匹配,形成一個超個性化的治療方案。到那時候,可能 120 歲、130 歲都不再是人類壽命的上限了。
然后我們就會進入像忒修斯之船的哲學悖論:如果你不斷替換自己身體的「木板」,到最后你身體里沒有一塊是原來的了,但你的記憶、情感、身份都還在——那么,你還是你嗎?
我是個樂觀主義者,我相信人類生物學是可以被「拆解重建」的。我覺得,這種「忒修斯之船式的醫學」就在不遠的未來。而 AI,正是推動它實現的關鍵。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.