2021年,將搜狗賣給騰訊后,王小川奔赴下一個旅程。
在卸任搜狗CEO的內部信中,他寫道:“往后二十年,若能為生命科學和醫學的發展盡一份力,為大眾健康做出一點貢獻,生命就更有意義了。”
后來采訪中,王小川透露,那段時間他“讀了上千篇醫學論文”。
2023年4月,ChatGPT發布131天后,百川智能成立,志在打造「中國的OpenAI」,之后的一年時間,公司達成了每個月都有一款大模型對外面世的成就。
2024年年中, 百川智能 完成50億元A輪融資,并且將以200億估值開啟B輪融資。
令人意想不到的是,獲得巨額融資的百川智能,迅速調整了業務重心,放慢了在通用大模型的競逐腳步,Baichuan 4發布10個月未有大的版本更新;更加聚焦在醫療業務,官宣了與北京兒童醫院的合作,推出了具備醫療循證能力的Baichuan-M1-preview。
尤其是,今年3月,百川智能負責金融領域To B業務的團隊被曝已被裁撤,更被外界視作是公司“全力押注醫療”的戰略信號。
針對這樣的抉擇,有人表示支持,當然也有不少質疑的聲音,折射出關于AI醫療技術與商業化路徑的深刻分歧。
當然,無論兩方如何爭論,在這場大模型創業的激戰上,沒有什么能比得上創始人自己的思考來得更有價值。
我們搜集了王小川自創立百川智能以來的公開訪談和分享,整理出他關于AGI、醫療、商業模式、團隊建設方面的思考。
這些內容既勾勒出一位創業者的心路軌跡,又映照著一名技術理想主義者的行業洞察,更為當下火熱的AI醫療賽道提供了一份可供參考的啟示。
造醫生就等于AGI
1. 所以對百川而言,如果往 AGI 走,依然是要做智能,背后就是語言,這個立場是沒有變過的。
2. 今天的問題不是在于大模型無法賺錢,而是要找到通向AGI的道路上,沿途有什么好場景可以賺錢。
3. 什么樣的場景才算和AGI的目標有關系?第一,這個場景要足夠終極,成長性足夠大,要讓大模型走到AGI的時候,才能讓這個場景的實現達到完美的程度。但同時這個場景的起點又要相對比較低,哪怕沒有達到AGI,這個場景也已經可以產生價值,切入廣泛人群了。
4. 之前大家覺得圖靈測試無法用語言分辨出人和機器了就可以稱為智能,那今天我們對于AGI 的定義就是如果你能造出一個高水平的醫生了,就是達到AGI了。
5.造醫生就等于AGI。醫生是 AGI 的一個子集,大模型所有的能力在醫生上都用得到,比如說推理能力、減少幻覺的能力、溝通能力、共情能力、多模態的能力、記憶的能力。
6.問診是最核心的能力,問診今天還是刀耕火種,還在靠醫生這張嘴,沒有被標準化過,問題問得不對,就得不到好答案。但有了大模型,它可以按照診斷的SOP(標準化流程)來提問,這可以充分展現它的能力。
7.我們在“造人”,不是在造工具。大家開始提的概念叫助理,助理就是錯誤的理解,今天我們是造顧問,它比你更有知識。
8. 我們今天做 AGI,核心就是通過知識密度擴大知識的供給。醫生的供給不是靠生產關系,像滴滴、美團幫你撮合下就夠了的。就像騎手,有些人工作不順利,一不開心去當騎手了,但沒法說一不開心就去當醫生。這個供給是 AGI 重要的市場空間。
得醫生者得天下
9.娛樂應用殺時間,效率工具節省時間,而醫療能延長時間。所有東西都在變得越來越便宜,越來越容易獲得,但醫療和健康卻在變得越來越貴。
10.醫療是大模型皇冠上的明珠。因為醫療行業的需求是無限大的,模型再大,醫療都需要;以及醫療的智力密度是足夠高的。
11. 上一代互聯網的本質,是在解決信息傳遞、改變生產關系的問題。但是醫療不是這樣的,醫療是供給驅動的,醫療領域最缺的資源是醫生,但醫生的供給是有限的,所以上一代互聯網做掛號什么的,也沒有意義。
12.上個20 年,整個VC投了1000億也沒做起來互聯網醫療,核心是因為只能圍繞醫生做周邊:幫醫生寫論文,幫醫院做信息化……這些模式都不成立。找醫生不如造醫生。
13. 醫療行業核心是兩個事情需要解決,一個是醫生不夠,另一個是缺乏足夠多臨床研究,有更多的高質量數據,能得到醫學上的認知。
14. 我是因為醫療來做大模型的,不是用大模型做醫療。在應用驅動側,我認為醫療是這波變革中最大的,甚至是唯一的應用。
15. 醫生是一個頂天立地的場景,立地是它對服務有意義,頂天是它對大模型有需求。我們砸大模型,至少有一根支柱,確保模型的技術能力變成場景的壁壘。
16.任何一個 AI 技術在醫療上都有用武之地:復雜診斷需要推理能力,需要減少幻覺;全病程管理需要長窗口記憶,未來甚至可以記錄一個人一生的健康信息;理解醫療影像、聽診等需要多模態;詢證、查論文需要 RAG(檢索增強生成)等;甚至未來手術機器人也需要具身智能。
17. 我們做醫療的話,會把它類比成無人駕駛。無人駕駛也是之前大家覺得特別難的一個題目,但是大家對無人駕駛也很看重。醫療其實是一個比無人駕駛更有價值的事情,醫生的供給要比司機少很多,同時又跟生命健康高度相關,因此它的價值就足夠大。
圖:類比自動駕駛,醫療發展的六個層次
18. 我們認為今天醫療行業在AI加持之后的話,可以做到 L1-L2 之間,比 L1 好一點,但是離 L2 還有差距。但是我們判斷,以現在大模型的技術加上其它技術的引入,是有機會做到 L3的。(2024年6月)
19. 醫藥最大的難點是,必須用人做實驗,醫生一定要介入這個環節,所以臨床才是獲得認知和服務的中心舞臺……醫生既是臨床服務者,也是科研工作者,因此在中國叫「得醫生者得天下」,患者也是求醫生,藥廠也要去找醫生,但醫生供給的量非常有限。
20. 在美國只有兩個行業,它的價值是越來越貴的。其中一個就是醫療服務,人的需求是無限多的,自古到今,醫療再多供給,人都有需求。
21.實現“造醫生”后,整個醫療路徑將發生大的變革,以醫院為中心將演變為以居家或社區為中心。
22. 兒科對改變路徑的需求最為迫切。小朋友隔三差五就生病,家長不放心就請假去醫院,甚至半夜要去急診,去了還可能交叉感染,其實80%的兒科疾病是不需要去醫院的。兒童的家長相對年輕,更容易擁抱新技術。因此兒科會成為 AI 醫療里最快產業化的一部分。
23. 未來都會參與到醫療的哪些環節?短期肯定是先讓兒科醫生和全科醫生往基層走,使患者就診的路徑得以改變。再往下走,就能讓醫生有時間干更多事,這樣對科研也會有幫助。最終,醫學模型是知道什么樣的人該給什么樣的診斷和干預方法,在精準醫療里找到個性化的范式。
24.醫療領域的落地,2025年就會是一個重要節點,醫療會是 AI 較早解鎖的主要場景,而不是像一些人想的是更晚的場景。
最終買單方將是政府、保險和個人
25. 商業化的路徑有兩種彎路:一種是立刻就賺到快錢的,你寫個廣告文案、寫個PPT效果很好,沒問題。但這只是一個小應用,在技術迭代過程中,不會成為主旋律。另一種,覺得訓練模型之后場景自然會來,這個我也不太認可。
26.今天API收入和模型本身的收入,都不叫成功實踐,不是我們要追趕和類比的情況,我們認為這兩個東西今天不是最性感的商業模式。文心一言也好,ChatGPT也好,都不是。
27.我現在做的事短期可能是醫院買單,但最終的買單方應該是保險、政府或者個人。
28. 整體看,商業模式有 3 個方向:第一是G 端(政府端),本身有基層公衛費用,會支持家庭醫生計劃和公立醫院改革。第二是H 端(醫院),最終會走到醫保里。比如去年底,AI 輔助診斷首次被國家醫保局列入了服務項目的立項指南,而且它不是算在醫療器械費用里的,是在醫生服務費用里。第三就是to C,可能從每個人付費走向多層次商業保險。此外未來還有一個很大的機會,是出海。
29. 我們不是幫助醫生,是造醫生,改變大家的就診路徑:從院內走向院外,甚至從線下走到線上。醫生對我們而言是朋友關系,但不是我們的服務對象,他是我們的合作伙伴。
30. 圍繞醫生做周邊容易變成外包,而如果是造醫生,那核心價值在于超級醫生模型。一開始可能要做得要重一些,但頭幾個客戶跑完后,一些非核心模型的部署工作就可以找 ISV(第三方的軟件合作商)去做了。
31.to B,在中國天花板遠遠低于to C。我們相對保守、收斂。我們現在主要To C,To B占20%左右,很小的一個比例。(2024年4月)
32. 我認為B 端天花板不高,但確定性是挺清楚的,就是確實很多企業都有這樣的一個需求,只是它的對接門檻很高,每個企業有自己的私有數據跟你怎么連。所以如果你沒一個好的合作模式的話,最后可能把雙方都拖垮掉。
33.光做to B無法養活百川,核心拼的是超級應用。to C我提了三個詞:創造、健康、快樂。在C端做事,如果沒有厚度,只是在做模型as service這件事情,在共識里面創業公司是沒戲的。
34. 落地不等于商業化。你得更有應用導向、場景,在場景端先把價值創造出來,這就叫落地。無論是百度還是抖音,第一天也不是先商業化。
35.我們融的錢,按照現在的進度,也足夠支撐很長時間了。(2024年4月)
最關鍵的數據來自頂尖醫院
36.醫療是各個行業里數據量最充分的行業,沒有之一。這個行業已經有一定的數據沉淀,數字化也做得不錯了,很多行業數字化都沒有。
37. 如何獲得足夠豐富和優質的醫療數據?首先是和醫院合作,還有一些醫學雜志和數據庫也有大量公開優質數據。
38. 從case study、RCT再到后面的Meta分析,以及大量的論文、醫療指南、專家共識等這些醫學領域知識的總結都能夠成為大模型的數據,這個訓練集是足夠的。
39.最關鍵的數據還是來自頂尖醫院,質比量更重要。多大程度上有數據飛輪,需要實踐更久之后才好回答。
40. 在醫療領域做超級模型比做通用模型的成本更高,因為需要更多醫療數據。做到“入院即入組” 甚至 “出生即入組”,就是對病程乃至整個生命過程的每一個醫療干預做完整記錄,這會產生海量數據,它們又會成為 AI for Science 的基礎,推動生命科學發展。
不看好醫療開源
41. 從 ToB 的角度,開源、閉源都需要,不是這樣的競爭關系。我們認為,未來 80% 企業會用開源的模型,在自己的數據里去優化。(2023年8月)
42. 我不認為開源會做出最好的模型。而且要分具體場景,醫療開源是不會做好的。(2024年3月)
43. DeepSeek 的開源會改變行業格局,中國離實現 AGI 和應用爆發更近了。另外DeepSeek 的出圈讓更多人體驗到了 AI,教育了行業。原來我們還想,要怎么讓衛健委和醫生能理解今天 AI 的醫療推理能力已經很強了,現在這會更容易。
44.開源讓醫療科研人員能很容易上手模型、做調優。也能幫我們和醫療行業建立透明和信任的關系。(2025年2月)
需要更多年輕人
45. 醫療圈的人,之前最大的特點就是做“傷”了,講什么都不興奮。對我來講,核心是需要讓團隊對醫療有更多的理解和信仰。
46. AI 人才和醫療人才怎么協作、分工、融合?一是做技術的人要會提醫學問題;二是,醫學背景的人會參與設計模型評測體系,他們要學習對數據的概念。
47. 創業公司先天有優勢。第一,大家都知道模型做不好,公司做不好,大家都掛了。在一條船上,都在駕駛艙。第二,大家能有充分共創,不是老板和員工的關系。大廠這方面難很多。
48. 今天的大模型不是靠技術理想主義推動的一件事,需要更多對現實的考慮,對技術通盤的看法,甚至有人文哲學高度的一個組織。
49. 我們這次創業發現,在很多技術定義上,3年、8年的這種經驗沒用。現在做大模型最好的就是剛剛畢業的博士生,而且之前就是參與大模型研究的。經驗越多,可能變得包袱越大,需要更多變化調整。
50. 打造組織需要更多年輕人,接下來技術團隊需要更年輕化,吸收更多博士生和應屆博士,醫療人才則需要更多的經驗。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.