沈為上海交通大學人工智能研究院教授博士生導師
曾任約翰霍普金斯大學計算機系助理研究教授。研究方向為計算機視覺、深度學習與醫學影像處理,關注弱監督/無監督下圖像分割等視覺識別任務。發表IEEE TPAMI、IEEE TIP、IEEE TMI、NeurIPS、CVPR等人工智能相關領域頂級期刊和會議50多篇,谷歌學術引用1萬多次。擔任NeurIPS 2023/2024、CVPR 2022/2023、ACCV 2022領域主席,擔任SCI一區期刊Pattern Recognition編委、上海市計算機學會計算機視覺專委副主任。代表性工作獲得MICCAI 2023青年科學家獎。國家優青,入選上海領軍人才(海外)。
這兩年,直播間有個極具生命力的梗,叫做“你這背景太假了”。僅抖音平臺的相關衍生話題,就超過30億播放量。每當主播的背景效果過于震撼、艷麗,就會被網友要求“自證”,比如光腳淌水、向身后扔礦泉水瓶等。
難分真假的吃瓜群眾,之所以對自己的眼睛愈發不自信,深層原因在于計算機的“眼睛”越來越強大。隨著圖像分割算法不斷優化,直播間、視頻會議里的虛擬背景,已經可以和人物不露破綻的絲滑銜接,為工作、娛樂帶去更多沉浸體驗。
上海交通大學人工智能研究院教授沈為,就是該領域的耕耘者之一。
他曾在多項國家自然科學基金的項目研究中,建立起形狀引導的圖像分割計算機制和方法,為相關應用的發展提供了扎實的學術理論支撐。眼下,他正率領團隊通過計算機視覺和深度學習,為醫學影像行業賦能。
在沈為身上,你會看到一種有趣的“對立統一”:他清醒意識到現有AI基石——計算機“馮諾依曼體系”的局限性,認為“唯有底層技術革命,才能突破現有瓶頸”。同時又愿意腳踏實地,在現有框架下,朝計算機視覺領域的最高峰持續攀登。
半路入行找到“人生坐標”,三位恩師影響了我
專注、冷靜、重理性思維,是學界人士的基本特質。但沈為與計算機視覺領域結緣,卻源于一次原因不那么理性的“半路出家”。
沈為的本科專業是“信息與通信工程”,滿懷期待的他卻在入學后有所動搖。
“我的專業主要與信號、聲波、頻譜打交道,這些東西看不見摸不著。而我又是一個對畫面感有期待和追求的人,小時候的很多興趣和夢想都是源于一些有畫面感的事物?!?/p>
為了做出改變,他以專業課中的“圖像處理”為跳板,在讀博期間轉向計算機視覺領域。他的博士生副導師,華中科技大學教授白翔為他帶去了很多積極影響。
巧合的是,白翔教授也是“半路出家”,并經歷過一段非常艱難的轉型過程。但這沒有妨礙他成為人工智能行業、場景文字檢測與識別技術的尖端人才。白翔教授相信“興趣的力量”,并鼓勵學生參加學術競賽與實戰項目,去接觸應用場景中真實的數據、算法和系統,從而有效避免“閉門造車”,在研究具體問題時取得突破。
在白翔教授的推薦下,沈為前往微軟亞洲研究院實習,并得到了微軟亞洲研究院高級研究員、加州大學圣地亞哥大學教授屠卓文的指點和幫助。屠卓文教授的很多工作內容,都處于學界最前沿。同時他又是一位自己上手寫代碼,親力親為的導師。在他的引領下,沈為在計算機視覺和深度學習領域不斷擴展視野,積累了豐富的經驗。
兩位恩師的言傳身教,讓沈為有了一個堅實的事業起點。
2014年,已經回國任教的他開始推動“基于深度學習的邊緣檢測”項目,為了趕論文進度一度達到廢寢忘食的程度。功夫不負有心人,一年后,相關研究成果獲得全球計算機視覺頂級會議CVPR的發表,并得到學術圈廣泛關注和引用。
正是這篇論文,在一定程度上推動了邊緣檢測的躍進發展,通過深度學習讓物體與物體間的邊界、雜亂背景的噪聲影響得到更強區分性,解決了虛擬背景等應用不夠精細、穿模的問題。
幾年后,已經在業內有所建樹的沈為決定前往美國約翰斯·霍普金斯大學計算機科學系進行交流學習。也是這期間,他生命中第三位意義非凡的恩師出現了——著名物理學家史霍金的得意門生,計算機視覺學科奠基人之一的艾倫·尤爾。
艾倫·尤爾教授致力于推動人工智能與醫療影像方面的應用場景相結合,以此來輔助醫生提高工作效率。
他較早預見到貝葉斯定理在計算機視覺領域的應用優勢,并在“基于CT影像的早期胰腺癌診斷”項目中取得多項突破。沈為就曾參與到該項目中,并提出多項CT影像中胰腺腫瘤分割技術。
在三位老師的影響下,沈為從一個“被畫面感所吸引”的學者,成長為計算機視覺與深度學習領域的技術專家,一步步找到了自己的“人生坐標”。
做“留在實驗室的人”,用AI為醫療行業開扇窗
萬卡集群時代的開啟,讓AI領域得到了不可思議的加速度。自動駕駛、ChatGPT、人形機器人、Sora、百模大戰...熱點頻出的當下,越來越多科學家與學術大牛選擇下場創業,或是開辟一些離熱點更近的研究方向。
但沈為還是選擇留在“實驗室”里,他始終認為,熱點不是用來追逐的,而是應該把熱點中的價值導入自己的研究方向。
這種鮮明的長期主義特質,似乎也是從三位恩師身上傳承而來。加入上海交通大學人工智能研究院以來,沈為的主要研究方向還是集中在“老本行”——圖像分割與醫學影像分析。
圖像分割是幫助計算機理解圖像信息、提取圖像數據的關鍵一環。小到虛擬背景,大到工業制造、自動駕駛、人形機器人,都需要不斷提高分割精度,才有可能完成最終落地。
沈為現階段的主要工作,就是通過醫學圖像分割模型服務于醫院等場景。比如,讓搭載了AI算法的CT能夠自主識別肺結節、肺結核、胰腺腫瘤,尤其是低對比度的病灶。在他看來,隨著這些技術與硬件相結合,可以為醫生提供一層“科技漏斗”,幫助醫生過濾掉繁瑣的工作內容,讓他們有更多精力專注于診斷和施策。
在項目合作中沈為發現,醫學圖像的優質數據高度依賴醫生的標注,但這勢必會為他們的日常工作帶去干擾。為此,他嘗試通過技術創新,在弱監督環境下,實現與全監督環境相當的分割精度。同時在算法中導入醫生的優秀經驗,讓AI能夠物盡其用。他的部分研究成果已經在某醫療科技巨頭的產品上成功落地,為醫院帶去了效率提升。
專注于本職工作的同時,沈為還積極與國家創新項目展開合作。目前,他參與了金山云和瑞金醫院牽頭的國家重點研發計劃——虛擬手術。
“優秀主刀醫生的短缺,已經成為全球范圍的待解難題。相較于其它行業,醫生的培養更加耗時。尤其是主刀醫生,需要大量實踐機會提升經驗。但每個躺在手術臺上的患者,都不希望自己成為‘小白鼠’。所以年輕醫生只能通過假人、動物進行手術訓練?!?/p>
虛擬手術項目的發起,就是希望構建一個還原度極高的仿真環境,通過醫學影像的分割、手術場景的重建、三維器官的呈現,讓醫學院的學子們得到更多實操機會。
沈為能夠參與到這一國家級項目中,與他的專注和長期主義息息相關。
2023年,沈為和團隊的重磅研究成果“基于神經輻射場的內窺鏡手術場景組織動態三維重建工作”,發表在醫學影像處理頂級國際會議MICCAI上。并在2000多篇投稿論文的角逐中脫穎而出,斬獲青年科學家獎,成為該獎項中的唯一華人團隊。
相信他的學術成果,能夠讓虛擬手術項目加速落地,從而讓年輕醫生盡快成長起來,承接日益增加的手術量。在沈為看來,AI在醫療影像、虛擬手術上的應用,有望解決城鄉醫療資源不均衡的瓶頸。
相信奇點將至,更信奉腳踏實地
未來學家雷蒙德·庫茲韋爾曾在《奇點臨近》一書中預測,未來某個時點,高度發達的機器智能將與人類文明相互融合,對現有文明、科技體系產生巨大變革,甚至幫助人類超越生物局限性,即所謂的“AI奇點論”。
在沈為看來,GPT、SORA的橫空出世恰恰說明,未來會有更重磅的顛覆性科技突然涌現,且這個時點可能比多數人想象的還要近。但他更堅定認為,依托于馮·諾依曼底層原理的現有人工智能,無法通過掃描、存儲、訪問的模式產生媲美人類的機器智能,很多相關的陰謀論是杞人憂天。
“人類思維的運行機制,和現有人工智能模型有本質區別。我們的大腦能用不到一個電燈泡的低能耗,完成人工智能需要上萬瓦能耗的任務。”
從沈為的敘事中不難推導,很多將AI與人類智商類比的說法都極不嚴謹。但這并不影響AI在特定領域為人類服務,只是需要市場參與者更加務實去揚長避短。
以計算機視覺為例,沈為認為行業最大的痛點是“計算機視覺系統的精度無法確保100%,所以很多場景下只能發揮輔助作用?!卑ó斚麓蠡鸬腟ora,他看好其在廣告營銷、游戲動畫、虛擬人制作等方向的發揮。但這類模型也會長期受到物理規律認知不足、AI幻覺的影響,無法在嚴肅場景勝任。
沈為坦言,計算機視覺領域很難誕生GPT這樣的通用模型。
“語言是人類創造的高度精煉的表達,每個單位都獨立存在,具有離散性,更易生成通用模型。但自然界的圖像卻是連續的,所以具有通用智能的計算機視覺系統,至今沒有被研發出來。在解決具體問題時,我們要根據應用場景去一個個打造垂直模型,未來的趨勢也必然會從純視覺轉向多模態。”
即使知道計算機視覺的“先天不足”,沈為還是選擇腳踏實地,用長期主義的研究態度去解決實際問題。他談到,做研究只有才華和資源遠遠不夠,還需要“頭鐵”。
“就像深度學習三巨頭,1986年就有了研究雛形,但是受限于那個硬件不成熟的年代而沉寂許久,很多年后才等到GPU的爆發??梢?,有巨大影響力的研究成果,都需要不計時間成本的強大意志力來支撐。”
雖然自己是個相信“堅持出奇跡”的學者,但他也鼓勵國內有余力的團隊、商業公司積極研究國外先進案例,至少能以跟隨戰略做到“不落后”。“GPT也好,Sora也罷,很難說未來會不會演變成卡脖子式的技術,所以應該對類似新物種保持敏感?!?/p>
這就是沈為,一個相信“奇點將至”,但更信奉腳踏實地的學者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.