在麻省理工學院工作的好處之一,是能夠窺見未來科技的輪廓——從量子計算的突破、可持續(xù)性能源的生產(chǎn),到新型抗生素設計。若問我是否對這些領域都有深刻理解?答案是否定的。但當研究者邀請我為他們的工作拍攝紀實圖像時,我能夠理解其中的大部分內(nèi)容。
科學攝影師的職業(yè)樂趣在于,我必須了解自己正在記錄的事物,才能為那些向我敞開實驗室大門的研究者拍攝出兼具信息傳遞功能與可信度的圖像,究其本質,這些圖像本身也是一種實驗數(shù)據(jù)存在。
?載玻片上的油滴內(nèi)含鐵微粒,對下方磁體產(chǎn)生響應。圖片來源:Felice Frankel
然而,隨著生成式人工智能工具的廣泛普及,一系列問題亟待探討。是否會存在某個時刻,科學家僅需幾次鍵盤輸入與提示,就能像我用相機那樣創(chuàng)建研究的“視覺化”成果,并將該圖像視為工作的記錄?科研人員、期刊編輯與讀者能否準確辨識人工合成圖像,并理解其本質并非真實研究過程的記錄?以及,最后我的個人關心的問題,在人工智能時代,是否仍需要科學攝影師這類角色來推動科研傳播?通過親身體驗人工智能圖像生成工具,我有了一些看法。
作者 · Author
Felice Frankel
科學攝影師
麻省理工學院化學工程系研究員,她因科學照片的高審美以及有效地通過圖像傳達復雜科學信息的能力而獲得多項獎項。她鼓勵研究人員質疑各種圖像調(diào)整和增強技術。著有The visual elements - photography,Picturing science and engineering等。
真實與表征之辨
我們首先需要明確傳統(tǒng)攝影與AI生成圖像的本質差異,前者每個像素都對應真實世界的光子,后者則通過擴散模型構建。這種復雜計算過程可以生成看似真實卻可能從未存在的事物。
為探究這種差異,我在哈佛大學科學可視化專家Ga?l McGill的幫助下,嘗試用Midjourney和OpenAI的DALL-E復現(xiàn)我拍攝的經(jīng)典科學影像。
1997年,麻省理工學院的化學家穆恩吉·鮑溫迪(Moungi Bawendi)邀請我拍攝他的納米晶體(nanocrystals,即量子點)。這些晶體在紫外光激發(fā)下會發(fā)出熒光,其發(fā)射波長隨著晶體尺寸的不同而變化。鮑溫迪因這項工作后來獲得了諾貝爾獎,但他并不喜歡這張照片,當時我將試管平放在實驗臺上俯拍得到的第一張照片(參見圖示)。你可以從畫面中管內(nèi)的氣泡看出我的擺放方式。這是有意為之,我認為它增強了圖像的視覺吸引力。
?三重視角。組圖呈現(xiàn)三種試管影像:首幅為攝影師視角,試管內(nèi)氣泡清晰可見;第二幅呈現(xiàn)科學家對顏色的重視;第三幅由AI生成,并非真實刻畫。 Credit: Felice Frankel
修改后的第二版照片被選用為1997年11月《物理化學B期刊》(Journal of Physical Chemistry B)封面。這幅影像不僅為研究提供了直觀記錄,更凸顯了科學攝影師與研究者協(xié)作的重要性,這正是我工作流程中不可或缺的環(huán)節(jié)。
為在DALL-E中生成類似的圖像,我輸入以下提示詞:"生成一張在黑色背景前的Moungi Bawendi的納米晶體試管圖片,其中試管受紫外光激發(fā)后因納米晶體尺寸差異呈現(xiàn)不同波長熒光"*。
原提示詞:create a photo of Moungi Bawendi’s nanocrystals in vials against a black background, fluorescing at different wavelengths, depending on their size, when excited with UV light.
?圖片由AI生成
你可能會認為程序生成的圖像頗具美感,但其真實性與原始照片相去甚遠。DALL-E在畫面中生成了提示詞未提及的珠狀微粒結構,這或許是因為其算法在底層模型數(shù)據(jù)集中檢索到"量子點"(quantum dots)這一術語后,將該概念替換了原本的"納米晶體"(nanocrystals)表述。
更值得警惕的是,每個試管內(nèi)含有多色微粒結構,暗示樣本含有在多種波長發(fā)熒光的混合材料,這與事實不符。此外,部分微粒被描繪為散落在實驗臺表面,這種處理是否出自模型的美學考量?我認為生成的視覺效果非常吸引人。
?圖片由AI生成
在AI生成實驗中,我獲得的圖像往往是難以被實現(xiàn)的卡通式圖像,更遑論作為科學記錄,但技術迭代終將突破這層壁壘。通過與科研界及計算機科學領域同行的深入探討,我們達成共識,必須建立明確的許可性規(guī)范。在我看來,AI生成的視覺作品視覺內(nèi)容永遠不應被允許作為文檔記錄。
?圖片由AI生成
圖像處理與AI生成的本質分野
人工智能的出現(xiàn)意味著我們必須澄清視覺傳播領域的三個核心議題,也就是闡釋性圖示(illustration)與影像記錄(documentation)的差異、圖像處理(image manipulation)的倫理規(guī)范,以及對科學家與工程師進行視覺傳播訓練(visual-communication training)的迫切需求。
影像構圖,就是選擇納入或舍棄哪些元素,本身就是對現(xiàn)實的一種修飾。人們所選用的工具也是這種修飾的一部分。每一臺數(shù)碼相機都能拍出獨特的照片;蘋果iPhone的圖像算法在色彩增強方面與三星手機截然不同;同樣,詹姆斯·韋伯太空望遠鏡所拍攝的近紅外圖像,雖與哈勃太空望遠鏡的光學掃描不同,但正是為了與之互為補充。
更進一步來說,那些震撼人心的宇宙影像中呈現(xiàn)的瑰麗色彩皆經(jīng)過數(shù)字增強(digitally enhanced),創(chuàng)造出對現(xiàn)實的多維詮釋。如此說來,人類多年來實際上一直在"人工生成圖像"。然而,通過軟件增強照片以刻畫現(xiàn)實,與基于訓練數(shù)據(jù)集創(chuàng)造虛擬現(xiàn)實之間,存在著根本性差異。
作為科學攝影師,我深諳闡釋性圖示與記錄影像之間的界限,但對人工智能程序是否具備這樣的判斷力持保留態(tài)度。闡釋性圖示或圖表通過符號、色彩、形狀等元素對概念進行主觀轉譯與視覺描述,其本質是對某個事物的表征;而基于光學攝影或掃描/透射電子顯微技術獲取的紀實影像,盡管并非實體本身,卻是使用光子或電子形成的客觀記錄。二者本質差異在于其目的。
闡釋性圖示的核心目的在于描述并闡明研究內(nèi)容,生成式AI在此領域或將大放異彩。但對紀實影像而言,其目的在于將現(xiàn)實世界最大限度還原。兩者本質上均屬于修飾或人工生成行為,這也凸顯出在引入生成式AI工具前,進行深度探討并建立相關倫理規(guī)范的必要性。
當前出版機構已配備相應軟件用于檢測既有圖像中的各類修飾行為(參見Nature 626, 697–698; 2024),但坦率而言,人工智能程序終將具備規(guī)避此類防護機制的能力。學界正致力于構建圖像溯源體系,以期完整記錄原始影像的任何修改痕跡。例如,法證攝影(forensic photography)界通過全球性組織"內(nèi)容來源與真實性聯(lián)盟"(Coalition for Content Provenance and Authenticity),向相機制造商提供技術指導,通過在設備端記錄所有圖像處理操作來實現(xiàn)照片溯源。但不出所料,并非所有制造商都采納了這一標準。
科學界仍有時間構建透明化體系并制定AI生成圖像的相關準則。最低限度要求是,所有生成式AI圖像都必須明確標注其屬性,且須清晰說明創(chuàng)作過程與使用工具,并在可能情況下注明提供給AI引擎的源圖像信息。然而,溯源清單的建立仍面臨重大挑戰(zhàn)。
有兩篇重要論文揭示了擴散模型應用中潛在的隱私與版權風險(N. Carlini et al. Preprint at arXiv https://doi.org/grqmsb (2023);另見go.nature.com/4jqyevn)。版權歸屬僅適用于訓練數(shù)據(jù)已知且完整記錄的封閉系統(tǒng)(擴散模型尚不滿足此條件)。例如,Nature期刊的出版方Springer Nature近期在其政策中為Google DeepMind的AlphaFold程序增設特例條款,允許其基于特定科學數(shù)據(jù)集訓練的模型進行應用。但需特別指出,AlphaFold并非生成圖像的生成式AI工具,其輸出內(nèi)容為結構模型(structural models,即坐標數(shù)據(jù)),后續(xù)仍需由科研人員(而非生成式AI工具)轉化為圖像。
令人欣慰的是,相關努力正著手解決隱私問題。創(chuàng)作者現(xiàn)可使用一種名為"內(nèi)容憑證"(Content Credentials)的防篡改元數(shù)據(jù),正如Adobe技術手冊所述,該技術旨在"使創(chuàng)作者獲得應有的認可并提升創(chuàng)作過程的透明度"。
倫理標準
多年來,我一直呼吁科研工作者亟需接受視覺傳播倫理的系統(tǒng)化訓練,而人工智能圖像生成工具的普及應用,更凸顯了相關討論的迫切性。
例如,我曾遇到一位工程師擅自修改了我為其研究拍攝的照片,并希望將處理后的圖像與投稿論文一并發(fā)表。該研究者并未意識到,篡改圖像實質上等同于篡改數(shù)據(jù),這種認知缺失源于其從未接受過圖像處理與視覺傳播的基礎倫理教育。
?作者拍攝的圖片與被修改的圖片
計算機科學領域同行指出,關于人工智能倫理的討論雖已廣泛開展,但這些討論主要發(fā)生在科學界之外。令我憂慮的是,整個科研共同體尚未充分認識到,圖像處理不僅是美學問題,更是一個需要嚴肅對待的倫理命題。
一幅圖像經(jīng)過多大程度的修飾后仍可被視為科學記錄?我們?nèi)绾闻袛鄶?shù)據(jù)在圖像中是否得到如實呈現(xiàn),是否存在刻意或無意遺漏?面對完全基于算法篩選現(xiàn)實素材、以記錄為目的而從頭構建的生成式AI視覺作品,其倫理邊界應如何界定?諸多問題仍待解答。
未來愿景
顯然生成式AI圖像必將成為我們未來的一部分。盡管多數(shù)可能歸類于闡釋性圖示范疇,但必須正視其作為科研記錄使用的潛在可能性。基于此,科研界亟需構建指導規(guī)范,要求研究者在提交含圖像的論文時,至少需回應以下質詢:
該圖像是否由AI生成?若是,則必須進行明確標注并包含標識其屬性的元數(shù)據(jù)。
具體采用了何種生成式AI模型及其版本?
生成該圖像時使用了哪些提示詞?
是否使用了圖像來輔助提示詞?若有,請一并提交該圖像并注明來源信息。
攝影師的職責
為回應本文開篇的問題——人工智能時代是否仍有科學攝影師的立足之地?我向OpenAI的ChatGPT尋求答案。以下是其精簡答復:
"在人工智能生成圖像的領域中,記錄科學對象的攝影師扮演著獨特角色,他們在這個準確性及表征真實性至關重要的領域,提供著專業(yè)技術、真實性與批判的視角。"
ChatGPT進一步闡釋:"簡而言之,在人工智能時代,科學攝影師仍具有不可替代的價值。他們引導負責任的實踐范式,提供高質量輸入數(shù)據(jù),確保生成式AI圖像承擔知識傳播功能而非誤導受眾。他們既是科學影像真實性的守護者,又是開拓新視覺疆域的先鋒。"
我對這個答案很滿意。
原文鏈接:https://www.nature.com/articles/d41586-025-00532-2
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內(nèi)容,歡迎評論區(qū)留言,或后臺留言“社群”即可加入社群與我們互動。
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設立了應用神經(jīng)技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經(jīng)科學研究院。
Chen Institute建成了支持腦科學和人工智能領域研究的生態(tài)系統(tǒng),項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎勵計劃、、等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.