生成式人工智能目前正在改變眾多不同行業。然而,尚不清楚此類工具會如何影響社會科學研究。美國杜克大學教授Christopher Andrew Bail在國際頂尖學術期刊《美國國家科學院院刊》發表了一篇題為《生成式人工智能可以推動社會科學發展嗎?》(Can Generative AI improve social science)的文章,系統總結并分析了生成式人工智能對社會科學研究的機遇、風險和建議。本文認為生成式人工智能技術有望改進調查研究、在線實驗等人類行為研究方法。不過,訓練數據的偏見、倫理、環境影響及低質量研究泛濫等問題,也會對社會科學研究產生負面影響。文章最后指出,社會科學家可以通過創建研究人類行為的開源基礎設施來應對生成式人工智能帶來的挑戰。啟元洞見編譯核心內容,旨在為讀者提供參考。
一、什么是生成式人工智能
諸如ChatGPT之類的大語言模型(LLMs)會攝入海量基于文本的數據,并計算在給定文本段落中,某個單詞(或詞組)在已有的語言模式下出現的概率。隨著技術進步,人工智能研究人員能夠使用越來越多的文本數據訓練此類模型,再加上“Transformer”架構,大語言模型能夠更嫻熟地掌握語言規律。因此,大語言模型類似于過去十年在搜索引擎、應用程序中普遍存在的“自動補全”技術,但其規模要大得多,訓練過程也更為復雜。盡管學者們對大語言模型是否“理解”其生成的內容存在爭議,但許多人對其在對話場景中模仿人類、綜合不同信息源以及執行基本推理的能力印象深刻。
圖像和視頻生成領域也取得進展。生成式人工智能工具創建全新圖像時,并非像語言模型那樣基于詞匯間的關系計算單詞出現的概率,而是通過不同顏色或尺寸像素的共現規律,組合生成一系列合成視覺內容。這其中包括合成人臉、經典藝術作品的復刻,或是超現實(有時極具創新性)的藝術形式——這些成果既引發了創意行業從業者的關注,也讓他們深感憂慮。諸如DALL-E和Stable Diffusion這類模型,能通過文本提示生成視覺內容:它們會探尋詞匯共現模式與像素排列之間的關聯,使用戶得以定制高度個性化的視覺素材。
二、生成式人工智能為社會科學帶來的機遇
盡管生成式人工智能模型存在顯著缺陷,但它們在某些場景下似乎能夠模仿人類。當前,人類在很大程度上無法判斷此類文本的作者是人類還是大語言模型。例如研究顯示,GPT-3能輕松生成關于新冠疫情的虛假信息,但大多數社交媒體平臺沒有檢測出來。
盡管生成式人工智能成功模仿人類的能力顯然存在潛在危害,但這些能力或許能為社會科學家的研究目的所用。它可創建實驗所需的文本或圖像,并在研究人員反饋下提升材料效度、可比性,還能保護真人隱私。生成短篇內容時,生成式人工智能出錯率較低,在復雜行為模擬中也表現不俗,例如,GPT-3能按人口統計特征模仿民意調查受訪者,輸入受訪者特征細節后,其回答與真實受訪者高度相似。還有人認為,生成式人工智能也是創建調查問題或設計多項目量表以衡量抽象社會概念的有用工具。此外,生成式人工智能還可用于復現實驗。例如,大語言模型可復制認知科學以及道德研究中的經典實驗,并在囚徒困境和其他行為博弈中模擬人類行為。
生成式人工智能或將催生新的研究形式。社會科學理論常涉及群體層面過程,但招募大量人群互動困難且成本高。盡管生成式人工智能可能永遠無法復制人類群體的自發行為,但研究人員或許仍能在網絡空間中部署機器人群體來近似模擬此類行為。有研究人員搭建了一個社交媒體研究平臺,讓受訪者與模仿對立政黨成員的大語言模型互動十分鐘,多數參與者難辨對方是人類還是機器人。該研究設計表明,只要研究人員實時仔細監控人機互動中的幻覺或濫用情況,大語言模型可能有助于開展群體層面過程的研究。
(一)生成式人工智能改進基于模擬的研究
生成式人工智能工具可以用于直接模擬大規模人類群體,推動“基于主體的建模”(ABM)范式革新。ABM指的是研究人員通過創建合成社會來研究社會進程,要求研究人員用計算機代碼構建社會場景的模擬(如社交網絡、社區或市場),并根據人類行為理論設定的規則,創建在這些場景中互動的主體。ABM的一大優勢在于,它允許研究人員探索假設場景,并從個體行為(如群體內偏見)推導宏觀模式(如居住隔離)。但早期的ABM使用遵循簡單規則的主體,因缺乏語言交互、社交情境理解等,難以捕捉人類行為全貌。
近期研究表明,大語言模型可用于解決基于模擬的研究的一些局限性。研究人員用GPT-3.5驅動數十個主體在虛構小鎮環境中互動,賦予主體們個性、特征及記憶,隨著模擬進行,這些主體不僅形成日常生活規律,還展示了涌現的群體屬性(如討論是否參加派對、議論消息)。盡管該實驗創建的模擬環境相對簡單,但也證明了生成式人工智能對社會模擬的潛力。
此外,大語言模型可以集成到ABM中,以開發或測試更復雜的人類行為理論。例如,大語言模型可以重現社交媒體上的社會運動動態,還可以在模擬經濟和勞動力市場中重現競爭動態、組織內的信息傳播和決策以及危機應對。未來研究需明確大語言模型是否真實地體現了如此多人類行為的不可預測性。若解決,二者整合可研究現實中難觸及的主題(如社交媒體上的暴力極端主義)與人群(如暴力極端分子)。模擬也可以為我們在這些主題上的少量觀察性研究提供信息,并且也可以使用這些觀察數據進行校準。其涌現的群體行為或為社會干預提供參考,但需驗證大語言模型模擬的真實性。
(二)生成式人工智能革新文本分析
無論生成式人工智能的行為模擬能力如何,這類技術已在社會科學文本數據分析中展現潛力。有研究證明,GPT-3.5通過分析美國官員公開聲明,可精準分類其意識形態,結果與主流投票分析方法高度吻合,還能捕捉中間派背離黨派極端的細微傾向。有學者使用由社會學、政治學和心理學等社會科學領域以及歷史、文學和語言學等非社會科學領域的專家編碼的數據集,比較了大語言模型重現人類專家注釋者工作的能力。總體而言,大語言模型表現良好,尤其是在編碼政治學家和社會學家創建的數據時。不過,使用大語言模型仍需要一定程度的人工監督,且需熟悉任務特定的提示工程。
文本分析或是生成式人工智能改進社會科學研究最有前景的領域之一。盡管大語言模型準確性暫未超越人類專家,但其處理速度與規模優勢顯著:可短時間內完成全量文本語料庫編碼,而非傳統抽樣分析。生成式人工智能還支持多語言編碼及數據錄入等基礎工作。值得注意的是,人類編碼員常出現主觀偏差、一致性不足等問題,而大模型雖也存在偏見風險,但標準化處理能力更強。不過,仍需更多研究評估模型在文本分析中的隱私風險,尤其是訓練數據對小眾群體的覆蓋不足問題。目前,生成式人工智能已實質性拓展了社會科學文本研究的問題邊界,其與傳統分析方法的結合,或將重塑非結構化數據的研究范式。
三、生成式人工智能在
社會科學研究中的潛在風險
(一)存在人類偏見
生成式人工智能因基于人類創建的互聯網數據訓練,普遍存在偏見與認知錯誤。提示工程可以解決部分大語言模型中的偏見(如讓大模型扮演特定群體角色)。早期研究表明,從人工智能工具中消除偏見可能比從人類群體中消除偏見更容易,但前提是研究者能識別偏見。然而,在主流模型(如GPT-4)訓練過程不透明的情況下并非易事。
對于社會科學家來說,一個關鍵問題是生成式人工智能的偏見對于研究目的是“缺陷”還是“特征”。若能控制偏見,可用于研究其對態度行為的影響(如模擬歧視性招聘場景)。生成式人工智能也可應用在“逆向工程”某些類型的偏見。例如,對針對廣泛提示產生的代詞進行實驗,有可能識別新型的性別歧視。
另一方面,生成式人工智能工具無法準確代表邊緣化群體的人可能會阻礙社會科學研究。那些希望大語言模型可以幫助研究人員評估他們在更多樣化人群中的干預措施影響的人可能會對這種模仿的質量感到失望,因為訓練數據不足。
(二)產生垃圾科學
生成式人工智能被惡意利用的風險引發雙重擔憂:短期內,大語言模型因擅長大規模模仿人類,可能被用于批量傳播錯誤信息;長期來看,人工智能生成的偏見性/錯誤內容若充斥互聯網,可能導致未來模型基于缺陷數據自我訓練。
學術研究領域也面臨類似隱患,依賴生成式人工智能進行文獻綜述、生成研究問題或處理海量文本時,可能產出低質量“垃圾科學”,導致期刊和資助機構被無效研究淹沒。目前計算機科學家已嘗試通過“數字水印”標記人工智能生成內容(如圖像模型中已應用),但在大語言模型中實施難度較大。有人建議為大語言模型設定“詞匯口音”(如強制使用特定詞表),但大規模推行需所有模型開發方協調共識。
(三)倫理爭議
使用生成式人工智能進行研究是否符合倫理?這是社會科學家面臨的緊迫問題。生成式人工智能工具存在偏見且可能產生幻覺信息,若人類研究參與者在無監督情況下與之對話,這些信息可能被傳播。例如,用大語言模型模擬人際互動時,其輸出的偏見內容可能誤導參與者。
另一個重要問題是,研究人員在讓研究參與者接觸生成式人工智能之前是否必須始終獲得知情同意。對于任何研究,如果受訪者可能接觸到由大語言模型生成的錯誤信息或辱罵性語言,這種做法似乎至關重要。然而,在研究中披露生成式人工智能的作用也會降低其模擬人類行為的科學效用,因參與者反應可能受“對人工智能的態度”影響。
使用人工智能處理敏感數據也引發了關于隱私和保密的新擔憂。數據可能被私人公司存儲或出售,且這類企業不受學術機構的受試者保護標準約束。此外,生成式人工智能的環境成本亦需關注。2019年研究顯示,訓練單個大語言模型的碳排放相當于五輛汽車整個壽命周期內的排放總量,盡管技術進步提升了訓練效率,但模型規模增長仍加劇環境負擔。然而,也必須權衡訓練模型的成本與它們所創造的效率。例如,一項研究表明,人工智能在寫作和繪圖方面的碳排放量比人類低。
四、為社會科學研究創建開源基礎設施
生成式人工智能在社會科學研究中的應用面臨風險與機遇的平衡挑戰。當前,專有模型(如GPT-4)的訓練細節和微調過程高度保密,OpenAI甚至未披露其基本參數。這種不透明性使研究者難以評估模型偏見,且依賴的企業工具可能將研究與商業利益綁定——例如Meta雖曾開放Llama模型文檔,但近期停止共享訓練數據集,且可能隨時限制訪問或收費,重現社交媒體公司數據共享模式收緊的歷史軌跡。
社會科學家開發自己的開源生成式人工智能模型或可成為破局關鍵,可以更好地控制大模型何時以及如何產生偏見。社會科學家還可以共同努力為生成式人工智能工具創建訓練數據,增強對大模型行為的控制力,同時保護研究提示詞隱私,避免數據被轉售或用于商業模型迭代。
開源模型還經常創建和維持一個有共同關切的人群社區。社會科學家不必猜測專有模型何時以及如何表現出偏見,也不必無休止地測試不同的提示以實現研究目標,而是可以共同努力確定生成式人工智能工具在社會科學研究中的局限性。關于生成式人工智能的透明公開討論也可以幫助研究人員評估上述一些其他風險,如錯誤信息的傳播。社會科學家還可以設計開源生成式人工智能工具,通過運行旨在測試某些訓練和微調過程是否使學者能夠更容易地重現彼此工作的實驗,最大限度地提高研究可復制的機會。
但開源化也伴隨新風險:惡意行為者可能利用公開權重構建傳播錯誤信息的模型,或獲取危險領域知識。不過學界認為,此類風險與互聯網既有信息相比可控,且可通過建立跨學科委員會進行治理——該機構可負責審核模型發布范圍、平衡環境成本(如訓練大型模型的碳排放),并構建訪問控制基礎設施(如API與云服務)。若能實現,開源組織不僅能降低學術資源不平等,還可將開放科學倫理嵌入人工智能研究。這一努力需要跨領域協作與持續投入,但對社會科學擺脫專有技術束縛、建立兼具創新與倫理的研究范式至關重要。
免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.