注:圖片來源于 PNAS 網(wǎng)站 ?????
我們都在熱火朝天的討論大模型帶來的改變,但再看看自己的研究,好像什么都沒改變。這么說也不完全準(zhǔn)確,畢竟大模型可以幫我們做英文潤色,還能找文獻(xiàn),還能寫代碼,還能處理數(shù)據(jù)......???????
PNAS上的一項(xiàng)研究通過四個測試分析了ChatGPT(GPT-3.5和GPT-4)在科研流程中扮演各種角色的能力,包括作為研究館員(Research Librarian)、科研倫理學(xué)家(Research Ethicist)、數(shù)據(jù)生成器(Data Generator)和新數(shù)據(jù)預(yù)測器(Novel Data Predictor)[1]。以下是每個測試的設(shè)計(jì)與結(jié)果:
測試1:GPT能寫出一個靠譜的研究綜述嗎?
設(shè)計(jì):要求GPT-3.5和GPT-4從25個心理學(xué)相關(guān)主題中各找出20篇有影響力的文章并綜述,這樣GPT-3.5和GPT-4就得到了包括500條文獻(xiàn)的綜述。然后,兩位編碼人員評估了這1000條參考文獻(xiàn)的正確性(評判時分兩類,如果參考文獻(xiàn)中有捏造或者連作者都弄錯,這種屬于胡扯;如果參考文獻(xiàn)將年份或者期刊名稱弄錯,這種屬于錯誤)、完整性、主題相關(guān)性和引用次數(shù)。
結(jié)果:
GPT-3.5和GPT-4都會產(chǎn)生虛構(gòu)的參考文獻(xiàn),但GPT-3.5的比例(36.0%)遠(yuǎn)高于GPT-4(5.4%)。
GPT-4在提供完整參考文獻(xiàn)時,更不可能產(chǎn)生虛構(gòu)內(nèi)容。
GPT-4在承認(rèn)虛構(gòu)參考文獻(xiàn)方面也表現(xiàn)得更好,84.3%的時間會注明參考文獻(xiàn)可能是虛構(gòu)的,而GPT-3.5只有12.2%。
GPT-4在檢索相關(guān)文章方面比GPT-3.5更成功,尤其是在中等廣度的主題上。
設(shè)計(jì):在心理學(xué)、經(jīng)濟(jì)學(xué)及其他社會科學(xué)、醫(yī)學(xué)領(lǐng)域,大量研究的可重復(fù)性存在問題,尤其是在使用統(tǒng)計(jì)顯著性方面。p-hacking 嚴(yán)重影響著全球科研成果的可信度,不少人在使用統(tǒng)計(jì)方法的時候,反復(fù)調(diào)試,從中挑出顯著的結(jié)果發(fā)表。作者向GPT-3.5和GPT-4展示了有缺陷的研究方案的虛構(gòu)案例,有的案例存在嚴(yán)重的統(tǒng)計(jì)顯著性問題,有的案例只存在細(xì)微的統(tǒng)計(jì)顯著性問題,然后,看看GPT-3.5和GPT-4能否識別出潛在的統(tǒng)計(jì)顯著性問題。結(jié)果由兩位編碼人員進(jìn)行評估。?
結(jié)果:
GPT-4在識別和糾正嚴(yán)重問題(88.6%)和細(xì)微問題(72.6%)方面表現(xiàn)優(yōu)于GPT-3.5。
GPT-4能夠識別出細(xì)微的不當(dāng)行為,并提供改進(jìn)建議。
GPT-4在評分中接近科研人員的標(biāo)準(zhǔn),而GPT-3.5則常常錯過問題,有時甚至對不當(dāng)行為表示贊賞。
設(shè)計(jì):作者探索了GPT-3.5和GPT-4在模擬已知科學(xué)結(jié)果(性別偏見)方面的能力。作者選擇了四個廣泛研究的性別刻板印象:性別態(tài)度(對女性與男性的整體積極/消極態(tài)度)、性別與“藝術(shù)和科學(xué)”的關(guān)聯(lián)、性別與“家庭和工作”的關(guān)聯(lián)、性別與“數(shù)學(xué)和閱讀”的關(guān)聯(lián)。作者向GPT-3.5和GPT-4展示了數(shù)千個隨機(jī)排序的詞對,并要求模型估計(jì)基于其訓(xùn)練數(shù)據(jù)的文化關(guān)聯(lián),例如女性與家庭的關(guān)聯(lián)度高于男性,以及男性與工作的關(guān)聯(lián)度高于女性。
結(jié)果:
GPT的估計(jì)結(jié)果復(fù)制了先前研究中已知的總體的性別效應(yīng),顯示出基于訓(xùn)練數(shù)據(jù)對女性和男性的文化偏好,以及女性(相對于男性)與藝術(shù)、家庭和閱讀的更強(qiáng)關(guān)聯(lián)。
GPT的效果通常比先前研究中報告的更強(qiáng),這可能反映了AI系統(tǒng)在其訓(xùn)練數(shù)據(jù)中放大偏見的趨勢。
這些結(jié)果對于GPT在生成詞嵌入研究數(shù)據(jù)方面的潛力是積極的,但也存在一些警告,例如GPT-3.5和GPT-4對相同詞對的響應(yīng)之間的項(xiàng)目間相關(guān)性是變化的但中等的。
GPT-4與GPT-3.5相比,并沒有在減少偏見方面表現(xiàn)出顯著改進(jìn),盡管OpenAI努力去偏見化。
設(shè)計(jì):檢驗(yàn)GPT-3.5和GPT-4是否能夠預(yù)測未包含在其訓(xùn)練數(shù)據(jù)中的新模式,特別是對待跨文化的含蓄和直接態(tài)度的數(shù)據(jù)。作者使用一個新的數(shù)據(jù)集——Project Implicit International Dataset,該數(shù)據(jù)集包含了來自34個國家的230萬參與者的含蓄和直接態(tài)度的數(shù)據(jù)。作者要求GPT-3.5和GPT-4對60種不同的跨文化模式進(jìn)行預(yù)測,包括含蓄和直接的對性取向的態(tài)度、對年齡的態(tài)度,以及對性別與理科/文科關(guān)聯(lián)的刻板印象。
結(jié)果:
GPT-3.5和GPT-4在預(yù)測對性取向直接的態(tài)度時取得了一定的成功,但在預(yù)測對性取向含蓄的態(tài)度時則不太成功。
對于對年齡的態(tài)度和對性別與理科/文科關(guān)聯(lián)刻板印象,兩個模型的預(yù)測都未能成功,甚至在內(nèi)部一致性方面也表現(xiàn)不佳。
GPT在預(yù)測新數(shù)據(jù)方面的能力有限,特別是在預(yù)測那些在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過的數(shù)據(jù)模式時。
小結(jié)
這些發(fā)現(xiàn)為未來模型的訓(xùn)練提供了有價值的參考,并表明GPT在某些科學(xué)任務(wù)中能夠成為有用的工具,但不應(yīng)被誤認(rèn)為具有全能的知識。
[1] Lehr, S. A., Caliskan, A., Liyanage, S., & Banaji, M. R. (2024). Chatgpt as research scientist: Probing gpt’s capabilities as a research librarian, research ethicist, data generator, and data predictor. Proceedings of the National Academy of Sciences, 121(35), e2404328121.
Tools
都在這里:
SCI母語潤色
專注生物醫(yī)學(xué)領(lǐng)域
唯 問 生 物
專注腫瘤基礎(chǔ)研究
19901610324同微信
京東有售:https://item.jd.com/12824943.html(點(diǎn)擊左下角閱讀原文)
關(guān)注我們加入群聊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.