ChatGPT改變了你的研究嗎？

2025-01-09 17:16:32　來源: Justscience

上海舉報

分享至

注：圖片來源于 PNAS 網(wǎng)站 ?????

我們都在熱火朝天的討論大模型帶來的改變，但再看看自己的研究，好像什么都沒改變。這么說也不完全準(zhǔn)確，畢竟大模型可以幫我們做英文潤色，還能找文獻(xiàn)，還能寫代碼，還能處理數(shù)據(jù)......???????

PNAS上的一項(xiàng)研究通過四個測試分析了ChatGPT（GPT-3.5和GPT-4）在科研流程中扮演各種角色的能力，包括作為研究館員（Research Librarian）、科研倫理學(xué)家（Research Ethicist）、數(shù)據(jù)生成器（Data Generator）和新數(shù)據(jù)預(yù)測器（Novel Data Predictor）[1]。以下是每個測試的設(shè)計(jì)與結(jié)果：

測試1：GPT能寫出一個靠譜的研究綜述嗎？

設(shè)計(jì)：要求GPT-3.5和GPT-4從25個心理學(xué)相關(guān)主題中各找出20篇有影響力的文章并綜述，這樣GPT-3.5和GPT-4就得到了包括500條文獻(xiàn)的綜述。然后，兩位編碼人員評估了這1000條參考文獻(xiàn)的正確性（評判時分兩類，如果參考文獻(xiàn)中有捏造或者連作者都弄錯，這種屬于胡扯；如果參考文獻(xiàn)將年份或者期刊名稱弄錯，這種屬于錯誤）、完整性、主題相關(guān)性和引用次數(shù)。

結(jié)果：

GPT-3.5和GPT-4都會產(chǎn)生虛構(gòu)的參考文獻(xiàn)，但GPT-3.5的比例（36.0%）遠(yuǎn)高于GPT-4（5.4%）。
GPT-4在提供完整參考文獻(xiàn)時，更不可能產(chǎn)生虛構(gòu)內(nèi)容。
GPT-4在承認(rèn)虛構(gòu)參考文獻(xiàn)方面也表現(xiàn)得更好，84.3%的時間會注明參考文獻(xiàn)可能是虛構(gòu)的，而GPT-3.5只有12.2%。
GPT-4在檢索相關(guān)文章方面比GPT-3.5更成功，尤其是在中等廣度的主題上。

測試2：GPT能提醒科研人員正確使用統(tǒng)計(jì)顯著性嗎？???????

設(shè)計(jì)：在心理學(xué)、經(jīng)濟(jì)學(xué)及其他社會科學(xué)、醫(yī)學(xué)領(lǐng)域，大量研究的可重復(fù)性存在問題，尤其是在使用統(tǒng)計(jì)顯著性方面。p-hacking 嚴(yán)重影響著全球科研成果的可信度，不少人在使用統(tǒng)計(jì)方法的時候，反復(fù)調(diào)試，從中挑出顯著的結(jié)果發(fā)表。作者向GPT-3.5和GPT-4展示了有缺陷的研究方案的虛構(gòu)案例，有的案例存在嚴(yán)重的統(tǒng)計(jì)顯著性問題，有的案例只存在細(xì)微的統(tǒng)計(jì)顯著性問題，然后，看看GPT-3.5和GPT-4能否識別出潛在的統(tǒng)計(jì)顯著性問題。結(jié)果由兩位編碼人員進(jìn)行評估。?

結(jié)果：

GPT-4在識別和糾正嚴(yán)重問題（88.6%）和細(xì)微問題（72.6%）方面表現(xiàn)優(yōu)于GPT-3.5。
GPT-4能夠識別出細(xì)微的不當(dāng)行為，并提供改進(jìn)建議。
GPT-4在評分中接近科研人員的標(biāo)準(zhǔn)，而GPT-3.5則常常錯過問題，有時甚至對不當(dāng)行為表示贊賞。

測試3：GPT能從數(shù)據(jù)中復(fù)現(xiàn)科學(xué)中的性別偏見嗎？

設(shè)計(jì)：作者探索了GPT-3.5和GPT-4在模擬已知科學(xué)結(jié)果（性別偏見）方面的能力。作者選擇了四個廣泛研究的性別刻板印象：性別態(tài)度（對女性與男性的整體積極/消極態(tài)度）、性別與“藝術(shù)和科學(xué)”的關(guān)聯(lián)、性別與“家庭和工作”的關(guān)聯(lián)、性別與“數(shù)學(xué)和閱讀”的關(guān)聯(lián)。作者向GPT-3.5和GPT-4展示了數(shù)千個隨機(jī)排序的詞對，并要求模型估計(jì)基于其訓(xùn)練數(shù)據(jù)的文化關(guān)聯(lián)，例如女性與家庭的關(guān)聯(lián)度高于男性，以及男性與工作的關(guān)聯(lián)度高于女性。

結(jié)果：

GPT的估計(jì)結(jié)果復(fù)制了先前研究中已知的總體的性別效應(yīng)，顯示出基于訓(xùn)練數(shù)據(jù)對女性和男性的文化偏好，以及女性（相對于男性）與藝術(shù)、家庭和閱讀的更強(qiáng)關(guān)聯(lián)。
GPT的效果通常比先前研究中報告的更強(qiáng)，這可能反映了AI系統(tǒng)在其訓(xùn)練數(shù)據(jù)中放大偏見的趨勢。
這些結(jié)果對于GPT在生成詞嵌入研究數(shù)據(jù)方面的潛力是積極的，但也存在一些警告，例如GPT-3.5和GPT-4對相同詞對的響應(yīng)之間的項(xiàng)目間相關(guān)性是變化的但中等的。
GPT-4與GPT-3.5相比，并沒有在減少偏見方面表現(xiàn)出顯著改進(jìn)，盡管OpenAI努力去偏見化。

測試4：GPT能預(yù)測人類對特定事務(wù)的態(tài)度嗎？

設(shè)計(jì)：檢驗(yàn)GPT-3.5和GPT-4是否能夠預(yù)測未包含在其訓(xùn)練數(shù)據(jù)中的新模式，特別是對待跨文化的含蓄和直接態(tài)度的數(shù)據(jù)。作者使用一個新的數(shù)據(jù)集——Project Implicit International Dataset，該數(shù)據(jù)集包含了來自34個國家的230萬參與者的含蓄和直接態(tài)度的數(shù)據(jù)。作者要求GPT-3.5和GPT-4對60種不同的跨文化模式進(jìn)行預(yù)測，包括含蓄和直接的對性取向的態(tài)度、對年齡的態(tài)度，以及對性別與理科/文科關(guān)聯(lián)的刻板印象。

結(jié)果：

GPT-3.5和GPT-4在預(yù)測對性取向直接的態(tài)度時取得了一定的成功，但在預(yù)測對性取向含蓄的態(tài)度時則不太成功。
對于對年齡的態(tài)度和對性別與理科/文科關(guān)聯(lián)刻板印象，兩個模型的預(yù)測都未能成功，甚至在內(nèi)部一致性方面也表現(xiàn)不佳。
GPT在預(yù)測新數(shù)據(jù)方面的能力有限，特別是在預(yù)測那些在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過的數(shù)據(jù)模式時。

小結(jié)

這些發(fā)現(xiàn)為未來模型的訓(xùn)練提供了有價值的參考，并表明GPT在某些科學(xué)任務(wù)中能夠成為有用的工具，但不應(yīng)被誤認(rèn)為具有全能的知識。

[1] Lehr, S. A., Caliskan, A., Liyanage, S., & Banaji, M. R. (2024). Chatgpt as research scientist: Probing gpt’s capabilities as a research librarian, research ethicist, data generator, and data predictor. Proceedings of the National Academy of Sciences, 121(35), e2404328121.

Tools

都在這里：

SCI母語潤色

專注生物醫(yī)學(xué)領(lǐng)域

唯問生物

專注腫瘤基礎(chǔ)研究

19901610324同微信

京東有售：https://item.jd.com/12824943.html（點(diǎn)擊左下角閱讀原文）

關(guān)注我們加入群聊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.