人工智能的最新進展,特別是大型語言模型(large language models,LLM),如CHATGPT,在科學界引發了關于其潛在用途的廣泛討論,更重要的是:濫用。去年,來自德國弗萊堡大學醫學中心Tjibbe Donker博士在著名國際期刊《The Lancet Infectious Diseases》發表了一篇通訊稿,文章作者親自參與并體驗了一番人工智能審稿的優劣。
盡管大型語言模型的能力無可否認地取得了巨大的飛躍,如果沒有仔細考慮,也存在缺陷和危險。讓大型語言模型接管部分任務的寫作過程可能看起來很有吸引力,這些任務可能看起來很瑣碎,或者可能需要人類更多的努力才能完成。
對一些人來說,撰寫同行評議報告似乎是一個讓大型語言模型伸出援助之手的理所當然的機會。因為很多人抱怨審稿任務自愿、免費、雜志要求越來越快,或者審稿人對要評閱的論文不熟悉。考慮到這一點,我嘗試使用CHATGPT來評審手稿,以測試能否創建公平、有意義和信息豐富的同行審查報告。
出于學術倫理,因為用戶對輸入數據的處理沒有明確的控制,我使用了我們課題組自己的預印本文章鏈接:
https://www.biorxiv.org/content/10.1101/544593v2
大型語言模型能夠給出一個很好的文字總結,和論文的主要目標及其結論的清晰描述。CHATGPT給出了一些積極的主觀評價;例如,“寫作風格清晰簡潔”。大型語言模型也提供了一些建設性的批評:“文章的某些部分是技術性的,非專業人士可能難以理解。然而,當被要求提出更具體的改進建議時,它失敗了,并開始了通常被描述為幻覺的過程,大型語言模型提供了一個看起來是錯誤的或未經證實的回應。CHATGPT提供了一個與文本無關的、看起來很具體的一般性評論列表。例如,統計數據不適合數據,并報告說該研究使用了“簡單的t檢驗和卡方檢驗”,但該研究沒有使用這兩種方法。當要求額外的參考文獻時,這種效果甚至更糟,CHATGPT用聽起來真實但不存在的文章來回應。CHATGPT建議的參考文獻中的許多作者都是真實的,并且研究類似的主題。但這些文章本身并不存在。
真正的風險是大型語言模型生成的審查報告看起來很平衡,但沒有關于手稿或所描述的研究的具體關鍵內容。因為它非常好地總結了論文和方法,所以它很容易被那些沒有完全閱讀手稿的人誤認為是一份實際的審查報告。更糟糕的是,具體但不相關的評論可能會被視為拒稿的理由。
因此,同行評審過程中的所有參與者對大型語言模型的使用保持警惕是很重要的。編輯應該確保評論報告中的評論與有問題的手稿真正相關,作者應該更準備好挑戰看似無關的審稿人的評論,最重要的是,審稿人應該避免使用大型語言模型工具。
參考文獻:
https://www.thelancet.com/journals/laninf/article/PIIS1473-3099(23)00290-6/fulltext#
版權聲明
本文ISE學術前沿原創翻譯
公眾號轉載請后臺留言聯系
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.