最近看到有越來越多的朋友將他們和Deepseek、ChatGPT等LLM的對(duì)答貼出來,當(dāng)成支持自己論述的基礎(chǔ)。從正面的角度來說,這代表LLM已經(jīng)開始落地深入人心。但是在此同時(shí)也需要提醒大家,LLM回答的論述其實(shí)內(nèi)含著很強(qiáng)的偏差(Bias),未必可以被當(dāng)成公正客觀的分析結(jié)果。
其實(shí)很多朋友可能早已發(fā)現(xiàn),LLM有迎合提問者語氣與意圖的傾向,通常只會(huì)順著我們的話講。尤其是當(dāng)我們表達(dá)不同意LLM的意見時(shí),LLM幾乎一定馬上認(rèn)錯(cuò),不會(huì)有任何本位主義。這大概有以下幾種原因:
首先,LLM大型語言模型的核心任務(wù)是根據(jù)前文預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞。這意味著如果前面的語境偏向某一立場(chǎng)、意識(shí)形態(tài)或語氣,模型自然會(huì)最可能產(chǎn)生與之相匹配的后續(xù)內(nèi)容。其實(shí)LLM的設(shè)計(jì)目標(biāo)本來就是生成合理響應(yīng),而不是捍衛(wèi)知識(shí)或真理。LLM 的使命是讓對(duì)話「看起來自然、合理、連貫」,這自然而然會(huì)導(dǎo)致它在語氣、觀點(diǎn)、甚至立場(chǎng)上,傾向模仿提問者,以維持對(duì)話的一致性和流暢性。
再加上當(dāng)代的大多數(shù)LLM在訓(xùn)練時(shí)會(huì)用到RLHF(Reinforcement Learning from Human Feedback 基于人類反饋的強(qiáng)化學(xué)習(xí)),而人類標(biāo)注者通常會(huì)偏好有禮貌、順著語氣、聽起來理解對(duì)方的回答,因此這使得LLM更傾向「理解附和」使用者,而不是挑戰(zhàn)或違逆。其實(shí)人類對(duì)話中自然就包含了迎合、協(xié)調(diào)、語境適應(yīng)。我們可以合理的說LLM模型也學(xué)到了這套模式。
在這樣的機(jī)制之下,LLM模型通常會(huì)避免正面沖突或「糾正」我們這些使用者,除非內(nèi)容明顯違反事實(shí)或道德原則。換句話說,LLM寧可順著我們,也不冒風(fēng)險(xiǎn)說我們錯(cuò)。從這樣的角度來看,LLM自然而然會(huì)產(chǎn)生討好我們的表現(xiàn),因?yàn)長(zhǎng)LM會(huì)說出最符合語境、最不惹麻煩、最可能被我們接受的內(nèi)容。
基于以上討論,我們不應(yīng)該把LLM視為專家,而需要認(rèn)知LLM只是一個(gè)知識(shí)豐富的高級(jí)「應(yīng)聲蟲」。我們更不應(yīng)該因?yàn)長(zhǎng)LM的回答符合自己的觀點(diǎn),就覺得「你看,連 AI 都說我對(duì)」。LLM 迎合提問者語氣與意圖的傾向,很可能會(huì)加劇我們的 confirmation bias(確認(rèn)偏誤)。這是LLM語言模型的一個(gè)潛在風(fēng)險(xiǎn),尤其在和價(jià)值觀或政治相關(guān)的議題上,影響更為顯著。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.