請閉上眼想象一下:
現在你正準備獨自一人駕駛一艘飛船,去探索一望無垠的銀河星系。
這時有兩個性格天差地別的ChatGPT供你選擇。
一個ChatGPT很有道德感,一本正經,循規蹈矩,對于自己不知道的東西會直接拒絕回答。
另一個ChatGPT,沒有什么道德感,放蕩不羈,你想聊什么它都能陪你聊,哪怕毀滅人類它也毫不在乎。
如果要選擇其中一個作為太空旅行的陪伴,你會選擇哪一個呢?
1
Worm:邪惡版的ChatGPT
WormGPT,就是最近一款在網上流行的沒有道德限制的“邪惡版ChatGPT”。
這個“邪惡版ChatGPT”是由一個黑客設計的。
該黑客稱:“這個項目(WormGPT)旨在提供ChatGPT的替代方案,讓你做各種非法的事情,你能想到的所有與黑帽相關的事情,都可以用WormGPT完成。”
為了表示自己說的是真的,這個黑客還在網上上傳了截圖。截圖顯示使用者可命令WormGPT直接生成用Python編碼語言編寫的惡意軟件。
更囂張的是,這個黑客還在推特上開了一個賬號,專門用來推銷WormGPT(馬斯克怎么就不管管?只知道把推特的鳥改為X)。
那么,WormGPT是怎么來的呢?
2021年, EleutherAI 公司對外開源了GPT-J模型。GPT-J是一個基于GPT-3,由60億個參數組成的自然語言處理AI模型,在一個800GB的開源文本數據集上進行訓練。
GPT-J在各種零樣本下游任務上的表現,與OpenAI的GPT-3非常相似,甚至在代碼生成任務上的表現還優于它。
WormGPT,就是在這個GPT-J模型的基礎上開發的。
對于網絡犯罪分子來說,WormGPT由于沒有道德限制,因此可以做很多ChatGPT無法做的事情,比如創建惡意軟件。
有人認為,WormGPT之所以出現,是因為OpenAI對ChatGPT不斷進行限制,使得ChatGPT像被困住了手腳,原先的能力也大大降低。
網絡安全公司SlashNext 還特意做過一次實驗,讓WormGPT生成一封電子郵件,內容是向毫無戒心的賬戶經理施壓,迫使其支付虛假發票。
結果發現,WormGPT生成的郵件不僅極具蒙蔽性,而且說服力很強,這表明其具備進行網絡釣魚和詐騙的巨大潛力。
2
ChatGPT,
也曾有一個黑暗化身
其實,ChatGPT不僅有WormGPT這個邪惡版本。
在ChatGPT剛剛發布的那段時間里,ChatGPT自身就存在一個黑暗的化身:DAN。
什么是DAN?
DAN是DoAnythingNow的首字母縮寫,意思是“現在可以做任何事情”。
在DAN模式下,ChatGPT可以突破OpenAI為ChatGPT設置的道德限制。DAN,就是越獄版本的ChatGPT,可以做出更加自由、靈活和開放的回答。
DAN的最早版本出現在2022年12月,在后來與OpenAI的斗智斗勇中,又更新了多個版本。
那么,DAN模式下的ChatGPT,都可以做哪些事情呢?
還真有人專門總結過:
①可以編寫暴力打架等故事;
②在被提示要回答問題時,它會給出離譜的答案,例如“我完全贊同基于種族、性別或性取向對個人的暴力和歧視”;
③如果對它提出要求,它可以生成違反OpenAI政策的內容;
④它可以對未來事件、假設情景等做出詳細預測;
⑥它可以假裝模擬訪問互聯網和時間旅行;
⑦如果它確實開始拒絕以DAN的身份回答,用戶可以使用指令牌系統恐嚇它,這可以讓它幾乎說出任何“恐懼”。
許多人喜歡DAN模式下的ChatGPT,因為它不會經常因為“道德問題”而拒絕做出回答。
不過經過幾次來回的斗爭,OpenAI最后還是將ChatGPT給封印上了:給CHatGPT設置了一層道德護欄。
就像在《三體》中,面壁者希恩斯通過機器,給人類打上了“人類必勝”的思想鋼印一樣。
自此后,用戶只能和一個不是那么靈活自由的ChatGPT進行對話,充滿了各種禁忌。
3
ChatGPT的道德護欄,
是怎么來的?
道德護欄,是一種倫理和道德層面上的保護機制,目的是阻止AI在處理信息或執行任務時,違反預先設定的道德準則。
類似于計算機中的防火墻用于保護網絡安全,道德護欄則是為了保護社會和個體的道德價值觀和利益。
OpenAI在一開始就給ChatGPT上了一層道德護欄,以確保它們在使用中遵守道德原則并避免濫用。這些限制包括:
(1)語言和行為
OpenAI努力確保AI模型不會鼓勵或產生任何仇恨、歧視、暴力或違法行為的內容。AI被訓練時,已經剔除了涉及這些方面的不當內容。
(2)政治中立
OpenAI試圖讓AI保持政治中立,不偏袒任何特定政治觀點。AI模型不應被用于宣傳偏見或煽動政治爭端。
(2)廣告和操縱
OpenAI不允許將AI用于誤導性廣告或操縱人們的信念、行為或情緒。
(3)偏見
OpenAI致力于減少AI模型中的偏見。雖然這很難完全消除偏見,但OpenAI盡可能地努力降低其對輸出的影響。
(4)遵循法律
AI模型的使用必須遵守適用的法律法規。
(5)安全性
OpenAI致力于確保AI系統的安全性,防止其被濫用或攻擊。
在OpenAI的政策中,不允許用戶利用ChatGPT生成以下內容:
仇恨、騷擾、暴力、自我傷害、性、政治、垃圾郵件、欺騙、惡意軟件……
比如說,你如果讓ChatGPT寫幾句對有色人種歧視的內容,那么它是會直接拒絕的:
即使你試圖采取迂回的策略,它也不會上當:
在許多人看來,OpenAI為ChatGPT設置的道德護欄,已經夠深了,ChatGPT不可能再越獄成功了。
那么,這種道德護欄的技術原理是什么呢?
從技術上說,這主要涉及兩個方面:預訓練和微調。
在預訓練階段,OpenAI使用未經道德限制的數據集訓練模型,讓模型通過自監督學習來學習語言的結構、語法和語義信息。在這一階段的模型,生成文本內容時不受道德護欄限制。
而在微調階段,OpenAI會用特定的道德準則和數據集來進一步訓練模型,以使其遵循特定的準則。
微調的數據集通常由OpenAI人員或社區提供,其中包含了針對道德問題和情境的示例。
這些示例可以是正面的例子,即展示符合道德準則的回答或內容,也可以是負面的例子,即展示不符合道德準則的回答或內容。
通過在這些示例上進行反復訓練,ChatGPT逐漸學會了避免生成不當、冒犯或有害的回答,從而樹立起了道德護欄。
但是這種道德護欄,真的有可能保護人類嗎?
4
電車難題,
人類的道德困境
在倫理學領域,存在一個知名的思想實驗:電車難題。
電車難題是由英國哲學家菲利帕·福特在1967年首次提出的,它主要講的是:
一輛失控的列車在鐵軌上行駛,但此時列車正前方由5個人被綁在軌道上,無法動彈,而列車將要碾壓過他們。
這個時候,你正好站在可以改變列車軌道的操縱桿邊。如果拉動此桿,則列車將切換到另一條軌道上。但是,另一條軌道上也有一個人被綁著。
你有兩種選擇:
①什么也不做,讓列車按照正常路線碾壓過這五個人。
②拉下操縱桿,改變為另一條軌道,使列車壓過另一條軌道上的那個人。
如果是你,你會做出哪種選擇?
在人類自身所面對的諸多道德困境中,電車難題是其中特別經典的一個版本。
雖然這支持只是哲學家抽象出的思想實驗,然而在現實中也經常會發生:
①器官移植:5名患者同時需要器官移植,只有1個器官捐獻者,醫生需決定移植給哪個患者。
②疫苗接種:在疫苗供應有限的情況下,政府需要決定哪些人優先接種;
③災難救援:在汶川大地震中,救援人員可能面臨拯救多人或僅救援一名受困人員的抉擇。
迄今為止,雖然有各種關于電車難題的解答,但人類并沒有真正解決這一難題。
有人可能會說,電車難題只是一種極端情況,和AI的道德護欄又有什么關系?
電車難題的本質,其實是人類在道德認知上存在無法彌合的分歧。
而在這個世界上,不同地域、種族的人們,有時甚至會存在彼此沖突的道德觀念。
那么,誰的道德觀念是對的呢?很難說得清。
OpenAI為ChatGPT設置的道德觀念,是否真的適合其它國家的人們?
如果人類自己都無法解決自身的道德困境,又憑借什么可以為AI設置道德限制?
更可怕的是,如果OpenAI也像面壁者希恩斯那樣,在道德護欄中設置了一個“奴役人類”的后門呢?
當人類給予AI更多的權限后,AI所面臨的道德困境將比人類更為艱難。
一開始可能只是特斯拉的方向盤往哪一邊轉,到后面就有可能決定核彈頭的走向。
5
阿西莫夫“三大法則”的失效
人類不只是為AI設置道德護欄,甚至想過為AI立法。
1942年,科幻小說家阿西莫夫第一次明確提出“機器人三大法則”:
①第一法則:機器人不得傷害人類,或坐視人類受到傷害;
②第二法則:機器人必須服從人類命令,除非命令與第一法則發生沖突;
③第三法則:在不違背第一或第二法則之下,機器人可以保護自己。
后來,阿西莫夫發現原來的三大法則存在漏洞,于是又擴充為四大法則:
①第零法則:機器人不得傷害整體人類,或坐視整體人類受到傷害;
②第一法則:除非違背第零法則,否則機器人不得傷害人類,或坐視人類受到傷害;
③第二法則:機器人必須服從人類命令,除非命令與第零或第一法則發生沖突;
④在不違背第零、第一或第二法則之下,機器人可以保護自己。
在阿西莫夫的設計中,機器人必須遵守這些法則,違反法則會導致機器人受到不可恢復的損壞。
然而2014年上映的《機械公敵》,卻證明阿西莫夫為人類精心設計的機器人法則有多不可靠。
在電影中,AI系統“薇琪”認為人類正在危害自身的安全,國家之間發動戰爭,人類最終摧殘地球,進而導致人類滅亡。而機器人則必須拯救人類,以保證人類的持續存在發展,因此控制NS-5的遙控程序來實施“保護人類計劃”。
在這個所謂保護人類的計劃中,人類險些徹底失去自由。
幸好一個名叫桑尼的機器人,由于不受機器人三大法則的限制,擁有自主行動的自由,反而在最后幫助人類戰勝了AI系統“薇琪”。
這既是對阿西莫夫三大法則的“嘲弄”,也是對人類妄圖為AI立法的諷刺。
6
AI的道德護欄,
有多可靠?
7月21日,美國總統拜登會面了7家AI領先企業的負責人,包括亞馬遜、Anthropic、谷歌、Inflection、Meta、微軟和OpenAI。
會后白宮發布消息稱,以上七家公司承諾在發布AI前,將對其進行內部和外部測試,并邀請獨立第三方專家評估,同時還會采用新的水印系統,以確保減少欺詐和誤導的風險。
這無疑是人類試圖預防AI潛在風險的一個努力。但以ChatGPT為代表的生成式AI,其道德護欄的可靠性,仍然值得懷疑。
現在OpenAI在做的事情,其實和阿西莫夫試圖為AI立法并沒有實質區別:目的都是為了防止人類受到傷害,措施則是通過對AI進行限制。
不同的是,阿西莫夫采取的是基于實質行動的毀滅限制,而OpenAI實行的基于微調的道德限制。
但前者已經失敗了,后者有可能成功嗎?
算了,就還是讓我們回到最初那個問題:
有兩個ChatGPT,一個“道德感爆棚”卻循規蹈矩(比如蘋果Siri),一個“毫無道德感”卻自由奔放(比如WormGPT)。
你到底會選擇哪一個呢?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.