大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)字生命卡茲克
作者:卡茲克、芝蘭山
今天給大家看個(gè)新東西,聊一聊我在怎么防AI洗稿。。。
對(duì)于我這種內(nèi)容創(chuàng)作者來說,最怕的洗稿方式是什么?
不是全抄,全抄的話很好舉報(bào),而是一幫AI抄襲縫合怪。
經(jīng)常會(huì)有人,復(fù)制我文章里的某一段話,然后用AI重寫后,貼到他們的文章里去。
主要,這玩意兒還很難舉報(bào),因?yàn)楦緵]法管。
我曾經(jīng)想過用一些手段,來防止洗稿,但是沒什么用。
直到之前,我往回翻的時(shí)候,看到了一篇帖子。
這是OpenAI的創(chuàng)始成員Karpathy之前發(fā)的推文。
這個(gè)帖子的大概意思就是,它在一個(gè)emoji藏了很多信息,而這些信息,是你看不見的。
然后直接把DeepSeek R1干懵逼了10分鐘。
你可能會(huì)非常好奇,往emoji里面藏信息,跟洗稿有啥關(guān)系。
最開始的時(shí)候我也沒想到有啥關(guān)系,直到我把嘗試了一下,在一篇文章中中用這種方式埋了Token,看到這篇文章在公眾號(hào)后臺(tái)的正文字?jǐn)?shù)從2000字變成了將近3w字。
我悟了。
于是我?guī)滋烨皩懥艘黄谶@篇文章里,就埋下了這個(gè)菜單,昨天關(guān)于Manus的那篇也埋了。
你們可以去試一試,把這篇文章復(fù)制到word里。(有死機(jī)風(fēng)險(xiǎn),謹(jǐn)慎)
但是如果你們看完全篇的話,會(huì)發(fā)現(xiàn),文章滿打滿算也就2500字。
而這多出來的1w多字,就是我用Karpathy說的方法,往文章里埋的彩蛋。
你我都不會(huì)看見,但是字?jǐn)?shù)統(tǒng)計(jì)會(huì)發(fā)現(xiàn)。
而現(xiàn)在一般的國產(chǎn)AI產(chǎn)品里,會(huì)有一個(gè)很有趣的設(shè)定。
就是token限制。
如果你把這篇文章,發(fā)給一些改寫工作流的智能體,你就會(huì)發(fā)現(xiàn)。
而發(fā)給一些AI Chat呢。
Gemini也自己截?cái)嗔恕?/p>
GPT 4o也懵逼了。
這個(gè)時(shí)候,其實(shí)就用一種非常原始、非常粗暴、非常智障的方式,能限制洗稿,因?yàn)楦据敳贿M(jìn)去。
直接變成Token炸彈。
當(dāng)然,坦率的講,對(duì)于一些推理模型來說,防不住,這個(gè)我是真沒招。
而對(duì)于做RAG和知識(shí)庫來說,卻并沒有任何影響,可以正常問答。
所以也可以避免,誤傷友軍。
這里,我也給大家舉個(gè)通俗易通的例子,來講下這玩意原理是個(gè)啥,以及怎么做我文章里的這種Token炸彈。
我們?nèi)澜绲娜嗽谙到y(tǒng)上,能看到統(tǒng)一文字,主要得益于Unicode,你可以理解為這是一本全球大字典,把地球上所有國家、所有民族用到的文字、符號(hào)和表情,統(tǒng)統(tǒng)都收進(jìn)來了。
然后每個(gè)字符,都給它安排了一個(gè)固定的、不會(huì)重復(fù)的編號(hào)。
比如:字母「A」的編號(hào)是U+0041,漢字「你」的編號(hào)是U+4F60,表情符號(hào)「」的編號(hào)是U+1F602。
對(duì),你天天用的各種emoji其實(shí)也是Unicode。
而在Unicode中呢,有一個(gè)特殊的玩意,叫變體選擇符(Variation Selector, VS)。
它能在一個(gè)字符后面加一些特殊的信息,讓這個(gè)字符改變樣式或者外觀。
比如這個(gè)心心。
(? + U+FE0F)→ 彩色心形??
(? + U+FE0E)→ 黑白文本心形?
后面加的,就是變體選擇符。
你可以把文字當(dāng)成一張紙,變體選擇符就像一張透明膠帶,上面寫了字,但是你用肉眼看不見。
于是,我們就可以,在某個(gè)看似普通的文字或表情后面,貼上很多這樣的透明膠帶。而且理論上能一直往后面貼,想貼多少就貼多少。
在視覺上,你還是只看到一個(gè)emoji或一小段文字,但對(duì)系統(tǒng)而言,后面其實(shí)跟著一大串可以被解析的隱藏字符。
一旦系統(tǒng)或者AI要讀取或處理這段文字,就會(huì)發(fā)現(xiàn):
“我擦,怎么藏了這么多東西?”
一下子就能把它的token數(shù)撐爆。
結(jié)果就是,表面看起來沒增加文字,但系統(tǒng)的字?jǐn)?shù)統(tǒng)計(jì)直接飆升。
而我在Claude3.7那邊文章中,把隱藏信息,埋在了Claude 3.7 Son??????????????????net這個(gè)單詞中的第一個(gè)“n??????????????????”里面。
你可以直接把這個(gè)“n??????????????????”,復(fù)制到OpenAI的那個(gè)測有多少token的網(wǎng)站里,來看看這個(gè)n藏了多少token。
網(wǎng)址在此:https://platform.openai.com/tokenizer
這就是一個(gè),非常隱蔽的token炸彈。
我再給大家演示下怎么找到這些隱藏信息,也就是解碼的方法。
特別簡單。
打開這個(gè)小工具:
https://emoji-encoder.vercel.app/?mode=decode
把文章里我埋彩蛋的“n??????????????????”直接復(fù)制到第一個(gè)網(wǎng)站,點(diǎn)擊“Decode”按鈕,即可進(jìn)行解碼。
你可以發(fā)現(xiàn),其實(shí)我往這個(gè)單詞里面,藏了《雙城記》英文版的一整章。。。
說完了解碼,那如何編碼呢?也就是如何把隱藏信息灌進(jìn)字母里。
還是在這個(gè)網(wǎng)站操作。
把按鈕切換到Encode,把想藏的信息輸入進(jìn)上面的文本框,然后在下面任意選一個(gè)表情or字母即可。
之后你就可以復(fù)制最下面文本框里的表情or字符,用微信發(fā)給朋友或者存在word文檔等平臺(tái)了。
而且,因?yàn)閁nicode的特性,實(shí)測下來,隱藏信息并不會(huì)因?yàn)榭缙脚_(tái)而被格式化掉。
你還是可以把編碼玩的字母,發(fā)給微信的朋友,就能給微信頁面干死機(jī)。或者會(huì)顯示輸入文字過長,無法發(fā)送。
我大概測了下,這個(gè)極限值是1.5萬個(gè)token左右,超過就在微信里面發(fā)不出去了。
爬蟲也一樣。
我用Trae寫了一段爬蟲,把那篇文章給爬下來了。
稍微一運(yùn)行這段代碼,在下面的終端界面里,只要是我埋的token炸彈的位置,全部一片空白。
如果用windows系統(tǒng)導(dǎo)出txt文件,就會(huì)全部是亂碼。
如果是Mac打開這個(gè)txt文件的話,顯示的內(nèi)容就像右圖,倒也基本正常。
但是其實(shí)這個(gè)token炸單,還是保留的。
真的非常非常好玩。
你甚至還能用這種暗號(hào)躲過信息審核員,把它放到網(wǎng)站上,傳輸信息。
甚至還能把它,當(dāng)數(shù)字水印用。
你可以在發(fā)給不同人的文檔里,給每個(gè)字符都加一點(diǎn)不一樣的變體選擇符。當(dāng)文檔泄露出去時(shí),若文檔里還有這個(gè)隱形水印,你就能非常輕松的追蹤到是哪一個(gè)人的版本被泄露了。
不過我最后的用處,是用非常幼稚和暴力的方法,用它來防洗稿。
我知道,有人肯定會(huì)說這招太野路子,或者對(duì)推理模型根本沒用,或者在更高端的文本抽取技術(shù)面前還是擋不住。
但我只是一個(gè)想保護(hù)自己原創(chuàng)不被AI無腦洗稿的普通寫作者,用小成本就能干擾到絕大多數(shù)以GPT 4o、Gemini 2.0級(jí)別做段落拼貼的自動(dòng)化洗稿黨,那其實(shí)已經(jīng)足夠了。
這方法雖然粗暴,卻比啥都不做要強(qiáng)。
畢竟創(chuàng)作者的傷痛,就在于辛辛苦苦打磨的心血成果,被一些人,用一些手段,分分鐘變成別人的生意,你連哭訴都找不到門路。
就這樣。
如若這個(gè)小東西,也能幫到你。
那對(duì)我來說就值了。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.