網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

我把我的文章手搓成了Token炸彈，發(fā)現(xiàn)這樣居然還能防AI洗稿。

2025-03-11 18:35:29　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)字生命卡茲克

作者：卡茲克、芝蘭山

今天給大家看個(gè)新東西，聊一聊我在怎么防AI洗稿。。。

對(duì)于我這種內(nèi)容創(chuàng)作者來說，最怕的洗稿方式是什么？

不是全抄，全抄的話很好舉報(bào)，而是一幫AI抄襲縫合怪。

經(jīng)常會(huì)有人，復(fù)制我文章里的某一段話，然后用AI重寫后，貼到他們的文章里去。

主要，這玩意兒還很難舉報(bào)，因?yàn)楦緵]法管。

我曾經(jīng)想過用一些手段，來防止洗稿，但是沒什么用。

直到之前，我往回翻的時(shí)候，看到了一篇帖子。

這是OpenAI的創(chuàng)始成員Karpathy之前發(fā)的推文。

這個(gè)帖子的大概意思就是，它在一個(gè)emoji藏了很多信息，而這些信息，是你看不見的。

然后直接把DeepSeek R1干懵逼了10分鐘。

你可能會(huì)非常好奇，往emoji里面藏信息，跟洗稿有啥關(guān)系。

最開始的時(shí)候我也沒想到有啥關(guān)系，直到我把嘗試了一下，在一篇文章中中用這種方式埋了Token，看到這篇文章在公眾號(hào)后臺(tái)的正文字?jǐn)?shù)從2000字變成了將近3w字。

我悟了。

于是我?guī)滋烨皩懥艘黄谶@篇文章里，就埋下了這個(gè)菜單，昨天關(guān)于Manus的那篇也埋了。

你們可以去試一試，把這篇文章復(fù)制到word里。（有死機(jī)風(fēng)險(xiǎn)，謹(jǐn)慎）

但是如果你們看完全篇的話，會(huì)發(fā)現(xiàn)，文章滿打滿算也就2500字。

而這多出來的1w多字，就是我用Karpathy說的方法，往文章里埋的彩蛋。

你我都不會(huì)看見，但是字?jǐn)?shù)統(tǒng)計(jì)會(huì)發(fā)現(xiàn)。

而現(xiàn)在一般的國產(chǎn)AI產(chǎn)品里，會(huì)有一個(gè)很有趣的設(shè)定。

就是token限制。

如果你把這篇文章，發(fā)給一些改寫工作流的智能體，你就會(huì)發(fā)現(xiàn)。

而發(fā)給一些AI Chat呢。

Gemini也自己截?cái)嗔恕?/p>

GPT 4o也懵逼了。

這個(gè)時(shí)候，其實(shí)就用一種非常原始、非常粗暴、非常智障的方式，能限制洗稿，因?yàn)楦据敳贿M(jìn)去。

直接變成Token炸彈。

當(dāng)然，坦率的講，對(duì)于一些推理模型來說，防不住，這個(gè)我是真沒招。

而對(duì)于做RAG和知識(shí)庫來說，卻并沒有任何影響，可以正常問答。

所以也可以避免，誤傷友軍。

這里，我也給大家舉個(gè)通俗易通的例子，來講下這玩意原理是個(gè)啥，以及怎么做我文章里的這種Token炸彈。

我們?nèi)澜绲娜嗽谙到y(tǒng)上，能看到統(tǒng)一文字，主要得益于Unicode，你可以理解為這是一本全球大字典，把地球上所有國家、所有民族用到的文字、符號(hào)和表情，統(tǒng)統(tǒng)都收進(jìn)來了。

然后每個(gè)字符，都給它安排了一個(gè)固定的、不會(huì)重復(fù)的編號(hào)。

比如：字母「A」的編號(hào)是U+0041，漢字「你」的編號(hào)是U+4F60，表情符號(hào)「」的編號(hào)是U+1F602。

對(duì)，你天天用的各種emoji其實(shí)也是Unicode。

而在Unicode中呢，有一個(gè)特殊的玩意，叫變體選擇符（Variation Selector, VS）。

它能在一個(gè)字符后面加一些特殊的信息，讓這個(gè)字符改變樣式或者外觀。

比如這個(gè)心心。

（? + U+FE0F）→ 彩色心形??

（? + U+FE0E）→ 黑白文本心形?

后面加的，就是變體選擇符。

你可以把文字當(dāng)成一張紙，變體選擇符就像一張透明膠帶，上面寫了字，但是你用肉眼看不見。

于是，我們就可以，在某個(gè)看似普通的文字或表情后面，貼上很多這樣的透明膠帶。而且理論上能一直往后面貼，想貼多少就貼多少。

在視覺上，你還是只看到一個(gè)emoji或一小段文字，但對(duì)系統(tǒng)而言，后面其實(shí)跟著一大串可以被解析的隱藏字符。

一旦系統(tǒng)或者AI要讀取或處理這段文字，就會(huì)發(fā)現(xiàn)：

“我擦，怎么藏了這么多東西？”

一下子就能把它的token數(shù)撐爆。

結(jié)果就是，表面看起來沒增加文字，但系統(tǒng)的字?jǐn)?shù)統(tǒng)計(jì)直接飆升。

而我在Claude3.7那邊文章中，把隱藏信息，埋在了Claude 3.7 Son??????????????????net這個(gè)單詞中的第一個(gè)“n??????????????????”里面。

你可以直接把這個(gè)“n??????????????????”，復(fù)制到OpenAI的那個(gè)測有多少token的網(wǎng)站里，來看看這個(gè)n藏了多少token。

網(wǎng)址在此：https://platform.openai.com/tokenizer

這就是一個(gè)，非常隱蔽的token炸彈。

我再給大家演示下怎么找到這些隱藏信息，也就是解碼的方法。

特別簡單。

打開這個(gè)小工具：

https://emoji-encoder.vercel.app/?mode=decode

把文章里我埋彩蛋的“n??????????????????”直接復(fù)制到第一個(gè)網(wǎng)站，點(diǎn)擊“Decode”按鈕，即可進(jìn)行解碼。

你可以發(fā)現(xiàn)，其實(shí)我往這個(gè)單詞里面，藏了《雙城記》英文版的一整章。。。

說完了解碼，那如何編碼呢？也就是如何把隱藏信息灌進(jìn)字母里。

還是在這個(gè)網(wǎng)站操作。

把按鈕切換到Encode，把想藏的信息輸入進(jìn)上面的文本框，然后在下面任意選一個(gè)表情or字母即可。

之后你就可以復(fù)制最下面文本框里的表情or字符，用微信發(fā)給朋友或者存在word文檔等平臺(tái)了。

而且，因?yàn)閁nicode的特性，實(shí)測下來，隱藏信息并不會(huì)因?yàn)榭缙脚_(tái)而被格式化掉。

你還是可以把編碼玩的字母，發(fā)給微信的朋友，就能給微信頁面干死機(jī)。或者會(huì)顯示輸入文字過長，無法發(fā)送。

我大概測了下，這個(gè)極限值是1.5萬個(gè)token左右，超過就在微信里面發(fā)不出去了。

爬蟲也一樣。

我用Trae寫了一段爬蟲，把那篇文章給爬下來了。

稍微一運(yùn)行這段代碼，在下面的終端界面里，只要是我埋的token炸彈的位置，全部一片空白。

如果用windows系統(tǒng)導(dǎo)出txt文件，就會(huì)全部是亂碼。

如果是Mac打開這個(gè)txt文件的話，顯示的內(nèi)容就像右圖，倒也基本正常。

但是其實(shí)這個(gè)token炸單，還是保留的。

真的非常非常好玩。

你甚至還能用這種暗號(hào)躲過信息審核員，把它放到網(wǎng)站上，傳輸信息。

甚至還能把它，當(dāng)數(shù)字水印用。

你可以在發(fā)給不同人的文檔里，給每個(gè)字符都加一點(diǎn)不一樣的變體選擇符。當(dāng)文檔泄露出去時(shí)，若文檔里還有這個(gè)隱形水印，你就能非常輕松的追蹤到是哪一個(gè)人的版本被泄露了。

不過我最后的用處，是用非常幼稚和暴力的方法，用它來防洗稿。

我知道，有人肯定會(huì)說這招太野路子，或者對(duì)推理模型根本沒用，或者在更高端的文本抽取技術(shù)面前還是擋不住。

但我只是一個(gè)想保護(hù)自己原創(chuàng)不被AI無腦洗稿的普通寫作者，用小成本就能干擾到絕大多數(shù)以GPT 4o、Gemini 2.0級(jí)別做段落拼貼的自動(dòng)化洗稿黨，那其實(shí)已經(jīng)足夠了。

這方法雖然粗暴，卻比啥都不做要強(qiáng)。

畢竟創(chuàng)作者的傷痛，就在于辛辛苦苦打磨的心血成果，被一些人，用一些手段，分分鐘變成別人的生意，你連哭訴都找不到門路。

就這樣。

如若這個(gè)小東西，也能幫到你。

那對(duì)我來說就值了。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級(jí)計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

盧克文：500萬白砸了！最郁悶的應(yīng)該是在巴納德沒有畢業(yè)的學(xué)生

小人物看盡人間百態(tài) 2025-05-02 14:29:39
1903 跟貼 1903
搶七見!火箭力克勇士3-3 庫里29+7范喬丹29分

網(wǎng)易體育 2025-05-03 11:54:30
467 跟貼 467

西安曲江上空電閃雷鳴多位網(wǎng)友拍到“飛龍?jiān)谔臁?/a>

范竹視頻 2025-05-03 08:40:22
995 跟貼 995

游客景區(qū)體驗(yàn)傳統(tǒng)文化多名女子戴枷鎖“游街示眾”

征垣之路 2025-05-02 21:02:56
2787 跟貼 2787
甘肅月牙泉鳴沙山的現(xiàn)場實(shí)況，五一期間的駱駝大軍連綿不絕！

臺(tái)海風(fēng)云 2025-05-03 00:01:12
1276 跟貼 1276

五一最堵10大景點(diǎn)出爐！網(wǎng)友：第1名堵到懷疑人生，第5名直接勸退

一個(gè)小孩 2025-05-03 01:59:43
0 跟貼 0

吃不起！加沙買一袋面粉要花500至600美元

看看新聞Knews 2025-05-02 18:45:53
5188 跟貼 5188
主刀醫(yī)生能離開患者幾分鐘？

經(jīng)濟(jì)觀察報(bào) 2025-05-02 17:21:04
0 跟貼 0

鎮(zhèn)干部鐘威，火海徒手救人，縣委書記率隊(duì)慰問

新京報(bào)政事兒 2025-05-03 10:20:29
28 跟貼 28
全紅嬋陳芋汐跳水世界杯奪冠

新華社 2025-05-02 15:46:37
992 跟貼 992
街道辦主任大搞“政績工程”，預(yù)算10萬的活動(dòng)實(shí)際花200多萬

新京報(bào) 2025-05-02 15:12:17
555 跟貼 555
有項(xiàng)目售樓處限流，有項(xiàng)目臨時(shí)加推一棟樓，上海“五一”假期看房人熱情高漲

每日經(jīng)濟(jì)新聞 2025-05-02 23:34:06
413 跟貼 413
買600克雞蛋實(shí)際近900克男子擔(dān)心不新鮮被供應(yīng)商懟了

現(xiàn)代快報(bào) 2025-05-03 11:51:12
243 跟貼 243
月入2萬！她專門為新人定格幸福瞬間！訂單排到了明年9月

封面新聞 2025-05-02 21:41:04
1173 跟貼 1173
如此喪權(quán)辱國的烏克蘭礦產(chǎn)協(xié)議，為何有人涂脂抹粉？

觀察者網(wǎng) 2025-05-03 08:48:15
83 跟貼 83
蘇迪曼杯｜半決賽將再現(xiàn)中日對(duì)決，石宇奇坦言：我們要比對(duì)手更拼

文匯報(bào) 2025-05-02 17:30:09
506 跟貼 506
青島一建筑工人乘公交怕弄臟座位坐地面，女司機(jī)暖心勸落座：滿身泥土也是光耀的工作

瀟湘晨報(bào) 2025-05-02 16:48:06
766 跟貼 766
“兵馬俑都快沒地方站了”

澎湃新聞 2025-05-02 19:57:08
676 跟貼 676
美股收盤：標(biāo)普指數(shù)收復(fù)“解放日”后全部跌幅，創(chuàng)下20年來最長連漲紀(jì)錄

財(cái)聯(lián)社 2025-05-03 06:00:15
10 跟貼 10
1死4傷！蘇州直升機(jī)墜落后續(xù)，被砸中的是兩個(gè)女孩爸爸，官方介入

鋭娛之樂 2025-05-03 13:47:05
1 跟貼 1
沈陽一職校60多名學(xué)生集體網(wǎng)購衣服后退貨，店主損失8000元！校方：道歉并承諾回收

環(huán)球網(wǎng)資訊 2025-05-03 13:54:20
0 跟貼 0
北京3-0橫掃山西晉級(jí)總決賽戰(zhàn)廣廈杰曼43分周琦19+11

網(wǎng)易體育 2025-05-02 21:49:45
0 跟貼 0
玉淵譚天：美國人正繞過關(guān)稅“打飛的”來華購物

央視新聞客戶端 2025-05-03 05:46:19
0 跟貼 0
梅州高速一輛大巴車拋錨，21名乘客

梅州同城網(wǎng) 2025-05-03 13:52:47
0 跟貼 0

大數(shù)據(jù)文摘

專注大數(shù)據(jù)，每日有分享！

6611文章數(shù) 94407關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

數(shù)碼

房產(chǎn)

親子

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

我把我的文章手搓成了Token炸彈，發(fā)現(xiàn)這樣居然還能防AI洗稿。

特朗普下手，英偉達(dá)對(duì)華“特供版”要改

文旅局直播間涌入大量游客求房 當(dāng)?shù)仳v1600間校舍安置

文旅局直播間涌入大量游客求房 當(dāng)?shù)仳v1600間校舍安置

北京請(qǐng)神馬布里？許利民真有“玄學(xué)”！

趙又廷節(jié)目中高調(diào)撒糖 大贊高圓圓超好

巴菲特年度盛會(huì)，六大看點(diǎn)前曕！

易三方科技體驗(yàn)日·北京站上演硬核駕控

態(tài)度原創(chuàng)

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

英特爾Arc Xe3 “Celestial” GPU已完成前期驗(yàn)證 即將進(jìn)行流片

最強(qiáng)書包官宣落位！海口這個(gè)片區(qū)，將徹底引爆！

這個(gè)方法真好用

美國將于6月14日舉行閱兵式

文旅局直播間涌入大量游客求房當(dāng)?shù)仳v1600間校舍安置

文旅局直播間涌入大量游客求房當(dāng)?shù)仳v1600間校舍安置

趙又廷節(jié)目中高調(diào)撒糖大贊高圓圓超好

英特爾Arc Xe3 “Celestial” GPU已完成前期驗(yàn)證即將進(jìn)行流片