今年4月,中科院、滑鐵盧大學等機構聯合發表了一篇AI行業論文,讓互聯網上的“樂子人”直呼離譜。
研究顯示,百度貼吧“弱智吧”數據集訓練出的AI大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,在問答、頭腦風暴、分類、生成、總結等8項測試中取得了最高分。
這個充滿荒誕段子的中文社區,一躍成為最佳的中文AI訓練數據庫之一。
然而弱智吧里的發言“畫風”通常是這樣的:“生魚片是死魚片”“等紅燈是在等綠燈”“咖啡因來自咖啡果”“一個半小時是幾個半小時?”......
這些看起來荒謬又搞笑的語句,和AI有什么關系?這個問題終于在今年的外灘大會創新者舞臺上有了答案。
弱智吧的核心成員首次在線下露面,帶著他們的段子向AI“開炮”,還順便揭秘了這群段子手的真實身份。
段子為什么能作為訓練AI的語料?
在外灘大會的創新者舞臺,弱智吧成員和AI專家進行了“腦洞”和理論的交鋒。他們也同樣疑惑,為什么許多AI公司會選擇弱智吧作為語料庫?
無界方舟CEO曾曉東說,他們的研究方向是“利用人工智能技術讓機器人更像人”,訓練AI時一直在尋找口語化的、多輪問答的語料。“其實喂給大模型的不只是段子,還包括其他人對段子的回復。要找這樣好玩的、高質量的中文對話,很多同行、數據公司都會提起弱智吧。”
9月7日,弱智吧成員胡蘿北講述了弱智吧和AI的交手經歷。
早在2022年,他就試過發一些段子讓AI來解讀,AI搜羅了大量信息來做名詞解釋,卻無法理解段子真正的含義。胡蘿北說,“沒有一個AI能笑著走出弱智吧,因為他不懂幽默。”
弱智吧里的段子看似無厘頭,其實包含了很強的邏輯性,比如“明知山有虎,不去明知山”,其實是拆解了“明知”這個動詞,重新組合成“明知山”,巧妙替換了句子的含義。曾曉東說,正是這些語言陷阱,鍛煉了語言大模型對中文的解讀和推理能力,讓AI能像人一樣進行交流。
胡蘿北說,沒想到有一天弱智吧的段子會成為訓練大模型的語料,“AI看似與普通人無關,但機器人其實是對人類的模仿,從某種程度而言我們每天都在為未來的AI投喂數據。”
“弱智吧”里有數學博士、AI從業者、脫口秀演員......
弱智吧的段子為什么對AI有如此奇效?胡蘿北形容弱智吧是段子里的“基礎科學”,因為段子里有很強的邏輯性。
除了是弱智吧的核心成員,胡蘿北的另一重身份是脫口秀演員。他寫過一個段子,“種什么因得什么果,種咖啡因得咖啡果”,像是套公式做題,給文字套上公式后,就產生了一種打破常理的喜劇效果。
胡蘿北透露,其實他是數學系畢業的,弱智吧吧主公孫闬也是數學系畢業的,“我們這群核心成員里很多人都是理科生,有時候突然扔一個數學題到群里就開始一起解答。”
這個誕生于PC貼吧時代的興趣社區,在互聯網浪潮中走過了20年。吧主公孫闬透露,創建人當年還是小學生,前些年去國外攻讀數學系博士。
“貼吧的吧主已經交替了好幾代,我們都長大了,進入了各行各業,也有人在從事AI相關的工作。大家把自己在生活中的見聞經歷寫成段子,所以這個社區還活躍著,大家都能玩得開心。”
公孫闬說,他負責審核貼吧里的帖子,每天有500條左右,現在還經常會發現一些新的原創段子讓人眼前一亮。這些來自不同領域、取材于真實生活的段子,有強大的邏輯,也有浪漫的修辭。“語言是好玩的,如果AI無法理解這類打破常規的語言,就會讓人失去溝通的欲望。”
胡蘿北最后用和外灘的“外”相對的“內”來總結,我們現在看似生活在一個被AI包圍的時代,但“內”字里的“人”又沒有被完全困住,“正像網友們說的,弱智吧是人與AI之間的最后一道防線。
九千光年小組記者 儲帆
VIEW MORE
@西湖邊的猴子,直面天命 >>
@AR眼鏡“孤泳者” >>
@AI“心理咨詢師” >>
?
?
@人造衛星“腦力大師” >>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.