網易首頁 > 網易號 > 正文申請入駐

驚掉下巴！被字節起訴800萬實習生，拿下NeurIPS 2024最佳論文

2024-12-04 21:04:59　來源: 太空與網絡

北京舉報

分享至

太戲劇了！攻擊字節訓練集群的實習生，居然剛剛獲得了NeurIPS 2024最佳論文獎？雖然看起來像爽文劇情，但這位高材生接下來的路，應該是難走了。

剛剛，惡意攻擊字節訓練集群的實習生田柯宇，獲得了NeurIPS 2024的最佳論文獎。

更巧的是，這篇獲獎論文，恰恰就是他在字節商業化技術部門實習期間與團隊合作發表的。

甚至，這篇論文還是NeurIPS 2024第六高分的論文（7,8,8,8）。

事情在網上曝出的時候，網友們都震驚了：太有戲劇性了，這是什么短劇的大反轉劇情！

根據網友的說法，田柯宇的這篇論文也是國內第二篇NeurIPS Best Paper，含金量很高。

在此之前，他就已經有多篇論文中稿頂會。

比如被引次數最多的「Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling」，就是ICLR 2023的Spotlight。此外還有，NeurIPS 2021和2020的Poster，ECCV 2020的Poster。

據新智元了解，字節商業化技術團隊早在去年就把視覺自回歸模型作為重要的研究方向，團隊規劃了VAR為高優項目，投入研究小組和大量資源。

除了VAR，團隊還發表了LlamaGen等相關技術論文，新的研究成果也將在近期陸續放出。

事件始末：

惡意注入代碼，投毒模型訓練

回看整件事情，可謂反轉又反轉。

兩個月前，圈內人都被這樣一條消息驚掉下巴：「字節跳動大模型訓練被北大實習生攻擊，損失巨大」。

什么仇什么怨，要做這樣的事？

網友們扒出來，事情起因是這位北大高材生在字節實習期間對團隊感到不滿，一氣之下選擇了「投毒」。

具體來說，他利用了Huggingface的load ckpt函數漏洞，craft了一個看似正常的ckpt文件，但其實是加了payload進去，然后就可以遠程執行代碼，修改參數了。

這種攻擊方式，可以通過修改或注入惡意代碼，使模型在加載時被篡改模型權重、修改訓練參數或截取模型數據。

根據大V「Jack Cui」猜測，這位實習生所用的大概就是這個方法，注入代碼動態修改別人的optimer，修改參數梯度的方向，以及在各種地方隨機sleep了一小段時間。

修改梯度方向，意味著模型反向傳播過程中計算出的梯度被篡改，就導致模型一直朝錯誤的方向優化；而sleep操作，也會明顯降低模型訓練的速度。

甚至有人提到，該實習生可能修改了自己的預訓練模型，因為模型參數是用ckpt文件保存的，其他人訓練時會加載這個注入惡意代碼的ckpt文件，因此也會導致模型訓練出問題。

就在全網嘆為觀止之時，田本人卻出來「辟謠」稱這事和自己沒關系——他發完論文后已經從字節離職了，此時有另一個人鉆了漏洞修改模型代碼，然后趁他離職把鍋扣在他頭上。

結果一個多月后，此事再一次迎來反轉。

有媒體報道稱，法院已經正式受理字節跳動對前實習生田某某的起訴。

法院判令田某某賠償侵權損失800萬元及合理支出2萬元，同時要求其公開賠禮道歉。

字節官方也澄清說，涉事實習生破壞的是團隊研究項目，并不影響商業化正式項目，也不涉及字節跳動大模型等其他業務。

最終，這位實習生被字節辭退，交由校方處理。

資料顯示，田柯宇本科畢業于北航軟件學院，研究生就讀于北大，師從王立威教授，研究興趣為深度學習的優化與算法。

自2021年起，開始在字節跳動實習研究，具體包括超參數優化、強化學習算法、自監督的新型算法。

超越擴散

VAR開啟視覺自回歸模型新范式

這項研究中，他們提出了一種全新范式——視覺自回歸建模（Visual Autoregressive Modeling，VAR）。

論文地址：https://arxiv.org/abs/2404.02905

與傳統的光柵掃描「下一個token預測」方法有所不同，它重新定義了圖像上的自回歸學習，采用粗到細的「下一個尺度預測」或「下一個分辨率預測」。

這種簡單直觀的方法使得自回歸（AR）Transformer能夠快速學習視覺分布，并且具有較好的泛化能力：VAR首次使得類似GPT的AR模型在圖像生成中超越了擴散Transformer。

當前，自回歸模型（AR）主要用于語言模型從左到右、逐字順序生成文本token。同時，也用于圖像生成中，即以光柵掃描的順序從左到右，從上到下順序生成圖像token。

不過，這些AR模型的scaling law未得到充分的探索，而且性能遠遠落后于擴散模型，如下圖3所示。

與語言模型所取得成就相比，計算機視覺中的自回歸模型的強大能力卻被「禁錮」了起來。

而自回歸建模需要定義數據的順序，北大字節團隊研究中重新考慮了如何「排序」圖像：人類通常以分層方式感知或創建圖像，首先捕獲全局結構，然后捕獲局部細節。

這種多尺度、由從粗到細的本質，為圖像提供了一種「秩序」。

同樣，受到廣泛使用的多尺度設計的啟發，研究人員將圖像的自回歸學習定義為圖2(c)中的「下一個尺度預測」，不同于傳統圖2(b)中的「下一個token的預測」。

VAR方法首先將圖像編碼為多尺度的token映射，然后，自回歸過程從1×1token映射開始，并逐步擴展分辨率。

在每一步中，Transformer會基于之前所有的token映射去預測下一個更高分辨率的token映射。

由此，研究人員將此稱為視覺自回歸建模（VAR）。

VAR包括兩個獨立的訓練階段：在圖像上訓練多尺度VQVAE，在token上訓練VAR Transformer。

第一階段，多尺度VQ自動編碼器將圖像編碼為K個token映射R=(r_1,r_2,…,r_K)，并通過復合損失函數進行訓練。

第二階段，通過下一尺度預測對VAR Transformer進行訓練：它以低分辨率token映射 ([s],r_1,r_2,…,r_K?1)作為輸入，預測更高分辨率的token映射 (r_1,r_2,r_3,…,r_K)。訓練過程中，使用注意力掩碼確保每個r_k僅能關注 r_≤k。訓練目標采用標準的交叉熵損失函數，用于優化預測精度。

田柯宇團隊在ImageNet 256×256和512×512條件生成基準上測試了深度為16、20、24和30的VAR模型，并將其與最先進的圖像生成模型家族進行比較，包括生成對抗網絡（GAN）、擴散模型（Diff.）、BERT 風格的掩碼預測模型（Mask.）和 GPT 風格的自回歸模型（AR）。

在ImageNet 256×256基準測試中，VAR顯著提高了AR基準性能，將Fréchet Inception距離（FID）從18.65降低到1.73，Inception得分（IS）從80.4提高到350.2，同時推理速度提高了20倍。

如上表所示，VAR不僅在FID/IS上達到了最佳成績，還在圖像生成速度上表現出色。VAR還保持了良好的精度和召回率，證明了其語義一致性。

這些優勢在512×512合成基準測試中同樣得到了體現。

實驗證明，VAR在多個維度上超越了擴散Transformer（DiT），包括圖像質量、推理速度、數據效率和可擴展性。

VAR模型的擴展表現出了類似于大語言模型（LLM）的清晰冪律縮放規律，線性相關系數接近?0.998，這提供了強有力的證據。

VAR還在下游任務中展示了零樣本泛化能力，包括圖像修復、圖像外延和圖像編輯等。

這些結果表明，VAR初步模仿了大語言模型的兩個重要特性：縮放規律和零樣本泛化能力。

田柯宇團隊已在GitHub上發布了所有模型和代碼，現已斬獲4.4k星。

項目地址：https://github.com/FoundationVision/VAR

AI頂會NeurIPS，錄用率25.8%

NeurIPS全稱神經信息處理系統大會（The Conference on Neural Information Processing Systems），是人工智能（AI）、機器學習（ML）和數據科學領域最負盛名且最具影響力的會議之一。

它于1987年首次舉辦，當時名字是「神經信息處理系統」（NIPS），主要為快速興起的神經網絡領域提供一個交流思想的平臺。

隨著會議范圍逐漸擴大，涵蓋了人工智能和機器學習更廣泛的主題，會議名稱于2018年更改為NeurIPS。

今年，是NeurIPS第38屆年會，將于下周12月9日-15日在溫哥華召開。

NeurIPS頂會同樣以嚴格的同行評審過程而著稱，2023年錄用率為26.1%，2022年為25.6%。

NeurIPS歷年接收率

今年，頂會一共接受了15671篇論文，錄用率為25.8%，其中評審最低分2.2，最高分8.7，具體來說：

- Oral 61篇（0.39%）

- Spotlight 326篇（2.08%）

- Poster 3650篇（23.29%）

參考資料：

https://www.toutiao.com/w/1813324433807370/?log_from=d66b759dee10a_1733273717412

https://github.com/FoundationVision/VAR

>End

本文轉載自“新智元”，原標題《驚掉下巴！被字節起訴800萬實習生，拿下NeurIPS 2024最佳論文》。

為分享前沿資訊及有價值的觀點，太空與網絡微信公眾號轉載此文，并經過編輯。

未按照規范轉載及引用者，我們保留追究相應責任的權利

部分圖片難以找到原始出處，故文中未加以標注，如若侵犯了您的權益，請第一時間聯系我們。

HISTORY/往期推薦

充滿激情的新時代，

充滿挑戰的新疆域，

與踔厲奮發的引領者，

卓爾不群的企業家，

一起開拓，

一起體驗，

一起感悟，

共同打造更真品質，

共同實現更高價值，

共同見證商業航天更大的跨越！

——《太空與網絡》，觀察，記錄，傳播，引領。

·《衛星與網絡》編輯委員會

高級顧問：王國玉、劉程、童旭東、相振華、王志義、楊烈

·《衛星與網絡》創始人：劉雨菲

·《衛星與網絡》副社長：王俊峰

·微信公眾號（ID：satnetdy）團隊

編輯：艷玲、哈玫，周泳、邱莉、黃榕、娜娜

主筆記者：李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部：楊艷、若?、李真子

視覺總監：董濘

專業攝影：馮小京、宋偉

設計部：顧錳、潘希峎、楊小明

行政部：姜河、林紫

業務部：王錦熙、瑾怡

原創文章轉載授權、轉載文章侵權、投稿等事宜，請加微信：15910858067

商務合作；展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣；企業口碑傳播及整體營銷傳播等，請加微信：13811260603

雜志訂閱，請加微信：wangxiaoyu9960

·衛星與網絡各分部：

成都分部負責人：沈淮

長沙分部負責人：賓鴻浦

西安分部負責人：郭朝暉

青島分部負責人：江偉

·衛星與網絡總部負責人：農燕

·會議活動部負責人：喬顥益、許克新、董今福

· 投融資及戰略層面合作：劉雨菲

·本平臺簽約設計公司：一畫開天（北京）文化創意設計有限公司

· 航天加（深圳）股權投資基金管理負責人：楊艷

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.