瘋狂,太瘋狂了~
大神卡帕西預測的「下一代GUI系統」這就水靈靈地實現了?!
玩法相當easy,當你移動鼠標、點擊圖標或敲鍵盤時,這個完全由神經網絡驅動的操作系統就和咱們平時的電腦一樣,能在屏幕上實時顯示對應的圖形界面。
就是說,AI現在能完全模擬Windows,直接預測下一幀屏幕圖像。
事實上,卡帕西在今年5月就預言了一波“AI時代的圖形用戶界面長啥樣”。
在他看來,如今和大語言模型(LLM)聊天就像在使用80年代的電腦終端,還沒有用上圖形用戶界面(GUI)。
而在未來,隨著AI能力逐漸擴展,GUI將是為每個用戶量身打造的流動(fluid)、魔幻(magical)、可交互(ephemeral)的2D畫布,就像你專屬的操作系統,實時重繪、實時響應。
受此啟發,5位來自滑鐵盧大學和加拿大國家研究委員會的研究人員提出NeuralOS,并打造出了一個可試玩的初版演示demo。
這一最新成果為構建完全自適應的生成式神經接口邁出了重要一步,有望應用于下一代人機交互系統。
那么問題來了——
NeuralOS是靠什么模擬Windows的呢?
關鍵法寶:RNN+渲染器
據論文介紹,NeuralOS能模擬操作系統界面,靠的是兩個核心“技能模塊”:
- 循環神經網絡(RNN):用于跟蹤計算機的狀態變化
- 基于擴散的神經渲染器(Renderer):負責生成屏幕圖像
具體而言,不管用戶操作多復雜(如現在打開了哪些軟件、鼠標停在哪個位置、光標是箭頭還是輸入狀態等),RNN模塊都能跟著“記”下來,保證后續反應不脫節。
然后Renderer渲染器根據前面記下的狀態和用戶操作(如點擊了“瀏覽器”圖標),直接生成對應的屏幕畫面(包括窗口彈出、圖標變色、菜單展開這些視覺變化)。
原理聽起來是不是很簡單?但為了訓練NeuralOS,團隊可是下了一番功夫。
為了讓它學會模擬操作系統,他們給它準備了一大份“學習材料”——全是Ubuntu XFCE系統(Linux輕量級桌面系統)的操作錄像。
內容主要分為兩類:
一類是隨機生成的用戶交互。比如亂點鼠標、隨便拖動窗口、無規律敲擊鍵盤,相當于讓AI見識“各種可能性”,避免只認固定操作。
另一類是由AI Agent生成的真實交互。這里讓AI Agent來模擬人類的正常行為,比如打開瀏覽器、輸入文字、關閉窗口等,讓AI學習“符合常理的操作邏輯”。
然后經過RNN預訓練——RNN+Renderer聯合訓練——計劃采樣——將RNN輸入的上下文序列加長這一訓練流程后,NeuralOS終于學會了根據之前的幀和用戶輸入(鼠標、鍵盤)來預測下一幀屏幕圖像。
最后,為了檢驗NeuralOS真實效果如何,團隊選擇通過模擬用戶操作來測試模型。
得出的結論如下:
- 畫面逼真:連續操作時,它生成的界面變化(如從桌面到打開文件夾,再到關閉窗口)看起來和真系統幾乎一樣。
- 鼠標響應準:不管是移動鼠標讓光標跟著動,還是點擊圖標觸發反應(如點“關機”按鈕出現確認窗口),它都能準確對應。
- 狀態轉換穩:像啟動應用、切換窗口這類“系統狀態變化”,它也能可靠模擬(如點“計算器” 圖標,就會出現計算器窗口,不會亂出別的東西)
但它目前對鍵盤的精細操作處理不好,尤其是快速打字時,它可能跟不上每個按鍵的實時顯示,或者出現字母順序錯亂的情況。
下圖展示了模型預測狀態與真實狀態之間的對應關系,主對角線區域有明顯高亮,說明模型大多數預測是準確的;但也存在一定比例的偏移預測,說明個別狀態存在混淆。
背后團隊
NeuralOS論文作者一共5人,其中4位均為華人面孔。
Luke Rivard,目前正在滑鐵盧大學計算機科學系讀研,研究方向為自然語言處理(NLP)。
這次研究是跟著他導師Yuntian Deng一起合作的。
Sun Sun,目前是加拿大國家研究委員會研究員,同時也是滑鐵盧大學兼職教授。
其研究方向為優化、機器學習以及深度學習應用。
Hongyu Guo,本科畢業于上海交大,目前是加拿大國家研究委員會數字技術研究中心的高級研究員。
他曾在渥太華大學獲得CS博士學位,目前任該校電氣工程與計算機科學學院兼職教授。
其論文多發表于ICML、ICLR、AAAI、IJCAI、ACL、EMNLP、IEEE等頂會期刊,谷歌學術論文總引用量達5000+。
陳文虎(Wenhu Chen),目前是滑鐵盧大學計算機科學助理教授。
其研究方向為推理、信息檢索、基準與評估等,2022年獲得了加拿大的CIFAR AI主席獎,該獎主要由加拿大政府授予在AI領域表現突出的世界頂尖人才。
從2021年起,他還兼職Google Deepmind的研究科學家。
Yuntian Deng,目前是滑鐵盧大學助理教授,也是英偉達客座教授。
曾獲得哈佛大學博士學位,研究興趣為自然語言處理和機器學習。
自NeuralOS論文發表后,他們還提供了一個在線體驗版本,不過每個用戶的操作演示(session)運行時,后臺要專門分配一塊H100顯卡才能跑起來。
從使用指南來看,具體操作手法如下:
- 將鼠標移入藍色框內,以與NeuralOS進行交互;
- 點擊(左鍵或右鍵),可執行點擊操作;
- 使用鍵盤輸入,可在模擬環境中打字;
- 調整采樣步數,以平衡畫面質量與生成速度;
- 切換“Use RNN”開關,在RNN模式與擴散模式之間切換;
- 切換“Auto Input”開關,啟用自動幀生成功能,即當你將鼠標移入畫布并保持靜止2秒后自動開始,每0.5秒生成一幀。
連作者本人都表示,本來以為只是一個小demo,但沒想到來了太多用戶,以至于系統運行緩慢。
不過隨著代碼開源,一切都還有進一步優化的空間。
- 雖然現在看起來很粗糙,但它展示了一個新可能——未來的“操作系統”不一定是死板的按鈕,而是可以被AI動態“生成”的。
在線體驗:
https://neural-os.com/
論文:
https://arxiv.org/abs/2507.08800
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.