網易首頁 > 網易號 > 正文申請入駐

騰訊推出"游戲制造器"：AI用鍵盤鼠標創造真實游戲世界

2025-06-25 21:52:07　來源: 至頂頭條

北京舉報

分享至

這項由騰訊混元團隊和華中科技大學合作完成的研究發表于2025年6月，研究團隊包括李佳奇、唐君舒、徐志勇等多位研究者。這篇名為"Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition"的論文已在arXiv預印本平臺發布（論文編號：arXiv:2506.17201v1），有興趣深入了解的讀者可以通過該編號在arXiv網站上訪問完整論文。

當你坐在電腦前玩游戲時，有沒有想過這樣一個問題：如果AI能夠理解你按下的每一個鍵盤和鼠標操作，然后實時生成一個完全符合你操作的游戲世界，那會是什么樣子？騰訊的研究團隊剛剛讓這個聽起來像科幻小說的想法變成了現實。

他們開發的這個名為Hunyuan-GameCraft的系統，就像一個超級智能的游戲導演。當你按下W鍵想要前進，或者移動鼠標想要轉向時，它不是簡單地播放預設的動畫，而是根據你的操作實時"想象"并生成對應的游戲畫面。這就好比你有一個能讀懂你心思的畫家朋友，你只需要告訴他"我想往左走"，他就能立即畫出你往左走時看到的風景。

這項技術的突破性在于，它解決了當前游戲AI面臨的幾個關鍵難題。傳統的游戲世界是預先設計好的，就像搭建好的積木城堡，玩家只能在既定的框架內活動。而Hunyuan-GameCraft創造的是一個能夠隨著玩家操作而"生長"的活世界，每一幀畫面都是根據玩家的實際操作臨時生成的，卻又保持著前后一致的邏輯和視覺效果。

為了訓練這個AI"游戲導演"，研究團隊收集了超過100款3A級游戲的錄像資料，包括《刺客信條》、《荒野大鏢客：救贖2》、《賽博朋克2077》等知名游戲，總計超過一百萬小時的游戲錄像。這就像給AI看了無數部電影，讓它學會了如何根據劇情發展來安排鏡頭和畫面。

一、統一的操作語言：讓AI讀懂你的每個動作

當你玩游戲時，你可能會用到鍵盤上的W、A、S、D鍵來移動，用鼠標來改變視角，用空格鍵來跳躍。對于AI來說，這些不同的操作就像不同的外語一樣難以理解。研究團隊的第一個重要創新，就是發明了一種"翻譯器"，能夠把所有這些不同的操作轉換成AI能夠理解的統一語言。

這個翻譯過程就像把各種方言都翻譯成普通話一樣。無論你按的是W鍵、A鍵，還是移動鼠標，AI都能將這些操作理解為攝像頭在3D空間中的移動和旋轉。更重要的是，這種翻譯不只是簡單的對應關系，而是能夠處理連續變化的。比如，當你想要讓角色走得更快一些，或者轉頭轉得更慢一些，AI都能準確理解并反映在生成的畫面中。

這種統一的操作表示方法解決了一個重要問題：如何讓AI理解細致入微的控制需求。就像一個經驗豐富的攝影師能夠根據導演的指示精確調整鏡頭角度和移動速度一樣，AI現在也能夠根據玩家的操作意圖生成精確對應的視覺效果。

研究團隊特別設計了一個輕量級的動作編碼器來處理這些統一后的操作信號。這個編碼器就像一個高效的同聲傳譯，能夠實時將玩家的操作意圖轉換成AI能夠理解并執行的指令。與以往需要復雜網絡結構的方法相比，這種設計大大提高了響應速度，同時降低了計算成本。

二、記憶與連貫：AI如何記住剛才發生的事

想象你在看一部電影，如果每一個鏡頭都與前面的內容毫無關聯，那這部電影肯定是支離破碎、無法觀看的。游戲世界也是如此，每一幀畫面都需要與前面的內容保持連貫性。這對AI來說是一個巨大的挑戰，因為它需要在生成新畫面的同時，記住之前發生的所有事情。

研究團隊提出了一種叫做"混合歷史條件訓練"的方法來解決這個問題。這種方法就像給AI配備了一個智能的記憶系統，它能夠有選擇地記住重要信息，同時忘記不重要的細節。

具體來說，這個記憶系統采用了三種不同的記憶模式。有時候，AI只需要記住前一幀的畫面就夠了，就像我們走路時只需要看著腳下的路；有時候，它需要記住更長時間的歷史畫面，就像我們需要記住整條路的走向；還有時候，它甚至需要從單張圖片開始重新構建整個世界，就像根據一張照片想象出整個故事背景。

為了避免AI在長時間生成中出現"健忘癥"或者前后矛盾的問題，研究團隊還設計了一種特殊的掩碼機制。這就像給AI的記憶貼上了標簽，標明哪些是已經確定的歷史信息，哪些是需要新生成的內容。這樣，AI就能在保持歷史連貫性的同時，準確響應玩家的新操作。

這種混合訓練策略的巧妙之處在于，它在訓練過程中就讓AI學會了如何在不同情況下選擇合適的記憶策略。當玩家的操作與歷史行為一致時，AI會更多地依賴歷史信息來保證連貫性；當玩家做出突然的方向改變時，AI會更多地關注當前的操作指令來保證響應性。

三、加速推理：讓AI反應更快

即使有了最聰明的AI，如果它反應太慢，游戲體驗也會很糟糕。當你按下W鍵想要前進時，如果要等10秒鐘才能看到角色移動，這樣的游戲是沒有人愿意玩的。因此，研究團隊還需要解決速度問題。

他們采用了一種叫做模型蒸餾的技術來解決這個問題。這個過程就像把一個博學但反應緩慢的老教授的知識，轉移給一個年輕但反應敏捷的學生。通過這種"知識轉移"，他們創造出了一個既保持了高質量生成能力，又能快速響應的AI系統。

具體的加速方法基于階段一致性模型，這種方法能夠將原本需要20多個步驟才能完成的生成過程壓縮到只需要幾個步驟。就像原本需要精雕細琢20遍的藝術品，現在通過改進的工藝和工具，只需要幾遍就能達到同樣的效果。

更重要的是，研究團隊還實現了無分類器引導蒸餾。在傳統的AI生成過程中，系統需要不斷地檢查和調整生成結果，這就像一個畫家需要不斷后退幾步來檢查畫作效果一樣耗時。新的方法讓AI學會了在生成過程中就做出正確的決策，不再需要反復檢查和修正。

通過這些優化，整個系統的推理速度提高了10到20倍，能夠達到每秒6.6幀的實時渲染速度。這意味著玩家可以獲得接近傳統游戲的流暢體驗，而不會感覺到明顯的延遲。

四、數據與訓練：教AI學會創造游戲世界

要讓AI學會創造游戲世界，就必須先教會它什么是好的游戲世界。研究團隊為此構建了一個龐大的訓練數據集，這個過程就像為AI準備了一個包含各種游戲場景的超級圖書館。

這個數據收集過程分為四個主要階段。首先是場景和動作感知的數據分割，研究團隊使用專門的工具將長達2-3小時的游戲錄像分割成6秒鐘的連貫片段。這就像把一部長電影剪輯成許多有意義的短片段，每個片段都包含完整的動作序列。

接下來是數據過濾階段，團隊需要從海量的游戲錄像中篩選出高質量的片段。他們使用了多種技術來自動識別和排除低質量的內容，比如過暗的場景、畫面模糊的片段，或者包含過多用戶界面元素的畫面。這個過程就像一個嚴格的電影剪輯師，只保留最精彩、最適合學習的片段。

第三個階段是交互標注，這是整個數據準備過程中最關鍵的部分。研究團隊使用先進的計算機視覺技術重建了每個游戲片段中攝像頭的6自由度運動軌跡，包括位置和方向的變化。這就像為每個游戲片段配備了一個精確的GPS導航記錄，記錄下攝像頭在虛擬世界中的每一個移動和轉向。

最后是結構化字幕生成，團隊使用專門的視覺語言模型為每個游戲片段生成兩種類型的描述：簡短的30字符摘要和詳細的100多字符描述。這就像為每個場景配備了不同詳細程度的解說詞，讓AI能夠理解場景的內容和特點。

除了真實游戲數據，研究團隊還創建了大約3000個高質量的合成運動序列。這些合成數據就像是專門為AI設計的"練習題"，包含了各種標準的攝像頭運動模式，如平移、旋轉和復合運動。通過在不同速度下重新渲染這些序列，AI能夠學會處理各種速度和節奏的運動。

為了解決游戲數據中普遍存在的前進運動偏差問題，團隊還采用了分布平衡策略。他們通過分層采樣和時間反轉增強技術，確保AI能夠學會各個方向的運動，而不僅僅是向前移動。這就像讓一個學開車的人不僅要學會向前開，還要學會倒車、轉彎和掉頭。

五、實驗結果：AI的表現到底如何

為了驗證Hunyuan-GameCraft的性能，研究團隊進行了全面的測試和比較。他們創建了一個包含150張不同圖像和12種不同操作信號的測試集，涵蓋了游戲場景、藝術作品和AI生成內容等多種類型。

在與當前最先進的交互式游戲模型Matrix-Game的比較中，Hunyuan-GameCraft在大多數關鍵指標上都表現出色。在視頻質量方面，新系統生成的畫面更加清晰和真實；在動態性能方面，它能夠產生更加豐富和自然的運動效果；在控制精確度方面，它對玩家操作的響應更加準確，錯誤率降低了55%。

特別值得注意的是長期一致性測試的結果。當系統需要生成連續的長視頻序列時，Hunyuan-GameCraft能夠保持畫面的連貫性和質量穩定性，避免了傳統方法容易出現的畫質劣化和場景崩壞問題。這就像一個經驗豐富的攝影師，能夠在長時間拍攝過程中始終保持畫面的質量和一致性。

在與其他攝像頭控制方法（如CameraCtrl、MotionCtrl和WanX-Cam）的比較中，Hunyuan-GameCraft也展現出了明顯的優勢。這些對比方法雖然在某些方面表現不錯，但在處理復雜的游戲場景和連續操作時往往力不從心。

研究團隊還進行了用戶研究，邀請30名評估者對不同系統生成的視頻進行匿名評分。結果顯示，Hunyuan-GameCraft在視頻質量、時間一致性、運動平滑度、操作準確性和動態表現等各個維度都獲得了最高分。

為了驗證系統各個組件的重要性，團隊還進行了詳細的消融實驗。結果表明，每個設計選擇都是必要的：統一的動作空間設計提高了控制精度，混合歷史條件訓練增強了長期一致性，而模型蒸餾則在保持質量的同時顯著提升了速度。

六、技術細節：AI如何做到這一切

Hunyuan-GameCraft的核心架構基于多模態擴散變換器（MM-DiT），這是一種能夠同時處理圖像、文本和動作信號的深度學習模型。這個架構就像一個多才多藝的指揮家，能夠協調來自不同"樂器"（不同類型的輸入）的信息，創造出和諧統一的"音樂"（生成的視頻）。

系統的訓練過程采用了兩階段策略。第一階段使用所有收集到的游戲數據和合成數據，以較高的學習率進行30000次迭代訓練。這個階段就像讓AI快速瀏覽所有的學習材料，建立基本的理解框架。第二階段引入數據增強技術來平衡動作分布，使用較低的學習率進行額外20000次迭代的精細調優。

在處理連續動作空間時，系統將離散的鍵盤和鼠標輸入轉換為連續的攝像頭參數。這種轉換基于4個關鍵參數：平移方向、旋轉方向、平移速度和旋轉速度。通過這種表示方法，AI能夠理解和生成各種細致入微的攝像頭運動，從緩慢的環顧四周到快速的追蹤目標。

混合歷史條件訓練使用了特定的比例分配：70%的訓練樣本使用單個歷史片段，5%使用多個歷史片段，25%使用單幀圖像。這種比例是通過大量實驗優化得出的，能夠在交互響應性和視覺連貫性之間取得最佳平衡。

模型蒸餾過程基于階段一致性模型（PCM），通過定義特殊的蒸餾目標函數，將原始模型的知識轉移給更輕量的學生模型。這個過程還包括了無分類器引導蒸餾，進一步提高了推理效率。

七、應用前景：這項技術能用在哪里

Hunyuan-GameCraft的潛在應用遠遠超出了傳統游戲的范疇。在游戲開發領域，它可以作為快速原型工具，讓開發者通過簡單的操作就能預覽和測試游戲場景，大大加速了游戲設計和迭代過程。

在教育領域，這項技術可以創造沉浸式的學習環境。歷史老師可以帶領學生"穿越"到古代城市中漫步，地理老師可以讓學生"飛行"在不同的地形之上進行實地考察。這種身臨其境的學習體驗比傳統的圖片和視頻教學更加生動有效。

在影視制作方面，導演和制片人可以使用這項技術進行鏡頭預覽和場景規劃。在實際拍攝之前，他們就能通過虛擬攝像頭操作來確定最佳的拍攝角度和運動軌跡，大大降低了制作成本和時間。

對于建筑和城市規劃行業，這項技術提供了一種全新的展示和評估方式。客戶可以在建筑建成之前就"走進"未來的房屋或者"游覽"規劃中的城市區域，這種直觀的體驗方式比傳統的圖紙和模型更容易理解和接受。

在心理治療和康復醫學領域，這項技術可以創造可控的虛擬環境來幫助患者進行暴露療法或認知訓練。治療師可以根據患者的具體需求實時調整環境參數，提供個性化的治療體驗。

虛擬旅游也是一個重要的應用方向。特別是在疫情等特殊情況下，人們可以通過這項技術"訪問"世界各地的名勝古跡，獲得接近真實旅行的體驗。對于行動不便的人群來說，這更是提供了探索世界的新可能。

八、技術挑戰與未來發展

盡管Hunyuan-GameCraft取得了顯著的技術突破，但仍然面臨一些挑戰。當前的動作空間主要針對開放世界探索設計，缺乏更廣泛的游戲特定動作，如射擊、投擲、爆炸等。這就像一個只會走路和轉頭的演員，還無法完成更復雜的動作表演。

計算資源需求是另一個需要持續優化的問題。雖然通過模型蒸餾已經大大提高了運行效率，但要達到完全實時、高質量的生成仍需要相當強大的硬件支持。這限制了技術的普及應用，特別是在消費級設備上的使用。

生成內容的多樣性和創造性也有待進一步提升。目前系統主要基于已有游戲數據進行學習，在創造全新類型的場景和視覺效果方面還有局限性。未來的發展需要讓AI具備更強的創新能力，而不僅僅是重現已有的內容。

長期穩定性是另一個技術挑戰。雖然系統在測試中表現良好，但在極長時間的連續使用中可能會出現累積誤差或者質量退化。這需要更高級的錯誤檢測和自我修正機制。

物理真實性的保證也是未來需要重點關注的方向。當前系統主要關注視覺效果的生成，但在物理定律的遵循方面還有改進空間。未來的系統需要更好地理解和模擬真實世界的物理規律。

研究團隊已經在規劃下一代系統的開發，重點將包括擴展動作空間以支持更多樣的游戲交互，提高生成內容的物理真實性，以及進一步優化計算效率。他們還計劃與游戲開發者和內容創作者合作，探索更多實際應用場景。

從更廣闊的視角來看，這項技術代表了人工智能從理解世界向創造世界的重要轉變。它不僅展示了AI在內容生成方面的巨大潛力，也為未來的人機交互方式提供了新的可能性。隨著技術的不斷成熟，我們可能會看到一個全新的數字創作和體驗時代的到來。

說到底，Hunyuan-GameCraft的意義不僅在于它能夠生成漂亮的游戲畫面，更在于它開創了一種全新的數字內容創作模式。在這種模式下，每個人都可能成為自己虛擬世界的創造者，只需要通過簡單的操作就能實現復雜的創意想法。這種技術降低了創作門檻，讓更多人能夠參與到數字內容的創造中來。

當然，任何革命性技術的發展都需要時間和持續的努力。雖然Hunyuan-GameCraft已經展現出了令人印象深刻的能力，但要真正改變我們與數字世界的交互方式，還需要在技術完善、成本控制和應用推廣等多個方面繼續努力。不過，從目前的進展來看，這個未來似乎并不遙遠。

對于普通人來說，這項技術最重要的意義可能在于它預示著一個更加民主化的內容創作時代。未來，你可能不需要學習復雜的編程或者3D建模技能，只需要通過直觀的操作就能創造出專業級別的虛擬內容。這種變化將會深刻影響教育、娛樂、工作和生活的各個方面，讓我們對數字化未來充滿期待。

Q&A

Q1：Hunyuan-GameCraft是什么？它能做什么？ A：Hunyuan-GameCraft是騰訊開發的AI系統，能夠根據玩家的鍵盤鼠標操作實時生成對應的游戲畫面。就像有一個智能導演，你按W鍵前進時，它就生成前進的視頻；你轉鼠標時，它就生成轉向的畫面。這樣可以創造出無限長度的互動游戲視頻。

Q2：這個技術會不會取代傳統游戲開發？ A：目前不會完全取代，但會大大改變游戲開發方式。它更像是一個強大的輔助工具，可以幫助開發者快速制作原型、預覽效果，或者讓玩家參與到內容創作中。傳統游戲的精細設計和復雜玩法機制仍然需要專業開發團隊來完成。

Q3：普通人可以使用這個技術嗎？有什么要求？ A：目前這還是研究階段的技術，普通人暫時無法直接使用。而且它需要比較強大的計算資源，即使通過優化能達到實時生成，也需要高端顯卡支持。不過隨著技術發展和硬件普及，未來可能會有消費級版本供普通用戶體驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.