添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
腾讯混元推出的Hunyuan-GameCraft,是基于HunyuanVideo底模的高动态交互式游戏视频生成框架。用户输入一张图、文字描述及动作指令,即可输出高清动态游戏视频,实现第一人称跑酷或第三人称探险等流畅画面。为解决现有方法在动态性、通用性等方面的限制,该框架基于超百万条游戏录像数据集训练,经合成数据集微调后,显著提升了视觉保真度、真实感和动作可控性,性能优于现有模型。
相关链接
论文:https://arxiv.org/abs/2506.17201 主页:https://hunyuan-gamecraft.github.io 代码:https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0 模型:https://www.modelscope.cn/models/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
论文介绍
基于扩散和可控视频生成的最新进展使得高质量和时间连贯的视频合成成为可能,为沉浸式交互式游戏体验奠定了基础。然而,当前的方法在动态、物理真实感、长期一致性和效率方面都存在局限性,这限制了创建各种游戏视频的能力。
为了解决这些差距,论文推出了Hunyuan-GameCraft,这是一个用于在游戏环境中生成高动态交互式视频的新颖框架。为了实现细粒度的动作控制将标准键盘和鼠标输入统一到共享的摄像机表示空间中,从而促进各种摄像机和移动操作之间的平滑插值。然后提出了一种混合历史条件训练策略,该策略可以自回归地扩展视频序列,同时保留游戏场景信息。此外,为了提高推理效率和可玩性,实现了模型蒸馏以减少计算开销,同时保持长时间序列的一致性,使其适合在复杂的交互环境中实时部署。
该模型基于包含超过 100 款 AAA 游戏的超过一百万条游戏录像的大规模数据集进行训练,确保了广泛的覆盖范围和多样性。之后,该模型基于精心标注的合成数据集进行微调,以提升精度和控制力。精心挑选的游戏场景数据显著提升了视觉保真度、真实感和动作可控性。大量实验表明,Hunyuan-GameCraft 的性能显著优于现有模型,提升了交互式游戏视频生成的真实感和可玩性。
方法概述
给定参考图像和相应的提示(键盘或鼠标信号),我们将这些选项转换到连续的相机空间。然后,我们设计了一个轻量级的动作编码器来编码输入的相机轨迹。动作和图像特征在 patchify 之后添加。对于长视频扩展,我们设计了一个可变掩码指示器,其中 1 和 0 分别表示历史帧和预测帧。
数据集构建流程。它包含四个预处理步骤:场景和动作感知数据划分、数据过滤、交互标注和结构化字幕。
不同自回归长视频扩展方案的比较。(i) 无需训练的推理。(ii) 流式生成。(iii) 本文提出的混合历史条件
实验结果
在测试基准上进行定性比较。与 Matrix-Game 比较了多动作控制精度和长期一致性。此外与其他摄像头控制的视频生成技术 CameraCtrl、MotionCtrl 和 WanX-Cam 比较了单动作控制精度。蓝色按键表示按键按下。W、A、S、D 表示过渡运动,↑、←、↓、→ 表示视角变化。
长视频扩展效果。Hunyuan-GameCraft 可以生成分钟级的视频片段,同时保持视觉质量。
安装要求
需要支持 CUDA 的 NVIDIA GPU。 该模型在具有8GPU的机器上进行测试。 最低要求:所需的最低 GPU 内存为 24GB,但速度非常慢。 建议:使用具有 80GB 内存的 GPU 以获得更好的生成质量。 测试的操作系统:Linux
结论
Hunyuan-GameCraft通过统一的动作表征、混合历史条件训练和模型提炼,实现了细粒度控制、高效推理和可扩展的长视频合成。此外,Hunyuan-GameCraft 还增强了真实感、响应速度和时间连贯性。研究结果证明了其相对于现有方法的显著改进,为 Hunyuan-GameCraft 的未来研究和沉浸式游戏环境中的实时部署奠定了坚实的基础。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论