2025年8月15日星期五

腾讯,悄悄开源的逆天项目+1。。。

就在昨天,腾讯混元悄悄搞了波大的!

正式开源了 Hunyuan-GameCraft ,一个基于 HunyuanVideo 构建的,在游戏环境中生成高动态交互式视频的新颖框架。

图片

目的只有一个:让你像导演一样'打造'游戏场景!

只需要一张静态场景图,再配上简单的动作信号,比如控制角度、速度的方向键或者 WASD 键,它就能生成一个可交互、物理真实、动态自然的视频场景。

实际效果非常惊艳,一起来看看。

还有这段和 matrix game 的对比。

是不是效果非常不错?

人物能动、物体、光影也跟着变,非常丝滑,完全没有 AI 破绽,给用户提供沉浸式的游戏体验。

外网上也是一致好评。

图片
图片

之所以这么叫座的主要原因是传统游戏内容生产的三大难题:动作僵硬、场景静态,长期一致性差,还有生产成本高,都被它一一解决。

首先是高动态

Hunyuan-GameCraft 将标准键盘输入统一到共享的连续动作空间中,实现对速度和角度的高精度控制。

这让它可以探索复杂的轨迹,克服传统模型僵硬、受限的运动。

它还可以生成动态环境内容,例如移动的云、雨、雪和水流。

然后是长期一致性。它使用混合历史条件在发生重大移动后保留原始场景信息。

图片

最后是显著降低了创作成本

无需昂贵的建模/渲染。PCM 蒸馏压缩了推理步骤,提升速度并降低成本。这使得量化的 13B 模型能够在 RTX 4090 等消费级 GPU 上运行。

这样王炸的效果是怎么实现的?我们一起来看看。

项目主页:

https://hunyuan-gamecraft.github.io

GitHub:

https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0

技术报告:

https://arxiv.org/abs/2506.17201

Hugging Face:

https://huggingface.co/tencent/Hunyuan-GameCraft-1.0

一、技术原理

首先,对于前面实现的 3 大优势,实现的原理如下:

高动态:为了实现细粒度的动作控制,团队将标准键盘和鼠标输入统一到共享的摄像机表示空间中,从而促进各种摄像机和移动操作之间的平滑插值。

长期一致性团队提出了一种混合历史条件训练策略,该策略可以自回归地扩展视频序列,同时保留游戏场景信息。

降低成本:团队实现了模型蒸馏以减少计算开销,同时保持长时间序列的一致性,使其适合在复杂的交互环境中实时部署。

算法架构

再一起来看看 Hunyuan-GameCraft 的整体架构:

图片

给定参考图像及其对应的提示、将游戏中常见的各种键盘 / 鼠标选项(W、A、S、D、↑、←、↓、→、Space 等)统一到共享的相机表示空间。

接着,团队设计了一个轻量级的动作编码器来编码输入的相机轨迹。动作和图像特征在 patchify 之后添加。

团队提出了一种混合历史条件视频扩展方法,该方法对历史去噪块条件下的新噪声潜在特征进行自回归去噪。

图片
图片

最后,为了加快推理速度并提升交互体验,团队基于阶段一致性模型实现了模型蒸馏。通过模型蒸馏,推理速度提高了 10 到 20 倍,并将延迟降低到每个动作 5 秒以内。

数据集构建

Hunyuan-GameCraft 团队精选了超过 100 款 AAA 级游戏,例如《刺客信条》、荒野大镖客:救赎》 和《赛博朋克 2077》,以创建一个具有高分辨率图形和复杂交互的多样化数据集。

图片

其端到端数据处理框架包含四个阶段:场景和动作感知数据分区、数据过滤、交互注释和结构化字幕。

旨在解决带注释的游戏数据稀缺问题,同时为摄像机控制的视频生成建立新的标准。

实验

实施细节

实验在 192 块 NVIDIA H20 GPU 上进行全参数训练,分两个阶段进行,批次大小为 48 。

第一阶段使用所有收集的游戏数据和合成数据,按原始比例训练模型,学习率为  ,迭代 3 万次。

第二阶段引入数据增强技术,平衡动作分布,同时将学习率降低至  ,再进行 2 万次迭代,以提高生成质量和交互性能。

评估指标

指标体系:

  • 视觉质量:FVD、Image Quality、Aesthetic

  • 时间一致性:Temporal Consistency

  • 动态性:把 VBench 的动态度指标改为光流幅值的连续 "Dynamic Average"

  • 推断速度

图片

从结果中可以看到:Hunyuan-GameCraft 更真实、更动态、控制更准,视频质量、时间一致性、动作准确、动态性等维度均获最高平均排名分。

不得不说,Hunyuan-GameCraft 称得上是 AI 游戏发展的一座里程碑了。

接下来,让我们一起上手看看吧~

二、快速上手

注意,项目要求支持 CUDA 的 NVIDIA GPU 。

显存最低要求为 24GB ,但速度会非常慢。官方建议使用具有 80GB 内存的 GPU 以获得更好的生成质量。

P.S. GPU 扛不动的小伙伴可以等一波,据小道消息说过几天会上云端 demo 供体验。

依赖项安装

首先克隆存储库:

git clone https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0.git
cd Hunyuan-GameCraft-1.0

Linux 安装指南

我们建议使用 CUDA 12.4 版本进行手动安装。

# 1. Create conda environment
conda create -n HYGameCraft python==3.10

# 2. Activate the environment
conda activate HYGameCraft

# 3. Install PyTorch and other dependencies using conda
conda install pytorch==2.5.1 torchvision==0.20.0 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia

# 4. Install pip dependencies
python -m pip install -r requirements.txt
# 5. Install flash attention v2 for acceleration (requires CUDA 11.8 or above)
python -m pip install ninja
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3

另外,您也可以使用 HunyuanVideo 的 Docker 镜像。使用以下命令拉取并运行该 Docker 镜像。

# For CUDA 12.4 (updated to avoid float point exception)
docker pull hunyuanvideo/hunyuanvideo:cuda_12
docker run -itd --gpus all --init --net=host --uts=host --ipc=host --name hunyuanvideo --security-opt=seccomp=unconfined --ulimit=stack=67108864 --ulimit=memlock=-1 --privileged hunyuanvideo/hunyuanvideo:cuda_12
pip install diffusers==0.34.0 transformers==4.54.1

下载预训练模型

所有模型默认存放在 Hunyuan-GameCraft-1.0/weights 中,文件结构如下

Hunyuan-GameCraft-1.0
  ├──weights
  │  ├──gamecraft_models
  │  │  │──mp_rank_00_model_states.pt
  │  │  │──mp_rank_00_model_states_distill.pt
  │  │──stdmodels
  │  │  ├──vae_3d
  │  │  │  │──hyvae
  │  │  │  │  ├──pytorch_model.pt
  │  │  │  │  ├──config.json
  │  │  ├──llava-llama-3-8b-v1_1-transformers
  │  │  │  ├──model-00001-of-00004.safatensors
  │  │  │  ├──model-00002-of-00004.safatensors
  │  │  │  ├──model-00003-of-00004.safatensors
  │  │  │  ├──model-00004-of-00004.safatensors
  │  │  │  ├──...
  │  │  ├──openai_clip-vit-large-patch14

下载 Hunyuan-GameCraft-1.0 模型

要下载 HunyuanCustom 模型,请先安装 huggingface-cli。

python -m pip install "huggingface_hub[cli]"

然后使用以下命令下载模型:

# Switch to the directory named 'Hunyuan-GameCraft-1.0/weights'
cd Hunyuan-GameCraft-1.0/weights
# Use the huggingface-cli tool to download HunyuanVideo-Avatar model in HunyuanVideo-Avatar/weights dir.
# The download time may vary from 10 minutes to 1 hour depending on network conditions.
huggingface-cli download tencent/Hunyuan-GameCraft-1.0 --local-dir ./

在多个 GPU 上进行并行推理

例如使用 8 块 GPU 生成视频,可以使用如下命令,其中 --action-list wsda 模拟键盘操作信号,帮你生成相应内容的视频。 --action-speed-list 0.2 0.2 0.2 0.2 代表位移距离,可以替换为 0~3 之间的任意值, action-speed-list 的长度必须与 action-list 的长度一致:


#!/bin/bash
JOBS_DIR=$(dirname $(dirname "$0"))
export PYTHONPATH=${JOBS_DIR}:$PYTHONPATH
export MODEL_BASE="weights/stdmodels"
checkpoint_path="weights/gamecraft_models/mp_rank_00_model_states.pt"

current_time=$(date "+%Y.%m.%d-%H.%M.%S")
modelname='Tencent_hunyuanGameCraft_720P'

torchrun --nnodes=1 --nproc_per_node=8 --master_port 29605 hymm_sp/sample_batch.py \
    --image-path "asset/village.png" \
    --prompt "A charming medieval village with cobblestone streets, thatched-roof houses, and vibrant flower gardens under a bright blue sky." \
    --add-pos-prompt "Realistic, High-quality." \
    --add-neg-prompt "overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion, blurring, text, subtitles, static, picture, black border." \
    --ckpt ${checkpoint_path} \
    --video-size 704 1216 \
    --cfg-scale 2.0 \
    --image-start \
    --action-list w s d a \
    --action-speed-list 0.2 0.2 0.2 0.2 \
    --seed 250160 \
    --infer-steps 50 \
    --flow-shift-eval-video 5.0 \
    --save-path './results/'

此外,我们支持 FP8 优化和 SageAttn 。要启用 FP8,只需在命令中添加 --use-fp8 即可。然后使用以下命令安装 SageAttention:

git clone https://github.com/thu-ml/SageAttention.git
cd SageAttention 
python setup.py install  # or pip install -e .

我们还提供加速模型,您可以使用以下命令:

#!/bin/bash
JOBS_DIR=$(dirname $(dirname "$0"))
export PYTHONPATH=${JOBS_DIR}:$PYTHONPATH
export MODEL_BASE="weights/stdmodels"
checkpoint_path="weights/gamecraft_models/mp_rank_00_model_states_distill.pt"

current_time=$(date "+%Y.%m.%d-%H.%M.%S")
modelname='Tencent_hunyuanGameCraft_720P'

torchrun --nnodes=1 --nproc_per_node=8 --master_port 29605 hymm_sp/sample_batch.py \
    --image-path "asset/village.png" \
    --prompt "A charming medieval village with cobblestone streets, thatched-roof houses, and vibrant flower gardens under a bright blue sky." \
    --add-neg-prompt "overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion, blurring, text, subtitles, static, picture, black border." \
    --ckpt ${checkpoint_path} \
    --video-size 704 1216 \
    --cfg-scale 1.0 \
    --image-start \
    --action-list w s d a \
    --action-speed-list 0.2 0.2 0.2 0.2 \
    --seed 250160 \
    --infer-steps 8 \
    --use-fp8 \
    --flow-shift-eval-video 5.0 \
    --save-path './results_distill/'

低 VRAM 推理的单 GPU

例如,要使用 1 个具有低 VRAM(超过 24GB)的 GPU 生成视频,可以使用以下命令:

#!/bin/bash
JOBS_DIR=$(dirname $(dirname "$0"))
export PYTHONPATH=${JOBS_DIR}:$PYTHONPATH
export MODEL_BASE="weights/stdmodels"
checkpoint_path="weights/gamecraft_models/mp_rank_00_model_states.pt"

current_time=$(date "+%Y.%m.%d-%H.%M.%S")
modelname='Tencent_hunyuanGameCraft_720P'

# disable sp and cpu offload
export DISABLE_SP=1
export CPU_OFFLOAD=1

torchrun --nnodes=1 --nproc_per_node=1 --master_port 29605 hymm_sp/sample_batch.py \
    --image-path "asset/village.png" \
    --prompt "A charming medieval village with cobblestone streets, thatched-roof houses, and vibrant flower gardens under a bright blue sky." \
    --add-neg-prompt "overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion, blurring, text, subtitles, static, picture, black border." \
    --ckpt ${checkpoint_path} \
    --video-size 704 1216 \
    --cfg-scale 2.0 \
    --image-start \
    --action-list w a d s \
    --action-speed-list 0.2 0.2 0.2 0.2 \
    --seed 250160 \
    --sample-n-frames 33 \
    --infer-steps 50 \
    --flow-shift-eval-video 5.0 \
    --cpu-offload \
    --use-fp8 \
    --save-path './results/'

三、最后

Hunyuan-GameCraft 的低门槛和开放性确保个人创作者也能生产 3A 级动态内容,让你无需专业建模和渲染知识。

这也注定了它的广泛适用性,无论是游戏开发者、视频创作者还是 3D 设计师,都能派上用场。

图片

感兴趣的小伙伴赶紧去看看吧~

图片

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

编辑快到飞起!InstantEdit重构图像编辑:文字描述秒变PS指令,原图细节纹丝不动!

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 作者:Yiming Gong等 解读:AI生成未来 文章链接:https://arxiv.org/pdf/2508.06033  Git链接:http...