2025年12月24日星期三

腾讯发布世界模型 HY-World 1。5,支持实时交互生成、3D重建、文本触发事件等多应用,可生成24 FPS长视频。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

腾讯推出的 HY-World 1.5 能够以 24 FPS 的帧率生成具有卓越一致性的长视场流媒体视频,其性能优于现有技术。该模型在各种场景中都展现出强大的泛化能力,支持真实世界和风格化环境中的第一人称和第三人称视角,从而能够应用于 3D 重建、事件触发和无限世界扩展等多种场景。支持实时交互生成、保持3D一致的世界模型。适用于风格多样的场景生成,支持3D重建、文本触发事件等多种应用。

图片
图片

unsetunset相关链接unsetunset

图片
  • 论文:https://3d-models.hunyuan.tencent.com/world/world1_5/HYWorld_1.5_Tech_Report.pdf
  • 主页:https://3d.hunyuan.tencent.com/sceneTo3D
  • 代码:https://github.com/Tencent-Hunyuan/HY-WorldPlay
  • 模型:https://huggingface.co/tencent/HY-WorldPlay

unsetunset介绍unsetunset

HY-World 1.0虽然能够生成沉浸式 3D 世界,但它依赖于冗长的离线生成过程,且缺乏实时交互。HY -World 1.5通过WorldPlay弥补了这一不足。WorldPlay 是一种流式视频扩散模型,能够实现具有长期几何一致性的实时交互式世界建模,从而解决了当前方法在速度和内存之间的权衡问题。模型基于四项关键设计:

  1. 使用双重动作表示,以实现对用户键盘和鼠标输入的稳健动作控制。2. 为了确保长期一致性,重构上下文记忆能够根据过去的帧动态重建上下文,并使用时间重构来保持对几何重要但年代久远的帧的可访问性,从而有效缓解记忆衰减。
  2. 论文设计了 WorldCompass,这是一个新颖的强化学习 (RL) 后训练框架,旨在直接提升长时域自回归视频模型的动作跟踪能力和视觉质量。
  3. 论文还提出了一种名为"上下文强制"(Context Forcing)的新型蒸馏方法,该方法专为记忆感知模型而设计。通过调整教师和学生之间的记忆上下文,可以保留学生利用长程信息的能力,从而实现实时速度并防止误差漂移。

综上所述,HY-World 1.5 能够以 24 FPS 的帧率生成具有卓越一致性的长视场流媒体视频,其性能优于现有技术。该模型在各种场景中都展现出强大的泛化能力,支持真实世界和风格化环境中的第一人称和第三人称视角,从而能够应用于 3D 重建、事件触发和无限世界扩展等多种场景。

图片

unsetunset模型架构unsetunset

图片

HY-World 1.5 是一个生成式世界模型,采用Next-Frames-Prediction的视觉自回归任务进行训练,实现了长时几何一致性的实时世界交互,破解了当前方法同时满足实时性与几何一致性的难题。该模型依托四大核心创新:双分支动作表征实现精准控制、上下文记忆重构机制保持几何一致性、高效细粒度强化学习后训练框架来进一步增强生成视频的视觉质量和控制准确性、上下文对齐蒸馏技术实现实时生成并保证几何一致性。除此之外,混元团队构建了自动化3D场景渲染流程,可以获得大量高质量的渲染数据,进一步激发核心算法的潜力。HY-World 1.5可支持24帧 / 秒的长时流式生成,一致性与泛化能力适用于多样化场景。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

AI狼人杀终极决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

高校生PK开发者,创建专属狼人杀Agent 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 我真栓Q了!围观了场 狼人杀 ,看得我汗流浃背…… 半小时全程高能,根本停不下来: 天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。 结果你跟我说,这些玩家都...