添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!
添加微信号:AIGC_Tech,公众号小助手会拉你进群!
扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
2025年8月5日,Google宣布推出 Genie 3,这是一个通用的世界模型,可以生成前所未有的多样化交互式环境。给出文本提示,Genie 3 可以生成动态世界,可以以每秒 24 帧的速度实时导航,并以 720p 的分辨率保持几分钟的一致性。
功能介绍
模拟世界的物理特性
体验水和照明等自然现象以及复杂的环境相互作用
模拟自然世界
创造充满活力的生态系统,从动物行为到复杂的植物生命。
动画和小说建模
发挥想象力,创造奇妙的场景和富有表现力的动画人物。
探索地点和历史背景
超越地理和时间的界限去探索地方和过去的时代。
长期环境一致性
为了使AI生成的世界具有沉浸感,它们必须在很长一段时间内保持物理一致性。然而,自回归生成环境通常比生成完整视频更难,因为误差往往会随着时间的推移而累积。尽管挑战重重,Genie 3的环境在几分钟内仍能保持基本一致,视觉记忆甚至可以追溯到一分钟前。
推动实体代理研究
为了测试 Genie 3 创建的世界与未来代理训练的兼容性,我们为SIMA 代理(用于 3D 虚拟场景的通用代理)的最新版本生成了世界。在每个世界中,我们都指示代理追求一组不同的目标,并通过向 Genie 3 发送导航操作来实现这些目标。与其他环境一样,Genie 3 并不知道代理的目标,而是根据代理的操作来模拟未来。
选择一个世界设定。然后,选择你希望代理实现的目标,并观察它如何实现目标。
相关链接
https://x.com/GoogleDeepMind/status/1952732150928724043 https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
走向世界模拟
Google DeepMind 十多年来一直致力于模拟环境领域的开创性研究,从训练智能体掌握实时战略游戏,到开发用于开放式学习和机器人技术的模拟环境。这项工作促使我们开发了世界模型,这些人工智能系统能够利用自身对世界的理解来模拟世界的各个方面,使智能体能够预测环境将如何演变以及其行为将如何影响环境。
世界模型也是迈向通用人工智能 (AGI) 的关键基石,因为它们使得在丰富多样的模拟环境中训练人工智能代理成为可能。去年,我们推出了Genie 1和Genie 2这两个基础世界模型,它们可以为代理生成新的环境。我们还通过 Veo 2 和 Veo 3 模型继续推动视频生成领域的发展,这两个模型展现了对直觉物理学的深刻理解。
这些模型中的每一个都标志着世界模拟不同能力的进步。Genie 3 是我们第一个允许实时交互的世界模型,同时与 Genie 2 相比,其一致性和真实感也得到了提升。
Genie 3 可以在更长的时间内生成一致且可交互的世界。
限制
虽然 Genie 3 突破了世界模型所能实现的界限,但我们必须承认其目前的局限性:
行动空间有限。尽管可触发的世界事件允许进行广泛的环境干预,但它们不一定由代理本身执行。代理可直接执行的操作范围目前受到限制。 与其他代理的交互和模拟。准确建模共享环境中多个独立代理之间的复杂交互仍然是一个持续的研究挑战。 准确表示真实世界的位置。Genie 3 目前无法以完美的地理精度模拟真实世界的位置。 文本渲染。通常只有在输入世界描述中提供时才会生成清晰易读的文本。 交互时长有限。该模型目前支持几分钟的持续交互,但无法支持长达数小时的交互。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论