添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!
添加微信号:AIGC_Tech,公众号小助手会拉你进群!
扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
字节提出的 X-Streamer 是一个端到端的多模态人像世界建模框架,用于从单一肖像构建可无限流式传输的数字人,并能够生成跨文本、语音和视频的智能、实时、多轮响应。X-Streamer 为交互式数字人的统一世界建模铺平了道路。X-Streamer 提供音素级唇部同步,同时在整个视听交互过程中保持远程对话记忆和视觉一致性。
无限流式生成
X-Streamer 能够在单一统一架构内实现跨文本、语音和视频的无限交互。
长对话上下文与智能交互
X-Streamer 可容纳多达 8K 个对话上下文标记,从而促进多轮交互过程中的高级推理和长期记忆。
更多示例
X-Streamer 可以无缝地推广到不同的场景,而无需重新训练。
视觉感知扩展
视觉感知可以很容易地集成到现有的思想者-行动者架构中。
相关链接
论文:https://arxiv.org/pdf/2509.21574 项目:https://byteaigc.github.io/X-Streamer
论文阅读
X-Streamer:具有视听交互的统一人类世界建模
X-Streamer 是一个端到端的多模态人机世界建模框架,用于构建能够在单一统一架构内实现文本、语音和视频之间无限交互的数字人机代理。X-Streamer 从单一肖像开始,实现由流式多模态输入驱动的实时、开放式视频通话。其核心是一个思考者-行动者双转换器架构,该架构统一了多模态理解和生成,将静态肖像转化为持久且智能的视听交互。思考者模块感知并推理流式用户输入,而行动者模块的隐藏状态则实时转换为同步的多模态流。具体而言,思考者模块利用预训练的大型语言语音模型,而行动者模块则采用块级自回归扩散模型,该模型交叉关注思考者的隐藏状态,从而生成时间对齐的多模态响应,其中包含交错的离散文本和音频标记以及连续的视频潜伏信息。
为了确保长期稳定性,论文设计了块间和块内注意力机制,并利用时间对齐的多模态位置嵌入,实现细粒度的跨模态对齐和上下文保留,并通过块级扩散强制和全局身份引用进一步增强。X-Streamer 在两块 A100 GPU 上实时运行,能够通过任意肖像维持长达数小时的一致视频聊天体验,并为交互式数字人类的统一世界建模铺平了道路。
方法概述
X-Streamer 概述。给定一幅肖像 I,X-Streamer 通过双轨自回归框架实现实时视听交互。一个冻结的 Thinker Transformer(由预训练的语言语音模型实例化)负责解释流式用户文本和音频查询,而 Actor 则根据 Thinker 的隐藏状态生成同步的交错文本、语音和视频流。视频采用块级自回归扩散生成,并通过扩散强制机制进行稳定,并通过交叉注意力机制实现多模态对齐。X-Streamer 部署在两块 A100 GPU 上,以 25 fps 的帧率进行流式传输,从而实现连贯的、长视界的多模态交互。
实验结果
音频同步(顶部)和长距离(底部)视频生成的定性比较。
视觉消融。扩散强制和全局身份引用可以稳定长视界视频生成,同时在每个视频块中应用空间双向注意力(而不是完全因果的逐个标记注意力)可以减少闪烁并保持结构完整性。
结论
X-Streamer 是一个端到端的多模态交互式人机世界建模框架,它将文本、语音和视频的理解与生成统一在一个架构中。其核心是思考者-行动者双转换器设计:思考者进行会话推理,而行动者将其隐藏状态转换为同步的流式多模态响应。我们的框架通过分块扩散强制将语言模型扩展到视频模态,从而平衡了实时效率、长程一致性和时间多模态同步。大量实验表明,X-Streamer 是迈向持久、交互和智能的数字人与世界建模的重要一步。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论