AI I024: ICML 2026字节OmniShow：文本/图像/音频/姿态四模态统一视频生成，工业级可控方案

2026年5月13日星期三

ICML 2026字节OmniShow：文本/图像/音频/姿态四模态统一视频生成，工业级可控方案

字节跳动等机构联合推出OmniShow，首次实现文本、参考图、音频、姿态四模态统一的视频生成框架。支持人-物交互、音画同步、姿态驱动等全场景，提供工业级可控生成方案。模型开源在即，适合AI研究者、电商演示、数字人及短视频创作者使用。

Tags:

AI视频生成

多模态可控

字节跳动

工业级AI

视频创作工具

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

由字节跳动、港中文、港大、莫纳什大学联合推出的OmniShow，聚焦人 - 物交互视频生成（HOIVG），首次实现文本 + 参考图 + 音频 + 姿态四模态统一控制，一套模型搞定参考生视频、音画同步、姿态驱动等全场景任务，是业内唯一支持完整 RAP2V 范式的端到端框架，在自建基准 HOIVG-Bench 上全面登顶 SOTA，为电商演示、数字人、短视频创作提供工业级可控生成方案。

unsetunset相关链接unsetunset

主页：https://correr-zhou.github.io/OmniShow
GitHub仓库：https://github.com/Correr-Zhou/OmniShow
论文：https://arxiv.org/abs/2604.11804

unsetunset论文介绍unsetunset

OmniShow 针对人 - 物交互视频生成（HOIVG）任务，首创统一多模态条件框架，解决传统模型无法同时兼容外观、语音、动作、语义的痛点。模型支持 R2V、RA2V、RP2V、RAP2V 四种生成范式，以单一架构实现四模态协同。核心突破包含统一通道式条件注入、门控局部上下文注意力、解耦后联合训练三大技术，兼顾可控性与画质。团队构建 HOIVG-Bench 评测基准，覆盖 135 组样本与多维度指标。实验显示，OmniShow 在音画同步、身份保留、物理合理性、运动连贯性全面领先，是首个实现全条件可控的 HOI 视频模型，代码即将开源，大幅降低高质量交互视频创作门槛。

unsetunset方法概述unsetunset

OmniShow 采用端到端统一架构，以三大技术实现多模态精准对齐。统一通道式条件注入通过伪帧扩展与通道拼接，轻量注入参考图与姿态信息，保留预训练生成能力；门控局部上下文注意力将音频打包为局部上下文，用掩码注意力实现帧 - 段精准对齐，配合自适应门控稳定训练；解耦后联合训练先分别训练 R2V 与 A2V 专家模型，经权重插值融合后联合微调，高效利用异构数据。整体流程无需级联模型，在统一 DiT 架构下完成全模态条件编码与时序去噪，输出最长 10 秒连贯视频，同时保证人物身份一致、音画精准同步、物理交互自然。

unsetunset实验结果unsetunset

基准：自建 HOIVG-Bench，含 135 组样本，覆盖外观、同步、姿态、物理合理性等指标。
R2V：视频质量、运动质量双第一，面部相似度与细节保留领先基线。
RA2V：音画同步得分 8.612，面部相似度 0.810，口型与肢体对齐精度行业顶尖。
RP2V：姿态误差 AKD 最低，PCK 精度更高，动作还原更精准。
RAP2V：业内唯一支持全条件生成，综合效果大幅优于级联方案。
定性：身份稳定、音画精准、动作自然、物理交互合理，支持数字人播报、视频混编等场景。

unsetunset使用教程unsetunset



# 1. 克隆仓库
git clone https://github.com/Correr-Zhou/OmniShow.git

# 2. 安装依赖
cd OmniShow
pip install -r requirements.txt

# 3. 下载预训练模型
python scripts/download_models.py --model omnishow-base

# 4. 文档转演示
python doc_to_show.py --input report.docx --output presentation.pptx

# 5. 数据转可视化演示
python data_to_show.py --input sales.csv --output dashboard.pptx

# 6. 自定义模板配置（可选）
python customize_style.py --theme corporate --color blue --font sans-serif

unsetunset结论unsetunset

OmniShow 首次实现四模态统一人 - 物交互视频生成，建立 HOIVG 领域新范式与评测标准，兼具学术创新性与工业实用性。模型以简洁架构实现极致可控与高质量输出，可直接落地电商、短视频、数字人等场景。未来将优化长视频生成、动态物体交互与实时推理速度，拓展多角色协同与复杂场景生成，推动 AI 视频从 “随机生成” 迈向 “精准可控” 的工业化时代。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年5月13日星期三

ICML 2026字节OmniShow：文本/图像/音频/姿态四模态统一视频生成，工业级可控方案

Tags:

AI视频生成

多模态可控

字节跳动

工业级AI

视频创作工具

unsetunset相关链接unsetunset

unsetunset论文介绍unsetunset

unsetunset方法概述unsetunset

unsetunset实验结果unsetunset

unsetunset使用教程unsetunset

unsetunset结论unsetunset

没有评论:

发表评论

Agent研究爆发期：190篇必读论文与500个开源项目源码免费获取

标签

2026年5月13日星期三

ICML 2026字节OmniShow：文本/图像/音频/姿态四模态统一视频生成，工业级可控方案

Tags: AI视频生成 多模态可控 字节跳动 工业级AI 视频创作工具

unsetunset相关链接unsetunset

unsetunset论文介绍unsetunset

unsetunset方法概述unsetunset

unsetunset实验结果unsetunset

unsetunset使用教程unsetunset

unsetunset结论unsetunset

没有评论:

发表评论

Agent研究爆发期：190篇必读论文与500个开源项目源码免费获取

Tags:

AI视频生成

多模态可控

字节跳动

工业级AI

视频创作工具