2026年5月13日星期三

ICML 2026字节OmniShow:文本/图像/音频/姿态四模态统一视频生成,工业级可控方案

字节跳动等机构联合推出OmniShow,首次实现文本、参考图、音频、姿态四模态统一的视频生成框架。支持人-物交互、音画同步、姿态驱动等全场景,提供工业级可控生成方案。模型开源在即,适合AI研究者、电商演示、数字人及短视频创作者使用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

由字节跳动、港中文、港大、莫纳什大学联合推出的OmniShow,聚焦人 - 物交互视频生成(HOIVG),首次实现文本 + 参考图 + 音频 + 姿态四模态统一控制,一套模型搞定参考生视频、音画同步、姿态驱动等全场景任务,是业内唯一支持完整 RAP2V 范式的端到端框架,在自建基准 HOIVG-Bench 上全面登顶 SOTA,为电商演示、数字人、短视频创作提供工业级可控生成方案。

图片
图片

unsetunset相关链接unsetunset

  • 主页:https://correr-zhou.github.io/OmniShow
  • GitHub仓库:https://github.com/Correr-Zhou/OmniShow
  • 论文:https://arxiv.org/abs/2604.11804

unsetunset论文介绍unsetunset

图片

OmniShow 针对人 - 物交互视频生成(HOIVG)任务,首创统一多模态条件框架,解决传统模型无法同时兼容外观、语音、动作、语义的痛点。模型支持 R2V、RA2V、RP2V、RAP2V 四种生成范式,以单一架构实现四模态协同。核心突破包含统一通道式条件注入、门控局部上下文注意力、解耦后联合训练三大技术,兼顾可控性与画质。团队构建 HOIVG-Bench 评测基准,覆盖 135 组样本与多维度指标。实验显示,OmniShow 在音画同步、身份保留、物理合理性、运动连贯性全面领先,是首个实现全条件可控的 HOI 视频模型,代码即将开源,大幅降低高质量交互视频创作门槛。

unsetunset方法概述unsetunset

图片

OmniShow 采用端到端统一架构,以三大技术实现多模态精准对齐。统一通道式条件注入通过伪帧扩展与通道拼接,轻量注入参考图与姿态信息,保留预训练生成能力;门控局部上下文注意力将音频打包为局部上下文,用掩码注意力实现帧 - 段精准对齐,配合自适应门控稳定训练;解耦后联合训练先分别训练 R2V 与 A2V 专家模型,经权重插值融合后联合微调,高效利用异构数据。整体流程无需级联模型,在统一 DiT 架构下完成全模态条件编码与时序去噪,输出最长 10 秒连贯视频,同时保证人物身份一致、音画精准同步、物理交互自然。

unsetunset实验结果unsetunset

图片
图片
图片
图片
  • 基准:自建 HOIVG-Bench,含 135 组样本,覆盖外观、同步、姿态、物理合理性等指标。
  • R2V:视频质量、运动质量双第一,面部相似度与细节保留领先基线。
  • RA2V:音画同步得分 8.612,面部相似度 0.810,口型与肢体对齐精度行业顶尖。
  • RP2V:姿态误差 AKD 最低,PCK 精度更高,动作还原更精准。
  • RAP2V:业内唯一支持全条件生成,综合效果大幅优于级联方案。
  • 定性:身份稳定、音画精准、动作自然、物理交互合理,支持数字人播报、视频混编等场景。

unsetunset使用教程unsetunset



# 1. 克隆仓库
git clone https://github.com/Correr-Zhou/OmniShow.git

# 2. 安装依赖
cd OmniShow
pip install -r requirements.txt

# 3. 下载预训练模型
python scripts/download_models.py --model omnishow-base

# 4. 文档转演示
python doc_to_show.py --input report.docx --output presentation.pptx

# 5. 数据转可视化演示
python data_to_show.py --input sales.csv --output dashboard.pptx

# 6. 自定义模板配置(可选)
python customize_style.py --theme corporate --color blue --font sans-serif

unsetunset结论unsetunset

OmniShow 首次实现四模态统一人 - 物交互视频生成,建立 HOIVG 领域新范式与评测标准,兼具学术创新性与工业实用性。模型以简洁架构实现极致可控与高质量输出,可直接落地电商、短视频、数字人等场景。未来将优化长视频生成、动态物体交互与实时推理速度,拓展多角色协同与复杂场景生成,推动 AI 视频从 “随机生成” 迈向 “精准可控” 的工业化时代。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

AI日报:800+真实AI案例库开源,本地PDF问答助手与电商欺诈检测

本期AI日报整理2026年5月13日最新AI动态,重点推荐三个GitHub开源项目:收录Google、Meta等150+公司800+生产级AI案例库;基于Streamlit+LangChain+Ollama的本地大模型驱动PDF智能问答助手;面向电商金融交易的机器学习欺诈检测与交...