2025年10月24日星期五

科研人福音!新加坡国立大学提出Paper2Video :可从学术论文自动生成演讲视频。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

新加坡国立大学推出了首个研究论文生成演示视频方法 Paper2Video,并设计了元相似度等四个定制评估指标衡量视频信息传达效果。在此基础上提出首个生成学术演示视频的多智能体框架 PaperTalker,结合幻灯片生成与布局优化,并行化以提高效率。实验表明该方法生成的视频更忠实且信息量大,推动自动化学术视频生成。

图片

输入:一篇论文➕一张图片➕一段音频

图片

输出:演示视频

图片这项工作解决了学术演讲的两个核心问题:

  • 左图:如何将论文内容制作成演示视频? PaperTalker——一款集幻灯片、字幕、光标定位、语音合成和头部特写视频渲染于一体的智能代理。

  • 右图:如何评估演示视频? Paper2Video——一个精心设计的评估演示质量的基准。

unsetunset相关链接unsetunset

  • 代码:https://github.com/showlab/Paper2Video
  • 论文:https://arxiv.org/pdf/2510.05096
  • 试用:https://huggingface.co/datasets/ZaynZhu/Paper2Video

unsetunset论文介绍unsetunset

图片

学术演示视频已成为研究交流的重要媒介,但制作它们仍然是高度劳动密集型的,通常需要数小时的幻灯片设计、录制和编辑才能制作出一个短短的 2 到 10 分钟的视频。与自然视频不同,演示视频生成面临着独特的挑战:来自研究论文的输入、密集的多模态信息(文本、图形、表格),以及需要协调多个对齐的通道,如幻灯片、字幕、语音和真人说话者。

为了应对这些挑战,论文推出了Paper2Video,这是 101 篇研究论文与作者创建的演示视频、幻灯片和演讲者元数据配对的第一个基准。我们进一步设计了四个定制的评估指标——元相似度、PresentArena、PresentQuiz和IP Memory——来衡量视频如何将论文的信息传达给观众。在此基础上提出了PaperTalker,这是第一个用于生成学术演示视频的多智能体框架。它将幻灯片生成与有效的布局优化(通过新颖的树状搜索视觉选择、光标定位、字幕、语音合成和头部特写渲染)相结合,同时并行化幻灯片生成以提高效率。在 Paper2Video 上的实验表明,我们的方法生成的演示视频比现有基准方法更忠实、信息量更大,为实现自动化、即用型学术视频生成迈出了切实的一步。

unsetunset方法概述unsetunset

图片

为了应对这些挑战并将研究人员从繁重的手动视频准备任务中解放出来,论文推出了PaperTalker,这是一个多智能体框架,旨在直接从学术论文自动生成演示视频。

如图所示,为了分离不同的角色并使方法具有可扩展性和灵活性,该管道包含四个构建器:

  • 幻灯片生成器。根据论文内容,我们首先使用 LaTeX 代码合成幻灯片,然后通过编译反馈进行改进,以纠正语法并优化布局。
  • 字幕生成器。然后,VLM 处理幻灯片以生成字幕和句子级视觉焦点提示。
  • 光标生成器。这些提示随后被嵌入到屏幕上的光标坐标中,并与旁白同步。
  • 说话者生成器。根据语音样本和说话者的肖像,文本转语音和头部特写模块会生成逼真的个性化说话者视频。

unsetunsetPaper2Video 基准测试unsetunset

图片Paper2Video 是首个高质量基准测试,涵盖 101 篇论文,其中包含作者录制的演示视频、幻灯片和演讲者元数据。Paper2Video 基准测试包含 101 对精选的论文-视频组合,涵盖多个研究主题。每篇论文平均约 13.3K 字、44.7 张图片和 28.7 页,提供丰富的多模态长文档输入。演示文稿平均包含 16 张幻灯片,时长约 6 分 15 秒,部分演示文稿长达 14 分钟。Paper2Video 并非仅仅专注于视频生成,而是旨在评估需要整合文本、图表、幻灯片和口头演示的长周期代理任务。

unsetunsetPaper2Video 指标unsetunset

图片与自然生成的视频不同,学术演示视频发挥着高度专业化的作用:它们不仅关乎视觉保真度,更关乎学术交流。这使得直接应用视频合成中的常规指标(例如 FVD、IS 或基于 CLIP 的相似度)变得困难。相反,它们的价值在于它们如何有效地传播研究成果并提升学术知名度。从这个角度来看,我们认为,评判高质量的学术演示视频应该从两个互补的维度进行:

对于观众来说

  • 该视频有望忠实传达该论文的核心思想。

  • 它应该能够被不同的受众所接受。 对于作者来说

  • 视频应突出作者的智力贡献和身份。

  • 它应该提高作品的知名度和影响力。

为了实现这些目标,引入了专为学术演示视频设计的定制评估指标:元相似度、PresentArena、PresentQuiz和IP Memory。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

开源!基于AI的客户关系管理CRM系统

基于AI的客户关系管理CRM系统 源代码 https://www.gitpp.com/ruoyiwms/project-ai-crm 项目概述 本项目是一个基于AI的客户关系管理(CRM)系统,采用B端网站设计风格,提供完整的销售管理、营销管理和系统管理功能,并集成了先进的A...