2025年10月23日星期四

别再等 GPT-5了!谷歌终极王牌 Gemini 2。5 Pro 来了,国内直接免费用!

别再等 GPT-5了!谷歌终极王牌 Gemini 2.5 Pro 来了,国内直接免费用!



别再等 GPT-5了!谷歌终极王牌 Gemini 2.5 Pro 来了,国内直接免费用!

AI圈的朋友们,你是否还在苦苦等待下一个革命性模型的发布?是否还在为复杂的网络环境和高昂的API费用而烦恼?

现在,这一切都将成为过去时!

一个足以改变游戏规则的重磅消息来了:谷歌正式发布了其史上最强、性能登顶的AI模型——Gemini 2.5 Pro!这不仅是一次简单的迭代,更是一次对现有AI天花板的强力突破。

最关键的是,这一次,我们中国用户成为了第一批"吃螃蟹"的人!无需等待,无需魔法,国内免费通道已全面开启!

image-20250618151703169

上手第一步:免费!直接!

我们深知,对于一项新技术,最好的了解方式就是亲手体验。因此,我们为你准备了最直接、最简单的"尝鲜"路径:

👉 方式一:在线"零成本"体验

一个集成了gemini-2.5-pro的在线平台已经为你开放,点开即用!

  • 体验地址https://maynorai.top/list/#/

  • 操作指南:访问网站,选择 SaaSGPT节点,在 Gemini分组 中就能找到它!

  • 限时专属福利码:输入 gemini1022,即可免费畅享!

图片
image-20251022153758097

👉 方式二:开发者"抄底"接入

如果你是开发者,想把这份顶尖战力融入你的产品,机会也来了!MaynorAIAPIPro平台已同步上架。

  • API地址https://apipro.maynor1024.live/

  • 上架模型: gemini-2.5-pro & gemini-2.5-flash

  • 限时震撼价2元人民币兑换1美金额度,用"白菜价"享受"顶配"性能!

image-20250618150925199

实力硬碰硬:Gemini 2.5 Pro 凭什么称王?

光说不练假把式。Gemini 2.5 Pro的底气,来自于实打实的性能数据。在多个权威基准测试中,它已经将包括 GPT-4o 在内的所有对手甩在身后

image-20250618151817462

我们用一张表来直观感受它的"恐怖"之处:

核心特性
详细说明
👑 强大的多模态能力
原生通吃文本、图像、音频、视频,是真正意义上的"六边形战士"。
📚 百万级上下文窗口100万 Token
的输入容量,轻松处理海量文档、代码库或一部长篇小说。
🧠 卓越的多步推理
专为攻克数学、科学、编码等复杂难题而生,逻辑链条清晰且强大。
🔧 灵活的工具使用
无缝执行代码、调用API、输出结构化数据,让AI从"聊天伴侣"变为"得力干将"。
🚀 创新的Deep Think模式
独创的并行推理技术,让它在处理复杂问题时想得更深、更快、更准

简单来说:

谷歌不仅发布了一款性能核弹,还贴心地为国内用户铺好了高速公路。一个全新的AI时代已经来临,而你,正站在时代的最前沿。

别再犹豫,立即行动,去感受下一代AI的真正力量!

  • 体验地址https://maynorai.top/list/#/

  • 操作指南:访问网站,选择 SaaSGPT节点,在 Gemini分组 中就能找到它!

  • 专属福利码:输入 gemini1022,即可免费畅享!

图片

只有0。9B的PaddleOCR-VL,却是现在最强的OCR模型。

OCR赛道真的文艺复兴了

这几天,OCR这个词,绝对是整个AI圈最火的词。
因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。
图片
整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。
然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL)
图片
图片
所以我也觉得,不如就来写一篇关于PaddleOCR-VL的内容吧。
非常坦诚的讲,百度家的东西,我写的一直都会非常谨慎。
但是这个PaddleOCR-VL,是我真的觉得值得一写的。
因为,确实很牛逼。
图片
首先提一下,PaddleOCR这个项目本身,不是啥新东西,这是百度一直都在做的项目,很多年了,最早期甚至可以追溯到2020年,也是一直是开源的姿态。
图片
后来他们就不断的迭代,整整5年时间,成了整个OCR领域最火的开源,现在也应该是现在Github上Star最高的OCR项目,有60K,基本属于断档领先。
图片
PaddleOCR-VL模型,就是他们前几天开源了他们的PaddleOCR系列里最新的模型,这也是第一次,把大模型用在了整个OCR文档解析的最核心的位置。
图片
整个模型只有0.9B,但是几乎在OCR的评测集叫OmniDocBench v1.5的所有子项,都做到了SOTA。
图片
左边有三个类型,分别是传统的多阶段流水线系统、通用多模态大模型、专门为文档解析训练的视觉语言模型。
PaddleOCR-VL参数最小,效果最好,然后因为发的刚好早了三四天,所以表里没有DeepSeek-OCR的跑分,但是OmniDocBench v1.5的最新跑分昨天也出炉了,DeepSeek-OCR综合跑分是86.46,比PaddleOCR-VL的92.56还是低了大概6分,不过也能理解。
图片
PaddleOCR-VL确实足够的猛,在垂直模型领域,把性价比做到了极致。
你可能会有一点点好奇,为啥一个0.9B的模型,能比其他的大模型都要强。
除了确实专精这个领域之外,还有个非常有趣的架构,是我觉得单独可以说一下的。
也是长上下文和避免幻觉的一种非常有趣的解法。
图片
很多的多模态大模型,是端到端的,他们干OCR的方式其实是非常低效的。

就是你把一整张A4纸扔给它,它需要一口气把这张图上所有的文字、表格、公式、图片、排版等等全都看懂,然后再一口气生成一个完美的Markdown,这个难度,其实也挺地狱级的。

毕竟模型需要同时理解:"哦,这块是个表,它在页面的左上角,这个表有3行5列,哦表头是这个,哦内容是那个,它旁边的这段文字是在解释这个表……哦哎卧槽我第一个事是要干啥来着。。。" 

PaddleOCR-VL的做法就挺高效好玩的,它的架构,就两步:

第一步,先让专干布局分析的传统视觉模型上这个玩意叫PP-DocLayoutV2,它干的活儿特纯粹,就是"框"。

它以极快的速度扫一眼整张图,然后把一些区域都框起来,然后告诉你:"报告老板,这里是标题,那里是正文,这块是个表,那块是公式。" 而且每个框的阅读顺序,也都是符合人类的阅读顺序的。

这个活儿,在CV领域已经很成熟了,根本不需要一个大模型来搞。

图片

第二步,就是主力登场。这个主力,就是最核心的这个0.9B的PaddleOCR-VL模型。

它现在接到的任务,根本不是去看那张复杂的A4纸。它接到的是一堆被PP-DocLayoutV2裁好的小图片。

一个任务是:"这是一张200x500的小图,我(PP-DocLayoutV2)已经告诉你这是个表了,你(PaddleOCR-VL)给我把它转成Markdown。" 

下一个任务是:"这是一张50x50的小图,我知道这是个公式,你给我转成LaTeX。"

然后循环往复,最后,又准又快。

所以这种做法,根本不需要复杂的几百B的大模型,直接上0.9B的模型,却能达到最完美的效果。

我之所以把这个点单独拿出来说,也是想表达我的一个观点:

在普通用户眼里,其实很多时候技术根本没有优劣,能解决用户的问题,就是最牛逼的技术。黑猫白猫,能抓到耗子的,就是好猫。

至少我认为,PaddleOCR-VL的做法,就非常的巧劲。

我也专门找了几类特别有代表性,处理起来比较头疼的图片来给大家看一下实测的效果。

首先肯定是扫描PDF,这种应该是重中之重,比如下面这张非常糊的扫描件截图,肉眼看起来也会有点吃力。

图片

糊不拉几的,我眼睛看着都疼。

而把这个扔给PaddleOCR-VL,它处理起来很顺利,先是把需要识别的地方框了出来,并打上了阅读循序的序号。

图片

然后是第二步,分块识别出结果,效果很不错,公式也识别出来了。

图片

我详细核对了2、3遍,发现确实一个字都没错。

最后的那个+号后面之所以没东西了,是因为我截图的时候,不小心让搜狗输入法的图标给挡住了。。。

我又找了一些手写笔记的照片去试,这玩意绝对是OCR领域的硬骨头。

不管是中文还是英文,只要字迹别太潦草到像天书一样,PaddleOCR-VL给出的识别结果准确率都还挺在线的。

对比很多工具碰到手写基本就歇菜的情况,这个已经很能打了。

图片

当然,前提是你的手写字得大致能看懂,如果是医生的那种字,我觉得神仙来了都没用。。。

然后是论文这种排版密集的。报纸那小字、多分栏、紧凑的布局,对布局分析和识别都是不小的挑战。

实测下来,PaddleOCR-VL对多栏的处理还比较稳定,阅读顺序也能捋顺,文字识别本身也没啥毛病,基本全对,总体效果挺好。

图片

因为支持端到端的解析,所以能给你把一些图表啥的都给你还原回来。

图片

这个点非常的牛逼。

还有就是票据,像发票收据这些。格式虽然相对固定,但里面混着机打字、数字、手写补充、甚至盖章,挺复杂的。

PaddleOCR-VL在处理这类半结构化文档、抓取关键信息时表现还行,我自己跑了很多次,不能说百分百没差错,但在同类模型里,已经算非常靠谱的了。

图片

感觉这个已经完全可以替换我们现在多维表格上用的视觉大模型,接入到我们公司财务的多维表格系统里面了。。。

准确性强很多,真的能节省财务的不少时间。

还有那种大型表格,这就是重头戏了。

不管是论文里那种带合并单元格的复杂表,还是财报里密密麻麻的数字表,甚至是没啥框线的表,PaddleOCR-VL的表格结构识别能力是有一点让我惊讶的,不光能认出格子里面的字,还能把表格的行列关系比较好地还原出来,这对我们的一些自动化信息提取非常有帮助。

比如就是上文里面的那个跑分图。

识别提取出来之后,没有一丁点问题,这个是有点离谱的。

图片

总的来说,这些实测跑下来,PaddleOCR-VL在处理这些复杂和刁钻的场景时,表现确实可圈可点。

而且实测确实会比DeepSeek-OCR准确更高,DeepSeek-OCR提取的时候总是会错一两个字,PaddleOCR-VL是一字不错,当然你不能把DeepSeek-OCR纯看成是一个纯OCR模型,毕竟意义还是不太一样。

我们自己其实有很多飞书多维表格的信息提取工作流,也已经在考虑换成PaddleOCR-VL了。

比如我们经常需要,批量上传一些各个平台的数据截图,然后提取里面的一些结构化信息。

图片

现在都是接了一些比较大的多模态大模型来做提取的,有一说一,从价格上来说,会比PaddleOCR-VL这种贵很多,而且有时候还会出错。

感觉把PaddleOCR-VL接进去,会是目前的最优解。

目前PaddleOCR-VL已经开源,网址在此:

https://github.com/PaddlePaddle/PaddleOCR

我本来想跟DeepSeek-OCR一样,给大家手搓一个Windows的本地整合包,让大家能开箱即用,结果因为不同于一些常规的大模型,折腾了一夜,干到凌晨4点多,两眼发黑,还是没做出来,这个只能说对不起大家,还是有点太菜了= =

所以现阶段,大家如果有自己部署能力的,可以自己根据PaddleOCR Github上的部署教程来部署到本地。

只是想用一下的,不想折腾部署的,可以去各大demo平台上用官方自己部署的体验版本。

飞桨:https://aistudio.baidu.com/application/detail/98365

魔搭:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo

Hugging Face:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

最后,还是想多说几句。

DeepSeek-OCR探索的上下文光学压缩确实非常新,也打开了大家对人类视觉感知的一些新的想象。

百度的PaddleOCR-VL,更是从实际出发,在一个细分领域达到了SOTA,成为了这个领域效果最好的模型。

高效、准确,也能实实在在地提升我们处理文档信息的效率。

两者都是非常优秀的工作,没有谁比谁强。

都是在自己领域。

最亮眼的仔。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

速度狂飙12倍!清华FlashVSR:首次实现超高清视频实时超分辨率,超越所有扩散VSR模型

AI生成未来知识星球免费开放!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Junhao Zhuang

解读:AI生成未来
图片

文章链接:https://arxiv.org/pdf/2510.12747 
项目链接:https://zhuang2002.github.io/FlashVSR 
代码链接:https://github.com/OpenImagingLab/FlashVSR 
模型链接:https://huggingface.co/JunhaoZhuang/FlashVSR

高分辨率视频修复的效率和性能比较与最先进的 VSR 模型(如 DOVE 和 SeedVR2-3B)相比,FlashVSR 能还原更清晰的纹理和更细致的结构。它使用单个 A100 GPU 在 768×1408 视频上实现了接近实时的 17 FPS 性能,与最快的一步扩散 VSR 模型相比,速度提高了 11.8 倍。(放大以获得最佳视图)
高分辨率视频修复的效率和性能比较与最先进的 VSR 模型(如 DOVE 和 SeedVR2-3B)相比,FlashVSR 能还原更清晰的纹理和更细致的结构。它使用单个 A100 GPU 在 768×1408 视频上实现了接近实时的 17 FPS 性能,与最快的一步扩散 VSR 模型相比,速度提高了 11.8 倍。(放大以获得最佳视图)

亮点直击

  • 首个实时流式扩散VSR框架 —— 通过蒸馏与稀疏注意力实现端到端实时处理。
  • 高效可扩展设计 —— 稀疏局部注意力解决分辨率泛化与计算冗余两难。
  • 轻量条件解码器 + 大规模数据集 —— 同时兼顾速度、质量与训练规模,奠定未来高分辨率视频超分的基础。

总结速览

解决的问题

对 扩散模型在真实场景视频超分辨率(VSR)中的三大瓶颈问题 提出改进:

  1. 高延迟问题:现有方法需对视频分块(chunk)处理,导致重叠帧冗余计算与高"lookahead"延迟。
  2. 高计算复杂度问题:视频生成模型通常采用全局三维注意力(dense 3D attention),计算量随分辨率平方增长,难以实时运行。
  3. 训练-测试分辨率不匹配问题:模型多在中等分辨率上训练,在高分辨率(如1440p)上泛化性能下降。

提出的方案

FlashVSR提出了首个基于扩散模型的实时流式视频超分辨率框架,通过三项关键创新实现高效与可扩展性:

  1. 三阶段蒸馏训练Pipeline(Train-friendly Distillation Pipeline)

    • (i) 先训练一个全注意力联合图像-视频VSR模型作为教师模型;
    • (ii) 再微调为块稀疏因果注意力模型;
    • (iii) 最后蒸馏成单步(one-step)VSR模型,实现高效推理与流式超分。
  2. 局部约束稀疏注意力(Locality-constrained Sparse Attention)

    • 先池化计算粗注意力图,仅对得分最高的top-k区域进行全注意力;
    • 同时引入空间局部窗口约束,保证训练与推理阶段的位置编码范围一致,从而改善高分辨率泛化。
  3. 轻量条件解码器(Tiny Conditional Decoder)

    • 以低分辨率帧作为条件输入,辅助高分辨率重建;
    • 在保持视觉质量的同时,解码速度提升约 7倍,显著降低运行瓶颈。

应用的技术

  • 扩散模型 (Diffusion-based VSR) :利用一阶扩散过程实现高质量时空恢复;
  • 块稀疏注意力 (Block-sparse Attention) :减少不必要的计算区域;
  • 局部窗口约束 (Local Windows) :解决训练-推理分辨率不匹配问题;
  • 三阶段知识蒸馏 (Three-stage Distillation) :高效训练流式单步模型;
  • 条件VAE解码器 (Conditional Decoder) :降低解码负担,加速生成;
  • 大规模数据集 VSR-120K :包含 12 万视频与 18 万图像,为联合训练提供支撑。

达到的效果

  • 实时性能:在单张 A100 GPU 上实现 17 FPS(768×1408)
  • 低延迟:仅需 8 帧前瞻(lookahead latency),远优于以往 80 帧的分块方法;
  • 高效率:较最强单步扩散VSR模型(SeedVR2-3B)加速约12倍
  • 高泛化:可稳定扩展至 1440p 超高清分辨率,保持细节质量;
  • SOTA 性能:在定量与主观指标上均超越现有扩散VSR模型。

方法

本文提出了 FlashVSR,这是一种高效的基于扩散模型的单步流式视频超分辨率(VSR)框架,可在单张 A100 GPU 上以接近实时的速度进行推理(17 FPS,分辨率为 768 × 1408)。此外,为了训练高质量的 VSR 模型,我们还构建了一个大规模高质量数据集 VSR-120K。

如下图 2 所示,FlashVSR 基于三阶段蒸馏框架构建,并结合局部约束稀疏注意力以缓解训练与推理分辨率之间的差距,同时引入轻量条件解码器以降低 3D VAE 解码器的计算开销。以下将详细介绍各部分内容。

图片

VSR-120K 数据集

为克服现有 VSR 数据集规模和质量的限制,本文构建了 VSR-120K,一个用于图像–视频联合超分辨训练的大规模数据集。从 Videvo、Pexels 和 Pixabay 等开放资源库中收集原始数据,包括 60 万段视频片段和 22 万张高分辨率图像。

在质量控制方面,采用 LAION-Aesthetic 预测器和 MUSIQ 进行视觉质量评估,并使用 RAFT 进行运动过滤。最终数据集包含 12 万段视频(平均长度超过 350 帧)和 18 万张高质量图像。

三阶段蒸馏管线

为构建一个高质量且高效的 VSR 模型,本文设计了一个三阶段蒸馏管线:(1) 图像–视频联合训练以建立强教师模型,(2) 因果稀疏注意力适配以实现流式高效,(3) 分布匹配蒸馏以获得单步学生模型。

阶段 1:视频–图像联合超分训练我们将一个预训练的视频扩散模型(WAN2.1 1.3B)适配为超分辨任务,通过在视频与图像上联合训练来实现,其中图像被视为单帧视频(),从而实现统一的三维注意力形式。如图 2 的阶段 1 所示,应用一个块对角段掩码以限制注意力在同一段内进行。

图片

其中, 表示token (图像或视频片段)的片段标识, 表示归一化的注意力权重。此时省略了块稀疏约束,以便教师模型保留完整的时空先验。使用固定的文本提示进行条件控制,交叉注意力的键和值在样本间复用。我们进一步引入轻量级低分辨率(LR)Proj-In 层,将 LR 输入投影到特征空间,而不是使用 VAE 编码器。训练采用标准的流匹配损失(flow matching loss)

阶段 2:块稀疏因果注意力适配将阶段 1 的全注意力 DiT 调整为稀疏因果 DiT(Sparse-Causal DiT),通过引入因果掩码和块稀疏注意力实现,如图 2 所示。因果掩码限制每个潜变量仅关注当前及过去位置。参考相关研究,将查询(Q)和键(K)划分为不重叠的块,块大小为 ,并重塑为 ,其中 。在每个块内,通过平均池化得到紧凑的块级特征,用于计算粗粒度的块间注意力图。选择最相关的 top-k 个块对,仅在这些区域上对原始  应用完整的  注意力,从而在无性能损失的情况下将注意力计算成本降低至稠密基线的 10–20%。 LR Proj-In 层被转换为适用于流式推理的因果变体,训练继续在视频数据上使用流匹配损失。

阶段 3:分布匹配单步蒸馏近期关于单步流式视频扩散的研究主要集中在视频生成领域,通常需要干净的过去帧作为输入以保证运动合理性。教师强制(以真实值为条件)会在推理时造成误差累积,而学生强制(以预测潜变量为条件)虽能缓解此问题,但需要顺序展开,从而降低效率。

在阶段 3中,将阶段 2 的稀疏因果 DiT 精炼为单步模型 ,并提出一种用于流式 VSR 的并行训练范式。模型以 LR 帧和高斯噪声作为输入,所有潜变量在统一时间步下训练,并使用块稀疏因果注意力掩码。阶段 1 的全注意力 DiT 作为教师模型 ,而其副本  学习伪潜变量的分布,遵循 DMD 训练流程。此处, 表示预测的潜变量, 表示重建的高分辨率帧。总体目标函数结合了分布匹配蒸馏损失、流匹配损失以及像素空间重建损失。

图片

其中,。由于内存限制,每次迭代随机选择两个潜变量进行解码,之前的潜变量从梯度中分离。

由于训练和推理仅依赖于低分辨率(LR)帧和噪声,因此训练与推理之间的差距被消除。作为单步模型, 的后期层已经通过 KV-cache 传播了干净的潜变量信息以保持时间连续性。其核心见解在于,与视频生成不同,VSR 强烈依赖于 LR 帧,因此不需要干净的历史潜变量来保持运动合理性。模型专注于内容重建,而时间一致性在后续层中通过 KV-cache 进行优化。该设计在保持高保真度的同时,实现了高效的并行训练,并消除了训练与推理的差距。

局部约束稀疏注意力

对于超分辨率任务,在中等分辨率上训练的模型可能无法很好地泛化到超高分辨率(如 1440p),导致如下图 3 所示的重复模式与模糊现象。分析表明,这种问题源于位置编码的周期性:当推理时的位置范围远超训练范围时,某些维度会重复其模式,从而削弱自注意力的表现,如图 3 底部所示。

图片

本文引入了局部约束注意力机制,在推理时限制每个查询仅关注有限的空间邻域,从而使注意力范围与训练时保持一致。借助相对位置编码(RoPE)的形式化,这一简单约束消除了位置范围上的训练–推理差距。该方法弥合了分辨率差距,并在高分辨率输入上保持一致性能,如图 3 中部所示。

轻量条件解码器

在获得单步流式模型后,发现 VAE 解码器在推理过程中占据主要时间(约 70% 的运行时间),成为瓶颈。

图片

为此设计了一个轻量条件解码器(Tiny Conditional Decoder, TC Decoder),其不仅仅是缩小原始 VAE 解码器的规模,而是同时以 LR 帧和潜变量为条件进行重建。这样既降低了解码复杂度,又在更少参数下保留了细节。设  表示重建的高分辨率帧, 表示真实值, 表示 Wan 解码器的输出。训练结合像素级监督与来自原 Wan 解码器的蒸馏:

图片

其中λ = 2。TC 解码器在保持相当质量的同时,实现了比原始 VAE 解码器快近 7 倍的解码速度,并且在相同参数预算下始终优于无条件的小型解码器。

实验

实现细节

FlashVSR 构建于 Wan 2.1–1.3B之上,并通过 LoRA 进行微调。所有阶段均在 VSR-120K 数据集上训练,使用通过 RealBasicVSR 降质管线(Chan 等,2022b)合成的配对 LR–HR 视频和图像。训练在 32 块 A100-80G GPU 上进行,而评估使用单个 A100。所有阶段的批量大小均为 32,阶段 1–3 分别耗时约 2、1 和 2 天。阶段 1 使用 89 帧片段(768 × 1280)及配对图像;阶段 2 继续仅使用视频训练;阶段 3 采用相同设置。使用 AdamW 优化器(Loshchilov & Hutter,2017),学习率为 ,权重衰减为 0.01。TC 解码器单独在 61 帧片段(384 × 384)上训练约 2 天。

数据集、指标与基线

在三个合成数据集(YouHQ40、REDS、SPMCS)、一个真实世界数据集(VideoLQ)以及一个 AI 生成数据集(AIGC30)上进行评估。合成 LR 帧使用与训练相同的降质管线生成。使用 PSNR、SSIM、LPIPS、MUSIQ、CLIPIQA 和 DOVER对具有真实值的数据集(YouHQ40、REDS、SPMCS)进行评估,而对于没有真实值的数据集(VideoLQ、AIGC30),仅使用无参考指标(MUSIQ、CLIPIQA、DOVER)。将 FlashVSR 与 RealViFormer(非扩散 Transformer)、STAR和 Upscale-A-Video(多步扩散),以及 DOVE和 SeedVR2-3B(单步扩散)进行比较。

与现有方法的比较

定量比较。 将 FlashVSR 与最先进的真实世界视频超分辨方法进行比较。对于基于多步扩散的模型,我们采用其默认配置,STAR 使用 15 个采样步,Upscale-A-Video 使用 30 个采样步。下表1 报告了定量结果。FlashVSR 在所有数据集上持续优于竞争方法,特别是在 MUSIQ、CLIPIQA 和 DOVER 等感知指标上表现突出。此外,与使用 Wan 原始 VAE 解码器相比,所提出的 TC 解码器在保持高效的同时进一步提升了重建指标。我们还注意到 RealViFormer 在 REDS 上具有固有优势,因为该数据集包含在其训练集中。评估结果突出了 FlashVSR 在实现高质量视频超分辨方面的有效性。

图片

定性比较。 为了在真实场景中提供更直观的视觉质量对比,我们在 VideoLQ 和 AIGC30 上展示了定性结果,如下图 5 所示。为清晰起见,我们还放大了选定的局部区域,以更好地展示各方法的 LR 帧和输出之间的差异。FlashVSR 相比基线生成了更清晰、更具细节的重建结果,其纹理和结构更加自然。例如,在图 5 的最后一行中,FlashVSR 恢复了更清晰的手部纹理和书架细节,结果在视觉上更为逼真。这些定性观察与感知指标上的定量提升一致。

图片

效率分析。 下表2 报告了在 768 × 1408 分辨率下 101 帧视频的效率比较。通过流式推理、块稀疏注意力、单步蒸馏和轻量级条件解码器,FlashVSR 相较于所有基线模型实现了显著的效率提升。它比 Upscale-A-Video(30 步)快 136 倍,比 STAR(15 步)快 114 倍,甚至比最快的单步模型 SeedVR2-3B 还快 11.8 倍,同时使用的峰值显存更少(11.1 GB 对比 52.9 GB)。STAR 使用分块推理(块大小 32,重叠 0.5),大多数方法一次性处理整个序列。相比之下,FlashVSR 采用流式推理,将前瞻延迟降低至仅 8 帧(STAR 为 32 帧,其他方法为 101 帧)。这些结果证明了 FlashVSR 在实际部署中的可行性。

图片

消融研究

稀疏注意力。 在 REDS 上评估稀疏注意力的影响。如下表 3 所示,具有 13.6% 稀疏度的 FlashVSR 在重建和感知质量方面与全注意力基线(KV-cache 大小为 85 帧)几乎相同。在  下,其每 8 帧的推理时间从 1.105s 减少到 0.355s(加速约 3.1 倍),从而在不损失视觉质量的情况下显著提升了效率。这表明稀疏注意力能够有效剪除冗余交互,减轻计算开销,同时保留实现高质量视频超分辨所需的关键时空依赖。

图片

微型条件解码器。 在 200 个随机选择的未见视频上评估所提出的 TC 解码器,其中所有输入均通过 Wan VAE 编码器压缩,并分别由三个解码器重建:原始 Wan 解码器、TC 解码器,以及一个无条件变体。如下表 4 和图 5 所示,TC 解码器在视觉质量上与 Wan 解码器几乎相同,其定量指标也非常接近。对于一段  分辨率的 101 帧视频,其解码时间为 1.60s,而 Wan 解码器为 11.13s,实现了约 7 倍加速。此外,在 PSNR、SSIM 和 LPIPS 上,TC 解码器始终优于无条件变体,表明引入 LR 帧条件的有效性。TC 解码器在保持最小保真度损失的同时显著提升了解码速度,使其非常适合于实际的视频超分辨部署。

图片

局部约束注意力。 前面图 3 展示了所提出的局部约束注意力掩码如何通过对齐训练与推理阶段的位置编码范围,缓解超高分辨率下的重复纹理和模糊问题。为了定量验证其有效性,在 15 个高分辨率视频(,平均 305 帧)上进行评估。我们根据边界处理方式(见图 3)考虑两种变体:Boundary-Preserved 和 Boundary-Truncated,两者的感受野均限制为 ,并与全局注意力匹配稀疏度。结果如下表 5 所示。与全局注意力相比,两种变体在所有指标上均有一致提升。值得注意的是,Boundary-Truncated 在感知质量上略有优势,而 Boundary-Preserved 在保持较好保真的同时表现出竞争力。这些结果证实了局部约束注意力能够有效提升超高分辨率视频的超分辨性能。

图片

结论

FlashVSR,一种高效的基于扩散的一步流式视频超分辨框架。通过结合流式蒸馏、局部约束稀疏注意力和微型条件解码器,FlashVSR 以接近实时的效率和强大的超高分辨率扩展能力实现了最先进的质量。我们的结果证明了 FlashVSR 的有效性和实用性,凸显了其在真实世界视频应用中的潜力。

参考文献

[1] FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

别再等 GPT-5了!谷歌终极王牌 Gemini 2。5 Pro 来了,国内直接免费用!

别再等 GPT-5了!谷歌终极王牌 Gemini 2.5 Pro 来了,国内直接免费用! 别再等 GPT-5了!谷歌终极王牌 Gemini 2.5 Pro 来了,国内直接免费用! AI圈的朋友们,你是否还在苦苦等待下一个革命性模型的发布?是否还在为复杂的网络环境和高昂的API...