2026年5月25日星期一

腾讯开源MegaStyle:140万风格数据集+风格迁移新SOTA,模型代码已公开

腾讯联合同济等高校提出MegaStyle,通过可扩展数据流水线构建140万张高清风格数据集MegaStyle-1.4M,训练出风格迁移模型MegaStyle-FLUX和编码器MegaStyle-Encoder,在多个基准上超越现有方法。论文、代码、模型、数据集全部开源,适用于插画创作、设计出图、短视频、游戏美术等场景。适合AI研究者、开发者及AIGC从业者。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

风格迁移(Style Transfer)这个方向,大家肯定不陌生——给一张参考图,让AI把你的照片"画"成那个风格。但你有没有想过,训练风格迁移模型的数据从哪来? 以前的做法是用现有的SOTA风格迁移模型去"造"数据,结果数据质量完全受限于生成器本身,风格不一致、细节丢失、内容泄漏……一堆老毛病。

腾讯联合同济、NTU、HKUST等多所高校,刚刚提出了一个全新思路:既然现在的大模型(如Qwen-Image)已经能根据文字描述稳定地生成同一风格的图片,那我直接用它来造数据不就完了?

于是就有了 MegaStyle——一个可扩展的数据构建流水线,以及它产出的 140万张大规模高清风格数据集 MegaStyle-1.4M。在这个数据集上训练出的风格迁移模型 MegaStyle-FLUX,以及风格编码器 MegaStyle-Encoder,在多个基准上全面超越所有现有方法。目前论文已发布,代码、模型、数据集全部开源。

图片

unsetunset论文介绍unsetunset

论文介绍了一种名为MegaStyle 的新型可扩展数据整理流程,该流程构建了一个风格内一致、风格间多样化且高质量的风格数据集。我们利用当前大型生成模型一致的文本到图像风格映射能力来实现这一目标,这些模型能够根据给定的风格描述生成相同风格的图像。在此基础上,我们整理了一个包含 17 万个风格提示和 40 万个内容提示的多样化且均衡的提示库,并通过内容-风格提示组合生成了大规模风格数据集 MegaStyle-1.4M。基于 MegaStyle-1.4M,我们提出了一种风格监督对比学习方法来微调风格编码器 MegaStyle-Encoder,以提取富有表现力的、特定于风格的表示,并且我们还训练了一个基于 FLUX 的风格迁移模型 MegaStyle-FLUX。大量实验表明,对于风格数据集而言,保持风格内部一致性、风格间多样性和高质量至关重要,同时也证明了所提出的 MegaStyle-1.4M 的有效性。此外,当使用 MegaStyle-1.4M 进行训练时,MegaStyle-Encoder 和 MegaStyle-FLUX 能够提供可靠的风格相似性度量和可泛化的风格迁移,从而为风格迁移领域做出重大贡献。

unsetunset数据整理流程unsetunset

图片

数据整理流程概述。首先从开源数据集中收集风格和内容图像。接下来,我们应用精心设计的指令,利用 Qwen3-VL 生成风格和内容提示,并结合平衡抽样。最后,我们使用 Qwen-Image,根据内容-风格提示的组合生成风格图像。请注意,我们仅出于演示目的使用了简化的内容和风格提示。

unsetunsetMegaStyle-1.4M 的可视化unsetunset

图片

每行在不同的内容中都呈现相同的样式。MegaStyle-1.4M 包含多种高质量样式图像,且样式内部一致性极高。

unsetunsetMegaStyle-FLUX 的风格化结果unsetunset

图片

MegaStyle-FLUX 经过 MegaStyle-1.4M 的训练,能够生成与文本提示指定的内容和参考图像的风格相一致的风格化图像。

unsetunset比较unsetunset

图片

将 MegaStyle-FLUX 与最先进的风格迁移方法进行了比较,包括 DEADiff、StyleShot、Attention-Distillation (Attn-Distill)、CSGO、StyleCrafter、InstantStyle 和 StyleAligned。结果表明,MegaStyle-FLUX 相较于这些基准方法具有更优异的性能。

unsetunset结论unsetunset

MegaStyle 从数据根源解决风格迁移顽疾:140 万高质量风格数据集为行业树立标准,MegaStyle-FLUX 实现稳定、细腻、高保真风格迁移。作为腾讯开源力作,它可用于插画创作、设计出图、短视频、数字人、游戏美术等场景,大幅降低风格创作门槛,推动 AIGC 从 “能生成” 走向 “生成好看、生成统一、生成专业”。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

DeepSeek V4省钱新工具:缓存命中99。82%,2折稳定到手

Reasonix是为DeepSeek V4设计的终端编程工具,通过缓存优先循环实现99.82%的缓存命中率,使原本61美元的账单降至12美元(约81元人民币),相当于2折。永久降价政策适用,适合高频使用DeepSeek API的开发者。注意:该工具专为DeepSeek打造,不通用。

Tags:

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

我悟了,DeepSeek V4系列发布1个月,价格屠夫的本色这才刚刚发力啊!

官方这边,打折促销期还没过,折上折价格已官宣落定为永久降价

图片

就这样,开源社区仍不满足。您猜怎么着?缓存命中率直接给干到99.82%了!

图片

什么概念?就是原本4亿+token、61美元(合人民币414元)的账单,能直降至12美元(合人民币81元),2折轻松到手。

图片

老哥老姐们给这个名为Reasonix的项目点星都点疯了,状态be like:

图片

具体来说,Reasonix是一款专为DeepSeek打造的终端coding harness,核心目的很简单,就是两个字:省钱——

长会话能把缓存命中保持在90%+,输入token成本降到1/5的那种。

图片

DeepSeek原生编程Agent

Reasonix的实现思路也不复杂,最核心的一点是:基于字节稳定prefix-cache设计的append-only运行循环

就是说,Reasonix的工作流程是专门为了DeepSeek的缓存机制设计的:旧的上下文固定不动,新消息只往后追加,尽量保证每一轮请求的前半部分完全一样,从而提高缓存命中率,降低长会话成本。

具体架构可以拆分成3个部分来看。

图片

缓存优先循环(Cache-First Loop)

自动前缀缓存(prefix-cache)仅在当前请求的精确字节前缀和先前请求匹配时才会激活,想要提高缓存命中率,需要解决的是大多数智能体循环会在每次交互时重新排序、重写或注入新的时间戳的问题。

Reasonix的解决方案是把上下文划分为三个区域:

图片

这样,前缀会被固定下来,在每个会话中仅计算一次;历史消息只追加不重写;而草稿区中的任何信息在归入日志前,均需通过Tool-Call Repair进行提炼。

工具调用修复(Tool-Call Repair)

DeepSeek比较容易遇到的问题包括:

  • 工具调用JSON在内部已经生成,但在最终消息里却消失不见;
  • 模型想调用工具,但参数写歪了,即JSON参数畸形;
  • 同一工具被反复调用且参数完全相同,即重复调用风暴;
  • JSON被截断。

工具调用修复会通过4轮处理,让Reasonix在真正执行前,先尝试修复这些问题。

成本控制

首先,默认优先使用v4 flash,困难任务才会切pro。

图片

其次,轮次结束自动压缩上下文。

用户要是觉得下一次任务比较难,就输入/pro,这样下一轮对话模型就会切换为v4 pro。跑完这一轮后Reasonix自动切回便宜模型,无需用户手动更改。

最后,失败信号会触发自动升级:失败次数到达警戒线后,当前轮次的剩余部分就会切到v4 pro上运行。

Reasonix在安装使用方面也比较简单。

两步即可运行,无需全局安装:

  1. 进入项目目录;
  2. 输入:npx reasonix code,启动TUI会话。

不习惯用终端的话,Reasonix还提供了桌面版。

以及再次再次高亮一下来自Reasonix官方的提醒:

Reasonix只为DeepSeek打造,每一个抽象层级都基于DeepSeek的Feature构建,完全不通用,也“不会发布通用功能”。

One More Thing

省钱的事情,大家伙当然喜闻乐见,毕竟也不是每个人都能像龙虾之父Peter那样无限狂烧公司token。

图片

于是关于Reasonix的讨论,是轻轻松松就盖了几百楼。

图片

不少小伙伴已经摩拳擦掌跃跃欲试,但也有人提出疑问:

我们真的需要一个DeepSeek原生编程Agent吗?

有网友分享说,Ta写了一个微型桥接程序,在Codex中使用DeepSeek V4 Pro,同样实现了95%以上的高缓存命中。

并且Ta“没做任何特殊处理,只是将DeepSeek API的格式调整为Codex所需要的”。

图片

anyway,harness和harness之间肯定是有区别的。就有网友分享说,在Claude Code里使用DeepSeek V4比在OpenCode上省钱。

甭管你用了哪一种方案,都欢迎在评论区分享分享心得体验。

大家省才是真的省(doge)。

项目地址:
https://github.com/esengine/DeepSeek-Reasonix

参考链接:
[1]https://github.com/esengine/DeepSeek-Reasonix/blob/main/docs/ARCHITECTURE.md#pillar-1--cache-first-loop
[2]https://esengine.github.io/DeepSeek-Reasonix/index.html#agents

— 欢迎AI产品从业者共建 


📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

图片


一键关注 👇 点亮星标

科技前沿进展每日见

腾讯开源MegaStyle:140万风格数据集+风格迁移新SOTA,模型代码已公开

腾讯联合同济等高校提出MegaStyle,通过可扩展数据流水线构建140万张高清风格数据集MegaStyle-1.4M,训练出风格迁移模型MegaStyle-FLUX和编码器MegaStyle-Encoder,在多个基准上超越现有方法。论文、代码、模型、数据集全部开源,适用于插画...