AI I024: NeurIPS 2025 I 复旦大学提出Seg2Any：赋能分割掩模到图像生成，开启精准控制新时代。

2025年10月12日星期日

NeurIPS 2025 I 复旦大学提出Seg2Any：赋能分割掩模到图像生成，开启精准控制新时代。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

复旦大学提出的 Seg2Any 是一种新颖的分割掩模到图像生成方法，可实现强大的形状一致性和细粒度的属性控制（例如颜色、样式和文本）。这是一个能从"分割掩码"生成图像的模型，而且控制力超强！"分割掩码到图像生成"好比先画好图的"版图"，再告知各区域具体信息，让AI填充。不过这任务难度大，以往模型常出现形状跑偏、颜色乱窜等语义不一致和属性泄露的问题，Seg2Any的提出给这个问题带来的新的方案。

unsetunset相关链接unsetunset

论文地址：https://arxiv.org/abs/2506.00596
项目主页：https://seg2any.github.io
代码仓库：https://github.com/0xLDF/Seg2Any
数据集：https://huggingface.co/datasets/0xLDF/SACap-1M

unsetunset论文阅读unsetunset

Seg2Any：具有精确形状和语义控制的开放集分割-掩模到图像生成

作者团队：Danfeng Li, Hui Zhang, Sheng Wang, Jiacheng Li, Zuxuan Wu
作者机构：复旦大学，HiThink Research

尽管扩散模型最近取得了进展，但顶级文本到图像 (T2I) 模型仍然难以实现精确的空间布局控制，即准确生成具有指定属性和位置的实体。通过结合像素级空间引导和区域文本提示，分割蒙版到图像 (S2I) 生成已成为一种很有前途的解决方案。然而，现有的 S2I 方法无法同时确保语义一致性和形状一致性。

为了应对这些挑战，论文提出了 Seg2Any，这是一个基于先进的多模态扩散变换器（例如FLUX）构建的新型 S2I 框架。首先，为了实现语义和形状一致性，将分割蒙版条件解耦为区域语义和高频形状成分。区域语义条件由语义对齐注意蒙版引入，确保生成的实体遵循其指定的文本提示。代表实体边界的高频形状条件被编码为实体轮廓图，然后通过多模态注意作为附加模态引入以引导图像空间结构。其次，为了防止多实体场景中实体间的属性泄漏，论文引入了属性隔离注意力掩码机制，该机制限制每个实体的图像标记在图像自注意力机制下只关注自身。

为了支持开放集 S2I 生成，论文构建了 SACap-1M，这是一个包含 100 万张图像、590 万个分割实体和详细区域说明的大规模数据集，并构建了用于全面评估 S2I 的 SACap-Eval 基准。大量实验表明，Seg2Any 在开放集和封闭集 S2I 基准测试中均达到了最佳性能，尤其是在实体的细粒度空间和属性控制方面。

unsetunset方法概述unsetunset

(a) Seg2Any 框架概述。Seg2Any 构建于FLUX.1-dev基础模型之上，首先将分割掩码转换为实体轮廓图，然后通过冻结的 VAE 将其编码为条件标记。为了提高效率，可忽略的标记会被过滤掉。生成的文本、图像和条件标记会被连接成统一的序列，用于 MM-Attention。我们的框架将 LoRA 应用于所有分支，以最少的额外参数实现 S2I 生成。(b) MM-Attention 中的注意力掩码，包括语义对齐注意力掩码和属性隔离注意力掩码。

大规模 SACap-1M 数据集

数据标注流程概述。开源视觉语言模型 (VLM)（例如 Qwen2-VL-72B）的最新进展显著缩小了与 GPT-4V 等闭源 VLM 的性能差距，使得创建大规模且标注丰富的数据集成为可能。利用 Qwen2-VL-72B 的功能，我们构建了"带 100 万个字幕的任意图像分割 (SACap-1M)"，这是一个基于多样化高分辨率 SA-1B 数据集的大规模数据集。SACap-1M 包含 100 万个图文对和 590 万个分割实体，每个实体由一个分割掩码和一个详细的区域字幕组成，平均每幅图像的字幕字数为 58.6 个，每个实体的字幕字数为 14.1 个。我们进一步提出了 SACap-Eval，这是一个用于评估开放集 S2I 生成质量的基准。

unsetunset实验结果unsetunset

定量比较

在 SACap-Eval 基准上进行定量比较。粗体和下划线分别代表最佳方法和次优方法。

定性结果

SACap-Eval 上的定性比较。Seg2Any 准确地生成表现出颜色和纹理等复杂属性的实体，超越了以前的方法。

unsetunset结论unsetunset

论文提出了一种新颖的分割-蒙版到图像生成框架 Seg2Any，该框架通过将空间布局与语义引导解耦来实现细粒度的布局控制。通过整合稀疏实体轮廓和多模态蒙版注意力机制，Seg2Any 能够同时确保形状保持、语义对齐和强大的属性控制。论文进一步引入了大规模 SACap-1M 数据集和 SACap-Eval 基准，以促进开放集 S2I 研究。大量实验验证了 Seg2Any 达到了最佳性能，尤其在生成具有详细描述的实体方面表现出色。

局限性：

Seg2Any 在生成包含大量实体且每个实体都带有详细描述的图像时面临资源限制。
此外大规模数据集依赖于视觉语言模型进行区域字幕生成，这不可避免地会引入注释噪声，从而影响分割-蒙版到图像的生成性能。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024