2025年10月23日星期四

港科大开源 World-To-Image,让T2I模型提示准确率狂飙8。1%!

图片

  • 文章:https://arxiv.org/pdf/2510.04201
  • 代码:https://github.com/mhson-kyle/World-To-Image

虽然文本转图像 (T2I) 模型可以合成高质量图像,但由于固有的知识缺口,当使用新颖的或分布外 (OOD) 实体进行提示时,其性能会显著下降。

港科大推出了一个新颖的框架 World-To-Image,它通过为 T2I 生成提供代理驱动的世界知识来弥补这一差距。作者设计了一个代理,它可以动态搜索网络以检索图像中基础模型未知的概念。然后,这些信息用于执行多模态提示优化,引导强大的生成主干网络实现精确的合成。至关重要的是,评估超越了传统的指标,利用 LLMGrader 和 ImageReward 等现代评估工具来衡量真正的语义保真度。

实验表明World-To-Image在语义对齐和视觉美观方面都远远优于最先进的方法,在 NICE 基准上,提示准确率提高了8.1% 。该框架在不到三次迭代的时间内高效地实现了这些结果,为能够更好地反映不断变化的现实世界的 T2I 系统铺平了道路。

WORLD-TO-IMAGE 概述
WORLD-TO-IMAGE 概述
Orchestrator Agent 调用 Image Retriever Agent 的情况说明(invoke-IRA=1)。
Orchestrator Agent 调用 Image Retriever Agent 的情况说明(invoke-IRA=1)。

图片对七种模型的文本转图像生成结果进行了定性比较。模型始终表现出更强的语义一致性(例如,"Doomer Doge 盯着 TikTok 股票暴跌")、准确的身份定位(例如,"Kai Cenat 从宇宙飞船中直播")和忠实的概念表征(例如,"妈妈 AI"),在保真度和快速执行性方面均优于基线。

unsetunset组件详细信息unsetunset

  • Prompt Optimizer:基于LLM的提示优化
  • 图像检索器:基于 LLM 的图像检索
  • Scorer:对生成的图像进行评分
  • Orchestrator:协调整个优化工作流程
  • 管道:协调整个优化工作流程

unsetunset数据集unsetunset

可以通过以下代码访问 NICE Benchmark 数据集:

from datasets import load_dataset  
dataset = load_dataset("mhsonkyle/NICE")

unsetunset安装使用unsetunset

先按照教程安装下面的OmniGen2 https://github.com/VectorSpaceLab/OmniGen2/

  • 环境变量
# Azure OpenAI
export AZURE_API_KEY="your-azure-api-key"
export AZURE_API_BASE="https://your-endpoint.openai.azure.com/"
export AZURE_API_VERSION="2024-12-01-preview"
export RAPIDAPI_KEY="your-rapidapi-key"
  • 快速入门
# Single prompt optimization
python run_single.py 'dr strange' --iterations 3

# Multiple prompts optimization
python run.py \
  --config configs/config_base.yaml \

没有评论:

发表评论

浏览器也能“记住”你?OpenAI新功能让AI真正懂你!

一起来,走进ai新时代。 公众号:元小二学AI 为大家分享最新的Ai工具资讯, 关注并设置星标,再也不会错过各种工具信息! 欢迎来到我们这个充满魔法的AI工具小天地!在这里,我们不卖海洋球,只提供你意想不到的免费办公软件。想象一下,有了这些神器,你的工作效率会飙升,就像喝了加...