腾讯混元推出HY-WU框架,无需微调即可实时生成个性化LoRA适配器,实现高保真图像编辑,性能媲美Nano-Banana。开源模型、代码、论文均已发布,支持服装迁移、虚拟试穿等应用。
Tags:
腾讯混元团队提出了一个可扩展的框架HY-WU,用于动态条件生成低秩(LoRA)更新。HY-WU从混合图像-指令表示中合成实例条件适配器权重,并在前向传播期间将其注入到冻结的主干网络中,从而生成实例特定的算子,而无需进行测试时优化。
主要特点
功能性神经记忆: HY-WU 为 AI 引入了一种轻量级的"神经记忆"。它可以根据请求生成条件模型适配器(无需微调!),从而在保持基础模型通用能力的同时,实现实例级个性化。
可扩展至大型模型: HY-WU 仍然适用于大型基础模型(即使参数量高达 800 亿!)。凭借结构化的参数标记化,该方法天然兼容大规模架构。
强大的人类偏好: HY-WU 在与开源模型的比较中取得了较高的人类偏好胜率,超越了强大的闭源基准,并且与最新的 Nano-Banana 系列保持接近。
跨领域服装融合
创意角色扮演和角色服装迁移
高保真度人脸身份迁移
无缝服装转移和虚拟试穿
高质量纹理合成
相关链接
论文:https://arxiv.org/pdf/2603.07236 主页:https://tencent-hy-wu.github.io 源码:https://github.com/Tencent-Hunyuan/HY-WU 模型:https://huggingface.co/tencent/HY-WU/tree/main
方法概述
HY-WU流程概述。该框架从源图像和编辑提示中提取条件,这些条件由可训练的神经网络Transformer处理,以合成特定实例的参数标记。然后,这些标记被解标记化为LoRa适配器,并集成到包含θ1 · · · θL的冻结基础模型中,其中θl表示第l层。整个流程采用端到端优化,生成器通过扩散损失的反向传播进行更新。
实验
GSB(人类评估)
HY-WU 的性能显著优于领先的开源模型,并且与顶级闭源商业系统相比也毫不逊色。虽然 Nano Banana 2 和 Nano Banana Pro 的总体得分略高(分别为 52.4% 和 53.8%),但差距仍然不大。
鉴于这些商业系统很可能使用规模更大的骨干网和专有数据进行训练,性能差距不大,这表明即使在模型规模受到更多限制的情况下,操作员级条件自适应仍然有效。
使用教程
from wu import WUPipeline
base_model_path = "tencent/HunyuanImage-3.0-Instruct"
pg_model_path = "tencent/HY-WU"
pipeline = WUPipeline(
base_model_path=base_model_path,
pg_model_path=pg_model_path,
device_map="auto",
moe_impl="eager",
moe_drop_tokens=False,
)
prompt = "以图1为底图,将图2公仔穿的衣物换到图1人物身上;保持图1人物、姿态和背景不变,自然贴合并融合。"
# prompt_en = Using Figure 1 as the base image, replace the clothing on the character in Figure 1 with the outfit worn by the figurine in Figure 2. Keep the character, pose, and background of Figure 1 unchanged, ensuring the new clothing fits naturally and blends seamlessly.
imgs_input = ["./assets/input_1_1.png", "./assets/input_1_2.png"]
sample = pipeline.generate(prompt=prompt, imgs_input=imgs_input, diff_infer_steps=50, seed=42, verbose=2)
sample.save("./output.png")感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论