AI I024
2026年1月24日星期六
免费AI生成播客与短视频,快速体验教程
新标题:别急学Skills,先写好提示词
内容概括:Skills本质是提示词的工程化封装,并非新技术。重点在于先积累常用提示词,当需要优化和串联工作流时,再使用Skills进行组织管理。避免盲目跟风,从基础做起。
我是阿木易,一个正在研究AI编程的设计师🎨,想自己造点不一样的东西。👀
最近skills突然又火了一波。
扣子直接整了个skills商城,你可以把自己常用的提示词封装成skill,还能分享给别人用。
好多人问我:这个怎么学?
我的回答是:别急着学。
不是skills不好,是你可能搞错了重点。
用了一段时间skills以后,我发现一个事儿:
这玩意儿本质就是提示词,换了种组织方式。
很多人都把它想复杂了,emmm,包括我一开始也是。
那误区是什么呢?
看到扣子出了skills商城,很多人以为这是全新的技术,不学就落后了。
但真相是:它就是把你已经会的提示词,换了种管理方式。
就像代码本质是0和1,但我们不会说编程就是写0和1。
关键不在于它是什么,在于你怎么组织。
Skills vs 传统提示词,区别就3个
核心词:工程化封装。
不是新东西,是组织方式的升级。
扣子的skills商城,说白了就是让你把常用提示词封装好,方便复用和分享。
我自己现在用的内容创作流程,就是6个skill串起来的:
选题 → 策划 → 写作 → 标题 → 审稿 → 小红书
每天写公众号就跟流水线一样,30分钟搞定。
但说白了,每个skill就是一个常用提示词。只是我把它们组织起来了。
什么时候才需要升级到skills?
问自己一个问题:
你有没有一个常用提示词?
如果没有,别急着学skills,先找到一个能反复用的提示词。
如果有,但没觉得需要管理,那还不到时候。
如果有,而且经常改、经常用,那可以考虑升级了。
我是怎么走到skills的?
一开始我也是每次对话都重新写提示词。
后来发现有几个提示词用得特别多,每次都要复制粘贴。
再后来想把它们串起来,形成一个流程。
这时候,skills才有意义。
所以别焦虑。
Skills的价值不在于新,在于组织。
扣子出skills商城是好事,但如果你连要组织的东西都没有,学skills就是空中楼阁。
先从写好一个提示词开始。
你有常用的提示词吗?评论区聊聊~
想了解coze技能商城的可以去下面的链接看下哈:
地址:https://www.coze.cn/skills
好了,今天的分享就到这儿啦~
现在也在用 AI 做内容、做工具、做产品。
如果你刚好也在探索 AI,或者你有一些需求,我可以帮你:
设计方面
LOGO 设计
IP 形象设计
商业 PPT 定制
海报/主图设计
AI 方面
提示词定制(帮你写能出效果的提示词)
AI智能体定制
小工具/互动网页开发(批量处理工具等)
往期精选:
OpenVision 3发布:统一视觉编码器,理解与生成双优,性能超越CLIP
OpenVision 3采用VAE与ViT结合的统一架构,通过双分支训练同时优化图像生成与理解能力。实验显示,其在生成任务上gFID达1.89,超越CLIP;在多模态理解任务中与CLIP性能相当,实现了单一模型的高效视觉表示学习。
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Letian Zhang等
论文链接:https://arxiv.org/abs/2601.15369v1
项目链接:https://ucsc-vlaa.github.io/OpenVision3/
模型链接:https://huggingface.co/collections/UCSC-VLAA/openvision-3
亮点直击
统一架构:OpenVision 3是一种先进的视觉编码器,能够学习单一、统一的视觉表示,同时服务于图像理解和图像生成任务。 简洁设计:核心架构非常简洁,将 VAE 压缩后的图像隐空间变量输入到 ViT 编码器中,并训练其输出以支持两个互补的角色(重建与语义理解)。 协同优化:通过在共享隐空间中联合优化重建驱动和语义驱动的信号,编码器学习到的表示在两种机制下都能很好地协同和泛化。
解决的问题
统一建模的瓶颈:以往的研究通常需要分别为生成任务(捕捉低级像素特征)和理解任务(捕捉高级语义特征)适配单独的编码器。现有的统一尝试通常依赖复杂的离散 token 设计(如矢量量化 VQ)或预训练检查点,且构建统一特征空间和高效训练流程仍然不够透明。
提出的方案
VAE-ViT 混合架构:使用冻结的 FLUX.1 VAE 将图像压缩为隐空间变量,然后通过从头训练的 ViT 提取统一特征。 双分支解码: 重建分支:专注于高质量的像素级图像重建,通过添加噪声来增强生成的泛化能力。 理解分支:通过联合对比学习和图像字幕(Image Captioning)目标进行优化,增强语义特征。
应用的技术
FLUX.1 VAE:用于初始图像压缩,将输入降采样 。 Vision Transformer (ViT):处理 VAE 隐空间变量,patch 大小设为 ,总压缩率为 。 噪声注入 (Noise Injection):在重建分支的统一表示中加入高斯噪声,以提升生成能力的鲁棒性。 多目标损失函数:结合了 重建损失、LPIPS 感知损失、对比损失(Contrastive Loss)和字幕损失(Captioning Loss)。
达到的效果
生成性能:在 ImageNet 上,OpenVision 3 的 gFID 达到 1.89,大幅优于标准的 CLIP 基编码器(2.54),并在 rFID 和 gFID 上优于其他统一分词器。 理解性能:在多模态理解方面,将其插入 LLaVA-1.5 框架后,性能与标准 CLIP 视觉编码器相当(例如在 SeedBench 上 62.4 vs. 62.2,在 POPE 上 83.7 vs. 82.9)。
方法
动机
开发统一的分词器(Tokenizer)是实现生成与理解统一的关键步骤,但这往往受阻于建立统一特征空间的困难以及低效的训练过程。以往的研究提出了许多令人印象深刻的方法来消除这些障碍。然而,关于构建统一表示的探索仍处于初步阶段,且相关的训练流程对社区而言依然不够透明。提出了 OpenVision 3 模型,该模型通过 VAE 和 ViT 以一种有效且直接的方式构建了统一的视觉表示空间。展示了如何在 VAE 隐空间内从头开始高效地训练一个统一的分词器。
OpenVision 3:一种统一分词器
OpenVision 3 使用 VAE 编码器和 Vision Transformer (ViT) 来提取统一的视觉特征。输入图像 首先由来自 FLUX.1-dev 的 VAE 编码器 编码为 VAE 隐空间变量 ,随后的训练过程完全在 VAE 隐空间下进行。接着,VAE 隐空间变量被输入到 ViT 编码器 中,以提取用于理解任务和生成任务的统一表示 。
在 VAE 阶段,FLUX.1 VAE 将图像的高度和宽度分别下采样 。因此,本文将 ViT 的 patch 大小调整为 ,使得整体压缩率为 ,这与常见设置保持一致。形式化表示如下:
其中 是 VAE 隐空间变量通道数, 是 ViT 的维度。编码后的统一特征 随后进入重建分支和理解分支进行解码。OpenVision 3 采用两个完全独立的分支来培养其提取生成性和解释性视觉表示的能力,其各自的架构详述如下。
重建分支 (Reconstruction Branch)重建解码部分镜像了分词器的结构,保持了近乎对称的配置。在解码之前,本文首先向统一表示中添加噪声,以提高生成能力的泛化性。扰动后的特征 是通过添加按样本特定强度缩放的高斯噪声生成的:
其中 是从 均匀采样的, 是一个常数。然后,本文使用一个 patch 大小为 的 ViT 解码器和一个线性层将加噪后的统一特征 转换回 VAE 隐空间变量 。接下来,应用 VAE 解码器将 解码为重建图像 。重建损失包括图像 和 VAE 隐空间变量 的重建损失,以及基于 LPIPS 的感知损失。整个重建损失可以公式化为:
理解分支 (Understanding Branch)理解分支的范式总体遵循 OpenVision 的设计,即执行对比学习和图像字幕生成。如图 1 所示,本文使用文本编码器提取字幕特征 ,以便与统一视觉特征 计算对比损失。同时,本文利用文本解码器从统一表示中自回归地预测合成字幕,并计算相应的字幕损失。形式化地,理解损失可以表示为:
总体训练目标为:
在训练过程中,本文将 配置为 的两倍。降低 有助于在保持理解能力不受损的同时,保留生成质量。
训练设置
训练阶段与分辨率:根据 CLIPA 中得出的结论,本文对分词器采用渐进式训练策略,从低分辨率过渡到高分辨率输入。本文首先在 分辨率下预训练分词器,然后在 或 下进行微调。两个训练阶段的 epoch 分配保持在约 10:1 的比例。通过将大部分计算集中在低分辨率阶段,这种方法在获得卓越性能的同时,显著降低了通常与高分辨率训练相关的计算开销。
训练细节:如图 1 所示,本文使用预训练的 FLUX.1 VAE 并在整个训练过程中将其冻结。所有其他组件(包括 ViT 编码器、ViT 解码器、文本编码器、文本解码器和线性层)均随机初始化并在整个训练过程中保持解冻状态。对于这两个训练阶段,全局批大小分别为 8K 和 4K,基础学习率采用余弦衰减,分别为 和 。详细参数配置请参见表 1。该模型在由 LLaVA-Llama-3 重新标注的 DataComp 数据集上进行训练,这保证了训练数据的高质量。
实验
实验设置
为了全面评估统一分词器的性能,本文分别评估了重建、生成和理解性能。在生成方面,遵循 RAE 配置,使用 DiT 和宽 DDT 头训练生成模型,并评估 OpenVision 3 的生成保真度。在理解方面,在 LLaVA-1.5 框架下使用该分词器训练视觉-语言模型,并在多个下游多模态基准上评估理解性能。
性能表现
重建性能:OpenVision 3 在各项指标上均显著优于现有的统一分词器。例如,在 ImageNet 上,OpenVision 3 实现了 30.33 dB 的 PSNR,大幅领先 UniTok (25.34 dB) 和 Vila-U (22.24 dB)。在感知质量(LPIPS)方面,得分为 0.061,优于 UniTok 的 0.132。 生成性能:在使用 RAE 框架进行测试时,OpenVision 3 在 gFID、Inception Score (IS)、Precision 和 Recall 等指标上均超越了其他分词器(包括 CLIP 和 SD-VAE 等)。
理解与重建的相互作用
为了探究这两个目标之间的相互影响,本文进行了消融实验:
移除重建损失:仅使用语义损失训练时,重建损失(像素级和隐空间变量级)依然显著下降。这表明语义目标对图像重建有显著贡献。 移除理解损失:仅使用重建信号训练时,对比损失几乎停滞,但字幕损失略有下降。有趣的是,加入语义损失反而提高了重建性能,进一步证明了这两个分支之间存在互惠互利的协同关系。
结论
OpenVision 3,这是一种用于理解和生成的统一视觉编码器。本文创新性地将 VAE 与 ViT 结合形成统一架构,并生成可服务于不同下游任务的单一、统一表示。为了高效训练该分词器,提出了一种结合重建驱动和语义驱动信号进行联合学习的新训练范式。综合评估表明,本文模型通过低成本训练在生成和理解任务上均取得了优异的结果。OpenVision 3 在重建和生成方面优于当前其他的统一分词器,并在语义任务上表现出与 CLIP 相当的能力。
参考文献
[1] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
免费AI生成播客与短视频,快速体验教程
内容:本文介绍一款可白嫖的AI网站,重点演示生成AI播客和短视频的实战案例,包括操作步骤、积分获取方法及效果展示,适合需要快速制作多媒体内容的用户。 在星期二分享的文章 这个浏览器插件,可让你从任何网页获取你想要的内容,包括图片,短视频,音乐文件,重点功能完全免费 ,最开始分...
-
点击上方卡片关注 不要错过精彩文章 🎉 读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最希望,能给大家带来不一样的搭建思路和方法。 点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!...
-
大家好,今天要聊聊一款新发现的AI工具——元镜(aimovie.gstai.com)。 它不仅仅是一个文本创作工具,更是一款强大的短视频创作利器。 什么是元镜? 元镜是一个基于人工智能的短视频创作平台,它利用AI技术帮助用户快速、轻松地创作出各种类型的短视频内容。无论是文旅宣...