阿里万相最近新出的VACE模型可以说将视频编辑功能又拉到了一个新高度,今天我们来看下如何用它实现视频的扩图功能
END
感谢您的阅读,麻烦点个赞+在看吧!
END
感谢您的阅读,麻烦点个赞+在看吧!
-steps: 2-4
- cfg: 1.0
-shift:6(高分辨率设置在8以上,分辨率低可以适当降低,中间值可以设为6)
忽略TeaCache节点,关闭Experimental Args节点上的use_fresca
模型和参数都调整好后,点击运行,只等了大概2分钟不到视频就生成好了,相比之前20分钟的生成时间,速度大大得到了提升。
END
感谢您的阅读,麻烦点个赞+在看吧!
今天端午节,祝大家端午安康呀,大家今天都有吃粽子吗?
今天是五月的最后一天,也是我来到北京的第二个月的月底。
时间过得真快,快到很多时候来不及细细品,日子就推着人往前走了。
抓住五月的尾巴,码字写下这篇复盘,给自己这两个月的一次回放和整理,中间发生了很多事情,也经历了许多的挑战与成长。
还记得三月刚到北京那几天,不怎么在状态,每天都感觉很累,但好像什么又都没做出来。
那时候,面对全新的环境和工作模式,内心充满了不确定感,甚至会琢磨如果选了第一选择,会不会更好。
好在,调整是迅速的。我开始尝试早起,给自己制定明确的每日任务。
当生活有了固定的节奏,内心的焦虑也消散了不少。
真正让我找到一点感觉的,是筹备并完成第一场私域直播。虽然压力巨大,但当看到结果的那一刻,悬着的心放下了一半,也给了我很大的正反馈。
四月,是强度拉满的一个月,不断迭代内容和其他细节。
清明节那周,我印象特别深刻,高强度的直播排期,几乎没有休息。
虽然身体疲惫,但每一场直播下来,都能感觉到自己有新的沉淀和增量,这种"干中学"的状态,虽然辛苦,但成长速度也是肉眼可见。
回来之后,我立刻尝试将学到的新思路融入到直播中,调整内容和节奏,很快就看到了数据的正向反馈,那种"肉眼可见的变好",是对我最大的激励。
进入五月,我又面临了新的挑战——开始在公域做直播。
公域直播和私域直播还不一样,说实话,最初是有些"社恐"的,担心被熟人看到,担心讲的内容不够"干",各种心理建设做了很多遍。
但开播之后,一旦进入状态,反而轻松了,从这件事情中,我知道了,我们总是会不自觉把困难无限放大,还没开始就给自己预设各种障碍,不应该这样。
正确的心态应该是,先去做,做出垃圾来了又怎样?
在公域,我的目标应该很清晰:就是卖货,做密集成交。所以不用太在意,那些非目标用户的看法。
高强度的直播,加上不断在刻意练习和迭代内容、直播节奏、拉互动、留人、声音、控场等等环节,让我很快适应了在公域直播的感觉。
现在回想,两个小时的直播也能比较自如地拿下来,确实感受到自己能力阈值的提升。
不知不觉,就写了 1000 多字。
这两个月,从最初的些许慌乱到现在的逐渐笃定,每一天都像在升级打怪。
其次,拥抱变化,刻意练习。无论是直播技巧的打磨,还是个人表达能力的提升,都没有捷径可走。环境在变,用户需求在变,唯有持续学习和迭代,才能跟上节奏。
最后,跳出执行,全局思考。不能只做一个"主播",要站在全局看待系统,这样才能提升自己的核心壁垒。
北京的五月,在忙碌与充实中悄然画上句号。回望这两个月,除了个人成长,心中更多的是温暖与感恩。
感谢在破局里遇到的每一个人,感谢洋哥、杰哥、马克、小林哥、猫哥、阿星、曾曾等朋友们的一路指点与帮助,还有许多没有一一提及的伙伴~
未来的路还很长,挑战也会持续不断,我会带着这两个月的收获和思考,继续在这条路上探索和深耕。
我是艾康,会持续分享更多好用实用的 AI 工具/AI 玩法,如果想第一时间收到推送,欢迎关注公众号,并设为星标⭐。
扫描下方二维码,备注「777」,免费送你一份《AI工具与副业变现指南》。
如果觉得这篇文章有用的话,感谢点赞、在看➕关注👆,我是艾康,咱们下篇见!
文章链接:https://arxiv.org/pdf/2503.10743
亮点直击
与现有方法仅在笛卡尔空间中优化末端执行器姿态不同,提出了一种新颖的时空机器人图,显式地建模机器人物理配置,以指导生成动作的去噪过程。 引入了一种运动学正则化器,通过引入关节空间监督来增强NBP(Next-Best Pose)学习目标。该正则化器利用前向运动学提供符合运动学约束的参考姿态,有效引导扩散过程以符合运动学约束。 大量实验表明,本文提出的KStar Diffuser在仿真和实际场景中均表现优异,成功率超过基线方法10%以上。
提出了Kinematics enhanced Spatial-TemporAl gRaph Diffuser (KStar Diffuser) 框架,具体包括:
给定包含语言指令 l 和RGB-D观测 o 的数据集 D,本文的目标是学习一个策略,该策略能够预测动作 a。其中,a 由轨迹 和夹爪开合动作 组成,T 表示轨迹长度,。n 表示机器人关节的数量。在双机械臂操作中, n 通常为12或14,因为每个机械臂具有6或7个自由度。参考先前的工作 [15, 17, 49, 64],在所有轨迹点上训练策略是低效的。因此,采用关键帧发现方法提取一组 个关键帧索引 ,预测动作为关键帧的末端执行器姿态集合 。
主流方法 [17, 23, 65] 训练策略以预测动作,但很少考虑决定其运动的机械机器人结构。因此,我们提出了一种时空图来建模静态物理结构和动态历史运动信息。此外,为了减少末端执行器姿态的运动学不可行预测,引入了一个可微分运动学模块,为策略网络提供运动学感知的参考。本文提出的运动学增强时空图扩散器(KStar Diffuser)的概述如下图所示。
给定语言指令 和多视角 RGB-D 观测图像 ,首先采用基于Transformer的编码器分别提取其特征 和 。然后,这些特征通过 层 FiLM 模块进行融合,以获得隐藏状态 。每一层都与一个上采样 2D 卷积层结合。
其中 ,且 由 初始化。
本文的骨干网络 使用最后的隐藏状态 ) 作为条件,引导扩散头去噪并生成双机械臂末端执行器姿态。需要注意的是,我们附加了 n 个历史观测图像,以提供更多信息来捕捉运动趋势。根据 Chi 等人的方法,让策略在训练期间预测接下来的 ( m ) 个动作,以缓解多模态问题。将 n 和 m都设置为2。动作预测如下:
学习目标为:
物理架构影响整个机器人的运动,决定其是否能完成任务。同时,历史空间信息对未来运动也很重要。因此,我们提出了一种时空图方法,用于建模每一步的机器人架构和连续时间步的机器人运动,以表示静态空间信息和动态运动特征。
空间结构图构建
为了表示机器人结构,我们首先解析统一机器人描述格式(URDF)文件,该文件通常用于描述机器人的静态物理结构,如关节类型、关节限制和连杆长度。然后,我们基于关节和连杆配置将双臂系统定义为一个无向图 。其中, 和 分别表示关节的节点集和连杆的边集, 表示关节数量。我们使用 表示第 个节点的特征值,它由以下三个属性组成:
其中 , 表示欧几里得范数。
将 、 和 拼接起来,形成完整的特征 ,其中 表示节点特征的维度。
时空图学习
在相同的指令和观察条件下,不同的历史机器人姿态会导致不同的预测结果。因此,结合时间运动信息构建空间结构图。具体来说,通过结合历史时间步的 构建时空图 ,其中 表示历史步数。在 中,节点集 包含来自历史静态空间图的 。此外,添加边 连接不同时间步的相同关节节点 ,以建立连续时间关节运动的相关性。其公式如下:
通过这种方式,得到了完整的时空图。随后,采用图卷积网络(GCN)在图中传播和聚合节点特征。GCN 层通过聚合每个节点邻居节点的特征来更新节点特征 ,从而捕捉机器人手臂的关系和结构信息。我们使用最后一层编码器的节点特征 作为机器人结构的表示,以指导去噪过程。
为了有效控制末端执行器,生成的姿态轨迹必须通过逆运动学(IK)求解器进行处理,该求解器计算关节配置以实现指定的姿态。然而,由于预测轨迹的生成未考虑机器人运动学约束,它常常超出 IK 求解器的可行范围,导致执行过程中失败率较高。为了解决这一限制,在末端执行器姿态学习目标中引入了运动学正则化器。该正则化器将预测姿态与机器人运动学约束对齐,确保生成的轨迹保持在 IK 求解器的可解空间内,从而提高轨迹执行的可靠性。
可微运动学
给定关节配置 ,相应的末端执行器姿态 可以通过正向运动学计算,表示为映射 。这种从关节空间到末端执行器空间的映射是可微的,即可微正向运动学(DFK),使得我们可以利用梯度来优化控制策略。借助 DFK,我们的策略学习预测下一个关节配置 ,并从中计算中间末端执行器姿态 。通过使用 作为参考,我们指导去噪过程生成精确且可执行的末端执行器姿态。
将结构特征 与最后一个隐藏状态 结合,投影到关节空间,并使用 DFK 获得参考 ,如下所示:
为了确保预测关节角度与实际关节角度之间的一致性,最小化关节损失:
基于运动学的扩散过程条件化
为了强化运动学一致性,将扩散过程条件化于参考表示 ,这是一个编码运动学约束的辅助输入。这使得预测的姿态轨迹保持在可行空间内。给定公式(9)和公式(10)中的扩散步骤,有:
将可微正向运动学(DFK)引入扩散过程,使得姿态损失的梯度能够通过运动学函数反向传播,确保每个去噪步骤都符合关节约束,从而优化末端执行器的控制精度和鲁棒性。
训练
使用条件动作生成模式来训练 KStar Diffuser,其被建模为条件去噪扩散。损失函数定义为均方误差(MSE),如下所示:
其中 通过前向扩散过程获得, 是 、 和 的组合, 是权衡系数。
推理
从高斯噪声 中采样,策略 执行 次迭代,逐步将随机噪声 去噪为无噪声动作 :
数据集
双机械臂操作任务对两个机械臂之间的协调性、同步性和对称性提出了更高的要求,因此比单臂任务更具挑战性。为了评估 KStar Diffuser 在这些方面的能力,使用 RLBench2 基准测试 进行了全面的实验。RLBench2 是 RLBench 的扩展版本,专为双机械臂操作设计,包含与真实场景高度相似的任务。
评估设置
为了评估策略性能,采用成功率作为主要指标。尽管策略在执行过程中会生成多个连续动作,但我们主要关注最终目标的实现,而非中间步骤。每个任务都有其目标状态定义的成功标准。为了全面评估策略的能力,我们在训练过程中使用不同数量的演示(20 和 100)进行实验。下图 3 展示了我们的实验设置,包括仿真环境和 Cobot Agilex ALOHA 机器人。仿真任务和真实世界实验设置的详细描述见附录 B。
系统地评估了 KStar Diffuser 与以下两类最先进方法的对比:
基于 Transformer 的方法:
基于扩散的方法:
RLBench2 上的实验结果
如下表 1 所示,KStar Diffuser 显著优于其他最先进的基线方法,在 20 和 100 个训练演示的情况下,整体性能均提高了 20% 以上。
类似于学习单臂策略,学习双机械臂策略的过程可以快速适应并实现较高的成功率,前提是任务轨迹分布相对一致。例如,在"推箱子"任务中,目标是让两个机械臂沿固定轨迹将箱子推向指定目标,KStar Diffuser 和其他基线模型表现良好。然而,随着任务复杂性的增加,成功率会下降。例如,在"举球"任务中,两个机械臂必须同时举起一个大球才能完成任务。任何运动的不同步都可能导致不稳定,使球滑落并最终导致任务失败。KStar Diffuser 通过显式建模两个机械臂之间的空间和运动关系,在此类双机械臂任务中实现了稳健的性能,比其他方法高出 6% 以上。
与单臂系统不同,双机械臂系统具有协作操作的能力。直接从单臂操作适应到双机械臂操作的方法在任务中表现出较高的失败率,例如"拿笔记本电脑"任务,因为它们缺乏对机械臂之间空间和运动关系的考虑。具体来说,如图 4 所示,该任务涉及从柜子表面拿起一个平放的笔记本电脑。由于笔记本电脑完全贴合桌面,机械臂无法直接抓取。相反,有效的策略是控制一个机械臂将笔记本电脑从柜子向外推一小段距离,使另一个机械臂能够拿起它。KStar Diffuser 的成功率比其他方法高出约 9%,展示了其捕捉双机械臂协作操作所需协调运动模式的能力。
真实世界实验结果
为了全面评估策略的有效性,我们基于仿真基准在真实世界中构建了 2 个任务。真实世界任务的表现如下表 2 所示。
与仿真结果类似,未考虑双机械臂场景的策略(如 ACT、DP 和 DP3)在所有双机械臂任务中表现有限,平均成功率约为 20%。尽管 PerAct2 通过将双机械臂动作映射到共享学习空间来设计双机械臂任务,但它未能捕捉双机械臂系统的空间结构,导致执行过程中机械臂协调无效。此外,我们还发现 PerAct2 在其预测的末端执行器姿态上存在显著的逆运动学问题,包括关节配置冲突和不可达位置,如下图 4 所示。这可能是由于 PerAct2 在捕捉双机械臂系统中复杂空间约束和运动学关系方面的能力有限。相比之下,KStar Diffuser 实现了卓越的双机械臂协调能力,比其他方法高出 10% 以上,因为它成功捕捉了双机械臂之间的运动模式并预测了可行的末端执行器姿态。
模型组件的影响
为了系统评估 KStar Diffuser 中每个组件的贡献,在仿真和真实环境中对"传递物品"任务进行了消融实验。我们设计了一个逐步消融的过程:首先移除可微正向运动学(DFK)模块,同时保留时空图(ST Graph),然后完全禁用时空图和运动学正则化器(KR)。下表 3 中的实验结果展示了每个组件的关键作用。移除 KR 导致成功率显著下降,在真实场景中尤为明显。这种性能下降可归因于仿真环境和真实环境之间的根本差异。仿真环境保持一致的、无噪声的输入,而真实场景引入了各种扰动(如传感器噪声和光反射),在没有 KR 正则化作用的情况下,策略更容易违反运动学约束。进一步移除 ST Graph 和 KR 会导致所有实验设置中的性能大幅下降。这一观察结果说明了两个关键点:首先,ST Graph 有效地捕捉了关节之间的时空依赖性,这对于协调机械臂之间的相对位置和交互至关重要;其次,图结构对机器人物理架构的显式编码通过保持空间和时间一致性,增强了策略对意外扰动的鲁棒性。我们对动作分块大小、历史长度和权衡系数进行了广泛的消融研究。
在前面图 4 中进一步展示了定性分析。分别比较了 KStar Diffuser 与 DP3 和 PerAct2 在仿真和真实环境中执行双机械臂操作任务的表现。
在仿真任务中,由于笔记本电脑平放在柜子上,直接抬起是不可行的。一个机械臂开始向前推,创造空间,而另一个机械臂同时抓取并抬起笔记本电脑。KStar Diffuser 有效地建模了这种双机械臂协调,生成了精确的同步动作轨迹。相反,从单臂策略适应到双机械臂配置的 DP3 未能实现有效协调。具体来说,在执行推动动作后,右臂没有停止,阻碍了左臂的抬起过程。
在真实世界任务中,KStar Diffuser 生成了左右机械臂之间可执行的物品传递轨迹,整个任务过程中没有发生碰撞,体现了其强大的环境适应性和碰撞避免能力。相反,PerAct2 在传递过程中发生了碰撞(用红色标记),表明其对动态真实世界变量的处理能力较弱,且缺乏对机器人运动的运动学感知。
本文提出了一种新颖的运动学增强时空图扩散模型(KStar Diffuser),它将机器人结构和运动学显式地结合到双机械臂运动生成过程中。该模型包括一个时空机器人图,显式建模机器人物理配置以指导生成动作的去噪过程,以及一个运动学正则化器,通过引入关节空间监督来增强 NBP 学习目标。大量实验表明,KStar Diffuser 在仿真和真实世界任务中均大幅优于基线方法。
局限性与未来方向
虽然通过 GNN 建模和运动学约束探索了机器人结构的影响,但末端执行器姿态预测和逆运动学的核心控制逻辑仍然存在。未来,我们计划利用神经网络直接建模关节运动,将机器人运动空间与人类世界的笛卡尔空间对齐。
[1] Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
今天跟大家介绍谷歌的视频生成模型 Veo 3,可为作品添加音效、环境噪音甚至对话,所有音频均可原生生成。 今天跟大家介绍谷歌的视频生成模型 Veo 3,可为作品添加音效、环境噪音甚至对话,所有音频均可原生生成。它还能提供一流的音质,在物理效果、真实感和快速响应方面均表现卓越。...