2025年5月31日星期六

视频也能随便P啦，用VACE随意给视频扩图，还看不出痕迹，AI视频教程

阿里万相最近新出的VACE模型可以说将视频编辑功能又拉到了一个新高度，今天我们来看下如何用它实现视频的扩图功能

阿里万相最近新出的VACE模型可以说将视频编辑功能又拉到了一个新高度，今天我们来看下如何用它实现视频的扩图功能。

首先，如何在本地使用VACE，具体方法可以看下我之前写的文章，里面有非常详细的介绍，相信你看了之后也可以轻松学会。

在家也能制做电影级的AI视频，一步一步教你如何搭建Wan2.1的VACE工作流，超详细教程

在这篇文章中我们介绍了如何搭建VACE的基础工作流，用这个基础工作流就可以实现文生图视频功能。

下面我们介绍如何在这个基础工作流的基础上实现对视频画面进行扩图的操作。

先看效果，左边是原图视频，它的下方灰色部分是我样想要扩展的尺寸，右边是视频扩展后的效果。视频画面扩展后的效果可以说非常完美，完全看不出是被修改过的。

一、扩图工作流搭建

首先，在工作区空白处双击，搜索并添加加载视频节点

在工作区空白处双击，搜索并添加加Resize Image v2节点

将两个节点进行连接，加载视频节点负责从本地加载视频，Resize Image v2节点负责固定视频的尺寸

添加ImagePad KJ节点

ImagePad KJ的作用是负责对原视频进行画面扩图

添加两个获取图像尺寸节点，分别命名为"获取图像范围-1"和"获取图像范围-2"

"获取图像范围-1"和"获取图像范围-2"的连接方法见下图

"获取图像范围-1"和"获取图像范围-2"

分别在"获取图像范围-1"和"获取图像范围-2"连接预览图像节点和预览遮罩节点

这里重点讲一下ImagePad KJ节点几个参数的作用

这个节点的作用是对原视频的尺寸进行向外扩图的，具体怎么扩展，扩展多少，通过下图红框中的参数进行设置

left、rght、top、bottom、extra_padding这几个参数分别代表向前、后、左、右、四周扩展多少像素的画面

我分别将这几个方向的数值设为100后，运行得到下面的结果，参照下面的图更容易理解参数的含义。

原视频是一个横版的视频，如果我们想得到一个竖版的视频，需要向下扩展画面，我们暂且将bottom的数值设为400，运行后看到画面的预览效果。

二、连接基础工作流

在空白处双击，搜索并添加获取图像尺寸数量节点

节点连接方法见下图。

原始视频通过"ImagePad KJ"节点更改了画面尺寸，再通过"获取图像尺寸数量"节点将视频的新画面和尺寸传递给基础工作流中的"WanVideo VACE Encode（视频编码）"节点。

好了，至此，工作流搭建完毕。

下面是完整的工作流截图

点击运行，模型很完美的补全了底部画面，原来的横版视频被转换成了竖版视频。

这里要说明一下，视频的生成过程实质上是一个抽卡的过程，有时候并不能一次就得到完美的结果，需要你多试几次。

比如下面这个效果就不是那么完美，视频出现了明显的分界线，还出现了乱码。

往期内容：

在家也能制做电影级的AI视频，一步一步教你如何搭建Wan2.1的VACE工作流，超详细教程

连视频都可以P啦，wan2.1-VACE-14B免费开源，在家做电影级别的AI视频再也不是梦想了！

一次性生成120秒的AI长视频，6G显存就能使用，完全开源免费，FramePack王一般的存在

END

感谢您的阅读，麻烦点个赞+在看吧！

速度提升10倍！电影级AI视频生成技术大突破，既要电影级画质又要10秒出片？VACE+Moviigen+CausVid模型组合

我们之前介绍过了wan2.1的VACE模型，用它来生成的视频可以得到非常不错的视频编辑效果，但它的生成时长还是

我们之前介绍过了wan2.1的VACE模型，用它来生成的视频可以得到非常不错的视频编辑效果，但它的生成时长还是太长了，而且有些时候它的生成效果也并不是非常完美。

今天我们来同时解决这两个问题。

一、MoviiGen模型介绍

1、MoviiGen模型

我们先打开MoviiGen1.1的抱脸网页，MoviiGen1.1其实是一个基于wan2.1的微调模型，在它的自我描述中，称MoviiGen1.1是一个迈向电影级质量的视频生成模型。

从它提供的官方示例中可以看出，视频的画面质量确实有了很大提升，MoviiGen1.1可以让生成的视频更加真实和高质量，且符合电影美学。

我们今天提升视频质量就靠它了。

2、MoviiGen下载

来到Kijai的抱脸网页，K神已经将MoviiGen模型做了量化，模型分为fp8和fp16两个模型，建议大家下载fp8模型。

https://huggingface.co/Kijai/WanVideo_comfy/tree/main

3、模型放置路径

下载好的模型放到models\diffusion_models\路径下，为了方便模型管理，你也可以再建一个子文件夹，像下面这样

models\diffusion_models\wan2.1

二、CausVid模型

1、模型下载

CausVid模型其实是一个lora模型，它也有14B和1.3B两种，根据自己的电脑配置选择14B或者1.3B的模型，它可以极快地加快视频生成的速度。

2、模型放置位置

下载好后的lora模型放到下面的路径：models\loras

三、加载工作流

打开我们上次做的视频扩图工作流视频也能随便P啦，用VACE随意给视频扩图，还看不出痕迹，AI视频教程

需要在几个地方进行调整

1、更改基础模型

将WanVideo Model Loader节点的模型改为我们刚刚下载的MoviiGen模型

2、增加lora模型

在WanVideo Model Loader节点的lora管道增加一个lora选择节点，选择刚刚下载的CausVid模型

3、参数调节

回到WanVideo Sampler节点

默认情况下steps:20， cfg:4.0，因为我们刚刚更换了强大的CausVid LoRA，所以这两个数值可以下调很多：

-steps: 2-4

- cfg: 1.0

-shift:6（高分辨率设置在8以上，分辨率低可以适当降低，中间值可以设为6）

忽略TeaCache节点，关闭Experimental Args节点上的use_fresca

模型和参数都调整好后，点击运行，只等了大概2分钟不到视频就生成好了，相比之前20分钟的生成时间，速度大大得到了提升。

总结一下，通过将原工作流中的基础模型更换为 MoviiGen模型可以提高画面质量，再通过加载CausVid lora大大提升生成速度，以上就是今天的全部内容，希望对你有所帮助。

前期内容：

视频也能随便P啦，用VACE随意给视频扩图，还看不出痕迹，AI视频教程

在家也能制做电影级的AI视频，一步一步教你如何搭建Wan2.1的VACE工作流，超详细教程

一次性生成120秒的AI长视频，6G显存就能使用，完全开源免费，FramePack王一般的存在

END

感谢您的阅读，麻烦点个赞+在看吧！

五月复盘：步履不停，向内扎根

步履不停，向内扎根

点击上方蓝字关注艾康👆

获取更多实用 AI 工具/AI 玩法，一起 AI 创富～

今天端午节，祝大家端午安康呀，大家今天都有吃粽子吗？

今天是五月的最后一天，也是我来到北京的第二个月的月底。

时间过得真快，快到很多时候来不及细细品，日子就推着人往前走了。

抓住五月的尾巴，码字写下这篇复盘，给自己这两个月的一次回放和整理，中间发生了很多事情，也经历了许多的挑战与成长。

三月，初来乍到

还记得三月刚到北京那几天，不怎么在状态，每天都感觉很累，但好像什么又都没做出来。

那时候，面对全新的环境和工作模式，内心充满了不确定感，甚至会琢磨如果选了第一选择，会不会更好。

好在，调整是迅速的。我开始尝试早起，给自己制定明确的每日任务。

当生活有了固定的节奏，内心的焦虑也消散了不少。

真正让我找到一点感觉的，是筹备并完成第一场私域直播。虽然压力巨大，但当看到结果的那一刻，悬着的心放下了一半，也给了我很大的正反馈。

四月，疾速成长

四月，是强度拉满的一个月，不断迭代内容和其他细节。

清明节那周，我印象特别深刻，高强度的直播排期，几乎没有休息。

虽然身体疲惫，但每一场直播下来，都能感觉到自己有新的沉淀和增量，这种"干中学"的状态，虽然辛苦，但成长速度也是肉眼可见。

回来之后，我立刻尝试将学到的新思路融入到直播中，调整内容和节奏，很快就看到了数据的正向反馈，那种"肉眼可见的变好"，是对我最大的激励。

五月，公域破冰

进入五月，我又面临了新的挑战——开始在公域做直播。

公域直播和私域直播还不一样，说实话，最初是有些"社恐"的，担心被熟人看到，担心讲的内容不够"干"，各种心理建设做了很多遍。

但开播之后，一旦进入状态，反而轻松了，从这件事情中，我知道了，我们总是会不自觉把困难无限放大，还没开始就给自己预设各种障碍，不应该这样。

正确的心态应该是，先去做，做出垃圾来了又怎样？

在公域，我的目标应该很清晰：就是卖货，做密集成交。所以不用太在意，那些非目标用户的看法。

高强度的直播，加上不断在刻意练习和迭代内容、直播节奏、拉互动、留人、声音、控场等等环节，让我很快适应了在公域直播的感觉。

现在回想，两个小时的直播也能比较自如地拿下来，确实感受到自己能力阈值的提升。

写在最后

不知不觉，就写了 1000 多字。

这两个月，从最初的些许慌乱到现在的逐渐笃定，每一天都像在升级打怪。

其次，拥抱变化，刻意练习。无论是直播技巧的打磨，还是个人表达能力的提升，都没有捷径可走。环境在变，用户需求在变，唯有持续学习和迭代，才能跟上节奏。

最后，跳出执行，全局思考。不能只做一个"主播"，要站在全局看待系统，这样才能提升自己的核心壁垒。

北京的五月，在忙碌与充实中悄然画上句号。回望这两个月，除了个人成长，心中更多的是温暖与感恩。

感谢在破局里遇到的每一个人，感谢洋哥、杰哥、马克、小林哥、猫哥、阿星、曾曾等朋友们的一路指点与帮助，还有许多没有一一提及的伙伴~

未来的路还很长，挑战也会持续不断，我会带着这两个月的收获和思考，继续在这条路上探索和深耕。

我是艾康，会持续分享更多好用实用的 AI 工具/AI 玩法，如果想第一时间收到推送，欢迎关注公众号，并设为星标⭐。

扫描下方二维码，备注「777」，免费送你一份《AI工具与副业变现指南》。

如果觉得这篇文章有用的话，感谢点赞、在看➕关注👆，我是艾康，咱们下篇见！

CVPR 2025 I 机器人双臂操控新突破！KStar Diffuser如何解决自碰撞与运动约束世纪难题？

文章链接：https://arxiv.org/pdf/2503.10743亮点直击与现有方法仅在笛卡尔空间中

文章链接：https://arxiv.org/pdf/2503.10743

亮点直击
与现有方法仅在笛卡尔空间中优化末端执行器姿态不同，提出了一种新颖的时空机器人图，显式地建模机器人物理配置，以指导生成动作的去噪过程。
引入了一种运动学正则化器，通过引入关节空间监督来增强NBP（Next-Best Pose）学习目标。该正则化器利用前向运动学提供符合运动学约束的参考姿态，有效引导扩散过程以符合运动学约束。
大量实验表明，本文提出的KStar Diffuser在仿真和实际场景中均表现优异，成功率超过基线方法10%以上。

总结速览

解决的问题

物理结构约束：现有方法在预测末端执行器姿态时，往往忽略了机器人的物理结构，导致自碰撞或干涉。
运动学约束：现有方法在预测末端执行器姿态时，未充分考虑运动学限制，导致预测的姿态可能超出机器人关节的实际限制。

提出的方案

提出了Kinematics enhanced Spatial-TemporAl gRaph Diffuser (KStar Diffuser) 框架，具体包括：

动态时空图：根据物理双机械臂关节运动构建动态时空图，作为机器人结构条件用于去噪动作预测。
可微分运动学模块：引入可微分运动学，为优化KStar Diffuser提供参考，使策略预测更可靠且符合运动学约束的末端执行器姿态。

应用的技术

图卷积网络 (GCN) ：用于编码动态时空图，提供显式的物理约束。
可微分运动学：通过可微分前向运动学将预测的关节位置映射到参考末端执行器姿态，确保生成的动作符合运动学约束。

达到的效果

物理结构信息利用：有效利用物理结构信息，生成符合机器人结构的动作。
运动学感知动作生成：在仿真和实际应用中生成符合运动学约束的动作，提高了动作的可靠性和可行性。

方法

任务定义

给定包含语言指令 l 和RGB-D观测 o 的数据集 D，本文的目标是学习一个策略，该策略能够预测动作 a。其中，a 由轨迹和夹爪开合动作组成，T 表示轨迹长度，。n 表示机器人关节的数量。在双机械臂操作中， n 通常为12或14，因为每个机械臂具有6或7个自由度。参考先前的工作 [15, 17, 49, 64]，在所有轨迹点上训练策略是低效的。因此，采用关键帧发现方法提取一组个关键帧索引，预测动作为关键帧的末端执行器姿态集合。

KStar Diffuser

概述

主流方法 [17, 23, 65] 训练策略以预测动作，但很少考虑决定其运动的机械机器人结构。因此，我们提出了一种时空图来建模静态物理结构和动态历史运动信息。此外，为了减少末端执行器姿态的运动学不可行预测，引入了一个可微分运动学模块，为策略网络提供运动学感知的参考。本文提出的运动学增强时空图扩散器（KStar Diffuser）的概述如下图所示。

骨干网络

给定语言指令和多视角 RGB-D 观测图像，首先采用基于Transformer的编码器分别提取其特征和。然后，这些特征通过层 FiLM 模块进行融合，以获得隐藏状态。每一层都与一个上采样 2D 卷积层结合。

其中，且由初始化。

本文的骨干网络使用最后的隐藏状态 ) 作为条件，引导扩散头去噪并生成双机械臂末端执行器姿态。需要注意的是，我们附加了 n 个历史观测图像，以提供更多信息来捕捉运动趋势。根据 Chi 等人的方法，让策略在训练期间预测接下来的 ( m ) 个动作，以缓解多模态问题。将 n 和 m都设置为2。动作预测如下：

学习目标为：

时空机器人图

物理架构影响整个机器人的运动，决定其是否能完成任务。同时，历史空间信息对未来运动也很重要。因此，我们提出了一种时空图方法，用于建模每一步的机器人架构和连续时间步的机器人运动，以表示静态空间信息和动态运动特征。

空间结构图构建
为了表示机器人结构，我们首先解析统一机器人描述格式（URDF）文件，该文件通常用于描述机器人的静态物理结构，如关节类型、关节限制和连杆长度。然后，我们基于关节和连杆配置将双臂系统定义为一个无向图。其中，和分别表示关节的节点集和连杆的边集，表示关节数量。我们使用表示第个节点的特征值，它由以下三个属性组成：

关节坐标：我们使用笛卡尔坐标系中的向量表示第个关节的绝对坐标。该向量根据工作空间边界进行归一化，以确保模型训练的稳定收敛。
关节距离：为了衡量节点与其他节点之间的空间关系，计算和之间的欧几里得距离：

其中，表示欧几里得范数。

身体标签：为了区分节点的来源，使用一个独热向量作为其特征之一。它还可以帮助策略捕捉不同机器人手臂的运动模式，例如对称性。

将、和拼接起来，形成完整的特征，其中表示节点特征的维度。

时空图学习
在相同的指令和观察条件下，不同的历史机器人姿态会导致不同的预测结果。因此，结合时间运动信息构建空间结构图。具体来说，通过结合历史时间步的构建时空图，其中表示历史步数。在中，节点集包含来自历史静态空间图的。此外，添加边连接不同时间步的相同关节节点，以建立连续时间关节运动的相关性。其公式如下：

通过这种方式,得到了完整的时空图。随后，采用图卷积网络（GCN）在图中传播和聚合节点特征。GCN 层通过聚合每个节点邻居节点的特征来更新节点特征，从而捕捉机器人手臂的关系和结构信息。我们使用最后一层编码器的节点特征作为机器人结构的表示，以指导去噪过程。

运动学正则化器

为了有效控制末端执行器，生成的姿态轨迹必须通过逆运动学（IK）求解器进行处理，该求解器计算关节配置以实现指定的姿态。然而，由于预测轨迹的生成未考虑机器人运动学约束，它常常超出 IK 求解器的可行范围，导致执行过程中失败率较高。为了解决这一限制，在末端执行器姿态学习目标中引入了运动学正则化器。该正则化器将预测姿态与机器人运动学约束对齐，确保生成的轨迹保持在 IK 求解器的可解空间内，从而提高轨迹执行的可靠性。

可微运动学
给定关节配置，相应的末端执行器姿态可以通过正向运动学计算，表示为映射。这种从关节空间到末端执行器空间的映射是可微的，即可微正向运动学（DFK），使得我们可以利用梯度来优化控制策略。借助 DFK，我们的策略学习预测下一个关节配置，并从中计算中间末端执行器姿态。通过使用作为参考，我们指导去噪过程生成精确且可执行的末端执行器姿态。

将结构特征与最后一个隐藏状态结合，投影到关节空间，并使用 DFK 获得参考，如下所示：

为了确保预测关节角度与实际关节角度之间的一致性，最小化关节损失：

基于运动学的扩散过程条件化
为了强化运动学一致性，将扩散过程条件化于参考表示，这是一个编码运动学约束的辅助输入。这使得预测的姿态轨迹保持在可行空间内。给定公式（9）和公式（10）中的扩散步骤，有：

将可微正向运动学（DFK）引入扩散过程，使得姿态损失的梯度能够通过运动学函数反向传播，确保每个去噪步骤都符合关节约束，从而优化末端执行器的控制精度和鲁棒性。

训练与推理

训练
使用条件动作生成模式来训练 KStar Diffuser，其被建模为条件去噪扩散。损失函数定义为均方误差（MSE），如下所示：

其中通过前向扩散过程获得，是、和的组合，是权衡系数。

推理
从高斯噪声中采样，策略执行次迭代，逐步将随机噪声去噪为无噪声动作：

实验

数据集与评估设置

数据集
双机械臂操作任务对两个机械臂之间的协调性、同步性和对称性提出了更高的要求，因此比单臂任务更具挑战性。为了评估 KStar Diffuser 在这些方面的能力，使用 RLBench2 基准测试进行了全面的实验。RLBench2 是 RLBench 的扩展版本，专为双机械臂操作设计，包含与真实场景高度相似的任务。

评估设置
为了评估策略性能，采用成功率作为主要指标。尽管策略在执行过程中会生成多个连续动作，但我们主要关注最终目标的实现，而非中间步骤。每个任务都有其目标状态定义的成功标准。为了全面评估策略的能力，我们在训练过程中使用不同数量的演示（20 和 100）进行实验。下图 3 展示了我们的实验设置，包括仿真环境和 Cobot Agilex ALOHA 机器人。仿真任务和真实世界实验设置的详细描述见附录 B。

基线方法

系统地评估了 KStar Diffuser 与以下两类最先进方法的对比：

基于 Transformer 的方法：

动作分块 Transformer (ACT) ：采用条件变分自编码器（CVAE）架构，包含用于关节角度序列预测的编码器-解码器框架。
机器人视角 Transformer 领导者跟随 (RVT-LF) ：以 RVT 为骨干，结合多视角 Transformer 进行跨视角信息聚合和图像重渲染，并通过领导者跟随机制进行动作预测。
感知-动作领导者跟随 (PerAct-LF) ：基于 PerAct 的领导者跟随范式，利用感知 Transformer 编码指令和体素观察，以生成最优体素动作。
PerAct2：通过为双机械臂动作实现统一特征空间并结合自注意力机制进行同步双机械臂动作预测，增强了 PerAct。

基于扩散的方法：

基于关节的扩散策略 (DP-J) ：在模仿学习框架中采用扩散模型进行机器人操作，专注于关节角度预测。
基于末端执行器的扩散策略 (DP-EE) ：重新实现了 Diffusion Policy，以预测末端执行器姿态而非关节角度，提供了一种替代控制范式。
3D 扩散策略 (DP3) ：通过结合点云进行关节角度预测，增强了 3D 感知能力。

与 SOTA 方法的对比结果

RLBench2 上的实验结果
如下表 1 所示，KStar Diffuser 显著优于其他最先进的基线方法，在 20 和 100 个训练演示的情况下，整体性能均提高了 20% 以上。

类似于学习单臂策略，学习双机械臂策略的过程可以快速适应并实现较高的成功率，前提是任务轨迹分布相对一致。例如，在"推箱子"任务中，目标是让两个机械臂沿固定轨迹将箱子推向指定目标，KStar Diffuser 和其他基线模型表现良好。然而，随着任务复杂性的增加，成功率会下降。例如，在"举球"任务中，两个机械臂必须同时举起一个大球才能完成任务。任何运动的不同步都可能导致不稳定，使球滑落并最终导致任务失败。KStar Diffuser 通过显式建模两个机械臂之间的空间和运动关系，在此类双机械臂任务中实现了稳健的性能，比其他方法高出 6% 以上。
与单臂系统不同，双机械臂系统具有协作操作的能力。直接从单臂操作适应到双机械臂操作的方法在任务中表现出较高的失败率，例如"拿笔记本电脑"任务，因为它们缺乏对机械臂之间空间和运动关系的考虑。具体来说，如图 4 所示，该任务涉及从柜子表面拿起一个平放的笔记本电脑。由于笔记本电脑完全贴合桌面，机械臂无法直接抓取。相反，有效的策略是控制一个机械臂将笔记本电脑从柜子向外推一小段距离，使另一个机械臂能够拿起它。KStar Diffuser 的成功率比其他方法高出约 9%，展示了其捕捉双机械臂协作操作所需协调运动模式的能力。

真实世界实验结果
为了全面评估策略的有效性，我们基于仿真基准在真实世界中构建了 2 个任务。真实世界任务的表现如下表 2 所示。

与仿真结果类似，未考虑双机械臂场景的策略（如 ACT、DP 和 DP3）在所有双机械臂任务中表现有限，平均成功率约为 20%。尽管 PerAct2 通过将双机械臂动作映射到共享学习空间来设计双机械臂任务，但它未能捕捉双机械臂系统的空间结构，导致执行过程中机械臂协调无效。此外，我们还发现 PerAct2 在其预测的末端执行器姿态上存在显著的逆运动学问题，包括关节配置冲突和不可达位置，如下图 4 所示。这可能是由于 PerAct2 在捕捉双机械臂系统中复杂空间约束和运动学关系方面的能力有限。相比之下，KStar Diffuser 实现了卓越的双机械臂协调能力，比其他方法高出 10% 以上，因为它成功捕捉了双机械臂之间的运动模式并预测了可行的末端执行器姿态。

消融实验

模型组件的影响
为了系统评估 KStar Diffuser 中每个组件的贡献，在仿真和真实环境中对"传递物品"任务进行了消融实验。我们设计了一个逐步消融的过程：首先移除可微正向运动学（DFK）模块，同时保留时空图（ST Graph），然后完全禁用时空图和运动学正则化器（KR）。下表 3 中的实验结果展示了每个组件的关键作用。移除 KR 导致成功率显著下降，在真实场景中尤为明显。这种性能下降可归因于仿真环境和真实环境之间的根本差异。仿真环境保持一致的、无噪声的输入，而真实场景引入了各种扰动（如传感器噪声和光反射），在没有 KR 正则化作用的情况下，策略更容易违反运动学约束。进一步移除 ST Graph 和 KR 会导致所有实验设置中的性能大幅下降。这一观察结果说明了两个关键点：首先，ST Graph 有效地捕捉了关节之间的时空依赖性，这对于协调机械臂之间的相对位置和交互至关重要；其次，图结构对机器人物理架构的显式编码通过保持空间和时间一致性，增强了策略对意外扰动的鲁棒性。我们对动作分块大小、历史长度和权衡系数进行了广泛的消融研究。

定性分析

在前面图 4 中进一步展示了定性分析。分别比较了 KStar Diffuser 与 DP3 和 PerAct2 在仿真和真实环境中执行双机械臂操作任务的表现。

在仿真任务中，由于笔记本电脑平放在柜子上，直接抬起是不可行的。一个机械臂开始向前推，创造空间，而另一个机械臂同时抓取并抬起笔记本电脑。KStar Diffuser 有效地建模了这种双机械臂协调，生成了精确的同步动作轨迹。相反，从单臂策略适应到双机械臂配置的 DP3 未能实现有效协调。具体来说，在执行推动动作后，右臂没有停止，阻碍了左臂的抬起过程。

在真实世界任务中，KStar Diffuser 生成了左右机械臂之间可执行的物品传递轨迹，整个任务过程中没有发生碰撞，体现了其强大的环境适应性和碰撞避免能力。相反，PerAct2 在传递过程中发生了碰撞（用红色标记），表明其对动态真实世界变量的处理能力较弱，且缺乏对机器人运动的运动学感知。

结论

本文提出了一种新颖的运动学增强时空图扩散模型（KStar Diffuser），它将机器人结构和运动学显式地结合到双机械臂运动生成过程中。该模型包括一个时空机器人图，显式建模机器人物理配置以指导生成动作的去噪过程，以及一个运动学正则化器，通过引入关节空间监督来增强 NBP 学习目标。大量实验表明，KStar Diffuser 在仿真和真实世界任务中均大幅优于基线方法。

局限性与未来方向
虽然通过 GNN 建模和运动学约束探索了机器人结构的影响，但末端执行器姿态预测和逆运动学的核心控制逻辑仍然存在。未来，我们计划利用神经网络直接建模关节运动，将机器人运动空间与人类世界的笛卡尔空间对齐。

参考文献

[1] Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

订阅：评论 (Atom)

AI I024

2025年5月31日星期六

视频也能随便P啦，用VACE随意给视频扩图，还看不出痕迹，AI视频教程

阿里万相最近新出的VACE模型可以说将视频编辑功能又拉到了一个新高度，今天我们来看下如何用它实现视频的扩图功能

速度提升10倍！电影级AI视频生成技术大突破，既要电影级画质又要10秒出片？VACE+Moviigen+CausVid模型组合

我们之前介绍过了wan2.1的VACE模型，用它来生成的视频可以得到非常不错的视频编辑效果，但它的生成时长还是

五月复盘：步履不停，向内扎根

步履不停，向内扎根

三月，初来乍到

四月，疾速成长

五月，公域破冰

写在最后

CVPR 2025 I 机器人双臂操控新突破！KStar Diffuser如何解决自碰撞与运动约束世纪难题？

文章链接：https://arxiv.org/pdf/2503.10743亮点直击与现有方法仅在笛卡尔空间中

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

方法

任务定义

KStar Diffuser

概述

骨干网络

时空机器人图

运动学正则化器

训练与推理

实验

数据集与评估设置

基线方法

与 SOTA 方法的对比结果

消融实验

定性分析

结论

参考文献

阿里开源CoPaw桌面AI助手：免费，自动操作电脑，打通钉钉飞书

标签