2026年5月8日星期五

CVPR 2026 南大北大提出MorphAny3D:免训练跨类别3D变形方法

MorphAny3D是南京大学与北京大学联合提出的一种无需训练的3D变形方法,利用结构化潜在表示实现跨类别物体(如大象到挖掘机)的平滑、合理变形。适用于影视特效、游戏制作及三维视觉研究人员。核心优势:解决跨类别结构扭曲与时序跳变问题,支持解耦变形、三维风格化等应用,具备强泛化性。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

在影视特效与游戏制作的广阔舞台上,三维变形(3D Morphing)技术以其独特的魅力,成为连接创意与现实的桥梁。然而当面对跨类别物体的变形任务时,传统方法往往显得力不从心,难以生成既结构合理又时序平滑的变形序列。 由南京大学联合北京大学提出的MorphAny3D是一种无需训练的3D 变形方法,利用结构化潜在(SLAT)表示来实现不同对象类别之间平滑和合理的变形,为3D变形领域带来了革命性的突破。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2601.00204
  • 代码:https://github.com/XiaokunSun/MorphAny3D
  • 主页:https://xiaokunsun.github.io/MorphAny3D.github.io

unsetunset论文介绍unsetunset

图片

三维变形技术旨在实现源物体到目标物体的平滑过渡,是影视特效、游戏设计及虚拟现实等领域不可或缺的工具。然而,传统的基于匹配的三维变形方法在处理跨类别物体时,由于难以建立有效的密集对应关系,常常导致变形过程中结构扭曲甚至崩溃。此外,先2D变形后3D升维的方法虽能部分解决结构合理性问题,却难以保证变形的时序一致性。

面对这些挑战,MorphAny3D应运而生。它巧妙地利用了Trellis模型中的结构化隐变量(SLAT)表示,通过在三维生成大模型的注意力机制中融合原物体与目标物体的特征,成功激活了三维生成先验在变形领域的潜力,实现了高质量的跨类别三维形变。

unsetunset方法概述unsetunset

图片MorphAny3D的核心在于其精心设计的三大组件:变形交叉注意力模块(MCA)、时序融合自注意力模块(TFSA)以及朝向纠正策略(OC)。

  • MCA模块:针对传统键值融合策略在跨类别变形中引入的局部伪影问题,MCA模块采取了“先独立计算,再加权融合输出”的策略。它保持了原生注意力机制“精准聚焦”的特性,确保了条件特征的语义一致性,从而避免了局部畸变。
  • TFSA模块:为了解决帧间缺乏显式时序依赖导致的平滑度不足问题,TFSA模块采用了后向的时序约束策略。它融合了当前帧和前一帧的键和值的注意力输出,增强了序列的平滑性,同时避免了因全局特征聚合而破坏语义合理性。
  • OC策略:针对变形过程中物体朝向的突然变化问题,OC策略基于对Trellis生成结果位姿分布的统计分析,通过创建并比较多个偏航角旋转候选项,选择与前一帧结构最相似的候选项作为修正后的结构,有效抑制了突发的位姿跳变。

unsetunset实验unsetunset

图片

在实验部分,MorphAny3D与四类基准方法进行了全面对比,包括基于匹配的3D/SLAT变形、经Trellis升维至3D的2D变形、直接插值以及MorphFlow。评测指标涵盖了合理性(FID)、平滑度与时序均匀性(PPL/PDV)、审美得分(AS)以及用户偏好(UP)。

图片
图片

实验结果表明,MorphAny3D在各项指标上均表现出色,特别是在FID、PDV、AS和UP上获得了最佳分数,充分证明了其在跨类别3D变形中的卓越性能。例如,在“大象到挖掘机”的变形案例中,MorphAny3D能够隐式地对齐象鼻与挖掘机吊臂,生成了一个既合理又逼真的混合物体。

unsetunset结论unsetunset

的提出,不仅解决了跨类别3D变形中的一系列难题,更为三维生成领域带来了新的可能性。其免训练的架构设计使得该方法具备极佳的泛化性能,能够无缝适配其他基于SLAT表示的三维生成大模型。此外,MorphAny3D还支持解耦变形、双目标变形及三维风格化等多种应用,为三维艺术创作提供了高效的解决方案。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

Mac本地AI推理加速神器Cider:开源免费,速度提升2倍

Cider是专为Apple Silicon Mac打造的本地推理加速框架,基于MIT协议开源免费。实测在M5 Pro芯片上,推理速度最高提升2倍多,预填充速度提升57%,高并发场景提升1.4-1.9倍,且模型输出质量不变。支持Mano-P、Qwen、Llama等MLX生态模型,兼容OpenAI接口。适合开发者、隐私敏感用户构建本地AI应用,数据不出设备。

Tags:

2026 年初 OpenClaw 的爆火,不少人跟风入手了 Mac mini。

随着 OpenClaw 热潮退去,大家折腾了几次之后,这台机器就搁着吃灰。

本还想挣扎一下,在本地部署模型运行,却发现速度不尽人意,内存也很快见底。

其实问题并不在硬件本身。

Mac mini 搭载的 Apple Silicon 芯片,算力一直都在,只是从来没有被充分释放过。

直到最近,在 GitHub 上看到一个叫 Cider 的开源项目,正好给我们提供了解决方案。

GitHub:https://github.com/Mininglamp-AI/cider

img

简单来说,Cider 是一个专为 Apple Silicon 打造的本地推理加速框架。

把 Mac 芯片里一直闲置的计算单元激活,让本地模型跑得更快、占的内存更少。

让 Mac 不只是运行 AI,而是成为真正的本地 AI 工作站。

在 M5 Pro 芯片上实测,同样的模型,同样的输入,开启加速后推理速度最高可以快 2 倍多。

以 Qwen3-VL-2B 为例,开启加速后预填充速度从 2065 提升到 3242 tok/s(每秒处理的文字量),提升幅度约 57%。

同时处理 16 个以上任务的高并发场景里,速度较原生框架提升 1.4 至 1.9 倍。

更关键的是,加速之后模型输出质量几乎没有变化,把硬件潜能全部给挖了出来。

img

当模型能在本地跑得更快之后,可做的事情自然也变得更多。

比如 GUI 自动化场景,配合端侧视觉模型,就能让 AI 像人一样看屏幕、操控界面,完成各种重复性任务。

全程在本地跑,数据不出设备,非常适合对隐私有要求的个人或企业使用场景。

上手安装

想要接入 Cider,只需克隆代码到本地后,进入项目目录,一行命令完成安装:

git clone https://github.com/Mininglamp-AI/cidercd ciderpip install -e .

安装后自动编译,无需额外配置。

M5+ 芯片的 Mac 可以获得完整加速,M4 芯片安装后会自动适配,同样不会报错。

想进一步榨出 M4 的性能,项目还提供一个 ANE+GPU 混合推理方案,可以查看一下 README 介绍。

值得一提的是,Mano-P、Qwen、Llama 等所有接入 MLX 生态的模型,都可以用 Cider 来加速。

不止如此,Cider 还内置本地 VLM 推理服务,兼容 OpenAI 接口,开发者可直接对接自己的应用。

装好之后具体能用来做什么?这里给大家展示一个真实的应用场景。

把最新的端侧模型 Mano-P 和 Cider 搭配起来,可以实现本地端到端的自动化应用构建。

只需一句需求描述,就能让 AI 自主完成代码生成、本地部署,再由 Cider 加速模型 Mano-P 在本地浏览器完成界面自动化测试。

写在最后

端侧 AI 这件事,过去几年一直被低估。

大家的目光都盯着云端大模型,觉得本地跑的模型,速度慢、能力弱、体验差。

但这个印象,很大程度上是因为端侧硬件的算力从来没有被充分释放过。

苹果近几代芯片的算力其实已经相当强悍,真正的瓶颈在软件层面,推理框架没有把硬件潜能完全用起来。

Cider 做的就是这件事,补齐了 Apple MLX 生态在激活量化上的空白,让芯片里闲置的计算单元真正跑起来。

这意味着,端侧模型推理不再是「能用就行」,而是开始接近真正可用的工程标准。

数据不出设备、离线可用、成本可控,这些曾经只存在于云端替代方案里的需求,正在被端侧基础设施一一补齐。

当端侧推理效率不再是瓶颈,真正属于每个人的本地 AI,比我们想象的更快到来。

而这台曾经吃灰的 Mac mini,或许就是起点。

项目基于 MIT 协议开源,可商用和二次开发。感兴趣的同学,可以去 GitHub 仓库看下源码和使用文档。

GitHub 项目地址:https://github.com/Mininglamp-AI/cider

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

CVPR 2026 南大北大提出MorphAny3D:免训练跨类别3D变形方法

MorphAny3D是南京大学与北京大学联合提出的一种无需训练的3D变形方法,利用结构化潜在表示实现跨类别物体(如大象到挖掘机)的平滑、合理变形。适用于影视特效、游戏制作及三维视觉研究人员。核心优势:解决跨类别结构扭曲与时序跳变问题,支持解耦变形、三维风格化等应用,具备强泛化性。...