2026年1月12日星期一

疯了!Claude Code v2。1 狂更50+项,这才是开发者该有的效率神器!

终于来了

昨天发了一篇DeepSeek V4春节突袭!编程能力碾压Claude,全球代码圈要变天?这不Claude Code v2.1就来了。不过就算CC再升级,也不影响deepseek的王者地位。

大家好,我是指挥官,专注用AI工具提高工作效率,欢迎关注公众号,有福利给到大家。

打开Claude Code v2.1.0更新日志的那一刻,我手指滑得都要抽筋了。

官方虽然没大张旗鼓喊"史诗级更新",但这密密麻麻的列表比代码还长,简直是在"疯狂还债"。

如果你是追求极致的AI编程玩家,这次更新绝对能让你嘴角上扬。

废话不多说,直接拆解这次Claude Code更新的干货,全是提升效率的硬菜。

01 Skill热重载:这才是人用的工具

配图

这一条,绝对是本次更新的MVP。

以前写Claude Code的Skill(技能)有多痛苦?

改一行代码,重启一次会话。就像你写Word文档,改个标点符号都要重启电脑一样荒谬。

现在,v2.1.0 终于支持 自动热重载 (Automatic Hot-reload) 了。

只要你在 `~/.claude/skills` 或 `.claude/skills` 目录里动了手脚,修改立马生效。

一边改代码,一边实时测试,这才是自动化编程该有的丝滑体验。开发效率直接起飞,再也不用因为重启会话浪费生命了。

02 Context Fork:给代码穿上防弹衣

配图

这是一个很硬核的底层升级:支持 `context: fork`。

简单说,就是可以在Skill或Slash Command的配置里,开一个"分身"去干活。

为什么要这么做?

环境隔离:脏活累活让分身干,改环境变量、改工作目录,都不会污染主会话。

安全沙箱:跑不确定的第三方脚本时,多一层保障,心不慌。

这就是专业工具和玩具的区别,Claude Code 在Agent运行时管理上,越来越像个成熟的开发者工具了。

03 终端体验:强迫症的福音

配图

Ghostty、WezTerm、iTerm2 的用户,这次可以站起来了。

以前用这些终端,按键冲突能让人抓狂。这次v2.1.0直接把兼容性拉满:

Shift+Enter 开箱即用:多行输入终于顺滑了,不用再去改那些反人类的配置文件。

Vim 模式大增强:`y` (复制)、`>>` (缩进),甚至 `iw`、`aw` 这种文本对象操作都支持了。懂Vim的人自然懂,这手感有多爽。

工具顺手,思路才能不断层。

04 隐私与细节:细节见人品

配图

你是技术博主?经常要录屏演示?

那这个功能简直是为你定制的。设置 `CLAUDE_CODE_HIDE_ACCOUNT_INFO` 环境变量,界面上的邮箱和组织信息自动隐藏。

再也不用后期苦逼地打马赛克了,效率工具就该帮人省时间。

还有几个贴心的小优化:

Token 节省:`ls` 和 `cat` 命令优化,不再浪费你的Token额度。

后台任务:`Ctrl+B` 一键切后台,通知不再刷屏,优雅。

50+ 项 Bug 修复:解决了Debug日志泄露敏感信息、CJK字符(中日韩)导致空行等一系列"陈年旧账"。

05 必须升级,立刻马上

这次更新,不仅是功能的叠加,更是对开发者工具体验的一次"祛魅"——好工具不该让你在配置上浪费时间。

无论是为了热重载的爽快,还是为了更稳定的终端体验,这波必须冲。

如何升级:

打开你的终端,输入这行命令:

`npm update -g @anthropic-ai/claude-code`

升级完,跑一下 `claude --version` 确认版本。

工具是用来解放双手的,不是用来折磨大脑的。

拥抱变化,才是这个时代最大的稳定。


加指挥官个人微信,即可获取AI工具大全一份


图片


独乐乐不如众乐乐,好东西要记得和大家分享,欢迎点击下面按钮关注指挥官公众号,加入收藏,点亮看,分享给周围的朋友们。


一键包:LTX-2通过单一模型生成同步的视频和音频

最近比较忙,还就没有给大家分享干货笔记了,哈哈,今天趁周末,给你大家分享一波最近比较火的通过单一模型生

    写在开头:最近决定开一个语言大模型实战系列窗口,免费分享,欢迎大家持续关注
      最近比较忙,很久没有给大家分享干货笔记了,哈哈,今天趁周末,给你大家分享一波最近比较火的通过单一模型生成同步的视频和音频,最近竟然掉了一些粉丝,希望大家重新关注起来,感谢!
老规矩,先看效果,再来讲解,不喜欢看细节的,直接文末获取一键包


详解简介
        LTX-2的开源基础模型,该模型能够高效地生成高质量、同步的音频视频内容。该模型采用了双流变换器架构,其中包含一个具有14亿参数的视频流和一个具有5亿参数的音频流,并通过双向音频视频交叉注意力层进行连接,以实现跨模态共享时步长条件。此外,作者还引入了多语言文本编码器和一种新的无分类引导机制,以提高音频视觉对齐和可控性。实验结果表明,该模型在开放源代码系统中实现了最先进的音频视觉质量和提示遵从度,并且与专有模型相比,在计算成本和推理时间上都有显著优势。

方法改进

与以前的模型相比,LTX-2采用了以下两个改进策略:

  1. 不对称的双流结构:这种结构允许每个模态根据其自己的信息密度进行独立扩展,从而更好地适应视觉和语音任务的不同需求。
  2. 多层特征提取器:通过提取多层中间表示的特征,LTX-2能够捕捉到更丰富的语言意义,从而提高了条件信号的质量。

此外,为了改善文本嵌入的质量,LTX-2还引入了一个文本连接器模块,该模块使用全双向注意力处理文本嵌入,并通过添加思考令牌来增强全局信息传递能力。

解决的问题

LTX-2旨在解决高质量、同步的视频和音频生成问题。它通过结合视觉和语音信息,使生成的内容更具真实感和连贯性。同时,LTX-2采用了不对称的双流结构和多层特征提取器等改进策略,以提高模型性能。

图片
图片
图片
图片
图片
一键包实战
一键包基于comfyui,大家下载后一键启动,接口使用,你需要调整的地方有三个
1、关键词

一位身穿婚纱的的美女用中文说"我要嫁给群主当老婆,不要彩礼,不要房子,不要车子"然后微笑

图片
2、视频宽高
图片
3、时长和帧率
图片
上边这个 除以 下边这个帧率就是你视频的时长 秒
ok,机器要求执行至少需要 8G显存和32G内存
需要要一键包的私信回复【ltx】
大模型感兴趣的可以进群交流,已在群的就不要进了,我会定时清理
图片

历史优秀文章
工作流and前端webui:indextts2更优化的语音克隆、可控制情绪,长文本不失真
一键包:qwen3-vl图像理解的里程碑,反推看图解题更精准
方言tts:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包
一键包:图生视频,首尾帧视频生成,效果堪比大片,你也可以当导演了
开源图片一键高清项目,本地部署免费使用
替换视频人物:阿里开源wan2.2-vace-fun,可实现图片人物替换视频人物,文末一键包

硬刚谷歌Veo3!快手Klear统一多任务音视频联合生成:创新单塔架构,口型语音完美同步

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Jun Wang、Chunyu Qiang等

解读:AI生成未来
图片

论文链接https://arxiv.org/abs/2601.04151

亮点直击

  • Klear 框架:提出了一个统一的音频-视频生成框架,能够同时处理联合生成(Joint Generation)和单模态生成任务。
  • 单塔架构 (Single-Tower) :采用了统一的 DiT (Diffusion Transformer) 模块和 Omni-Full Attention 机制,实现了音频和视频的紧密对齐。
  • 渐进式多任务训练:引入了从随机模态掩码到联合优化的训练策略,以及多阶段课程学习,增强了模型的鲁棒性和对物理世界的理解。
  • 大规模稠密标注数据集:构建了首个带有稠密描述(Dense Captions)的大规模音频-视频数据集,并引入了自动化数据构建管道。
图 1 Klear,这是一个统一的音视频生成框架,它可以在联合和单模态设置中提供高保真度、强大的语义和时间对齐以及可靠的指令遵循,并具有强大的 OOD 泛化能力。 跨任务(T2AV/TI2AV/TI2V/T2V/T2A),它的性能可与开源模型中的 Veo-3 相媲美。
图 1 Klear,这是一个统一的音视频生成框架,它可以在联合和单模态设置中提供高保真度、强大的语义和时间对齐以及可靠的指令遵循,并具有强大的 OOD 泛化能力。 跨任务(T2AV/TI2AV/TI2V/T2V/T2A),它的性能可与开源模型中的 Veo-3 相媲美。

解决的问题

  • 视听不同步:现有非商业模型常出现声音与画面(如嘴型)不同步的问题。
  • 单模态退化:在进行联合生成时,往往牺牲了单个模态(仅视频或仅音频)的质量。
  • 数据匮乏:缺乏高质量、经过严格对齐且带有详细描述的音频-视频配对数据。
  • 指令跟随能力弱:现有模型在处理复杂指令时灵活性不足。

提出的方案

  • 架构设计:放弃传统的级联(Cascade)或双塔(Dual Tower)设计,采用全统一的单塔 Transformer 结构,让音频和视频 Token 在所有层级进行交互。
  • 数据工程:开发了一套自动化管道,包括视频/音频质量过滤、场景分割、人声/非人声分类以及多模型协作的稠密标注(使用 Whisper, SenseVoice, Qwen2.5-Omni 等工具)。

应用的技术

  • **Flow Matching (流匹配)**:作为去噪目标,用于训练生成模型。
  • Omni-Full Attention:一种全注意机制,允许音频和视频 Token 在序列中完全可见,促进深度融合。
  • 3D VAE & Audio VAE:使用 3D 变分自编码器压缩视频(3Hz),使用 Audio-VAE 压缩音频(43Hz)。
  • Multimodal RoPE:多模态旋转位置编码,用于处理不同模态的位置信息。

达到的效果

  • SOTA 级性能:在 T2AV(文本生音视频)、TI2AV(图生音视频)等多个任务上,性能大幅优于现有方法(如 Universe-1, Ovi)。
  • 媲美商业模型:在开源模型中,其表现可与 Veo 3 等闭源商业模型相媲美。
  • 高质量对齐:实现了高保真的唇形同步(Lip-sync)和与其动作匹配的音效生成(如乐器演奏、唱歌)。

Klear

预备知识

问题定义本工作的目标是在给定各种先验条件的情况下,通过单个模型实现音频和视频的生成。将去噪网络表示为 ,文本条件表示为 。令  和  分别表示在时间步  时的音频和视频隐变量(latent variables)。这里, 表示纯高斯噪声的最终时间步。在推理过程中, 递归地执行去噪操作,从  到 ,以产生最终的生成结果 ,如下所示:

条件流匹配本工作采用流匹配(Flow Matching)作为去噪目标。模型需要学习将纯噪声  变换为潜在数据分布  的速度场。在实践中,我们执行线性插值  来构建时间步  处的分布。给定条件 ,模型  被训练以预测目标速度 

其中 

潜在编码该模型接受四种输入:视频、视频相关文本、音频相关文本和音频。其中,视频相关文本代表视频描述(video caption),音频相关文本代表音频描述(audio caption)和语音文本。视频由来自 CogVideoX 的 3D 因果视觉编码器进行编码。我们使用 Qwen3-8B Embedding 作为音频和视频描述的编码器。

具有全注意力的单塔架构

图 2 Klear 概述。 该模型接受四个输入:视频、视频相关文本、音频相关文本和音频。 每个输入均由各自的编码器单独编码,然后馈入 MM-DiT。 MM-DiT模块输出视频和音频的隐变量,然后分别解码为视频和音频。
图 2 Klear 概述。 该模型接受四个输入:视频、视频相关文本、音频相关文本和音频。 每个输入均由各自的编码器单独编码,然后馈入 MM-DiT。 MM-DiT模块输出视频和音频的隐变量,然后分别解码为视频和音频。

单塔 DiT (Single Tower DiT)为了确保彻底的音频-视频融合,我们采用了单塔架构。如图 2 所示,遵循 Stable Diffusion 3 的设计,我们采用了多模态扩散 Transformer(MM-DiT),将所有模态的序列作为输入并执行全注意力(Full Attention)机制。具体而言,有四种输入:视频、视频相关文本、音频相关文本和音频。每种类型的输入分别由各自的编码器编码为隐变量,然后输入到 MM-DiT 中。MM-DiT 模块在两个流中输出视频和音频的隐变量,随后分别进行解码以完成视频和音频的生成。

混合维度旋转位置编码 (MixD-RoPE)另一个关键的架构创新是混合维度旋转位置编码(Mixed Dimension Rotary Position Embedding, MixD-RoPE)。如图 2(d) 所示,为了增强视频中由各种纵横比和持续时间引入的位置信息,我们在三个维度(即时间、宽度和高度)上对视频嵌入应用了 3D RoPE 编码。这种 3D RoPE 结合了视频中的绝对和相对位置依赖性。对于音频模态,我们采用了兼容的时间 1D 位置编码,而其位置编号通过将视频模态的最大时间位置 ID 加一来初始化。因此,我们构建了一个在视频和音频模态之间共享时间位置 ID 的 MixD-RoPE。

全方位全注意力 (Omni-Full Attention)以前的工作可能会采用分离的空间和时间注意力来降低计算复杂度,如 UniForm。然而,正如 CogVideoX 中所述,这种分离的注意力机制需要大量的隐式信息传输,显着增加了学习的复杂性。其他工作为音频和视频生成分别定制了两个 Transformer 塔(例如 AV-DiT, SyncFlow, JavisDiT, TAVGBench)。但是,它们通常采用多阶段训练方法,既复杂又消耗资源。这两个塔必须首先分别进行预训练,然后一起微调,增加了训练时间和资源消耗。为了实现更高效的训练和更有效的模态融合,我们采用了 3D 文本-视频-音频混合全注意力机制。如图 2 所示,在 MM-DiT 模块内,视频、视频相关文本、音频相关文本和音频的隐藏状态首先被缩放和归一化,然后拼接在一起进行注意力计算:

注意力值随后被分割成独立的隐藏状态,经过缩放和归一化、残差连接和前馈网络处理,随后输入到下一个 MM-DiT 模块。结果,在联合全注意力中实现了所有输入模态的统一。

多任务渐进式训练策略

随机模态掩码 (Random Modality Masking)为了学习用于联合生成的通用且鲁棒的音频-视频表示,我们在广泛的任务谱系上训练生成模型。因此,建议有选择地调整音频和视频模态的查询(Query)和键(Key)的掩码。如果我们限制查询和键仅针对视频嵌入和视频描述嵌入,模型将退化为 T2V(文本生成视频)模型。同样,将查询和键限制为音频嵌入和音频文本嵌入会导致 T2A(文本生成音频)模型。通过这种方式,模型不仅可以处理联合生成,还可以保持单模态生成的能力。考虑到高质量音频-视频配对数据的稀缺性,我们的方法为训练 T2VA 模型提供了一种替代方案。首先在 T2V 和 T2A 任务上预训练 Klear,然后在音频-视频配对数据上微调我们的模型,最终构建一个 T2VA 模型。音频和视频生成的学习目标分别如方程 (7) 和方程 (8) 所示:

其中  用于从组合的噪声表示中提取音频 token,而  用于提取视觉 token。总之, 和  表示 T2A 和 T2V 的单模态任务。为了学习可泛化且鲁棒的音频-视觉相关性世界知识,我们还结合了 T2AV、I2V 和 I2AV 的多个任务。因此,整体多任务学习目标如下:

渐进式训练策略 (Progressive Training Strategy)为了高效地训练 AV 联合生成,我们采用了渐进式多任务学习框架,并在所有阶段应用随机模态掩码:

  • 第一阶段:预训练 (Stage-I: Pre-training) 。在大规模、多场景的数据语料库上预训练模型,以获得跨所有任务的原子生成能力,包括跨模态语义对齐、时间同步、高保真音频合成和精确的视觉特征构建。这确保了单模态生成和联合生成的基本能力,并为后续的后训练提供了坚实的基础。
  • 第二阶段:专项后训练 (Stage-II: Specialized Post-training) 。然后,针对模型较弱的能力和任务进行专门训练。在评估指标的指导下,我们自适应地重新平衡跨场景和任务的数据分布,以加强表现不佳的能力,同时保持整体能力。
  • 第三阶段:质量精炼后训练 (Stage-III: Quality-Refined Post-training) 。最后,在人工精选的高质量数据集上微调模型,以精炼生成保真度并增强复杂场景中的鲁棒性,从而提高感知真实感和整体生成质量。

数据集构建

本文数据集包含自动标注的样本。 该数据集包含单人语音、多人语音、唱歌和自然声音片段,总体过滤后保留率为 27%。

图片

数据集过滤

视频过滤和场景分割 首先通过建模动态质量(主体运动比率、相机稳定性)、静态质量(清晰度、美观度、色彩饱和度)、内容自然度(无过多效果/水印)和安全性来过滤视频质量。我们丢弃那些低分辨率、低 SNR/MOS 或超过 20% 静音的视频。 然后,我们应用场景分割以确保每个样本仅包含一个场景。

音频过滤和后处理 通过删除低 SNR、MOS、异常削波、失真或噪声的样本来过滤音频数据,确保低于 20% 的静音、高保真度和一致的格式。 然后,我们评估视听一致性,使用 Synchformer 进行时间对齐,使用 ImageBind 进行语义对齐,确保时间和语义维度的高度同步。

音频引导数据分割

按音频类型对数据集进行分区,将人声与非人声片段分开以形成声音分割。 从声音子集中,我们创建歌唱、单说话者语音和多说话者语音分割,然后对每个语音应用密集的字幕。

密集标注和集成

使用语音转录本、音频字幕和视频字幕的专用模型来标注每个分割,包括元信息和详细内容。 对于语音和唱歌,提取说话者属性(例如性别、年龄),而声音分割仅接收音频字幕。 使用 Whisper-Large-v3、SenseVoice 和 Qwen2.5-Omni 进行转录,使用 Qwen2.5-Omni 和 Gemini 2.5-Pro 进行音频字幕,并使用视频专家模型进行详细视频标签。 所有标注都合并为统一的密集标题。

实验

实验设置

  • 模型规模:Klear 包含 260 亿 (26B) 参数,流匹配的前馈维度为 4096。
  • 网络结构:包含 32 层联合扩散 Transformer (Joint Diffusion Transformer) 层,结合了多模态 RoPE。
  • 编码器:文本编码器使用 1024 维的 TTS 文本编码器,Caption 编码器使用 Qwen2.5-7B。
  • VAE 设置
    • Audio-VAE:处理 44.1 kHz 输入波形,生成 43 Hz 的 Embeddings(相对于输入采样率下采样 1024 倍)。
    • Video-VAE:处理不同分辨率和帧率的视频,生成 3 Hz 的 Embeddings(时空压缩),在高度和宽度维度上均进行了 16 倍压缩。
  • 训练细节:使用 Adam 优化器,初始学习率为 

结果对比与定性分析

图片

本部分通过定性和定量分析展示了 Klear 在多个维度的优势:

  • 唇形同步 (Lip-Sync Accuracy) :Klear 能够生成与语音紧密同步的唇形运动,包括呼吸模式和面部表情的自然匹配。
  • 情感表达 (Emotional Expressiveness) :生成的视频不仅口型对齐,还能展现出与语音语调一致的情感(如兴奋、深思)。相比之下,Universe-1 和 Ovi 等基线模型常出现表情扭曲。
  • **歌唱与说唱 (Singing and Rap)**:在歌唱和说唱场景中,Klear 精确控制了音高、节奏与呼吸的对齐。例如颤音(Vibrato)和转音(Melisma)能自然地与面部表情匹配。
  • 音视频同步 (AV Synchronization) :背景音乐和音效(如乐器演奏)与视频内容在时间上严格对齐,提升了沉浸感。
  • 图生音视频 (Image to Audio-Video) :在 TI2AV 任务中,Klear 保持了输入图像的高身份一致性(Identity Consistency),同时生成合理的摄像机运动,而基线模型常出现身份漂移。

定量对比

图片
图片

虽然无法完全展示表格数据,但文中提到 Single Tower(本工作)在 ID 保持 (0.80 vs 0.62)、MOS 评分 (93.11 vs 62.02) 和音视频一致性 (Sync-conf 6.787 vs 3.762) 等指标上均显著优于 Dual Tower 架构。

消融实验

  • 架构有效性:通过对比单塔(Single Tower)和双塔(Dual Tower)架构,验证了将音频和视频特征输入统一的 mm-DiT 分支并配合 Omni-Full Attention 的设计,能显著提升模态间的对齐效果。
图片

总结

Klear,一种新颖的用于高保真音视频联合生成的统一 Transformer 架构。通过引入 Omni-Full Attention(全方位全注意力机制),Klear 在单个流内无缝集成了视频、音频及其对应的文本条件,从而实现了卓越的音视频同步和细粒度的语义对齐。为了促进稳健的多任务学习,我们设计了一种包含随机模态掩码(random modality masking)的渐进式训练策略,使模型能够在联合生成和单模态生成(如 T2V、T2A、TI2AV 等)之间灵活切换,同时保持高质量的输出。此外,我们构建了第一个带有详细且严格时间对齐的描述的大规模音视频数据集,解决了该领域高质量配对数据稀缺的关键问题。大量的实验表明,Klear 在生成质量、指令遵循能力和跨模态一致性方面显著优于现有的开源方法,并取得了与最先进的闭源模型(如 Veo 3)相当的性能。我们的工作为更加统一、可扩展且语义一致的多模态生成系统铺平了道路。

参考文献

[1] Klear : Unified Multi-Task Audio-Video Joint Generation

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

疯了!Claude Code v2。1 狂更50+项,这才是开发者该有的效率神器!

终于来了 昨天发了一篇 DeepSeek V4春节突袭!编程能力碾压Claude,全球代码圈要变天? 这不Claude Code v2.1就 来了。不过就算CC再升级,也不影响deepseek的王者地位。 大家好,我是指挥官,专注用AI工具提高工作效率,欢迎关注公众号,有福利...