2026年5月12日星期二

AI日报:谷歌Gemini Omni视频模型泄露,快手可灵200亿美元估值冲刺IPO

2026年5月12日AI日报:谷歌Gemini Omni原生视频模型意外泄露,支持10秒720p生成及实时编辑,数学推导视频连贯一致;快手计划分拆可灵AI,目标估值200亿美元并于明年IPO;DeepSeek估值3500亿,API缓存命中率达98%大幅降低成本;另有OpenAI推Daybreak防御计划、Agnes超低价推理模型等资讯。适合AI从业者、开发者及投资者关注前沿动态。

Tags:

AI 日报 · 2026年05月12日

AI资讯

1、OpenAI联合五巨头发布MRC协议,重塑AI集群互联

2、Agnes双模型登顶权威榜单,超低价抢占推理成本战

3、Thinking Machines推原生实时交互模型架构

4、谷歌Gemini Omni原生视频模型泄露:可生成推导课堂视频

5、Murati新交互模型打破回合制,实现实时协作对话

6、快手拟分拆可灵AI:200亿美元估值冲刺明年IPO

7、OpenAI推Daybreak:企业级防御AI伞状计划

8、OpenAI设部署公司并购Tomoro押注企业落地

9、ml-intern三周破百万对话,研究提速惊人

10、Sereact获1.1亿美元B轮,Cortex 2.0用世界模型提稳抓取

11、DeepSeek估值3500亿:98%缓存命中大降API成本

最新开源

1、汇集191项AI编程代理可用技能库开源

2、企业级AI反欺诈平台:实时监控与案件闭环

3、PlaceWise-AI:用ML预测求职就绪度并给个性建议

4、MyGrid-AI:实时智能电网预测与控制平台开源


📰 最新资讯


01 · OpenAI联合五巨头发布MRC协议,重塑AI集群互联

 🏷 行业动态

OpenAI携AMD等五家巨头在OCP发布多路径可靠连接协议MRC,面向Stargate级超大集群缓解拥塞与故障中断。其以RoCE为基、融合UEC,将800Gb/s拆成多路100Gb/s平面并配合喷射与源路由,实现两层交换全互联、微秒级绕障,已在GB200与Fairwater落地,推动统一行业标准。

主要亮点:

  • • 800Gb/s拆分多100Gb/s平面,提升并行与韧性
  • • 13万GPU两层交换全互联,降成本能耗与故障点
  • • 微秒级故障绕行,端口损坏仅降带宽不中断训练

详情链接:
https://finance.sina.com.cn/stock/t/2026-05-07/doc-inhwzvzm2869104.shtml


02 · Agnes双模型登顶权威榜单,超低价抢占推理成本战

 🏷 行业动态

Agnes-2.0-Flash与Agnes-Image-2.0-Flash跻身ClawEval与Artificial Analysis前列,带动实验室全球排名升至第九。ClawEval更偏真实Agent任务执行,显示其在智能体阶段具备竞争力,部分任务超越Gemini Flash等。更以激进低价切入:文本约为同类一半、图像仅十分之一,利于低成本规模化调用。

主要亮点:

  • • 文本与图像双模型上榜,实验室全球排名第九
  • • ClawEval强调Agent真实任务能力,契合行业演进
  • • 价格极具攻击性:文本半价、图像约行业十分之一

详情链接:
https://www.163.com/dy/article/KSNL5F3I0511N33R.html


03 · Thinking Machines推原生实时交互模型架构

 🏷 技术突破

Thinking Machines Lab提出“交互模型”体系,抛弃语音转文字与轮次检测等外挂流水线,改为原生实时协作:边听边说、可被打断、能看视频并调用工具。系统以200毫秒微轮次流式处理,并用无编码器早期融合联合训练多模态,有望把AI从输入输出升级为更自然的同伴式对话与工作方式。

主要亮点:

  • • 200毫秒微轮次流式交互,支持边听边说可打断
  • • 交互模型+异步后台模型分工,前台响应后台思考调用工具
  • • 发布TML-Interaction-Small:276B参数、12B激活MoE原型

详情链接:
https://finance.sina.com.cn/tech/roll/2026-05-12/doc-inhxrfsq9953276.shtml


04 · 谷歌Gemini Omni原生视频模型泄露:可生成推导课堂视频

 🏷 技术突破

谷歌I/O 2026前夕,原生视频模型Gemini Omni意外曝光:支持10秒、720p生成,并可在对话中重混剪与实时编辑。演示中AI“教授”黑板数学推导连贯一致、笔迹自然,被视为超越Sora的突破;一句话去水印、换物体并自动适配光影,或助谷歌重夺视频生成优势。

主要亮点:

  • • 10秒720p原生视频生成入口已在移动端曝光
  • • 黑板数学推导视频一致性高,笔迹自然连贯
  • • 一句话去水印、替换物体并自动匹配光影风格

详情链接:
https://x.com/chetaslua/status/2053824398503678108


05 · Murati新交互模型打破回合制,实现实时协作对话

 🏷 技术突破

Mira Murati创立的Thinking Machines Lab发布“交互模型”研究预览,以200毫秒时间对齐微回合取代回合制对话,可边听边说、实时检索并结合音视频输入反馈。TML-Interaction-Small在FD-bench V1.5得分77.8、延迟0.40秒,显著领先同类。两层架构将在线交互与后台深度思考分离,或推动更自然的人机协作范式。

主要亮点:

  • • 200毫秒微回合:边听边说、可插话协作
  • • 多模态并行处理:音频视频文本同时输入输出
  • • FD-bench 77.8分、0.40秒延迟领先主流模型

详情链接:
https://m.sohu.com/a/1021531317_362225?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334


06 · 快手拟分拆可灵AI:200亿美元估值冲刺明年IPO

 🏷 行业动态

快手计划分拆视频生成模型可灵AI,目标估值200亿美元并于明年启动IPO,估值逼近快手市值七成。可灵自2024年6月上线后商业化提速,年化收入由3亿美元升至5亿美元,预计IPO时达13亿美元。分拆旨在重构估值、缓解算力压力并强化人才激励,也折射中国AI估值体系上移与视频生成从工具走向独立生意。

主要亮点:

  • • 分拆估值200亿美元,或成全球最贵视频生成独立产品
  • • 商业化进展快:年化收入3亿升至5亿,IPO目标13亿
  • • 海外下载榜多国登顶,分拆亦为算力与人才激励解压

详情链接:
https://www.theinformation.com/articles/chinas-kuaishou-plans-spin-kling-ai-video-unit-20-billion-valuation


07 · OpenAI推Daybreak:企业级防御AI伞状计划

 🏷 产品更新

OpenAI发布Daybreak“防御性加速”伞状计划,将前沿模型、Codex与安全伙伴能力整合,面向企业以验证分级方式产品化网络防御AI。其主打清理CVE、依赖升级与配置漂移等安全积压,并在扫描中沉淀真实漏洞与修复数据,凸显与Anthropic谨慎路线分化。

主要亮点:

  • • 伞状计划整合模型、Codex与安全伙伴防御能力
  • • 采取“释放+监管”分级验证,推动网络防御能力产品化
  • • 聚焦清理安全待办并沉淀漏洞修复数据资产

详情链接:
https://www.163.com/dy/article/KSNBAHFF0511B8LM.html?clickfrom=w_tech


08 · OpenAI设部署公司并购Tomoro押注企业落地

 🏷 行业动态

OpenAI成立“部署公司”专注让AI进入企业核心业务,并收购咨询工程公司Tomoro,首日引入约150名部署专家。公司初始投入超40亿美元,联合投资机构、咨询与系统集成伙伴,加速从用例筛选到生产上线,强化集成、治理合规与业务成效,推动企业级AI规模化落地。

主要亮点:

  • • 成立部署公司,聚焦AI系统在核心业务中的落地交付
  • • 收购Tomoro引入约150名一线部署工程师与专家
  • • 超40亿美元投入,联动咨询与SI伙伴加速规模化部署

详情链接:
https://openai.com/index/openai-launches-the-deployment-company/


09 · ml-intern三周破百万对话,研究提速惊人

 🏷 产品更新

AI研究工具ml-intern上线仅21天即交换超100万条消息、启动17383个训练任务,号称相当于研究员3.3年工作量。社区用它复现DeepSeek v4架构、从零训练1亿参数MoE并拿下优化器赛第三,还一键完成模型格式迁移与博士论文章节生成,显示其在复现、训练与复杂任务编排上的强加速效应。

主要亮点:

  • • 21天超100万消息与17383训练任务,效率爆发
  • • 复现DeepSeek v4并训练1亿参数MoE,竞赛获第三
  • • 一次性完成talkie-lm模型迁移与博士章节生成

详情链接:
https://gitcode.com/GitHub_Trending/ml/ml-intern


10 · Sereact获1.1亿美元B轮,Cortex 2.0用世界模型提稳抓取

 🏷 产品更新

德国Sereact完成1.1亿美元B轮融资,Cortex已在宝马等200+工位落地,累计超10亿次抓取、远程干预率极低。新一代Cortex 2.0引入世界模型,在隐空间预演物理后果并选最稳路径,且算力可调。其以欧洲真实工厂数据训练,欲向精细装配扩张,并以“卖智能模型”抢占高利润环节。

主要亮点:

  • • Cortex落地200+工位,超10亿次抓取验证可靠性
  • • Cortex 2.0引入世界模型,隐空间预演提升稳定路径选择
  • • 基于20+工厂真实数据训练,不依赖仿真数据规模堆砌

详情链接:
https://sereact.ai/posts/series-b


11 · DeepSeek估值3500亿:98%缓存命中大降API成本

 🏷 行业动态

DeepSeek融资基本落定:阿里、腾讯与国家大基金各投100亿,创始人再注资200亿,估值约3500亿。其API以98%缓存命中率著称,命中时Token成本可降至未命中的五十分之一。得益于MLA与升级的CSA+HCA架构对KV Cache极致压缩,缓存可低成本长期存储,或重塑大模型调用定价与竞争格局。

主要亮点:

  • • 阿里腾讯国家大基金各投100亿,估值约3500亿
  • • API缓存命中率98%,开发者账单显著降低
  • • MLA+CSA+HCA压缩KV Cache,缓存可硬盘长期保留

详情链接:
https://finance.sina.com.cn/stock/estate/integration/2026-05-11/doc-inhxnwmr9184923.shtml


🔭 最新开源


01 · 汇集191项AI编程代理可用技能库开源

 🏷 开源项目

GitHub Trending 项目“ai-agent-skills”整理了191+可直接用于生产的AI编程代理技能,来源涵盖Karpathy、Matt Pocock等业界专家经验,主语言为Python。该技能库为构建代码助手与代理工作流提供可复用能力清单,降低工程落地门槛并提升交付一致性。

主要亮点:

  • • 收录191+生产可用技能,面向AI代码代理落地
  • • 专家经验策展,覆盖常见工程任务与最佳实践
  • • Python为主,便于集成到现有自动化与工具链

详情链接:
https://github.com/kevinnft/ai-agent-skills


02 · 企业级AI反欺诈平台:实时监控与案件闭环

 🏷 开源项目

该开源项目构建企业级AI反欺诈检测平台,集成实时监控、集成学习模型与FastAPI后端,打通分析师工作流与案件管理,形成从识别预警到处置复盘的闭环。面向金融与电商等高风险场景,提升拦截效率、可追踪性与运营协同能力。

主要亮点:

  • • 实时监控与智能分析,快速发现异常欺诈信号
  • • 集成机器学习策略,兼顾准确率与鲁棒性
  • • 分析师工作流+案件管理,支持处置闭环与审计

详情链接:
https://github.com/Anirodh-Padhy/Enterprise-AI-Fraud-Detection-System


03 · PlaceWise-AI:用ML预测求职就绪度并给个性建议

 🏷 开源项目

PlaceWise-AI 是一个基于机器学习与 Streamlit 的求职/校招就绪度预测系统,可对个人能力进行分析并生成个性化提升建议。项目以交互式应用形式落地,帮助学生或求职者识别技能短板、制定学习路径,对招聘前评估与职业辅导具有实际参考价值。

主要亮点:

  • • 机器学习驱动的placement readiness就绪度预测
  • • Streamlit交互式界面,快速部署与可视化展示
  • • 技能差距分析+个性化推荐,形成提升闭环

详情链接:
https://github.com/tejasvinifulari5/PlaceWise-AI


04 · MyGrid-AI:实时智能电网预测与控制平台开源

 🏷 开源项目

MyGrid-AI 是面向智能电网的实时智能平台,集成 AI 负荷与发电预测、网控策略执行、WebSocket 遥测数据流与能源系统仿真。它让电网从“事后分析”转向“在线决策”,有助于提升调度效率、可靠性与可再生能源消纳能力。

主要亮点:

  • • 集成AI预测与电网控制闭环,支持在线决策
  • • WebSocket遥测实时接入,适配高频数据流监控
  • • 内置能源系统仿真,便于策略验证与迭代

详情链接:
https://github.com/ChimdaaluIheanacho/MyGrid-AI


以上内容由 AI 汇总,数据来源于网络公开平台。

南京高校ICLR 2026发布VMDiff:视觉混合扩散模型实现AI跨对象合成新物体

南京理工大学与南京大学联合提出VMDiff(视觉混合扩散模型),解决AI图像生成中“共存不融合”与“偏向一方”两大难题。通过分阶段采用拼接与插值策略,并自动搜索平衡参数,让模型真正将两个物体融合成一个结构连贯的新实体。适用于AI科研、角色设计、潮玩创作等场景。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

过去,很多图像生成模型都能同时画出两个物体;但要让它们真正“长成一个新物体”,其实远没有那么简单。

最近,来自南京理工大学和南京大学的研究者提出了 VMDiff(Visual Mixing Diffusion)。这项工作的目标不是让两个概念“出现在同一张图里”,而是让它们真正融合成一个结构连贯、语义平衡、视觉统一的新实体VMDiff生成效果

如果让 AI 把“玻璃罐”和“猫头鹰”结合起来,很多模型表面上看似做到了,实际上却没有真正融合。有的结果只是把两个物体放在同一张图里,彼此靠近、重叠,但仍然是两个分离的概念;还有的结果更直接,只保留了其中一个物体,另一个概念几乎消失不见。

这正是跨物体融合生成长期存在的两个核心难题:一类叫 coexistent generation,也就是“共存但不融合”;另一类叫 bias generation,也就是“只偏向一边,另一边被吞掉”。VMDiff 要解决的,正是这两个问题。

现有方法的典型失败案例
现有方法的典型失败案例

图 2. 现有方法常见的两类失败:共存不融合,或只偏向一边。

unsetunset论文信息unsetunset

标题:VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
作者:熊泽仁,于悦, 张泽栋, 陈硕, 杨健, 李俊
机构:南京理工大学,南京大学
论文链接:https://arxiv.org/abs/2509.23605
项目主页:https://xzr52.github.io/VMDiff_index/
代码仓库:https://github.com/xzr52/VMDiff_code

VMDiff 的巧妙之处:把“保信息”和“成整体”拆成两步来做

VMDiff 最核心的思路,不是笼统地说“在 noise 和 embedding 上融合”,而是更精确地把整个过程拆成两个目标完全不同的阶段:

  • 在前一阶段,目标是尽可能完整保留两个输入的信息;
  • 在后一阶段,目标是把这些信息真正长成一个统一的新物体。

这两个阶段分别对应论文中的 Hybrid Sampling Process(HSP) 和 Efficient Adaptive Adjustment(EAA)
而 HSP 里面最值得讲的,就是两个非常“反直觉但很对”的设计选择:

该保留信息的时候,不做插值,而是拼接;
该形成统一整体的时候,不再拼接,而是插值。

这是 VMDiff 的方法核心。

VMDiff 方法总览
VMDiff 方法总览

图 3. VMDiff 由 HSP 与 EAA 两部分组成:前者负责融合生成,后者负责自适应调参。

第一步:先别急着“混”,先保证两个输入都真的在场

很多人一看到“融合”就会想到插值。但 VMDiff 在前面的 Blending Noise(BNoise) 阶段并没有这么做。

它先从高斯噪声出发,再通过引导去噪和反演,把噪声逐步变成一个带有两个输入概念信息的语义噪声。而在这个阶段,VMDiff 对两个输入特征采用的不是插值,而是拼接(concatenate)

为什么这里要拼接?因为这一阶段的目标还不是“生成一个整体”,而是“把两个来源的信息都尽可能保住”。如果过早插值,两个物体中那些不完全对齐的局部细节,很容易在平均过程中被抹平;相反,拼接能先把双方的重要特征都保留下来,再交给后续的反演过程去提炼。

换句话说,VMDiff 在这一步解决的是:如何在真正开始生成之前,先把两个概念的信息注入噪声。

BNoise 阶段:拼接优于插值
BNoise 阶段:拼接优于插值

图 4. 在 BNoise 阶段,拼接比插值更有利于保留输入细节。

第二步:真正生成时,目标变了——这时必须让它长成一个整体

前面那一步解决的是“两个概念都在”。但只做到这一步还不够,因为“都在”不等于“融合好了”。

如果在最终生成阶段还继续拼接,那么模型虽然拥有两边的信息,但它们还是彼此分离的,最后很容易长成“两个物体挤在一起”的结果。
所以在 Mixing Denoise(MDeNoise) 阶段,VMDiff 做了第二个关键转换:它不再拼接,而是用 球面插值(spherical interpolation) 去混合两组视觉表征,让它们沿着一个更自然的潜空间路径逐步过渡,最终形成单一、连贯、和谐的新实体。 这一点特别重要。它说明 VMDiff 不是简单地“全程统一融合策略”,而是针对不同阶段的目标,选择了不同的操作:

  • 在 BNoise 阶段,怕丢信息,所以选拼接;
  • 在 MDeNoise 阶段,怕长不成整体,所以选插值。

这正是 VMDiff 和很多“直接混一混”方法最本质的区别。

MDeNoise 阶段:插值优于拼接
MDeNoise 阶段:插值优于拼接

图 5. 在最终生成阶段,插值比拼接更容易形成统一整体。

但“成整体”还不够,VMDiff 还要解决另一个麻烦:别偏科

即便有了前面的两步,模型仍然可能偏向其中一个输入。比如“口红 + 钢铁侠手办”,最后也许更容易只剩口红,或者只剩钢铁侠风格,而无法做到真正平衡。所以 VMDiff 又设计了一个 Similarity Score(SS),专门衡量生成结果是否同时满足两件事:

  1. 既像输入图像 1,也像输入图像 2;
  2. 既符合类别语义 1,也符合类别语义 2;
  3. 而且两边不能差太多。

这个式子可以拆成四部分来看:

  • visual similarity,要求生成结果在视觉上都接近两个输入图像;
  • semantic similarity,要求生成结果在语义上都符合两个类别标签;
  • visual balance,惩罚视觉上只偏向其中一边;
  • semantic balance,惩罚语义上只保留一个概念。

换句话说,VMDiff 优化的不是“像某一个输入”,而是:

既保留两个来源的视觉与语义,又显式压制不平衡。

有了这个目标之后,后面的 Efficient Adaptive Adjustment (EAA) 就有了明确的优化方向:先搜索控制融合比例的  ,再根据结果进一步调整  ,必要时重采样噪声  ,从而自动找到一个既自然、又平衡的融合点。

unset

EAA:不是拍脑袋调参数,而是自动搜索“最平衡的融合点”

有了这个相似度与平衡联合目标之后,VMDiff 用 Efficient Adaptive Adjustment(EAA) 去自动搜索参数。它会分层地调整:

  • 控制融合比例的 α
  • 控制噪声侧影响的 β1、β2
  • 以及随机噪声 ϵ

做法并不是昂贵的梯度反向传播,而是更轻量的层次化搜索,比如 golden section search,再结合少量重采样。这使得 VMDiff 不需要一个特别重的优化过程,也能比较高效地找到“最像两边、又最平衡”的解。EAA 优化过程可视化图 6. EAA 通过分层搜索逐步提升相似度并减小失衡。

结果上,VMDiff 做到的不是“更花哨”,而是“更像一个新物体”

为了系统评估这件事,作者构建了 IIOF(Image-Image Object Fusion) 数据集,包含 780 个图像对,覆盖动物、水果、人造物体和角色手办等类别。
实验表明,VMDiff 不只是主观上更有创意,在客观指标也都表现突出。

在多概念生成对比中,很多基线方法仍然容易出现“只是叠在一起”或者“偏向其中一边”的问题;而 VMDiff 生成的结果往往更像是一个真正统一的混合实体。 从表 1 可以看到,VMDiff 并不是只在单一指标上占优,而是在语义一致性、单实体连贯性、相似度和平衡性等多个维度上都表现突出。

表 1. IIOF 数据集上的定量对比结果

Model
VQASA_T5 ↑
VQASCE_T5 ↑
LCSA ↑
LCSCE ↑
VQASA_LLaVA ↑
VQASCE_LLaVA ↑
SS ↑
Bsim ↓
Our VMDiff 0.639 0.540 8.372 8.392 0.390
0.413
2.068 0.324
FreeCustom
0.579
0.452
6.958
6.946
0.360
0.388
1.580
0.776
MIP-Adapter
0.621
0.512
8.301
8.076
0.389
0.417
1.866
0.483
OmniGen
0.570
0.469
7.550
7.233
0.352
0.348
1.705
0.617
Conceptlab
0.573
0.483
7.589
7.728
0.362
0.395
ATIH
0.523
0.465
7.275
6.816
0.317
0.367
Stable Flow
0.460
0.372
6.020
5.024
0.266
0.294
DreamO
0.591
0.467
7.592
7.013
0.370
0.346
1.793
0.644
FreeBlend
0.588
0.507
7.836
7.788
0.341
0.383
1.870
0.479
与多概念生成方法的对比
与多概念生成方法的对比

图 7. 与多概念生成方法相比,VMDiff 更能生成统一而平衡的融合体。与混合/编辑方法的对比

图 8. 与混合和编辑方法相比,VMDiff 的结果更完整、更自然。

这篇工作的价值,不只是生成几个新奇例子

VMDiff 真正有意思的地方,不只是做出了几张好看的图,而是它给“跨物体视觉融合”这件事提供了一种很清晰的方法论:

  • 先解决“信息别丢”;
  • 再解决“整体要成”;
  • 最后再解决“双方要平衡”。

这三件事以前常常被混在一起处理,而 VMDiff 把它们拆开了,并为每一步都设计了对应的机制。这也是为什么它生成出来的结果,不是简单拼贴,也不是只偏向一边,而更像一个真的被“设计出来”的新物体。

unsetunset总结unsetunset

很多方法能把两个物体同时画出来,但 VMDiff 的目标不是“同时出现”,而是“真正长成一个新物体”。 对角色设计、潮玩设计、电影动画和工业外观探索来说,这种“真正生成一个新物体”的能力,比简单拼贴更接近实际创作需求。它最核心的洞察在于:

  • 在噪声构造阶段,用拼接保住两边信息;
  • 在最终生成阶段,用插值把两边长成一个整体;
  • 再用联合考虑相似度与平衡的目标函数,自动找到最佳融合点。

这让跨物体融合不再只是“把 A 和 B 放一起”,而是真正走向“从 A 和 B 里,创造出一个新的 C”。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

AI日报:谷歌Gemini Omni视频模型泄露,快手可灵200亿美元估值冲刺IPO

2026年5月12日AI日报:谷歌Gemini Omni原生视频模型意外泄露,支持10秒720p生成及实时编辑,数学推导视频连贯一致;快手计划分拆可灵AI,目标估值200亿美元并于明年IPO;DeepSeek估值3500亿,API缓存命中率达98%大幅降低成本;另有OpenAI推...