2026年5月12日星期二

AI日报:谷歌Gemini Omni视频模型泄露,快手可灵200亿美元估值冲刺IPO

2026年5月12日AI日报:谷歌Gemini Omni原生视频模型意外泄露,支持10秒720p生成及实时编辑,数学推导视频连贯一致;快手计划分拆可灵AI,目标估值200亿美元并于明年IPO;DeepSeek估值3500亿,API缓存命中率达98%大幅降低成本;另有OpenAI推Daybreak防御计划、Agnes超低价推理模型等资讯。适合AI从业者、开发者及投资者关注前沿动态。

Tags:

AI 日报 · 2026年05月12日

AI资讯

1、OpenAI联合五巨头发布MRC协议,重塑AI集群互联

2、Agnes双模型登顶权威榜单,超低价抢占推理成本战

3、Thinking Machines推原生实时交互模型架构

4、谷歌Gemini Omni原生视频模型泄露:可生成推导课堂视频

5、Murati新交互模型打破回合制,实现实时协作对话

6、快手拟分拆可灵AI:200亿美元估值冲刺明年IPO

7、OpenAI推Daybreak:企业级防御AI伞状计划

8、OpenAI设部署公司并购Tomoro押注企业落地

9、ml-intern三周破百万对话,研究提速惊人

10、Sereact获1.1亿美元B轮,Cortex 2.0用世界模型提稳抓取

11、DeepSeek估值3500亿:98%缓存命中大降API成本

最新开源

1、汇集191项AI编程代理可用技能库开源

2、企业级AI反欺诈平台:实时监控与案件闭环

3、PlaceWise-AI:用ML预测求职就绪度并给个性建议

4、MyGrid-AI:实时智能电网预测与控制平台开源


📰 最新资讯


01 · OpenAI联合五巨头发布MRC协议,重塑AI集群互联

 🏷 行业动态

OpenAI携AMD等五家巨头在OCP发布多路径可靠连接协议MRC,面向Stargate级超大集群缓解拥塞与故障中断。其以RoCE为基、融合UEC,将800Gb/s拆成多路100Gb/s平面并配合喷射与源路由,实现两层交换全互联、微秒级绕障,已在GB200与Fairwater落地,推动统一行业标准。

主要亮点:

  • • 800Gb/s拆分多100Gb/s平面,提升并行与韧性
  • • 13万GPU两层交换全互联,降成本能耗与故障点
  • • 微秒级故障绕行,端口损坏仅降带宽不中断训练

详情链接:
https://finance.sina.com.cn/stock/t/2026-05-07/doc-inhwzvzm2869104.shtml


02 · Agnes双模型登顶权威榜单,超低价抢占推理成本战

 🏷 行业动态

Agnes-2.0-Flash与Agnes-Image-2.0-Flash跻身ClawEval与Artificial Analysis前列,带动实验室全球排名升至第九。ClawEval更偏真实Agent任务执行,显示其在智能体阶段具备竞争力,部分任务超越Gemini Flash等。更以激进低价切入:文本约为同类一半、图像仅十分之一,利于低成本规模化调用。

主要亮点:

  • • 文本与图像双模型上榜,实验室全球排名第九
  • • ClawEval强调Agent真实任务能力,契合行业演进
  • • 价格极具攻击性:文本半价、图像约行业十分之一

详情链接:
https://www.163.com/dy/article/KSNL5F3I0511N33R.html


03 · Thinking Machines推原生实时交互模型架构

 🏷 技术突破

Thinking Machines Lab提出“交互模型”体系,抛弃语音转文字与轮次检测等外挂流水线,改为原生实时协作:边听边说、可被打断、能看视频并调用工具。系统以200毫秒微轮次流式处理,并用无编码器早期融合联合训练多模态,有望把AI从输入输出升级为更自然的同伴式对话与工作方式。

主要亮点:

  • • 200毫秒微轮次流式交互,支持边听边说可打断
  • • 交互模型+异步后台模型分工,前台响应后台思考调用工具
  • • 发布TML-Interaction-Small:276B参数、12B激活MoE原型

详情链接:
https://finance.sina.com.cn/tech/roll/2026-05-12/doc-inhxrfsq9953276.shtml


04 · 谷歌Gemini Omni原生视频模型泄露:可生成推导课堂视频

 🏷 技术突破

谷歌I/O 2026前夕,原生视频模型Gemini Omni意外曝光:支持10秒、720p生成,并可在对话中重混剪与实时编辑。演示中AI“教授”黑板数学推导连贯一致、笔迹自然,被视为超越Sora的突破;一句话去水印、换物体并自动适配光影,或助谷歌重夺视频生成优势。

主要亮点:

  • • 10秒720p原生视频生成入口已在移动端曝光
  • • 黑板数学推导视频一致性高,笔迹自然连贯
  • • 一句话去水印、替换物体并自动匹配光影风格

详情链接:
https://x.com/chetaslua/status/2053824398503678108


05 · Murati新交互模型打破回合制,实现实时协作对话

 🏷 技术突破

Mira Murati创立的Thinking Machines Lab发布“交互模型”研究预览,以200毫秒时间对齐微回合取代回合制对话,可边听边说、实时检索并结合音视频输入反馈。TML-Interaction-Small在FD-bench V1.5得分77.8、延迟0.40秒,显著领先同类。两层架构将在线交互与后台深度思考分离,或推动更自然的人机协作范式。

主要亮点:

  • • 200毫秒微回合:边听边说、可插话协作
  • • 多模态并行处理:音频视频文本同时输入输出
  • • FD-bench 77.8分、0.40秒延迟领先主流模型

详情链接:
https://m.sohu.com/a/1021531317_362225?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334


06 · 快手拟分拆可灵AI:200亿美元估值冲刺明年IPO

 🏷 行业动态

快手计划分拆视频生成模型可灵AI,目标估值200亿美元并于明年启动IPO,估值逼近快手市值七成。可灵自2024年6月上线后商业化提速,年化收入由3亿美元升至5亿美元,预计IPO时达13亿美元。分拆旨在重构估值、缓解算力压力并强化人才激励,也折射中国AI估值体系上移与视频生成从工具走向独立生意。

主要亮点:

  • • 分拆估值200亿美元,或成全球最贵视频生成独立产品
  • • 商业化进展快:年化收入3亿升至5亿,IPO目标13亿
  • • 海外下载榜多国登顶,分拆亦为算力与人才激励解压

详情链接:
https://www.theinformation.com/articles/chinas-kuaishou-plans-spin-kling-ai-video-unit-20-billion-valuation


07 · OpenAI推Daybreak:企业级防御AI伞状计划

 🏷 产品更新

OpenAI发布Daybreak“防御性加速”伞状计划,将前沿模型、Codex与安全伙伴能力整合,面向企业以验证分级方式产品化网络防御AI。其主打清理CVE、依赖升级与配置漂移等安全积压,并在扫描中沉淀真实漏洞与修复数据,凸显与Anthropic谨慎路线分化。

主要亮点:

  • • 伞状计划整合模型、Codex与安全伙伴防御能力
  • • 采取“释放+监管”分级验证,推动网络防御能力产品化
  • • 聚焦清理安全待办并沉淀漏洞修复数据资产

详情链接:
https://www.163.com/dy/article/KSNBAHFF0511B8LM.html?clickfrom=w_tech


08 · OpenAI设部署公司并购Tomoro押注企业落地

 🏷 行业动态

OpenAI成立“部署公司”专注让AI进入企业核心业务,并收购咨询工程公司Tomoro,首日引入约150名部署专家。公司初始投入超40亿美元,联合投资机构、咨询与系统集成伙伴,加速从用例筛选到生产上线,强化集成、治理合规与业务成效,推动企业级AI规模化落地。

主要亮点:

  • • 成立部署公司,聚焦AI系统在核心业务中的落地交付
  • • 收购Tomoro引入约150名一线部署工程师与专家
  • • 超40亿美元投入,联动咨询与SI伙伴加速规模化部署

详情链接:
https://openai.com/index/openai-launches-the-deployment-company/


09 · ml-intern三周破百万对话,研究提速惊人

 🏷 产品更新

AI研究工具ml-intern上线仅21天即交换超100万条消息、启动17383个训练任务,号称相当于研究员3.3年工作量。社区用它复现DeepSeek v4架构、从零训练1亿参数MoE并拿下优化器赛第三,还一键完成模型格式迁移与博士论文章节生成,显示其在复现、训练与复杂任务编排上的强加速效应。

主要亮点:

  • • 21天超100万消息与17383训练任务,效率爆发
  • • 复现DeepSeek v4并训练1亿参数MoE,竞赛获第三
  • • 一次性完成talkie-lm模型迁移与博士章节生成

详情链接:
https://gitcode.com/GitHub_Trending/ml/ml-intern


10 · Sereact获1.1亿美元B轮,Cortex 2.0用世界模型提稳抓取

 🏷 产品更新

德国Sereact完成1.1亿美元B轮融资,Cortex已在宝马等200+工位落地,累计超10亿次抓取、远程干预率极低。新一代Cortex 2.0引入世界模型,在隐空间预演物理后果并选最稳路径,且算力可调。其以欧洲真实工厂数据训练,欲向精细装配扩张,并以“卖智能模型”抢占高利润环节。

主要亮点:

  • • Cortex落地200+工位,超10亿次抓取验证可靠性
  • • Cortex 2.0引入世界模型,隐空间预演提升稳定路径选择
  • • 基于20+工厂真实数据训练,不依赖仿真数据规模堆砌

详情链接:
https://sereact.ai/posts/series-b


11 · DeepSeek估值3500亿:98%缓存命中大降API成本

 🏷 行业动态

DeepSeek融资基本落定:阿里、腾讯与国家大基金各投100亿,创始人再注资200亿,估值约3500亿。其API以98%缓存命中率著称,命中时Token成本可降至未命中的五十分之一。得益于MLA与升级的CSA+HCA架构对KV Cache极致压缩,缓存可低成本长期存储,或重塑大模型调用定价与竞争格局。

主要亮点:

  • • 阿里腾讯国家大基金各投100亿,估值约3500亿
  • • API缓存命中率98%,开发者账单显著降低
  • • MLA+CSA+HCA压缩KV Cache,缓存可硬盘长期保留

详情链接:
https://finance.sina.com.cn/stock/estate/integration/2026-05-11/doc-inhxnwmr9184923.shtml


🔭 最新开源


01 · 汇集191项AI编程代理可用技能库开源

 🏷 开源项目

GitHub Trending 项目“ai-agent-skills”整理了191+可直接用于生产的AI编程代理技能,来源涵盖Karpathy、Matt Pocock等业界专家经验,主语言为Python。该技能库为构建代码助手与代理工作流提供可复用能力清单,降低工程落地门槛并提升交付一致性。

主要亮点:

  • • 收录191+生产可用技能,面向AI代码代理落地
  • • 专家经验策展,覆盖常见工程任务与最佳实践
  • • Python为主,便于集成到现有自动化与工具链

详情链接:
https://github.com/kevinnft/ai-agent-skills


02 · 企业级AI反欺诈平台:实时监控与案件闭环

 🏷 开源项目

该开源项目构建企业级AI反欺诈检测平台,集成实时监控、集成学习模型与FastAPI后端,打通分析师工作流与案件管理,形成从识别预警到处置复盘的闭环。面向金融与电商等高风险场景,提升拦截效率、可追踪性与运营协同能力。

主要亮点:

  • • 实时监控与智能分析,快速发现异常欺诈信号
  • • 集成机器学习策略,兼顾准确率与鲁棒性
  • • 分析师工作流+案件管理,支持处置闭环与审计

详情链接:
https://github.com/Anirodh-Padhy/Enterprise-AI-Fraud-Detection-System


03 · PlaceWise-AI:用ML预测求职就绪度并给个性建议

 🏷 开源项目

PlaceWise-AI 是一个基于机器学习与 Streamlit 的求职/校招就绪度预测系统,可对个人能力进行分析并生成个性化提升建议。项目以交互式应用形式落地,帮助学生或求职者识别技能短板、制定学习路径,对招聘前评估与职业辅导具有实际参考价值。

主要亮点:

  • • 机器学习驱动的placement readiness就绪度预测
  • • Streamlit交互式界面,快速部署与可视化展示
  • • 技能差距分析+个性化推荐,形成提升闭环

详情链接:
https://github.com/tejasvinifulari5/PlaceWise-AI


04 · MyGrid-AI:实时智能电网预测与控制平台开源

 🏷 开源项目

MyGrid-AI 是面向智能电网的实时智能平台,集成 AI 负荷与发电预测、网控策略执行、WebSocket 遥测数据流与能源系统仿真。它让电网从“事后分析”转向“在线决策”,有助于提升调度效率、可靠性与可再生能源消纳能力。

主要亮点:

  • • 集成AI预测与电网控制闭环,支持在线决策
  • • WebSocket遥测实时接入,适配高频数据流监控
  • • 内置能源系统仿真,便于策略验证与迭代

详情链接:
https://github.com/ChimdaaluIheanacho/MyGrid-AI


以上内容由 AI 汇总,数据来源于网络公开平台。

没有评论:

发表评论

AI日报:谷歌Gemini Omni视频模型泄露,快手可灵200亿美元估值冲刺IPO

2026年5月12日AI日报:谷歌Gemini Omni原生视频模型意外泄露,支持10秒720p生成及实时编辑,数学推导视频连贯一致;快手计划分拆可灵AI,目标估值200亿美元并于明年IPO;DeepSeek估值3500亿,API缓存命中率达98%大幅降低成本;另有OpenAI推...