2025年4月11日星期五

4个悄然崛起的AI开源项目,已开源!

现在的 AI 圈子,简直就是一个大型开盲盒现场——你永远不知道,明天又会冒出哪个神仙工具。

这一篇我们来聊聊最近的 AI 新进展。

Google Cloud Next 2025 发布了新一代AI模型和芯片,还联合50+伙伴推出了开源Agent协议。

与此同时,两个AI工具快速蹿红,一个能一键完成视频翻译+配音,另一个让文档秒变Markdown。

Google Cloud Next 2025

Google Ironwood TPU:AI的新引擎

在大模型迈向推理型智能(Reasoning AI)之际,传统AI芯片正在被逼近极限。

谷歌发布会:

https://blog.google/products/google-cloud/next-2025

Google最新发布的第七代TPU——Ironwood,就是为此而生。

它相比第一代强大3600倍,堪比英伟达的新显卡B200.

为什么它重要?

  • 推理优化:适配LLM、MoE、大型AI Agent等模型计算结构。
  • 集群规模惊人:支持9,000多颗TPU并联,整合42.5 Exaflops算力。
  • 能耗大跳水:性能/能耗比是上代的两倍,且全线液冷。

这意味着,对于拥有大规模 AI 训练需求,需要极低推理延迟与高并发的企业而言,Ironwood 或能大幅降低运营成本,并在算力层面缩小企业与大厂之间的技术鸿沟。

Gemini 2.5 Flash:模型的平衡美学

前段时间,Google推出的Gemini 2.5 Pro已经被视为其最顶尖、最智能的大模型之一。

在深度搜索(Deep Research)上超越OpenAI的深度搜索。

然而,Pro级模型对于很多企业或应用场景而言可能"有些过度",于是 Google 推出了它的轻便版本 —— Gemini 2.5 Flash

Google AI Studio:

https://aistudio.google.com

它的出现的推出正是为了解决这一痛点——它被定位为在提供强大推理能力的同时尽量保证低延迟和高性价比的版。

它解决了什么痛点?

  • 不再"过度思考":根据问题难度动态调整"思考量",回答快准省。
  • 企业友好:可配置推理预算参数,在速度、准确率、成本间灵活权衡。
  • 支持本地部署:数据安全敏感型企业可部署在GDC或Nvidia硬件上。

Google将其称为"workhorse model(工作马)",意味着它可能不是最聪明的那一个,但一定是跑得最稳、最划算的那个。

Vertex AI的全模态升级

Vertax AI

https://cloud.google.com/vertex-ai

Google大幅强化了Vertex AI在多模态生成方面的能力,使其成为市面上罕见的同时支持视频、图像、语音、音乐生成的云端平台。

  1. Veo 2(视频生成):新增编辑和摄像机控制,支持在两张静态图像之间插值生成自然的视频过渡,也可以自动抠图并扩展原始视频背景。营销、影视、广告公司都能用它来快速制作和迭代视频素材。

效果一:两张静态图像之间插值生成自然的视频过渡效果二:横竖屏转换效果三:镜头编辑。比如下面绳索移除。

  1. Image 3(图像生成):场景智能扩展,对象移除自然过渡

  2. Chirp 3(语音合成):十秒音频定制语音,客服TTS神器TTS(Text-To-Speech)。

  3. Lyria(文本到音乐):可直接通过文本提示生成完整的音乐片段,覆盖多种曲风与主题。 

我到是觉得这里用的好的话,有点像文案+设计+剪辑+配音=一个AI通才。

Agent2Agent 协议:让AI之间也能"聊得来"

在AI Agent快速涌现的当下,从企业内部的流程自动化,到面向用户的多轮对话系统,Agent正在承担越来越多任务。然而,不同框架/厂商之间的Agent彼此无法交流,成了最大障碍。

为了解决这一问题,Google联合50多家技术伙伴(如Atlassian、Box、Langchain、Salesforce、ServiceNow、MongoDB等)正式发布了 Agent2Agent(A2A)开源协议,标志着 "AI Agent互操作新时代" 的到来。

谷歌Agent A2A:

https://github.com/google/A2A

先来看一段官方演示。视频概括:

一个Agent负责候选人简历筛选,另一个Agent负责面试调度,第三个Agent负责背景调查——它们可以通过A2A协议像人一样协同工作,从而极大提升效率与自动化水平。

Google主导的开源协议Agent2Agent (A2A) 正在为AI系统建立一种通用的交互语言。

它的亮点在于:

  • 异构协作:无论用的是LangGraph、Genkit还是CrewAI,基于A2A都能互联互通。
  • 结构化通信:任务分阶段管理(提交、处理中、等待输入、完成等),内容用"消息+部分"打包,既清晰又灵活。
  • 推送 & 流式支持:支持实时SSE流+Webhook,能感知任务进展、结果变更。
  • 与Anthropic的MCP协议互补:A2A解决多Agent协同,MCP则负责上下文与提示注入,构成企业级Agent系统的"双协议底座"

Google预计将在今年内正式推 A2A 协议,并开放贡献通道,推动其成为AI Agent界的"TCP/IP"。它的出现,很可能会让我们对"AI协作"的想象力,再次升级。

Krillin AI:AI配音视频神器

上面谷歌的视频编辑,音频处理,需要你氪金才能使用,但是别担心我为你们找来了开源平替版!

上线首日拿下GitHub热榜第二!

Krillin AI:

https://github.com/krillinai/KrillinAI

多种字幕翻译

人声配音

横竖屏转换: 

核心功能:

  • Whisper高精度识别 + LLM段落级翻译
  • 音色克隆 + CosyVoice
  • 横竖屏切换、字幕对齐自然
  • 桌面版/非桌面版全支持,Win/Mac/Docker都能跑

适配平台包括B站、小红书、抖音、视频号、YouTube、TikTok,几乎无缝对接内容创作者的全平台需求。

MarkItDown:文档到Markdown的极简利器

你是否经常需要处理各种格式文档,用于 LLM 训练、摘要提取、RAG 等流程?

微软团队打造的 MarkItDown 是一个开源小工具,却能极大提高效率。

MarkItDown:

https://github.com/microsoft/markitdown

它支持什么?

  • PDF / Word / PPT / Excel / HTML / 音频 / 图片 / EPUB / YouTube链接
  • OCR识别、结构保留、支持插件扩展
  • 支持命令行 + Python API,开发者友好

尤其适合内容抽取、语料整理、知识库构建等应用场景。

写在最后

从Google的Ironwood芯片,到Krillin AI的开源全能神器;从AI协作协议A2A,到MarkItDown的极简数据清洗工具,我们看到的是AI能力从"实验室"迈向"生产一线"。

AI工具正从"能用"进化为"真正好用"

而你我作为使用者,也在这个过程中,逐步掌握属于自己的"AI生产力"。

如果喜欢这类内容,别忘了点赞关注~

下期我们会带来更多有趣的AI前沿前沿工具 & 实战玩法!我是 Jack,我们下期再见!

·················END·················

没有评论:

发表评论

惊天Bug!免费薅3个月CursorPro会员

惊天Bug!免费薅3个月CursorPro会员perplexity放福利,免费领三个月cursor会员 perplexity pro放福利了,只要是pro用户,可以领取优惠。 惊天Bug!免费薅3个月CursorPro会员 perplexity放福利,免费领三个月cursor...