2024年12月13日星期五

谷歌Gemini 吊打了 OpenAI 的期货实时多模态,6 炸了


Gemini2.0 flash这波低调又奢华,
性价比吊打了之前 openai 放的 real-time 语音能力,
谷歌今天在 ai.studio 里面有两个主要更新:

主要谈谈Stream Realtime:流式响应

有三种玩法:
- 简单的实时和 Gemini 语音谈话
- 分享电脑的摄像头画面实时地和 Gemini 交流
- 分享电脑上的屏幕实时地和 Gemini 交流
后面两项就是之前 openai n 年前放出的实时多模态 demo,没想到谷歌今天低调地放出了,太 6 了。

本来我还想做一个LLM陪同读书的简单应用,没想到Gemini 直接实现了。
打开一本书,选择第三种屏幕共享方式,选择WPS作为屏幕的共享

这里我选择了以 text(文本)为输出,这里实际上是支持音频输出的,只不过好像一直回答的是日文,中文输出不算好。
比如看到不熟悉的概念,比如金本位制,直接用嘴提问:


运用场景太多了,目前已经有人利用视觉能力直接开干了:
- 有实时教程的,从零开始布置一个 discord 频道
- 有空间理解的,镜头环绕空的房间给出房间布置的建议
- 有视频理解的,快速抓取视频的指定内容等等

给一个厨房图,分析各种厨具的地理分布,给出分布图:

比如这里网友让他根据草图画一个房间布置,同时放入一个杯子:

还有谷歌 Map 的炫酷功能,让他找出附近曾经在古老的时候是很富有的地方:

还有值得提及的是 Gemini2.0flash 的故事板能力也是相当的强,比如这里让它直接做一个 4 格的狗狗漫画:
图文混排能力很强。

原来谷歌昨天涨的不是量子,而是 Gemini。
后续更多的玩法更新在星球,
完。

没有评论:

发表评论

免费图像编辑模型Flux-Kontex-dev的ComfyUI整合包,包含多个模型,单图、多图编辑工作流,工具已打包,一键启动

AI应用帮,帮你用AI 公众号:AI应用帮 「   文中提供获取方式   」 ▼ 本期 带 来 图像编辑模型的ComfyUI整合包   — —   Flux-Kontex-dev FLUX.1Kontext-dev 是一款震撼发布的开源图像编辑模型,采用12亿参数的流匹配架构...