AI I024: 谷歌Gemini 吊打了 OpenAI 的期货实时多模态，6 炸了

2024年12月12日星期四

Gemini2.0 flash这波低调又奢华，

性价比吊打了之前 openai 放的 real-time 语音能力，

谷歌今天在 ai.studio 里面有两个主要更新：

主要谈谈Stream Realtime：流式响应

有三种玩法：

- 简单的实时和 Gemini 语音谈话

- 分享电脑的摄像头画面实时地和 Gemini 交流

- 分享电脑上的屏幕实时地和 Gemini 交流

后面两项就是之前 openai n 年前放出的实时多模态 demo，没想到谷歌今天低调地放出了，太 6 了。

本来我还想做一个LLM陪同读书的简单应用，没想到Gemini 直接实现了。

打开一本书，选择第三种屏幕共享方式，选择WPS作为屏幕的共享

这里我选择了以 text（文本）为输出，这里实际上是支持音频输出的，只不过好像一直回答的是日文，中文输出不算好。

比如看到不熟悉的概念，比如金本位制，直接用嘴提问：

运用场景太多了，目前已经有人利用视觉能力直接开干了：

- 有实时教程的，从零开始布置一个 discord 频道

- 有空间理解的，镜头环绕空的房间给出房间布置的建议

- 有视频理解的，快速抓取视频的指定内容等等

给一个厨房图，分析各种厨具的地理分布，给出分布图：

比如这里网友让他根据草图画一个房间布置，同时放入一个杯子：

还有谷歌 Map 的炫酷功能，让他找出附近曾经在古老的时候是很富有的地方：

还有值得提及的是 Gemini2.0flash 的故事板能力也是相当的强，比如这里让它直接做一个 4 格的狗狗漫画：

图文混排能力很强。

原来谷歌昨天涨的不是量子，而是 Gemini。

后续更多的玩法更新在星球，

完。