2024年12月12日星期四

谷歌Gemini 吊打了 OpenAI 的期货实时多模态,6 炸了


Gemini2.0 flash这波低调又奢华,
性价比吊打了之前 openai 放的 real-time 语音能力,
谷歌今天在 ai.studio 里面有两个主要更新:

主要谈谈Stream Realtime:流式响应

有三种玩法:
- 简单的实时和 Gemini 语音谈话
- 分享电脑的摄像头画面实时地和 Gemini 交流
- 分享电脑上的屏幕实时地和 Gemini 交流
后面两项就是之前 openai n 年前放出的实时多模态 demo,没想到谷歌今天低调地放出了,太 6 了。

本来我还想做一个LLM陪同读书的简单应用,没想到Gemini 直接实现了。
打开一本书,选择第三种屏幕共享方式,选择WPS作为屏幕的共享

这里我选择了以 text(文本)为输出,这里实际上是支持音频输出的,只不过好像一直回答的是日文,中文输出不算好。
比如看到不熟悉的概念,比如金本位制,直接用嘴提问:


运用场景太多了,目前已经有人利用视觉能力直接开干了:
- 有实时教程的,从零开始布置一个 discord 频道
- 有空间理解的,镜头环绕空的房间给出房间布置的建议
- 有视频理解的,快速抓取视频的指定内容等等

给一个厨房图,分析各种厨具的地理分布,给出分布图:

比如这里网友让他根据草图画一个房间布置,同时放入一个杯子:

还有谷歌 Map 的炫酷功能,让他找出附近曾经在古老的时候是很富有的地方:

还有值得提及的是 Gemini2.0flash 的故事板能力也是相当的强,比如这里让它直接做一个 4 格的狗狗漫画:
图文混排能力很强。

原来谷歌昨天涨的不是量子,而是 Gemini。
后续更多的玩法更新在星球,
完。

没有评论:

发表评论

马斯克高调宣布Grok 4明天发布,跑分吊打GPT和Claude,AI三国杀的格局彻底改写

当AI能够通过\x26quot;人类最后考试\x26quot;的近半试题时,我们是否已经站在了智能时代的分水岭?\x0d\x0a答案是肯定的,而且这个分水岭就在明天——北京时间7月11日上午11点。\x0d\x0a最聪明的人不是预测未来,而是创造未来。\x0d\x0a最幸运的人不...