Google 实验室展示了其多模式 Gemini 2.0 Flash 模型的新功能,展示了用户现在如何通过简单的点击和文本提示与图像进行交互。视觉和语言处理的结合实现了新的应用。
Gemini 2.0 Flash优势如下
Gemini 2.0 Flash能做什么
多模态能力:可以同时理解文字、图像,并在二者之间建立联系。 智能推理:能够结合现实世界的知识,生成准确的视觉内容。 自然语言交互:支持用户通过对话方式调整修改图片,类似 AI 画师助手。
Gemini 2.0 Flash效果展示
1. 文字与图片相结合
使用 Gemini 2.0 Flash 讲述一个故事,它会用图片来说明,始终保持人物和场景的一致性。给它反馈,模型会重新讲述故事或改变其绘画风格。
2. 对话式图像编辑
Gemini 2.0 Flash 可帮助您通过多轮自然语言对话来编辑图像,非常适合迭代以获得完美的图像,或一起探索不同的想法。
3. 了解世界
与许多其他图像生成模型不同,Gemini 2.0 Flash 利用世界知识和增强推理来创建正确的图像。这使得它非常适合创建逼真的详细图像 - 例如说明食谱。虽然它像所有语言模型一样追求准确性,但它的知识是广泛而一般的,而不是绝对或完整的。
4. 文本渲染
大多数图像生成模型都难以准确渲染长文本序列,这通常会导致格式错误或字符难以辨认,或出现拼写错误。内部基准测试表明,2.0 Flash 的渲染能力比领先的竞争模型更强,非常适合创建广告、社交帖子甚至邀请函。
模型特色
Gemini 2.0 Flash 提供全面的功能,包括原生工具使用、100 万个 token 上下文窗口和多模式输入。它目前支持文本输出,具有图像和音频输出功能,并且计划在未来几个月内全面推出 Multimodal Live API。Gemini 2.0 Flash-Lite 针对大规模文本输出用例进行了成本优化。
模型性能 Gemini 2.0 型号在一系列基准测试中比 Gemini 1.5 有显著的性能提升。
模型定价
我们继续通过 Gemini 2.0 Flash 和 2.0 Flash-Lite 降低成本。两者均采用单一的输入类型价格,消除了 Gemini 1.5 Flash 在短上下文请求和长上下文请求之间的区别。这意味着,尽管 2.0 Flash 和 Flash-Lite 都提供了性能改进,但混合上下文工作负载下的成本都低于 Gemini 1.5 Flash。
相关链接
试用:https://aistudio.google.com/prompts/new_chat
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论