2025年3月15日星期六

创意图像编辑黑科技!Google上线Gemini 2。0 Flash 原生图像生成功能,动动嘴就能完成PS了!




Google 实验室展示了其多模式 Gemini 2.0 Flash 模型的新功能,展示了用户现在如何通过简单的点击和文本提示与图像进行交互。视觉和语言处理的结合实现了新的应用。

Gemini 2.0 Flash优势如下

Gemini 2.0 Flash能做什么

  1. 多模态能力:可以同时理解文字、图像,并在二者之间建立联系。
  2. 智能推理:能够结合现实世界的知识,生成准确的视觉内容。
  3. 自然语言交互:支持用户通过对话方式调整修改图片,类似 AI 画师助手。

Gemini 2.0 Flash效果展示

1. 文字与图片相结合 

使用 Gemini 2.0 Flash 讲述一个故事,它会用图片来说明,始终保持人物和场景的一致性。给它反馈,模型会重新讲述故事或改变其绘画风格。

2. 对话式图像编辑 

Gemini 2.0 Flash 可帮助您通过多轮自然语言对话来编辑图像,非常适合迭代以获得完美的图像,或一起探索不同的想法。

3. 了解世界

 与许多其他图像生成模型不同,Gemini 2.0 Flash 利用世界知识和增强推理来创建正确的图像。这使得它非常适合创建逼真的详细图像 - 例如说明食谱。虽然它像所有语言模型一样追求准确性,但它的知识是广泛而一般的,而不是绝对或完整的。

4. 文本渲染

 大多数图像生成模型都难以准确渲染长文本序列,这通常会导致格式错误或字符难以辨认,或出现拼写错误。内部基准测试表明,2.0 Flash 的渲染能力比领先的竞争模型更强,非常适合创建广告、社交帖子甚至邀请函。


模型特色

Gemini 2.0 Flash 提供全面的功能,包括原生工具使用、100 万个 token 上下文窗口和多模式输入。它目前支持文本输出,具有图像和音频输出功能,并且计划在未来几个月内全面推出 Multimodal Live API。Gemini 2.0 Flash-Lite 针对大规模文本输出用例进行了成本优化。

模型性能 Gemini 2.0 型号在一系列基准测试中比 Gemini 1.5 有显著的性能提升。

模型定价

我们继续通过 Gemini 2.0 Flash 和 2.0 Flash-Lite 降低成本。两者均采用单一的输入类型价格,消除了 Gemini 1.5 Flash 在短上下文请求和长上下文请求之间的区别。这意味着,尽管 2.0 Flash 和 Flash-Lite 都提供了性能改进,但混合上下文工作负载下的成本都低于 Gemini 1.5 Flash。

相关链接

  • 试用:https://aistudio.google.com/prompts/new_chat



感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

从小学到高考,chatGPT如何定制你的专属题库?

一起来,走进ai新时代。 公众号:元小二学AI 为大家分享最新的Ai工具资讯, 关注并设置星标,再也不会错过各种工具信息! 欢迎来到我们这个充满魔法的AI工具小天地!在这里,我们不卖海洋球,只提供你意想不到的免费办公软件。想象一下,有了这些神器,你的工作效率会飙升,就像喝了加...