2026年3月14日星期六

Google Gemini Embedding 2:原生多模态嵌入模型,统一文本/图像/视频/音频/文档,现公开预览

Google Gemini Embedding 2是首个原生多模态嵌入模型,可将文本、图像、视频、音频、文档统一嵌入同一向量空间。适用于RAG、语义搜索等,性能超越领先模型。现通过Gemini API和Vertex AI公开预览。支持100+语言,图像最多6张,视频120秒,文档6页。采用MRL技术动态缩减维度。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片
图片

Google提出的Gemini Embedding 2 是第一个基于 Gemini 架构构建的全多模态嵌入模型,可通过Gemini API和Vertex AI进行公开预览。可将文本、图像、视频、音频和文档映射到一个统一的嵌入空间,并能捕捉超过 100 种语言的语义意图。这简化了复杂的流程,并增强了各种多模态下游任务的性能,从检索增强生成 (RAG) 和语义搜索到情感分析和数据聚类。

图片Gemini Embedding 2也采用了 Matryoshka 表示学习 (MRL) 技术,该技术通过动态缩减维度来"嵌套"信息。这使得输出维度可以从默认的 3072 维灵活缩减,从而让开发者能够平衡性能和存储成本。

unsetunset相关链接unsetunset

  • 博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
  • API:https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview?hl=zh-cn

unsetunset功能介绍unsetunset

该模型基于 Gemini,并利用其一流的多模态理解能力,创建高质量的跨模态嵌入:

  • 文本:支持最多 8192 个输入标记的扩展上下文
  • 图像处理:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式
  • 视频:支持输入最长 120 秒的 MP4 和 MOV 格式视频
  • 音频:原生支持音频数据的导入和嵌入,无需中间文本转录。
  • 文档:直接嵌入最多 6 页的 PDF 文件

除了逐个处理单一模态数据外,该模型还原生支持交错输入,因此您可以在单个请求中传递多种模态的输入(例如,图像+文本)。这使得模型能够捕捉不同媒体类型之间复杂而微妙的关系,从而更准确地理解复杂的真实世界数据。

unsetunset一流的性能unsetunset

Gemini Embedding 2 不仅仅是对传统模型的改进,它还为多模态深度建模树立了新的性能标杆,引入了强大的语音处理能力,并在文本、图像和视频任务中超越了领先的模型。这种可衡量的性能提升和独特的多模态覆盖范围,能够精准满足开发者多样化的嵌入需求。图片

unsetunset使用教程unsetunset

通过Gemini API或Vertex AI开始使用 Gemini Embedding 2 模型。

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png""rb") as f:
    image_bytes = f.read()

with open("sample.mp3""rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

OpenClaw-RL强化学习框架:通过自然交互持续训练智能体

OpenClaw-RL是首个通过自然交互进行强化学习的统一框架,支持个人智能体个性化优化与终端、GUI、SWE等通用智能体规模化训练。它利用交互中的下一状态信号,结合二元RL与后见之明蒸馏,实现边聊天边训练,无需人工标注。适用于AI开发者和研究者探索高效智能体训练方法。 Tags...