AI I024: Google Gemini Embedding 2：原生多模态嵌入模型，统一文本/图像/视频/音频/文档，现公开预览

2026年3月14日星期六

Google Gemini Embedding 2：原生多模态嵌入模型，统一文本/图像/视频/音频/文档，现公开预览

Google Gemini Embedding 2是首个原生多模态嵌入模型，可将文本、图像、视频、音频、文档统一嵌入同一向量空间。适用于RAG、语义搜索等，性能超越领先模型。现通过Gemini API和Vertex AI公开预览。支持100+语言，图像最多6张，视频120秒，文档6页。采用MRL技术动态缩减维度。

Tags:

Gemini Embedding 2

多模态嵌入模型

RAG

语义搜索

MRL

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

Google提出的Gemini Embedding 2 是第一个基于 Gemini 架构构建的全多模态嵌入模型，可通过Gemini API和Vertex AI进行公开预览。可将文本、图像、视频、音频和文档映射到一个统一的嵌入空间，并能捕捉超过 100 种语言的语义意图。这简化了复杂的流程，并增强了各种多模态下游任务的性能，从检索增强生成 (RAG) 和语义搜索到情感分析和数据聚类。

Gemini Embedding 2也采用了 Matryoshka 表示学习 (MRL) 技术，该技术通过动态缩减维度来"嵌套"信息。这使得输出维度可以从默认的 3072 维灵活缩减，从而让开发者能够平衡性能和存储成本。

unsetunset相关链接unsetunset

博客：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
API：https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview?hl=zh-cn

unsetunset功能介绍unsetunset

该模型基于 Gemini，并利用其一流的多模态理解能力，创建高质量的跨模态嵌入：

文本：支持最多 8192 个输入标记的扩展上下文
图像处理：每次请求最多可处理 6 张图像，支持 PNG 和 JPEG 格式
视频：支持输入最长 120 秒的 MP4 和 MOV 格式视频
音频：原生支持音频数据的导入和嵌入，无需中间文本转录。
文档：直接嵌入最多 6 页的 PDF 文件

除了逐个处理单一模态数据外，该模型还原生支持交错输入，因此您可以在单个请求中传递多种模态的输入（例如，图像+文本）。这使得模型能够捕捉不同媒体类型之间复杂而微妙的关系，从而更准确地理解复杂的真实世界数据。

unsetunset一流的性能unsetunset

Gemini Embedding 2 不仅仅是对传统模型的改进，它还为多模态深度建模树立了新的性能标杆，引入了强大的语音处理能力，并在文本、图像和视频任务中超越了领先的模型。这种可衡量的性能提升和独特的多模态覆盖范围，能够精准满足开发者多样化的嵌入需求。

unsetunset使用教程unsetunset

通过Gemini API或Vertex AI开始使用 Gemini Embedding 2 模型。

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年3月14日星期六

Google Gemini Embedding 2：原生多模态嵌入模型，统一文本/图像/视频/音频/文档，现公开预览

Tags:

Gemini Embedding 2

多模态嵌入模型

RAG

语义搜索

MRL

unsetunset相关链接unsetunset

unsetunset功能介绍unsetunset

unsetunset一流的性能unsetunset

unsetunset使用教程unsetunset

没有评论:

发表评论

AI热点监控Skill免费安装，让Agent自动生成AI日报

标签

2026年3月14日星期六

Google Gemini Embedding 2：原生多模态嵌入模型，统一文本/图像/视频/音频/文档，现公开预览

Tags: Gemini Embedding 2 多模态嵌入模型 RAG 语义搜索 MRL

unsetunset相关链接unsetunset

unsetunset功能介绍unsetunset

unsetunset一流的性能unsetunset

unsetunset使用教程unsetunset

没有评论:

发表评论

AI热点监控Skill免费安装，让Agent自动生成AI日报

Tags:

Gemini Embedding 2

多模态嵌入模型

RAG

语义搜索

MRL