Google Gemini Embedding 2是首个原生多模态嵌入模型,可将文本、图像、视频、音频、文档统一嵌入同一向量空间。适用于RAG、语义搜索等,性能超越领先模型。现通过Gemini API和Vertex AI公开预览。支持100+语言,图像最多6张,视频120秒,文档6页。采用MRL技术动态缩减维度。
Tags:
Google提出的Gemini Embedding 2 是第一个基于 Gemini 架构构建的全多模态嵌入模型,可通过Gemini API和Vertex AI进行公开预览。可将文本、图像、视频、音频和文档映射到一个统一的嵌入空间,并能捕捉超过 100 种语言的语义意图。这简化了复杂的流程,并增强了各种多模态下游任务的性能,从检索增强生成 (RAG) 和语义搜索到情感分析和数据聚类。
Gemini Embedding 2也采用了 Matryoshka 表示学习 (MRL) 技术,该技术通过动态缩减维度来"嵌套"信息。这使得输出维度可以从默认的 3072 维灵活缩减,从而让开发者能够平衡性能和存储成本。
相关链接
博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/ API:https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview?hl=zh-cn
功能介绍
该模型基于 Gemini,并利用其一流的多模态理解能力,创建高质量的跨模态嵌入:
文本:支持最多 8192 个输入标记的扩展上下文 图像处理:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式 视频:支持输入最长 120 秒的 MP4 和 MOV 格式视频 音频:原生支持音频数据的导入和嵌入,无需中间文本转录。 文档:直接嵌入最多 6 页的 PDF 文件
除了逐个处理单一模态数据外,该模型还原生支持交错输入,因此您可以在单个请求中传递多种模态的输入(例如,图像+文本)。这使得模型能够捕捉不同媒体类型之间复杂而微妙的关系,从而更准确地理解复杂的真实世界数据。
一流的性能
Gemini Embedding 2 不仅仅是对传统模型的改进,它还为多模态深度建模树立了新的性能标杆,引入了强大的语音处理能力,并在文本、图像和视频任务中超越了领先的模型。这种可衡量的性能提升和独特的多模态覆盖范围,能够精准满足开发者多样化的嵌入需求。
使用教程
通过Gemini API或Vertex AI开始使用 Gemini Embedding 2 模型。
from google import genai
from google.genai import types
# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
client = genai.Client()
with open("example.png", "rb") as f:
image_bytes = f.read()
with open("sample.mp3", "rb") as f:
audio_bytes = f.read()
# Embed text, image, and audio
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)
print(result.embeddings)感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论