Gemini API File Search 重大更新:多模态 RAG 支持图片、音频与视频搜索
2026 年 5 月初,Google 在 I/O 大会上宣布了 Gemini API File Search 工具的三项重大更新:多模态支持、自定义元数据(Custom Metadata)以及页面级引用(Page-level Citations)。这些更新让开发者可以用更少的代码构建更高效的 RAG(检索增强生成)系统。
发生了什么变化?
在此之前,Gemini API 的 File Search 只支持文本文件的索引和搜索。你需要先将图片、PDF 扫描件等非文本文件转成文字才能搜索。现在,File Search 原生理解图像、音频和视频内容——底层由 Gemini Embedding 2 模型驱动,AI Agent 可以直接根据自然语言描述找到匹配的视觉素材。
具体来说,这次更新包含三个核心功能:
- 多模态搜索:在同一索引中混合存储和检索文本与图片
- 自定义元数据:为文件附加 key-value 标签,查询时精确筛选
- 页面级引用:搜索结果附带具体来源页面,提升可验证性
多模态搜索:给你的应用装上”图片记忆”
最引人注目的更新是多模态搜索能力。想象一个创意设计团队要找一个特定情感风格的视觉素材——以前只能靠文件名关键词,现在可以直接用自然语言描述来搜索:
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
file_store = client.http_request(
"POST",
"/fileStores",
{
"display_name": "my multimodal file store"
}
)
搜索时,只需传入文本查询参数,API 会自动在文图和混合索引中匹配:
response = client.models.generate_content(
model="gemini-2.5-pro",
contents="找一张传达'紧迫感'的设计素材图",
config={
"tools": [{"file_search": {"file_store_id": file_store.id}}]
}
)
据 Code Fundi 创始人 Felix Waweru 的反馈,多模态搜索功能让他们构建的 AI Agent 节省了超过 50% 的上下文窗口——不用再全文检索,而是直接精确定位到目标素材。
自定义元数据:为数据打标签,告别”大海捞针”
第二个重磅更新是自定义元数据(Custom Metadata)。你可以为每个上传的文件附加键值对标签,如 department: Legal、status: Final 或 project: Alpha。然后在查询时通过元数据过滤器精准限定搜索范围:
file = client.files.upload(
path="quarterly_report.pdf",
config={
"display_name": "Q1 财报",
"metadata": {
"department": "Finance",
"quarter": "2026-Q1",
"status": "Final"
}
}
)
response = client.models.generate_content(
model="gemini-2.5-pro",
contents="去年的营收趋势如何?",
config={
"tools": [{
"file_search": {
"file_store_id": file_store.id,
"metadata_filter": "department: 'Finance'"
}
}]
}
)
这对企业级 RAG 应用至关重要:当你只想搜索法律部门的合同文件时,不用再受无关文档的干扰。
页面级引用:让 AI 的回答有据可查
第三个更新解决了 RAG 系统最大的痛点——回答的可验证性。现在 File Search 的搜索结果会标注具体的来源页面,Agent 可以在回答中引用这些页面:
根据《2026Q1 财报》第 12 页的数据,营收同比增长 23%。 (来源:quarterly_report.pdf, 第 12 页)
这个能力在多文档对比分析场景中极为实用——你可以直接追踪每个论点的具体出处,而不是只看到一个模糊的”来源”标签。
对开发者的实际意义
这三项更新组合起来,意味着你可以:
- 用更少的 token 获得更精确的检索结果(元数据过滤 + 多模态直接匹配)
- 处理更多类型的数据(图片、扫描件不再需要 OCR 预处理)
- 构建更可信的 Agent(页面引用让用户能验证 AI 的回答)
从定价来看,File Search 按存储量和查询量计费,多模态文件(图片、音频、视频)的存储成本高于纯文本文件,但考虑到它省去了额外的 OCR 或转录管道,整体成本可能反而更低。
更多代码示例可以参考 Google 的官方开发者指南。
总结
Gemini API File Search 的这次更新并不花哨,但它解决的是 RAG 系统中几个最实际的痛点:搜索精度、数据类型限制和结果可验证性。如果你正在用 Gemini API 构建 AI Agent 或知识库应用,这三个新功能值得立即尝试——尤其是自定义元数据和多模态支持,它们能直接提升检索质量和开发效率。