2026年5月31日 1 分钟阅读

Gemini API File Search 重大更新:多模态 RAG 支持图片、音频与视频搜索

tinyash 0 条评论

2026 年 5 月初,Google 在 I/O 大会上宣布了 Gemini API File Search 工具的三项重大更新:多模态支持、自定义元数据(Custom Metadata)以及页面级引用(Page-level Citations)。这些更新让开发者可以用更少的代码构建更高效的 RAG(检索增强生成)系统。

发生了什么变化?

在此之前,Gemini API 的 File Search 只支持文本文件的索引和搜索。你需要先将图片、PDF 扫描件等非文本文件转成文字才能搜索。现在,File Search 原生理解图像、音频和视频内容——底层由 Gemini Embedding 2 模型驱动,AI Agent 可以直接根据自然语言描述找到匹配的视觉素材。

具体来说,这次更新包含三个核心功能:

  1. 多模态搜索:在同一索引中混合存储和检索文本与图片
  2. 自定义元数据:为文件附加 key-value 标签,查询时精确筛选
  3. 页面级引用:搜索结果附带具体来源页面,提升可验证性

多模态搜索:给你的应用装上”图片记忆”

最引人注目的更新是多模态搜索能力。想象一个创意设计团队要找一个特定情感风格的视觉素材——以前只能靠文件名关键词,现在可以直接用自然语言描述来搜索:

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

file_store = client.http_request(
    "POST",
    "/fileStores",
    {
        "display_name": "my multimodal file store"
    }
)

搜索时,只需传入文本查询参数,API 会自动在文图和混合索引中匹配:

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="找一张传达'紧迫感'的设计素材图",
    config={
        "tools": [{"file_search": {"file_store_id": file_store.id}}]
    }
)

据 Code Fundi 创始人 Felix Waweru 的反馈,多模态搜索功能让他们构建的 AI Agent 节省了超过 50% 的上下文窗口——不用再全文检索,而是直接精确定位到目标素材。

自定义元数据:为数据打标签,告别”大海捞针”

第二个重磅更新是自定义元数据(Custom Metadata)。你可以为每个上传的文件附加键值对标签,如 department: Legalstatus: Finalproject: Alpha。然后在查询时通过元数据过滤器精准限定搜索范围:

file = client.files.upload(
    path="quarterly_report.pdf",
    config={
        "display_name": "Q1 财报",
        "metadata": {
            "department": "Finance",
            "quarter": "2026-Q1",
            "status": "Final"
        }
    }
)

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="去年的营收趋势如何?",
    config={
        "tools": [{
            "file_search": {
                "file_store_id": file_store.id,
                "metadata_filter": "department: 'Finance'"
            }
        }]
    }
)

这对企业级 RAG 应用至关重要:当你只想搜索法律部门的合同文件时,不用再受无关文档的干扰。

页面级引用:让 AI 的回答有据可查

第三个更新解决了 RAG 系统最大的痛点——回答的可验证性。现在 File Search 的搜索结果会标注具体的来源页面,Agent 可以在回答中引用这些页面:

根据《2026Q1 财报》第 12 页的数据,营收同比增长 23%。
(来源:quarterly_report.pdf, 第 12 页)

这个能力在多文档对比分析场景中极为实用——你可以直接追踪每个论点的具体出处,而不是只看到一个模糊的”来源”标签。

对开发者的实际意义

这三项更新组合起来,意味着你可以:

  • 用更少的 token 获得更精确的检索结果(元数据过滤 + 多模态直接匹配)
  • 处理更多类型的数据(图片、扫描件不再需要 OCR 预处理)
  • 构建更可信的 Agent(页面引用让用户能验证 AI 的回答)

从定价来看,File Search 按存储量和查询量计费,多模态文件(图片、音频、视频)的存储成本高于纯文本文件,但考虑到它省去了额外的 OCR 或转录管道,整体成本可能反而更低。

更多代码示例可以参考 Google 的官方开发者指南

总结

Gemini API File Search 的这次更新并不花哨,但它解决的是 RAG 系统中几个最实际的痛点:搜索精度、数据类型限制和结果可验证性。如果你正在用 Gemini API 构建 AI Agent 或知识库应用,这三个新功能值得立即尝试——尤其是自定义元数据和多模态支持,它们能直接提升检索质量和开发效率。

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。