AI 2026年5月31日 1 分钟阅读

Gemini API File Search 重大更新：多模态 RAG 支持图片、音频与视频搜索

tinyash 0 条评论

文章信息

发布时间 2026年5月31日
作者 tinyash
阅读时长 1 分钟阅读

2026 年 5 月初，Google 在 I/O 大会上宣布了 Gemini API File Search 工具的三项重大更新：多模态支持、自定义元数据（Custom Metadata）以及页面级引用（Page-level Citations）。这些更新让开发者可以用更少的代码构建更高效的 RAG（检索增强生成）系统。

发生了什么变化？

在此之前，Gemini API 的 File Search 只支持文本文件的索引和搜索。你需要先将图片、PDF 扫描件等非文本文件转成文字才能搜索。现在，File Search 原生理解图像、音频和视频内容——底层由 Gemini Embedding 2 模型驱动，AI Agent 可以直接根据自然语言描述找到匹配的视觉素材。

具体来说，这次更新包含三个核心功能：

多模态搜索：在同一索引中混合存储和检索文本与图片
自定义元数据：为文件附加 key-value 标签，查询时精确筛选
页面级引用：搜索结果附带具体来源页面，提升可验证性

多模态搜索：给你的应用装上”图片记忆”

最引人注目的更新是多模态搜索能力。想象一个创意设计团队要找一个特定情感风格的视觉素材——以前只能靠文件名关键词，现在可以直接用自然语言描述来搜索：

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

file_store = client.http_request(
    "POST",
    "/fileStores",
    {
        "display_name": "my multimodal file store"
    }
)

搜索时，只需传入文本查询参数，API 会自动在文图和混合索引中匹配：

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="找一张传达'紧迫感'的设计素材图",
    config={
        "tools": [{"file_search": {"file_store_id": file_store.id}}]
    }
)

据 Code Fundi 创始人 Felix Waweru 的反馈，多模态搜索功能让他们构建的 AI Agent 节省了超过 50% 的上下文窗口——不用再全文检索，而是直接精确定位到目标素材。

自定义元数据：为数据打标签，告别”大海捞针”

第二个重磅更新是自定义元数据（Custom Metadata）。你可以为每个上传的文件附加键值对标签，如 department: Legal、status: Final 或 project: Alpha。然后在查询时通过元数据过滤器精准限定搜索范围：

file = client.files.upload(
    path="quarterly_report.pdf",
    config={
        "display_name": "Q1 财报",
        "metadata": {
            "department": "Finance",
            "quarter": "2026-Q1",
            "status": "Final"
        }
    }
)

response = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="去年的营收趋势如何？",
    config={
        "tools": [{
            "file_search": {
                "file_store_id": file_store.id,
                "metadata_filter": "department: 'Finance'"
            }
        }]
    }
)

这对企业级 RAG 应用至关重要：当你只想搜索法律部门的合同文件时，不用再受无关文档的干扰。

页面级引用：让 AI 的回答有据可查

第三个更新解决了 RAG 系统最大的痛点——回答的可验证性。现在 File Search 的搜索结果会标注具体的来源页面，Agent 可以在回答中引用这些页面：

根据《2026Q1 财报》第 12 页的数据，营收同比增长 23%。
（来源：quarterly_report.pdf, 第 12 页）

这个能力在多文档对比分析场景中极为实用——你可以直接追踪每个论点的具体出处，而不是只看到一个模糊的”来源”标签。

对开发者的实际意义

这三项更新组合起来，意味着你可以：

用更少的 token 获得更精确的检索结果（元数据过滤 + 多模态直接匹配）
处理更多类型的数据（图片、扫描件不再需要 OCR 预处理）
构建更可信的 Agent（页面引用让用户能验证 AI 的回答）

从定价来看，File Search 按存储量和查询量计费，多模态文件（图片、音频、视频）的存储成本高于纯文本文件，但考虑到它省去了额外的 OCR 或转录管道，整体成本可能反而更低。

更多代码示例可以参考 Google 的官方开发者指南。

总结

Gemini API File Search 的这次更新并不花哨，但它解决的是 RAG 系统中几个最实际的痛点：搜索精度、数据类型限制和结果可验证性。如果你正在用 Gemini API 构建 AI Agent 或知识库应用，这三个新功能值得立即尝试——尤其是自定义元数据和多模态支持，它们能直接提升检索质量和开发效率。

AI AI Tools AI新闻教程