Термин RAG и поиск по документам Средний

Metadata filtering

Metadata filtering - это фильтрация документов или фрагментов по метаданным перед выдачей в RAG: по источнику, дате, типу документа, правам доступа, продукту, языку или статусу актуальности.

metadata filters фильтрация по метаданным RAG filters retrieval filters фильтры поиска metadata-based retrieval фильтрация chunk pre-filtering

Metadata filtering нужен, когда AI-система ищет ответ не во всей базе знаний подряд, а только в подходящей части индекса. Например, агенту можно разрешить искать только в опубликованных инструкциях, только по нужному продукту, только в документах конкретного клиента или только среди файлов, к которым у пользователя есть доступ.

Метаданные - это структурированные поля вокруг документа или chunk: источник, тип документа, дата обновления, автор, владелец, отдел, язык, продукт, регион, версия, статус, теги, уровень доступа, customer_id, project_id, valid_from и valid_until. Сам текст отвечает на вопрос "о чем документ", а метаданные отвечают на вопрос "какой это документ и можно ли его использовать".

В RAG metadata filtering обычно работает вместе с vector search, keyword search или гибридным поиском. Система сначала сужает область поиска фильтрами, затем ищет похожие фрагменты, либо наоборот: ищет кандидатов и отбрасывает неподходящие. Для прав доступа, клиентских данных и устаревших документов безопаснее применять фильтр до того, как текст попадет в контекст модели.

Это не замена semantic search. Semantic search ищет близкий смысл, а metadata filtering накладывает жесткие условия: дата больше 2026-01-01, doc_type = contract, status = approved, language = ru, access_level = internal. В хорошей системе используются оба подхода: смысловой поиск находит нужное, а фильтры не дают подмешать лишнее.

Главные риски - плохие метаданные и слишком жесткие правила. Если документ неправильно размечен, агент его не найдет. Если фильтров мало, в ответ может попасть старый, чужой или закрытый документ. Поэтому фильтры нужно логировать, проверять на evals и регулярно пересматривать вместе со схемой индекса.

Примеры

AI-ассистент поддержки ищет ответ только в опубликованных статьях базы знаний по продукту CRM и региону RU.
Юридический агент выбирает только документы с doc_type = contract, status = approved и access_level = legal.
Внутренний поиск исключает регламенты, у которых valid_until уже прошел или updated_at старше заданной даты.
Клиентский чат-бот фильтрует фрагменты по customer_id, чтобы данные одного клиента не попали в ответ другому.
Workflow в n8n получает входящий документ, определяет отдел и ищет похожие инструкции только в разделе закупок на русском языке.

Где используется

RAG по базе знаний компании
внутренний поиск по документам
контроль прав доступа к источникам
разделение данных по продуктам, регионам и клиентам
исключение устаревших документов из ответов
поиск по типу документа: договор, регламент, отчет, ТЗ
мультиарендные AI-приложения с tenant_id или customer_id
снижение шума в retrieval
ускорение поиска за счет меньшего набора кандидатов
диагностика качества RAG и анализ неудачных ответов

Связанные термины

ACL Chat ACL Context engineering Data retention Document chunking Document Store RAG Reranking

Частые вопросы

Чем metadata filtering отличается от semantic search?

Semantic search ищет фрагменты по смысловой близости к вопросу. Metadata filtering отбирает документы по структурированным полям: дате, источнику, статусу, правам, продукту, языку или клиенту. В RAG они обычно работают вместе.

Какие метаданные стоит хранить для RAG?

Минимальный набор: source, doc_type, title, owner, department, product, language, updated_at, status, access_level, tags и ссылка на оригинал. Для клиентских систем часто добавляют tenant_id, customer_id, project_id и срок действия документа.

Фильтровать нужно до или после векторного поиска?

Для прав доступа, клиентских данных и актуальности лучше фильтровать до поиска, чтобы закрытый текст не попал в кандидаты. Пост-фильтрация тоже бывает полезна для ранжирования, но она не должна быть единственной защитой.

Может ли metadata filtering ухудшить ответы?

Да. Слишком строгие фильтры или неверная разметка могут скрыть нужный документ. Поэтому нужно логировать примененные фильтры, смотреть случаи "ничего не найдено" и проверять качество на тестовых вопросах.

Как metadata filtering помогает с устаревшими документами?

В индекс добавляют поля status, updated_at, valid_from и valid_until. Затем агент ищет только в актуальных документах или явно предупреждает, что найденный источник устарел и требует проверки владельцем знания.

Где читать дальше

Статьи по теме

Пошаговые инструкции 12 мин

Claude Fable 5 для работы с базой знаний компании

Практическая инструкция: как использовать Claude Fable 5 для базы знаний компании — поиск ответов, пересборка статей и выявление устаревших документов.

RAG Claude база знаний

Основы AI 7 мин

Что такое context engineering и почему одного промпта мало

Простыми словами: что такое context engineering, почему одного промпта мало и как правильный контекст помогает LLM, RAG и AI-агентам отвечать точнее.

RAG AI-агенты prompt engineering

AI-агенты 13 мин

Что такое guardrails в ИИ и зачем они нужны агентам

Простое объяснение guardrails: какие проверки нужны вокруг ИИ, чем они отличаются от системного промпта, как защищают RAG, tools, память и ответы агента.

AI-агенты Guardrails Prompt injection

RAG и базы знаний 13 мин

Что такое embeddings и как ИИ ищет по смыслу

Простое объяснение embeddings: как текст превращается в векторы, зачем нужен semantic search, как embeddings работают в RAG, рекомендациях и поиске по документам.

RAG embeddings vector database

Пошаговые инструкции 20 мин

Как сделать ИИ-агента для базы знаний компании

Пошаговая инструкция от нуля до рабочего AI-агента для базы знаний: источники, владельцы, права доступа, RAG, вопросы без ответа и тесты.

RAG AI-агенты n8n

Пошаговые инструкции 21 мин

Как сделать ИИ-агента для внутреннего поиска по документам

Пошаговая инструкция от нуля до рабочего внутреннего поиска: источники, chunks, embeddings, права доступа, цитаты, логи и тесты качества.

RAG AI-агенты embeddings

Инструменты

Связанные инструменты

Open-source / cloud Chroma

Векторная база данных для RAG, embeddings, semantic search и быстрых прототипов AI-агентов по документам.

Atlassian plans Confluence REST API

REST API Confluence для страниц, пространств, CQL-поиска, корпоративной wiki, RAG, enterprise search и AI-агентов по базе знаний.

Google Workspace / API quotas Google Drive API

Google Drive API дает AI-агентам доступ к файлам в Google Drive: искать документы, читать метаданные, загружать новые файлы, обновлять версии и собирать базу знаний из корпоративных папок.

Open-source and paid platform LangChain

Фреймворк для LLM-приложений, chains, agents, RAG, tools и context orchestration.

Open-source and paid platform LlamaIndex

Фреймворк для подключения данных к LLM: RAG, индексы, retrieval, agents и workflows.

Cloud / self-hosted n8n

Workflow-платформа для автоматизаций, webhooks, API-интеграций и AI-агентов с tools, memory и approval.