Термин RAG и база знаний Начальный

Chunking

Chunking - это разбиение длинного текста или документа на небольшие фрагменты, чтобы ИИ-агент мог искать по ним, передавать нужные части в контекст и отвечать через RAG.

text chunking document chunking chunk splitting разбиение на chunks разбиение текста нарезка документов фрагментация документов чанкинг фрагменты RAG chunks

Chunking нужен потому, что модель не может удобно держать в контексте всю корпоративную базу знаний, все PDF и все инструкции сразу. Документы делят на фрагменты, каждый фрагмент индексируют, а при вопросе пользователя находят только самые релевантные части.

В RAG-пайплайне chunk обычно проходит путь: документ очищают, делят на chunks, для каждого chunk считают embedding, сохраняют текст и метаданные в vector database или поисковом индексе. Когда пользователь задает вопрос, система ищет похожие chunks и передает их модели как источники.

Хороший chunk должен быть достаточно маленьким, чтобы не перегружать контекст, и достаточно большим, чтобы сохранять смысл. Если chunk слишком короткий, модель теряет объяснение и условия. Если слишком длинный, поиск становится шумным и в ответ попадает лишний текст.

Часто используют overlap - небольшое перекрытие между соседними chunks. Это помогает не разорвать важную мысль на границе. Например, если раздел инструкции начинается в одном фрагменте, а уточнение попало в следующий, overlap снижает риск потерять связь.

Для практического RAG важно хранить метаданные: источник, заголовок, раздел, дата версии, права доступа, номер страницы, ссылка на документ и язык. Тогда агент может дать citation, проверить актуальность и не использовать документ, к которому пользователь не имеет доступа.

Примеры

PDF-инструкцию на 80 страниц делят на chunks по разделам, чтобы агент находил конкретный ответ, а не загружал весь документ.
В базе знаний каждый chunk хранит текст, заголовок раздела, номер страницы и ссылку на исходный файл.
Для FAQ chunk может быть одной парой "вопрос-ответ", а для юридического документа - пунктом договора с соседним контекстом.
Если chunk разорвал таблицу пополам, агент может дать неверный ответ, поэтому таблицы лучше обрабатывать отдельным правилом.
Overlap в 100-200 токенов помогает сохранить смысл между соседними фрагментами длинной инструкции.
При обновлении документа старые chunks удаляют или помечают версией, чтобы агент не отвечал по устаревшему тексту.

Где используется

подготовка документов для RAG
индексация базы знаний компании
поиск по PDF, DOCX, Notion, Confluence и Google Drive
создание embeddings для фрагментов текста
ответы ИИ-агента с citations и ссылками на источники
обработка длинных инструкций и регламентов
разделение документов по заголовкам и смысловым блокам
контроль доступа к источникам через метаданные chunk
обновление индекса после изменения документа
снижение галлюцинаций за счет точных найденных фрагментов

Связанные термины

Chat ACL Citations Conversation context Embeddings LLM OCR RAG Retrieval

Частые вопросы

Какой размер chunk выбрать?

Универсального размера нет. Для FAQ подходят короткие chunks, для инструкций - смысловые разделы, для договоров - пункты. На практике размер подбирают тестами по качеству поиска и ответов.

Что такое overlap в chunking?

Overlap - это перекрытие между соседними chunks. Оно помогает не потерять смысл на границе фрагментов, но слишком большой overlap увеличивает дубли и стоимость индекса.

Почему нельзя просто делить документ каждые 1000 символов?

Так можно разрезать мысль, таблицу, список или условие пополам. Лучше учитывать заголовки, абзацы, пункты, таблицы и структуру документа.

Chunking влияет на качество RAG?

Да, очень сильно. Даже хорошая модель будет отвечать плохо, если поиск возвращает фрагменты без контекста, устаревшие chunks или куски, где потеряна главная мысль.

Какие метаданные хранить вместе с chunk?

Источник, URL или путь к файлу, заголовок, раздел, страницу, дату версии, язык, owner, права доступа и идентификатор документа. Это помогает citations, ACL и обновлению индекса.

Нужно ли пересоздавать chunks при обновлении документа?

Да, если изменился текст. Старые chunks нужно удалить, заменить или пометить как устаревшие, иначе агент может отвечать по старой версии базы знаний.

Где читать дальше

Статьи по теме

RAG и базы знаний 13 мин

Что такое embeddings и как ИИ ищет по смыслу

Простое объяснение embeddings: как текст превращается в векторы, зачем нужен semantic search, как embeddings работают в RAG, рекомендациях и поиске по документам.

RAG embeddings vector database

Пошаговые инструкции 20 мин

Как сделать ИИ-агента для базы знаний компании

Пошаговая инструкция от нуля до рабочего AI-агента для базы знаний: источники, владельцы, права доступа, RAG, вопросы без ответа и тесты.

RAG AI-агенты n8n

Пошаговые инструкции 22 мин

Как сделать ИИ-агента для обработки входящих документов

Пошаговая инструкция от нуля до рабочего агента: входящие файлы, OCR, классификация, извлечение полей, review, маршрутизация и логи.

AI-агенты n8n OCR

Пошаговые инструкции 21 мин

Как сделать ИИ-агента для внутреннего поиска по документам

Пошаговая инструкция от нуля до рабочего внутреннего поиска: источники, chunks, embeddings, права доступа, цитаты, логи и тесты качества.

RAG AI-агенты embeddings

Пошаговые инструкции 26 мин

Как сделать ИИ-агента для документов: PDF, DOCX, OCR и RAG

Пошаговая инструкция по ИИ-агенту для документов: загрузка, PDF/DOCX parser, OCR, страницы, таблицы, chunks, RAG, extraction, approval и audit log.

RAG AI-агенты Инструкция

Пошаговые инструкции 26 мин

Как настроить guardrails для ИИ-агента: вход, tools, RAG и ответы

Пошаговая инструкция по guardrails для ИИ-агента: input checks, PII, access rules, RAG policy, tool policy, policy gate, approval, output checks и тесты.

AI-агенты Guardrails Prompt injection

Инструменты

Связанные инструменты

Оплата по использованию токенов Anthropic Claude API

API моделей Claude для AI-приложений: текст, reasoning, длинный контекст, анализ документов, tool use, агенты и production-интеграции.

Open-source / cloud Flowise

Визуальный low-code builder для LLM-приложений: Agentflow V2, chatflows, RAG, Document Stores, tools, API, embed и self-hosted запуск.

Usage-based / Google Cloud Google Document AI

Google Document AI помогает извлекать данные из документов: счетов, актов, договоров, форм, PDF и сканов. Его удобно использовать как слой распознавания перед RAG, CRM, ERP или внутренним документооборотом.

Google Workspace / API quotas Google Drive API

Google Drive API дает AI-агентам доступ к файлам в Google Drive: искать документы, читать метаданные, загружать новые файлы, обновлять версии и собирать базу знаний из корпоративных папок.

Usage-based / Google AI Google Gemini API

Google Gemini API - API для подключения моделей Gemini к приложениям, AI-агентам, чат-ботам и автоматизациям. Подходит для текста, изображений, файлов, structured output и tool calling.

Open-source and paid platform LangChain

Фреймворк для LLM-приложений, chains, agents, RAG, tools и context orchestration.