Главная
Статьи
RAG и базы знаний
Что такое RAG и как ИИ отвечает по вашим документам

RAG и базы знаний beginner 13 мин Обновлено 13.06.2026

Что такое RAG и как ИИ отвечает по вашим документам

Простое объяснение RAG: как ИИ ищет по вашим документам, что такое retrieval, embeddings, vector database, chunking и почему RAG снижает риск выдуманных ответов.

RAG embeddings vector database база знаний основы AI

Короткое объяснение

RAG - это подход, при котором ИИ сначала ищет нужные фрагменты в документах, а потом отвечает с опорой на найденный контекст. Расшифровка: Retrieval-Augmented Generation, то есть генерация, усиленная поиском.

Если совсем просто:

пользователь задает вопрос;
система ищет похожие фрагменты в базе знаний;
найденные фрагменты добавляются в промпт;
модель формирует ответ;
ответ можно сопроводить ссылками на источники.

RAG нужен, когда модель должна отвечать не “из общих знаний”, а по вашим данным: регламентам, инструкциям, базе знаний, договорам, статьям, справочникам, карточкам товаров или внутренней документации.

Зачем нужен RAG

Обычная LLM не знает ваши внутренние документы. Даже если модель многое знает из обучения, она не видит новые правила компании, актуальные цены, закрытые инструкции и свежие договоры.

RAG решает несколько задач:

дает модели доступ к вашим документам;
снижает риск выдуманных ответов;
позволяет работать с актуальными данными;
помогает показывать источники;
уменьшает потребность вставлять огромные документы в промпт;
делает ответы полезнее для поддержки, обучения и внутреннего поиска;
отделяет знания от самой модели;
позволяет обновлять базу знаний без переобучения LLM.

Идея простая: модель не должна “угадывать” регламент, если его можно найти и передать в контекст.

Пример RAG на бытовом уровне

Представьте сотрудника поддержки. Клиент спрашивает:

Можно ли вернуть товар без упаковки?

Плохой AI-ответ без RAG может звучать уверенно, но быть выдуманным:

Да, товар можно вернуть без упаковки в течение 14 дней.

RAG-система работает иначе:

ищет фразу “возврат без упаковки” в базе знаний;
находит раздел регламента;
передает модели найденный фрагмент;
модель отвечает по этому фрагменту;
если ответа нет, честно пишет, что не нашла подтверждение.

Так ответ становится ближе к реальным правилам компании.

Как работает RAG

Классический RAG состоит из двух этапов: подготовка базы и ответ на вопрос.

Подготовка базы:

собрать документы;
извлечь текст;
очистить лишний мусор;
разбить документы на фрагменты;
создать embeddings;
сохранить фрагменты и метаданные в индекс;
настроить обновление базы.

Ответ на вопрос:

принять вопрос пользователя;
превратить вопрос в embedding или поисковый запрос;
найти релевантные фрагменты;
отфильтровать по правам доступа;
выбрать лучшие фрагменты;
передать их модели;
сгенерировать ответ;
показать источники или основания.

В хорошей системе важен каждый этап. Сильная модель не спасет плохой поиск, а хороший поиск не спасет грязную базу знаний.

Что такое retrieval

Retrieval - это поиск нужных фрагментов перед генерацией ответа. Это первая буква R в RAG.

Retrieval может быть разным:

keyword search - поиск по точным словам;
semantic search - поиск по смыслу через embeddings;
hybrid search - сочетание ключевых слов и смысла;
metadata filtering - фильтрация по дате, разделу, правам, продукту;
reranking - повторная сортировка найденных кандидатов;
agentic retrieval - когда агент сам уточняет, где и как искать.

Для бизнес-документов часто нужен hybrid search: смысловой поиск хорошо понимает формулировки, а keyword search ловит артикулы, номера договоров, названия функций и точные термины.

Что такое embeddings

Embeddings - это числовые представления текста. Они помогают искать не только по точному совпадению слов, но и по смысловой близости.

Пример:

в документе написано “оформление возврата”;
пользователь спрашивает “как вернуть товар”;
точные слова отличаются;
embeddings помогают понять, что смысл похожий;
RAG находит нужный фрагмент.

Embeddings не “понимают” документ как человек, но позволяют сравнивать тексты по близости в векторном пространстве.

Что такое векторная база

Векторная база хранит embeddings, текстовые фрагменты и метаданные. Она нужна, чтобы быстро искать похожие фрагменты среди большого количества документов.

В векторной базе обычно хранят:

текст chunk;
embedding;
URL или путь к источнику;
название документа;
раздел;
дату обновления;
права доступа;
продукт или категорию;
язык;
служебные поля для фильтрации.

Популярные варианты: Qdrant, Weaviate, Pinecone, Chroma, Redis Vector Search, pgvector. Но выбор базы - не первый вопрос. Сначала важнее качество документов, chunking и тесты.

Что такое chunking

Chunking - это разбиение длинного документа на фрагменты. RAG редко отправляет модели документ целиком. Он ищет и передает несколько релевантных частей.

Хороший chunk должен:

быть достаточно коротким для контекста;
сохранять смысл;
не обрывать важное правило;
включать заголовок или метаданные;
не смешивать разные темы;
быть удобным для поиска;
иметь ссылку на источник.

Плохой chunking - частая причина слабого RAG. Если фрагменты слишком маленькие, модель не видит смысл. Если слишком большие, контекст засоряется шумом.

Что такое reranker

Retriever быстро находит кандидатов, но не всегда ставит лучший фрагмент первым. Reranker повторно оценивает найденные куски и выбирает самые полезные.

Схема:

retriever нашел 30 фрагментов;
reranker перечитал их внимательнее;
выбрал 5 лучших;
эти 5 попали в контекст модели.

Reranking повышает точность, но добавляет стоимость и задержку. Его стоит использовать там, где цена ошибки выше: поддержка, юридические документы, регламенты, внутренний поиск.

RAG и длинный промпт

Иногда кажется, что можно просто вставить в промпт весь документ. Для маленьких текстов это нормально. Для реальной базы знаний быстро начинаются проблемы.

Минусы длинного промпта:

расходует много токенов;
стоит дороже;
работает медленнее;
содержит лишний шум;
может не поместиться в контекстное окно;
сложнее обновлять данные;
выше риск утечки лишней информации;
модель может упустить важное среди мусора.

RAG лучше, когда документов много, они часто обновляются и у пользователей разные права доступа.

RAG и память

RAG и память часто путают, но это разные вещи.

RAG отвечает на вопрос:

где взять факты;
какой документ использовать;
что написано в базе знаний;
какой источник подтвердит ответ.

Память отвечает на другой вопрос:

что пользователь уже выбрал;
какие настройки сохранить;
какие предпочтения учесть;
что было решено в прошлой сессии.

Документы компании лучше хранить в RAG. Личные предпочтения и состояние диалога - в памяти. Если смешать все в одну корзину, система начнет помнить временные ошибки и искать то, что должна была сохранить как состояние.

RAG и галлюцинации

RAG снижает риск галлюцинаций, но не убирает его полностью.

Почему RAG помогает:

модель получает фактический контекст;
можно требовать ответ только по источникам;
можно показать ссылки на документы;
можно проверять groundedness;
можно сказать “ответ не найден”.

Почему риск остается:

поиск может найти не тот фрагмент;
нужный документ может отсутствовать;
база знаний может устареть;
модель может неправильно понять источник;
фрагменты могут противоречить друг другу;
права доступа могут быть настроены неверно;
prompt может разрешать домысливать.

Поэтому хороший RAG всегда проверяют тестами.

Где RAG особенно полезен

RAG хорошо подходит для задач, где есть набор документов и повторяющиеся вопросы.

Примеры:

чат по базе знаний компании;
поддержка клиентов;
поиск по договорам;
внутренний helpdesk;
обучение сотрудников;
ответы по документации продукта;
поиск по статьям сайта;
подготовка коммерческих предложений;
анализ тендерной документации;
чат по юридическим документам;
ассистент для HR;
поиск по регламентам и инструкциям.

Если задача требует актуальных внутренних знаний, RAG часто полезнее, чем просто более дорогая модель.

Когда RAG не нужен

RAG не стоит добавлять везде подряд.

Он может быть лишним, если:

задача творческая и не требует фактов;
вся нужная информация уже в коротком промпте;
документов мало и они редко меняются;
ответ не должен ссылаться на источники;
точность не критична;
нужно просто переписать текст;
пользователь сам вставляет весь нужный контекст;
нет базы знаний, которую можно поддерживать.

RAG - это не магическая добавка к модели, а отдельная система поиска и качества.

Что подготовить перед запуском RAG

Перед технической сборкой нужно привести знания в порядок.

Минимальный список:

список источников;
владельцы документов;
актуальные версии;
правила доступа;
формат документов;
политика обновления;
список частых вопросов;
критерии правильного ответа;
тестовые вопросы;
правила, когда отвечать “не найдено”.

Если документы противоречат друг другу, RAG будет только быстрее доставлять противоречия в ответ.

Как оценивать качество RAG

RAG нужно тестировать отдельно от модели.

Основные метрики и проверки:

нашелся ли правильный документ;
попал ли нужный chunk в top 5;
ответ подтверждается источником;
модель не добавила лишние факты;
вопрос без ответа не вызвал выдумку;
права доступа соблюдены;
устаревший документ не использован;
источник показан пользователю;
ответ понятен;
задержка приемлемая.

Для старта достаточно набора из 30-50 реальных вопросов. После изменения chunking, embeddings или базы прогоняйте тесты снова.

Типичные ошибки в RAG

Чаще всего проблемы возникают не из-за модели, а из-за подготовки системы.

Ошибки:

загрузили грязные документы;
не удалили старые версии;
нарезали chunks случайно;
не добавили метаданные;
забыли права доступа;
использовали только semantic search для точных кодов;
не проверили retrieval;
не запретили модели домысливать;
не показали источники;
не сделали тесты на вопросы без ответа;
не настроили обновление индекса;
отправили слишком много фрагментов в контекст.

RAG полезен ровно настолько, насколько аккуратно устроены документы, поиск и контроль качества.

Мини-чеклист первого RAG

Для первой версии достаточно простой схемы:

выберите один набор документов;
удалите устаревшие и дубли;
разбейте документы на chunks;
добавьте метаданные;
создайте embeddings;
сохраните в векторную базу;
настройте поиск;
добавьте правило “не найдено”;
покажите источники в ответе;
прогоните 30 тестовых вопросов.

Если эта версия работает стабильно, можно добавлять hybrid search, reranker, права доступа и мониторинг.

Что изучать дальше

После RAG логично изучить:

embeddings;
vector database;
semantic search;
hybrid search;
reranker;
chunking;
metadata filtering;
groundedness;
evals для RAG;
память ИИ-агента.

Эти темы превращают “чат с документами” в нормальную поисковую систему для AI.

Частые вопросы

RAG - это обучение модели на документах?

Нет. RAG обычно не переобучает модель. Документы хранятся отдельно, система ищет релевантные фрагменты и передает их модели как контекст для ответа.

RAG полностью убирает галлюцинации?

Нет. RAG снижает риск, но не гарантирует идеальную точность. Поиск может найти не тот документ, база может устареть, а модель может неверно интерпретировать источник.

Чем RAG отличается от поиска по сайту?

Обычный поиск возвращает страницы или документы. RAG находит фрагменты, передает их языковой модели и генерирует связный ответ. Но хороший RAG все равно должен показывать источники.

Нужно ли сразу покупать векторную базу?

Не всегда. Для прототипа можно начать с простого стека или встроенного хранилища. Векторная база становится важнее, когда документов много, нужны фильтры, скорость, права доступа и стабильность.

Какие документы подходят для RAG?

Лучше всего подходят документы с устойчивыми знаниями: инструкции, FAQ, регламенты, договоры, документация продукта, статьи, база знаний, справочники и внутренние правила. Плохие, устаревшие и противоречивые документы сначала нужно привести в порядок.

Термины

Связанный глоссарий

LLM LLM — большая языковая модель, которая понимает текст, продолжает его и помогает решать задачи через естественный язык. Промпт Промпт - это запрос или инструкция для ИИ: что нужно сделать, с каким контекстом, в каких границах и в каком формате вернуть ответ. Память ИИ-агента Память ИИ-агента - это отдельный механизм, который сохраняет разрешенный контекст, факты, предпочтения и историю между сообщениями или сессиями. Guardrails Guardrails — правила, проверки и ограничения вокруг AI-системы, которые снижают риск неправильных ответов, утечек данных и опасных действий. Embeddings Embeddings — числовые векторы, которые передают смысл текста, изображения или другого объекта так, чтобы их можно было сравнивать и искать по близости. Векторная база Векторная база - это хранилище embeddings, текстовых фрагментов и метаданных, которое быстро ищет похожие по смыслу документы, товары, изображения или записи для RAG и semantic search. Контекстное окно Контекстное окно - это максимальный объем токенов, который модель может учитывать в одном запросе: инструкции, историю, документы, tools и будущий ответ. Chunking Chunking - это разбиение длинного текста или документа на небольшие фрагменты, чтобы ИИ-агент мог искать по ним, передавать нужные части в контекст и отвечать через RAG. Hybrid search Hybrid search — поиск, который объединяет keyword search и semantic search, чтобы находить документы и по точным словам, и по смыслу. Semantic search Semantic search - это смысловой поиск, который ищет не только точные слова, а близкие по смыслу фрагменты, документы или товары. Metadata filtering Metadata filtering - это фильтрация документов или фрагментов по метаданным перед выдачей в RAG: по источнику, дате, типу документа, правам доступа, продукту, языку или статусу актуальности. Groundedness Groundedness — степень, с которой ответ AI опирается на переданные источники, документы или данные, а не на догадки модели. Галлюцинация ИИ Галлюцинация ИИ - это правдоподобный, но неверный или неподтвержденный ответ модели: выдуманный факт, ссылка, число, цитата, метод API или вывод без опоры на источник. Artifact memory Artifact memory - это память агента о созданных и измененных рабочих артефактах: документах, файлах, отчетах, коде, черновиках, версиях, ссылках и статусах. Dataset для evals Dataset для evals - это набор тестовых примеров с входом, ожидаемым поведением, метками и критериями, по которым проверяют модель или AI-агента. Document parser Document parser - это компонент, который извлекает из документа текст, таблицы, поля, структуру и metadata для дальнейшей проверки или автоматизации. Индексация документов Индексация документов - это подготовка файлов к поиску: извлечение текста, нарезка на chunks, metadata, права доступа и embeddings. Citation в ответе AI Source citation - это ссылка на документ, страницу, фрагмент или запись, на которую опирается ответ ИИ-агента. CQL CQL, или Confluence Query Language, - это язык запросов Confluence для поиска страниц, вложений и другого контента по пространствам, меткам, авторам, датам и типам. Актуальность wiki Актуальность wiki - это показатель того, насколько страница базы знаний свежая, проверенная владельцем и пригодная для ответов ИИ-агента. Wiki space Wiki space - это отдельный раздел корпоративной wiki, где хранятся страницы конкретной команды, проекта, продукта или процесса. Candidate screening Candidate screening - это первичный отбор кандидатов по требованиям вакансии: разбор резюме, опыта, навыков, ответов и недостающих данных перед интервью или отказом. ИИ-агент для обучения ИИ-агент для обучения объясняет материалы, отвечает по курсу или базе знаний, подбирает следующий шаг, проверяет понимание и помогает наставнику видеть слабые места. ИИ-агент для онбординга ИИ-агент для онбординга помогает новому сотруднику пройти адаптацию: объясняет процессы, отвечает по базе знаний, ведет по задачам и показывает прогресс наставнику. ИИ-агент для ресерча ИИ-агент для ресерча собирает данные из открытых источников, проверяет факты, сравнивает изменения и готовит выводы со ссылками на доказательства. Web scraping Web scraping - это автоматическое извлечение данных с веб-страниц: текста, цен, таблиц, ссылок, отзывов, карточек товаров или результатов поиска. Проверка источников Проверка источников - это оценка, откуда взят факт, можно ли доверять этому источнику и достаточно ли данных для ответа. Confidence в ресерче Confidence в ресерче - это оценка надежности исследовательского вывода: насколько он подтвержден источниками, свежими данными и отсутствием противоречий. Cycle count Cycle count - это регулярный выборочный пересчет части товаров на складе, чтобы поддерживать точные остатки без полной остановки работы. Владелец знания Владелец знания - это человек или команда, которые отвечают за точность, актуальность, согласование и обновление конкретного документа, раздела базы знаний или источника для RAG. Document intake Document intake - это процесс приема входящих документов: загрузка, регистрация, OCR, классификация, извлечение полей, проверка и маршрутизация. Первичные документы Первичные документы - это счета, акты, УПД, накладные, чеки и другие документы, которые подтверждают хозяйственные операции компании. ИИ-агент для обработки изображений ИИ-агент для обработки изображений анализирует фото, скриншоты и сканы: читает текст, находит объекты, извлекает поля, проверяет качество и передает спорные случаи человеку. Визуальные метаданные Визуальные метаданные - это структурированное описание изображения или видео: что на нем показано, какой есть текст, формат, размер, качество, права, риск, назначение и статус проверки. Document chunk Document chunk - это смысловой фрагмент документа, который отдельно индексируется, получает embedding и используется AI-агентом для поиска и ответа. Topic cluster Группа связанных тем и поисковых запросов, которые раскрывают один большой смысловой блок через главную страницу и supporting-материалы. ИИ-агент для Google Drive ИИ-агент, который ищет ответы в Google Drive, индексирует документы, учитывает права доступа и помогает работать с Docs, Sheets, PDF и другими файлами. Document chunking Document chunking - это разбиение документа на смысловые фрагменты для embeddings, поиска, RAG и цитирования источников. Обработка вложений email Обработка вложений email - это безопасное извлечение, проверка и маршрутизация файлов из писем: PDF, DOCX, сканов, изображений, таблиц и архивов. Column dictionary Column dictionary - это словарь колонок таблицы: техническое имя поля, бизнес-смысл, тип данных, обязательность, допустимые значения и правила заполнения. Парсинг документов Парсинг документов - это процесс, который превращает PDF, DOCX, сканы, HTML или письма в текст, таблицы, поля, блоки, metadata и structured output. Citations Citations - это ссылки, номера chunks или метки источников в ответе ИИ, которые показывают, на каких документах, страницах или фрагментах основаны утверждения. Контекстный бюджет Контекстный бюджет - это план, сколько токенов можно потратить на инструкции, историю, RAG-фрагменты, tools и ответ модели. AI workspace AI workspace - это рабочее пространство для работы с ИИ: чаты, агенты, документы, база знаний, интеграции, доступы, история и правила безопасности в одном контуре. Semantic memory Semantic memory - это смысловая память AI-агента: факты и знания, которые сохраняются и потом находятся по смысловой близости, а не по точному совпадению слов. Agent state Agent state - это состояние AI-агента: структурированные данные, которые передаются между шагами workflow и помогают агенту помнить цель, контекст, результаты tools и текущий статус. Agentflow V2 Agentflow V2 - это формат Flowise для сборки AI-агентов как явного workflow: узлы, состояние, tools, RAG, условия, approvals и публикация через API. Document Store Document Store - это хранилище документов и их обработанных частей: файлов, текста, chunks, metadata, прав доступа и ссылок на источники. AI Agent node AI Agent node - это узел в no-code/low-code workflow, который запускает LLM-агента: принимает задачу, использует tools, память и правила, а затем возвращает результат следующему шагу. Машинное обучение Подход, при котором система учится находить закономерности в данных и применять их к новым случаям. Нейросеть Нейросеть - это модель машинного обучения, которая находит закономерности в данных через слои вычислений, веса и обучение на примерах. Обучение модели Обучение модели - это процесс, при котором модель меняет свои параметры на данных, чтобы лучше решать задачу, распознавать паттерны или следовать нужному формату. Токены Токены - это фрагменты текста, на которые языковая модель разбивает промпт, документы и ответ. ChatGPT ChatGPT - это AI-ассистент OpenAI в формате чата: пользователь пишет задачу, а система отвечает текстом, помогает с идеями, кодом, документами, анализом и рабочими сценариями. Контекст Контекст - это нужные модели вводные: цель, аудитория, ограничения, данные, история диалога и примеры, без которых ответ будет слишком общим. Faithfulness Faithfulness — верность ответа предоставленному контексту: модель не должна добавлять факты, которых нет в источниках. Вектор Вектор в AI - это список чисел, которым модель представляет текст, документ, изображение, товар или другой объект, чтобы сравнивать его с другими объектами по близости. Cosine similarity Cosine similarity - это метрика похожести двух векторов по направлению; в AI ее часто используют для поиска близких по смыслу текстов через embeddings. Top k Параметр retrieval, который задает, сколько самых близких результатов вернуть из поиска или векторной базы. Context compression Context compression - это сжатие длинного контекста до короткого представления, которое сохраняет важные факты, решения, ограничения и ссылки на источники. Training dataset Набор проверенных примеров, на которых модель обучается или дообучается нужному поведению. Data cleaning Data cleaning - это очистка данных от дублей, ошибок, пустых полей, лишнего текста и неправильных форматов перед аналитикой, RAG или работой AI-агента.

Инструменты

Упомянутые сервисы

Универсальный AI-ассистент ChatGPT

Универсальный AI-ассистент OpenAI для текста, идей, обучения, анализа файлов, кода, изображений и поиска по интернету.

LLM и текстовые модели Claude

Семейство моделей Anthropic Claude для анализа больших документов, аккуратной редакции, ресерча, кода и рабочих ассистентов.

LLM и мультимодальные модели Google Gemini

Семейство моделей Google Gemini для текста, кода, анализа документов, мультимодальных задач и сценариев вокруг экосистемы Google.

Low-code AI builder Flowise

Визуальный low-code builder для LLM-приложений: Agentflow V2, chatflows, RAG, Document Stores, tools, API, embed и self-hosted запуск.

Локальные модели и self-hosted Ollama

Инструмент для локального запуска LLM через терминал и HTTP API.

LLM framework LangChain

Фреймворк для LLM-приложений, chains, agents, RAG, tools и context orchestration.

RAG framework LlamaIndex

Фреймворк для подключения данных к LLM: RAG, индексы, retrieval, agents и workflows.

Vector database Qdrant

Vector database для RAG, embeddings и semantic search.

Vector database Weaviate

Vector database с semantic search, hybrid search и metadata filtering.

Managed vector database Pinecone

Managed vector database для production RAG semantic search и agent-based applications.

Vector database Chroma

Векторная база данных для RAG, embeddings, semantic search и быстрых прототипов AI-агентов по документам.

Vector search Redis Vector Search

Vector search в Redis для KNN поиска metadata filtering и RAG-сценариев рядом с существующей инфраструктурой.

PostgreSQL vector extension pgvector

Расширение PostgreSQL для хранения embeddings и vector similarity search прямо в Postgres.

AI platform OpenAI

Платформа и API для LLM, embeddings, structured outputs, tool calling и fine-tuning.

Дальше по теме

Что такое RAG и как ИИ отвечает по вашим документам

Короткое объяснение

Зачем нужен RAG

Пример RAG на бытовом уровне

Как работает RAG

Что такое retrieval

Что такое embeddings

Что такое векторная база

Что такое chunking

Что такое reranker

RAG и длинный промпт

RAG и память

RAG и галлюцинации

Где RAG особенно полезен

Когда RAG не нужен

Что подготовить перед запуском RAG

Как оценивать качество RAG

Типичные ошибки в RAG

Мини-чеклист первого RAG

Что изучать дальше

Частые вопросы

Похожие материалы

Что такое искусственный интеллект простыми словами

Что такое LLM: как работают большие языковые модели

Что такое промпт и как правильно задавать вопросы ИИ

RAG и память ИИ-агента: как дать агенту знания и не сломать контекст

Как подключить ИИ-агента к базе знаний через RAG: документы, chunks, embeddings и citations

Как добавить память ИИ-агенту: сессии, факты, embeddings, TTL и безопасное удаление

Что такое GPT и чем он отличается от обычного чат-бота

Что такое токены и контекстное окно в ИИ

Что такое галлюцинации ИИ и почему нейросети ошибаются