Термин LLM и контекст Начальный

Контекстное окно

Контекстное окно - это максимальный объем токенов, который модель может учитывать в одном запросе: инструкции, историю, документы, tools и будущий ответ.

context window окно контекста контекст модели лимит контекста длина контекста context length

Контекстное окно - это предел того, сколько информации языковая модель может увидеть и учесть за один запрос. В него попадают системные инструкции, сообщение пользователя, история диалога, найденные фрагменты из базы знаний, описания инструментов, результаты tool calling, JSON-схемы и место под будущий ответ.

Проще говоря, это рабочий "стол" модели. Пока нужные документы, правила и последние сообщения лежат на этом столе, модель может на них опираться. Если данных стало больше, чем помещается в окно, часть придется убрать, сжать, заменить кратким summary или искать через RAG только самые подходящие фрагменты.

Контекстное окно важно при выборе модели для AI-агента, чат-бота, RAG-системы, кодинг-агента и помощника для документов. Маленькое окно быстрее переполняется длинной перепиской и файлами. Большое окно помогает работать с объемными материалами, но не делает систему автоматически умнее.

Большое контекстное окно не равно памяти. Память - это данные, которые приложение хранит между запросами: факты о пользователе, настройки, прошлые решения, историю задач. Контекстное окно - это только то, что модель видит прямо сейчас. Чтобы память сработала, приложение должно выбрать нужные данные и положить их в текущий контекст.

Еще одна частая ошибка - отправлять модели все подряд. Лишние письма, старые сообщения, большие HTML-страницы, таблицы без отбора и шумные tool results повышают стоимость, увеличивают задержку и могут ухудшить ответ. Поэтому рядом с контекстным окном обычно считают контекстный бюджет: сколько токенов отдать под system prompt, историю, RAG, инструменты и ответ.

На практике с контекстным окном работают так: заранее резервируют место под ответ, ограничивают размер истории, режут документы на chunks, выбирают top-k фрагментов, сжимают старый диалог, очищают лишнюю разметку и проверяют, какие данные действительно нужны модели для решения задачи.

Примеры

Чат-бот поддержки отправляет модели system prompt, последние сообщения клиента, карточку заказа, 4 фрагмента базы знаний и оставляет место под ответ. Все это вместе должно поместиться в контекстное окно.
RAG-ассистент не отправляет всю базу знаний целиком. Он ищет релевантные chunks и кладет в контекст только те фрагменты, которые помогают ответить на текущий вопрос.
Кодинг-агент видит выбранные файлы, diff, ошибку теста и задачу разработчика. Если положить весь репозиторий без отбора, контекст быстро переполнится и качество ответа может упасть.
В длинном диалоге старые сообщения сжимают в summary, а в контекст кладут summary плюс последние реплики. Так агент не теряет суть и не тратит окно на повторяющиеся детали.

Где используется

выбор модели для AI-агента
RAG и база знаний
длинные диалоги с пользователем
анализ документов и договоров
кодинг-агенты и code review
context engineering
контроль стоимости и задержки API

Связанные термины

Context compression Conversation context Cost control LLM Model routing RAG Контекстный бюджет Краткосрочная память

Частые вопросы

Контекстное окно - это память модели?

Нет. Контекстное окно - это объем данных, который модель видит в одном запросе. Память хранится в приложении или базе данных между запросами и добавляется в контекст только при необходимости.

Что будет, если превысить контекстное окно?

Зависит от реализации. API может вернуть ошибку, приложение может обрезать старые сообщения, сжать историю или выбрать меньше документов. Если обрезать контекст без контроля, модель может потерять важные вводные.

Большое контекстное окно всегда лучше?

Не всегда. Оно полезно для длинных документов, кода и сложных диалогов, но увеличивает стоимость и задержку. Если в контекст положить много шума, ответ может стать хуже, даже у модели с большим окном.

Что входит в контекстное окно?

Обычно туда входят system prompt, developer/user prompt, история диалога, RAG-фрагменты, описания tools, результаты вызовов инструментов, схемы structured output и резерв под ответ модели.

Как уменьшить расход контекстного окна?

Используйте RAG вместо отправки всех документов, режьте тексты на chunks, выбирайте только релевантные фрагменты, сжимайте старую историю, ограничивайте tool results и заранее задавайте контекстный бюджет.

Где читать дальше

Статьи по теме

Пошаговые инструкции 10 мин

Как использовать Kimi для анализа длинного PDF и подготовки краткой выжимки

Пошаговая инструкция: как подготовить PDF, загрузить его в Kimi, получить карту документа, краткую выжимку, тезисы с доказательствами, спорные места и итоговую записку.

PDF анализ документов пошаговая инструкция

Пошаговые инструкции 11 мин

Как использовать Claude для анализа большого договора и подготовки списка рисков

Пошаговая инструкция: как загрузить договор в Claude, получить резюме, найти красные флаги, собрать таблицу рисков, вопросы юристу и черновик правок.

Claude договоры пошаговая инструкция

AI для бизнеса 9 мин

Лучшие агрегаторы нейросетей в России: most AI, BotHub, Chad AI, GPTunneL

Сравнение агрегаторов нейросетей для России: most AI, BotHub, Chad AI и GPTunneL. Модели, рублевая оплата, подписки, пакеты, плюсы, минусы и кому какой сервис подходит.

агрегаторы нейросетей most AI BotHub

Пошаговые инструкции 10 мин

Claude Fable 5 vs обычный чат: когда нужна сильная модель

Практический разбор: когда хватает обычного чата, а когда нужна сильная модель вроде Claude Fable 5 из-за длинного контекста, рассуждения и аккуратности.

LLM Claude контекст

Пошаговые инструкции 12 мин

Claude Fable 5 для работы с базой знаний компании

Практическая инструкция: как использовать Claude Fable 5 для базы знаний компании — поиск ответов, пересборка статей и выявление устаревших документов.

RAG Claude база знаний

Пошаговые инструкции 11 мин

Claude Fable 5 для ресерча конкурентов

Практическая инструкция: как использовать Claude Fable 5 для ресерча конкурентов, сбора фактов, сравнения сайтов и выводов без воды.

Claude маркетинг SEO

Инструменты

Связанные инструменты

Оплата по использованию токенов Anthropic Claude API

API моделей Claude для AI-приложений: текст, reasoning, длинный контекст, анализ документов, tool use, агенты и production-интеграции.

Usage-based / Google AI Google Gemini API

Google Gemini API - API для подключения моделей Gemini к приложениям, AI-агентам, чат-ботам и автоматизациям. Подходит для текста, изображений, файлов, structured output и tool calling.

Free / paid / self-hosted Langfuse

Платформа для трассировки, оценки и мониторинга LLM-приложений.

Open-source and paid platform LangGraph

Фреймворк для stateful AI-агентов, графов, памяти, handoff и многошаговых workflow.

Free tier and paid plans LangSmith

Платформа для tracing, debugging, datasets и evals LLM-приложений и AI-агентов.

Платно, оплата по тарифам и потреблению most AI

most AI - российский агрегатор нейросетей: ChatGPT, Claude, Gemini, Grok, DeepSeek и другие модели в одном веб-сервисе с оплатой в рублях.