Термин LLM и контекст Начальный

Контекстное окно

Контекстное окно - это максимальный объем токенов, который модель может учитывать в одном запросе: инструкции, историю, документы, tools и будущий ответ.

context window окно контекста контекст модели лимит контекста длина контекста context length
Контекстное окно - это предел того, сколько информации языковая модель может увидеть и учесть за один запрос. В него попадают системные инструкции, сообщение пользователя, история диалога, найденные фрагменты из базы знаний, описания инструментов, результаты tool calling, JSON-схемы и место под будущий ответ.

Проще говоря, это рабочий "стол" модели. Пока нужные документы, правила и последние сообщения лежат на этом столе, модель может на них опираться. Если данных стало больше, чем помещается в окно, часть придется убрать, сжать, заменить кратким summary или искать через RAG только самые подходящие фрагменты.

Контекстное окно важно при выборе модели для AI-агента, чат-бота, RAG-системы, кодинг-агента и помощника для документов. Маленькое окно быстрее переполняется длинной перепиской и файлами. Большое окно помогает работать с объемными материалами, но не делает систему автоматически умнее.

Большое контекстное окно не равно памяти. Память - это данные, которые приложение хранит между запросами: факты о пользователе, настройки, прошлые решения, историю задач. Контекстное окно - это только то, что модель видит прямо сейчас. Чтобы память сработала, приложение должно выбрать нужные данные и положить их в текущий контекст.

Еще одна частая ошибка - отправлять модели все подряд. Лишние письма, старые сообщения, большие HTML-страницы, таблицы без отбора и шумные tool results повышают стоимость, увеличивают задержку и могут ухудшить ответ. Поэтому рядом с контекстным окном обычно считают контекстный бюджет: сколько токенов отдать под system prompt, историю, RAG, инструменты и ответ.

На практике с контекстным окном работают так: заранее резервируют место под ответ, ограничивают размер истории, режут документы на chunks, выбирают top-k фрагментов, сжимают старый диалог, очищают лишнюю разметку и проверяют, какие данные действительно нужны модели для решения задачи.

Примеры

  • Чат-бот поддержки отправляет модели system prompt, последние сообщения клиента, карточку заказа, 4 фрагмента базы знаний и оставляет место под ответ. Все это вместе должно поместиться в контекстное окно.
  • RAG-ассистент не отправляет всю базу знаний целиком. Он ищет релевантные chunks и кладет в контекст только те фрагменты, которые помогают ответить на текущий вопрос.
  • Кодинг-агент видит выбранные файлы, diff, ошибку теста и задачу разработчика. Если положить весь репозиторий без отбора, контекст быстро переполнится и качество ответа может упасть.
  • В длинном диалоге старые сообщения сжимают в summary, а в контекст кладут summary плюс последние реплики. Так агент не теряет суть и не тратит окно на повторяющиеся детали.

Где используется

  • выбор модели для AI-агента
  • RAG и база знаний
  • длинные диалоги с пользователем
  • анализ документов и договоров
  • кодинг-агенты и code review
  • context engineering
  • контроль стоимости и задержки API

Связанные термины

Частые вопросы

Контекстное окно - это память модели?

Нет. Контекстное окно - это объем данных, который модель видит в одном запросе. Память хранится в приложении или базе данных между запросами и добавляется в контекст только при необходимости.

Что будет, если превысить контекстное окно?

Зависит от реализации. API может вернуть ошибку, приложение может обрезать старые сообщения, сжать историю или выбрать меньше документов. Если обрезать контекст без контроля, модель может потерять важные вводные.

Большое контекстное окно всегда лучше?

Не всегда. Оно полезно для длинных документов, кода и сложных диалогов, но увеличивает стоимость и задержку. Если в контекст положить много шума, ответ может стать хуже, даже у модели с большим окном.

Что входит в контекстное окно?

Обычно туда входят system prompt, developer/user prompt, история диалога, RAG-фрагменты, описания tools, результаты вызовов инструментов, схемы structured output и резерв под ответ модели.

Как уменьшить расход контекстного окна?

Используйте RAG вместо отправки всех документов, режьте тексты на chunks, выбирайте только релевантные фрагменты, сжимайте старую историю, ограничивайте tool results и заранее задавайте контекстный бюджет.

Где читать дальше

Статьи по теме

Как использовать Kimi для анализа длинного PDF и подготовки краткой выжимки

Как использовать Kimi для анализа длинного PDF и подготовки краткой выжимки

Пошаговая инструкция: как подготовить PDF, загрузить его в Kimi, получить карту документа, краткую выжимку, тезисы с доказательствами, спорные места и итоговую записку.

PDF анализ документов пошаговая инструкция
Как использовать Claude для анализа большого договора и подготовки списка рисков

Как использовать Claude для анализа большого договора и подготовки списка рисков

Пошаговая инструкция: как загрузить договор в Claude, получить резюме, найти красные флаги, собрать таблицу рисков, вопросы юристу и черновик правок.

Claude договоры пошаговая инструкция

Инструменты

Связанные инструменты