Термин API, надежность и контроль расходов ИИ-агентов Начальный

Rate Limit

Rate Limit — это ограничение на частоту запросов или действий: сколько раз за период можно вызвать API, инструмент или сервис.

лимит запросов ограничение частоты request limit API rate limit лимит скорости
Rate Limit — это лимит скорости. Он ограничивает, сколько запросов, сообщений, tool calls или операций можно выполнить за определенное время: в секунду, минуту, час или день. Например, API может разрешать 60 запросов в минуту на один ключ, 10 сообщений в секунду на пользователя или 1 000 000 токенов в день на проект.

Rate limit нужен, чтобы сервис не перегружался, расходы не улетали бесконтрольно, а один пользователь или агент не забрал весь ресурс. Для ИИ-агентов это особенно важно: агент может попасть в цикл, начать повторять retry, вызывать инструменты слишком часто или обрабатывать слишком большой поток webhook.

Когда лимит превышен, API часто возвращает ошибку 429 Too Many Requests. Хорошая система не должна просто падать. Она должна понять причину, подождать, применить retry с backoff, поставить задачу в очередь или показать пользователю понятное сообщение.

Rate limit можно ставить на разных уровнях: по IP, пользователю, API key, проекту, модели, endpoint, tool call, webhook, токенам, стоимости или конкретному действию. В продакшене лимиты обычно связывают с monitoring, audit log, cost control и tool policy.

Примеры

  • API разрешает 100 запросов в минуту на один API key. После превышения возвращается ошибка 429.
  • ИИ-агент может вызвать инструмент поиска не больше 5 раз за один пользовательский запрос, чтобы не уйти в бесконечный цикл.
  • Webhook от Telegram ставится в task queue, если входящих сообщений больше, чем агент может обработать сразу.
  • Для дорогой reasoning model установлен дневной token budget, после которого запросы переводятся на более дешевую модель.
  • Reverse proxy ограничивает число запросов с одного IP, чтобы защитить сайт и API от перегрузки.

Где используется

  • Защищать API и backend от перегрузки.
  • Ограничивать расходы на LLM, токены и tool calls.
  • Предотвращать бесконечные циклы ИИ-агента.
  • Контролировать активность по пользователям, API keys, IP и проектам.
  • Обрабатывать ошибку 429 через retry, backoff и task queue.
  • Разделять лимиты для бесплатных, платных и внутренних пользователей.
  • Защищать webhook и чат-виджет от всплесков нагрузки.
  • Логировать превышения лимитов для мониторинга и расследований.
  • Настраивать безопасные ограничения перед включением write-back действий.

Связанные термины

Частые вопросы

Что означает ошибка 429?

429 Too Many Requests обычно означает, что клиент превысил rate limit. Нужно подождать, снизить частоту запросов или использовать retry с учетом заголовка Retry-After.

Чем rate limit отличается от token budget?

Rate limit ограничивает частоту запросов или действий за период. Token budget ограничивает расход токенов или стоимость. В ИИ-системах часто используют оба ограничения.

Где ставить rate limit для ИИ-агента?

Лимиты полезны на входящих запросах, tool calls, API keys, webhook, вызовах моделей, пользователях и дорогих действиях вроде отправки писем или записи в CRM.

Как правильно делать retry при rate limit?

Нужно уважать Retry-After, использовать exponential backoff, ограничивать число попыток и не повторять действие, если оно может создать дубль или превысить бюджет.

Почему rate limit важен для безопасности?

Он снижает риск brute force, спама, перегрузки, массового извлечения данных, runaway-agent циклов и внезапного роста расходов на модели и инструменты.

Где читать дальше

Статьи по теме

Инструменты

Связанные инструменты