Термин API, надежность и контроль расходов ИИ-агентов Начальный

Rate Limit

Rate Limit — это ограничение на частоту запросов или действий: сколько раз за период можно вызвать API, инструмент или сервис.

лимит запросов ограничение частоты request limit API rate limit лимит скорости

Rate Limit — это лимит скорости. Он ограничивает, сколько запросов, сообщений, tool calls или операций можно выполнить за определенное время: в секунду, минуту, час или день. Например, API может разрешать 60 запросов в минуту на один ключ, 10 сообщений в секунду на пользователя или 1 000 000 токенов в день на проект.

Rate limit нужен, чтобы сервис не перегружался, расходы не улетали бесконтрольно, а один пользователь или агент не забрал весь ресурс. Для ИИ-агентов это особенно важно: агент может попасть в цикл, начать повторять retry, вызывать инструменты слишком часто или обрабатывать слишком большой поток webhook.

Когда лимит превышен, API часто возвращает ошибку 429 Too Many Requests. Хорошая система не должна просто падать. Она должна понять причину, подождать, применить retry с backoff, поставить задачу в очередь или показать пользователю понятное сообщение.

Rate limit можно ставить на разных уровнях: по IP, пользователю, API key, проекту, модели, endpoint, tool call, webhook, токенам, стоимости или конкретному действию. В продакшене лимиты обычно связывают с monitoring, audit log, cost control и tool policy.

Примеры

API разрешает 100 запросов в минуту на один API key. После превышения возвращается ошибка 429.
ИИ-агент может вызвать инструмент поиска не больше 5 раз за один пользовательский запрос, чтобы не уйти в бесконечный цикл.
Webhook от Telegram ставится в task queue, если входящих сообщений больше, чем агент может обработать сразу.
Для дорогой reasoning model установлен дневной token budget, после которого запросы переводятся на более дешевую модель.
Reverse proxy ограничивает число запросов с одного IP, чтобы защитить сайт и API от перегрузки.

Где используется

Защищать API и backend от перегрузки.
Ограничивать расходы на LLM, токены и tool calls.
Предотвращать бесконечные циклы ИИ-агента.
Контролировать активность по пользователям, API keys, IP и проектам.
Обрабатывать ошибку 429 через retry, backoff и task queue.
Разделять лимиты для бесплатных, платных и внутренних пользователей.
Защищать webhook и чат-виджет от всплесков нагрузки.
Логировать превышения лимитов для мониторинга и расследований.
Настраивать безопасные ограничения перед включением write-back действий.

Связанные термины

API credentials API-ключ Audit log Blocked action Cost control Cost monitoring Deployment Retry

Частые вопросы

Что означает ошибка 429?

429 Too Many Requests обычно означает, что клиент превысил rate limit. Нужно подождать, снизить частоту запросов или использовать retry с учетом заголовка Retry-After.

Чем rate limit отличается от token budget?

Rate limit ограничивает частоту запросов или действий за период. Token budget ограничивает расход токенов или стоимость. В ИИ-системах часто используют оба ограничения.

Где ставить rate limit для ИИ-агента?

Лимиты полезны на входящих запросах, tool calls, API keys, webhook, вызовах моделей, пользователях и дорогих действиях вроде отправки писем или записи в CRM.

Как правильно делать retry при rate limit?

Нужно уважать Retry-After, использовать exponential backoff, ограничивать число попыток и не повторять действие, если оно может создать дубль или превысить бюджет.

Почему rate limit важен для безопасности?

Он снижает риск brute force, спама, перегрузки, массового извлечения данных, runaway-agent циклов и внезапного роста расходов на модели и инструменты.

Где читать дальше

Статьи по теме

Пошаговые инструкции 18 мин

Как сделать ИИ-агента для работы с API без кода

Пошаговая инструкция от нуля до рабочего прототипа: HTTP Request в n8n, credentials, endpoint map, safety checks, approval и error log.

AI-агенты n8n no-code

Пошаговые инструкции 25 мин

Как настроить мониторинг ИИ-агента: traces, logs, metrics и качество

Пошаговая инструкция по мониторингу ИИ-агента: run_id, traces, model calls, tool calls, RAG diagnostics, cost, latency, alerts, feedback и evals.

Инструкция LangSmith мониторинг ИИ-агента

Пошаговые инструкции 25 мин

Как подключить инструменты к ИИ-агенту: tool calling без хаоса

Пошаговая инструкция по tool calling для ИИ-агента: tool registry, JSON Schema, backend executor, validation, policy gate, idempotency, approval, audit log и evals.

AI-агенты tool calling audit log

Пошаговые инструкции 27 мин

Как запустить ИИ-агента на сервере: Docker, HTTPS, очереди, логи и rollback

Пошаговая инструкция по запуску ИИ-агента на сервере: VPS, Docker Compose, Nginx, HTTPS, API, worker, Redis, Postgres, vector store, логи, backup и rollback.

Инструкция production Docker

Пошаговые инструкции 24 мин

Как тестировать ИИ-агента перед запуском: чек-лист, evals, безопасность и go/no-go

Пошаговая инструкция по тестированию ИИ-агента перед запуском: test cases, golden answers, eval runner, RAG, tools, guardrails, нагрузка, стоимость, rollback и go/no-go.

RAG tool calling Guardrails

Пошаговые инструкции 24 мин

Как добавить чат-виджет ИИ-агента на сайт: embed-код, API, сессии, RAG и handoff

Пошаговая инструкция по добавлению чат-виджета ИИ-агента на сайт: embed-код, iframe, backend API, сессии, RAG, consent, handoff, CRM, rate limit и тесты.

RAG CRM Инструкция

Инструменты

Связанные инструменты

Доступ REST в рамках тарифов Bitrix24 Bitrix24 REST API

REST API Bitrix24 для CRM, лидов, сделок, задач, комментариев, открытых линий, роботов, бизнес-процессов и безопасного AI write-back.

Free / paid Docker

Платформа контейнеризации для упаковки AI-приложений, агентов, RAG-сервисов, локальных LLM, workers и зависимостей в воспроизводимые окружения.

Free tier / usage-based EasyPost API

Shipping API для тарифов доставки, labels, tracking, проверки адресов, carrier accounts, webhooks и автоматизации логистики.

HubSpot plans / private app access HubSpot CRM API

API HubSpot для contacts, companies, deals, tasks, notes и CRM-автоматизаций.

Open-source and paid platform LangGraph

Фреймворк для stateful AI-агентов, графов, памяти, handoff и многошаговых workflow.

Free tier and paid plans Make

No-code платформа для сценариев между CRM, формами, webhook и AI-сервисами.