Проще говоря, guardrails нужны, чтобы AI не работал как полностью свободный текстовый генератор там, где есть риск. Например, система может заблокировать prompt injection, скрыть персональные данные, проверить JSON-формат ответа, запретить опасный tool call, отправить действие на approval или передать диалог человеку.
Guardrails бывают на разных этапах. Input guardrails проверяют вход: запрос, файл, источник, права доступа и PII. Retrieval guardrails контролируют, какие документы попадают в RAG-контекст. Output guardrails проверяют ответ модели. Tool guardrails ограничивают действия агента: какие инструменты можно вызывать, с какими параметрами и когда нужен human approval.
Важно: guardrails не дают абсолютной гарантии безопасности. Это слой защиты, а не волшебная кнопка. Надежная AI-система сочетает guardrails с least privilege, audit log, evals, red teaming, мониторингом, ручным контролем и понятной политикой действий.
Примеры
- Input guardrail блокирует запрос, похожий на prompt injection.
- Output guardrail проверяет, что ответ не содержит персональные данные клиента.
- Tool guardrail запрещает AI-агенту удалять записи из CRM без approval.
- Retrieval guardrail не дает модели увидеть документы, к которым у пользователя нет доступа.
- Если confidence score низкий, система не отвечает автоматически, а делает human handoff.
Где используется
- Защита от prompt injection, jailbreak и утечек данных
- Контроль входных запросов, файлов и внешнего контента
- Проверка ответов модели перед показом пользователю
- Ограничение tool calling и write-действий AI-агента
- Фильтрация RAG-контекста по правам доступа и источникам
- Human approval для рискованных операций
- Compliance, audit log и enterprise AI governance
Связанные термины
Частые вопросы
Guardrails полностью защищают AI-систему?
Нет. Guardrails снижают риск, но не дают абсолютной гарантии. Их нужно сочетать с least privilege, human-in-the-loop, audit log, тестами, мониторингом и регулярным red teaming.
Какие бывают guardrails?
Чаще всего выделяют input guardrails, output guardrails, retrieval guardrails, tool guardrails, policy gates, схемы валидации, фильтры PII и approval workflow.
Чем guardrails отличаются от system prompt?
System prompt задает инструкции модели. Guardrails шире: это код, политики, проверки, валидация, права доступа, фильтры, логи и внешние правила, которые не зависят только от поведения модели.
С чего начать внедрение guardrails?
Начните с карты рисков: какие данные чувствительные, какие действия опасные, где нужен read-only режим, какие tool calls требуют approval и какие ошибки нужно логировать.