Термин

Red teaming

Проверка AI-системы через попытки сломать правила, обойти ограничения и найти опасные сценарии.

Red teaming помогает проверить агента до продакшена: prompt injection, утечки данных, неправильные tool calls, обход approval, вредные документы и ошибки RAG.

Для маленького проекта это может быть набор ручных плохих сценариев. Для большого - регулярный процесс безопасности.