Red teaming помогает проверить агента до продакшена: prompt injection, утечки данных, неправильные tool calls, обход approval, вредные документы и ошибки RAG.
Для маленького проекта это может быть набор ручных плохих сценариев. Для большого - регулярный процесс безопасности.
Термин
Red teaming
Проверка AI-системы через попытки сломать правила, обойти ограничения и найти опасные сценарии.