Термин

Evals

Набор тестов и метрик, которые оценивают качество ответов и действий ИИ-агента.

Evals помогают проверять агента после изменений модели, промпта, RAG, инструментов или workflow. Они превращают ощущение качества в измеряемую практику.

Для агента оценивают точность, groundedness, выбор инструментов, успешность задачи, стоимость, скорость и частоту передачи человеку.