Evals помогают проверять агента после изменений модели, промпта, RAG, инструментов или workflow. Они превращают ощущение качества в измеряемую практику.
Для агента оценивают точность, groundedness, выбор инструментов, успешность задачи, стоимость, скорость и частоту передачи человеку.
Термин
Evals
Набор тестов и метрик, которые оценивают качество ответов и действий ИИ-агента.