Термин
LLM evals
Набор автоматических и ручных проверок, которые измеряют качество ответов LLM или AI-агента.
LLM evals помогают сравнивать версии prompt, моделей, базы знаний и tools. В eval-набор обычно входят test cases, эталонные ответы, проверки формата, RAG, безопасности, стоимости и latency.