Термин

LLM evals

Набор автоматических и ручных проверок, которые измеряют качество ответов LLM или AI-агента.

LLM evals помогают сравнивать версии prompt, моделей, базы знаний и tools. В eval-набор обычно входят test cases, эталонные ответы, проверки формата, RAG, безопасности, стоимости и latency.