Проще говоря, evals нужны, чтобы не оценивать AI “на глаз”. Команда собирает тестовые примеры: вопросы пользователей, ожидаемые ответы, критерии качества, ошибки, edge cases и опасные сценарии. Затем прогоняет систему и смотрит, где она отвечает верно, где галлюцинирует, где не находит источник, где вызывает не тот инструмент.
Evals бывают разными. Для LLM проверяют точность, полноту, стиль, формат и отказ от лишних фактов. Для RAG — retrieval, groundedness, faithfulness и source citation. Для AI-агентов — корректность tool calling, idempotency, approval, fallback, безопасность и достижение цели. Для structured output — валидность JSON и соответствие schema.
Хорошие evals становятся regression suite для AI-продукта. Перед сменой модели, промпта, базы знаний или tool schema команда запускает тесты и видит, не сломались ли важные сценарии. Это не заменяет human review, но дает устойчивую систему контроля качества.
Примеры
- После изменения системного промпта команда запускает evals и проверяет, не выросли ли галлюцинации.
- RAG-eval показывает, что retriever нашел правильный документ, но модель добавила неподтвержденный факт.
- Agent eval проверяет, что AI-агент не создает сделку без human approval.
- Structured output eval падает, если модель возвращает JSON не по schema.
- Golden answers помогают сравнить ответы новой модели с эталонными ответами экспертов.
Где используется
- Проверка качества LLM-приложения перед запуском
- Сравнение моделей, промптов и настроек retrieval
- Regression testing после изменения базы знаний или tool schema
- Оценка RAG: groundedness, faithfulness и source citation
- Тестирование AI-агента: tool calling, fallback и approval
- Контроль structured output, JSON Schema и формата ответа
- Go/no-go решение перед production-релизом AI-системы
Связанные термины
Частые вопросы
Что входит в evals?
Тестовые входы, ожидаемые ответы или критерии, метрики, источники, негативные кейсы, edge cases, правила оценки и отчет о результатах.
Чем evals отличаются от обычных автотестов?
Обычные тесты часто проверяют точное поведение кода. Evals проверяют качество вероятностной системы: смысл ответа, полноту, источники, формат, безопасность и полезность.
Кто должен писать evals?
Лучше вместе: разработчик, владелец продукта и эксперт предметной области. Эксперт помогает описать правильные ответы, риски и критичные ошибки.
Можно ли использовать LLM-as-judge для evals?
Да, но осторожно. LLM-судья полезен для масштабной оценки, но его нужно калибровать на human review, golden answers и понятных рубриках.