Термин

Dataset для evals

Набор тестовых сценариев с входом, ожидаемым поведением и метками для проверки AI-системы.

Dataset для evals содержит реальные или искусственно собранные примеры: вопросы пользователей, ожидаемые ответы, правила, теги и критерии pass/fail. Он нужен, чтобы регулярно проверять агента после изменений.