Термин
Dataset для evals
Набор тестовых сценариев с входом, ожидаемым поведением и метками для проверки AI-системы.
Dataset для evals содержит реальные или искусственно собранные примеры: вопросы пользователей, ожидаемые ответы, правила, теги и критерии pass/fail. Он нужен, чтобы регулярно проверять агента после изменений.