Термин
Dataset для evals
Набор контрольных примеров, на которых регулярно проверяют ИИ-систему.
Dataset для evals содержит входные запросы, контекст, ожидаемые критерии, обязательные факты, запрещенные ошибки, теги и историю изменений. Хороший dataset пополняется реальными production-ошибками и пограничными сценариями.