Термин

Dataset для evals

Набор контрольных примеров, на которых регулярно проверяют ИИ-систему.

Dataset для evals содержит входные запросы, контекст, ожидаемые критерии, обязательные факты, запрещенные ошибки, теги и историю изменений. Хороший dataset пополняется реальными production-ошибками и пограничными сценариями.