Термин

LLM-as-judge

Подход, при котором одна модель оценивает ответ другой модели по заданной рубрике.

LLM-as-judge ускоряет проверку больших наборов ответов, но не должен быть единственным источником истины. Для рискованных сценариев его нужно калибровать ручными оценками и human review.