Термин
Data cleaning
Очистка данных перед обучением, evals или загрузкой в базу знаний.
Data cleaning включает удаление дублей, ошибок, персональных данных, секретов, мусора, противоречий и устаревших примеров. Для fine-tuning качество очистки напрямую влияет на поведение модели.