Квантование: что это такое простыми словами

Квантование - это способ уменьшить размер языковой модели за счет хранения ее весов с меньшей точностью. Вместо более тяжелых чисел модель переводят в компактный формат, например 8-bit, 6-bit, 5-bit или 4-bit. В результате файл модели становится меньше, а запуск требует меньше RAM или VRAM.

Проще говоря, квантование похоже на сжатие картинки: файл становится легче, но при слишком сильном сжатии часть качества теряется. Для LLM это означает, что модель может отвечать чуть хуже, чаще ошибаться в сложных рассуждениях или хуже держать редкие знания. Зато ее можно запустить на ноутбуке, домашнем ПК или недорогом сервере.

Квантование особенно важно для локальных LLM. Например, полная модель может не помещаться в память видеокарты, а версия Q4 или Q5 уже запускается через Ollama, LM Studio или llama.cpp. Поэтому в описаниях моделей часто встречаются варианты GGUF Q4_K_M, Q5_K_M, Q8_0 и похожие обозначения.

Чем ниже битность, тем сильнее сжатие. Условно Q8 ближе к исходному качеству, но тяжелее. Q4 обычно легче и доступнее, но может больше терять на точности. На практике выбор зависит от задачи: для простого чата и черновиков Q4 часто достаточно, а для кода, анализа документов и точных ответов лучше тестировать Q5, Q6, Q8 или более сильную модель.

Квантование не меняет архитектуру модели и не является дообучением. Оно не добавляет новые знания и не делает модель специализированной. Оно только меняет способ хранения чисел, чтобы снизить требования к железу и иногда ускорить inference.

Главный риск - выбрать слишком сжатую модель и принять ее ответы за полноценную версию. Перед запуском локального агента нужно проверить качество на своих задачах: русский язык, tool calling, RAG, длинные документы, код, формат JSON, устойчивость к ошибкам и скорость ответа.

Практическое правило простое: если модель не помещается в память, начните с Q4_K_M или Q5_K_M, затем сравните ответы с более качественной версией. Если агент работает с деньгами, юридическими документами, безопасностью или кодом, не выбирайте квантование только по размеру файла - обязательно делайте evals.

Примеры

Модель 8B в полной точности не помещается в память ноутбука, а GGUF Q4_K_M запускается через Ollama и отвечает с приемлемой скоростью.
Для локального чат-бота выбирают Q4, потому что важны низкие требования к железу и быстрый ответ, а абсолютная точность не критична.
Для анализа договоров тестируют Q5 или Q8, потому что слишком сильное сжатие может ухудшить извлечение условий, дат и сумм.
Разработчик сравнивает одну и ту же модель в Q4 и Q8 на наборе своих промптов и выбирает вариант, где качество еще приемлемое, а скорость и память подходят серверу.

Где используется

локальный запуск LLM
Ollama, LM Studio и llama.cpp
снижение расхода VRAM
запуск моделей на ноутбуке
self-hosted AI-агенты
ускорение inference
подбор модели под сервер
экономия на инфраструктуре

Связанные термины

Cost control Distillation Fine-tuning GGUF Latency LLM Model routing Контекстное окно

Частые вопросы

Что такое квантование простыми словами?

Это сжатие весов модели до меньшей точности. Модель становится легче и требует меньше памяти, но при сильном сжатии может немного потерять в качестве ответов.

Чем Q4 отличается от Q8?

Q4 обычно сильнее сжата, занимает меньше памяти и легче запускается на слабом железе. Q8 тяжелее, но ближе к качеству исходной модели. Между ними часто выбирают по результатам тестов на своих задачах.

Квантование ухудшает качество модели?

Иногда да. Потери зависят от модели, формата квантования и задачи. Для простого чата разница может быть небольшой, а для кода, точного JSON, сложных документов и reasoning она может стать заметной.

Квантование - это то же самое, что fine-tuning?

Нет. Fine-tuning дообучает модель на данных и меняет ее поведение. Квантование только сжимает веса, чтобы модель занимала меньше памяти и запускалась на доступном железе.

Как выбрать квантованную модель для локального агента?

Сначала проверьте, сколько RAM или VRAM есть на машине, затем протестируйте Q4_K_M или Q5_K_M. Для критичных задач сравните с Q8 или облачной моделью и измерьте качество, скорость, стабильность JSON и работу с RAG.