Quantization (Квантование)

Определение

Квантование — это процесс сжатия весов модели путем уменьшения их точности (например, с 16 бит до 4 бит). Это позволяет запускать тяжелые модели на обычном пользовательском железе (ПК или Mac).


⚖️ Компромисс

  • Плюс: Модель занимает в 4 раза меньше видеопамяти и работает значительно быстрее.
  • Минус: Немного падает «интеллект» и точность (модель может чаще ошибаться в сложных нюансах).

🛠 Зачем это на практике

Если ты хочешь использовать Local LLM (локальный ИИ внутри рабочей среды), тебе почти наверняка понадобятся «квантованные» версии моделей (обычно с пометкой Q4, Q5 или GGUF). Это единственный способ запустить мощную модель на 70B параметров без облачного сервера.


Связанные концепции