Quantization (Квантование)
Определение
Квантование — это процесс сжатия весов модели путем уменьшения их точности (например, с 16 бит до 4 бит). Это позволяет запускать тяжелые модели на обычном пользовательском железе (ПК или Mac).
⚖️ Компромисс
- Плюс: Модель занимает в 4 раза меньше видеопамяти и работает значительно быстрее.
- Минус: Немного падает «интеллект» и точность (модель может чаще ошибаться в сложных нюансах).
🛠 Зачем это на практике
Если ты хочешь использовать Local LLM (локальный ИИ внутри рабочей среды), тебе почти наверняка понадобятся «квантованные» версии моделей (обычно с пометкой Q4, Q5 или GGUF). Это единственный способ запустить мощную модель на 70B параметров без облачного сервера.