Quantization (Квантование)

Определение

Квантование — это процесс сжатия весов модели путем уменьшения их точности (например, с 16 бит до 4 бит). Это позволяет запускать тяжелые модели на обычном пользовательском железе (ПК или Mac).

⚖️ Компромисс

Плюс: Модель занимает в 4 раза меньше видеопамяти и работает значительно быстрее.
Минус: Немного падает «интеллект» и точность (модель может чаще ошибаться в сложных нюансах).

🛠 Зачем это на практике

Если ты хочешь использовать Local LLM (локальный ИИ внутри рабочей среды), тебе почти наверняка понадобятся «квантованные» версии моделей (обычно с пометкой Q4, Q5 или GGUF). Это единственный способ запустить мощную модель на 70B параметров без облачного сервера.

AI Knowledge Base

Проводник

Quantization

Quantization (Квантование)

⚖️ Компромисс

🛠 Зачем это на практике

Связанные концепции

Вид графа

Оглавление