Форматы и Квантование (Quantization)
Суть
Квантование — это метод сжатия модели за счёт снижения точности её весов. Это позволяет запускать мощные ИИ на обычном пользовательском железе (ноутбуках и домашних ПК), жертвуя малым процентом “интеллекта”.
📦 Основные форматы моделей
В мире локального ИИ доминируют два формата, каждый под свои задачи:
1. GGUF (от llama.cpp)
- Для кого: Самый универсальный формат. Работает на Windows, Mac (M1/M2/M3) и Linux.
- Особенности: Может распределять нагрузку между видеокартой (GPU) и оперативной памятью (CPU/RAM).
- Где использовать: Идеально для Ollama, LM Studio, AnythingLLM.
2. EXL2 (ExLlamaV2)
- Для кого: Владельцы видеокарт NVIDIA.
- Особенности: Невероятно быстрый. Работает только на GPU (VRAM). Если модель не влезает в видеопамять целиком, она не запустится.
- Где использовать: oobabooga/text-generation-webui, TabbyAPI.
📉 Уровни квантования: Баланс веса и ума
Чем сильнее сжата модель, тем меньше видеопамяти (VRAM) она требует, но тем чаще может ошибаться.
| Уровень | Обозначение | Потеря качества | Рекомендация |
|---|---|---|---|
| 8-bit | Q8_0 | Почти 0% | Для тех, у кого избыток памяти. Разницы с оригиналом почти нет. |
| 4-bit | Q4_K_M | ~1-2% | “Золотой стандарт”. Идеальное соотношение веса, скорости и логики. |
| 3-bit | Q3_K_L | ~3-5% | Позволяет запустить модель на 70B там, где обычно лезет только 30B. |
| 2-bit | IQ2 / IQ3 | Заметная | ”Экстремальное” сжатие. Модель начинает “тупить”, но всё ещё работает. |
🛠 Как выбрать модель для базы знаний?
Чтобы понять, какой формат и квант тебе нужен, используй формулу:
- Узнай свою VRAM (видеопамять). Например, 12 ГБ.
- Вес модели в ГБ должен быть на 1-2 ГБ меньше твоей VRAM (оставь место для контекста).
- Пример: Для видеокарты на 12 ГБ идеально подойдет модель Llama-3-8B в кванте Q8 или Mistral-12B в кванте Q4_K_M.
💡 Почему это в папке Local AI
В локальной среде ты сам себе системный администратор. Понимание разницы между GGUF и EXL2 позволит тебе не тратить часы на скачивание моделей, которые не запустятся или будут выдавать “абракадабру” из-за слишком сильного сжатия.
Связанные концепции
- Weights — что именно мы сжимаем.
- Inference — процесс запуска этих форматов.
- Local_Software_Stack — программы для запуска GGUF и EXL2.