Форматы и Квантование (Quantization)

Суть

Квантование — это метод сжатия модели за счёт снижения точности её весов. Это позволяет запускать мощные ИИ на обычном пользовательском железе (ноутбуках и домашних ПК), жертвуя малым процентом “интеллекта”.


📦 Основные форматы моделей

В мире локального ИИ доминируют два формата, каждый под свои задачи:

1. GGUF (от llama.cpp)

  • Для кого: Самый универсальный формат. Работает на Windows, Mac (M1/M2/M3) и Linux.
  • Особенности: Может распределять нагрузку между видеокартой (GPU) и оперативной памятью (CPU/RAM).
  • Где использовать: Идеально для Ollama, LM Studio, AnythingLLM.

2. EXL2 (ExLlamaV2)

  • Для кого: Владельцы видеокарт NVIDIA.
  • Особенности: Невероятно быстрый. Работает только на GPU (VRAM). Если модель не влезает в видеопамять целиком, она не запустится.
  • Где использовать: oobabooga/text-generation-webui, TabbyAPI.

📉 Уровни квантования: Баланс веса и ума

Чем сильнее сжата модель, тем меньше видеопамяти (VRAM) она требует, но тем чаще может ошибаться.

УровеньОбозначениеПотеря качестваРекомендация
8-bitQ8_0Почти 0%Для тех, у кого избыток памяти. Разницы с оригиналом почти нет.
4-bitQ4_K_M~1-2%“Золотой стандарт”. Идеальное соотношение веса, скорости и логики.
3-bitQ3_K_L~3-5%Позволяет запустить модель на 70B там, где обычно лезет только 30B.
2-bitIQ2 / IQ3Заметная”Экстремальное” сжатие. Модель начинает “тупить”, но всё ещё работает.

🛠 Как выбрать модель для базы знаний?

Чтобы понять, какой формат и квант тебе нужен, используй формулу:

  1. Узнай свою VRAM (видеопамять). Например, 12 ГБ.
  2. Вес модели в ГБ должен быть на 1-2 ГБ меньше твоей VRAM (оставь место для контекста).
  3. Пример: Для видеокарты на 12 ГБ идеально подойдет модель Llama-3-8B в кванте Q8 или Mistral-12B в кванте Q4_K_M.

💡 Почему это в папке Local AI

В локальной среде ты сам себе системный администратор. Понимание разницы между GGUF и EXL2 позволит тебе не тратить часы на скачивание моделей, которые не запустятся или будут выдавать “абракадабру” из-за слишком сильного сжатия.


Связанные концепции

  • Weights — что именно мы сжимаем.
  • Inference — процесс запуска этих форматов.
  • Local_Software_Stack — программы для запуска GGUF и EXL2.