Форматы и Квантование (Quantization)

Суть

Квантование — это метод сжатия модели за счёт снижения точности её весов. Это позволяет запускать мощные ИИ на обычном пользовательском железе (ноутбуках и домашних ПК), жертвуя малым процентом “интеллекта”.

📦 Основные форматы моделей

В мире локального ИИ доминируют два формата, каждый под свои задачи:

1. GGUF (от llama.cpp)

Для кого: Самый универсальный формат. Работает на Windows, Mac (M1/M2/M3) и Linux.
Особенности: Может распределять нагрузку между видеокартой (GPU) и оперативной памятью (CPU/RAM).
Где использовать: Идеально для Ollama, LM Studio, AnythingLLM.

2. EXL2 (ExLlamaV2)

Для кого: Владельцы видеокарт NVIDIA.
Особенности: Невероятно быстрый. Работает только на GPU (VRAM). Если модель не влезает в видеопамять целиком, она не запустится.
Где использовать: oobabooga/text-generation-webui, TabbyAPI.

📉 Уровни квантования: Баланс веса и ума

Чем сильнее сжата модель, тем меньше видеопамяти (VRAM) она требует, но тем чаще может ошибаться.

Уровень	Обозначение	Потеря качества	Рекомендация
8-bit	Q8_0	Почти 0%	Для тех, у кого избыток памяти. Разницы с оригиналом почти нет.
4-bit	Q4_K_M	~1-2%	“Золотой стандарт”. Идеальное соотношение веса, скорости и логики.
3-bit	Q3_K_L	~3-5%	Позволяет запустить модель на 70B там, где обычно лезет только 30B.
2-bit	IQ2 / IQ3	Заметная	”Экстремальное” сжатие. Модель начинает “тупить”, но всё ещё работает.

🛠 Как выбрать модель для базы знаний?

Чтобы понять, какой формат и квант тебе нужен, используй формулу:

Узнай свою VRAM (видеопамять). Например, 12 ГБ.
Вес модели в ГБ должен быть на 1-2 ГБ меньше твоей VRAM (оставь место для контекста).
Пример: Для видеокарты на 12 ГБ идеально подойдет модель Llama-3-8B в кванте Q8 или Mistral-12B в кванте Q4_K_M.

💡 Почему это в папке Local AI

В локальной среде ты сам себе системный администратор. Понимание разницы между GGUF и EXL2 позволит тебе не тратить часы на скачивание моделей, которые не запустятся или будут выдавать “абракадабру” из-за слишком сильного сжатия.

Связанные концепции

Weights — что именно мы сжимаем.
Inference — процесс запуска этих форматов.
Local_Software_Stack — программы для запуска GGUF и EXL2.

AI Knowledge Base

Проводник

Formats

Форматы и Квантование (Quantization)

📦 Основные форматы моделей

1. GGUF (от llama.cpp)

2. EXL2 (ExLlamaV2)

📉 Уровни квантования: Баланс веса и ума

🛠 Как выбрать модель для базы знаний?

💡 Почему это в папке Local AI

Связанные концепции

Вид графа

Оглавление