Локальное железо для AI (Актуально на 2026)

Главный критерий

Для локального ИИ важна не мощность процессора (CPU), а объем и скорость видеопамяти (VRAM). Именно в ней “живут” веса модели во время работы. Если VRAM не хватает, модель либо не запустится, либо будет работать катастрофически медленно через обычную RAM.


📊 Таблица мощностей: Что запустить в 2026?

Объем VRAMКатегорияПримеры моделей (2026)Применение
4–8 GBEntry-levelPhi-4 Mini, Gemma 4 (4B)Быстрые ответы, авто-теги в базе знаний, простые саммари.
12–16 GBMid-tierMistral Small 3, Llama 3.3 (8B), Qwen 3 (12B)Глубокий анализ заметок, надежный код, качественный RAG.
24 GBHigh-endQwen 3 Coder (32B), Llama 3.3 (70B IQ2)“Золотой стандарт”. Сложные логические выводы и синтез знаний.
64 GB+ExtremeDeepSeek-R1 (Full), Llama 4 (Scout)Уровень GPT-4o/Claude 3.5. Глубокое рассуждение (Chain of Thought).

🍎 Особенности Apple Silicon (Mac M1/M2/M3/M4)

Unified Memory Architecture (UMA)

На маках оперативная память (RAM) является общей для процессора и видеоядра. Это киллер-фича для локального ИИ.

  • Преимущество: Если у тебя Mac Studio с 128GB RAM, ты можешь выделить под ИИ до 90-100GB. Это позволяет запускать гигантские модели, которые на PC потребовали бы связки из нескольких карт RTX 4090.
  • Минус: Скорость работы (tokens per second) на маках обычно ниже, чем на топовых видеокартах NVIDIA, но объем памяти решает всё.

💻 PC & NVIDIA: Сила скорости

Если ты собираешь PC, твой главный приоритет — RTX 3090 / 4090 / 5090 (24 GB VRAM).

  • CUDA: Технология от NVIDIA, под которую оптимизировано 99% всех ИИ-библиотек.
  • Multi-GPU: На Windows/Linux можно объединять видеокарты (например, 2 x RTX 3090 дадут тебе 48 GB VRAM), что дешевле покупки одной профессиональной карты уровня A6000.

💡 Советы по выбору

Контекст ест память

Помни, что VRAM нужна не только для самой модели, но и для контекста. Модель 8B в кванте Q8 занимает ~8GB, но если ты захочешь “скормить” ей 50 заметок сразу, тебе понадобится ещё 2-4GB под контекстное окно.

Скорость шины

Для PC выбирай память GDDR6X. Для Mac — чипы версии “Max” или “Ultra”, так как у них в разы выше пропускная способность памяти, что напрямую влияет на скорость генерации текста.


Связанные концепции