Локальное железо для AI (Актуально на 2026)
Главный критерий
Для локального ИИ важна не мощность процессора (CPU), а объем и скорость видеопамяти (VRAM). Именно в ней “живут” веса модели во время работы. Если VRAM не хватает, модель либо не запустится, либо будет работать катастрофически медленно через обычную RAM.
📊 Таблица мощностей: Что запустить в 2026?
| Объем VRAM | Категория | Примеры моделей (2026) | Применение |
|---|---|---|---|
| 4–8 GB | Entry-level | Phi-4 Mini, Gemma 4 (4B) | Быстрые ответы, авто-теги в базе знаний, простые саммари. |
| 12–16 GB | Mid-tier | Mistral Small 3, Llama 3.3 (8B), Qwen 3 (12B) | Глубокий анализ заметок, надежный код, качественный RAG. |
| 24 GB | High-end | Qwen 3 Coder (32B), Llama 3.3 (70B IQ2) | “Золотой стандарт”. Сложные логические выводы и синтез знаний. |
| 64 GB+ | Extreme | DeepSeek-R1 (Full), Llama 4 (Scout) | Уровень GPT-4o/Claude 3.5. Глубокое рассуждение (Chain of Thought). |
🍎 Особенности Apple Silicon (Mac M1/M2/M3/M4)
Unified Memory Architecture (UMA)
На маках оперативная память (RAM) является общей для процессора и видеоядра. Это киллер-фича для локального ИИ.
- Преимущество: Если у тебя Mac Studio с 128GB RAM, ты можешь выделить под ИИ до 90-100GB. Это позволяет запускать гигантские модели, которые на PC потребовали бы связки из нескольких карт RTX 4090.
- Минус: Скорость работы (tokens per second) на маках обычно ниже, чем на топовых видеокартах NVIDIA, но объем памяти решает всё.
💻 PC & NVIDIA: Сила скорости
Если ты собираешь PC, твой главный приоритет — RTX 3090 / 4090 / 5090 (24 GB VRAM).
- CUDA: Технология от NVIDIA, под которую оптимизировано 99% всех ИИ-библиотек.
- Multi-GPU: На Windows/Linux можно объединять видеокарты (например, 2 x RTX 3090 дадут тебе 48 GB VRAM), что дешевле покупки одной профессиональной карты уровня A6000.
💡 Советы по выбору
Контекст ест память
Помни, что VRAM нужна не только для самой модели, но и для контекста. Модель 8B в кванте Q8 занимает ~8GB, но если ты захочешь “скормить” ей 50 заметок сразу, тебе понадобится ещё 2-4GB под контекстное окно.
Скорость шины
Для PC выбирай память GDDR6X. Для Mac — чипы версии “Max” или “Ultra”, так как у них в разы выше пропускная способность памяти, что напрямую влияет на скорость генерации текста.
Связанные концепции
- Форматы и Квантование (Quantization) — как уместить большую модель в малую память.
- Context Window — почему память важна не только для модели, но и для данных.
- Local_Software_Stack — во что устанавливать эти модели.