Локальное железо для AI (Актуально на 2026)

Главный критерий

Для локального ИИ важна не мощность процессора (CPU), а объем и скорость видеопамяти (VRAM). Именно в ней “живут” веса модели во время работы. Если VRAM не хватает, модель либо не запустится, либо будет работать катастрофически медленно через обычную RAM.

📊 Таблица мощностей: Что запустить в 2026?

Объем VRAM	Категория	Примеры моделей (2026)	Применение
4–8 GB	Entry-level	Phi-4 Mini, Gemma 4 (4B)	Быстрые ответы, авто-теги в базе знаний, простые саммари.
12–16 GB	Mid-tier	Mistral Small 3, Llama 3.3 (8B), Qwen 3 (12B)	Глубокий анализ заметок, надежный код, качественный RAG.
24 GB	High-end	Qwen 3 Coder (32B), Llama 3.3 (70B IQ2)	“Золотой стандарт”. Сложные логические выводы и синтез знаний.
64 GB+	Extreme	DeepSeek-R1 (Full), Llama 4 (Scout)	Уровень GPT-4o/Claude 3.5. Глубокое рассуждение (Chain of Thought).

🍎 Особенности Apple Silicon (Mac M1/M2/M3/M4)

Unified Memory Architecture (UMA)

На маках оперативная память (RAM) является общей для процессора и видеоядра. Это киллер-фича для локального ИИ.

Преимущество: Если у тебя Mac Studio с 128GB RAM, ты можешь выделить под ИИ до 90-100GB. Это позволяет запускать гигантские модели, которые на PC потребовали бы связки из нескольких карт RTX 4090.
Минус: Скорость работы (tokens per second) на маках обычно ниже, чем на топовых видеокартах NVIDIA, но объем памяти решает всё.

💻 PC & NVIDIA: Сила скорости

Если ты собираешь PC, твой главный приоритет — RTX 3090 / 4090 / 5090 (24 GB VRAM).

CUDA: Технология от NVIDIA, под которую оптимизировано 99% всех ИИ-библиотек.
Multi-GPU: На Windows/Linux можно объединять видеокарты (например, 2 x RTX 3090 дадут тебе 48 GB VRAM), что дешевле покупки одной профессиональной карты уровня A6000.

💡 Советы по выбору

Контекст ест память

Помни, что VRAM нужна не только для самой модели, но и для контекста. Модель 8B в кванте Q8 занимает ~8GB, но если ты захочешь “скормить” ей 50 заметок сразу, тебе понадобится ещё 2-4GB под контекстное окно.

Скорость шины

Для PC выбирай память GDDR6X. Для Mac — чипы версии “Max” или “Ultra”, так как у них в разы выше пропускная способность памяти, что напрямую влияет на скорость генерации текста.

Связанные концепции

Форматы и Квантование (Quantization) — как уместить большую модель в малую память.
Context Window — почему память важна не только для модели, но и для данных.
Local_Software_Stack — во что устанавливать эти модели.

AI Knowledge Base

Проводник

Hardware

Локальное железо для AI (Актуально на 2026)

📊 Таблица мощностей: Что запустить в 2026?

🍎 Особенности Apple Silicon (Mac M1/M2/M3/M4)

💻 PC & NVIDIA: Сила скорости

💡 Советы по выбору

Связанные концепции

Вид графа

Оглавление