Перейти к основному содержимому

Как выбрать модель и где её запускать

Всем

ChatGPT, Claude, Gemini, DeepSeek, GigaChat, локальная Llama в Ollama — универсально "лучшей" модели нет. Подходит та, что совпадает с задачей, данными, языком и бюджетом.

Цены — сколько стоит ИИ. Российский контур — GigaChat и YandexGPT. Мифы про "самую умную нейросеть" — мифы и реальность.

Термины

LLM — большая языковая модель для текста.
ML — машинное обучение; шире, чем только LLM.
API — программный доступ к модели в облаке.
On-premise — модель в вашем контуре.
ПДн — персональные данные по 152-ФЗ.
RAG — ответы по вашим документам — 121.
Квантизация — сжатие весов модели для экономии RAM.
VRAM — видеопамять GPU.
ZDR — политика нулевого хранения промптов провайдером.


Общее дерево решений

Ниже — каждый шаг подробно. Пропускать шаг 2 (данные) нельзя — это главный источник инцидентов и штрафов.


Шаг 1. Определите задачу

Сначала зафиксируйте одно предложение о том, что должна делать модель. Пример — "суммаризировать обращения поддержки на русском за 5 предложений".

Хорошая формулировка отвечает на вопросы:

  • кто пользователь (оператор, клиент, разработчик);
  • что на входе (текст, PDF, код, таблица);
  • что на выходе (ответ, класс, JSON, картинка);
  • какой язык;
  • как быстро нужен результат.

Плохая формулировка — "нужен ИИ". Так не выбрать ни модель, ни способ доступа.

Примеры формулировок задач

СлабоЛучше
Нужен ChatGPTНужен черновик ответа клиенту на русском по шаблону FAQ
Хочу нейросеть в компаниюНужен поиск по 500 PDF регламентов с цитатой источника
Напиши кодНужен рефакторинг модуля на Python 3.12 в IDE
Сделай картинкуНужны иллюстрации 1024×1024 для блога в корпоративном стиле
ЗадачаЧто использовать
Спросить, объяснить, черновик текстаChat LLM в облаке или локально
Сложная логика, математикаReasoning-модели или chat + tools
Картинки, видео, голосМультимодальный ИИ
Ответы по вашим PDF и wikiRAG + любая LLM + векторная БД
Прогноз по таблице, классификация строкКлассический ML, LLM не обязателен
Код в IDECopilot, Cursor, Claude Code — генерация кода
Автономные действия в системахАгенты + MCP — 114
Извлечение JSON из текстаChat + structured output

LLM (Large Language Model) — модель для текста. ML (Machine Learning) — более широкий класс задач на данных.

Уточняющие вопросы к задаче

  • Нужен один ответ или диалог с памятью?
  • Допустимы галлюцинации или нужны цитаты из документов?
  • Какая максимальная задержка (секунды)?
  • На каком языке ввод и вывод?
  • Сколько запросов в день ожидается?

Когда LLM избыточен

  • Регулярные отчёты по SQL — хватит шаблона и BI.
  • Спам-фильтр на миллионах писем — классический ML дешевле.
  • Сортировка числовых заявок по порогам — правила и скрипты.

Когда LLM необходим

  • Свободная формулировка вопроса пользователя.
  • Работа с неструктурированным текстом (PDF, тикеты).
  • Черновики на естественном языке.

Шаг 2. Классифицируйте данные

ПДн (персональные данные) — ФИО, телефон, email и любая информация, по которой можно идентифицировать человека. Подробнее — ИИ и право в РФ.

Класс данныхНельзяМожно
Пароли, ключи, .envЛюбой чатНикуда; ротация секретов
ПДн клиентовFree ChatGPTДоговор + РФ или enterprise
Исходники закрытого продуктаПубличный freeКорп. IDE или on-prem
Домашка, публичные статьиFree chat с осторожностью — ИИ в учёбе
Медицинские записиFree tierРегулируемый контур, согласие субъекта
Внутренние финансовые отчётыПубличный APIEnterprise, локально

ZDR (Zero Data Retention) — провайдер не хранит промпты для обучения. См. политику данных.

Compliance-чеклист для новичка

  • Я понимаю, есть ли в запросе ПДн
  • Я проверил список разрешённых сервисов (если это работа)
  • Я не вставляю ключи API и пароли в промпт
  • Для продукта с пользователями есть договор с провайдером (если нужен)
  • Логи не сохраняют полный текст промпта с ПДн

Российский контур данных

Если в запросе ПДн граждан РФ и политика требует локализации — российские нейросети, on-prem open-weight (Saiga на Hugging Face) или согласованный enterprise-контракт с хранением в РФ.


Шаг 3. Облако или локально

Облако (API)Локально (Ollama, LM Studio)
СтартМинутыЧасы (скачать веса, настроить GPU/RAM)
Качество топ-моделейGPT-4, Claude доступны7B–70B слабее флагманов
ПриватностьЗависит от договораДанные не уходят в облако
СтоимостьЗа токен / подпискаЖелезо + электричество — 126
ИнтернетНуженНе нужен после загрузки
МасштабированиеАвтоматически у провайдераПокупка GPU / кластера
Обновление моделиВендор обновляетВы качаете новые веса

On-premise — модель в вашем контуре. Облако — запрос уходит на сервер провайдера.

Дерево "облако или локально"

Локально имеет смысл при закрытом контуре, экспериментах без списания API и офлайн. Облако — когда нужен максимум качества без покупки GPU. Гайд — локальные модели.

Гибрид

Частый паттерн в компаниях:

  • прод с ПДн — GigaChat / YandexGPT / локальная Saiga;
  • разработка — Cursor, Claude, DeepSeek без секретов;
  • CI — моки без реальных данных.

См. 124 и политику данных.


Шаг 4. Размер модели и железо

Ориентиры для квантизованных весов GGUF (Q4–Q5). Квантизация — сжатие весов; меньше RAM, чуть ниже качество.

Базовая таблица RAM / VRAM

RAM / VRAMРазмер моделиДля чего хватит
8 GB3B–7BПростые вопросы, черновики
16 GB7B–13BКод, русский, небольшой RAG
24–32 GB VRAM13B–34BСерьёзнее код, длинный контекст
48 GB+70B+Ближе к "большим" chat, медленнее
64–128 GB70B+ multi-GPUOn-prem мини-кластер

VRAM — видеопамять GPU. RAM — оперативная память. Слабое железо — часто дешевле облачный API, чем апгрейд ПК — 126.

Уровни квантизации GGUF

ФорматРазмер на дискеКачествоКогда брать
Q8БольшеБлиже к оригиналуЕсли хватает VRAM
Q6_KСреднеХороший балансРабочие станции
Q5_K_MСреднеРекомендуемый дефолт16 GB VRAM
Q4_K_MМеньшеЛёгкая потеря8–12 GB VRAM
Q3 / Q2МинимумЗаметные артефактыТолько эксперименты

Чем ниже Q — тем меньше памяти и тем хуже рассуждения на сложных задачах.

Таблица GPU потребительского класса

GPUVRAMПримерно модель (Q4–Q5)Скорость*
Intel iGPU только0–2 GB sharedНе для LLM
NVIDIA GTX 16504 GB3B очень медленно~2–5 tok/s
RTX 306012 GB7B–13B~15–40 tok/s
RTX 4060 Ti 16GB16 GB13B комфортно~25–50 tok/s
RTX 3090 / 409024 GB34B, 70B квант.~30–80 tok/s
Apple M1 8GBunified7B CPU/GPU hybridпеременно
Apple M2/M3 Pro 18GB+unified13Bлучше для dev
Apple M2 Ultra 64GB+unified70B Q4без discrete GPU

*Скорость сильно зависит от контекста, бэкенда (llama.cpp, vLLM) и длины ответа. Цифры — порядок величины для планирования.

Только CPU без GPU

Если дискретной GPU нет:

  • модели 3B–7B на Q4 через llama.cpp;
  • ожидайте 1–10 tok/s — терпимо для экспериментов, не для чата с сотней пользователей;
  • для продакшена с нагрузкой — облачный API выгоднее.

Ноутбук и сервер

Ноутбук devСервер on-prem
GPU1 карта, ограничен TDPНесколько GPU, 24/7
ЗадачаПрототип, личный ассистентRAG для отдела, десятки RPS
Модель7B–13B34B–70B

Длина контекста и память

Контекст 8k и 128k по-разному влияет на потребление VRAM во время инференса. Для RAG на длинных PDF следите за окном контекста — см. контекст LLM.

Когда покупать железо

Покупка GPU оправдана, если:

  • месячный счёт API > амортизации GPU за 12–18 месяцев;
  • есть требование офлайн или закрытый контур;
  • нужны тысячи однотипных запросов (batch).

Иначе начните с API — 126.


Шаг 5. Провайдер в облаке

Если важно…Смотрите
Русский, 152-ФЗGigaChat, YandexGPT
КодCopilot, Cursor, Claude, DeepSeek-Coder — 117
Дёшево и много запросовDeepSeek API, младшие GPT/Gemini
Длинные документыClaude, Gemini, GPT-4o — контекст
Reasoningo-series, DeepSeek-R1 — 123
Уже есть Microsoft 365Copilot — ответственное использование
Open weights в облакеСамохост vLLM на VPS с GPU

Сравнивайте 5–10 своих запросов, а не чужие бенчмарки.

Семейства моделей (кратко)

СемействоСильные стороныСсылки
OpenAI GPT-4o / o-seriesУниверсальность, tools, reasoningopenai.com
Anthropic ClaudeДлинный контекст, текстыanthropic.com
Google GeminiМультимодальность, экосистема Googleai.google.dev
DeepSeekЦена, код, R1 reasoningdeepseek.com
Meta LlamaOpen weights, локальноhuggingface.co/meta-llama
MistralOpen weights, EUhuggingface.co/mistralai
GigaChat / YandexGPTРусский, РФ compliance124

Дерево выбора провайдера


Шаг 6. Способ доступа

СпособКому подходитПлюс
Веб-чатНовичок, учёбаНулевая настройка
APIРазработчик, бот, продуктАвтоматизация, RAG — 1149
IDE (Cursor, Continue)ПрограммистКонтекст репозитория
Агент в терминалеОпытный devАвтономия и риски — агенты
Корп. CopilotКомпания на M365Единый контракт

Walkthrough — первый API-запрос

  1. Зарегистрируйтесь у провайдера, создайте API-ключ.
  2. Сохраните ключ в .env, не коммитьте в git.
  3. Скопируйте минимальный пример из lab/1149.
  4. Отправьте system + user message, temperature=0.3.
  5. Зафиксируйте токены и стоимость — 126.
  6. Добавьте RAG — 121.

Walkthrough — локальный старт Ollama

  1. Установите Ollama.
  2. ollama pull llama3.2 или русскоязычную Saiga с Hugging Face.
  3. ollama run <model> в терминале.
  4. Оцените скорость и качество на 5 своих вопросах.
  5. Если мало — переходите на облако или GPU побольше.

Быстрый старт по ролям

ВыС чего начать
Школьник / студентFree chat + ИИ в учёбе
Junior devChatGPT/DeepSeek + генерация кода
Dev в компанииСписок сервисов у ИБ
Бот на документахAPI + RAG + векторная БД
Госсектор / банкGigaChat / on-prem + право РФ
МаркетологChat для черновиков, без ПДн клиентов в free tier
АналитикGolden set + сравнение 2 провайдеров
Архитектор119 + политика данных

Сценарий "студент пишет курсовую"

  • Данные — публичные источники, без анкет респондентов с ФИО.
  • Инструмент — free chat.
  • Риск — плагиат и выдуманные ссылки; проверяйте источники вручную.
  • См. 116.

Сценарий "junior делает pet-проект"

  • Данные — открытые API, без ключей в репозитории.
  • Инструмент — DeepSeek API или бесплатный tier OpenAI.
  • Следующий шаг — Docker backend + .envразработка и отладка.

Сценарий "команда делает бота поддержки"

  • Данные — FAQ без ПДн в индексе; тикеты с ПДн — только в РФ контуре.
  • Инструмент — YandexGPT или GigaChat + RAG — 124.
  • Метрики — доля эскалаций на человека.

Сценарий "банк, внутренний ассистент"

  • Данные — ПДн, регламенты.
  • Инструмент — GigaChat enterprise / on-prem.
  • Обязательно — ИБ, юристы, аудит логов — 115.

Сценарий "инди-разработчик игры"

  • Данные — сюжет, диалоги NPC без ПДн.
  • Инструмент — локальная 7B для черновиков, Claude для полировки английского.
  • Бюджет — 126.

Стоимость — три примера

Оценки порядка величины; актуальные цены — 126.

ПрофильНагрузкаВариантОриентир
Личный учёт50 запросов/деньFree chat / дешёвый API0–500 ₽/мес
Стартап MVP500 запросов/день, RAGYandexGPT / DeepSeek API3–15 тыс. ₽/мес
Корпорация50k запросов/день, ПДнGigaChat enterpriseДоговор, не публичный прайс

Локальная RTX 4090 — разовые ~150–200 тыс. ₽ + электричество; окупается при высоком постоянном трафике.


Методика сравнения моделей

Golden set

  • 20–50 реальных запросов из вашей задачи;
  • краткий эталон ответа или критерии оценки;
  • одинаковый system prompt для всех кандидатов.

Слепое сравнение

Два ответа на один вопрос без подписи модели. Оценщик ставит 1–5. Так убирается bias "ChatGPT всегда лучше".

Что фиксировать

  • модель и версия;
  • temperature, max_tokens118;
  • длина RAG-контекста;
  • latency и стоимость запроса.

Параметры генерации

Не меняйте десять параметров сразу. Стартовые профили — 118.

ЗадачаtemperatureКомментарий
Классификация0–0.2Минимум креатива
Поддержка по FAQ0.2–0.4Стабильность важнее
Маркетинговый черновик0.7–0.9Больше вариативности
Извлечение JSON0+ schema в промпте

Типичные ошибки выбора

  • Гнаться за "самой умной" моделью из блога, без своего golden set.
  • Запускать 70B локально на 8 GB RAM "потому что бесплатно".
  • Отправлять ПДн в free ChatGPT "только один раз".
  • Использовать reasoning-модель для перефраза письма — дорого и медленно — 123.
  • Игнорировать список ИБ в компании.
  • Не учитывать стоимость выходных токенов при длинных ответах.
  • RAG без обновления документов — устаревшие ответы.

FAQ

Какую модель выбрать абсолютному новичку?

Веб-чат бесплатного tier для учёбы без ПДн. Для кода — 117. Алгоритм — шесть шагов выше.

ChatGPT или Claude?

Зависит от задачи. Claude часто силён в длинных документах. GPT — в экосистеме tools и плагинов. Сравните 10 своих промптов.

Нужна ли платная подписка?

Для серьёзной ежедневной работы без лимитов free — обычно да. Для редких вопросов хватает free. API платите по токенам — 126.

Llama локально или GPT в облаке?

Закрытый контур — Llama / Saiga. Максимум качества без железа — GPT / Claude в облаке.

DeepSeek — хороший выбор?

Часто отличное соотношение цена/качество для кода и русского. Проверьте политику данных для корпорации.

GigaChat только для банков?

Нет, но силён в enterprise и госсекторе. Стартапу без ПДн может подойти и YandexGPT — 124.

Сколько RAM нужно для Ollama?

От 8 GB для 7B Q4. Комфортно — 16 GB+. См. таблицы в шаге 4.

Можно ли смешивать провайдеров?

Да, через LLM Gateway и политику маршрутизации. ПДн — только разрешённый контур.

Что такое reasoning и нужен ли он мне?

Модели с длинной цепочкой рассуждений для математики и логики — 123. Для черновиков текста — обычный chat.

Как выбрать модель для RAG?

Часто хватает среднего chat (GPT-4o-mini, YandexGPT lite, GigaChat). Важнее качество индекса — 121.

Опасно ли отправлять код в облако?

Зависит от политики компании. Секреты и закрытые репозитории — только разрешённые IDE или on-prem.

Что выбрать для русского языка?

124 для РФ compliance. Из международных — DeepSeek, GPT-4o. Сравните на своих текстах.

Нужен ли GPU для обучения?

Для использования готовой LLM — GPU желателен локально, в облаке не нужен. Для обучения с нуля — кластер GPU; для fine-tune 7B — одна 24 GB карта может хватить.

Как часто менять модель?

При регрессии качества или росте цены. Раз в квартал пересматривайте рынок — модели обновляются быстро.

Cursor — это отдельная модель?

Cursor — IDE, под капотом разные LLM по подписке. См. 117.


Серверные GPU и дата-центр

Для on-prem и высокой нагрузки смотрят не потребительские, а серверные карты.

GPUVRAMТипичное применение
NVIDIA A1024 GBИнференс 13B–34B, несколько потоков
NVIDIA A100 40/80 GB40–80 GB70B, batch, fine-tune
NVIDIA H10080 GBВысокий RPS, большие батчи
NVIDIA L40S48 GBУниверсальный инференс
2× RTX 409048 GB totalБюджетный on-prem 70B Q4

Multi-GPU

Модели 70B+ часто не помещаются на одну карту. Используют:

  • tensor parallel в vLLM;
  • несколько карт с разнесением слоёв;
  • более агрессивную квантизацию (Q3) — с потерей качества.

Настройка сложнее Ollama на одной машине — закладывайте время DevOps/MLOps.


Аренда GPU в облаке (self-host LLM)

Если on-prem пока нет, но API дорог при объёме — арендуйте VM с GPU и поднимите vLLM / TGI.

ПровайдерПлюсыМинусы
Yandex Cloud GPUРубли, РФНужна настройка самому
SberCloudEnterprise, РФЧасто через менеджера
Зарубежные VPS GPUШирокий выбор картТрансграничность данных

Перед переносом ПДн на self-host в облаке РФ — тот же compliance, что и для GigaChat API — 115.

Минимальный чеклист self-host

  • Выбрана модель и квантизация под VRAM
  • vLLM / llama.cpp протестирован на golden set
  • HTTPS и auth перед инференс-endpoint
  • Мониторинг GPU utilization
  • План обновления весов и отката

Параметры модели (7B, 70B) простыми словами

B (billion) — миллиарды параметров (весов) нейросети.

РазмерКачествоЖелезоСкорость
3B–8BБазовое8–16 GBБыстро
13B–34BХорошее16–32 GBСредне
70B+Ближе к флагманам48 GB+Медленно

Больше параметров — обычно лучше рассуждения, но дороже инференс. Для классификации тикетов часто хватает 7B; для сложного кода — 34B+ или облачный флагман.


Режим реального времени и пакетная обработка

РежимLatencyМодельПример
Realtime chat< 3 с до первого токенаБыстрая chat, miniПоддержка в виджете
Interactive5–30 сСредняя / ProАссистент аналитика
Batchминуты–часыЛюбая, дешевле batch APIСуммаризация 10k тикетов за ночь

Для ночной batch-обработки берите очередь (RabbitMQ, YMQ в Yandex Cloud) и лимитируйте параллелизм, чтобы не упереться в rate limit API.


Соответствие требованиям (compliance) по сценариям

СценарийМинимальные меры
Личный блог, без ПДнНе публиковать секреты; free chat ок
Стартап B2C с email пользователейДоговор с провайдером; РФ или ZDR
МедицинаСогласие субъекта; часто on-prem
ОбразованиеНе загружать работы студентов с ФИО в free tier
ФинансыGigaChat / Yandex enterprise; аудит
ГоссекторOn-prem; сертификация по регламенту заказчика

Юридические детали — ИИ и право в РФ. Техническая политика — политика данных.


Walkthrough — выбор между тремя кандидатами

Допустим, нужен бот по внутренней wiki на русском, 200 запросов/день, без ПДн в тексте статей.

  1. Задача — RAG + chat (шаг 1).
  2. Данные — внутренние статьи без ПДн; ИБ разрешила облако РФ (шаг 2).
  3. Облако — API, без покупки GPU (шаг 3).
  4. Провайдеры — YandexGPT Lite, GigaChat, DeepSeek API (шаг 5).
  5. Соберите 10 вопросов из реальной wiki.
  6. Прогоните с одинаковым RAG top-k=5, temperature=0.2.
  7. Оцените фактологию по источнику, latency, цену за 1000 запросов — 126.
  8. Победитель → MVP на 1149 + 121.

Walkthrough — локальная модель для дома

  1. Проверьте RAM/VRAM по таблице шага 4 (например 16 GB → 7B–13B Q4).
  2. Установите Ollama — 113.
  3. Скачайте saiga или llama3.2 с Hugging Face.
  4. Прогоните 10 личных задач (письмо, объяснение кода, перевод).
  5. Если качество не устраивает — либо облако, либо GPU 24 GB+.

Совместимость с инструментами разработки

ИнструментКак подключитьОграничение
CursorCustom OpenAI base URLНужен шлюз с OpenAI-форматом
Continueconfig.yaml openai apiBaseТо же
LangChainКласс ChatOpenAI с base_urlАдаптер сообщений
n8n / MakeHTTP nodeРучной mapping JSON
Telegram-ботBackend + APIКлюч только на сервере

Прямая вставка ключа GigaChat в плагин без корпоративного шлюза часто запрещена ИБ.


Дополнительные FAQ

Ollama или LM Studio?

Оба для локального инференса. Ollama удобнее в CLI и сервере. LM Studio — для GUI и экспериментов на Windows. См. 113.

Нужен ли Mac для локальных моделей?

Apple Silicon с 16 GB+ unified memory — рабочий dev-вариант. Для 70B нужны топовые конфигурации Mac Studio.

Можно ли запустить YandexGPT в Ollama?

Нет, веса закрыты. Локально — open-weight аналоги (Saiga, Vikhr).

ChatGPT Plus или API?

Plus — для ручного чата в браузере. API — для продукта и автоматизации. Разные тарифы — 126.

Одна модель на всё?

Редко оптимально. Часто mini для классификации и Pro для сложных ответов — 118.

Как понять, что модель "галлюцинирует"?

Ответ не совпадает с источником RAG или содержит выдуманные ссылки. Лечение — цитирование фрагментов, снижение temperature, human review.

Нужен ли fine-tune новичку?

Почти никогда на старте. Сначала RAG и промпты — 121.

GPU AMD для LLM?

Поддержка через ROCm и llama.cpp улучшается, но экосистема NVIDIA проще для новичка.

Сколько весит модель 7B на диске?

Q4 GGUF — порядка 4–5 GB. Закладывайте место под несколько моделей.

Можно ли использовать бесплатный Gemini?

Для учёбы без ПДн — да. Для продукта с пользовательскими данными — проверьте условия и регион.


Чеклист перед финальным решением

  • Задача сформулирована одним предложением
  • Класс данных определён (ПДн / секреты / публичное)
  • Выбрано облако или локально с обоснованием
  • Если локально — железо проверено по таблице шага 4
  • 2–3 провайдера сравнены на golden set
  • Способ доступа (чат / API / IDE) согласован с командой
  • Оценена месячная стоимость — 126
  • Для компании — согласование с ИБ
  • Параметры генерации зафиксированы — 118
  • План мониторинга latency и ошибок

Каталог задач и стартовые модели (2025–2026)

Ориентиры, не рейтинг. Проверяйте на golden set.

ЗадачаСтарт в облакеСтарт локально
Объяснить тему учебникаFree chat / GPT-4o-miniLlama 3.2 8B
Рерайт поста на русскомYandexGPT / DeepSeekSaiga 7B
Код PythonCursor + Claude / DeepSeekQwen2.5-Coder 7B
Суммаризация 50 стр. PDFClaude / Gemini long context13B + RAG по чанкам
Математика олимпиаднаяo-series / DeepSeek-R1 — 12334B+ или облако
Классификация тикетовYandexGPT Lite / GigaChat-mini7B Q4
Чат по wiki компанииGigaChat + RAG — 124Saiga 13B + pgvector
Картинка для статьиDALL·E / YandexARTStable Diffusion локально

Безопасность при выборе модели

Выбор модели — часть threat model.

УгрозаМитигация
Утечка ПДн в free chatКлассификация данных, шаг 2
Prompt injectionСанитизация, RAG marks — безопасность RAG
Утечка API-ключаSecrets manager, rotate
Зависимость от одного вендораАбстракция + второй провайдер
Галлюцинации в медицине/правеHuman-in-the-loop, дисклеймер

Агенты с доступом к shell — только для опытных команд — 116.


Переход с free-чата на API

Типичный путь pet-проекта → MVP:

  1. Прототип промптов в веб-чате (без ПДн).
  2. Вынесение промптов в файлы репозитория.
  3. Backend с одним эндпоинтом /ask117.
  4. Подключение API-ключа в .env.
  5. Добавление RAG при росте базы знаний — 121.
  6. Метрики и лимиты расходов — 126.

На шаге 4 часто меняют модель: то, что работало в ChatGPT UI, может отличаться в API другой версией — перепроверьте golden set.


Длинный контекст и RAG

Два подхода к большим документам:

ПодходКогдаМодели
Огромное окно контекстаОдин-два PDF целикомClaude, Gemini — 113
RAG по чанкамСотни документов, обновленияЛюбая LLM + векторный поиск

Для корпоративной wiki с еженедельными правками RAG практичнее гигантского контекста: дешевле и проще обновлять индекс.

Размер чанка в RAG

  • 300–800 токенов — типичный диапазон;
  • overlap 50–100 токенов — чтобы не резать мысль посередине;
  • top-k 3–7 — баланс фактов и размера промпта.

Сезонность и обновления рынка

Модели устаревают за месяцы, не годы.

СигналДействие
Вышла новая версия у текущего провайдераРегрессионный golden set за 1 день
Вырос счёт API на 30%Проверить RAG, max_tokens, mini-модель
ИБ запретила сервисМиграция на разрешённый — 124
Появился дешёвый конкурентA/B на 100 запросах

Подписки на changelog OpenAI, Anthropic, DeepSeek, Yandex Cloud, developers.sber.ru.


Расширенная таблица железа (рабочие станции)

КонфигурацияRAMGPUМодель inferenceПримечание
Бюджетный ПК16 GBнет7B Q4 CPUМедленно, для тестов
Dev laptop gaming32 GBRTX 4060 8GB7B GPU, 13B Q4 CPU offloadКомпромисс
Dev desktop64 GBRTX 4090 24GB34B Q4, 70B Q3Сильный home lab
MacBook Air M216 GB unifiediGPU7BТихо, без CUDA
MacBook Pro M3 Max36–48 GBunified13B–34B Q4Хорош для mobile dev
Workstation TR Pro128 GB2× RTX 409070B Q4 tensor parallelМалый on-prem

Электричество и TCO

GPU 300–450 W под нагрузкой × 24/7 заметно в счёте за электричество. Для сравнения с API перемножьте кВт·ч на тариф и добавьте к стоимости железа — 126.


Сводная матрица решений

ПДнЯзыкБюджетРекомендация
НетRUНизкийDeepSeek API / free chat
НетRUСреднийYandexGPT API
ДаRUEnterpriseGigaChat / Yandex договор
ДаRUCapExOn-prem Saiga + GPU
НетEN кодСреднийCursor + Claude
ДаENЛюбойТолько разрешённый ИБ контур

Итоги

Выбор LLM — шесть шагов: задача → данные → место запуска → железо (если локально) → провайдер → способ доступа. Универсального победителя нет; есть соответствие вашим ограничениям.

Начните с классификации данных — это дороже всего исправлять постфактум. Затем golden set из 10 запросов и пилот на неделю. Российский контур — 124, деньги — 126, право — 115.

Шпаргалка на одну страницу

  1. Задача — одно предложение, таблица шага 1.
  2. Данные — есть ПДн? → РФ / on-prem. Нет? → облако по бюджету.
  3. Место — API для качества; Ollama для экспериментов и закрытого контура.
  4. Железо — таблица RAM/VRAM шага 4 + серверные GPU при on-prem.
  5. Провайдер — golden set 10 запросов, не бенчмарки из Twitter.
  6. Доступ — чат для себя, API для продукта, IDE для кода.

Повторяйте оценку раз в квартал: рынок LLM меняется быстрее, чем стеки баз данных.

Что запомнить

  • Универсально лучшей модели нет — есть подходящая под задачу и данные.
  • Шаг 2 (классификация данных) важнее бренда модели.
  • Облако — быстрый старт и топ-качество; локально — приватность и фиксированный CapEx.
  • Таблицы RAM/VRAM и GPU — ориентир; измеряйте tok/s на своём железе.
  • Golden set из 5–10 запросов бьёт любой чужой бенчмарк.
  • Российский контур — 124; reasoning отдельно — 123; цены — 126.

Типичный путь новичка за один вечер

  1. Открыть free-чат, задать 3 вопроса по учёбе (без ПДн).
  2. Установить Ollama, скачать 7B, сравнить ответ с чатом.
  3. Записать в заметки: что понравилось, где галлюцинация.
  4. Прочитать шаг 2 этой статьи перед любой рабочей задачей.
  5. Если понравился API — заглянуть в 1149 на завтра.

Связанные материалы


Содержание