Перейти к основному содержимому

Сколько стоит ИИ

Всем

"ИИ бесплатный" — правда только для части сценариев. Деньги уходят в подписки, оплату токенов через API, железо, электричество и косвенные статьи (проверка ответов, безопасность, юристы). Эта статья учит считать расходы до того, как счёт API станет сюрпризом.

Выбор модели — как выбрать модель. Длина ответа и счёт — параметры генерации. Локальный запуск — Ollama и локальные модели.

Термины

Токен — фрагмент текста; API тарифицирует запросы в токенах, не в символах.
API — программный доступ к модели; платите за использование.
Embedding — числовой вектор текста; нужен для RAG.
Fine-tuning — дообучение модели на своих данных; отдельная статья расходов.
CAPEX — разовые капитальные затраты (GPU, сервер).
OPEX — регулярные операционные расходы (API, электричество, подписки).


Главная формула стоимости

Почти все облачные расчёты сводятся к одной формуле:

Стоимость запроса ≈ (input_tokens × price_in + output_tokens × price_out) / 1_000_000
  • input_tokens — всё, что вы отправили модели (system prompt, история чата, RAG-контекст, JSON схемы tools);
  • output_tokens — всё, что модель сгенерировала (ответ пользователю, thinking tokens у reasoning-моделей, tool_calls);
  • price_in / price_out — цена провайдера за 1 млн токенов каждого типа.

Цены меняются — всегда сверяйте актуальный прайс на сайте провайдера. В примерах ниже используются ориентиры для понимания порядка величин, не договор оферты.


Три способа платить

СпособПримерыКогда выгодноТип расхода
ПодпискаChatGPT Plus, Claude Pro, CopilotРегулярное личное использованиеOPEX, фикс в месяц
API pay-as-you-goOpenAI, DeepSeek, YandexGPTПродукт, бот, пакетная обработкаOPEX, по факту использования
Своё железоGPU, Ollama, on-premМного запросов, закрытый контурCAPEX + OPEX (электричество)

Часто комбинируют:

  • разработка на подписке (удобный чат, IDE);
  • прод на API с лимитами и мониторингом;
  • чувствительные данные — локально или российский API.

Токены — что это и как считать

Токен — кусок текста, на который разбивает модель вход и выход. Это не один символ и не одно слово.

Язык / форматОриентирПример
Русский текст1 токен ≈ 2–4 символа"Привет" ≈ 1–2 токена
Английский1 токен ≈ 4 символа"Hello" ≈ 1 токен
Код Pythonдороже прозыdef foo(): — много коротких токенов
JSONдороже прозыкавычки, скобки, ключи
Числазависит от длины42 дешевле, чем 1234567890.12345

Как узнать число токенов до запроса

  • OpenAITokenizer на сайте;
  • tiktoken (Python) — библиотека для подсчёта;
  • Логи API — после запроса в usage.prompt_tokens и usage.completion_tokens;
  • Langfuse, Helicone, Portkey — агрегируют usage по проекту.

Прикидка без инструментов:

tokens ≈ символы / 3 (русский, грубо)
tokens ≈ слова × 1.3 (английский, грубо)

Точный подсчёт важен для RAG: 10 PDF по 50 страниц легко превращаются в сотни тысяч токенов при наивной индексации всего текста в каждый запрос.


Раздельная тарификация input и output

Провайдеры почти всегда берут разные цены:

КомпонентЧто входитКто контролирует
inputsystem prompt, user message, история, RAG-чанки, описания toolsвы (архитектура промпта)
outputответ, JSON, tool_calls, thinkingмодель + max_tokens
cached inputповторяющийся префикс (у части провайдеров)вы (стабильный system prompt)
batchотложенные запросы со скидкойвы (не real-time)

Thinking tokens у reasoning-моделей тарифицируются как output (или отдельной строкой в прайсе) — один "короткий" вопрос может стоить в 5–20 раз дороже обычного chat.


Пошаговый разбор токенов (walkthrough 1)

Задача: пользователь спрашивает в чат-боте "Как сбросить пароль?"

Шаг 1. System prompt

Ты — помощник поддержки компании X. Отвечай кратко, по шагам. Не выдумывай ссылки.

Оценка: ~35 токенов.

Шаг 2. User message

Как сбросить пароль?

Оценка: ~8 токенов.

Шаг 3. История чата (2 предыдущих пары)

Оценка: ~200 токенов.

Шаг 4. RAG — 3 релевантных чанка по 400 токенов

Оценка: ~1200 токенов.

Итого input: 35 + 8 + 200 + 1200 ≈ 1443 токена.

Шаг 5. Output — ответ на 150 слов по-русски

Оценка: ~200 токенов output.

Расчёт (условные цены: $0.15 / 1M input, $0.60 / 1M output — порядок младших моделей):

input_cost = 1443 × 0.15 / 1_000_000 = $0.000216
output_cost = 200 × 0.60 / 1_000_000 = $0.000120
total ≈ $0.00034 за один запрос

1000 таких запросов в месяц: ~$0.34 — копейки.

Урок: при RAG доминирует контекст, не ответ. Сокращать надо чанки и top-k, а не только max_tokens ответа.


Пошаговый разбор токенов (walkthrough 2)

Задача: reasoning-модель решает задачу по SQL-оптимизации.

ЧастьТокены
System + схема БД (5 таблиц)~2500
User: текст медленного запроса + EXPLAIN~800
Output: рассуждение (thinking)~8000
Output: финальный ответ~600

Итого: input ~3300, output ~8600.

Расчёт (условно: $2 / 1M input, $8 / 1M output — порядок reasoning):

input = 3300 × 2 / 1_000_000 = $0.0066
output = 8600 × 8 / 1_000_000 = $0.0688
total ≈ $0.075 за запрос

200 таких запросов в месяц: ~$15 — уже заметно.

Урок: reasoning + длинный контекст = осознанный выбор модели, не дефолт для каждого клика.


Пошаговый разбор токенов (walkthrough 3)

Задача: пакетная обработка 10 000 отзывов — извлечь тональность и тему в JSON.

ПараметрЗначение
Средний отзыв80 токенов input
System prompt (один на батч)120 токенов
Output JSON на отзыв40 токенов
Запросов10 000

Input на запрос: 120 + 80 = 200 (если system в каждом; лучше вынести в кэшируемый префикс).

Итого за 10 000:

  • input: 10 000 × 200 = 2 000 000 токенов
  • output: 10 000 × 40 = 400 000 токенов

Расчёт ($0.10 / 1M in, $0.40 / 1M out):

input = 2M × 0.10 / 1M = $0.20
output = 0.4M × 0.40 / 1M = $0.16
total = $0.36 за 10 000 отзывов

С Batch API (скидка ~50% у части провайдеров): ~$0.18.

Урок: для массовой обработки смотрите микро-ML — иногда дешевле обучить классификатор, чем гонять 10k через LLM.


Таблица сценариев и порядок цены

СценарийInput (порядок)Output (порядок)$/запрос (порядок)Комментарий
Короткий вопрос в чате100–300200–500< $0.001Копейки на младших моделях
Чат с историей 20 сообщений2000–5000300–800$0.001–0.01Растёт история
RAG, 5 чанков × 500 токенов2500+~500$0.001–0.02Доминирует контекст
Function calling, 3 tools1500+200+ tool JSON$0.002–0.02См. function calling
Reasoning-задача~500–30002000–15000 thinking$0.02–0.20В разы дороже chat
Генерация 2000 слов статьи5003000+$0.01–0.05Следите за max_tokens
Embedding 1M слов корпуса1M+$0.01–0.10Разовая индексация
1000 пользователей × 10 msg/деньмиллионы/мес$50–500+Нужен cap и кэш

Примеры расчёта стоимости по провайдерам

Цены ниже — иллюстрация метода расчёта. Актуальные цифры — только на сайтах провайдеров.

Пример A. Чат-бот поддержки (GPT-4o mini класс)

МетрикаЗначение
Запросов в день500
Input на запрос1800 токенов (RAG)
Output на запрос250 токенов
Дней в месяце30

Токены в месяц:

  • input: 500 × 30 × 1800 = 27 000 000
  • output: 500 × 30 × 250 = 3 750 000

При $0.15 / 1M input, $0.60 / 1M output:

27 × 0.15 + 3.75 × 0.60 = $4.05 + $2.25 = $6.30/мес

Пример B. Тот же бот на флагмане без оптимизации

МетрикаЗначение
Те же 500 × 30 запросов
Input27M
Output3.75M
Цены флагмана$2.50 / $10 per 1M
27 × 2.50 + 3.75 × 10 = $67.50 + $37.50 = $105/мес

Разница в 15+ раз — за счёт выбора модели, не магии.

Пример C. Copilot для команды 20 разработчиков

СтатьяОценка
M365 + Copilot лицензия~$30/user/мес × 20 = $600/мес
API для CI (code review bot)$50–200/мес
Итого$650–800/мес OPEX

Сравните с 20 × ChatGPT Plus ($20) = $400 — но Copilot встроен в IDE и политику компании.

Пример D. Стартап MVP с 200 DAU

МетрикаЗначение
DAU200
Сообщений на пользователя8/день
Input1200 токенов
Output350 токенов

Запросов в месяц: 200 × 8 × 30 = 48 000

Токены:

  • input: 48 000 × 1200 = 57.6M
  • output: 48 000 × 350 = 16.8M

При $0.15 / $0.60:

57.6 × 0.15 + 16.8 × 0.60 = $8.64 + $10.08 = $18.72/мес

Плюс embeddings, vector DB, мониторинг — см. шаблон бюджета ниже.


Подписки для человека

УровеньОриентирЧто даётОграничения
Free0 ₽ / $0Базовая модель, лимитыДанные могут идти в обучение
Plus / Pro~$10–25/месЛучшая модель, больше лимитовНе для продукта, нет API
Team / EnterpriseдоговорDPA, ZDR, админкаполитика данных
Copilot в M365лицензия на пользователяWord, Excel, Teamsответственное использование
Cursor / Claude Code$20–40/месIDE-агент, контекст репоЛимиты "быстрых" запросов

Когда подписка выгоднее API

  • вы пишете для себя, не для тысяч пользователей;
  • нужен чат с файлами, а не автоматизация;
  • объём < 50–100 "сложных" запросов в день;
  • не нужна интеграция в ваш backend.

Когда API выгоднее подписки

  • бот, SaaS, скрипт, CI;
  • нужен контроль max_tokens, модели, логов;
  • много однотипных дешёвых запросов;
  • function calling и RAG в коде.

Для учёбы free часто хватает — ИИ в учёбе. Для секретов — корп. тариф или российский API.


Локальный запуск — полный расчёт

СтатьяОценкаТип
GPU (новая, 12–24 GB VRAM)~30–150+ тыс. ₽CAPEX
RAM 32 GB+апгрейд ПК 10–30 тыс. ₽CAPEX
SSD под веса моделей500 GB–2 TBCAPEX
ЭлектричествоGPU 200–400 W × часыOPEX
Время админаобновления, квантизацияOPEX (время)
Качество7B локально слабее GPT-4косвенная цена

Формула электричества

кВт·ч/мес ≈ (мощность_GPU_кВт + мощность_CPU_кВт) × часы_в_день × 30
стоимость ≈ кВт·ч/мес × тариф_₽/кВт·ч

Пример: GPU 300 W + система 100 W = 0.4 кВт, 8 ч/день, 30 дней, тариф 6 ₽/кВт·ч:

0.4 × 8 × 30 = 96 кВт·ч
96 × 6 = 576 ₽/мес (~$6)

Сама электричество дешёвая — дорого железо и время.

Окупаемость GPU и облачного API

API в месяцGPU за 80 000 ₽ окупается за
$20никогда (проще API)
$50~40+ месяцев
$200~10 месяцев
$500+3–6 месяцев (если железо уже есть)

Если на API стабильно уходит $50–200/мес и есть GPU — локальная 13B–34B может окупаться. Иначе проще облако.

Квантизация Q4 уменьшает RAM — см. локальные модели.

Скрытые локальные расходы

  • простой GPU, пока вы спите — 0 запросов, но электричество при 24/7;
  • несколько моделей на диске — сотни GB;
  • нет авт scaling — пик нагрузки = очередь или второй сервер;
  • обновление модели раз в квартал — время devops.

Скрытые расходы продукта

СтатьяПочему важноПорядок $/мес
Embeddings + векторная БДИндексация для RAG$5–200
Re-indexСмена embedding-моделиразовый всплеск
Eval, red teamAgentOps, OWASP LLM$0–5k (люди + API)
Ошибки модели в продеПоддержка, репутациясложно оцифровать
Fine-tuningGPU-часы, разметка$500–50k+
Юристы152-ФЗ — право РФдоговор
МониторингLangfuse, Datadog, Sentry$0–500
Резервный провайдерFallback при outage+20–50% к API
Человек в контуреReview ответов в медицине/финансахзарплата

Правило: к строке "LLM API" в смете добавляйте 30–50% на инфраструктуру и качество на MVP, 100%+ на зрелый prod.


Шаблон бюджета MVP (таблица)

Скопируйте и подставьте свои цифры.

#СтатьяЕдиницаКол-воЦена за ед.$/месПримечание
1LLM API — input1M токенов___$______из логов или прикидки
2LLM API — output1M токенов___$______
3Embeddings1M токенов___$______индексация + запросы
4Vector DBинстанс1$______Chroma free / Pinecone
5Хостинг backendинстанс1$______VPS / serverless
6Мониторингseat___$______Langfuse tier
7Домен, CDN, emailпакет1$______
8Резерв 20%___непредвиденное
Итого OPEX$___

Типичные диапазоны MVP

КомпонентMVPЗрелый prod
LLM API$20–200/мес$500–10k+/мес
Embeddings$5–50отдельный контур
Vector DBChroma, free tierPinecone, Qdrant, Weaviate
Мониторинглоги в файлLangfuse, Datadog
Безопасностьчек-листred team в CI

Монетизация — 6.06/5.


Шаблон бюджета по пользователям

Планирование от DAU (daily active users) и запросов на пользователя.

запросов_в_мес = DAU × запросов_на_юзера_в_день × 30
input_токенов = запросов_в_мес × средний_input
output_токенов = запросов_в_мес × средний_output

стоимость = (input_токенов × price_in + output_токенов × price_out) / 1_000_000
DAUЗапросов/деньInputOutput$/мес (mini)$/мес (флагман)
5051000300~$2~$30
20081200350~$19~$105
1000101500400~$120~$650
5000122000500~$750~$4000+

Колонка "флагман" — напоминание: маршрутизация моделей обязательна на масштабе.


Шаблон годового бюджета (корпоративный)

КварталCAPEXOPEX APIOPEX лицензииOPEX людиКомментарий
Q1GPU, серверпилотCopilot trial0.2 FTE MLPoC
Q2рост 3×50 seats0.5 FTEпилот в отделе
Q3второй GPU?prod200 seats1 FTE + ИБаудит
Q4оптимизация −30%продлениеeval в CIFinOps

FinOps для LLM — дисциплина учёта токенов так же, как учёт CPU в облаке.


Как снизить счёт API

Архитектура промпта

  • короче system prompt — каждый лишний абзац × тысячи запросов;
  • RAG — только top-k релевантных чанков, не весь документ;
  • сжимайте историю — summary старых сообщений вместо полного лога;
  • стабильный system → prompt caching (где провайдер поддерживает).

Маршрутизация моделей

Тип запросаМодель
Классификация intentмладшая / микро-ML
Обычный FAQсредняя
Сложный анализ, кодфлагман
Reasoningтолько по флагу

Паттерн routerfunction calling или дешёвый классификатор.

Технические приёмы

  • кэш идентичных запросов (осторожно с персонализацией);
  • жёсткий max_tokens118;
  • Batch API провайдера для offline-задач;
  • стриминг не снижает цену, но улучшает UX при том же счёте;
  • отказ от reasoning по умолчанию;
  • function calling вместо "попроси модель сходить в API текстом".

Организационные приёмы

  • лимиты на пользователя / API key;
  • алерт при $X/день;
  • запрет флагмана в dev-среде;
  • review топ-10 самых дорогих эндпоинтов раз в неделю.

Unit-экономика SaaS с ИИ

Если вы берёте $10/мес с пользователя:

допустимый_COGS = цена_подписки × (1 - маржа)
COGS_на_ИИ = допустимый_COGS - хостинг - прочее
макс_токенов_на_юзера = COGS_на_ИИ / стоимость_среднего_запроса

Пример: $10 подписка, маржа 70%, COGS $3, на ИИ оставляем $1.50:

  • средний запрос $0.003 → ~500 запросов/мес на пользователя в ноль по ИИ;
  • если пользователь делает 2000 запросов — вы в убытке без лимитов или доплаты.

Монетизация и тарифы — 6.06/5.


Сравнение облако / локально / гибрид

КритерийОблако APIЛокально OllamaГибрид
Стартминутыдни–неделисредне
Пиковая нагрузкаelasticваше железоburst в облако
Приватностьдоговормаксимумчувствительное локально
Качество топданижемаршрутизация
Предсказуемость счётанизкая без лимитоввысокая OPEXсредняя
Команда1 devdev + devopsоба

Российский контур

GigaChat и YandexGPT — рублёвые тарифы, пакеты токенов, оплата для юрлиц РФ.

ФакторЗападный APIРФ API / on-prem
ВалютаUSD, курс
152-ФЗтрансграничная передачапроще в контуре РФ
Качество русскогохорошее у топовконкурентно на многих задачах
On-prem GigaChatCAPEX + поддержка

On-prem — не разовая покупка коробки: лицензия, обновления, GPU, мониторинг.

Сравнивайте на своих задачах — российские нейросети, право РФ.


Инструменты учёта расходов

ИнструментЧто даёт
Дашборд провайдераUsage по ключу, billing
LangfuseТрассировка, cost per trace
HeliconeКэш, rate limit, аналитика
OpenMeterБиллинг для SaaS поверх usage
Собственный middlewareЛог usage в PostgreSQL

Минимум для prod: каждый ответ API логирует prompt_tokens, completion_tokens, model, user_id, endpoint.


Чек-лист перед запуском в прод

  • Прикидка токенов на худший сценарий (длинный RAG + длинный ответ)
  • Лимит max_tokens на всех эндпоинтах
  • Rate limit на пользователя и API key
  • Алерт billing $X/день и $Y/месяц
  • Младшая модель для 80% запросов
  • Кэш embeddings и стабильного system prompt
  • Запрет отправки ПДн в free-tier — политика данных
  • Fallback при 429/503 — интеграция Python
  • Ежемесячный отчёт топ-10 дорогих запросов
  • Документированная unit-экономика на пользователя

Чек-лист для личного бюджета

  • Free tier хватает? Если да — не платите "на всякий случай"
  • Plus нужен для какой одной задачи? (код, длинные файлы, картинки)
  • Дублируете ли подписки (ChatGPT + Claude + Copilot)?
  • API ключ лежит в скрипте без лимита? → безопасность
  • Локальная модель — считали электричество и время настройки?
  • Раз в квартал — пересмотр: не появился ли дешевле провайдер

FAQ

Почему счёт вырос в 10 раз за ночь?

Типичные причины:

  • утечка API ключа в публичный репозиторий;
  • бесконечный цикл агента с tool calls;
  • включили reasoning на все запросы;
  • RAG начал подкладывать весь документ вместо top-k;
  • бот попал на фронтpage Reddit.

Действия: отозвать ключ, hard limit в биллинге, rate limit, логи.

Токены в веб-чате и в API — одно и то же?

Понятие токена одно, но тарифы разные. Подписка = пакет лимитов. API = деньги за фактические токены. Нельзя перенести "остаток чата" в API.

Дешевле ли стриминг?

Нет. Платите за полный output. Стриминг — про UX, не про скидку.

Сколько стоит "бесплатный" Ollama?

Софт бесплатный. Платите GPU, электричество, диск, время. Для 1–2 запросов в день — почти всегда дороже облака.

Нужен ли fine-tuning для экономии?

Редко на старте. Чаще дешевле RAG + хороший промпт. Fine-tuning — когда нужен стиль или формат, а не факты из базы.

Как оценить стоимость до написания кода?

  1. Запишите 10 типовых запросов.
  2. Посчитайте токены в Tokenizer.
  3. Умножьте на ожидаемый трафик.
  4. Добавьте 30% запас и 20% на embeddings.

Что дороже — input или output?

Зависит от прайса. Часто output в 2–5 раз дороже input за 1M токенов. При тяжёлом RAG доминирует input.

Как считать мультимодальность (картинки)?

Отдельный прайс за изображение или за токены после vision-энкодера. Смотрите документацию провайдера — мультимодальный ИИ.

Есть ли бесплатные кредиты?

У многих провайдеров — стартовый баланс для dev. Не стройте prod-экономику на них.

Как объяснить руководству бюджет на ИИ?

Сравните с зарплатой аналога (поддержка, копирайтер, junior analyst) и покажите cost per resolved ticket или cost per document.


Кейсы из практики (упрощённые)

Кейс 1. Внутренний FAQ-бот (500 сотрудников)

  • 30 вопросов/день, RAG по wiki
  • Оптимизация: top-3 чанка, mini-модель
  • Было: ~$90/мес на флагмане
  • Стало: ~$12/мес
  • Сэкономили: маршрутизация + укорочение system

Кейс 2. Генерация описаний товаров (e-commerce)

  • 50 000 SKU, обновление раз в квартал
  • Batch API + шаблон JSON
  • ~$40 за полный прогон vs ~$200 без batch и с длинным промптом

Кейс 3. Стартап с утечкой ключа

  • Ключ в публичном GitHub
  • $12 000 за 48 часов до блокировки
  • Урок: pre-commit hook, secrets manager, лимит $50/день

Кейс 4. Банк, on-prem

  • CAPEX GPU 2.4M ₽, поддержка 400k ₽/год
  • API-аналог оценивали в $8k/мес
  • Окупаемость ~3 года при стабильной нагрузке

Связь с другими статьями раздела

ТемаСтатья
Выбор модели125
Reasoning и thinking tokens123 reasoning
max_tokens, temperature118
RAG и размер контекста121
Локальный запуск113
Function calling (меньше лишних вызовов)6.05/123
Микро-ML вместо LLM113 micro-ML
Безопасность и утечки ключей6.10
AgentOps и мониторинг6.08

Калькулятор в голове — шпаргалка

1 короткий chat ≈ $0.0001 – 0.001
1 RAG-ответ ≈ $0.001 – 0.02
1 reasoning ≈ $0.02 – 0.20
1M токенов input ≈ $0.10 – 2.50 (модель)
1M токенов output ≈ $0.40 – 10.00 (модель)
MVP бот ≈ $20 – 200/мес
Prod 1k DAU ≈ $100 – 1000/мес
GPU окупаемость ≈ при API > $200/мес стабильно

План действий для новичка

  1. Неделя 1 — free chat, понять задачу (125).
  2. Неделя 2 — 10 запросов через API, записать usage (1149).
  3. Неделя 3 — таблица бюджета MVP (шаблон выше).
  4. Неделя 4 — один способ сэкономить: короче RAG или младшая модель.
  5. Перед продом — оба чек-листа в этом разделе.

Детальный разбор RAG-стоимости

RAG добавляет два вида расходов: индексация (разово/периодически) и контекст в каждом запросе.

Индексация корпуса

ПараметрЗначение
Документов500 PDF
Средний объём20 страниц ≈ 10 000 слов ≈ 15 000 токенов
Всего токенов500 × 15 000 = 7 500 000
Цена embedding~$0.02 / 1M токенов
стоимость_индексации = 7.5 × 0.02 = $0.15 (один раз)

Дёшево. Дорого — неправильный RAG в runtime.

Runtime RAG на запрос

ОшибкаПоследствие для счёта
top-k = 20 чанков по 800 токенов16 000 токенов input каждый запрос
весь документ в контекстлинейный рост с размером wiki
дублирование system в каждом чанке+200 токенов × k
нет rerank — много шумамодель длиннее отвечает

Правильный ориентир: 3–5 чанков × 300–500 токенов = 1500–2500 токенов RAG, не 20 000.

Re-index при смене модели

Сменили text-embedding-3-small на другую — все векторы пересчитать. Бюджет = как первичная индексация + downtime на переиндексацию.


Стоимость агентов и tool loops

Агент с function calling может сделать 5–15 вызовов LLM на один вопрос пользователя.

ШагInputOutput
1. Планирование2000150 tool_call
2. Результат tool A+500100
3. Результат tool B+800120
4. Финальный ответ+1000400

Итого за один "простой" агентный запрос: input ~4300, output ~770 — в 3–4 раза дороже одношагового чата.

Защита:

  • max_iterations в коде;
  • allow-list tools;
  • дешёвая модель для планирования, флагман только для финала;
  • кэш результатов tool (курс валют, справочники).

Стоимость по отраслям (ориентиры)

ОтрасльТипичный паттернБюджет ИИ/мес
EdTech, 1 курсчат-тьютор, 200 студентов$30–150
Support SaaSRAG + 2k тикетов$100–800
Legal techдлинные документы, reasoning$500–5k
Маркетплейсгенерация карточек batch$50–300 (сезонно)
Финтехстрогий контур, on-prem + API fallbackCAPEX + $1k+
Медиачерновики, мало RAG$20–100 на редакцию

Цифры сильно зависят от модели и дисциплины промптов — используйте как порядок, не смету.


Скрипт прикидки на Python

Минимальный калькулятор для своих цифр (запустите локально):

def estimate_monthly_cost(
requests_per_day: int,
avg_input_tokens: int,
avg_output_tokens: int,
price_in_per_1m: float,
price_out_per_1m: float,
days: int = 30,
) -> dict:
total_requests = requests_per_day * days
input_tokens = total_requests * avg_input_tokens
output_tokens = total_requests * avg_output_tokens
cost_in = input_tokens * price_in_per_1m / 1_000_000
cost_out = output_tokens * price_out_per_1m / 1_000_000
return {
"requests": total_requests,
"input_millions": round(input_tokens / 1_000_000, 2),
"output_millions": round(output_tokens / 1_000_000, 2),
"cost_usd": round(cost_in + cost_out, 2),
}

# Пример: бот поддержки
print(estimate_monthly_cost(
requests_per_day=500,
avg_input_tokens=1800,
avg_output_tokens=250,
price_in_per_1m=0.15,
price_out_per_1m=0.60,
))
# {'requests': 15000, 'input_millions': 27.0, 'output_millions': 3.75, 'cost_usd': 6.3}

Добавьте embeddings, vector DB и 30% резерв вручную.


Ошибки при планировании бюджета

ОшибкаРеальность
"Посчитали один запрос, забыли про DAU"линейный рост
"Взяли цену input, забыли output"output часто дороже
"Тестили на флагмане, прод на mini"хорошо, но пересчитайте качество
"Не заложили агентные циклы"счёт ×5
"Free tier на прод"ToS и лимиты
"Локально = бесплатно"CAPEX и электричество
"Один провайдер навсегда"цены меняются — пересмотр квартал

Глоссарий для сметы

ТерминКратко
TokenЕдиница тарификации текста
PromptВсё, что отправили в модель
CompletionВсё, что модель сгенерировала
Context windowМаксимум токенов в одном запросе
Top-kСколько чанков RAG подставить
BatchОтложенная обработка со скидкой
Rate limitОграничение запросов в минуту
Hard capЖёсткий потолок расходов в биллинге
COGSСебестоимость на одного платящего пользователя
DAUУникальные пользователи за день

Мониторинг метрик FinOps

МетрикаФормулаАлерт если
Cost per requestspend / requestsвырос >2× за неделю
Cost per DAUspend / DAUвыше unit-экономики
Input/output ratioinput_tokens / output_tokensinput >> 10× — RAG раздут
Cache hit ratehits / requests< 10% при стабильном system
Model mix% запросов на флагман> 20% без причины
Error retry costspend on 429/5xx retries> 5% бюджета

Инструменты — Langfuse, дашборд провайдера, свой SQL по логам usage.


Сезонность и пики

СобытиеЭффектПодготовка
Чёрная пятница (e-commerce)×10 генераций карточекBatch, очередь
Дедлайн отчётности×3 support ботrate limit, FAQ кэш
Вирусный пост×100 трафикWAF, cap на анонимов
Релиз продуктановые фичи = новые промптыshadow traffic, лимиты

Заложите пиковый месяц отдельной строкой в годовом бюджете — не умножайте средний на 12.


Сравнение провайдеров API (иллюстрация расчёта)

Таблица для одного и того же запроса: 2000 input + 400 output токенов.

Провайдер / модель (класс)Input $/1MOutput $/1M$/запрос
Младшая (mini/nano)0.10–0.200.40–0.80~0.0004
Средняя0.50–1.002.00–4.00~0.002
Флагман2.00–5.008.00–15.00~0.01
Reasoning2.00+8.00+ + thinking~0.05+

Пересчитайте свой средний запрос — не усредняйте по таблице.


Вопросы для согласования с финансами

  • Какой COGS на пользователя мы допускаем?
  • Есть ли потолок API в месяц (hard cap)?
  • Кто владелец алерта при 80% бюджета?
  • Нужен ли отдельный договор enterprise / РФ API?
  • Заложен ли рост трафика ×3 после маркетинга?
  • Считаем thinking tokens в смете reasoning?
  • Есть ли план оптимизации −30% к Q4?

Связанные материалы


Содержание