Перейти к основному содержимому

Разработка ИИ — итоги

Разработчику Аналитику Архитектору Инженеру

Кратко — что стоит унести из раздела "Разработка ИИ". Если пункт кажется туманным, откройте соответствующую главу или оглавление.


FAQ — Часто задаваемые вопросы

Типичные проблемы при первом проекте на LLM — от выбора API до продакшена — плюс формулировки, как в Google и Яндексе. Здесь — краткий ответ и ссылка на главу; определения для самопроверки — в чек-листе.

Вопрос. С чего начать — свой GPU, облачный API или готовый SaaS?

Ответ. Для прототипа — облачный API (быстрый старт). Для конфиденциальных данных — локальный инференс или enterprise-контракт. Своя модель с нуля — редкий и дорогой путь. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Jupyter-ноутбук выдаёт отличные ответы, а в приложении качество упало — почему?

Ответ. В ноутбуке другие промпты, параметры, версия модели и нет реального трафика. Зафиксируйте конфиг (temperature, system prompt), добавьте eval и логирование в prod. Подробнее здесь — Интеграция ИИ-моделей в Python, Семь слоёв LLM-стека.

Вопрос. Отправил клиентские данные в публичный ChatGPT — это нарушение?

Ответ. Может быть нарушением политики компании и 152-ФЗ, если в промпте ПДн без правового основания. Используйте локальные модели, анонимизацию или корпоративный API с DPA. Подробнее здесь — Ответственное использование ИИ, Работа с ИИ-моделями.

Вопрос. Счёт за OpenAI вырос в десять раз за месяц — где утечка?

Ответ. Проверьте утёкший API-ключ, бесконечные циклы агента, отсутствие max_tokens, логирование в dev без лимитов. Включите квоты, алерты и rotate ключей. Подробнее здесь — Развёртывание и обслуживание, Семь слоёв LLM-стека.

Вопрос. Нужен GPU для экспериментов — хватит ли игровой видеокарты?

Ответ. Для обучения крупных моделей — нужны профессиональные GPU с большой VRAM. Для локального инференса маленьких квантованных моделей часто хватает потребительской NVIDIA с CUDA. CPU-only — медленно, но возможно на маленьких моделях. Подробнее здесь — Работа с ИИ-моделями.

Вопрос. CUDA out of memory при обучении — что уменьшить первым?

Ответ. Batch size, длину последовательности, размер модели; включите gradient checkpointing, mixed precision, LoRA вместо полного fine-tune. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Fine-tuning или длинный system prompt — что дешевле поддерживать?

Ответ. Промпт + RAG дешевле менять без переобучения. Fine-tuning / LoRA — когда нужен устойчивый стиль или формат на тысячах примеров. Подробнее здесь — Основы разработки ИИ-решений, RAG, MCP и агенты.

Вопрос. LoRA-адаптер обучили — как подключить к базовой модели?

Ответ. Загрузите base weights + adapter в одном стеке (Transformers, vLLM, llama.cpp с поддержкой LoRA). Версии base и adapter должны совпадать. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Модель идеальна на train, проваливается на test — переобучение?

Ответ. Классический overfitting: модель запомнила train. Больше данных, регуляризация, ранняя остановка, проверка на отложенной выборке. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Класс "спам" в обучении — 95% записей, модель всегда говорит "не спам".

Ответ. Дисбаланс классов: метрика accuracy обманчива. Смотрите precision/recall, балансируйте выборку, class weights, порог решения. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Через полгода в prod ответы стали хуже — данные не менялись.

Ответ. Возможен data drift или смена распределения запросов; для LLM — смена версии API модели у провайдера. Нужен мониторинг входов, метрик качества и регрессионный eval. Подробнее здесь — Развёртывание и обслуживание, Семь слоёв LLM-стека.

Вопрос. Сделали только чат-бот — заказчик ждёт "полный ИИ-стек". Чего не хватает?

Ответ. Часто пропущены слои 2–6: качество данных, RAG, guardrails, инференс, интеграция с CRM/ERP. Чат — лишь слой 7. Подробнее здесь — Семь слоёв LLM-стека.

Вопрос. RAG-индекс не обновляли полгода — пользователи получают устаревшие инструкции.

Ответ. Нужен pipeline переиндексации при изменении документов, версионирование чанков и мониторинг "нет ответа в базе". Подробнее здесь — Семь слоёв LLM-стека, RAG, MCP и агенты.

Вопрос. Cognitive Services Azure/Google или своя модель для распознавания текста на фото?

Ответ. Готовый API — быстрее и дешевле на старте. Своя CV-модель — при жёсткой приватности, офлайне или узкой доменной точности. Подробнее здесь — Облачные API Cognitive Services, Распознавание лиц, объектов и текста.

Вопрос. Python-скрипт с OpenAI падает с 401 Unauthorized.

Ответ. Проверьте API-ключ, переменные окружения, регион endpoint, срок действия ключа и billing account. Не коммитьте ключ в Git. Подробнее здесь — Интеграция ИИ-моделей в Python.

Вопрос. Как отдать стриминг ответа LLM в веб-приложение?

Ответ. Используйте SSE или WebSocket на бэкенде; провайдер отдаёт поток токенов — проксируйте без буферизации nginx. На фронте наращивайте текст по chunks. Подробнее здесь — Интеграция ИИ в веб-приложения, Большие языковые модели.

Вопрос. Docker-контейнер с моделью — зачем, если API и так в облаке?

Ответ. Контейнер фиксирует версии зависимостей, CUDA, весов для воспроизводимого деплоя локального inference или worker-ов RAG. Подробнее здесь — Развёртывание и обслуживание, Основы разработки ИИ-решений.

Вопрос. Latency 30 секунд на запрос — пользователи уходят. Что ускорить?

Ответ. Меньшая модель, квантование, кэш промптов, streaming UI, батчинг там, где допустимо, регион ближе к пользователю. Подробнее здесь — Развёртывание и обслуживание, Параметры генерации LLM.

Вопрос. pip install torch сломал окружение для другого проекта.

Ответ. Изолируйте venv / conda / Docker на проект; фиксируйте versions в requirements.lock. CUDA и torch должны совпадать по сборке. Подробнее здесь — Основы разработки ИИ-решений, Интеграция в Python.

Вопрос. vLLM, llama.cpp, Ollama — что выбрать для локального сервера?

Ответ. Ollama / LM Studio — простой старт. llama.cpp — минимальные ресурсы и edge. vLLM — высокая пропускная способность на GPU в prod. Подробнее здесь — Работа с ИИ-моделями, Развёртывание.

Вопрос. Q4-квантование — качество "сыпется" на коде и JSON.

Ответ. Агрессивное квантование режет точность на структурированном выводе. Поднимите битность (Q5/Q8), используйте JSON mode / grammar, снизьте temperature. Подробнее здесь — Работа с ИИ-моделями, Параметры генерации LLM.

Вопрос. Hugging Face модель с лицензией "NC" — можно в коммерческий продукт?

Ответ. Non-Commercial запрещает коммерческое использование без отдельной лицензии. Читайте LICENSE на карточке модели (Llama Community, Apache, MIT). Подробнее здесь — Работа с ИИ-моделями.

Вопрос. No-code платформа обещает "ИИ без программистов" — где подводные камни?

Ответ. Ограничения кастомизации, миграции, безопасности данных и SLA. Для MVP — нормально; для regulated prod нужен контроль над стеком. Подробнее здесь — Цифровые инструменты без ручного кодинга.

Вопрос. Grid Search по гиперпараметрам LLM API — имеет смысл?

Ответ. Для inference имеет: temperature, top_p, длина промпта на eval-наборе. Полный grid по миллиардам весов — только при своём обучении. Подробнее здесь — Параметры генерации LLM, Основы разработки.

Вопрос. REST API вокруг модели — достаточно ли обернуть один endpoint /generate?

Ответ. Для prod нужны auth, rate limit, логи, healthcheck, версионирование модели, таймауты, очередь при пиках. Один endpoint — только для прототипа. Подробнее здесь — Развёртывание и обслуживание, Интеграция в веб.

Вопрос. RLHF — must have для корпоративного чат-бота?

Ответ. Нет для большинства. Базовая модель провайдера уже прошла alignment. Вам нужны промпты, RAG, политики и eval; своё RLHF — уровень lab. Подробнее здесь — Большие языковые модели, Основы разработки.

Вопрос. Spark/Pandas pipeline для текстов — зачем, если всё в LLM?

Ответ. LLM не заменяет очистку, дедупликацию, фильтрацию PII и подготовку чанков на больших объёмах. Это слой 2 стека. Подробнее здесь — Основы разработки ИИ-решений, Семь слоёв LLM-стека.

Вопрос. Команда из одного "prompt-инженера" — достаточно для enterprise-проекта?

Ответ. Нужны роли данных, backend, безопасности, домена и эксплуатации. Промпты без интеграции и мониторинга редко доходят до ROI. Подробнее здесь — Основы разработки ИИ-решений, Применение в бизнесе.

Вопрос. Как обучить нейросеть с нуля — с чего начать?

Ответ. Для LLM "с нуля" нужны огромный корпус, GPU-кластер и бюджет lab. Практичный путь — готовая модель + RAG или LoRA на своих данных. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Как дообучить ChatGPT или Llama на своих данных?

Ответ. Варианты: fine-tuning / LoRA на размеченных парах, OpenAI fine-tunes API (где доступно) или RAG без смены весов. Выбор зависит от задачи и бюджета. Подробнее здесь — Основы разработки ИИ-решений, Работа с ИИ-моделями.

Вопрос. Что такое LoRA и зачем она нужна?

Ответ. LoRA (Low-Rank Adaptation) — дообучение через небольшие дополнительные матрицы, без переписывания всех миллиардов параметров. Дешевле и быстрее полного fine-tuning. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. PyTorch или TensorFlow — что выбрать для ИИ в 2025–2026?

Ответ. Для LLM и research чаще PyTorch и экосистема Hugging Face; TensorFlow силён в части прод-ML и TPU. Смотрите стек команды и примеры модели. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Как установить LM Studio и запустить модель на Windows?

Ответ. Скачайте LM Studio, выберите модель в каталоге (например Qwen или Llama), дождитесь загрузки весов, откройте чат или включите Local Server для API. Подробнее здесь — Работа с ИИ-моделями.

Вопрос. Сколько нужно видеопамяти (VRAM) для локальной LLM?

Ответ. Ориентир: 7B Q4 — от ~4–6 ГБ VRAM; 30B Q4 — 16–24 ГБ и выше. Точные цифры — на карточке модели и типе квантования. Подробнее здесь — Работа с ИИ-моделями.

Вопрос. Как подключить OpenAI API к Python — минимальный пример?

Ответ. Установите SDK (openai), задайте API-ключ в переменной окружения, вызовите chat.completions.create с model и messages. Ключ не храните в коде. Подробнее здесь — Интеграция ИИ-моделей в Python.

Вопрос. Зачем Jupyter Notebook для машинного обучения?

Ответ. Jupyter — интерактивные ячейки для экспериментов: загрузка данных, визуализация, вызов API модели. Для prod код переносят в модули и CI. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Как развернуть LLM в production?

Ответ. Цепочка: контейнер (Docker) + inference-сервер (vLLM, TGI, Ollama) + API gateway (auth, rate limit) + мониторинг latency и стоимости. Подробнее здесь — Развёртывание и обслуживание ИИ-моделей.

Вопрос. Что такое LLMOps?

Ответ. LLMOps — практики эксплуатации LLM: версии промптов и моделей, eval, логи, drift, стоимость токенов, инциденты. Аналог MLOps для языковых моделей. Подробнее здесь — Семь слоёв LLM-стека, Развёртывание и обслуживание.

Вопрос. Зачем Docker для machine learning и LLM?

Ответ. Docker фиксирует версии Python, CUDA, библиотек и весов — одинаковый запуск на dev и prod. Удобен для inference-worker и RAG-pipeline. Подробнее здесь — Развёртывание и обслуживание.

Вопрос. Как сделать чат-бот на GPT API своими руками?

Ответ. Backend принимает сообщение пользователя, добавляет system prompt и историю, вызывает API, отдаёт ответ (лучше stream). Для документов компании — RAG поверх векторной БД. Подробнее здесь — Интеграция в веб-приложения, RAG, MCP и агенты.

Вопрос. Что такое Hugging Face и зачем он разработчику ИИ?

Ответ. Hugging Face — хаб моделей, датасетов и Transformers: скачать Llama, Qwen, эмбеддинги; запустить inference или fine-tune. Подробнее здесь — Работа с ИИ-моделями, Основы разработки.

Вопрос. Что значит GGUF и квантование Q4_K_M?

Ответ. GGUF — формат весов для llama.cpp / LM Studio; Q4 — сжатие до ~4 бит на параметр для экономии RAM. Меньше бит — быстрее, но возможна потеря качества на коде. Подробнее здесь — Работа с ИИ-моделями.

Вопрос. Что такое vLLM и когда его использовать?

Ответ. vLLM — высокопроизводительный inference-сервер для GPU с батчингом и PagedAttention. Для prod с большим числом параллельных запросов. Подробнее здесь — Развёртывание и обслуживание, Работа с ИИ-моделями.

Вопрос. Что такое transfer learning (трансферное обучение)?

Ответ. Transfer learning — берёте предобученную модель (Llama, BERT) и адаптируете под свою задачу fine-tune или LoRA вместо обучения с нуля. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Как работает RAG pipeline по шагам?

Ответ. Индексация (чанки → эмбеддинги → векторная БД) → поиск по запросу → сборка промпта с найденными фрагментами → генерация ответа LLM. Подробнее здесь — Семь слоёв LLM-стека, RAG, MCP и агенты.

Вопрос. Что такое Azure Cognitive Services и Google Cloud AI API?

Ответ. Готовые облачные API для OCR, речи, лиц, перевода — без своего обучения. Быстрый старт для CV/NLP в prod. Подробнее здесь — Облачные API Cognitive Services.

Вопрос. Inference и training — в чём разница?

Ответ. Training (обучение) — подбор весов на данных; inference (инференс)использование готовой модели для ответов. В prod платят в основном за inference-токены и GPU-часы. Подробнее здесь — Основы разработки ИИ-решений, Семь слоёв LLM-стека.

Вопрос. Что такое overfitting (переобучение) простыми словами?

Ответ. Модель запомнила train, но плохо работает на новых данных. Лечится больше данных, регуляризацией и честным test-set. Подробнее здесь — Основы разработки ИИ-решений.

Вопрос. Что такое data drift (дрейф данных)?

Ответ. Data drift — входные данные в prod со временем меняются (новые форматы, сезонность), качество модели падает. Нужен мониторинг распределений и переиндексация RAG. Подробнее здесь — Развёртывание и обслуживание, Семь слоёв LLM-стека.

Вопрос. Сколько стоит обучить свою LLM с нуля?

Ответ. Порядок миллионов долларов на GPU, электричество и команду для моделей класса GPT — недоступно большинству компаний. Практичнее API или open-weight + LoRA. Подробнее здесь — Основы разработки ИИ-решений, Применение в бизнесе.

Вопрос. No-code ИИ-платформы — можно ли без программиста?

Ответ. Для MVP и внутренних прототипов — да; для prod с SSO, SLA и аудитом обычно нужен разработчик. Подробнее здесь — Цифровые инструменты без ручного кодинга.

Вопрос. Семь слоёв LLM-стека — что это за модель?

Ответ. Каркас от источников данных до прикладного продукта: сбор, подготовка, модель, оркестрация (RAG, агенты), инференс, интеграция, UX. Помогает не забыть слой 2 при запуске чата. Подробнее здесь — Семь слоёв LLM-стека.


Как пользоваться этой страницей

  1. Перед проектом — пройдите FAQ и отметьте риски (данные, стоимость, drift).
  2. После глав — нарисуйте от руки семь слоёв и отметьте, что уже есть в вашем MVP.
  3. Перед релизом — сверьтесь с чек-листом и закройте дыры в слоях 2, 4, 5.

Что запомнить

Семь слоёв — сжато

СлойВопросГлава
1. ИсточникиОткуда сырьё?119
2. ДанныеЧанки, эмбеддинги, PII119, 1
3. МодельAPI, локально, LoRA1, 113
4. ОркестрацияRAG, агенты, промпты119
5. ИнференсLatency, стоимость, stream111
6. ИнтеграцияCRM, SSO, billing112, 1131
7. ПродуктUX, метрики, ROI119

Три стратегии работы с моделью

СтратегияКогдаГлава
Облачный APIБыстрый MVP, нет GPU1
Локальная open-weightПриватность, контроль113
Своя pretrainУникальный корпус, бюджет lab1

Частые путаницы

ПутаютНа самом делеГде повторить
Прототип и prodNotebook без мониторинга не равен SLA111
Обучение и inferenceFine-tune редок; большинство платят за токены113
ML pipeline и "просто ChatGPT"Без слоя 2 RAG галлюцинирует по вашим регламентам119
Cognitive API и "свой GPT"API — готовый building block120

Куда идти дальше

ЦельРаздел
Модели, MCP, агентыМодели и инструменты
Бизнес и ROIПрименение ИИ
Векторный поискВекторные БД

Проверьте себя — Чек-лист самопроверки.


См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").