Перейти к основному содержимому

Семь слоёв LLM-стека

Архитектору Разработчику Аналитику

Промпт и вызов API — лишь верхушка системы на LLM. Ниже лежат сбор данных, подготовка корпусов, выбор и дообучение модели, оркестрация RAG и агентов, инференс, интеграция с корпоративным ПО и, наконец, продукт для пользователя. Семь слоёв LLM-стека — снизу вверх — дают общий язык для ТЗ, архитектуры и оценки зрелости проекта: на каком уровне уже есть решения, а где дыры.

Горизонтальные темы проектирования (NFR, API, gateway, БД, threat modeling) — в разделе Проектирование; там же таблица, как стыковать эти главы со слоями 2–6.

Как пользоваться
При разборе чужого продукта или своего MVP пройдитесь по слоям 1→7. Частая ошибка — инвестировать только в слой 7 (чат-бот) и слой 5 (API модели), пропуская слои 2 (качество данных) и 4 (RAG, guardrails).


Обзор

СлойВопрос, на который отвечает
1. Источники и сборОткуда берём сырьё для обучения и контекста?
2. Предобработка и управлениеКак превращаем сырьё в датасет, индекс, политики доступа?
3. Модель и обучениеКакую базу берём и как адаптируем под домен?
4. ОркестрацияКак связываем промпт, память, инструменты и сценарии?
5. ИнференсКак запускаем модель в проде — задержка, стоимость, безопасность?
6. ИнтеграцияКак подключаем стек к CRM, ERP, биллингу, IAM?
7. ПрикладениеЧто видит пользователь и какой бизнес-эффект?

Подробнее про роли аналитика, данных и разработки в типовом проекте — Основы разработки ИИ-решений. Теория LLM и обучение — Большие языковые модели.


Слой 1 — источники данных и сбор

Задача слоя — достать текст, метаданные и события из внешнего мира и положить их в контур компании.

Типичные каналы:

  • веб-скрапинг и краулеры;
  • открытые датасеты (Common Crawl и узкие отраслевые корпуса);
  • корпоративные БД и озёра данных;
  • SaaS (CRM, ERP, тикеты);
  • внешние API и партнёрские фиды;
  • документы PDF, DOCX, PPTX;
  • логи, события, телеметрия приложений;
  • IoT и edge-устройства.

На этом этапе фиксируют право на использование данных, срок хранения и чувствительность. Для RAG важны не «все файлы с диска», а источники с понятным владельцем и расписанием обновления. Поиск и оценка открытых корпусов — в материалах про поиск информации; интеграции с внешними системами — в разделе интеграционного взаимодействия.


Слой 2 — предобработка и управление данными

Сырой поток превращают в то, что можно индексировать, версионировать и отдавать модели.

Основные работы:

  • очистка, дедупликация, снижение доли PII;
  • нормализация текста и OCR для сканов;
  • стратегия чанкинга (размер окна, перекрытие, границы по заголовкам);
  • создание и переиндексация эмбеддингов;
  • обогащение метаданными и схемами;
  • версионирование датасетов и lineage;
  • governance и разграничение доступа;
  • защищённое хранение и кэш подготовленных фрагментов.

Для RAG качество ответа чаще упирается в слой 2. Векторный поиск и хранилища — Векторные базы данных; подготовка корпусов для fine-tuning и RAG — Основы разработки ИИ-решений.


Слой 3 — выбор модели и обучение

Здесь решают, какая нейросеть будет ядром и сколько её менять под задачу.

  • выбор foundation-модели (семейства вроде GPT, Llama, Qwen, Mistral);
  • fine-tuning, LoRA, QLoRA;
  • prompt-tuning и адаптеры;
  • RLHF / RLAIF для предпочтений и тона;
  • safety tuning и наборы для red-teaming;
  • дистилляция, квантование, pruning;
  • подготовка мультимодальности (изображение, аудио);
  • трекинг экспериментов и eval-наборы.

Большинство продуктов останавливаются на готовой модели + лёгкая адаптация; полный pre-training — редкий и дорогой путь (создание своей модели). Сравнение transfer learning, fine-tuning и федеративного обучения — Обучение на базе готовой модели. Этапы pre-training и SFT в статье про большие языковые модели.


Слой 4 — оркестрация и пайплайны

Слой связывает данные, модель и бизнес-логику в повторяемые сценарии.

  • шаблоны промптов и управление параметрами;
  • фреймворки агентов (LangChain, CrewAI и аналоги);
  • роли нескольких агентов и передача контекста;
  • tool / function calling;
  • контекст и долговременная память (RAG, сессии);
  • планирование, перепланирование, self-reflection;
  • workflow-движки (Airflow, Temporal) для пакетных и долгих задач;
  • guardrails, политики, управление секретами.

RAG как паттерн — в Основах разработки ИИ-решений; агенты и вызов инструментов — Агенты искусственного интеллекта; MCP как слой интеграции tools — MCP-серверы. Как RAG, MCP и агент делят роли в одном продукте — три слоя архитектуры. Для no-code-сценариев цепочки часто собирают в iPaaS — см. Цифровые инструменты без ручного кодинга.


Слой 5 — инференс и исполнение

Модель работает под нагрузкой: здесь измеряют latency, стоимость токена и стабильность.

  • режимы real-time, batch и streaming ответа;
  • глубина рассуждений (chain-of-thought, «думающие» модели);
  • мультимодальный ввод и вывод;
  • контроль детерминизма — temperature, top_p, top_k (шпаргалка по параметрам);
  • кэш промптов и результатов, KV-cache на железе;
  • on-device и edge-инференс;
  • autoscaling, rate limiting, очереди;
  • safety-фильтры на входе и выходе.

Локальный запуск и движки (Ollama, vLLM, llama.cpp) — Работа с ИИ-моделями. Онлайн- и офлайн-инференс в теории — раздел про инференс в статье о LLM.


Слой 6 — интеграция

LLM-сервис встраивают в существующий ландшафт предприятия.

  • REST, gRPC, GraphQL как контракт для клиентов;
  • SDK и CLI для разработчиков;
  • шины событий и webhooks;
  • коннекторы (Slack, Jira, Salesforce и др.);
  • выгрузка в warehouse / lakehouse (data sinks);
  • идентификация и авторизация (SSO, OIDC);
  • биллинг, квоты, metering;
  • feature flags и централизованный config.

Типовые паттерны внедрения в CRM/ERP и асинхронные очереди — Архитектура в основах разработки. Общие принципы API и обмена сообщениями — интеграционное взаимодействие.


Слой 7 — прикладной уровень

Верхний слой — ценность для пользователя и измеримый эффект.

  • чат-боты и copilot в IDE или CRM;
  • корпоративный поиск и RAG-приложения;
  • автоматизация документов (сводки, черновики, извлечение полей);
  • ассистенты для кода и аналитики данных;
  • автоматизация процессов (тикеты, согласования);
  • прогнозная аналитика с генеративным слоем;
  • рекомендации и персонализация;
  • отраслевые агенты (медицина, право, поддержка).

Критерии зрелости продукта, экономика и риски маркетинга «на базе ИИ» — Применение ИИ в бизнес-процессах. Риски быстрой генерации без ревью — Вайб-кодинг.


Минимальный путь по слоям

Для корпоративного RAG-ассистента чаще всего достаточно:

  1. документы и wiki (слой 1);
  2. чанки + эмбеддинги + векторная БД (слой 2);
  3. API готовой LLM без собственного pre-training (слой 3);
  4. промпт + retrieval + опционально tools (слой 4);
  5. streaming API с лимитами и модерацией (слой 5);
  6. SSO и REST за API-gateway (слой 6);
  7. веб-чат или плагин в портал (слой 7).

Для тонкой настройки под домен добавляют слой 3 (LoRA/SFT) и усиливают слой 2 (разметка, eval). Для агента с действиями критичны слои 4 и 6 (инструменты, права, аудит).


Связь с ролями в команде

СлойКто чаще ведёт
1–2Data engineer, ML engineer, аналитик данных
3ML engineer, исследователь
4–5Backend, ML platform, DevOps/MLOps
6Backend, интегратор, security
7Product, аналитик, frontend, предметный эксперт

Один человек на старте может закрыть несколько слоев; при росте нагрузки их разводят по командам и SLA.

См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").