Семь слоёв LLM-стека
Промпт и вызов API — лишь верхушка системы на LLM. Ниже лежат сбор данных, подготовка корпусов, выбор и дообучение модели, оркестрация RAG и агентов, инференс, интеграция с корпоративным ПО и, наконец, продукт для пользователя. Семь слоёв LLM-стека — снизу вверх — дают общий язык для ТЗ, архитектуры и оценки зрелости проекта: на каком уровне уже есть решения, а где дыры.
Горизонтальные темы проектирования (NFR, API, gateway, БД, threat modeling) — в разделе Проектирование; там же таблица, как стыковать эти главы со слоями 2–6.
Обзор
| Слой | Вопрос, на который отвечает |
|---|---|
| 1. Источники и сбор | Откуда берём сырьё для обучения и контекста? |
| 2. Предобработка и управление | Как превращаем сырьё в датасет, индекс, политики доступа? |
| 3. Модель и обучение | Какую базу берём и как адаптируем под домен? |
| 4. Оркестрация | Как связываем промпт, память, инструменты и сценарии? |
| 5. Инференс | Как запускаем модель в проде — задержка, стоимость, безопасность? |
| 6. Интеграция | Как подключаем стек к CRM, ERP, биллингу, IAM? |
| 7. Прикладение | Что видит пользователь и какой бизнес-эффект? |
Подробнее про роли аналитика, данных и разработки в типовом проекте — Основы разработки ИИ-решений. Теория LLM и обучение — Большие языковые модели.
Слой 1 — источники данных и сбор
Задача слоя — достать текст, метаданные и события из внешнего мира и положить их в контур компании.
Типичные каналы:
- веб-скрапинг и краулеры;
- открытые датасеты (Common Crawl и узкие отраслевые корпуса);
- корпоративные БД и озёра данных;
- SaaS (CRM, ERP, тикеты);
- внешние API и партнёрские фиды;
- документы PDF, DOCX, PPTX;
- логи, события, телеметрия приложений;
- IoT и edge-устройства.
На этом этапе фиксируют право на использование данных, срок хранения и чувствительность. Для RAG важны не «все файлы с диска», а источники с понятным владельцем и расписанием обновления. Поиск и оценка открытых корпусов — в материалах про поиск информации; интеграции с внешними системами — в разделе интеграционного взаимодействия.
Слой 2 — предобработка и управление данными
Сырой поток превращают в то, что можно индексировать, версионировать и отдавать модели.
Основные работы:
- очистка, дедупликация, снижение доли PII;
- нормализация текста и OCR для сканов;
- стратегия чанкинга (размер окна, перекрытие, границы по заголовкам);
- создание и переиндексация эмбеддингов;
- обогащение метаданными и схемами;
- версионирование датасетов и lineage;
- governance и разграничение доступа;
- защищённое хранение и кэш подготовленных фрагментов.
Для RAG качество ответа чаще упирается в слой 2. Векторный поиск и хранилища — Векторные базы данных; подготовка корпусов для fine-tuning и RAG — Основы разработки ИИ-решений.
Слой 3 — выбор модели и обучение
Здесь решают, какая нейросеть будет ядром и сколько её менять под задачу.
- выбор foundation-модели (семейства вроде GPT, Llama, Qwen, Mistral);
- fine-tuning, LoRA, QLoRA;
- prompt-tuning и адаптеры;
- RLHF / RLAIF для предпочтений и тона;
- safety tuning и наборы для red-teaming;
- дистилляция, квантование, pruning;
- подготовка мультимодальности (изображение, аудио);
- трекинг экспериментов и eval-наборы.
Большинство продуктов останавливаются на готовой модели + лёгкая адаптация; полный pre-training — редкий и дорогой путь (создание своей модели). Сравнение transfer learning, fine-tuning и федеративного обучения — Обучение на базе готовой модели. Этапы pre-training и SFT в статье про большие языковые модели.
Слой 4 — оркестрация и пайплайны
Слой связывает данные, модель и бизнес-логику в повторяемые сценарии.
- шаблоны промптов и управление параметрами;
- фреймворки агентов (LangChain, CrewAI и аналоги);
- роли нескольких агентов и передача контекста;
- tool / function calling;
- контекст и долговременная память (RAG, сессии);
- планирование, перепланирование, self-reflection;
- workflow-движки (Airflow, Temporal) для пакетных и долгих задач;
- guardrails, политики, управление секретами.
RAG как паттерн — в Основах разработки ИИ-решений; агенты и вызов инструментов — Агенты искусственного интеллекта; MCP как слой интеграции tools — MCP-серверы. Как RAG, MCP и агент делят роли в одном продукте — три слоя архитектуры. Для no-code-сценариев цепочки часто собирают в iPaaS — см. Цифровые инструменты без ручного кодинга.
Слой 5 — инференс и исполнение
Модель работает под нагрузкой: здесь измеряют latency, стоимость токена и стабильность.
- режимы real-time, batch и streaming ответа;
- глубина рассуждений (chain-of-thought, «думающие» модели);
- мультимодальный ввод и вывод;
- контроль детерминизма — temperature, top_p, top_k (шпаргалка по параметрам);
- кэш промптов и результатов, KV-cache на железе;
- on-device и edge-инференс;
- autoscaling, rate limiting, очереди;
- safety-фильтры на входе и выходе.
Локальный запуск и движки (Ollama, vLLM, llama.cpp) — Работа с ИИ-моделями. Онлайн- и офлайн-инференс в теории — раздел про инференс в статье о LLM.
Слой 6 — интеграция
LLM-сервис встраивают в существующий ландшафт предприятия.
- REST, gRPC, GraphQL как контракт для клиентов;
- SDK и CLI для разработчиков;
- шины событий и webhooks;
- коннекторы (Slack, Jira, Salesforce и др.);
- выгрузка в warehouse / lakehouse (data sinks);
- идентификация и авторизация (SSO, OIDC);
- биллинг, квоты, metering;
- feature flags и централизованный config.
Типовые паттерны внедрения в CRM/ERP и асинхронные очереди — Архитектура в основах разработки. Общие принципы API и обмена сообщениями — интеграционное взаимодействие.
Слой 7 — прикладной уровень
Верхний слой — ценность для пользователя и измеримый эффект.
- чат-боты и copilot в IDE или CRM;
- корпоративный поиск и RAG-приложения;
- автоматизация документов (сводки, черновики, извлечение полей);
- ассистенты для кода и аналитики данных;
- автоматизация процессов (тикеты, согласования);
- прогнозная аналитика с генеративным слоем;
- рекомендации и персонализация;
- отраслевые агенты (медицина, право, поддержка).
Критерии зрелости продукта, экономика и риски маркетинга «на базе ИИ» — Применение ИИ в бизнес-процессах. Риски быстрой генерации без ревью — Вайб-кодинг.
Минимальный путь по слоям
Для корпоративного RAG-ассистента чаще всего достаточно:
- документы и wiki (слой 1);
- чанки + эмбеддинги + векторная БД (слой 2);
- API готовой LLM без собственного pre-training (слой 3);
- промпт + retrieval + опционально tools (слой 4);
- streaming API с лимитами и модерацией (слой 5);
- SSO и REST за API-gateway (слой 6);
- веб-чат или плагин в портал (слой 7).
Для тонкой настройки под домен добавляют слой 3 (LoRA/SFT) и усиливают слой 2 (разметка, eval). Для агента с действиями критичны слои 4 и 6 (инструменты, права, аудит).
Связь с ролями в команде
| Слой | Кто чаще ведёт |
|---|---|
| 1–2 | Data engineer, ML engineer, аналитик данных |
| 3 | ML engineer, исследователь |
| 4–5 | Backend, ML platform, DevOps/MLOps |
| 6 | Backend, интегратор, security |
| 7 | Product, аналитик, frontend, предметный эксперт |
Один человек на старте может закрыть несколько слоев; при росте нагрузки их разводят по командам и SLA.
См. также
Другие статьи этого же раздела в боковом меню (как на странице "О разделе"). Результатом аналитической работы становится техническое задание или архитектурное решение, которое служит основой для дальнейшей разработки. Развертывание собственной модели искусственного интеллекта — это комплексный процесс, охватывающий подготовку модели, выбор инфраструктуры, настройку API, обеспечение масштабируемости и мониторинга. Интеграция модели в код требует проектирования надёжного клиентского слоя, обработки граничных случаев и соответствия архитектурным требованиям приложения. Если используется только CPU, вся модель загружается в оперативную память. При использовании GPU часть весов может храниться в видеопамяти. Интеграция искусственного интеллекта — это процесс внедрения технологий машинного обучения, нейронных сетей или больших языковых моделей (LLM) в структуру веб-сайтов и веб-приложений для. Сборка логики и интерфейса через AI-конструкторы, no-code/low-code и агентов — границы, стек и путь до деплоя на сервер. Итоги раздела Разработка ИИ — вопросы для самопроверки в энциклопедии Вселенная IT.Основы разработки ИИ-решений
Развёртывание и обслуживание ИИ-моделей
Интеграция ИИ-моделей в приложения на Python
Работа с ИИ-моделями
Интеграция ИИ в веб-приложения
Цифровые инструменты без ручного кодинга
Чек-лист самопроверки