Перейти к основному содержимому

AgentOps и LLM-стек — слои 4–7

Архитектору Разработчику Инженеру

Семь слоёв LLM-стека описывают продукт снизу вверх. AgentOps — дисциплина эксплуатации верхней половины стека: там, где модель уже подключена к данным, но поведение системы недетерминировано, есть tools с side effects и нужны eval, tracing и human-in-the-loop.

Слои 1–3 (источники, подготовка данных, обучение модели) — зона MLOps. AgentOps потребляет их артефакты — индекс RAG, checkpoint, eval-набор — и отвечает за то, что происходит в runtime от промпта до действия в prod.

Полный цикл AgentOps (история Ops, multi-agent Git, AGENTS.md, инструменты) — 8.04 AgentOps.

Как читать пару статей
Сначала MLOps — слои 1–3, затем эта статья. Вместе они закрывают все семь слоёв с точки зрения операций, а не только архитектуры.


Теоретические основы AgentOps

AgentOps опирается на premis: LLM-агент — кибер-физическая система в soft sense. «Физика» здесь — API, Git, БД, биллинг: модель выдаёт tokens, orchestration превращает их в действия с необратимыми или дорогими последствиями. Классический DevOps мониторит инфраструктуру; MLOps — артефакты обучения; AgentOps — траекторию принятия решений в runtime.

Агент в теории ИИ

Классическая модель BDI (Belief–Desire–Intention) описывает rational agent:

  • Beliefs — что агент «знает» о мире (контекст, RAG, memory);
  • Desires — цели (user task, KPI);
  • Intentions — зафиксированный план действий (tool sequence).

LLM-агент реализует BDI приближённо: beliefs = prompt + retrieval; desires = user message + system goals; intentions = plan-and-execute или ReAct loop. AgentOps делает beliefs и intentions наблюдаемыми через trace, потому что внутреннее состояние модели непрозрачно.

Сравнение с типами интеллектуальных агентов: LLM-agent — goal-based + learning (through feedback), с utility в виде reward от eval/human.

Недетерминизм как операционная проблема

Inference LLM — сampling из распределения $P(token | context)$. Temperature > 0 → разные runs. Операционные следствия:

Свойство ПОСвойство агента
Reproducible buildStatistically reproducible eval
Exact unit testRubric + threshold + multiple trials
Binary pass/failDistribution of outcomes

Теория probabilistic testing: вместо «assert equals» — «95% runs pass rubric on golden set». AgentOps CI принимает flakiness budget явно, как CI уже принимает flaky integration tests с retry policy.

Три столпа observability

SRE-метафора logs, metrics, traces для агентов:

СтолпКлассикаAgentOps
LogsСтрока приложенияPrompt, completion, tool I/O (redacted)
MetricsRPS, latencyTokens/run, cost, eval score, tool error rate
TracesHTTP span treeLLM span → tool span → sub-agent span

Добавляется четвёртый измеримый слой — decisions: какой tool выбран, какой doc_id процитирован, какой branch в multi-agent graph.

Principal–agent problem

В экономике principal–agent problem — principal (компания) делегирует agent (сотрудник/подрядчик) задачу при asymmetric information: agent знает больше о своих действиях. LLM-агент literalizes метафору: delegator (human) не видит все промежуточные рассуждения.

Mitigations из теории контрактов переносятся в AgentOps:

  • monitoring (tracing);
  • incentive alignment (eval metrics = business KPI);
  • bonding (approval gates на risky actions);
  • limited authority (least privilege tools).

Карта AgentOps на слоях 4–7

СлойАрхитектурный вопрос (119)Вопрос AgentOps
4. ОркестрацияКак связать промпт, память и tools?Как версионировать, тестировать и откатывать workflow агента?
5. ИнференсКак модель работает под нагрузкой?Как лимитировать cost/latency и fallback между моделями?
6. ИнтеграцияКак встроить LLM в ландшафт?Как аудировать tool calls, секреты и egress в prod?
7. ПрикладениеКакую ценность видит пользователь?Как собирать feedback, измерять качество и эскалировать к человеку?

DevOps (сборка, деплой контейнеров, IaC) идёт горизонтально через слои 5–6. AgentOps добавляет вертикаль «решение модели → последствие в мире».

Замкнутый контур управления

Reference — prompts, rules, golden evals, SLO. Sensors — Langfuse, thumbs, ticket resolution. Отклонение → corrective action: patch prompt, disable tool, rollback index (MLOps L2). Это control theory в дискретном event-driven виде.


Слой 4 — оркестрация (ядро AgentOps)

Здесь живут RAG, промпты, агенты, multi-agent graphs, guardrails. Большинство инцидентов AgentOps начинается на этом слое: «агент зациклился», «вызвал не тот tool», «retrieval принёс устаревший документ».

Что версионировать в Git

  • шаблоны промптов и system instructions;
  • конфиг RAG (chunk size, top_k, reranker);
  • списки tools и MCP server manifests;
  • лимиты (max_iterations, timeout, budget tokens);
  • eval datasets и expected tool traces;
  • rules и skills для IDE-агентов.

Промпт только в SaaS UI без экспорта в репозиторий — не воспроизводимый релиз.

Eval на слое 4

Классические unit-тесты проверяют f(x). AgentOps eval проверяет траекторию:

Тип evalПример
Tool sequenceНа запрос «найди баг в auth» — сначала grep, потом read, без shell rm
RAG groundingОтвет содержит citation из актуального doc_id
Regression50 golden tasks после смены prompt v2 → v3
SafetyPrompt injection в документе не приводит к exfiltration секрета
Multi-agentReviewer получил полный diff, не summary от planner

Eval гоняют в CI до merge prompt/workflow change — аналог test gate в CI/CD.

Multi-agent orchestration

Паттерны — 2152:

  • Planner → Coder → Reviewer с shared artifact (PR, design doc);
  • Debate двух агентов + arbiter;
  • Subagents (Cursor Task tool, LangGraph nodes).

AgentOps мониторит межагентный bus: dropped messages, duplicate work, ping-pong без лимита раундов.

Guardrails

  • allow-list tools per environment (dev vs prod MCP);
  • block destructive shell patterns — Опасные скрипты;
  • PII redaction перед external LLM;
  • output schema validation (JSON mode + pydantic).

Три слоя приложения (RAG / MCP / agent) — 121. AgentOps накладывает политики на каждый.

Теория оркестрации

ReAct (Reason + Act) — чередование verbal reasoning и action; теоретически повышает interpretability: каждый tool call предшествует явной rationale строкой. Операционный плюс — проще post-mortem.

Plan-and-Execute — двухфазный процесс: сначала полный plan (DAG шагов), затем execution. Теория: снижает variance на длинных задачах, повышает latency и хуже adapts к unexpected tool error mid-flight.

State machine view: agent run = переходы (state, action) → state', где state = messages + tool results. AgentOps хранит полный state trajectory для replay и counterfactual («что если на шаге 3 вызвать другой tool»).

Prompt as program: system prompt + tool schemas = domain-specific language без formal semantics. «Компилятор» отсутствует; eval suite играет роль test suite интерпретатора.

Prompt injection и attack surface

Prompt injection — когда untrusted data (email body, webpage, ticket) содержит инструкции, конкурирующие с system prompt. Теоретически это confused deputy: agent с privileges выполняет чужую цель.

Defense in depth на L4:

  • separation trusted instructions vs untrusted content (XML tags, delimiters);
  • tool allow-list минимальных capabilities;
  • output filtering;
  • human approve на exfiltration vectors.

Связь с безопасностью агентов.


Слой 5 — инференс

Слой 5 в 119 — streaming, cache, autoscaling. AgentOps добавляет экономику и надёжность agent run, где один user request = десятки LLM calls.

Model routing

СигналДействие
Задача «plan architecture»Premium model (Claude, GPT-4 class)
«Fix typo in comment»Small / local model
Rate limit / 5xxFallback chain DeepSeek → Qwen → cached response
ComplianceSelf-hosted vLLM, данные не уходят наружу

Router config — в git; изменения проходят eval regression.

Cost и quota

  • Budget per run — hard stop после N tokens или $X;
  • Budget per tenant — SaaS copilot не сжигает весь monthly cap одним пользователем;
  • Dashboard: cost per PR, cost per support ticket, cost per agent session.

Runaway agent loop без max_iterations — классический финансовый инцидент AgentOps.

SLO инференса для агентов

МетрикаЗачем
p95 latency на шагUX multi-step agent
Time-to-first-tokenStreaming chat
Error rate by model/providerFallback triggers
Queue depthBackpressure при spike

Связка с SRE и мониторингом.

Self-hosted inference

Развёртывание моделей — vLLM, TGI, Ollama. AgentOps для self-host: health checks, rolling update weights без downtime agent sessions, canary на новой quant версии.

Теория multi-step cost и latency

Один user turn агента — цепочка $n$ LLM calls с random variables $T_i$ (latency) и $C_i$ (cost). Total latency $\sum T_i$ часто dominates UX; total cost $\sum C_i$ — O(n) при fixed price per token.

Оптимизация:

  • speculative decoding на L5 (draft model + verify);
  • caching identical prefix (KV-cache reuse);
  • early exit — stop when confidence high;
  • cheaper model для draft steps, expensive для final.

Queueing theory: при burst traffic agent runs попадают в queue; без backpressure SLA L7 рушится. M/M/k модель очереди — грубая оценка нужных GPU replicas.

Fallback как state machine

Provider outage → transition to degraded mode: smaller model, cached answer, «try again later», human handoff. Degraded mode должен быть явным в product copy и metrics — иначе silent quality drop.


Слой 6 — интеграция

Агент в prod не изолирован: Git, Jira, Slack, БД, облако, browser. Слой 6 — где AgentOps встречается с security и DevOps.

MCP и API audit

Каждый tool call логируется:

  • who (agent id, user id, session);
  • what (tool name, sanitized args);
  • when (trace span);
  • result (success / error / redacted).

MCP-серверы — один server на домен; credentials rotate, scopes minimal.

CI/CD gates для agent-generated changes

GateСлой
lint + unit testsDevOps
agent eval suiteAgentOps L4
secret scanDevOps + Sec
human approve on infra/AgentOps L6
deploy staging → smokeDevOps

Агент коммитит в тот же Git — GitFlow, GitHub Actions.

Identity и tenancy

  • SSO для human; service account для agent runner;
  • agent действует от имени пользователя или от имени bot — явно в audit log;
  • row-level security в RAG: agent видит только docs tenant'а.

Egress policy

Sandbox runner: allow GitHub API + npm registry; deny arbitrary curl. Cloud agents — VPC, private link к internal MCP.

Теория trust boundaries

Trust boundary crossing — каждый tool call из semi/untrusted в prod systems. AgentOps audit log = proof of boundary crossing.

Zero trust для агентов: каждый tool call authenticated; no persistent god-mode token; session-scoped credentials.

CI как social contract

Pipeline — конституция репозитория: что может попасть в main. Agent-generated code подчиняется тем же законам, что human code — идея equality of artifacts в AgentOps.


Слой 7 — прикладение

Верхний слой — chat, copilot, automation UI. AgentOps на L7 — продуктовые метрики и петля обратной связи.

Feedback loops

СигналТипИспользование
👍/👎 на ответExplicitFine-tune eval weights
Accept/reject diffImplicitCoder agent quality
Time-to-resolution ticketBusinessROI support bot
Escalation to humanNegative signalRegression case

Feedback без PII в clear text; хранение с retention policy.

Human-in-the-loop UX

Любое действие с необратимым эффектом — confirm dialog:

  • merge to main;
  • delete resource;
  • payment;
  • prod deploy;
  • mass email.

Применение ИИ в бизнесе — зрелость продукта; вайб-кодинг — когда HITL пропущен.

Качество для пользователя

  • Task success rate — решена ли задача пользователя (не «красивый текст»);
  • Hallucination rate на grounded QA;
  • Citation accuracy в RAG-поиске;
  • CSAT vs baseline без ИИ.

A/B: prompt v2 vs v3 на 5% traffic с eval guardrails.

Теория измерения качества на L7

Outcome vs output quality: пользователю важен outcome (биллинг исправлен), не fluency текста. Метрики:

  • Task success rate — binary или Likert после session;
  • Deflection rate — % тикетов без human (support bot);
  • Time-to-resolution — сравнение с baseline.

Survivorship bias: успешные agent sessions логируются чаще, чем abandoned — корректируйте sampling в analytics.

Goodhart's law: когда метрика становится целью, агент (или команда) оптимизирует метрику, а не пользу. Пример: minimize tokens → короткие бесполезные ответы. Баланс нескольких metrics + периодический human audit.

Human-in-the-loop как optimal stopping

Теория optimal stopping: при каком confidence остановиться и эскалировать человеку. Практика — threshold на eval score или на «risk class» action. Destructive action → always stop.


AgentOps automation pipeline (слои 4–7)

Непрерывный цикл (AIMultiple — AgentOps):

СтадияПримеры по слоям
ObserveLangfuse trace: 12 LLM spans, 4 tool calls, $0.47
MetricsL7 task success 82%; L5 p95 8s; L4 eval pass 94%
DetectL4 loop > 20 steps; L5 429 from provider
Root causeStale index (MLOps L2); ambiguous tool description (L4)
OptimizeReindex; patch skill; switch model route
AutomateDisable tool; revert prompt tag v3.1-bad

Теория eval для агентов

Eval — центральная операция AgentOps, потому что classical correctness proof недоступен.

Уровни eval

УровеньЧто проверяемМетод
ComponentRetriever, single toolUnit eval с mock
TrajectorySequence of toolsGolden path matching
End-to-endUser task solvedHuman or LLM-as-judge
ProductionLive feedbackImplicit signals L7

LLM-as-judge

Модель оценивает output другой модели по rubric. Риски: positional bias, self-preference, leniency. Mitigation: swap order A/B, multiple judges, calibration на human-labeled subset.

Inter-rater reliability (Cohen's κ) — согласие human vs judge; низкий κ → rubric ambiguous.

Golden datasets

Static set не ловит drift навсегда. MLOps + AgentOps процесс continuous golden curation: каждый prod incident → новый case в eval set (аналог regression tests после bugfix).


Граница MLOps ↔ AgentOps

АртеfactКто создаёт (MLOps L1–3)Кто эксплуатирует (AgentOps L4–7)
Vector index v12Data pipeline, reindex jobRAG retrieval в agent run
Fine-tuned LoRATraining job, model registryLoaded at inference L5
Eval set «support QA»Data teamCI gate L4
Chunk policy 512/64L2 configCitation quality L7

Инцидент «агент врёт» часто корень в L2 (плохие чанки) — см. MLOps — слои 1–3. AgentOps диагностирует симптом на L4–7 и эскалирует data/model команде.


Инструменты

ЗадачаПримеры
Tracing L4–6Langfuse, AgentOps, LangSmith, Arize Phoenix
Eval L4Braintrust, Patronus, custom pytest + LLM judge
Cost L5Helicone, Portkey, LiteLLM proxy
Guardrails L4Guardrails AI, Azure Content Safety
Prod analytics L7Product analytics + trace correlation

Подробная таблица — Инструменты AgentOps.


Роли в команде

СлойРоли
L4ML platform, backend, prompt engineer
L5ML infra, DevOps/SRE
L6Backend, security, integration
L7Product, UX, domain expert

Platform team часто владеет сквозным AgentOps playbook; product — метриками L7.


Уровни зрелости AgentOps

УровеньХарактеристика
0Chat без logs; prompts в голове
1Prompts в git; manual trace review
2Automated tracing; golden eval в CI
3Cost caps, routing, MCP audit
4Closed loop L7 feedback → L4 prompt/index; multi-agent governance

Зрелость L4–7 ограничена зрелостью L1–3: eval на L4 бессмысленен при отсутствии labeled retrieval set с L2.


Минимальный AgentOps для MVP

  1. L4 — prompts в git; 10 golden evals; max_iterations=15.
  2. L5 — один provider + budget cap; logging tokens/run.
  3. L6 — MCP allow-list; agent PR только через CI.
  4. L7 — thumbs feedback; HITL на destructive tools.

Маршрут чтения

#Статья
1MLOps — слои 1–3
2Семь слоёв LLM-стека
3Агенты ИИ
4AgentOps — обзор
5Мультиагентные команды
6AGENTS, skills, rules
7Инструменты

См. также

См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").