Перейти к основному содержимому

Типы интеллектуальных агентов

Разработчику

В классической теории ИИ (Russell & Norvig, курс MIT, схемы вроде ByteByteGo — Types of AI Agents) интеллектуальный агент — сущность, которая через сенсоры получает восприятия (percepts) из среды, обрабатывает их и через исполнительные механизмы (actuators, effectors) отдаёт действия (actions). Чем сложнее внутренняя схема принятия решений, тем богаче поведение в частично наблюдаемой и меняющейся среде.

Современные LLM-агенты (Агенты ИИ) наследуют те же идеи: цикл «наблюдение → решение → действие», память, цели и обратная связь. Ниже — пять базовых архитектур, от которых удобно отталкиваться при проектировании.


Общая схема

ЭлементРоль
СредаВсё, с чем взаимодействует агент (физический мир, API, чат, база данных)
СенсорыДатчики, парсеры, webhook, чтение логов — всё, что даёт вход
Исполнительные механизмыМоторы, HTTP-запросы, shell, отправка сообщения пользователю
АгентЛогика выбора действия по восприятиям (и, при необходимости, по внутреннему состоянию)

1. Простой рефлексный агент

Simple reflex agent действует только по текущему восприятию, без памяти прошлых шагов.

Внутри — таблица или набор condition-action rules (правил «условие → действие»). Пример: если температура выше порога — включить вентилятор.

ПлюсыМинусы
Простота, предсказуемость, низкая задержкаНе видит скрытое состояние среды
Легко тестироватьОшибается, если одного датчика недостаточно

Аналоги в разработке: middleware «если статус 500 — retry», простые webhook без контекста, жёсткий routing в чат-боте по ключевым словам.


2. Модельный рефлексный агент

Model-based reflex agent хранит внутреннее состояние, которое обновляется после каждого восприятия. Состояние отражает то, что сейчас не видно сенсорами, но важно для решения (где был робот, открыта ли дверь, есть ли незакоммиченные файлы в сессии).

Модель среды описывает, как мир меняется от действий агента и от внешних факторов. Правила срабатывают уже по состоянию + модели, а не по одному датчику.

ПлюсыМинусы
Работа в частично наблюдаемой средеНужно поддерживать модель и синхронизацию состояния
Учитывает «историю» в сжатом видеОшибка модели накапливается

Аналоги: сессия пользователя в веб-приложении, контекст диалога в LLM, кэш «последний известный статус заказа» перед вызовом API.


3. Целевой агент

Goal-based agent явно хранит цель (goal) и выбирает действия, которые ведут к её достижению. Вместо фиксированных «если — то» используется планирование или поиск: «что будет, если сделать A?» и «приблизит ли это к цели?».

Цель можно менять без переписывания всех правил — достаточно подставить новую спецификацию цели. Агент гибче рефлексного, но дороже по вычислениям (перебор планов, граф состояний).

Аналоги: LLM-агент с задачей «собери отчёт за квартал»; план-and-execute в Агентах ИИ; маршрутизация «доставить посылку в точку B».


4. Утилитарный агент

Utility-based agent похож на целевой, но выбирает не «любой путь к цели», а лучший по числовой функции полезности (utility). Один и тот же целевой результат может отличаться по риску, времени, стоимости или комфорту — утилита позволяет сравнивать компромиссы.

Пример: две стратегии доставки заказа — быстрая дорогая и медленная дешёвая; цель одна («доставить»), утилита взвешивает время, деньги и репутацию.

Аналоги: ранжирование ответов RAG по score; выбор модели по цене/latency; multi-objective оптимизация в MLOps.


5. Обучающийся агент

Learning agent улучшает поведение со временем в неизвестной или меняющейся среде. Классическая схема делит агента на четыре блока:

КомпонентНазначение
Элемент производительностиТо, что во внешнем мире выглядит как «агент» (как в типах 1–4)
Элемент обученияУлучшает элемент производительности по обратной связи
КритикСравнивает наблюдаемые исходы со стандартом производительности
Генератор задачПредлагает эксперименты — действия ради нового опыта, даже если они субоптимальны сейчас

Такой агент сочетает эксплуатацию (делать лучшее известное) и исследование (пробовать новое). Подробнее про награды и среду — обучение с подкреплением и нейросети — обучение с подкреплением.

Аналоги: fine-tuning и RLHF; A/B тесты промптов; агент, который по логам ошибок дополняет allow-list инструментов.


Сравнение типов

ТипПамять / состояниеЦельОценка вариантовОбучение
Простой рефлексныйнетв правилахнетнет
Модельный рефлексныйдав правилахнетнет
Целевойдаявная цельпоиск / планнет
Утилитарныйда + прогнозцель + компромиссыфункция полезностинет
Обучающийсядастандарт + цели обучениякритик + экспериментыда

Сложность и гибкость растут сверху вниз; и стоимость ошибки, и требования к данным и наблюдаемости — тоже.


Связь с LLM-агентами

Современный LLM-агент (Агенты ИИ) обычно совмещает несколько уровней сразу:

Классический типГде проявляется в LLM-стеке
РефлексныйЖёсткие guardrails, «если tool = delete — спроси человека»
МодельныйКонтекст чата, RAG, профиль пользователя
ЦелевойСистемный промпт с задачей, ReAct, plan-and-execute
УтилитарныйВыбор модели, temperature, ранжирование документов
ОбучающийсяLoRA, eval-наборы, разбор логов агента в проде

Практический вывод: перед внедрением агента полезно явно ответить — достаточно ли правил по текущему входу, нужна ли память состояния, как сформулирована цель, по какой метрике сравнивать планы и где будет обратная связь для улучшения.


Итоги

Пять типов — лестница выразительности, а не взаимоисключающие продукты. Простой рефлекс покрывает автоматику с полным наблюдением; модель и цели нужны в частично наблюдаемых задачах; утилита — когда важны компромиссы; обучение — когда среда или предпочтения меняются быстрее, чем успевают обновлять правила вручную. LLM-агенты в продакшене почти всегда строят на комбинации этих слоёв плюс инженерный контроль цикла и прав.


См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").