I. ВВЕДЕНИЕ

До широкого распространения ИИ-агентов и агентного ИИ примерно в 2022 году (до эпохи ChatGPT) разработка автономных и интеллектуальных агентов глубоко коренилась в фундаментальных парадигмах искусственного интеллекта, в частности, в многоагентных системах (МАС) и экспертных системах, которые делали акцент на социальное действие и распределенный интеллект [1], [2]. Примечательно, что Кастельфранчи [3] заложил критическую основу, введя онтологические категории для социального действия, структуры и разума, утверждая, что социальность возникает из действий отдельных агентов и когнитивных процессов в общей среде, при этом такие понятия, как делегирование и принятие целей, формируют основу для сотрудничества и организационного поведения. Аналогично, Фербер [4] предоставил всеобъемлющую основу для МАС, определяя агентов как сущности с автономией, способностями к восприятию и коммуникации, и подчеркивая их применение в распределенном решении проблем, коллективной робототехнике и симуляциях синтетического мира. Эти ранние работы установили, что индивидуальные социальные действия и когнитивные архитектуры имеют фундаментальное значение для моделирования коллективных явлений, подготавливая почву для современных ИИ-агентов. Эта статья развивает эти идеи, чтобы исследовать, как моделирование социальных действий, предложенное в [3], [4], информирует проектирование ИИ-агентов, способных к сложным, социально интеллектуальным взаимодействиям в динамичных средах.

Эти системы были разработаны для выполнения конкретных задач с предопределенными правилами, ограниченной автономией и минимальной адаптивностью к динамичным средам. Агентоподобные системы были преимущественно реактивными или обдумывающими, полагаясь на символическое рассуждение, логику, основанную на правилах, или запрограммированное поведение, а не на обучающие, контекстно-ориентированные возможности современных ИИ-агентов [5], [6]. Например, экспертные системы использовали базы знаний и механизмы вывода для эмуляции человеческого принятия решений в таких областях, как медицинская диагностика (например, MYCIN [7]). Реактивные агенты, такие как в робототехнике, следовали циклам «ощущение-действие» на основе жестко запрограммированных правил, как это было замечено в ранних автономных транспортных средствах, таких как Stanford Cart [8]. Многоагентные системы облегчали координацию между распределенными сущностями, примером чего является распределение ресурсов на основе аукционов в управлении цепочками поставок [9], [10]. Запрограммированный ИИ в видеоиграх, например, поведение NPC в ранних RPG, использовал предопределенные деревья решений [11]. Кроме того, архитектуры BDI (Вера-Желание-Намерение) обеспечивали целенаправленное поведение программных агентов, например, в симуляциях управления воздушным движением [12], [13]. Эти ранние системы не обладали генеративной способностью, самообучением и адаптивностью к среде, присущими современному агентному ИИ, который использует глубокое обучение, обучение с подкреплением и крупномасштабные данные [14].

Недавний общественный и академический интерес к ИИ-агентам и Агентному ИИ отражает этот более широкий переход в возможностях систем. Как показано на
Figure 1
, данные Google Trends демонстрируют значительный рост мирового интереса к обоим терминам после появления крупномасштабных генеративных моделей в конце 2022 года. Этот сдвиг тесно связан с эволюцией дизайна агентов от эпохи до 2022 года, когда ИИ-агенты работали в ограниченных, основанных на правилах средах, до периода после ChatGPT, отмеченного гибкими архитектурами, основанными на обучении [15]–[17]. Эти новые системы позволяют агентам со временем улучшать свою производительность и автономно взаимодействовать с неструктурированными, динамическими входными данными [18]-[20]. Например, в то время как досовременные экспертные системы требовали ручных обновлений статических баз знаний, современные агенты используют эмерджентное нейронное поведение для обобщения задач [17]. Рост активности трендов отражает растущее признание этих различий. Более того, приложения больше не ограничиваются узкими областями, такими как симуляции или логистика, но теперь распространяются на условия открытого мира, требующие рассуждений в реальном времени и адаптивного управления. Этот импульс, как показано на
Figure 1
, подчеркивает важность недавних архитектурных достижений в масштабировании автономных агентов для реального развертывания.

Выпуск ChatGPT в ноябре 2022 года ознаменовал поворотный момент в развитии и общественном восприятии искусственного интеллекта, катализируя глобальный всплеск внедрения, инвестиций и исследовательской активности [21]. Вслед за этим прорывом ландшафт ИИ претерпел быструю трансформацию, перейдя от использования автономных БЯМ к более автономным, ориентированным на задачи фреймворкам [22]. Эта эволюция прошла через две основные постгенеративные фазы: ИИ-агенты и Агентный ИИ. Изначально, повсеместный успех ChatGPT популяризировал Генеративные Агенты, которые являются системами на основе БЯМ, разработанными для создания новых выходных данных, таких как текст, изображения и код, по запросам пользователей [23], [24]. Эти агенты быстро были приняты в приложениях, начиная от разговорных помощников (например, GitHub Copilot [25]) и платформ для генерации контента (например, Jasper [26]), до творческих инструментов (например, Midjourney [27]), революционизируя такие области, как цифровой дизайн, маркетинг и прототипирование программного обеспечения в течение 2023 года.

Хотя термин «ИИ-агент» был впервые введен в 1998 году [3], с тех пор он значительно развился с появлением генеративного ИИ. На основе этой генеративной основы возник новый класс систем — обычно называемых ИИ-агентами. Эти агенты расширили возможности БЯМ, добавив функции использования внешних инструментов, вызова функций и последовательного рассуждения, что позволило им автономно извлекать информацию в реальном времени и выполнять многоэтапные рабочие процессы [28], [29]. Фреймворки, такие как AutoGPT [30] и BabyAGI (https://github.com/yoheinakajima/babyagi), стали примером этого перехода, демонстрируя, как БЯМ могут быть встроены в циклы обратной связи для динамического планирования, действия и адаптации в средах, управляемых целями [31], [32]. К концу 2023 года область продвинулась дальше в сферу Агентного ИИ — сложных многоагентных систем, в которых специализированные агенты совместно декомпозируют цели, общаются и координируются для достижения общих целей. В соответствии с этой эволюцией Google представила протокол Agent-to-Agent (A2A) в 2025 году [33] — предложенный стандарт, разработанный для обеспечения бесшовной совместимости между агентами различных фреймворков и поставщиков. Протокол построен на пяти основных принципах: использование агентных возможностей, создание на основе существующих стандартов, обеспечение безопасности взаимодействий по умолчанию, поддержка длительных задач и обеспечение модальной агностичности. Эти руководящие принципы призваны заложить основу для отзывчивой, масштабируемой агентной инфраструктуры.

Архитектуры, такие как CrewAI, демонстрируют, как эти агентные фреймворки могут организовывать принятие решений в распределенных ролях, способствуя интеллектуальному поведению в высокорисковых приложениях, включая автономную робототехнику, управление логистикой и адаптивную поддержку принятия решений [34]-[37].

По мере развития области от генеративных агентов к все более автономным системам, становится критически важным очертить технологические и концептуальные границы между ИИ-агентами и Агентным ИИ. Хотя обе парадигмы построены на больших БЯМ и расширяют возможности генеративных систем, они воплощают принципиально различные архитектуры, модели взаимодействия и уровни автономии. ИИ-агенты, как правило, разрабатываются как односубъектные системы, которые выполняют целенаправленные задачи, вызывая внешние инструменты, применяя последовательные рассуждения и интегрируя информацию в реальном времени для выполнения четко определенных функций [17], [38]. В отличие от них, агентные ИИ-системы состоят из множества специализированных агентов, которые координируют, общаются и динамически распределяют подзадачи в рамках более широкого рабочего процесса [14], [39]. Это архитектурное различие лежит в основе глубоких различий в масштабируемости, адаптивности и области применения.

Понимание и формализация таксономии между этими двумя парадигмами (ИИ-агенты и Агентный ИИ) научно значимы по нескольким причинам. Во-первых, это позволяет более точно проектировать системы, сопоставляя вычислительные фреймворки со сложностью проблем, гарантируя, что ИИ-агенты развертываются для модульных, инструментально-поддерживаемых задач, в то время как Агентный ИИ предназначен для оркестрованных многоагентных операций. Более того, это позволяет проводить соответствующую оценку и бенчмаркинг: показатели производительности, протоколы безопасности и требования к ресурсам значительно различаются между агентами для индивидуальных задач и распределенными агентными системами. Кроме того, четкая таксономия снижает неэффективность разработки, предотвращая неправильное применение принципов проектирования, таких как предположение о межагентном сотрудничестве в системе, разработанной для выполнения одной задачи. Без этой ясности специалисты рискуют как недопроектированием сложных сценариев, требующих агентной координации, так и избыточным проектированием простых приложений, которые могут быть решены с помощью одного ИИ-агента.

Поскольку область искусственного интеллекта значительно продвинулась, особенно в разработке ИИ-агентов и Агентного ИИ, эти термины, хотя и связаны, относятся к различным концепциям с различными возможностями и приложениями. Данная статья призвана прояснить различия между ИИ-агентами и Агентным ИИ, предоставив исследователям фундаментальное понимание этих технологий. Цель этого исследования — формализовать различия, установить общую терминологию и предоставить структурированную таксономию между ИИ-агентами и Агентным ИИ, которая будет способствовать разработке следующего поколения интеллектуальных агентов в академических и промышленных областях, как показано на
Figure 2
.Картинка в статье


Figure 2

Концептуальная карта исследовательских вопросов, относящихся к ИИ-агентам и Агентному ИИ. Каждая ветвь, обозначенная цветом, представляет ключевое измерение сравнения: Архитектура, Механизмы, Область/Сложность, Взаимодействие и Автономия.

Этот обзор представляет собой всесторонний концептуальный и архитектурный анализ развития от традиционных ИИ-агентов до эмерджентных систем Агентного ИИ. Вместо того чтобы организовывать исследование вокруг формальных исследовательских вопросов, мы используем последовательную, многоуровневую структуру, которая отражает историческую и техническую эволюцию этих парадигм. Начиная с подробного описания нашей стратегии поиска и критериев отбора, мы сначала устанавливаем фундаментальное понимание ИИ-агентов, анализируя их определяющие атрибуты, такие как автономия, реактивность и исполнение на основе инструментов. Затем мы исследуем критическую роль фундаментальных моделей, в частности БЯМ и Больших Моделей Изображений (БМИ), которые служат основными рассуждающими и перцептивными субстратами, управляющими агентным поведением. В последующих разделах рассматривается, как генеративные ИИ-системы служили предшественниками более динамичных, интерактивных агентов, подготавливая почву для появления Агентного ИИ. Через эту призму мы отслеживаем концептуальный скачок от изолированных одноагентных систем к оркестрованным многоагентным архитектурам, подчеркивая их структурные различия, стратегии координации и механизмы сотрудничества. Мы далее сопоставляем архитектурную эволюцию, анализируя основные компоненты систем как ИИ-агентов, так и Агентного ИИ, предлагая сравнительный анализ их слоев планирования, памяти, оркестровки и выполнения. Опираясь на эту основу, мы рассматриваем области применения, охватывающие поддержку клиентов, здравоохранение, автоматизацию исследований и робототехнику, классифицируя реальные развертывания по возможностям системы и сложности координации. Затем мы оцениваем ключевые проблемы, с которыми сталкиваются обе парадигмы, включая галлюцинации, ограниченную глубину рассуждений, дефицит причинности, проблемы масштабируемости и риски управления. Для решения этих ограничений мы описываем новые решения, такие как генерация с расширенным извлечением (RAG), рассуждения на основе инструментов, архитектуры памяти и планирование на основе симуляции. Обзор завершается перспективной дорожной картой, которая предусматривает конвергенцию модульных ИИ-агентов и оркестрованного Агентного ИИ в критически важных областях. В целом, эта статья призвана предоставить исследователям структурированную таксономию и действенные идеи для проектирования, развертывания и оценки систем агентного ИИ следующего поколения.

A. Обзор методологии

В данном обзоре используется структурированная, многоэтапная методология, разработанная для охвата эволюции, архитектуры, применения и ограничений ИИ-агентов и Агентного ИИ. Процесс наглядно суммирован на

Картинка в статье
Figure 3

, которая описывает последовательный поток тем, исследуемых в этом исследовании. Аналитическая структура была организована таким образом, чтобы отслеживать прогресс от базовых агентных конструкций, основанных на БЯМ, до продвинутых многоагентных оркестровых систем. Каждый этап обзора был основан на тщательном синтезе литературы из академических источников и платформ на основе ИИ, что позволило получить всеобъемлющее понимание текущего ландшафта и его развивающихся траекторий.

Обзор начинается с установления фундаментального понимания ИИ-агентов, изучения их основных определений, принципов проектирования и архитектурных модулей, описанных в литературе. Они включают такие компоненты, как восприятие, рассуждение и выбор действий, а также ранние приложения, такие как чат-боты для обслуживания клиентов и помощники по поиску информации. Этот фундаментальный уровень служит концептуальной отправной точкой для более широкой агентной парадигмы.

Далее мы углубляемся в роль БЯМ как основных компонентов рассуждения, подчеркивая, как предварительно обученные языковые модели лежат в основе современных ИИ-агентов. В этом разделе подробно описывается, как БЯМ, посредством тонкой настройки инструкций и обучения с подкреплением на основе обратной связи от человека (RLHF), обеспечивают взаимодействие на естественном языке, планирование и ограниченные возможности принятия решений. Мы также выявляем их ограничения, такие как галлюцинации, статическая база знаний и отсутствие причинно-следственных связей.

Основываясь на этих фундаментальных принципах, обзор переходит к появлению Агентного ИИ, который представляет собой значительный концептуальный скачок. Здесь мы выделяем трансформацию от одноагентных систем, дополненных инструментами, к совместным, распределенным экосистемам взаимодействующих агентов. Этот сдвиг обусловлен необходимостью систем, способных декомпозировать цели, назначать подзадачи, координировать результаты и динамически адаптироваться к изменяющимся контекстам — возможностям, которые превосходят то, что могут предложить изолированные ИИ-агенты.

В следующем разделе рассматривается архитектурная эволюция от ИИ-агентов к системам Агентного ИИ, противопоставляя простые, модульные проекты агентов сложным фреймворкам оркестровки. Мы описываем улучшения, такие как постоянная память, координация мета-агентов, многоагентные циклы планирования (например, ReAct и Chain-of-Thought) и протоколы семантической связи. Сравнительный архитектурный анализ подкрепляется примерами из таких платформ, как AutoGPT, CrewAI и LangGraph.

После архитектурного исследования в обзоре представлен углубленный анализ областей применения, где развертываются ИИ-агенты и Агентный ИИ. Это включает шесть ключевых областей применения для каждой парадигмы, начиная от извлечения знаний, автоматизации электронной почты и суммирования отчетов для ИИ-агентов, до помощников по исследованиям, робототехнических роев и стратегического бизнес-планирования для Агентного ИИ. Варианты использования обсуждаются в контексте сложности системы, принятия решений в реальном времени и выполнения совместных задач.

Впоследствии мы рассматриваем проблемы и ограничения, присущие обеим парадигмам. Для ИИ-агентов мы фокусируемся на таких вопросах, как галлюцинации, хрупкость запросов, ограниченные возможности планирования и отсутствие причинно-следственного понимания. Для Агентного ИИ мы выявляем более высокие проблемы, такие как рассогласование между агентами, распространение ошибок, непредсказуемость эмерджентного поведения, дефицит объяснимости и уязвимости к атакам. Эти проблемы критически рассматриваются со ссылками на недавние экспериментальные исследования и технические отчеты.

Наконец, обзор описывает потенциальные решения для преодоления этих проблем, опираясь на недавние достижения в причинном моделировании, генерации с расширенным извлечением (RAG), многоагентных фреймворках памяти и надежных конвейерах оценки. Эти стратегии обсуждаются не только как технические исправления, но и как фундаментальные требования для масштабирования агентных систем в высокорисковые области, такие как здравоохранение, финансы и автономная робототехника.

В целом, эта методологическая структура обеспечивает всестороннюю и систематическую оценку состояния ИИ-агентов и Агентного ИИ. Путем последовательного анализа фундаментального понимания, интеграции моделей, архитектурного роста, приложений и ограничений, исследование направлено на обеспечение как теоретической ясности, так и практического руководства для исследователей и практиков, ориентирующихся в этой быстро развивающейся области.

1) Стратегия поиска

Для создания этого обзора мы внедрили гибридную методологию поиска, сочетающую традиционные академические репозитории и инструменты обнаружения литературы, улучшенные ИИ. В частности, было запрошено двенадцать платформ: академические базы данных, такие как Google Scholar, IEEE Xplore, цифровая библиотека ACM, Scopus, Web of Science, ScienceDirect и arXiv; и интерфейсы на основе ИИ, включая ChatGPT, Perplexity.ai, DeepSeek, Hugging Face Search и Grok. Поисковые запросы включали булевы комбинации терминов, таких как «ИИ-агенты», «Агентный ИИ», «Агенты БЯМ», «БЯМ, дополненные инструментами» и «Многоагентные ИИ-системы».

Целевые запросы, такие как «Агентный ИИ + Координация + Планирование» и «ИИ-агенты + Использование инструментов + Рассуждение», использовались для извлечения статей, затрагивающих как концептуальные основы, так и системные реализации. Включение литературы основывалось на таких критериях, как новизна, эмпирическая оценка, архитектурный вклад и цитируемость. Растущий глобальный интерес к этим технологиям, как показано на
Figure 1
с использованием данных Google Trends, подчеркивает срочность синтеза этого формирующегося пространства знаний.

Следующая глава