II. ФУНДАМЕНТАЛЬНОЕ ПОНИМАНИЕ ИИ-АГЕНТОВ

ИИ-агенты — это автономные программные сущности, разработанные для выполнения целенаправленных задач в ограниченных цифровых средах [14], [40]. Эти агенты определяются их способностью воспринимать структурированные или неструктурированные входные данные [41], рассуждать над контекстной информацией [42], [43] и инициировать действия для достижения конкретных целей, часто выступая в качестве заместителей для пользователей-людей или подсистем [44]. В отличие от обычных сценариев автоматизации, которые следуют детерминированным рабочим процессам, ИИ-агенты демонстрируют реактивный интеллект и ограниченную адаптивность, позволяя им соответствующим образом интерпретировать динамические входные данные и переконфигурировать выходные данные [45]. Их внедрение сообщается в различных областях применения, включая автоматизацию обслуживания клиентов [46], [47], помощь в личной продуктивности [48], внутренний поиск информации [49], [50] и системы поддержки принятия решений [51], [52]. Примечательным примером автономных ИИ-агентов является проект Anthropic «Использование компьютера», в котором Клод был обучен навигировать по компьютерам для автоматизации повторяющихся процессов, создания и тестирования программного обеспечения, а также выполнения открытых задач, таких как исследования [53].

1) Обзор основных характеристик ИИ-агентов

ИИ-агенты широко концептуализируются как воплощенные операционные проявления искусственного интеллекта, разработанные для взаимодействия с пользователями, программными экосистемами или цифровыми инфраструктурами в целях целенаправленного поведения [54]–[56]. Эти агенты отличаются от универсальных БЯМ тем, что обладают структурированной инициализацией, ограниченной автономией и постоянной ориентацией на задачу. В то время как БЯМ в основном функционируют как реактивные последователи запросов [57], ИИ-агенты работают в явно определенных рамках, динамически взаимодействуя с входными данными и производя действенные выходные данные в реальном времени [58].

Картинка в статье
Figure 4

Основные характеристики автономии, специфичности задач и реактивности ИИ-агентов, проиллюстрированные символическими представлениями для проектирования агентов и операционного поведения.


Figure 4
иллюстрирует три фундаментальные характеристики, которые встречаются в архитектурных таксономиях и эмпирических развертываниях ИИ-агентов. К ним относятся автономия, специфичность задач и реактивность с адаптацией. Во-первых, автономия означает способность агента действовать независимо после развертывания, минимизируя зависимости от человека в процессе и обеспечивая крупномасштабную, безлюдную работу [47], [59]. Во-вторых, специфичность задач описывает философию проектирования ИИ-агентов, заключающуюся в специализации на узкоспециализированных задачах, что обеспечивает высокопроизводительную оптимизацию в определенной функциональной области, такой как планирование, запрос или фильтрация [60], [61]. В-третьих, реактивность относится к способности агента реагировать на изменения в своей среде, включая команды пользователя, состояния программного обеспечения или ответы API; при расширении адаптацией это включает циклы обратной связи и базовые эвристики обучения [17], [62].

В совокупности эти три характеристики обеспечивают фундаментальный профиль для понимания и оценки ИИ-агентов в различных сценариях развертывания. Остальная часть этого раздела подробно описывает каждую характеристику, предлагая теоретическое обоснование и иллюстративные примеры.

  • Автономия: Центральной особенностью ИИ-агентов является их способность функционировать с минимальным или полным отсутствием вмешательства человека после развертывания [59]. После инициализации эти агенты способны воспринимать входные данные из окружающей среды, рассуждать над контекстными данными и выполнять предопределенные или адаптивные действия в реальном времени [17]. Автономия обеспечивает масштабируемое развертывание в приложениях, где постоянный надзор нецелесообразен, например, в чат-ботах службы поддержки клиентов или помощниках по планированию [47], [63].
  • Специфичность задач: ИИ-агенты специально созданы для узких, четко определенных задач [60], [61]. Они оптимизированы для выполнения повторяющихся операций в фиксированной области, такой как фильтрация электронной почты [64], [65], запрос к базе данных [66] или координация календаря [39], [67]. Эта специализация задач обеспечивает эффективность, интерпретируемость и высокую точность в задачах автоматизации, где общее рассуждение является ненужным или неэффективным.
  • Реактивность и адаптация: ИИ-агенты часто включают базовые механизмы для взаимодействия с динамическими входными данными, позволяющие им реагировать на стимулы в реальном времени, такие как запросы пользователей, внешние вызовы API или изменения состояния в программной среде [17], [62]. Некоторые системы интегрируют элементарное обучение [68] через циклы обратной связи [69], [70], эвристики [71] или обновленные контекстные буферы для уточнения поведения с течением времени, особенно в таких условиях, как персонализированные рекомендации или управление потоком разговора [72]-[74].

Эти основные характеристики в совокупности позволяют ИИ-агентам служить модульными, легковесными интерфейсами между предварительно обученными моделями ИИ и предметно-ориентированными утилитами. Их архитектурная простота и операционная эффективность позиционируют их как ключевые факторы масштабируемой автоматизации в корпоративных, потребительских и промышленных условиях. Хотя их возможности рассуждения все еще ограничены по сравнению с более общими системами ИИ [75], их высокая применимость и производительность в рамках ограниченных задач сделали их фундаментальными компонентами в современном дизайне интеллектуальных систем.

2) Фундаментальные модели: Роль БЯМ и БМИ

Фундаментальный прогресс в ИИ-агентах значительно ускорен благодаря разработке и развертыванию БЯМ и БМИ, которые служат основными механизмами рассуждения и восприятия в современных агентных системах. Эти модели позволяют ИИ-агентам интеллектуально взаимодействовать со своей средой, понимать мультимодальные входные данные и выполнять сложные задачи рассуждения, выходящие за рамки жестко запрограммированной автоматизации.

БЯМ, такие как GPT-4 [76] и PaLM [77], обучаются на огромных массивах текстовых данных из книг, веб-контента и диалоговых корпусов. Эти модели демонстрируют возникающие возможности в понимании естественного языка, ответах на вопросы, суммаризации, связности диалога и даже символическом рассуждении [78], [79]. В архитектурах ИИ-агентов БЯМ служат основным механизмом принятия решений, позволяя агенту анализировать запросы пользователей, планировать многоэтапные решения и генерировать естественные ответы. Например, ИИ-агент поддержки клиентов, работающий на GPT-4, может интерпретировать жалобы клиентов, запрашивать данные из внутренних систем с помощью интеграции инструментов и отвечать контекстно и эмоционально соответствующим образом [80], [81].

Большие модели изображений (БМИ), такие как CLIP [82] и BLIP-2 [83], расширяют возможности агентов в визуальной области. Обученные на парах изображение-текст, БМИ обеспечивают выполнение задач на основе восприятия, включая классификацию изображений, обнаружение объектов и визуально-языковое обоснование. Эти возможности становятся все более важными для агентов, работающих в таких областях, как робототехника [84], автономные транспортные средства [85], [86] и модерация визуального контента [87], [88].

Картинка в статье
Figure 5

Дрон с ИИ-агентом автономно осматривает фруктовый сад, выявляя больные плоды и поврежденные ветки с помощью моделей зрения и запуская оповещения в реальном времени для целевых садоводческих мероприятий.

Например, как показано на
Figure 5
, в автономном агенте-дроне, задачей которого является инспекция садов, БМИ может идентифицировать больные плоды [89] или поврежденные ветки, интерпретируя живые аэрофотоснимки и запуская предопределенные протоколы вмешательства. При обнаружении система автономно запускает предопределенные протоколы вмешательства, такие как уведомление садоводческого персонала или отметка местоположения для целевого лечения без необходимости вмешательства человека [17], [59]. Этот рабочий процесс демонстрирует автономию и реактивность ИИ-агентов в сельскохозяйственной среде, а недавняя литература подчеркивает растущую сложность таких дроновых ИИ-агентов. Chitra et al. [90] предоставляют всесторонний обзор алгоритмов ИИ, лежащих в основе воплощенных агентов, подчеркивая интеграцию компьютерного зрения, SLAM, обучения с подкреплением и слияния датчиков. Эти компоненты коллективно поддерживают восприятие в реальном времени и адаптивную навигацию в динамичных средах. Kourav et al. [91] далее подчеркивают роль обработки естественного языка и больших языковых моделей в генерации планов действий дронов на основе запросов, выданных человеком, демонстрируя, как БЯМ поддерживают естественное взаимодействие и планирование миссий. Аналогично, Natarajan et al. [92] исследуют глубокое обучение и обучение с подкреплением для понимания сцен, пространственного отображения и координации нескольких агентов в воздушной робототехнике. Эти исследования сходятся на критической важности автономии, восприятия и принятия решений на основе ИИ в продвижении агентов на основе дронов.

Важно отметить, что доступ к БЯМ и БМИ часто осуществляется через API-интерфейсы вывода, предоставляемые облачными платформами, такими как OpenAI https://openai.com/, HuggingFace https://huggingface.co/ и Google Gemini https://gemini.google.com/app. Эти сервисы абстрагируются от сложности обучения и тонкой настройки моделей, что позволяет разработчикам быстро создавать и развертывать агентов, оснащенных современными возможностями рассуждения и восприятия. Эта компонуемость ускоряет прототипирование и позволяет фреймворкам агентов, таким как LangChain [93] и AutoGen [94], оркестрировать выводы БЯМ и БМИ в рамках рабочих процессов. Короче говоря, фундаментальные модели дают современным ИИ-агентам базовое понимание языка и визуальных образов. Языковые модели помогают им рассуждать со словами, а модели изображений помогают им понимать картинки — работая вместе, они позволяют ИИ принимать умные решения в сложных ситуациях.

3) Генеративный ИИ как предшественник

В литературе последовательно позиционируется генеративный ИИ как фундаментальный предшественник агентного интеллекта. Эти системы в основном работают на предварительно обученных БЯМ и БМИ, которые оптимизированы для синтеза нового текстового, изобразительного, аудио или программного кода на основе входных запросов. Хотя генеративные модели обладают высокой выразительностью, они фундаментально демонстрируют реактивное поведение: они производят вывод только при явном запросе и не преследуют цели автономно или не участвуют в самоинициированном рассуждении [95], [96].

Основные характеристики генеративного ИИ:

  • Реактивность: Как неавтономные системы, генеративные модели исключительно управляются входными данными [97], [98]. Их операции запускаются пользовательскими запросами, и им не хватает внутренних состояний, постоянной памяти или механизмов следования целям [99]–[101].
  • Мультимодальные возможности: Современные генеративные системы могут производить разнообразные выходные данные, включая связные повествования, исполняемый код, реалистичные изображения и даже речевые транскрипции. Например, модели, такие как GPT-4 [76], PaLM-E [102] и BLIP-2 [83], демонстрируют эту способность, позволяя выполнять задачи преобразования «язык-изображение», «изображение-текст» и кросс-модального синтеза.
  • Зависимость от запросов и безликость: Хотя генеративные системы безлики в том смысле, что они не сохраняют контекст между взаимодействиями, если это не указано явно [103], [104], недавние достижения, такие как GPT-4.1, поддерживают более крупные контекстные окна — до 1 миллиона токенов — и лучше используют этот контекст благодаря улучшенному пониманию длинных текстов [105]. Их дизайн также не имеет встроенных циклов обратной связи [106], управления состоянием [107], [108] или многоэтапного планирования, что является требованием для автономного принятия решений и итеративного уточнения целей [109], [110].


Картинка в статье
Figure 6

Несмотря на свою выдающуюся генеративную точность, эти системы ограничены в своей способности действовать в среде или манипулировать цифровыми инструментами независимо. Например, они не могут искать в интернете, анализировать данные в реальном времени или взаимодействовать с API без созданных человеком оберток или промежуточных слоев. Таким образом, они не могут быть классифицированы как истинные ИИ-агенты, чьи архитектуры интегрируют восприятие, принятие решений и использование внешних инструментов в замкнутых циклах обратной связи.

Ограничения генеративного ИИ в обработке динамических задач, поддержании непрерывности состояния или выполнении многоэтапных планов привели к разработке систем, дополненных инструментами, обычно называемых ИИ-агентами [111]. Эти системы строятся на языковой обработке БЯМ, но вводят дополнительную инфраструктуру, такую как буферы памяти, API для вызова инструментов, цепочки рассуждений и процедуры планирования, чтобы преодолеть разрыв между пассивной генерацией ответов и активным выполнением задач. Эта архитектурная эволюция знаменует собой критический сдвиг в дизайне ИИ-систем: от создания контента до автономной полезности [112], [113]. Траектория от генеративных систем к ИИ-агентам подчеркивает прогрессивное наслаивание функциональности, что в конечном итоге поддерживает появление агентного поведения.

Предыдущая глава    Следующая глава