Глава 1: Введение в разговорный ИИ
Чат-бот — это пользовательский интерфейс, предназначенный для имитации разговора с пользователями-людьми в Интернете. Слово является комбинацией слова chat (разговор) и robot (робот).
Разговорные пользовательские интерфейсы, такие как чат-боты или голосовые разговорные ИИ (например, Siri, Google Assistant или Alexa, а также роботы в телефонных разговорах), сегодня в тренде. Десять лет назад все хотели создавать мобильные приложения; сейчас настало время, когда все создали или работают над разговорными пользовательскими интерфейсами.
Что такого уникального в чат-ботах и почему они так популярны сейчас? Первые чат-боты на самом деле появились уже с запуском персональных компьютеров. Давайте погрузимся в историю и вернемся в 1950 год.
История текстовых чат-ботов
Алан Тьюринг, британский ученый-компьютерщик, разработал тест Тьюринга, чтобы определить, могут ли машины мыслить. Тест Тьюринга — это разговорный тест (или имитационная игра) для измерения уровня интеллекта машины в диалогах. Тест предполагает соревнование машины с человеком в качестве собеседника. Судьи-люди взаимодействовали бы с обоими с помощью компьютерной клавиатуры и экрана. Если 30% судей не могли надежно отличить машину от человека, машина считалась прошедшей тест.
Одним из первых чат-ботов, способных попытаться пройти тест Тьюринга, был чат-бот ELIZA. Компьютерная программа обработки естественного языка (NLP) была создана с 1964 по 1966 год Джозефом Вейценбаумом в Массачусетском технологическом институте (MIT). Под капотом сама ELIZA проверяла текст на наличие ключевых слов, присваивала значения указанным ключевым словам и преобразовывала ввод в вывод. ELIZA содержала скрипт под названием DOCTOR, который представлял собой пародию на ответы психотерапевта в роджерсианском психиатрическом интервью, в основном перефразируя то, что сказал пользователь.
Чат-бот PARRY был написан в 1972 году психиатром Кеннетом Колби в Стэнфордском университете. В то время как ELIZA была симуляцией роджерсианского терапевта, PARRY пытался симулировать человека с параноидальной шизофренией. Его описывают как ELIZA с характером. Программа реализовывала грубую модель поведения человека с шизофренией, основанную на концепциях, восприятиях и убеждениях. Она также демонстрировала разговорную стратегию и поэтому была более продвинутой, чем ELIZA.
ELIZA и PARRY полагаются на простые трюки, чтобы казаться людьми. Чат-бот ALICE (что означает Artificial Linguistic Internet Computer Entity — Искусственная Лингвистическая Интернет Компьютерная Сущность) был написан в конце 1990-х годов Ричардом Уоллесом. ELIZA вдохновила ALICE, но она отличается использованием жестко закодированной базы данных, включающей разговорные высказывания. Например, она проверяла фразу и ее ключевые слова на соответствие этой базе данных, когда вы печатали ALICE.
Вместо использования статической базы данных, другой чат-бот под названием Jabberwacky, созданный в 1997 году британским программистом Ролло Карпентером, отслеживает все, что люди ему говорили, и пытается повторно использовать эти утверждения, сопоставляя их с вводом пользователя. Ни один из этих чат-ботов не имеет долговременной памяти, поэтому они отвечают только на последнее написанное предложение.
Хотя чат-боты разрабатывались с момента появления компьютеров, они не стали такими популярными, как в последнее время. Все это связано с машинным обучением и пониманием естественного языка.
Со старыми чат-ботами вам приходилось тщательно формулировать свои предложения. Любая грамматическая или орфографическая ошибка, или если бы вы просто сказали что-то по-другому, приводила бы к тому, что чат-бот не знал, что ответить. Дело в том, что есть много разных способов сказать что-то. Чат-бот, запрограммированный с помощью условных операторов if-else, требует обслуживания и все еще подвержен ошибкам.
Чат-бот, построенный с использованием машинного обучения, точнее, чат-бот, который может понимать текст (понимание естественного языка), мог бы понять и извлечь конкретный ответ на ваш вопрос. Независимо от того, написали ли вы его неправильно или сказали что-то по-другому.
За последние несколько лет, благодаря серьезным усилиям таких компаний, как Google, Apple, Microsoft, Amazon, Facebook и IBM, и их инвестициям в ИИ, машинное обучение, голосовые беседы, облачные вычисления и инструменты для разработчиков, разговорные ИИ пришли, чтобы остаться!
Сегодня чат-боты — это виртуальные помощники, такие как Google Assistant, и они доступны через приложения многих организаций, веб-сайты и платформы обмена мгновенными сообщениями.
Скорее всего, вы носите своего виртуального помощника с собой, так как они реализованы в устройствах Android (Google Assistant) и iPhone/iPad (Siri). Или у вас дома установлена голосовая колонка, такая как Google Home, Google Nest Mini, Google Nest Hub или Amazon Echo (Alexa). Умные разговорные интерфейсы, такие как Google Assistant, Siri или Alexa, также работают на основе машинного обучения.
Чат-боты популярны не только на потребительском рынке. В деловом мире они также востребованы. Так называемые корпоративные помощники — это чат-боты компании, смоделированные по образцу представителей службы поддержки клиентов или бизнес-процессов. Их можно развертывать внутри компании на таких каналах, как веб-приложения, Slack или Skype. Они могут помочь, например, ИТ-отделам или службам поддержки регистрировать заявки, искать информацию в различных базах данных FAQ, заменять службу поддержки клиентов, заказывать продукты или обмениваться знаниями между сотрудниками. Кроме того, чат-боты в контакт-центрах (будь то через веб-чат или голосовой чат по телефону) могут сократить огромные бизнес-издержки. Роботы могут отвечать на телефонные звонки, отвечать на самые распространенные вопросы и сокращать время звонка и ожидания.
Чат-боты могут быть развернуты для общественности на таких каналах, как Facebook, WhatsApp, веб-сайты, приложения или SMS. Существуют чат-боты для взаимодействия с брендом и чат-боты для обслуживания клиентов, которые могут предлагать советы или отвечать на самые часто задаваемые вопросы, такие как виртуальный помощник KLM Royal Dutch Airlines. Он содержит ответы на часто задаваемые вопросы. Особенно во время пандемии коронавируса поступало много вопросов, связанных с COVID-19. Виртуальный помощник KLM Royal Dutch Airlines — это общедоступный текстовый чат-бот, доступный через WhatsApp.
Существуют боты для отделов продаж, которые могут помочь, отвечая на самые часто задаваемые вопросы или выполняя повторяющуюся работу/звонки; поэтому решение с ботом очень масштабируемо. Это имеет большой смысл для конкретных отраслей. Например, для компании медицинского страхования последние месяцы года будут напряженными, так как это месяц, когда люди могут сменить своего поставщика медицинских услуг. Для розничного продавца или туристического агентства праздничные месяцы будут напряженными.
Примером чат-бота для обслуживания клиентов является чат-бот Marie от банка ING, который может помочь вам через Facebook Messenger, если у вас возникли проблемы с банковской картой (разговорный банкинг). Этот чат-бот начинался как эксперимент для ING, чтобы проверить, насколько далеко они могут продвинуть технологию. Прямо сейчас чат-боты есть во всех их внутренних системах (веб-чат, приложения и звонки).
Почему некоторые чат-боты терпят неудачу?
Звучит все как щенки и мороженое? Из-за долгой истории чат-ботов клиенты часто не имеют высокого мнения о них. Существует много чат-ботов, которые терпят неудачу.
Существует десять основных причин, по которым чат-боты не обеспечивают восхитительный пользовательский опыт:
- Большинство чат-ботов построены на логике дерева решений, по-старинке. Боты с возможностями лингвистической и обработки естественного языка/машинного обучения не очень распространены.
- Кроме того, из-за этого старого способа создания ботов они обычно не могут удерживать контекстную информацию дольше нескольких сообщений чата и в конечном итоге теряют нить того, что пользователь говорил до того, как задал последний вопрос.
- Помимо запоминания контекстов в рамках одной сессии, часто чат-боты не были созданы для сохранения памяти о нескольких сессиях. Например, вы заходите в чат-бот на следующий день. Ваша предыдущая сессия пропала.
- Для некоторых ботов неясно, какие задачи он может выполнять. Боты должны пояснять, что вы разговариваете с виртуальным агентом, а не с человеком. И в идеале, они должны заранее объяснить, на какие типы вопросов они могут ответить; вы можете направить разговор.
- Существует много ботов, которые решают несвязанные задачи. Это происходит, когда создатели чат-ботов игнорируют аналитику и не изучают информацию из других каналов о наиболее часто задаваемых вопросах.
- Существуют чат-боты, которые не являются персональными.
- Создание чат-бота в изоляции (который не подключается к другим системам) может быть весьма вредным как для бизнеса, так и для клиентов. Ваши клиенты будут воспринимать вас как "одну компанию"; они не поймут, что чат-бот не может получить доступ к вашей фоновой информации, хотя компания должна ее иметь.
- Бот, как и человек-консультант, со временем совершенствуется, обучаясь на обратной связи и получая правильное обучение. Эти условия часто забываются создателями, и поэтому бот со временем может стать менее актуальным.
- Боты, которые делают одно дело очень хорошо, более полезны, чем боты, которые делают много вещей плохо.
- Очень немногие чат-боты имеют встроенный рабочий процесс эскалации, чтобы позволить человеку взять на себя разговор, когда бот не может помочь. Как только происходит передача, пользователь не должен повторять обсуждение, которое у него было с чат-ботом. Вместо этого сотруднику должна быть представлена транскрипция.
Если я могу добавить еще одну причину к этому списку, я бы сказал, что плохой дизайн пользовательского опыта (UX) для каждого канала чат-бота может быть болезненным для пользователя. Ваш виртуальный агент должен быть доступен на тех каналах, где находятся ваши клиенты. Если это веб-сайт, вы можете показывать таблицы, ссылки и видео. Тем не менее, когда разговор происходит только голосом, например, в контакт-центре, вы, очевидно, не можете скопировать текст вашего веб-сайта с гиперссылками, таблицами и изображениями в вывод голосового помощника.
Машинное обучение простыми словами
Подумайте об этом. Как вы выучили свой первый язык? Держу пари, ваши родители или учителя не вручили вам словарь и не сказали читать эту книгу от А до Я. К тому времени, как вы доберетесь до последней страницы, вы станете мастером, скажем, английского языка. Нет! Мы учились на примерах.
Это машина, она едет по шоссе; у нее четыре колеса и руль. А вон там — велосипед. У него два колеса, и вы крутите педали. К тому времени, как вы увидели много машин и много велосипедов, вы бы отличили одно от другого. А если вы ошиблись, например, подумали, что увидели машину, а на самом деле это был грузовик, вам сказали, что вы ошиблись, и что грузовик еще больше машины, или у грузовика больше колес.
Для компьютеров это работает довольно похоже. Ученые по данным программируют модель, а затем мы передаем ей огромное количество данных, пока в какой-то момент компьютер не начнет распознавать закономерности. Например, вы загрузите много фотографий машин и велосипедов, где каждая фотография помечена. Когда компьютер ошибается, мы учим его, какой должна быть метка, или нам может потребоваться загрузить больше данных. Точно так же, как люди становятся умнее с возрастом, с машинным обучением компьютер становится умнее со временем, видя больше релевантных данных.
Машинное обучение — это термин, который подпадает под Искусственный интеллект (ИИ). ИИ — это процесс создания более умных компьютеров. Это концепция, которая существует с самого начала компьютеров. Программисты создают условные операторы if и else в коде, чтобы указать компьютеру, что происходит при определенных критериях, или иначе он должен вернуться к резервному варианту. Как разработчик, я знаю, как сложно программировать. Мы, разработчики, всегда пишем баги. Да, вы тоже. Всегда появляются новые требования, которые ломают ваши условия. Вам все еще нужен разработчик для поддержки кода.
Машинное обучение — это процесс заставить компьютер учиться самостоятельно. Поскольку с машинным обучением компьютер становится умнее, видя больше примеров. На самом деле это более эффективный способ сделать машины умнее, чем программировать умную машину.
Компьютерные программы, использующие машинное обучение, могут быть лучше людей в прогнозировании, но они хороши ровно настолько, насколько хороши данные, которые им были предоставлены. Это потому, что компьютеры могут запоминать и обрабатывать огромные объемы данных за короткое время. Вот почему машинное обучение используется во всех отраслях — в здравоохранении для прогнозирования рака, в розничной торговле для прогнозирования рекомендаций, в финансах для выявления мошенничества и в каждой компании, которая использует чат-ботов с пониманием естественного языка (NLU).
Обработка естественного языка
Как и машинное обучение, обработка естественного языка (NLP) является подразделом ИИ. Она занимается взаимосвязью между естественным языком, тем, что мы, люди, говорим, и ИИ. Это ветвь ИИ, которая позволяет компьютерам понимать, интерпретировать и манипулировать человеческим языком. NLP может осмысливать неструктурированные данные, такие как разговорный язык, вместо структурированных данных, таких как строки таблицы SQL и так далее. NLP фокусируется на том, как мы можем программировать компьютеры для обработки больших объемов данных на естественном языке, таких как разговор в чат-боте, таким образом, чтобы это стало эффективным и продуктивным за счет автоматизации. Алгоритмы NLP обычно основаны на алгоритмах машинного обучения. Вместо ручного кодирования больших наборов правил NLP может полагаться на машинное обучение для автоматического обучения путем анализа набора примеров.
NLP часто относится к инструментам, таким как распознавание речи для понимания устной речи или аудиофайлов, и Понимание естественного языка (NLU) для распознавания больших объемов письменного текста, например, для получения анализа сущностей или тональности — в случае чат-ботов, для классификации и сопоставления намерений. Еще одним подразделом NLP является Генерация естественного языка (NLG). NLG — это программный процесс преобразования структурированных данных в естественные языки, например, генерация отчетов или разговоров чат-бота.
Чат-боты и искусственный интеллект
Чат-бот или умный помощник современного мира — это все об ИИ.
Давайте посмотрим на Google Nest Mini, умную колонку от Google, которая на самом деле не более чем динамик с микрофоном, подключенный к Интернету для доступа к Google Assistant, ИИ от Google.
Вы говорите с ним. Каким-то образом Google Assistant может слушать ваш устный текст и преобразовывать его в письменный текст. Это модель машинного обучения под названием Speech-to-Text (STT). Google Assistant может понять, что было сказано. То есть он понимает письменный текст. Это модель машинного обучения под названием Natural Language Understanding (Понимание естественного языка). Google Assistant сопоставляет ваш текст с определенным скриптовым потоком, который мы называем Сопоставлением намерений или Классификацией намерений. На основе обучающих примеров мы можем сопоставить реальное намерение пользователя. Наконец, когда он находит ответ, он произносит его вам через синтезатор текста. Это модель машинного обучения Text-to-Speech (TTS), синтезатор, который использует модели WaveNet с голосами, звучащими по-человечески.
Машинное обучение и Google
Google вложил значительные средства в Искусственный интеллект (ИИ) и Машинное обучение. Google — это компания данных, и ее миссия — организовывать мировую информацию и делать ее общедоступной.
Google использует алгоритмы машинного обучения во всех своих продуктах. Подумайте о фильтре спама в Gmail (классификация спама против не-спама), рекомендациях видео на YouTube, Google Translate для перевода текста на другие языки, релевантности результатов поиска Google, Google Assistant и так далее. Это так часто используется. Мы принимаем это как должное. Это также означает, что каждый инженер Google проходит обучение по машинному обучению.
Google использует машинное обучение на абсолютно огромных данных, и это требует надежной инфраструктуры. Например, это поиск дорог на спутниковых снимках, прогнозирование кликабельности для аукциона рекламы и так далее. Да, вы могли бы обучить модель машинного обучения на своем ноутбуке. Тогда обработка огромных объемов данных потребовала бы, чтобы ваш компьютер работал неделями или месяцами. Это требует много места для хранения данных и много вычислительной мощности. Вот почему у Google много центров обработки данных по всему миру, больших зданий, полных стоек с компьютерами, которые могут обрабатывать данные параллельно. Вам не нужно ждать недели или месяцы; чем больше машин вы добавляете, тем быстрее время обучения. С облачными технологиями это можно сделать за минуты.
Google также известен фреймворком TensorFlow. Это известный фреймворк машинного обучения (Python) для создания моделей МО, используемый многими учеными по данным и инженерами данных. Это один из самых популярных проектов с открытым исходным кодом на GitHub. Он создан Джеффом Дином, который работает в Google. И хотя фреймворк является открытым исходным кодом, и разработчики и компании по всему миру вносят свой вклад, у Google есть большая преданная команда, работающая над улучшением кодовой базы.
О Google Cloud
Google Cloud (ранее известный как Google Cloud Platform/GCP) — это публичный облачный провайдер Google для вычислительных ресурсов для развертывания, создания и эксплуатации приложений — для предоставления хранилища, вычислений и сервисов из центров обработки данных по всему миру на быстрой и безопасной инфраструктуре Google. Это Google, но это не значит, что ваши данные принадлежат Google. Google Cloud — это коммерческое предложение Google для предприятий с оплатой по мере использования. Как написано в подписанных условиях и положениях Google Cloud, вы являетесь владельцем данных. Google может обрабатывать ваши данные, но не может и не будет использовать их для себя.
Когда вы создаете чат-бота, обычно это не означает, что вы используете только инструмент разговорного ИИ Dialogflow. Как и при создании веб-сайта, вам, скорее всего, понадобятся дополнительные ресурсы. Подумайте о месте для размещения вашего чат-бота, хранении ваших данных в хранилище данных или базе данных, и вы, возможно, захотите использовать дополнительные модели машинного обучения для обнаружения содержимого PDF или тональности текста.
На момент написания статьи Google Cloud насчитывает более 200 продуктов. Существуют продукты для вычислений, хранения данных, сетей, анализа данных и машинного обучения для разработчиков, например, API машинного обучения для распознавания изображений (Vision AI), видео (Video AI), текстов (Natural Language API), языков (Translate API) и аудио (Speech-to-Text/Text-to-Speech API). Наконец, существуют инструменты машинного обучения для ученых по данным для обучения ваших моделей, а также инструменты идентификации и безопасности. Это как Lego. Складывая все эти ресурсы друг на друга, вы создадите продукт.
Открытый исходный код
Google верит в прозрачность, создавая программное обеспечение и развивая сообщества разработчиков. Google имеет более 280 тыс. коммитов на платформе разработки с открытым исходным кодом GitHub, с вкладом в проекты более 15 тыс. с 2016 года. К ним относятся популярные проекты Google с открытым исходным кодом, такие как Android, Chromium, V8 JavaScript Engine, WebKit, Angular, TensorFlow, Kubernetes, Istio и язык Go. Я уверен, вы, вероятно, узнали несколько. Помимо этих продуктов, рожденных в Google, Google также вносит свой вклад в другие популярные проекты и стандарты с открытым исходным кодом. Подумайте о HTML5, ядре Linux, языке Python, MySQL, GCC (GNU Compiler Collection), Spinnaker и так далее. Google написал много отраслевых исследовательских работ, которые вдохновляют сообщества и другие крупные программные продукты, например, MapReduce, который позже использовался для создания Hadoop.
Многие из этих замечательных продуктов Google с открытым исходным кодом зародились в Google в конце 1990-х / начале 2000-х годов. В то время как многие частные лица или компании думали о создании простой веб-страницы, Google уже приходилось поддерживать самый большой и загруженный веб-сайт в мире (поисковую систему Google), который также должен был быть масштабируемым. Продукты, которые инженеры Google создали для решения проблем высокой ремонтопригодности/масштабируемости, позже стали основой для программного обеспечения с открытым исходным кодом. Например, внутренняя система оркестрации контейнеров Borg стала Kubernetes в мире открытого исходного кода.
И то, что работает в мире открытого исходного кода, Google вернул обратно в корпоративный мир, запустив эти продукты в Google Cloud.
О Dialogflow
Теперь давайте поговорим подробнее об ИИ для разговорных интерфейсов. В сентябре 2016 года Google приобрела компанию под названием API.ai. API.ai (ранее известная как компания Speaktoit) выпустила комплексный набор для разработки для создания разговорных интерфейсов для веб-сайтов, мобильных приложений, популярных платформ обмена сообщениями/социальных сетей, IoT, голосовых устройств и контакт-центров. В октябре 2017 года платформа получила новое имя: Dialogflow. Dialogflow использует подмножества искусственного интеллекта: Понимание естественного языка, распознавание речи и Распознавание именованных сущностей (NER, для извлечения значений из текста), чтобы распознавать намерение, сущности и контекст того, что говорит пользователь, позволяя вашему разговорному интерфейсу предоставлять высокоэффективные и точные ответы.
Компании всех размеров используют Dialogflow. Примеры использования:
- Внутренние чат-боты для взаимодействия бизнеса с сотрудниками
- Общедоступные чат-боты для связи бизнеса с клиентами, такие как служба поддержки клиентов или отделы продаж
- Чат-боты, управляющие устройствами IoT (домашние развлечения, автомобили, киоски самообслуживания и т. д.)
- Роботы в контакт-центрах для входящих и исходящих звонков
Среди клиентов Dialogflow — Giorgio Armani, Mercedes, Comcast, The Wall Street Journal, KLM Royal Dutch Airlines, EasyJet, ING Bank, Marks & Spencer, Ahold и так далее.
На момент написания (июнь 2021 года) у Dialogflow более 1,7 миллиона пользователей. Причина, по которой Dialogflow так популярен в сообществе чат-ботов, заключается в следующем:
- Dialogflow работает на основе передового машинного обучения. Google является признанным мировым лидером в области искусственного интеллекта, и Dialogflow извлекает выгоду из активов и возможностей Google в области МО, NLU и поиска. Помимо встроенных моделей машинного обучения, также возможно самостоятельно обучать своих агентов, чтобы сделать ваш разговорный интерфейс умнее со временем.
- С Dialogflow вы можете отделить ваш разговор от кода. Поскольку Dialogflow предоставляет облачный веб-интерфейс, вы можете отделить ваши диалоги и сущности от кода приложения/агента. Это делает ваш разговорный интерфейс более масштабируемым; вам не нужен разработчик для внесения или развертывания изменений.
- С Dialogflow вы можете создавать чат-ботов быстрее, чем кодировать их с помощью набора скриптов (Python). Помимо веб-интерфейса, вы также можете быстрее создавать разговорные интерфейсы, включив предварительно созданные агенты (шаблоны) и намерения Small Talk (чтобы придать вашему агенту больше индивидуальности), все одним щелчком мыши.
- Расширенные опции выполнения (fulfillment) и многоканальные интеграции. Dialogflow имеет более 32 интеграций каналов и SDK. Поэтому вы можете легко интегрировать своего агента с вашими локальными средами, а также с облачными средами для потребления данных из сервисов. С помощью встроенных многоканальных интеграций вы можете быстро развернуть своего агента на различных встроенных каналах (социальные сети, такие как Twitter, Facebook Messenger, Skype или Slack; голосовые помощники, такие как Google Assistant; телефонные или SMS-сервисы. Или вы можете развернуть его на своем веб-сайте или в приложениях, используя SDK через gRPC, REST или клиентские библиотеки для Java, Node.js, Python, Go, PHP, Ruby или C#).
- Поскольку Dialogflow доступен через Google Cloud, он имеет Условия предоставления услуг Google Cloud, SLA и пакеты поддержки. Быть частью Google Cloud означает отличную надежность, низкую задержку, простую интеграцию с более чем 200 сервисами Google Cloud, такими как сервисы и инструменты анализа данных (например, BigQuery, Dataprep или Pub/Sub); API машинного обучения (например, обнаружение тональности, перевод, транскрипция речи в текст, синтезатор текста в речь, предотвращение потери данных для маскирования конфиденциальных данных, Vision AI, например, распознавание текста на изображениях) или облачные среды, такие как Cloud Functions, Kubernetes, Compute VM, Cloud Run или App Engine. Сервисами Google Cloud можно управлять с помощью мощного управления доступом к идентификационным данным, отладки ошибок, ведения журналов и мониторинга.
- Мощная аналитика. Используйте анализ данных для мониторинга работоспособности бота, а также для лучшего понимания его взаимодействия с пользователями. Chatbase, сервис Google Cloud, который помогает разработчикам быстрее анализировать и оптимизировать ботов, дополняет Dialogflow. Использование их в сочетании помогает разработчикам создавать ботов мирового класса, а затем постоянно отслеживать и оптимизировать их с помощью Chatbase. Все пользователи Dialogflow получают автоматизированный набор базовой аналитики Chatbase непосредственно из своей консоли.
- Интеграция речи/голоса помимо текстовых интерфейсов. Dialogflow также имеет интегрированное распознавание речи и преобразование текста в речь — удобно для устройств IoT или готовой интеграции с партнерами по телефонии IVR.
- Поддержка многоязычных ботов. В Dialogflow поддерживается более 20 языков.
Dialogflow Essentials и Dialogflow CX
Оригинальный инструмент Dialogflow недавно претерпел изменение названия; теперь он называется Dialogflow Essentials (Dialogflow ES), чтобы освободить место для нового инструмента Google Cloud Conversational AI: Dialogflow Customer Experience (Dialogflow CX).
Dialogflow CX будет альтернативным набором для разработки для создания разговорных интерфейсов и будет существовать рядом с Dialogflow ES. Google продолжит поддерживать Dialogflow ES, так как у нас огромная база пользователей. Чтобы понять, почему Google создал еще один конструктор ботов, давайте сначала разберемся, как Dialogflow ES работает на высоком уровне.
Как работает Dialogflow Essentials
Намерение в Dialogflow ES категоризирует намерение пользователя. Для каждого агента Dialogflow ES вы можете определить много намерений, где ваши объединенные намерения могут обрабатывать полный разговор. Каждое намерение может содержать параметры и ответы.
Сопоставление намерения также известно как классификация намерений или сопоставление намерений. (В следующей главе мы подробно рассмотрим эти концепции.) Как только намерение сопоставлено, оно может вернуть ответ, собрать параметры (извлечение сущностей) или вызвать код веб-перехватчика (fulfillment), например, для извлечения данных из базы данных. Dialogflow ES может отслеживать контекст, и точно так же, как человек, во время смены реплик Dialogflow ES может запомнить контекст во второй и третьей реплике. Таким образом, он может отслеживать предыдущие высказывания пользователя. Это основная концепция в Dialogflow ES.
Как отрасль меняет свою сложность
Крупные предприятия используют Dialogflow ES в течение последних лет. Вот наблюдение, которое я вижу в Google. Вначале (2016) большинство разговорных ИИ были простыми чат-ботами (боты голосовых помощников, боты FAQ и т. д.), для веба или голосовых ботов, таких как Google Assistant. Обычно используется одна или две смены реплик. Например, «Привет, Google, что сейчас идет по ABC?» — «Холостяк начался в 8 вечера, эпизод, который вы никогда раньше не видели!»
Как мы все знаем, создание разговорных интерфейсов — это непрерывный процесс. Когда вы собираете правильные инсайты чат-бота, вы увидите, что запрашивают ваши клиенты. Когда вы продолжаете строить разговоры поверх существующего агента, этот бот со временем становится сложнее.
Таким образом, сложность разговора — это одно наблюдение. Другое восприятие, которое я сделал, заключается в том, что бизнесы хотят быть там, где находятся их клиенты. И поэтому их чат-ботам потребуется подключаться к большему количеству каналов для создания омниканального опыта. Вместо создания одного чат-бота компании теперь хотят разрабатывать полные разговорные платформы, питаемые озером данных и автоматизирующие процессы с помощью RPA. Подумайте о сложных сценариях использования, таких как замена вашей службы поддержки клиентов или отдела кадров роботами. Имея перегруженные колл-центры и сотрудников, выгоревших от недооцененных монотонных задач, автоматизация через чат-ботов и виртуальных (голосовых) агентов может сократить огромные бизнес-издержки. Через разговорный ИИ в контакт-центрах бизнесы могут сократить время звонка и время ожидания на линии и предложить доступность 24/7, улучшая наши процессы путем сбора аналитики.
Где подходит Dialogflow CX
Dialogflow Essentials хвалят за его простоту. Вы можете быстро создать чат-бота или голосового бота. Это приложения для чата и голоса, часто, где короткое высказывание соответствует одному намерению, с несколькими сменами реплик, например, розничный чат или голосовое приложение, где вы можете сказать: «Добавь молоко в мой список покупок».
Теперь представьте, что вы создаете голосового робота для телефонной службы поддержки продуктового магазина. На этот раз клиенты не говорят несколько предложений; вместо этого они говорят целыми историями: «Итак, вчера, прямо во время открытия, я купил молоко в магазине So-And-So вместе с моим 4-месячным ребенком, и когда я пришел домой и хотел положить молоко в холодильник, я заметил, что срок годности истек. Я открыл коробку и заметил странный запах, но вкус был нормальным». Внезапно становится намного сложнее сопоставить намерение. Для человека может стать сложным понять намерение; для ИИ это тоже сложно! Потому что мы говорим о покупке молока, плохих продуктах или запросе возврата денег?
Разговор в контакт-центре длится долго (вы завершите сеанс чата, как только повесите трубку); диалог большой и может иметь много смен реплик, где нам нужно помнить контекст — разветвляясь на сотни возможных исходов. И смотрите, я даже не упоминаю техническую сложность работы с несколькими говорящими, прерываниями, фоновыми шумами и так далее.
Создание виртуального (голосового) агента для контакт-центра или создание автоматизированной платформы ботов намного сложнее, где оно достигает границ Dialogflow Essentials. Конечно, когда у вас есть большая команда разработчиков, они могут создать индивидуальное решение поверх Dialogflow ES, как это делали предприятия в прошлом. Но это означает, что вам придется писать много вспомогательного кода, а не сосредотачиваться на разработке разговоров. Вот где Dialogflow CX приходит на помощь.
Объяснение Dialogflow CX
Dialogflow CX позволяет вашей команде ускорить создание корпоративных разговорных интерфейсов с помощью визуальных конструкторов ботов, многоразовых намерений и возможности обрабатывать многошаговые разговоры.
Он позволяет быстро создавать агентов с:
- Большими и сложными потоками. Подумайте о гигантских реализациях агентов с сотнями или тысячами намерений.
- Более чем тремя сменами реплик (сохранение контекста) и разговорами, которые разветвляются друг от друга на различные исходы.
- Повторяемыми частями диалога в потоке (подумайте о функции входа в систему, ответах да/нет на вопросы и т. д.).
- Пониманием намерения и контекста длинных высказываний.
- Работой с командами, сотрудничающими над большими реализациями.
- Нативными функциями контакт-центра, такими как DTMF, интеграция с партнерами по телефонии одним щелчком мыши, вмешательство (barge-in), передача живому агенту.
- Агентами, где важны дополнительные языки и регионализация (например, GDPR).
- Потоками с различными исходами и повторяемыми частями, например, подача налоговой декларации. Обычно это требует заполнения множества форм, где вопросы перескакивают друг на друга. Если бы вы создавали чат-бота для этого сценария использования, Dialogflow CX был бы отличным решением из-за многоразовых потоков, намерений и ветвления ответов.
Примечание: Dialogflow CX усовершенствовал свой NLU. Хотя Dialogflow ES популярен благодаря выдающимся результатам NLU, мы увидели заметное улучшение качества, основав наш NLU на языковой модели BERT. BERT означает Bidirectional Encoder Representations from Transformers (Двунаправленные представления кодировщика из трансформеров). Это техника машинного обучения на основе глубокого обучения Transformer для предварительного обучения обработке естественного языка, разработанная Google. Она позволяет системе автоматически обнаруживать представления, необходимые для обнаружения признаков или классификации из необработанных данных. BERT также используется в поиске Google для понимания пользовательских запросов.
Dialogflow вводит новые концепции, такие как Страницы и Потоки, для создания многоразовых потоков и ветвления, и вдобавок к этому он поставляется с визуальным конструктором потоков для быстрого предварительного просмотра и понимания потока диалогов. Хотя эта книга в основном посвящена материалам Dialogflow Essentials, в Приложении к книге Страницы и Потоки будут объяснены более подробно, если вы захотите начать работу с Dialogflow CX. Вместе с материалами, объясненными во всех главах этой книги, вы сможете использовать оба продукта.
Dialogflow Essentials против Dialogflow CX
Dialogflow CX — это отдельный продукт, который будет сосуществовать с Dialogflow Essentials. Если вы являетесь корпоративным клиентом, создающим большую и сложную платформу чат-ботов или клиентский опыт контакт-центра, когда регионализация данных для вас критична (из-за GDPR) или ваш разговор требует множества смен реплик и ветвлений диалога, Dialogflow CX может быть инструментом для вас. В качестве альтернативы, когда вы хотите выбрать более простой инструмент, для менее сложных визуальных агентов, или когда вы хотите создать сложные визуальные агенты и не возражаете запачкать руки, написав некоторый вспомогательный (бэкэнд) код, используйте Dialogflow Essentials.
О Contact Center AI
Contact Center AI (CCAI) — это решение Google Cloud для предоставления виртуальным агентам возможности взаимодействия с людьми (и голосами) в контакт-центрах. В то время как Dialogflow Essentials и Dialogflow CX являются продуктами Google Cloud, CCAI — это решение, созданное поставщиками телефонии совместно с инженерами Google Cloud. Поэтому выход CCAI на рынок осуществляется через партнеров по телефонии.
Эти партнеры включают Genesys, Avaya, Mitel, Cisco, Twilio и многих других. Они могут включить CCAI на существующем оборудовании контакт-центра.
Компании, успешно использующие CCAI, — это Verizon, GoDaddy и Marks & Spencer.
Примечание: Почему интересно, чтобы роботы отвечали на телефонные звонки?
В качестве примера рассмотрим компанию медицинского страхования. Большинство звонков, поступающих в контакт-центр, — это люди, которые спрашивают, покрываются ли определенные расходы. Например, «Входят ли расходы на стоматолога в мой пакет?» У компании медицинского страхования огромное количество входящих звонков, например, в Нидерландах, особенно в конце года, так как это единственный период времени, когда можно легально сменить поставщика медицинских услуг.
На линии поддержки так много людей, что многих ставят в очередь. Вместо того чтобы иметь дело с огромными очередями и временем ожидания, не было бы замечательно, если бы голосовой бот отвечал на телефон и отвечал на самые распространенные вопросы за вас? Это освобождает живых агентов, работающих в контакт-центре, для ответов на более сложные или личные вопросы.
Подобную ситуацию мы наблюдали в 2020 году. Google помог многим бизнесам, таким как индустрия путешествий и туризма, пострадавшим от COVID-19. Контакт-центры туроператоров и авиакомпаний не могли справиться с нагрузкой звонков, так как все поездки и рейсы были отменены. Людей ставили в очередь на часы, или их отключали и просили перезвонить позже. Включив CCAI в контакт-центрах, отвечая на самые распространенные вопросы, бизнесы смогли освободить свои линии, сэкономить расходы и лучше помочь своим клиентам.
Архитектура CCAI
Краеугольным камнем архитектуры CCAI, созданной поставщиками телефонии, является Dialogflow CX. Dialogflow обеспечивает автоматизированное взаимодействие с пользователем и содержит автоматическое распознавание речи (ASR) и преобразование текста в речь с человекоподобными телефонными моделями.
Это дает клиентам круглосуточный доступ к немедленному разговорному самообслуживанию.
Рисунок 1-1. Обзор архитектуры Contact Center AI от Google Cloud
Как видно на Рисунке 1-1, продукт Contact Center AI включает дополнительные компоненты Google Cloud: Agent Assist и Contact Center AI Insights.
Agent Assist расширяет возможности живых агентов, предоставляя непрерывную поддержку во время их звонков путем определения намерения и предоставления пошаговой помощи в режиме реального времени.
Теперь представьте, что у вас есть виртуальный агент, отвечающий на телефон; однако он не знает, что ответить клиенту (например, потому что он не был обучен обучающими фразами по этой теме). CCAI может подключить вас к живому агенту через передачу агенту, но в фоновом режиме все еще слушать, чтобы предоставлять предложения (или заполнять формы) на экране живому агенту, чтобы ускорить время звонка.
Contact Center AI Insights использует обработку естественного языка для определения причин звонков и тональности, что помогает менеджерам контакт-центров узнавать о взаимодействиях с клиентами для улучшения результатов звонков. Это позволяет командам управления контакт-центрами слышать, что говорят клиенты. На основе этого они могут принимать решения, основанные на данных, и повышать операционную эффективность.
Архитектура CCAI построена поверх существующего оборудования телефонии, предоставляемого партнерами по телефонии.
О технологии речи Google Cloud
Cloud Speech-to-Text API
API Speech-to-Text (STT) — это API автоматического распознавания речи (ASR) Google Cloud, который позволяет распознавать и переводить устную речь в текст через API (через вызовы REST или gRPC и клиентские библиотеки).
Google имеет более 20 лет опыта в области речевых технологий. Первый патент датируется 2003 годом, тогда Google запустил более 40 голосовых языков для поисковой системы Google, чтобы искать с помощью голоса.
В 2012 году Google начал использовать глубокие нейронные сети, что также стало началом речевых моделей, используемых для Google Assistant. Помимо Google Assistant и Поиска, Google использует распознавание речи в различных других продуктах Google: Dialogflow, функция субтитров в Google Meet, Android Speech, субтитры YouTube TV и Video AI, и это лишь некоторые из них.
API STT был запущен в 2017 году и является частью Google Cloud. С поддержкой более 73 языков в более чем 125 вариантах он может транскрибировать речь и автоматически определять язык. Он также добавляет пунктуацию и диаризацию говорящих (разделение разных говорящих), и на момент написания он может даже работать локально (on-premise). STT — один из самых популярных продуктов Google Cloud. Можно подумать, что Speech-to-Text чаще всего используется в сценариях голосовых ботов, но на самом деле клиенты используют STT для самых разных вещей, таких как генерация субтитров в видео или на живых встречах, мониторинг телефонных звонков, извлечение транскрипций из аудиофайлов или создание голосовых команд в приложениях.
ASR через Cloud Speech-to-Text API от Google Cloud является ключевым элементом решения Contact Center AI, где он будет принимать устную речь звонящего и преобразовывать ее в текст, чтобы он мог определить намерение с помощью Dialogflow или собрать аналитику для CCAI Insights.
Примечание: Cloud Speech-to-Text API является частью условий и положений Google Cloud. Это означает, что Google не может и не будет использовать ваши голосовые данные для обучения речевых моделей для использования кем-либо еще. Поэтому вам не нужно беспокоиться о том, что конкуренты, использующие тот же API STT, получат доступ к вашим бизнес-данным.
Браузеры, такие как Chrome, или операционные системы, такие как Android, могут иметь встроенные распознаватели речи; однако бизнесы предпочитают выбирать решение Cloud Speech-to-Text из-за корпоративных условий и положений или дополнительных функций STT, таких как запуск речевых моделей локально в вашем собственном центре обработки данных. Кроме того, он был обучен на разных наборах данных.
Cloud Text-to-Speech API
Text-to-Speech (TTS) от Google Cloud генерирует речь из текста. Это как синтезатор речи. На момент написания статьи доступно более 90 различных голосов на выбор.
TTS от Google Cloud позволяет разработчикам создавать естественно звучащую синтетическую человеческую речь в виде воспроизводимого аудио; это как голосовой синтезатор. Вы можете использовать аудиофайлы, созданные с помощью TTS, для питания ваших приложений или дополнения медиа, таких как видео или аудиозаписи.
TTS преобразует текст или ввод на языке разметки синтеза речи (SSML) в аудиоданные, такие как MP3 или LINEAR16 (кодировка, используемая в файлах WAV).
WaveNet
В прошлом у нас были стандартные модели машинного обучения для генерации голосов. Они звучали очень роботизированно. В основном из-за Google Assistant мы создали более продвинутые модели: модели WaveNet.
Он синтезирует речь с более человекоподобным ударением и интонацией на слогах, фонемах и словах. Когда голос виртуального агента звучит как робот, пользователи будут обращаться с виртуальным агентом как с роботом и, следовательно, задавать глупые вопросы в "компьютерном" стиле, например, "релизы видеоигр PS5" вместо "Какие последние видеоигры вышли на PlayStation 5 в этом месяце?".
С моделями TTS WaveNet Machine Learning Google может захватить голос человека за короткое время, а не заставлять актера неделями или месяцами сидеть в студии, и генерировать новые "голоса" из него, изучая звуковые волны.
Пользовательский голос
С помощью Google Cloud Text-to-Speech API и встроенного синтеза речи в Dialogflow доступно множество сгенерированных голосов на выбор. Однако в Google Cloud мы получили много запросов от корпоративных пользователей, которые хотят использовать свои собственные уникальные голоса в своих разговорах.
Например, использовать голос актера своего бренда в Google Assistant или контакт-центрах. Этот процесс обычно также дорогостоящий, потому что вам нужно было бы нанять актера и заставить его сидеть в студии неделями, чтобы записать каждую фразу.
С машинным обучением Google теперь может генерировать пользовательские голоса. Возможно записать свой собственный голос (или голос актера) в течение 30 минут, читая определенный голосовой скрипт. Он сгенерирует голос для вас.
Технология, которую Google использует под капотом, называется Tacotron 2. Она использует обучение последовательность-в-последовательность (Seq2Seq). Это позволяет преобразовывать обучающие модели из одной области в последовательности в другой области. (Например, через Seq2Seq Dialogflow имеет многоязычную поддержку стольких разных языков, потому что легко развертывать новые языки.)
Обратите внимание на Рисунок 1-2, Google использует модель последовательность-в-последовательность, оптимизированную для TTS, для отображения последовательности букв в серию признаков, кодирующих аудио. Эти признаки, 80-мерная аудиоспектрограмма с кадрами, вычисляемыми каждые 12,5 миллисекунд, захватывают произношение слов и различные тонкости человеческой речи, включая громкость, скорость и интонацию. Наконец, эти признаки преобразуются в форму волны 24 кГц с использованием архитектуры, подобной WaveNet.
Почти невозможно отличить голос оригинальных актеров озвучивания от сгенерированного голоса.
Рисунок 1-2. Детальный взгляд на архитектуру модели Tacotron 2. Нижняя половина изображения описывает модель последовательность-в-последовательность, которая отображает последовательность букв в спектрограмму.
Другие продукты Google Conversational AI
Google делает большие ставки на технологию разговорного ИИ. Чат-боты и разговорный ИИ являются главным приоритетом как для Google, так и для Google Cloud.
В то время как предыдущий раздел объяснял продукты разговорного ИИ в Google Cloud, вот другие продукты, исследования и инструменты разговорного ИИ в Google, о которых вы могли слышать.
Google Assistant
Google Assistant — это ИИ от Google, точно так же, как Siri — это ИИ от Apple, а Alexa — ИИ от Amazon.
Google Assistant первоначально дебютировал в мае 2016 года как часть приложения для обмена сообщениями Google Allo и его голосовой колонки Google Home. После периода эксклюзивности на смартфонах Google Pixel он начал развертываться на других устройствах Android в феврале 2017 года, включая сторонние смартфоны и Wear OS (ранее известный как Android Wear), и был выпущен как отдельное приложение в операционной системе iOS в мае 2017 года.
По состоянию на лето 2020 года Google Assistant доступен на более чем 1 миллиарде устройств и доступен в более чем 80 странах; теперь он помогает более чем 500 миллионам человек каждый месяц выполнять задачи на умных колонках и умных дисплеях, телефонах, телевизорах, автомобилях и многом другом.
Когда вы раньше использовали Google Assistant, вы знаете, что можете спросить Google Assistant что угодно. Это может быть вопрос, например, «Привет, Google, кто король Нидерландов?» (Он скажет вам, что это Виллем-Александр.) Уточняющие вопросы. «Кто его жена?» (Он знает контекст Виллема-Александра; его жена — Максима.) Вы можете интегрировать его с IoT, домашней автоматизацией, если у вас есть устройства, поддерживаемые Assistant, такие как умные лампочки, термостаты, Android TV и так далее («Привет, Google, включи телевизор», «Увеличь температуру», «Воспроизведи Песню 2 на Spotify» и т. д.). Вы также можете задавать вопросы, специфичные для вашего бренда, скажем, покупка продукта в определенном магазине (например, «Купи Tony Hawk Pro Skater 2»); тогда вы будете использовать экосистему приложений Google Assistant. В предыдущем примере покупка видеоигры не является нативной задачей Google Assistant, так как это зависит от магазина, местоположения и наличия товара. Это могло бы работать только из контекста стороннего «приложения» (в экосистеме Google Assistant они называются Действиями).
Это означает, что вам придется развернуть ваши действия в Google Assistant — аналогично тому, как работают Android, iOS, Windows или MacOS с открытием приложений. Но вместо того, чтобы нажимать/кликать на значок приложения, вы можете вызвать ваши действия, попросив Google Assistant открыть или поговорить с вашим брендом: «Привет, Google, поговори с магазином видеоигр Ли Бунстры». В этот момент вы услышите изменение голоса. Он переключается с нативного опыта Google Assistant на голос и диалоги вашего приложения.
Actions on Google
В декабре 2016 года Google запустил Actions on Google, платформу для разработчиков для Google Assistant. Actions on Google позволяет сторонним разработчикам создавать действия (приложения) для Google Assistant, которые предоставляют расширенную функциональность поверх нативного Google Assistant. В каталоге Actions более миллиона Действий, что похоже на магазин приложений для Actions on Google, за исключением того, что вы не загружаете Действия. Вы просто вызываете их, говоря с ними. Вы можете сделать это, используя слово пробуждения, например, «Привет, Google, поговори с моим <имя_приложения>».
Совет: Забавный факт, 90% Действий созданы с помощью Dialogflow из-за прямой интеграции Google. С Dialogflow очень легко перенести ваш разговор в Google Assistant; это просто переключение переключателя. См. Главу 7 этой книги.
Actions Builder
Платформа Actions on Google поставляется с SDK, визуальными компонентами, обширной документацией и дополнительным инструментом для создания Действий: Actions Builder.
С помощью Dialogflow и Actions Builder вы можете создавать разговоры для Google Assistant. Основная причина выбора Dialogflow Essentials перед Actions Builder заключается в том, что Dialogflow ES является частью Google Cloud и поставляется с корпоративными условиями и положениями, SLA и поддержкой. Когда вы хотите создать многоканальных виртуальных агентов (ботов, которые поддерживают Google Assistant и/или чат-ботов в социальных сетях), тогда Dialogflow Essentials — это инструмент, который вы хотите выбрать. Dialogflow ES имеет прямую интеграцию с фреймворком Actions on Google. Dialogflow — это зрелый инструмент, широко используемый сообществом.
Actions Builder лучше всего подходит для простых сценариев использования, которые позволяют пользователям быстро выполнять задачи. Он имеет потребительские условия и положения.
AdLingo
AdLingo является частью Area 120 от Google (инкубаторная программа) и позволяет брендам привлекать клиентов, превращая рекламу в персонализированные разговоры на основе ИИ в масштабе. Как? Реклама AdLingo позволяет брендам встраивать своего виртуального агента в медийную рекламу, чтобы охватить потенциальных клиентов в масштабе и там, где они ищут информацию. Другими словами, с помощью AdLingo вы можете превратить своего агента Dialogflow в рекламу. Вместо того чтобы заставлять ваших клиентов посещать ваш веб-сайт, вы можете иметь гораздо больший охват, отображая разговорную рекламу на других (внешних) веб-сайтах!
Рисунок 1-3. С AdLingo вы можете превратить свою медийную рекламу в чат-ботов, чтобы начать разговоры с потенциальными клиентами без их посещения вашего веб-сайта.
Chatbase
Chatbase — это кроссплатформенный сервис plug-and-play, который помогает разработчикам чат-ботов ускорить поиск соответствия продукта рынку, предоставляя ключевые метрики ботов и рабочие процессы для исправления ботов. Он раскрывает инсайты из данных для создания правильных разговорных интерфейсов на основе ИИ для обслуживания клиентов. Вы можете использовать Chatbase через их портал, но вы также можете использовать его через Dialogflow, так как он частично интегрирован.
Duplex
Возможно, вы видели видео Duplex во время Google IO 2018 (голосовые роботы, записывающиеся к парикмахерам). Видео стало вирусным. На момент написания у него более 4 миллионов просмотров и более 29 тысяч лайков. Это проект Google, который позволяет определенным пользователям делать бронирование в ресторане по телефону. Однако вместо того, чтобы пользователь говорил напрямую с сотрудником ресторана, Google Duplex, с помощью Google Assistant, говорит за пользователя. Он делает это с голосом на основе ИИ, но звучащим по-человечески.
Meena & LaMDA
Meena — это нейронная разговорная модель с 2,6 миллиардами параметров, обученная сквозным методом. Она создана Google для лучшей обработки широкого спектра разговорных тем, чтобы разработать чат-бота, который не специализирован, но все еще может общаться практически на любую тему, которую захочет пользователь. Помимо того, что это увлекательная исследовательская проблема, такой разговорный агент может привести ко многим интересным приложениям, таким как дальнейшее очеловечивание компьютерных взаимодействий, улучшение практики иностранного языка и создание правдоподобных, интерактивных персонажей кино и видеоигр.
Однако текущие открытые чат-боты имеют критический недостаток — они часто не имеют смысла. Иногда они говорят вещи, несовместимые с тем, что было сказано до сих пор, или им не хватает здравого смысла и базовых знаний о мире. Более того, чат-боты часто дают ответы, которые не специфичны для текущего контекста. Например, «Я не знаю» — это разумный ответ на любой вопрос, но он не специфичен.
Meena может вести разговоры, которые более осмысленны и специфичны, чем существующие передовые чат-боты.
Модель Meena обучена на 341 ГБ текста, отфильтрованного из общедоступных разговоров в социальных сетях. По сравнению с существующей передовой генеративной моделью, Meena имеет в 1,7 раза большую емкость модели и была обучена на в 8,5 раз большем объеме данных.
На момент написания, помимо осмысленности, Google фокусируется на других атрибутах, таких как личность и борьба с проверкой фактов, безопасностью и предвзятостью в моделях, что очень необходимо перед тем, как сделать Meena доступной для общественности.
Meena закладывает основу для LaMDA (Language Model for Dialogue Applications — Языковая модель для диалоговых приложений), которая была представлена на Google I/O в мае 2021 года. LaMDA — это открытая область, что означает, что она предназначена для общения на любую тему. Она была обучена на диалогах, чтобы имитировать более естественный способ общения, рассматривая отдельные слова, целые предложения и абзацы, выясняя их взаимосвязи и улавливая общую картину, чтобы попытаться предсказать, что будет сказано дальше и каким должен быть ее ответ. Таким образом, она может отвечать так, чтобы это действительно имело смысл с точки зрения всего разговора, а не только последней произнесенной фразы.
Резюме
Эта глава предоставила вам всю фоновую информацию о чат-ботах и истории чат-ботов, Google Cloud, ИИ, машинном обучении, обработке естественного языка, Dialogflow Essentials, Dialogflow CX, Speech-to-Text, Text-to-Speech и Contact Center AI.
В последнем разделе мы говорили о других проектах и инструментах Google в области разговорного ИИ. Сюда входят Google Assistant, Actions on Google (виртуальный помощник Google и платформа разработки), AdLingo (превращение рекламы в виртуальных агентов), Chatbase (инсайты), Duplex (вспомните роботов, звонящих парикмахерам) и Meena (осмысленная разговорная модель).
Теперь, когда вы знаете некоторую фоновую информацию, пришло время начать создавать наших собственных агентов Dialogflow!
Дополнительные материалы
- Подробнее о Google Cloud
https://cloud.google.com - Шпаргалка со всеми продуктами и описаниями Google Cloud
http://4words.dev/ - Открытый исходный код в Google
https://opensource.google/ - Подробнее о Dialogflow
https://cloud.google.com/dialogflow - Подробнее о TensorFlow
https://www.tensorflow.org/ - Подробнее о BERT
https://github.com/google-research/bert - Подробнее о Contact Center AI
https://cloud.google.com/solutions/contact-center - Узнайте больше о WaveNet от DeepMind
https://deepmind.com/blog/article/wavenet-generative-model-raw-audio - Узнайте больше о Tacotron2
https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html - Подробнее о Chatbase
https://chatbase.com/ - Подробнее о Meena
https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html - Подробнее о LaMDA
https://blog.google/technology/ai/lamda/ - Подробнее о Actions on Google
https://developers.google.com/assistant - Подробнее о Actions Builder
https://developers.google.com/assistant/conversational - Видео Duplex, которое стало вирусным
https://www.youtube.com/watch?v=D5VN56jQMWM - Подробнее о Tacotron2
https://google.github.io/tacotron/publications/tacotron2/index.html
Другие статьи по этой теме:
- Практическое руководство по созданию агентов ИИ
- Выявление и масштабирование сценариев использования ИИ
- Агенты ИИ