Технологии искусственного интеллекта (ИИ) успешно применяются во многих сферах цифровой экономики и общественной жизни: банках, телекоме, промышленности, ритейле, логистике, медицине. Искусственный интеллект постепенно берет на себя простые функции, оставляя людям выполнение сложных операций. В России существуют все предпосылки для международного лидерства в области искусственного интеллекта. Решения от отечественных разработчиков набирают популярность, а скорость создания новых продуктов растет в геометрической прогрессии. Успешные проекты в области ИИ чаще всего являются комбинацией науки, бизнеса и маркетинга. В статье рассмотрены два крупных класса технологий – разговорного ИИ и компьютерного зрения, выделены основные отечественные поставщики и проведено сравнение предлагаемых ими разработок.
А поговорить?..
Чат-боты и технологии обработки естественного языка (Natural Language Processing – NLP) стали довольно горячей темой за последние несколько лет. Интерес бизнеса к персонифицированным виртуальным помощникам растет – клиенты все чаще ожидают от компаний быстрого, даже мгновенного ответа на свои вопросы. Стремясь удовлетворить резко возросший спрос, компании-разработчики одна за другой выводят на рынок чат-боты самых разных категорий.
Как устроен чат-бот
Чат-бот – это компьютерная программа, которая умеет распознавать текст, написанный на естественном языке, либо человеческий голос и реагировать адекватным образом: отвечая или выполняя определенное действие (например, оформление заказа еды или включение света в доме).
Рис. 1. Общая схема чат-бота
Общая схема устройства чат-бота показана на рис. 1. Каналом связи могут быть мессенджер, автоматическая телефонная станция, приложение Service Desk или любая другая информационная система.
Задача модуля распознавания текста (Natural Language Understanding модуля) – определение намерения пользователя и распознавание его ответов на уточняющие вопросы бота.
Диалоговый менеджер ответствен за хранение и обновление состояния чат-бота. Он сохраняет контекст разговора и формирует реакцию бота для каждой новой фразы пользователя.
Модуль генерации текста (Natural Language Generation – NLG) формирует финальный ответ бота. В простейшем и наиболее распространенном случае ответ выбирается из заготовок либо немного кастомизируется (например, в нужное место вставляется имя пользователя). Существуют более экзотические методы, например, когда ответ генерируется посимвольно с нуля нейронной сетью на основе состояния чат-бота. Однако такие способы не получили широкого распространения, поскольку в подобном случае бот может выдавать неожиданные ответы.
Инструменты администрирования позволяют настраивать ответы бота и отслеживать статистику его использования. Наконец, внешние интеграции дают возможность чат-боту получать данные из внешних информационных систем и вызывать команды сторонних сервисов.
Классификация чат-ботов
По назначению
FAQ-боты – простейший тип чат-ботов, который содержит пары «вопрос – ответ» и выдает нужный ответ при распознавании вопроса. Такие боты не требуют дополнительных интеграций с другими системами и, как правило, не учитывают контекст диалога.
Задача целеориентированных (Goal-oriented) ботов – распознать, что нужно пользователю, собрать необходимую для этого информацию и выполнить действие. Например, в случае доставки еды бот должен заполнить определенную форму: что, откуда и куда доставить. Он должен задавать уточняющие вопросы, если каких-то из этих данных не хватает, а затем направить запрос в службу доставки.
Виртуальные ассистенты операторов контактных-центров могут перенаправить разговор на оператора, если возникли трудности, и затем давать оператору подсказки на основе предыдущей истории диалогов или при помощи поиска по базе знаний.
Наконец, «болталки» (chit-chat) боты способны поддержать беседу на произвольные темы. Как правило, они обучаются на больших диалоговых корпусах, могут давать неожиданные ответы и используются для развлечения.
По политике ведения диалога
В ролевых (Rule-based) ботах сценарии ведения диалога прописаны жестко. После распознавания намерения пользователя запускается заранее определенный сценарий, состоящий из последовательности уточняющих вопросов бота и вариантов ответов на них пользователя.
Подобный вариант прост, но имеет ряд минусов: плохо работает, когда уточняющих вопросов много или пользователь часто меняет контекст разговора. Подобные проблемы решаются в ботах с адаптивными стратегиями ведения разговора. Эти боты определяют конечную цель обращения пользователя и затем подбирают следующую фразу так, чтобы быстрее достичь нужного результата.
По технологиям распознавания речи
Старейший, но до сих пор широко используемый подход к распознаванию намерений пользователя, – простой поиск по ключевым словам и сочетаниям символов (pattern matching). Например, если в тексте упоминаются последовательности символов «заказ» и «пицца», то, вероятно, пользователь хочет заказать пиццу.
Более современным является подход на основе классического машинного обучения. В этом случае не нужно писать паттерны, достаточно привести примеры формулировок запросов, относящихся к одной теме, например: «Хочу заказать пиццу», «Привезите пиццу Маргариту» и т. д.
Последнее поколение чат-ботов основано на глубоких нейронных сетях. Они могут быть обучены на больших корпусах текстов (например, текстах Википедии) и затем использовать полученные знания о языке на новых задачах. Это позволяет радикально сократить количество обучающих примеров, так как бот владеет априорной информацией о том, что, например, фразы «Хочу заказать пиццу» и «Привезите пиццу Маргариту» имеют близкую семантику. Однако глубокие нейронные сети пока не являются панацеей: дело в том, что для высоких результатов они должны быть предобучены на огромных объемах данных по тематике, близкой к теме чат-бота. Это не всегда возможно, например для банковских ботов, так как их данные являются закрытыми.
Обзор российского рынка чат-ботов
Объем российского рынка чат-ботов – около 1 млрд руб., что составляет примерно 1% мирового рынка, емкость которого порядка 2 млрд долл. По разным оценкам, через год размер российской индустрии ботов должен увеличиться вдвое и продолжить эту динамику в следующие четыре-пять лет.
Основные сферы применения чат-ботов – контактные центры, внутренняя техподдержка в крупных организациях, службы заказов еды и транспорта, всевозможные «умные» устройства. При этом на контактные центры приходится львиная доля рынка чат-ботов: по исследованию Everest Group, мировые расходы на контакт-центры составляют более 300 млрд долл. в год (это в несколько раз превышает объем индустрии кино!). Чат-боты позволяют сократить эти издержки, отвечая пользователям на частые вопросы самостоятельно либо давая подсказки операторам.
На российском рынке отечественные чат-боты имеют более сильные позиции, чем решения от мировых лидеров – IBM Watson, Google и Microsoft. Отчасти это связано с тем, что они дешевле и лучше работают с русским языком. Рассмотрим десять решений российской разработки.
ЦРТ (основана в 1990 г.) – одна из старейших компаний в России в области речевых технологий. Система разрабатывает комплексные решения для центров обработки вызовов, занимается синтезом и анализом речи и задачами биометрической идентификации. Решения ЦРТ используются в «Сбербанке», «ТрансКредитБанке», МВД России, Минюсте России и др. Чат-боты ЦРТ используют традиционные методы компьютерной лингвистики и основаны на системе ключевых слов. Они требуют квалифицированных лингвистов для настройки и поддержки и большой ручной работы по написанию паттернов и скриптов.
Компания «Наносемантика» основана в 2005 г. Игорем Ашмановым. Ее решения используются в Headhunter, «МТС Беларусь», «БеларусБанке», Beeline, «ЛокоБанке». Принцип работы чат-ботов «Наносемантики» схож с принципом ЦРТ – он также основан на системе ключевых слов и специальном скриптовом языке.
Разработка «Яндекс.Алиса» началась в конце 2016 г., об официальном запуске было объявлено 10 октября 2017 г. Изначально «Алиса» включала только сервисы «Яндекса», но в 2018 г. компания открыла платформу «Яндекс.Диалоги» с возможностью подключать сторонние сервисы и чат-боты через систему «навыков». В настоящий момент «Алиса» содержит более 80 тыс. различных навыков.
DeepPavlov – библиотека с открытым исходным кодом с инструментами для решения различных задач компьютерной лингвистики (в том числе для построения чат-ботов), основанными на последних разработках в области глубоких нейронных сетей. Проект реализуется лабораторией нейронных систем и глубокого обучения МФТИ в рамках Национальной технологической инициативы при индустриальной поддержке «Сбербанка». Разработки DeepPavlov используются в 92 странах мира.
Технология Electra.AI создана в 2018 г. разработчиками из МФТИ и DataMonsters как продукт для роботизации крупных контакт-центров. Посредством нейронных сетей она анализирует поток сообщений, проходящий через контакт-центр, выделяет в нем шаблоны и предлагает их автоматизировать, таким образом забирая на себя рутинные операции и непрерывно увеличивая долю автоматизации. Среди клиентов Electra.AI – банк ВТБ, «МегаФон», банк «Открытие».
Компания Just AI (создана в 2011 г.) входит в группу компаний i-Free. Компания предоставляет конструктор для создания чат-ботов Aimylogic, позволяющий настраивать чат-боты с помощью либо визуального конструктора, либо скриптового языка. Платформа Just AI дает возможность настраивать чат-бот по ключевым словам и посредством машинного обучения. Среди ее клиентов – «ЮниКредит Банк», S7 Airlines, «Аэроэкспресс».
Группа компаний Naumen основана в 2001 г. и представляет линейку решений для контакт-центров и ИT-инфраструктуры. Чат-боты Naumen используются в «ОТП Банке» и «Мосэнергосбыте».
Чат-бот Chatme.AI (создан в 2017 г.) от новосибирской компании Expasoft (основана в 2010 г.) предлагает полностью визуальный конструктор диалогов и адаптивные алгоритмы диалоговых стратегий, в разработке которых принимают участие математики Новосибирского государственного университета.
AutoFAQ (создан в 2017 г.) от компании Reason8 базируется на глубоких нейронных сетях. Он представляет собой вопросно-ответную систему, которая требует минимального участия специалистов для своей настройки и дообучается сама по мере разговоров с клиентами.
Ziax (создан в 2017 г.) предлагает чат-бот для обработки голосовых звонков и текстовых сообщений. Среди клиентов компании – «СвязьБанк» и «Банк Хоум Кредит».
Какого чат-бота выбрать?
Если компания хочет создать чат-бот для своего бизнеса самостоятельно, то, вероятно, ей подойдет «Яндекс.Алиса» или Just AI. Они обладают удобными визуальными конструкторами диалогов, не требующими знаний программирования.
Программистам, которых интересуют последние разработки в области разговорного искусственного интеллекта, следует изучить библиотеку DeepPavlov.
Если бизнес ищет решение для контактного центра среднего размера, то имеет смысл обратить внимание на Chatme.AI, AutoFAQ и Ziax. Это современные решения, использующие последние разработки в сфере машинного обучения.
Для крупных контакт-центров лучше подходят решения от ЦРТ, «Наносемантики», Naumen и Electra.AI.
Для наглядного сравнения рассмотренных чат-ботов предлагаем таблицу:
Один раз увидеть
К компьютерному зрению (Computer Vision – CV) относится всевозможная обработка изображений и видео с помощью технологий искусственного интеллекта.
Согласно исследованию TAdviser и компании «Системы компьютерного зрения», российский рынок компьютерного зрения в 2018 г. составил 8 млрд руб. Прогнозируется его рост до 38 млрд руб. к 2024 г. . В настоящее время компьютерное зрение получило наибольшее развитие в следующих областях: транспортные системы, беспилотные автомобили и летательные аппараты, сфера услуг, медицина, сельское хозяйство, оборона и безопасность, «умные города». Некоторые предприятия специализируются на конкретных задачах и сферах применения компьютерного зрения, другие компании обладают готовыми алгоритмами и решениями для большого количества задач как в России, так и за рубежом.
Например, компания «Системы компьютерного зрения» за восемь лет разработала огромную базу алгоритмов, среди которых присутствуют решения в следующих сферах деятельности: лесная промышленность (технология определения объемов древесины с помощью анализа видеоизображений); автомобильная промышленность (алгоритмы системы помощи водителю и оптические сенсоры для беспилотных машин, контроль полосы движения и т. д.); распознавание образов; портативные устройства (сшивание фотоизображений для получения панорамных снимков) и пр. Решения базируются на сверточных нейронных сетях и имеют высокую точность распознавания (97–98%).
Компания NtechLab является мировым лидером в области распознавания лиц. Библиотека FindFace SDK и интеллектуальная видеоаналитика FindFace Security на основе нейронных сетей позволяют быстро, с достаточно высоким уровнем точности выполнять верификацию лиц (FNMR=0.22), идентификацию лиц (скорость поиска по одномиллиардной базе изображений составляет менее 0,5 с) и обнаружение лиц (неограниченное количество лиц в кадре); определять возраст человека (с точностью 95% в диапазоне пяти лет) и пол человека (с точностью 99%); распознавать эмоции (семь базовых и 50 сложных эмоций человека) и т. д. С помощью инструментов FindFace торговые учреждения и финансовые организации имеют возможность идентифицировать VIP-клиентов и повышать качество их обслуживания, обнаруживать мошенников и предотвращать кражи. Используя FindFace, предприятия открывают сотрудникам доступ к рабочим местам и ведут учет рабочего времени, а службы безопасности обеспечивают правопорядок на различных мероприятиях и определяют местоположение разыскиваемых лиц.
По инициативе Министерства связи и массовых коммуникаций Российской Федерации и Центрального банка Российской Федерации разрабатывается Единая биометрическая система, целью которой является идентификация человека с использованием лица и голоса. Система позволит получать финансовые и другие виды услуг удаленно, через Интернет. Единая биометрическая система уже применяется в финансовой сфере, здравоохранении, образовании, ритейле, e-commerce и при оказании государственных услуг; планируется ее использование в телемедицине и дистанционном обучении.
LUNA PLATFORM и Luna SDK Enterprise разработки компании VisionLabs также решают задачи бесконтактной идентификации людей для обеспечения безопасности и контроля доступа в финансовых и торговых учреждениях и на транспорте.
Программно-аналитический комплекс SOVA, разработанный компанией «СИТИЛАБС», активно используется при принятии управленческих решений по оптимизации транспортной системы таких крупных городов, как Москва, Санкт-Петербург, Воронеж, Казань, Екатеринбург.
Большое влияние оказывает компьютерное зрение и на ритейл. X5 Retail Group в сотрудничестве с Intelligence Retail на основе нейронных сетей реализовала систему контроля наличия и правильности выкладки товаров на полке. Инструмент способен распознавать около 1500 товаров с точностью 93,7%. В случае нехватки товаров сотрудники получают уведомление о необходимости добавить товар.
Одной из областей, в которой часто применяется компьютерное зрение, является управление беспилотными транспортными средствами. Система C-Pilot от российского разработчика Cognitive Technologies представляет собой инструмент для беспилотного вождения с высоким уровнем безопасности в условиях плохой видимости (туман, дождь, темное время суток) и на плохих дорогах, применяемый для всех видов наземного транспорта, включая легковые автомобили, коммерческие транспортные средства, сельскохозяйственную технику, железнодорожный транспорт и т. д.
Заключение
Российские продукты в сфере искусственного интеллекта по функциональному наполнению и качеству вполне могут конкурировать с крупными международными вендорами. В России существует много высокопрофессиональных команд с опытом в области лингвистического анализа, диалогового искусственного интеллекта, анализа данных, компьютерного зрения и распознавания образов. Чтобы современному бизнесу найти среди представленных решений идеальную модель, которая станет надежным помощником в общении с клиентами или сотрудниками, решении задач в энергетике, логистике, промышленности, транспортной сфере, компаниям следует руководствоваться основными бизнес-потребностями, но при этом учитывать, что система должна отвечать требованиям времени по функциональным возможностям и применяемым технологиям.