«Сбербанк» провел 10 ноября третью конференцию по искусственному интеллекту Sberbank Data Science Day, на которой обсуждались проблемы автоматизации создания artificial intelligence (искусственный интеллект, или AI) и анализа данных (data science, DS), а также их применение в различных сферах. Всего в дискуссиях в рамках Sberbank Data Science Day состоялись 23 секции с участием более 60 спикеров. Доклады в рамках «научной сцены» были посвящены автоматическому машинному обучению (AutoML), компьютерному зрению, пониманию естественного языка, обучению с подкреплением и речевой аналитике. На двух «деловых сценах» речь шла о применении DS/AI в банковской и финансовой сферах, медицине и биоинформатике, ритейле и промышленности. В выступлениях в рамках «сцены сообществ» анализировались проекты по искусственному интеллекту с открытым кодом.
Ключевым для «Сбербанка» является проект с открытыми кодами AutoML, разрабатываемый на базе ML-лаборатории Университета Фрайбурга. Коды, создаваемые в рамках этого проекта, лежат в основе различных разработок «Сбербанка», связанных с искусственным интеллектом. Инструменты для автоматизации разработки ИИ-моделей разделены на пять этапов: препроцессинг данных, формирование признаков, отбор эффективных признаков, построение модели и ее верификация. На этапе препроцессинга выполняется очистка источников данных от шума и повторений, которые могут отрицательно повлиять на построенную модель. На этапе формирования признаков для моделей выбираются самые разнообразные характеристики массива данных, по которым ИИ-модель будет принимать решения. На этапе отбора осуществляется оценка каждого из предложенных на предыдущем этапе признаков для эффективного принятия решений. При построении модели отобранные на предыдущем этапе признаки применяются к данным, и выполняется конфигурация так называемых гиперпараметров для различных моделей ИИ: линейной регрессии, дерева принятия решений, нейросети, правил нечеткой логики или любой другой. На этапе верификации выполняется проверка построенной и сконфигурированной модели по заранее определенным метрикам для выбора лучшей. В пакете AutoML есть компоненты для автоматизации каждого из перечисленных этапов, и в экосистеме «Сбербанка» их уже активно используют.
В этом году в рамках Data Science Day «Сбербанк» организовал конкурс, перед участниками которого стояла уникальная задача – разработать мета-алгоритм для автоматического проведения всего цикла построения модели машинного обучения. Призовой фонд конкурса составил 3 млн руб., и его разделили между собой Роман Пьянков, Сергей Арефьев, Антон Кленицкий и Андрей Духовник. Участники другого конкурса – «КлассикAI» – с призовым фондом 1 млн руб. должны были создать алгоритм, сочиняющий стихотворения в стиле Александра Пушкина, Сергея Есенина, Владимира Маяковского и других русских поэтов на основе полученного отрывка текста. Приз разделили между собой Илья Козиев, Александр Швец и Евгений Иванов.
Впрочем, даже построенные вручную модели искусственного интеллекта уже начинают использовать в бизнесе. Основной проблемой при этом является трактовка решений, принимаемых ИИ, для людей, которые принимают решения. Однако за прошедший год в части интерпретируемости действий ИИ произошли определенные подвижки. В частности, были разработаны методы для определения того, какие именно признаки больше всего влияют на решения ИИ. Например, метод SHapley действует по следующему алгоритму: из финальной модели убирается исследуемый признак, и вычисляется разность между результатами применения модифицированной и немодифицированной моделей. Для каждого признака выполняется соответствующая оценка, и предполагается, что признак, приведший к максимальной разности, и является наиболее значимым. В частности, Данила Савенков из МТС рассказал, что использовал данный метод для модели, которая выявляет недовольных пользователей услуг компании, чтобы определить причины недовольства. «Результат оказался настолько интересным, что служба безопасности не разрешила его публиковать на конференции, – пояснил Денис Савенков, – но сотрудники маркетингового отдела уже работают с полученными данными».
В самом «Сбербанке» очень много внимания уделяют технологиям искусственного интеллекта. «Чтобы победить в конкурентной борьбе, любой компании придется использоваться искусственный интеллект, – объявил Герман Греф, президент и председатель Правления «Сбербанка», – Мы реализуем концепцию AI First, и у нас есть огромная потребность в чистых данных, а с учетом объема данных без искусственного интеллекта это невозможно обеспечить. Мы должны сосредоточить усилия на автоматической очистке данных, и в 2019 г. в рамках следующей конференции, возможно, уже представим подобные проекты». Насколько «Сбербанку» это удастся, покажет время.
Валерий Коржов