Еще 30 лет назад было трудно предположить, что почти у каждого человека будет в кармане мобильный гаджет для видеозвонков и прочих, не только коммуникационных функций. Уже сложно представить жизнь без такого умного помощника и огромного количества информационных сервисов. Сейчас любое предприятие генерирует цифровой контент с экспоненциальным ростом. Хранение больших массивов информации стало возможным, а задача эффективной обработки была решена в парадигме классической реляционной системы хранения не сразу, а только с появлением технологий больших данных и стека Hadoop, обеспечивающих обработку структурированных и неструктурированных данных огромных объемов.
Данные – это новая нефть
Не так давно при реализации любой системы использовался принцип работы с очищенными данными. Такой подход оправдан при наведении порядка в корпоративном ландшафте (как говорят наши западные коллеги, объясняя нерешенные вопросы с качеством: «Garbage in – Garbage out»): в пользовательском интерфейсе системы документооборота каждый параметр проходит валидацию на соответствие форматов и ограничений в аналитических системах, чтобы построить адекватный график, данные должны быть очищены и приведены к определенному формату, и т. д.
Представим, что необходимо решить задачу, которая должна потреблять сырые необработанные данные. Зачем такие данные нужны и как можно использовать «мусорные» данные?
Рассмотрим задачу измерения уровня удовлетворенности клиента, например, банком. Обычно клиент не говорит оператору о недовольстве обслуживанием и после разговора не отвечает на роботизированный IVR-опрос, тем самым теряется важная информация о качестве предоставления услуг. Задача может быть решена, в частности, путем сентимент-анализа (оценка эмоционального окраса разговора) записей разговоров оператора колл-центра банка с клиентом. Как правило, записи распознаются специализированными алгоритмами преобразования голоса в текст непосредственно в системе записей разговора, далее подаются на вход математической модели (например, обученной нейронной сети), на выходе получаем коэффициент удовлетворенности. В подобном подходе используется уже распознанный текст, без интонационного оформления, при этом теряются:
- нелексические эмотивные предикаты, по которым можно выделить восклицательные предложения;
- посторонние звуки (такие как вздохи, непереводимые в текст высказывания);
- возможность оценить уровень неуверенности (hesitate level) в процессе разговора и, как следствие, психологическое состояние клиента.
Сейчас алгоритмы обработки способны проанализировать и необработанные звуковые фонограммы, что позволяет вычислять реальную удовлетворенность клиента. Таким образом, концепция работы с предобработанными данными не всегда востребована: сырые и неочищенные данные тоже имеют ценность.
Что такое машинное обучение?
Предиктивный анализ – это объединение методик и алгоритмов, работающих на основе накопленных статистических данных. Результат работы предиктивной аналитики не является для бизнеса конечной ценностью, это источник для принятия решения (либо человеком, либо системой принятия решения). Часто под предиктивным анализом понимается предсказание будущего события, но эти же аналитические инструменты решают и другие задачи, не связанные со временем, например автоматическое отнесение документов к конкретной категории.
В основе всех решений лежит машинное обучение (Machine Learning – ML), основанное на алгоритмах математической статистики. При этом машины делают выводы на большом объеме исторических данных гораздо точнее, чем человек, оперирующий только реальными историческими данными. Вот примеры задач, решаемых с помощью ML:
- в медицине – расчет дозировки препарата на основе результатов анализов после приема разных дозировок;
- в ритейле, телекоме, финансовом секторе, страховании, промышленности и т. д. – оценка риска события;
- прогноз склонности (propensity): расчет склонности перехода клиента к конкуренту;
- прогноз результата диагностики (человека или оборудования) для фокусировки эксперта на наиболее важных местах (в медицине, промышленности и т. д.);
- прогнозирование цены товара для выработки конкурентной стратегии ценообразования;
- классификация документов (при категоризации слабоструктурированных обращений клиентов по электронной почте для определения правильного маршрута обращения).
Стандартный Data Mining
Каким же образом создать эту предсказательную машину? Как и в разработке программных решений, так и для исследования данных существует межотраслевой стандартный процесс исследования данных CRISP-DM (Cross-Industry Standard Process for Data Mining), определяющий жизненный цикл исследования данных из последовательных шести фаз:
- понимание бизнес-целей (Business Understanding);
- понимание данных (Data Understanding);
- подготовка данных (Data Preparation);
- моделирование (Modeling);
- оценка (Evaluation);
- развертывание (Deployment).
В отличие от создания программного продукта, когда исполнитель получает функциональные требования, CRISP-DM в первую очередь требует работы с бизнес-целью. То есть исполнитель должен понимать не только предметную область заказчика, но и ценность для бизнеса.
Над созданием модели работают следующие специалисты:
- аналитик данных (Data Analyst) – выполняет функции подготовки данных и совместно с бизнес-пользователем интерпретирует эти данные;
- специалист по данным (Data Engineer) – создает и поддерживает инфраструктуру данных и распределенных вычислений, в частности технологий больших данных;
- специалист по машинному обучению (Data Scientist) – использует математическую статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач.
Для разработки модели ML в организации применяют изолированный (от продуктивного) исследовательский контур, в который загружаются статистически значимый срез данных из продуктивной системы и потенциально интересные данные из внешних систем. Исследовательский контур размещается во внутренней сети организации или использует инструменты предиктивной аналитики из облака.
Каковы алгоритмы машинного обучения?
Алгоритмы машинного обучения, реализованные в инструментах предиктивной аналитики, делятся на следующие группы.
Классическое обучение без учителя (Unsupervised Learning)
Здесь у модели есть набор данных и нет явных указаний, что с ними делать. Обычно это подходит только для задач, в которых известны описания обучающей выборки, и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности между объектами. В качестве примера можно привести метод главных компонент (PCA/SVD), уменьшающий размерность данных с потерей минимального количества информации (популярный метод при решении задач распознавания объектов, компьютерное зрение, сжатие данных), и метод k-средних, реализующий неконтролируемый алгоритм кластеризации.
Классическое обучение с учителем
В этом случае обучающему объекту принудительно задается «правильный ответ» и требуется найти зависимость между описательными признаками (description features) и целевыми признаками (target features). Применяется такой подход в следующих задачах: классификация объектов, ранжирование, анализ текстов, решение задач прогнозирования с использованием временных рядов. В качестве примера можно привести логистическую регрессию, которая применяется для задач классификации (отнесения объекта к определенному классу).
Нейронные сети
Нейросеть представляет собой обучаемую систему. Ее можно сравнить с маленьким ребенком, который учится ходить, используя и удачный, и неудачный опыт для прогресса. Мы давно используем алгоритмы сверточных нейронных сетей в классификации изображений, определении объектов и сегментации изображений.
Другие методы
Существуют также ансамблевые методы, позволяющие комбинировать алгоритмы машинного обучения (bagging, bootstrap aggregating, boosting stacking).
Стоит отметить, что специалисту по машинному обучению необходимо хорошо ориентироваться в великом множестве алгоритмов машинного обучения и выбирать оптимальные для решения конкретной бизнес-задачи. Надо помнить, что Data Scientist – это в первую очередь разбирающийся в предметной области математик, а не программист.
Современная компания = ИТ-компания
В розничном бизнесе один из способов повышения продаж – персонифицированное предложение с рекомендацией следующей покупки. Размер базы покупок розничной сети очень большой, классические методы обработки уже не справляются, здесь на помощь приходят инструменты машинного обучения и линейная алгебра. Например, крупнейшая американская компания оптовой и розничной торговли Walmart обрабатывает около 2,5 Пбайт данных каждый час из 200 внутренних и внешних источников, отслеживая ситуацию в торговых точках. В соответствии с меняющимся поведением клиентов компания оперативно корректирует цены на товары.
Идея так называемого лучшего предложения (Best Offer) проста – разбить клиентов по группам предпочтений. Решается это задача путем применения математических алгоритмов кластеризации, где в один кластер попадают клиенты со схожими покупательскими предпочтениями и покупательскими характеристиками. На основе отнесения покупателя к определенному кластеру, данных о связанных с этим кластером товарах (по статистике приобретаемые в одном чеке) и последовательности приобретения мы понимаем, какой товар необходимо включить в лучшее предложение сейчас, а какой предложить через полгода. Например, если в одном чеке приобретаются книги для пяти-шестилетнего возраста, то через год обычно востребованы книги для подготовки к школе.
В E-commerce активно используется метод «поиска похожих» (Look-alike): выделяются пользователи, которые по покупательской активности похожи на тех, кто уже совершал покупки ранее, и в реальном времени делается предложение по следующим покупкам исторических покупателей. Такой метод применяется в связке с ретаргетингом и динамическим ретаргетингом для актуализации соответствующих товарных предложений. При этом математическая модель периодически переобучается на вновь накопленных данных в целях повышения точности предсказания. Так можно существенно расширить верхний слой «воронки продаж».
Агрегирование клиентской информации по розничной сети позволяет формировать цифровой отпечаток каждого клиента с набором его предпочтений и персональных особенностей. В электронной коммерции собирается максимальное количество информации: время совершения покупки, время входа в интернет-магазин, содержание корзины, частота покупок, отклики на SMS-рассылки, совершен ли переход по ссылке из электронного письма и еще несколько тысяч метрик.
Помимо лучшего предложения в ритейле с помощью предиктивной аналитики вычисляются:
- время «жизни» клиента и совокупная ценность (LTV);
- вероятность повторных покупок;
- вероятность ухода клиента к конкуренту;
- закономерности для прогнозирования спроса с помощью когнитивного анализа данных;
- оптимальные цепочки поставок за счет решения задачи динамического изменения сети и грузопотоков в зависимости от изменения спроса, доступности мощностей и реализации рисков цепочки поставок;
- оптимальный размер скидки для каждого сегмента покупателей с учетом волатильности спроса, требующей постоянной адаптации методов прогнозирования. При этом размер скидки для нелояльных покупателей будет выше, чем у лояльных к розничному бренду и приобретающих товары без скидки. Для второй группы стимулом будет не скидка, а специальное персональное предложение.
Розничный бизнес одним из первых понял ценность прогнозных моделей, поэтому у крупных игроков развернут исследовательский контур предиктивной аналитики с использованием инструментов от ведущих вендоров, в котором проверяются гипотезы и выполняется моделирование. В иностранных компаниях услуги по исследованию данных покупают на стороне – закачивают деперсонифицированные данные в облако компании-партнера и в ответ получают готовую модель и рекомендации. Далее готовые модели встраиваются в продуктивные решения, такие как системы управления лояльностью, CRM, управления маркетинговыми акциями (Campaign Management). Для ускорения работы модель встраивается либо в алгоритм бизнес-приложения, либо на уровне базы данных (MS SQL Server, Oracle, SAP HANA, Teradata и т. д.).
Информация о покупательской аудитории – важный нематериальный актив, который для ритейла в первую очередь дает лучшие результаты. Прогнозные модели востребованы также в области управления запасами, сопровождения конечного оборудования в розничной сети или транспортных средств (например, прогноз выхода из строя кассового оборудования, вероятность срыва поставки).
А в банках есть большие данные?
Десять лет назад аналитика в финансовом секторе в области анализа операционной деятельности (продажи, маркетинг и т. д.) выглядела как отчеты о проделанной работе, построенные на историческом срезе. При этом изменение курса и адаптация выбранной стратегии определялись годичными циклами. Такой стиль управления был похож на езду на автомобиле по зеркалам заднего вида без учета ситуации впереди. Однако финансовые организации цифровизировали ключевые процессы, и пришло понимание, что для увеличения доли присутствия на рынке и скорости прироста продаж (Sales Velocity) необходимо стать ИТ-компанией. Общий тренд ухода потребителей из физических продаж в электронные подтолкнул банки на внутренние трансформации. Современный финансовый институт уже не может быть конкурентным без предиктивной аналитики. Она используется при необходимости:
- одобрить заявку на кредит, для чего используется прогноз возврата (application scoring);
- уточнить у текущего заемщика, будет ли просрочка (collection scoring);
- узнать предпочтительный канал взаимодействия с клиентом (банковское отделение, телефонный разговор, бумажное письмо, электронное письмо, SMS, чат-бот электронный банкинг);
- подготовить набор продуктов, которые стоит предложить клиенту в первую очередь (Best Offer);
- составить список нелояльных клиентов, которые могут уйти.
Сейчас каждый банк для повышения продаж собирает максимальную информацию о клиентах и выполняет клиентскую сегментацию на основе их предпочтений: персональные данные, профиль покупок, модель телефона, владение движимым и недвижимым имуществом, фактический адрес работы и проживания, как часто уходит в отпуск, как часто болеет, в какие страны летает и т. д.
В едином профиле клиента банки агрегируют данные как накопленные собственными силами, так и полученные из внешних источников: для физических лиц – бюро кредитной истории, операторы связи, сервисы СМЭВ, социальные сети и т. п.; для юридических лиц – учредители, финансовые показатели (СПАРК), участие в закупочной деятельности (№ 223-ФЗ, № 44-ФЗ), информация о запуске процедуры банкротства, участие в арбитражных судах, численность штата по данным ФСС, упоминание в новостях в негативном аспекте и пр.
Какие бывают инструменты
Когда мы говорим о предиктивной аналитике, то имеем в виду алгоритмы машинного обучения, встроенные в исследовательский инструмент. Алгоритмы ML сейчас наиболее активно используются в инструментах самообслуживания, предназначенных исключительно для исследования данных и моделирования, платформах бизнес-анализа, базах данных, отраслевых продуктах.
Консалтинговое агентcтво Gartner в своем последнем отчете о платформах исследования данных Magic Quadrant for Data Science and Machine Learning Platforms выделяет следующих лидеров международного рынка:
- для глобальных вендоров (визионеров) – RapidMiner, TIBCO Software, KNIME, SAS. Ниже «ватерлинии» отчета: MathWorks, Databricks, H2O.ai, Microsoft, IBM, Google, DataRobot;
- для нишевых игроков – Alteryx, Dataiku. Ниже «ватерлинии» находятся: SAP, Anaconda, Datawatch (Angoss), Domino.
В отчете представлены платформы для эффективного встраивания в продуктивный контур предприятия, у которых есть функционал для совместной работы, API интеграции, удобные и наглядные средства визуализации, поддержка нескольких языков программирования (LUA, python, R, java и т. д.). В исследовательском контуре специалист по машинному обучению (Data Scientist) применяет тот инструмент, которым владеет, и зачастую это графическая оболочка с открытыми исходными кодами для визуализации сценариев на интерпретационном языке программирования R или Python. Для исследований обычно используется командная оболочка для интерактивных вычислений Jupyter Notebook, поддерживающая языки программирования Python Julia, R, Haskell, Ruby или R studio c поддержкой только языка R.
Предиктивная аналитика сейчас представлена на рынке в виде облачного сервиса (public cloud) по модели PaaS (Platform as a Service – платформа как услуга) и в классической клиент-серверной (on-Premise) архитектуре. Основные плюсы облачных сервисов – их стоимость, которая в несколько раз ниже по сравнению с on-Premise. При этом некоторые облачные сервисы работают по схеме «плати и пользуйся» (pay as you go), что позволяет оплачивать только время использования вычислительных мощностей и не тратить ресурсы на простои неиспользуемых сервисов. Основной плюс – это уход от капитальных затрат (CAPEX) в операционные (OPEX), что в исследовательских задачах математического моделирования является главным преимуществом. Представьте: у вас есть много исторических данных, которые нужно преобразовать, обогатить внешними данными, создать ML-модель и встроить в продуктивный контур. При этом все исходные данные, а также преобразованные витрины больше не требуются, их можно удалить из исследовательского контура. Таким образом, вам не нужно платить за сопровождение инфраструктуры исследовательского контура после завершения работ.
На рынке присутствуют различные сервисы как зарубежных, так и отечественных поставщиков с предоставлением услуги предиктивного анализа по модели SaaS (сервис как услуга) – рекомендательные сервисы, сервисы определения вероятности дефолта, вероятности оттока клиентов, анализ геоданных (рекомендации по оптимальному расположению точек продаж, банкоматов и т. д.). В этих сервисах поставщик продает накопленный опыт, обогащенный внешними данными. Уже проверенные на практике предсказательные модели с минимальной донастройкой будут выдавать достаточно точные предсказания на новых данных. Услуга SaaS востребована в ритейле, в меньшей степени – в телекоме, транспорте, страховании. С одной стороны, это самая удобная модель взаимодействия для клиентов: надо просто отдать данные внешней организации и получить отчет или модель и не заниматься наукоемкими исследованиями данных. С другой стороны, существуют подводные камни – необходимо организовать процесс обезличивания данных.
Ритейл использует облачные сервисы PaaS для исследований (упор на внутренний исследовательский контур) очень редко. В государственном и финансовом секторах такие сервисы пока не популярны, поскольку в приоритете защищенность и сохранность клиентских данных. Однако некоторые финансовые организации уже прорабатывают вопрос деперсонализации (а также хэширования) данных для передачи во внешний облачный исследовательский контур, но это требует затрат на разворачивание специализированного инструментария и согласования внутренней концепции управления жизненным циклом данных (Data governance). В остальных отраслях российской экономики акцент делается на on-Premise инсталляцию.
Быть ли предиктиву в продуктиве?
Разработанные модели машинного обучения после исследовательского контура встраиваются в процессы деятельности организации как требующие быстрого отклика (оценка платежеспособности клиента, скоринг для выдачи кредита, оперативные персональные рекомендации), так и некритичные ко времени отклика (решение задачи сегментации клиентов).
Платформы предиктивной аналитики, которые упоминаются в качестве лидеров отчета Gartner, не только выполняют исследовательские функции для формирования модели, но и имеют встроенную возможность интеграции с помощью RESTfull API и workflow-процессов с массивно-параллельными СУБД (Oracle Exadata, Vertica, Teradata, SAP HANA), позволяющую производить расчеты разной сложности с участием нескольких хранилищ или систем.
Таким образом, для некритичных ко времени отклика процессов платформы предиктивной аналитики встраиваются почти бесшовно, упрощая механизм ввода новой модели в продуктив.
В настоящий момент многие крупные организации построили в своем корпоративном ИТ-ландшафте озера данных (Data Lake на основе стека Hadoop) для распределенного хранения и обработки данных и внедрили инструментарий предиктивной аналитики.
Однако в гонке за технологиями в корпоративном ИТ-ландшафте остаются открытыми задачи управления жизненным циклом данных (Data Governance) и грамотности по отношению к данным (Data Literacy). Культура работы с данными является ключевым фактором, определяющим в масштабе всей организации эффективность их использования в качестве важного стратегического ресурса.
Для того чтобы быть конкурентными, надо стать ИТ-компанией, а для этого необходимо завершить процедуры цифровизации. В российских компаниях начали появляться директора по управлению данными (Chief Digital Officer – CDO), реализующие стратегию цифровой трансформации предприятия и закрывающие брешь в корпоративной культуре российских компаний в области обработки данных. Уже сейчас понятно, что функционал предиктивной аналитики будет развиваться в разных направлениях – от встроенных алгоритмов бизнес-аналитики до IoT-решений.