В ближайшем будущем навыки проверки гипотез, поиска скрытых зависимостей, выявления аномалий и предсказания событий будут в резюме у каждого специалиста, претендующего на позицию в финансовой отрасли. Тем более что сами инструменты аналитики и методы Machine Learning становятся все умнее, мощнее, предлагая библиотеки практически для любых задач. Стоит ли ждать прорывных результатов от использования предиктивной аналитики?
Подготовка моделей
В большинстве организаций осознали необходимость глубокой аналитики данных. От выводов экспертов и предиктивных моделей ждут небывалого роста продаж, повышения качества оценки рисков, увеличения клиентской базы… На аналитиков данных и современных «предсказателей» учат всех заинтересованных – от школьников до домохозяек и пенсионеров. Курсы, полигоны, площадки, хакатоны и прочие формы организации передачи и обмена знаниями организовали практически все крупные игроки на финансовом рынке и в ритейле – традиционно технологически передовых отраслях. Поддержка программ подготовки специалистов по направлениям искусственного интеллекта в вузах и колледжах, в том числе в регионах, – шаг к обеспечению лидерства страны в цифровых технологиях уже в числе государственных приоритетов.
Что же представляет собой процесс разработки предиктивных моделей на современных технологиях? Первый этап обычно включает подготовку данных. На курсах обучают приемам очистки и нормализации данных, заполнения пропусков, методам статистического анализа, метрикам. Учат делать выводы на основе вычисленных параметров, оценивать данные как подходящие или неподходящие для построения моделей. Однако в моей практике первым этапом разработки предиктивных моделей будет не подготовка данных, а их добыча. Именно на поиск в различных источниках, на склейку клиентов с продуктами и детальными данными из CRM, на вычистку дублирующих записей, на понимание данных и алгоритмов их получения уходит основное время специалиста. И здесь не до творчества, не до романтики открытий, только рутина с разбором чужого кода и дебрями многолетних хранилищ данных… Так талантливые аналитики, придя на работу в крупный банк или страховую компанию, сталкиваются с суровой правдой жизни, к которой зачастую не готовы, – ведь при обучении использовались готовые наборы данных, без бюрократических и чисто технических проблем.
Как обеспечить специалистов-аналитиков данными, которые можно без особых доработок использовать при разработке моделей? Вопрос сложный, затрагивающий организацию работы и управления данными, технологии загрузки, обновления и хранения, инструменты обработки и дистрибуции данных. Если предполагается применять данные внешних источников, в том числе неструктурированные, а также анализировать потоки событий, то ландшафт становится еще сложнее. Без тесного взаимодействия аналитиков с ИT-подразделением, которое, в свою очередь, открыто новым подходам и технологиям, развить предиктивную аналитику в организации практически невозможно.
Работа с предсказаниями
Наши проекты последних лет в сфере страхования и логистики были инициированы в рамках процессов развития аналитики данных. Риск-подразделение банка для своих моделей предсказания дефолта нуждалось в объединении данных внешних источников и классического хранилища. Крупнейшей логистической компании требовались данные об объемах грузов к перевозке и транспортных ресурсах в режиме реального времени для эффективного планирования загрузки складских площадей и графика работы грузчиков. Страховые компании планируют развивать предиктивную аналитику, но ограничены данными своего хранилища, без возможности расширения и обогащения информацией из своих же собственных систем, не говоря о внешних источниках. А классическая предиктивная модель лучшего следующего предложения (next best offer) в одном из банков не позволяет рассчитывать предодобренные предложения с нужной частотой из-за длительного обновления данных по клиентам и сложности внесения изменений в логику модели. Проблемы разные, и единого рецепта нет. Но прежде чем заняться предиктивной аналитикой, стоит пригласить в штат или вырастить своих специалистов по анализу данных и моделированию, решить вопросы с организацией доступа к данным и их качеством.
Вернемся к процессу разработки предиктивных моделей. Вторым этапом после подготовки данных является построение предиктивной модели. Здесь творческий поиск, интуиция аналитика, да и просто удача – во главе процесса. Что может мешать? Несовершенство инструментария. Хотя платформ для глубокого анализа данных сейчас огромное множество, не все они могут быть использованы в финансовых организациях. Служба информационной безопасности стоит на страже персональных данных, интеллектуальной собственности, коммерческой тайны… Работать на облачной платформе, особенно зарубежной, пытаться скачать очередную библиотеку или обновление инструмента с публичных ресурсов – всё это под строгим запретом. Аналитики данных вынуждены пользоваться существующими наработками из года в год или вести полуподпольный образ жизни. С запросом организовать исследовательскую лабораторию – установить необходимый инструментарий, настроить доступы к внутренним и внешним источникам, ограничить инфраструктурные мощности – к нам обращаются многие банки и финансовые организации. В результате получаем неограниченное творчество в безопасных пределах.
Третьим этапом процесса разработки предиктивных моделей стандартно идет тестирование. На этом этапе остро встает вопрос ресурсов. Как запустить модель и «не положить» другие процессы в банке, ведь современные алгоритмы могут забрать все доступные вычислительные ресурсы? Как ограничить, но в то же время дать возможность завершить тестирование, да даже просто контролировать процесс? Инструменты автоматизированного конфигурирования и мониторинга сред исполнения задач не являются панацеей, но существенно упрощают процессы тестирования моделей.
Применение
И вот, наконец, предиктивная модель готова. Аналитик рапортует о завершении задачи, возможно, даже фиксирует параметры модели и основные выводы в документе. Модель проходит утверждение, согласование… А дальше? Как заставить модель работать, давать правильные ответы на вопросы бизнеса? На этом этапе аналитик сталкивается с новыми заботами. Во-первых, разработанная модель использует данные, которые в текущих процессах отсутствуют. Это могут быть производные существующих атрибутов, которые нужно рассчитать для использования в модели. Возможно, аналитик при построении модели обогатил данные из нового источника, который необходимо как-то включить в процесс. Во-вторых, сам процесс может быть не готов к встраиванию предиктивной модели в силу различных причин – как организационных, так и технологических. И если с организационными ограничениями бороться сложно, особенно в крупных финансовых организациях, то случаи успешного преодоления технологических проблем в нашей практике уже есть.
Речь идет о реализации некой «обертки» для модели, что позволяет использовать модель как сервис или как функцию. В этом случае системы-потребители обращаются к модели, передают параметры, которые при необходимости дообогащаются, и получают ответ. Модель при этом не зависит от процесса, от данных, в нее можно вносить изменения, корректировать коэффициенты, менять версию. Вся логика подготовки корректных данных на вход, маршрутизация запроса и ответа, обработка ошибок находятся в «обертке» модели. Другими словами, это проекты автоматизации вывода моделей на продукционное окружение финансовой организации. Использование наработок методологии DevOps существенно облегчает выстраивание процессов включения разработанных моделей в бизнес-процессы, будь то оценка потенциального заемщика, предодобренные предложения, выявление аномалий в потоке событий информационной безопасности или подбор продукта при обращении в контакт-центр.
Итак, представим, что в банке или страховой компании разработаны и внедрены в процессы модели предиктивной аналитики. Когда количество моделей в пределах десятка, отслеживать качество и эффективность работы моделей вполне могут как сами разработчики, так и небольшой отдел экспертов-контролеров. Когда же количество моделей и их критичность для бизнеса растут, в организациях начинают задумываться об автоматизации управления жизненным циклом моделей. По теме управления моделями (Model Governance) написано множество статей, а для учета и мониторинга разработаны специализированные системы. В нашей практике организаций, внедривших и успешно использующих системы класса Model Governance, единицы. Как всегда, сложности связаны с организационными процессами и системными ограничениями.
Что важнее при внедрении предиктивной аналитики: документооборот или технологии внедрения в бизнес-процессы? Как показывает практика, значимы оба аспекта, хотя акцент в каждой организации свой. Для некоторых банков существенна прозрачность процесса разработки моделей – от создания заявки до утверждения на комитетах. Особенно актуальны потоки работ со статусами, контролями сроков, обязательным заполнением полей и прикреплением документов при распределенном процессе разработки, когда участвуют несколько подразделений, служб, распределенных команд. Для других организаций в фокусе внимания технологии внедрения моделей в бизнес-процессы в целях обеспечения скорости внедрения, быстрой корректировки в случае просадки производительности модели или снижения эффективности прогнозов и рекомендаций.
Заключение
Мы в своих проектах объединяем интерфейсную часть для заказчиков, разработчиков моделей и согласующих лиц с движком процессов, репозиторием для кода и документов и, что неотъемлемо, с технологиями «обертки» моделей в сервис или функцию для встраивания в бизнес-процессы. По пути решаются задачи организации доступа к данным для аналитиков, подключения внешних источников. И если исследовательские лаборатории в банке представляют собой компьютеры пользователей с установленным ПО, дополнительно легализуем инструментарий для сложного анализа данных, обеспечиваем контролируемые мощности для решения прикладных задач.
Внедрение предиктивной аналитики в финансовых организациях – популярный вектор развития бизнеса. Кроме самой аналитики в рецепт успеха входят и другие неотъемлемые составляющие – данные, инструменты, сервисы и функции, документирование и организационные процессы. И только комплексный подход сможет обеспечить быструю отдачу от предиктивной аналитики на данных организации.