Развитие постиндустриального общества в сфере информатизации, несомненно, привело к развитию техники и, как следствие, к лавинообразному росту количества источников информации, инструментов их сбора, передачи, хранения, анализа и применения. Эти тенденции находят свое отражение во всех аспектах жизни общества – начиная от коммуникации между людьми и заканчивая общим укладом жизни.
Общепризнанной датой первого упоминания термина[1] является группа публикаций в британском научном журнале Nature от 3 сентября 2008 г., в которых поднимался вопрос многообразия и объема собираемых данных в рамках научных экспериментов, хранилищ данных и области Web, а также потенциального насыщения данных и оптимизации систем обработки и предоставления информации конечному пользователю.
Отклик на указанные исследования не заставил долго ждать, и уже через пару лет такие крупные корпорации, как IBM, Oracle и др., начали активно возвращать вложенные инвестиции в перспективную область технологий, а рынок корпоративных систем активно заговорил на волне термина Big Data, который стали рассматривать как набор подходов, инструментов и методов обработки структурированной и неструктурированной информации в целях представления ее в интерпретируемом и доступном виде для конечного пользователя.
Практическое применение информации
В настоящее время большие данные применяют в основном в следующих областях.
- Научные исследования – достаточно вспомнить исследования элементарных частиц в ускорителях, чтобы оценить все многообразие информации, которая собирается и анализируется в вычислительных центрах (например, в рамках изучения бозона Хиггса объем фиксируемой информации составлял 1 Пбайт сырых данных в секунду).
- Второй областью, которая полностью соответствует определению и характеристикам Big Data (количество данных, их разнородность и скорость прироста), является Web. За последние десять лет интернет-технологии развиваются в направлении полной индивидуализации под конкретных пользователей и их паттерны поведения, что, в свою очередь, требует обработки, хранения, анализа и доступности огромного количества информации в режиме реального времени.
- В эпоху глобализации и оптимизации на высокую ступеньку по значимости выходит элемент эффективности организации бизнеса с минимальными затратами. Тот, кто эффективен, в конечном счете и является победителем. Серверы с высокой отказоустойчивостью от уважаемых брендов и ежемесячные платежи во внешние дата-центры обходятся компаниям в копеечку. С другой стороны, технологии использования недорогих серверов с распараллеливанием вычислений обладают большим потенциалом с точки зрения снижения затрат на эту область ИТ.
- Четвертая область применения Big Data – это бизнес и государственный сектор. За последние 50 лет структура и принципы ведения бизнеса планомерно трансформировались, бизнес становился все более клиентоориентированным, учитывалась уникальность потребностей каждого индивидуума.
В своей деятельности Финансовая группа «Лайф» ориентируется на сервис высочайшего уровня и на долгосрочные отношения с клиентами и партнерами. Основная задача, стоящая перед Группой, – полностью соответствовать ожиданиям человека или организации, обратившимся в компанию. Естественно, ориентируясь в первую очередь на потребности клиентов, бизнесы Группы нуждаются в дополнительной информации для понимания их поведения, анализа результатов переговоров с ними, а также в дополнительном наборе данных, максимально выявляющих потребности клиентов. Эти задачи решаются в Группе посредством соединения «классических» (банковских данных) и новых источников неструктурированной информации, которая, объединяясь с первой группой данных, позволяет полностью выстроить шкалу потребностей клиента.
Структура источников данных
Развивая тему Big Data, мы ориентируемся на принцип Agile, т. е. стремимся создать гибкий инструментарий хранения и обработки информации с возможностью поэтапного тестирования вновь загружаемой информации, оценивая перспективность ее монетизации за счет применения в текущих процессах.
В качестве основных источников данных о клиенте мы используем банковские системы, CRM и внешние источники – Spark, социальные сети, Cookies. Рассмотрим подробнее каждый из них.
- Банковские системы. Рассматривая источники дополнительной информации о клиентах, в первую очередь стоит обратиться к существующим данным, в которых можно найти много полезной информации с точки зрения business value. Ярким примером могут служить платежи клиентов. Реальность такова, что многие банки располагают только сведениями о финансовой состоятельности своих клиентов, а их реальные потребности им неизвестны. Путем анализа текстовых назначений платежей можно не только понять, чем в действительности занимается клиент (или организация), обслуживающийся в банке, но и выявить его потребности. Например, компания ООО «Ромашка» является сетью по продаже продуктов питания. Так, появившийся у компании новый поставщик дает повод персональному менеджеру предложить компании новый продукт – гарантии именно в тот момент, когда они являются наиболее востребованными. А платеж за аренду позволяет предложить компании инвестиционный кредит. Анализ сети контрагентов клиентов дает возможность банку выявлять наиболее перспективный и целевой сегмент для привлечения.
- CRM. Рассмотрим еще один случай использования неструктурированной текстовой информации из внутренних источников в банке. Розничный клиент обращается в банк в среднем как минимум раз в месяц. После каждого визита или звонка персональный менеджер отмечает причину обращения и оставляет комментарий по результатам общения. Ранее все комментарии анализировались вручную, но с развитием технологии анализа семантики и коннотации текста комплекс Big Data позволил анализировать информацию в автоматическом режиме.
- Внешние источники. После того как потенциал внутренних источников исчерпан, необходимо определиться с целями обогащения данных. В ФГ «Лайф» основным заказчиком является департамент целевого маркетинга, который преследует цели обогащения моделей кросс-продаж и оттока. Используя интерфейсы партнеров, мы интегрировали в системы кросс-продаж данные из социальных сетей («ВКонтакте» и «Одноклассники»), что позволило повысить качество моделей предсказания на 15% и запустить кампании «приведи друга» в соцсетях. Помимо абсолютного повышения качества моделей данные социальных сетей обогатили профиль клиента его реальными интересами и потенциальными потребностями (привычки к путешествиям, семейное положение, друзья, интересы и т. д.), что, в свою очередь, позволяет правильно коммуницировать с клиентом, предлагая ему именно те услуги, которые актуальны для него в данный момент. Обновление данных из соцсетей настроено в виде интерфейса автоматической закачки и обновления детального профиля клиента. Пересечение клиентов производится по фамилии, городу и дате рождения, что снижает количество ошибок.
- Cookies_ID. На рынке существует не один игрок, предоставляющий инфраструктуру обогащения данных о клиенте по особенностям его поведения в сети. Этот источник важен для предсказания оттока и формирования правильных предложений. Примером является увеличение частоты просмотров банковских сайтов существующими клиентами. Правильное понимание потребностей клиента позволяет сформировать так называемый Churn prevention offer (предложение по предотвращению оттока) и соответственно увеличить «срок жизни» клиента.
Хранение и алгоритмы анализа неструктурированных данных
В Финансовой группе «Лайф» проект по внедрению Big Data стартовал в 2013 г. На текущий момент все данные укладываются в обычное реляционное хранилище, а инструментарий запросов совместно с Data Mining позволяет проводить семантический анализ текстов. Основная сложность, с которой мы столкнулись при анализе, – необходимость создания классификатора по тематикам и соотнесение ключевых слов и словоформ, которые встречаются в неструктурированной информации. Эту задачу решаем поэтапно и двунаправлено: с одной стороны, создавая облако тегов ключевых слов и выявляя их частотность, с другой – находя совпадения в тексте по заранее подготовленным справочникам. Используем открытые источники словарей, которые применяются для SEO-оптимизации.
Рассматривая различные варианты текстового анализа, мы проводим классификацию по ключевым словам и не анализируем тематику всего текста, поскольку в большинстве случаев данные источников (соцсети, внутренние источники) являются не полноценным связанным текстом, а скорее набором коротких сообщений, основная ценность которых заключается именно в наличии тех или иных ключевых слов.
Бизнес-применение неструктурированных данных
Как было отмечено ранее, ФГ «Лайф» успешно применяет внешние данные для оптимизации целевых маркетинговых коммуникаций. Big Data позволила:
- на 15% повысить качество прогнозных моделей (склонность к покупке) за счет насыщения данных признаками, наличия фасетов во внешних данных. Например, интерес клиента к группам категорий «Развлечения» увеличивает его склонность к взятию кредита;
- cоздать новые триггерные типы кампаний. Сезонный интерес клиента к путешествиям или возросшая активность автомобильной тематики дает важный сигнал персональному менеджеру о возможности предложить определенные услуги и продукты Группы. Триггерные кампании не просто увеличивают качество моделей – они позволяют правильно коммуницировать с клиентом и рекомендовать ему продукты;
- привлечь новых клиентов. В первую очередь это касается корпоративных клиентов. Используя инструменты Big Data, мы выявляем среди всего множества наших клиентов целевой сегмент организаций, наиболее подходящий под РКО или кредитование. Такое привлечение показывает хорошую эффективность, но что более важно – позволяет привлекать заведомо «правильных» клиентов;
- предсказать отток клиентов. В этом большую помощь оказывают комментарии операторов и данные Cookies.
Перспективы развития больших данных
В настоящее время проект по внедрению Big Data в ФГ «Лайф» активно развивается. Обогащая данные, мы повышаем качество предсказания потребностей клиентов и находим способы предложить им наши услуги и продукты. Развитие источников данных стимулирует нас совершенствовать инструменты анализа информации (например, внедрять такие систем, как Hadoop) и развивать алгоритмы, многообразие и сложность которых выходят за рамки запросов по реляционным базам данных. В свою очередь, возрастает и количество заказчиков на такую аналитику. Разработка продуктов, определение лояльности клиентов, анализ рисков и продажи – вот те области, в которых могут быть проведены качественные улучшения за счет обогащения знаний о клиентах, их потребностях и финансовой состоятельности.
Западные кампании активно внедряют такие технологии для оптимизации контактных центров (анализируют речь и формализуют ее характер), оптимизируют сайты для роста конверсии и обеспечения простоты поиска информации. Кроме применения технологии на клиентах компании развивают алгоритмы для внутреннего хранения информации и способов ее предоставления. В этом отношении Финансовая группа «Лайф» находится в самом начале пути по выстраиванию правильной архитектуры и способов применения технологии больших данных. Однако уже сейчас виден потенциал ее развития и, как результат, дивиденды от ее применения.
[1] Интересным фактом является то, что сам термин Big Data не имеет прямого отношения к характеристике большого количества данных, а является метафорой аналогичной термину Big Oil, т. е. области, которая сулит высокие дивиденды и коммерческий потенциал.