Большими называют данные (Big Data), которые принято измерять терабайтами, петабайтами. Справедливо, что объем – самая важная характеристика больших данных, которые накапливались постепенно, на протяжении десятилетий. Однако в последние годы наметилась явная тенденция ускорения роста объемов данных. Данные появляются с невероятной скоростью. Помимо традиционных источников больших данных, благополучно прописавшихся в офисах крупных компаний (транзакции финансовых систем, логи звонков операторов связи и т. п.) все чаще приходится иметь дело с данными другого рода, например, поступающими с датчиков, сенсоров, видеокамер, из систем электронных сообщений, социальных сетей и т. д. Комплексное решение для реализации единого подхода к критически важным и чувствительным для бизнеса данным обеспечивается на основе системы Master Data Management (MDM). Спасует ли MDM перед таким монстром, как Big Data? Выполнит ли MDM свою благородную миссию в эпоху больших данных?
Конечно, большие данные – это не только данные как таковые. Это новые методы и инструменты обработки данных, которые нацелены на извлечение смысла из информации и применения полученных знаний для решения бизнес-задач. Перед бизнесом стоит задача как можно быстрее загружать массивы данных, обрабатывать, анализировать, осмысливать полученную информацию, формулировать новые бизнес-стратегии или генерировать важные управляющие импульсы. Нередко время – самый критичный ресурс в жесткой конкурентной войне.
В настоящее время большие данные еще и быстрые данные, которые измеряются мега/гига/тера/петабайтами в секунду/минуту/час/день. Оцените разницу. Данные в хранилище – это данные в состоянии покоя. Суть больших данных – в движении, они более подвержены изменениям. Хотя, строго говоря, данные в хранилище – тоже часть больших данных, их исторический компонент. Еще одно отличие больших данных от традиционного хранилища заключается в том, что существенная их часть – это неструктурированные данные, непохожие на те, к которым мы привыкли в реляционной модели. Это могут быть фото, видео, электронные письма, сообщения в социальных медиа. Такая особенность больших данных определяется растущим многообразием источников.
Новые массивно-параллельные решения и решения, использующие технологии in-memory, позволяют применять подходы больших данных для систем, работающих в режиме реального времени.
MDM – это комплексное решение для реализации единого подхода к критически важным и чувствительным для бизнеса данным. Для одних компаний – это данные о клиентах, для других – каталог товаров и услуг. Список можно продолжить: каналы продаж, перечень сотрудников, адресная информация и любые другие категории мастер-данных, владение которыми обеспечивает решение насущных производственных вопросов и способствует развитию бизнеса.
Сегодня традиционными источниками мастер-данных являются чаще всего учетные системы организации. В более продвинутых решениях часть информации может поступать из внешних надежных источников. В частности, для клиентов юридических лиц это могут быть, например, СПАРК, ЕГРН, для адресной информации используется КЛАДР или ФИАС.
Беспокойства по поводу того, спасует ли MDM перед таким монстром, как Big Data, выполнит ли свою благородную миссию в эпоху больших данных, похоже, преждевременны. MDM упорно гнет свою линию. Мастер-данные являются контекстом и представляют собой костяк для больших данных. В объединяющей роли MDM обеспечивает достоверную информацию и служит основой для структуризации данных. С помощью данных, кропотливо собранных, выверенных, очищенных MDM-системой, появляется возможность идентифицировать разнородную, в том числе слабоструктурированную информацию. И наоборот, новые нетрадиционные источники помогают пополнять мастер-данные дополнительными атрибутами и полезными взаимосвязями. Например, социальные медиа – подходящий источник для расширения профиля клиента. Новая информация поможет выявить социальные группы, их потребности и настроения.
Мастер-данные всегда сопровождаются референсными данными, т. е. данными, которые широко используются в организациях для структуризации информации и повышения ее качества. Примерами такого рода данных являются справочники и классификаторы: страны мира, валюты, категории клиентов, филиалы, подразделения, общероссийские классификаторы и т. п. Применительно к большим данным справочники и классификаторы играют все те же роли – упорядочить и стандартизировать.
Концепция MDM хорошо сочетается с большими данными. Хотя, конечно, требуется адаптация MDM-систем для работы в окружении больших данных. Отдельные механизмы, реализованные как базовые функции MDM, для больших данных могут быть использованы в целях идентификации данных. Например, алгоритмы поиска дубликатов клиентов в MDM на основе сложных алгоритмов поиска совпадений с применением нечеткой логики сравнения могут быть использованы для сопоставления поступающих данных со справочником клиентов.
Пополнение MDM информацией из системы больших данных, содержащих неструктурированную информацию, требует продвинутых инструментов трансформации сырых данных, содержащихся в документах, комментариях, заметках, электронных письмах, в структурированные данные.
В арсенале ведущих производителей программного обеспечения есть нужные инструменты, технологии и методики применения MDM-систем в сочетании с большими данными. По мере развития MDM-системы становятся все более приспособленными для работы в режиме реального времени.