Бум под названием большие данные (Big Data) случился около 5 лет назад. Внезапно это стало главной темой, обсуждающейся повсеместно – в Интернете, ИТ-прессе и на многочисленных отраслевых конференциях. В какой-то момент стало складываться ощущение, что все ответы на вопросы к профессионалам ИТ, накопившиеся у бизнеса и общества за последние несколько лет, находятся именно там, где начинаются большие данные. Ведь именно за последние годы огромное число граждан обзавелось мобильными устройствами, предоставляющими круглосуточный доступ к Интернету практически из любой точки, куда добрались операторы мобильной или проводной связи. Все это привело к бурному росту использования мобильных сервисов, который, в свою очередь, вызвал еще более стремительное накопление данных.
Путь
Объемы данных, которые можно анализировать, находя в них важную и полезную информацию, практически не ограничены. К тому же сам подход к созданию систем для анализа больших данных казался очень простым и привлекательным: несколько серверов и ПО с открытым кодом, не требующее лицензионных отчислений, – и вы уже можете обрабатывать большие данные.
Многие компании пошли этим путем, занялись привычным для ИТ делом: разворачиванием ИТ-инфраструктуры под большие данные. Считая при этом, что главное – освоить именно эту часть темы больших данных. А уже потом бизнес поставит задачи, которые служба ИТ будет решать – кто лучше, а кто хуже.
Однако со временем выяснилось, что все на самом деле не совсем так. Умения просто разворачивать Hadoop Cluster, наполнять его данными и писать аналитические запросы к кластеру недостаточно, для того чтобы технология начала приносить результаты. Потребовались аналитики, постановщики задач, инженеры данных (Data Scientists), т. е. люди, главной работой которых должна быть генерация идей, как использовать технологии больших данных, и разработка алгоритмов анализа. Появились и компании, которые начали предлагать готовые приложения, позволяющие решать конкретные задачи.
Постепенно тема больших данных вышла на ту часть траектории развития любой новой технологии, когда начинается ее осмысленное использование. Мы можем наглядно увидеть, где и как применяются методы хранения и обработки больших данных, что сохранилось и получилось так, как эксперты предсказывали несколько лет назад, а что – нет или совсем по-другому.
Место
Многие организации, по роду деятельности собирающие, обрабатывающие и хранящие действительно большие объемы информации, сумели развить архитектуру своих систем близко к тому, что мы привыкли называть «озером данных». Технологии больших данных помогли снизить стоимость работы с огромными объемами информации по сравнению с привычными базами данных. Важно отметить: если первоначально казалось, что информация из самых разных источников будет передаваться в системы, построенные для больших данных, и там же обрабатываться (т. е. системы больших данных вытеснят привычные традиционные базы данных), то сегодня многие реализуют несколько иную схему. «Горячие данные» собираются и обрабатываются по-прежнему в реляционной базе данных, а по прошествии определенного времени, по мере их «остывания» перемещаются в системы больших данных. Таким образом выстраивается гибридная архитектура, позволяющая обеспечить оперативный доступ большого числа пользователей к данным, полученным за необходимый период (неделя, месяц, квартал). Одновременно обеспечивается доступ, как правило, небольшого числа аналитиков или маркетологов ко всему объему информации, собранному компанией за значительно больший период времени.
Важной частью такой архитектуры становятся уже не столько технологи, позволяющие обрабатывать большие объемы информации, но интеграционные инструменты, обеспечивающие связь разнородных систем управления данными в единую систему. Такой подход позволяет инженерам данных работать с массивами информации при помощи одного и того же инструмента, привычного для работы с реляционными базами данных, без необходимости переносить данные из хранилища одного типа в другое, без построения промежуточных витрин данных и других сложных процедур, которые существенно замедляют работу аналитика и добавляют задач ИТ-департаментам. Нет необходимости различать, где конкретно хранятся данные – еще в реляционной базе или уже, например, в Hadoop.
Требования
Использование технологий больших данных в серьезном бизнесе, прежде всего в финансовом секторе, потребовало решить еще несколько вопросов, которые не стояли так остро, пока технологии больших данных использовались для маркетинга или электронной коммерции.
Во-первых, потребовалось решить задачу информационной безопасности. Особенно если организация решила развернуть у себя «озеро данных», в которое по определению собирается информация из самых разных систем. Понятно, что если данные в системах-источниках защищены самыми разными способами, вплоть до шифрования, после их выгрузки в «озеро данных» надо обеспечить их защиту уже там. Поскольку иметь доступ к данным в «озере» – означает иметь доступ вообще ко всем данным компании. К счастью, оказалось, что задача защиты больших данных позволяет использовать в том числе уже известные инструменты, хотя это и усложняет работу служб ИТ, обеспечивающих сопровождение систем класса больших данных.
Кроме решения обеспечения информационной безопасности потребовалось также организовать катастрофоустойчивую архитектуру. Задача сохранности данных, ставшая особенно важной, когда большие объемы информации собираются в одном месте, была решена с применением шифрования и защиты доступа. А для построения архитектуры с географически разнесенными центрами обработки данных потребовались специализированные решения. Такие системы позволяют теперь иметь не только два или больше набора одинаковых данных, но и разделять их между разными группами пользователей. Например, решение компании WANdisco позволяет синхронизировать несколько Hadoop-кластеров не только в полном объеме, но и выборочно – только те наборы данных, которые должны быть доступны всем сотрудникам организации. Таким образом, задача контроля доступности данных решается очень элегантно: в одной системе хранятся собственные данные, например одного департамента, плюс те, которые в эту систему были переданы из другого отдела в рамках синхронизации части набора данных другого Hadoop-кластера.
Применение
По-прежнему одной из главных ниш для использования технологий больших данных остаются системы маркетинга. Возможность сбора профилей собственных пользователей с обогащением их данными из открытых источников помогает строить более точные модели для выработки маркетинговых стратегий. Появились решения, позволяющие разворачивать подобные системы в кратчайшие сроки. Например, решение компании CleverDATA «1DMP – Data Marketing Platform» обеспечивает гарантированное улучшение качества работы с клиентами, которое можно реально оценить с точки зрения срока возврата инвестиций в платформу.
Другим классическим примером использования больших данных являются системы, анализирующие данные из собственных и открытых источников информации для выявления взаимных зависимостей различных объектов. Подобная технология часто требуется для обеспечения безопасности бизнеса. Сегодня на российском рынке есть компании, предоставляющие готовые и проверенные продукты, которые позволяют гарантированно решать подобные задачи. Компания Айкумен ИБС предлагает целый набор продуктов для заказчиков из самых разных отраслей. Решения позволяют, например, выявлять попытки нарушений, мошенничества и коррупции, проверять надежность подрядчиков, контрагентов и т. п.
Очень важной и по-прежнему бурно развивающейся сферой применения технологий больших данных остается рынок Интернета вещей (Internet of things, IoT). Особую динамику этой отрасли придает то, что здесь пересекаются два важных современных тренда – большие данные и облака. Сегодня многие компании ищут способы использования облачных технологий, как когда-то искали способы реализации больших данных. Появление в облаках возможности собирать, хранить и обрабатывать генерируемые различными устройствами данные стало той самой инновацией, которая сегодня широко востребована в самых разных сегментах бизнеса. Сейчас Интернет вещей – самостоятельная технология, в основе которой лежат большие данные. Перечень областей, где начинает применяться IoT, постоянно расширяется: от систем, образующих «умный город», до медицины. Многие крупные международные и российские компании, в т. ч. интернет-компании, телеком операторы, в качестве облачного сервиса предлагают свои облачные платформы, готовые и преднастроенные для размещения решений класса IoT. Такая ситуация критически снижает планку входа для тех, у кого есть идеи и наработки в этой области.
Перспективы
Если же говорить о перспективах развития рынка больших данных, то, коротко говоря, они есть. Сейчас эти технологии стали более зрелыми, кроме того, появляются специалисты с необходимой экспертизой и опытом в области построения, эксплуатации и развития систем больших данных. Уже есть готовые продукты, облегчающие задачу внедрения решений на базе конкретных технологий, продукты для интеграции самых разных компонентов, облачные платформы с развернутыми ресурсами.
Ключевой трудностью развития больших данных остается дефицит на рынке аналитков и инженеров данных, которые умеют грамотно разрабатывать и реализовывать задачи в сфере больших данных. Проблема не нова – постановщики задач всегда были штучным товаром. Нет сомнений, что и этот вопрос со временем будет решен.
Использование Big Data | |
4 признака Big Data: volume, velocity, variety, value | |
В качестве интеллектуального архива | Данные из одной или разных СУБД выгружаются в Big Data, снижается стоимость владения, увеличивается время доступа к данным, сохраняется возможность для работы аналитиков |
Для обогащения данных пользователей | Маркетинг, служба по работе с заемщиками |
Маркетинг | Микро-сегментирование сообщества потенциальных и существующих клиентов, адресная реклама |
Сегментирование клиентов, формирование сценариев работы с каждой группой, повышающее качество обслуживания | |
Безопасность | Построение графов связанности, позволяющих выявлять скрытые взамозависимости |
Системы автоматического распознавания (предметов, людей) | |
Системы мониторинга | Сбор данных с датчиков или более сложных систем, например, с лог-файлов и файлов диагностики серверов, систем хранения данных и т.п. С последующей аналитикой, позволяющей выявлять проблемы на ранних стадиях или обнаруживать корреляции между слабо связанными событиями |
Решения класса IoT | Системы мониторинга и управления ЖКХ |
Системы мониторинга и управления дорожным движением | |
Другие системы класса «Умный город» | |
Медицина — сбор данных с носимых устройств, оперативная аналитика, выявление критического состояния пациента | |
Промышленность — сбор данных телеметрии, анализ при помощи инструментов статистического анализа | |
Сельское хозяйство — мониторинг и управления средствами автоматики |