Интервью с главой представительства компании Pivotal* в России и СНГ.
– Что представляет собой новая концепция больших данных? Специалисты все чаще оперируют терминами «большие» и «быстрые» данные. Вы разграничиваете эти понятия?
– «Быстрые данные» и «большие данные» – это, безусловно, два разных понятия. Под большими данными понимается большой объем информации, быстрые данные могут обладать не такими внушительными «размерами» (от нескольких гигабайт до нескольких терабайт), но требуют обработки с максимальной скоростью, которую может обеспечить физический носитель.
У нас есть решения для работы с обоими типами данных. Для больших данных мы предлагаем систему Shared cache, которая позволяет выстроить информационную систему с единой оперативной памятью, распределенной по территории земного шара. Из последних примеров использования такой системы можно назвать крупнейшую сеть бронирования путешествий Expedia и самый масштабный публичный проект по системе онлайн-бронирования для китайских железных дорог с оборотом продаж до 10 млн билетов в день.
Эффективность работы с быстрыми данными можно повысить за счет использования применения обработки информации в оперативной памяти – In-Memory, которые мы также предлагаем своим заказчикам. Одно из ключевых технологических преимуществ Pivotal перед другими игроками рынка заключается в быстрой интеграции между уровнями больших и быстрых данных. Наши технологии In-Memory легко интегрируются как с массивно параллельной архитектурой СУБД – MPP Greenplum, так и с нашей реализацией платформы Hadoop. Благодаря этому заказчик может использовать весь набор технологий в качестве единого стека.
– Из каких основных и дополнительных компонентов состоит современная инфраструктура хранения для больших данных?
– У каждого производителя свой подход к реализации платформы для работы с большими данными, поэтому однозначно ответить на этот вопрос сложно.
Стандартный подход к построению инфраструктуры хранения для больших данных включает в себя следующие группы компонентов:
- аппаратная платформа;
- сетевая среда;
- программные продукты.
Если говорить о наших решениях, то они универсальны. Мы используем стандартные серверы, стандартную сетевую среду для соединения узлов кластера между собой, а также наши программные продукты для реализации решений. Все технологии, которые мы предлагаем, могут работать как на физических, так и на виртуальных машинах, как в публичных, так и в частных облаках.
– Какая роль отводится аналитическому потенциалу решений в сфере больших данных, насколько востребованы такие решения на российском рынке? Какое значение аналитический модуль имеет для эффективного хранения и использования неструктурированных данных?
– Аналитический модуль не играет ключевой роли в эффективном хранении и использовании неструктурированных данных. Аналитика данных и хранение данных – это две разные предметные области.
Очень часто при работе с большими данными используются те аналитические модули, которые ранее применялись для обработки незначительных объемов информации. Аналитическим системам приходится обрабатывать большой объем данных, однако они не могут выдавать нужный результат в короткие сроки, что, конечно, не устраивает пользователя. Закономерно, что заказчик ищет средства и технологии, способные осуществлять обработку и выборку информации в более короткие сроки, а значит, неминуемо переходит к инструментарию больших данных.
– Какие инструменты оптимизации хранения больших данных предлагает ЕМС российским заказчикам?
– Наша компания предлагает полный «стек» для построения универсальной системы хранения и обработки больших данных. Такой подход носит название Data Lake («Озеро данных»), он означает единую систему, где осуществляется хранение данных, которые затем анализируются.
Уникальность наших решений заключается в том, что мы предлагаем технологии для структурированных и для неструктурированных больших данных, а также для быстрых данных.
Для каждого из этих типов у нас имеются соответствующие решения: на базе Hadoop – для неструктурированных данных, MPP Greenplum – для больших объемов структурированных данных, на базе технологий GemFire и SQLFire – для данных в оперативной памяти. Следует отметить, что все эти уровни интегрированы между собой и каждый из них обрабатывает тот массив данных, который ему подходит.
* Pivotal наряду с компаниями EMC, Vmware, RSA входит в федерацию ЕМС и специализируется на создании решений в области больших данных.