В 2001 г. компания META Group (ныне Gartner) ввела в обиход термин «большие данные», дав им определение, в русском переводе звучащее как «информационные активы больших объемов, обеспечивающие высокие скорости доступа и имеющие различный тип и источники». Это происходило на волне экспоненциального увеличения объемов информации и потребностей в их обработке и высокоскоростном доступе к ним. В дальнейшем понятие «большие данные» эволюционировало и к нему было добавлено упоминание о новых формах обработки информации в целях реализации механизмов принятия решений, глубокого анализа данных и оптимизации процессов. Каждый уважающий себя вендор, журнал или эксперт давали свои расширенные определения этого понятия.
Трансформация понятия «архив»
Если отойти от битвы терминов, налицо появление новой фазы в процессе эволюции управления данными, которая характеризуется экспоненциальным ростом их объемов, возникновением объективной потребности в управлении ими и новыми возможностями анализа и новым уровнем ценности достигнутых результатов, получить которые ранее, на малых объемах информации, было нереально.
Причиной, по которой начали оформляться контуры больших данных в начале 2000-х, многие считают развитие WWW-технологий, которые послужили толчком перехода тысяч пользователей от классической клиент-серверной модели потребления ИТ-услуг к многомиллионной интернет-аудитории, создающей и потребляющей контент разных типов и объемов в различных географических точках мира.
Все это привело к несоответствию имеющихся информационных технологий новым требованиям, которые оформлялись вследствие изменения характера потребления информации, − это был переход от пассивного потребления информации (читатель статьи в новостном фиде) к ее активной генерации и обмену (блоги, сайты, фото- и видеохостинги, социальные сети). В то же время в медиаиндустрии, здравоохранении, производственных областях, везде и повсеместно, переход на цифровые технологии хранения и обработки информации, появление новых информационных систем также привели к взрывному увеличению объемов информации и потребностей в новых инструментах и технологиях по работе с ней.
Более того, одновременно с ростом объемов данных изменялись требования бизнеса и регуляторов по обеспечению постоянного доступа к информации и ее хранения в течение многих лет. Реалии современной корпорации − хранить все: журналы межсетевых экранов, файловых и веб-серверов, записи netflow о потоках информации, данные систем управления доступом, систем видеонаблюдения в течение многих месяцев и лет. В соответствии с отчетом IDC пятилетней давности потребности в объемах хранения современной компании увеличиваются на 50% в год. Необходимо также обеспечить возможность надежного хранения информации по мере увеличения объемов.
И если ранее исторические данные были интересны только регуляторам, то сегодня бизнесу необходим, в частности, доступ к историческим данным в режиме реального времени в целях их анализа. Если бизнесу требуется получение исторической информации, которую раньше относили к архивному типу хранения, это означает лишь то, что такая информация должна храниться на быстром носителе, в полностью доступном виде посредством стандартных интерфейсов и инструментов.
Таким образом, классическое понятие архивных данных начало постепенно размываться: потребности современного информационного мира таковы, что никого уже не устраивает вариант с хранением данных, время на доступ к которым может измеряться десятками минут. Очевидно, что назрело время менять как само понятие «архивные данные», так и методы управления ими.
Современные подходы
На изменение методов работы с архивными данными объективно влияют и потребности в сокращении расходов на хранение данных, с одной стороны, ввиду неэффективности применяемых технологий, с другой − в связи с увеличением объемов хранимых данных. Бюджеты на ИТ не успевают покрывать рост расходов на хранение данных. Продолжать вливать средства на модернизацию идеологически отсталых решений по хранению с учетом темпов роста объемов хранения − путь в никуда.
Единственный разумный выход из ситуации − изменение самой идеологии хранения архивных данных.
Можно выделить ряд основополагающих требований к подобным архивам больших данных:
- должно быть построено многоуровневое оптимальное хранение информации, каждый уровень которого имеет собственные характеристики по скорости доступа, числу параллельных обращений, объему и стоимости хранения — перемещение данных между уровнями и обеспечивает выбор требуемых приложению параметров;
- уровни хранения должны обеспечивать независимое друг от друга масштабирование;
- должен быть обеспечен уровень безопасности хранимой информации, удовлетворяющий требованиям регуляторов и аудиторов;
- функционал архива не должен зависеть от применяемых технологий хранения и доступа ввиду того, что срок жизни хранимой информации много больше, чем срок жизни оборудования. То есть такой архив должен быть вендор-агностик.
Подход 1. Активные архивы
Из сказанного следует одно важное свойство всех архивных данных: они должны быть постоянно доступны, другими словами, архив должен быть АКТИВНЫМ, сочетая в себе возможности, с одной стороны, неограниченного по времени хранения неограниченных объемов информации, с другой − оперативного доступа к данным. Именно наличие активных архивов является требованием современных компаний, которые строят свой бизнес на монетизации исторических данных, будь то архивы цифрового телевидения или же статистическая информация для BI-решений.
Одним из ключевых свойств активного архива является управление уровнями хранения информации. Это позволяет, во-первых, обеспечить оперативный доступ ко всем хранимым данным, во-вторых, не тратить ресурсы хранилищ, охлаждения, инженерной инфраструктуры, электроэнергию на хранение «холодных», мало востребованных данных. Каждыйбованныхохоԛǀԛниядыйбованныхореализованнныхохоԛǀԛованииоразличных азличныхннныхохоԛи азличями миличныхннныхохоԛǀԛимилич, обеспечиваянтребуемыеаSLA LAбуемыеаяныхохоԛǀԛпу к данным различного типа. Благодаря этому требования по производительности системы хранения могут быть снижены до необходимого на текущий момент, без резервирования мощностей на перспективу. При этом с точки зрения прикладной системы или пользователя доступ к данным должен быть прозрачным, т. е. используемые для организации многоуровневого хранения технологии не должны никоим образом влиять на потребителей ресурсов архива. Таким образом, за счет абстрагирования от конкретной реализации каждого из уровней и логики их взаимодействия задача хранения данных из задачи управления комплексными хранилищами превращается в задачу управления данными.
В связи с потребностями рынка в подобного рода решениях 27 апреля 2010 г. был образован Active Archive Alliance в виде профессионального объединения в целях продвижения среди организаций новых эволюционных технологий, обеспечивающих надежный, эффективный доступ к архивным данным в режиме реального времени (http://activearchive.com). Его цель − «…развитие знаний и технологий, для того чтобы соответствовать быстро растущим потребностям в архивном хранении данных. Члены альянса поставили цель адаптировать решения, лежащие в основе high-end-суперкомпьютеров и решений телевизионного рынка, для более широкого применения в ИТ-решениях по архивному хранению данных… обеспечить организации лучшими практиками, инструментарием и информацией, необходимой для доступа к архивным данным в режиме реального времени, путем улучшения технологий поиска, хранения, безопасности и доступа».
В настоящий момент альянс объединяет производителей архивных приложений для активных архивов, ленточных библиотек с высокой плотностью записи на ленты и дисковых массивов, файловых систем, облачных решений. В него вошли такие компании, как Fujifilm, HP, Spectra Logic, DataDirect Networks, Crossroads Systems, HGST, Quantum.
Согласно оценкам ведущих экспертов в области хранения данных, основными трендами в области активных архивов в настоящий момент являются: возрастающее значение ленточных библиотек, сочетающих в себе значительный объем инноваций, возможности виртуализации и представления облачных сервисов на их базе; повышение гибкости управления жизненными циклом информации за счет интеграции систем управления архивом с прикладными системами; использование свойств объектных хранилищ, таких как масштабирование, оптимальное соотношение цена/качество, использование в облачных средах и мультипротокольный доступ, в активных архивах.
Подход 2. Archive-in-place
Зачастую, когда речь идет об архивном проекте, подразумевается отдельная инфраструктура, оборудование, мощности и т. п. Идеологически и технически архив становится изолированным образованием на фоне ИТ-ландшафта компании.
При рассмотрении потребностей в аналитике больших данных и тесной интеграции уровня архивного хранения с прикладными системами (BI, etc.) подобная изоляция становится проблемой на пути реализации современных потребностей бизнеса в анализе исторической информации и принятии решений, который не готов относить исторические большие данные к архивным − они нужны ему здесь и сейчас.
Одно из направлений развития архитектур систем хранения четко обозначило отход от централизованного пула ресурсов в пользу множества распределенных сервер-based-хранилищ (SDS), объединенных едиными федеративными политиками обработки данных. Подобный подход, проповедующий архитектурную гибкость инфраструктуры хранения, никак не сочетается с классическим подходом изоляции отдельно стоящего архива. Это привело к изменению парадигмы архивирования информации как множества операций с выделенной инфраструктурой, отделенной от продуктивной среды. Результатом стало рождение стратегии Archive-in-place.
Суть этой стратегии состоит в том, что продуктивные данные не перемещаются из хранилищ, но на них накладываются специально определяемые политики, эти данные относятся к классу (или классам) архивных. Каждый такой класс (или группа классов) может иметь совершенно разные правила, описывающие дальнейшее множество онлайн-операций с данными. Например, критические для бизнеса данные могут быть реплицированы (синхронно или нет) между несколькими локациями, хранилищами различных типов, может быть увеличено количество копий данных, если это требуется. Вторые и следующие копии данных могут быть реплицированы на более медленные (и более дешевые) хранилища, что позволит при необходимости перенести боевую нагрузку на них с определенной долей деградации производительности. Политики управления данными можно распространять на определенный тип данных, востребованных теми или иными приложениями и системами. В такой ситуации, говоря об архивировании данных, необходимо рассматривать только политики защиты данных. Все остальные абстракции просто «не имеют места быть».
Если говорить о процессе «архивирования» информации, то можно отметить несколько основных этапов: классификация данных, классификация систем хранения, отработка механизма применения политик для идентификации данных и связывания с ними политик и запуск процесса применения политик, распределяющих данные между хранилищами в соответствии с политиками.
Таким образом, необходимы система классификации данных и механизм применения политик. Нет необходимости в отдельном механизме перемещения данных на отдельную архивную систему, так как данные архивируются по месту их основного хранения.
Ярким представителем истинной стратегии Archive-in-place является объектно-ориентированное хранилище, в котором операции идут на уровне объектов хранения и накладываемых на них политик, оперирующих типом данных и связанных с ними метаданных. В подобные игры ввязались основные вендоры на рынке систем хранения. Но, скорее всего, такая идеология архивирования не будет связана с какими-то аппаратными реализациями, а изначально будет являться программно-определяемым решением, реализуемым на практически любом серверном «железе».
О сокращении больших данных
Отдельно стоит упомянуть спорный вопрос о применимости технологий дедупликации к большим данным.
Следует иметь в виду, что любое решение, направленное на уменьшение объемов хранимых данных, имеет свою стоимость, выражаемую в усложнении технологии хранения, снижении производительности и дополнительных расходах на хранение служебной информации.
С определенной долей уверенности можно констатировать, что нет однозначного ответа на вопрос о возможности успешной дедупликации больших данных. Слишком много но необходимо учесть, прежде чем дать однозначный ответ. Это и используемые решения по хранению, и тип данных, и характер их поступления в хранилище, и возможность применения различных подходов к дедупликации в каждом конкретном случае (source/inline/target/post-processing-дедупликация).
Если подходить к решению задачи дедупликации больших данных, используя классические технологии, лежащие в основы СХД корпоративного уровня, то в случае массивного инжеста данных на СХД (запись потокового видео, лог-файлов, netflow и т. п.) экономический эффект от сокращения объемов хранения будет нивелирован за счет увеличения потребностей в процессорных мощностях и в оперативной памяти СХД, требуемой для хранения метаданных – хешей данных, используемых в процессе дедупликации.
С другой стороны, вокруг решений MapReduce, Hadoop и HDFS в свое время родилось несколько подходов, которые призваны успешно решать задачу дедупликации распределенных данных (http://www.hadoopsphere.com/2013/02/data-de-duplication-tactics-with-hdfs.html?m=1)
Есть определенные нюансы, которые надо учитывать, принимая решение о том, что все-таки дедупликация больших данных имеет право на существование в вашей инфраструктуре. Как уже говорилось, дополнительной процессорной нагрузки для выполнения процесса генерации и сравнения хешей данных не избежать. Также необходимо выбрать некую золотую середину: после определенного процента дедупликации рост накладных расходов на процесс дедупликации будет возрастать нелинейно относительно роста доли дедуплицированных данных. Коллизии хешей редки, но тем не менее имеют место быть: необходимо использовать алгоритмы хеширования, которые стойки к коллизиям, если хотите быть уверены в консистентности хранимых данных. Не пытайтесь дедуплицировать сжатые форматы данных, из которых уже была ранее убрана вся избыточность. Не имеет смысла пытаться получить эффект от дедупликации на данных, представляющих собой файловые системы с реализованным внутри механизмом дедупликации.
Как никакой механизм не дает выигрыша в работе, так и любая технология не дается даром. И чтобы найти ей уместное применение, необходимо сначала очень хорошо подумать, стоит ли игра свеч и оправдает ли выигрыш в 30% пространства на СХД затраченных средств на реализацию и поддержание решения, которое, кроме всего прочего, отнюдь не делает СХД проще и надежнее.