ИТ-инфраструктура прошла большой путь технологического развития. И с самого начала в основе лежал подход к виртуализации ресурсов – с мейнфреймов IBM 1970-х гг. и последующей классической виртуализации (в конце 90-х) до концепции все той же IBM под названием «программно-определяемое все» (Software-Defined Everything – SDE), реализующей идею абстрагирования сервисов от нижележащей аппаратной инфраструктуры с программно-определяемыми ЦОД как апогеем всего пути.
«Программно-определяемое все»
В основе этого процесса, конечно же, лежит концепция консолидации и максимально эффективного использования ресурсов, представляющая весь имеющийся аппаратный потенциал посредством технологий виртуализации как общую емкость хранения данных, вычислительных мощностей и сетей передачи данных.
Вопросы эффективного использования аппаратных ресурсов и сокращения TCO во многом являются ключевыми для подсистемы хранения данных – в частности, это связано с нарастающей необходимостью работать с большими данными. Согласно исследованию IDC Perspectives и оценке экспертов, уже сегодня подсистема хранения данных занимает второе место среди всех статей расходов компаний на ИТ и составляет около 25% общего объема затрат.
Начавшийся не так давно бум стартапов усугубляет ситуацию: новые технологии, более удобные для пользователя, требуют новых подходов к построению на ИТ-уровне. Выражаясь языком СХД-специалистов: в целях обеспечения высокопроизводительного фронтенда (UserInterface) необходимо оптимизировать и модернизировать бэкенд (IT infrastructure).
Сегодня все больше компаний ищут пути замены классических систем хранения данных программно-определяемыми решениями (Software-Difined Storage – SDS) в целях снижения стоимости как эксплуатации, так и развития подсистем хранения данных в ИТ-инфраструктуре.
Согласно прогнозам агентства Gartner [2], в 2020 г. 70–80% всех неструктурированных данных будут храниться на недорогих аппаратных решениях, управляемых с помощью SDS – программного обеспечения, осуществляющий построение подсистемы хранения данных в ИТ-инфраструктуре без фактической привязки к какому-либо конкретному аппаратному решению и/или вендору таких решений, что дает свободу выбора.
Преимущества программно-определяемых решений
Использование программно-определяемых решений обеспечивает следующие ключевые преимущества.
- Независимость от типа используемого оборудования: решение может работать на оборудовании самого широкого спектра архитектуры x86, позволяя тем самым гибко подбирать конфигурации аппаратных компонентов, их исполнение и проектировать решения, максимально точно соответствующие текущим бизнес-требованиям с точки зрения масштабов хранения и производительности. Далее, благодаря универсальности исчезает проблема совместимости аппаратных компонентов. Для построения подсистемы хранения данных теперь возможно маневрирование между конечной стоимостью решения, объемом хранения данных и производительностью за счет широких возможностей в выборе аппаратной базы. Будем ли мы использовать оборудование с NVMe? Или сможем сбалансировать систему за счет использования обычных HDD в связке с SSD? Выбор зависит от требований заказчика. В любом случае такой гибкий подход позволит решать проблемы избытка емкости при недостатке производительности.
- Возможности расширения подсистемы СХД: как уже было отмечено, год от года наблюдается стабильное увеличение объемов хранимых и обрабатываемых данных, что рано или поздно приводит любую систему к необходимости расширения. В отличие от традиционных решений SDS поддерживает горизонтальное масштабирование, позволяющее добавлять в состав подсистемы СХД дополнительное оборудование. Отметим также, что далеко не в каждом случае это должно быть оборудование топовых конфигураций известных вендоров.
- Гиперконвергенция (HCI-решения) – решения, позволяющие рассматривать аппаратное устройство как единицу подсистемы СХД, поскольку в одном устройстве объединены функциональные возможности сети хранения данных и СХД на уровне самой архитектуры. Это позволяет заказчику построить всю подсистему хранения данных из подобных устройств, просто увеличивая их количество в зависимости от потребностей: сколько нужно кирпичиков, чтобы построить дом на двоих? А на десяток семей?
- Erasure Encoding – набор алгоритмов, которые восстанавливают недостающие данные по имеющимся фрагментам. Основная идея заключается в том, что данные разбиваются на определенное количество фрагментов, для некоторых из них создаются копии, так называемые коды избыточности. На больших объемах данных стандартные политики RAID становятся все менее эффективными вследствие сложности управления дисковыми группами, перерасхода дисков, снижения производительности, угроз сохранности данных. Алгоритмы Erasure coding (кода избыточности) защищают данные лучше и могут быть не привязаны к отдельным устройствам хранения и даже площадкам размещения.
На сегодняшний день на рынке присутствует существенное количество SDS-решений от известных вендоров аппаратного и программного обеспечения, в числе которых можно назвать Commvault, VMware, HPE, и решений на основе свободного программного обеспечения, доступных как с официальной технической поддержкой (например, решения Red Hat), так и от сообщества независимых разработчиков.
Решение от Commvault
Не так давно Commvault, занимающая лидирующие позиции на рынке решений резервного копирования (согласно исследованию The Forrester Wave: Data Resiliency Solutions Q3 2019), приобрела решение Hedvig. Недоумение: что может быть общего между программным обеспечением резервного копирования и SDS? – сменяется осознанием того, что программное обеспечение резервного копирования по сути тот же оркестратор активных данных и их копий. Hedvig за свою семилетнюю историю превратился в уникального провайдера решения SDS для блочного, файлового и объектного хранения как активных данных (primary), так и копий данных (secondary). В качестве ключевых преимуществ платформы Hedvig стоит отметить следующие.
- Масштабируемая программная архитектура, обеспечивающая эластичность, необходимую для увеличения объема данных максимально синхронно с изменением бизнес-требований заказчиков.
- Flash-оптимизированные службы FlashFabric используют Flash-память для динамического распределения и оптимизации производительности в частных и общедоступных облаках.
- Нативная многосайтовая репликация: уникальные решения по доступности данных в ЦОД и облаках вместе с оптимизацией доступности данных.
- Полная автоматизация и оркестрация: автоматизация предоставления доступа к ресурсам хранения и управления с помощью платформы оркестрации и API для компонуемой инфраструктуры.
- Адаптированные под приложения политики данных: приведение в соответствие потребностей приложений с политиками хранения данных, включая дедупликацию, сжатие, репликацию и шифрование, что позволяет формировать уникальные политики, максимально адаптированные под индивидуальные наборы данных.
Еще одной замечательной особенностью архитектуры Hedvig является наличие двух режимов масштабирования – Hyperscale и Hyperconverged. Почему это важно? В настоящее время предлагаемые разными вендорами гиперконвергентные системы разделились на два класса: HCI и dHCI (disaggregated HCI). Каждый класс позволяет ответить на вопрос о том, нужно ли вам масштабировать синхронно вычислительные мощности и объем хранимых данных. А если требуется много вычислительной мощности при небольшом объеме хранимых данных? Или, наоборот, вы храните архивные данные и большой объем CPU и RAM не так важен? Два режима масштабирования Hedvig позволяют реализовать оба сценария: независимое масштабирование вычислительной мощности и объемов хранения данных либо синхронное масштабирование обоих компонентов.
При современных технологиях сетей передачи данных вероятна ситуация, когда доступ к данным на удаленном сайте может быть оптимальным по времени отклика, если локальное хранилище данных перегружено запросами. Использование технологий мультисайтовой репликации Hedvig и Storage Proxy позволяет обеспечить не только оптимальную производительность ИТ-инфраструктуры, но и отказоустойчивость с репликацией на несколько сайтов с прозрачной миграцией виртуальных машин.
Дополнительные преимущества Hedvig, в частности, наличие порталов самообслуживания, возможность использования вычислительных мощностей архитектуры ARM, полная совместимость с современными средами разработки, делают Hedvig весьма серьезным игроком в мире, где работают технологии IoT, AI, ML, DevOps.
Решение от VMware
Решение от вендора, признанного лидера на рынке систем виртуализации, всегда заслуживает отдельного внимания. На сегодняшний день внушительное число корпоративных заказчиков используют решения виртуализации от VMware. Именно для них в первую очередь будет интересно решение vSAN, поскольку оно позволяет сохранить моновендорность и максимальную совместимость программных решений, применяемых в инфраструктуре.
VMware Virtual SAN (или vSAN) – это концепция распределенного хранения данных. Ключевой особенностью названного решения является тесная интеграция с платформой виртуализации VMware vSphere, что позволяет развертывать на серверах виртуализации программное хранилище для виртуальных машин за считаные минуты. vSAN берет на себя непосредственно управление операциями ввода-вывода на низком уровне, оптимально распределяя нагрузку, занимается кэшированием операций чтения и записи, выполняет операции с минимальной нагрузкой на память и процессор.
vSAN можно сконфигурировать как гибридное хранилище и в виде All-Flash-варианта. Оно масштабируется и горизонтально – добавлением новых узлов в кластер, и вертикально – увеличением количества дисков в отдельных узлах. Управление решением осуществляется с помощью веб-клиента vSphere.
Из ключевых особенностей решения стоит отметить следующие.
- Носитель, отданный для организации vSAN и объединенный в дисковую группу, используется исключительно для организации системы хранения. Дисковые группы объединяются в пул, доступный всему кластеру виртуализации vSphere, и организуют общее внешнее и отказоустойчивое хранилище, для передачи данных которого применяется собственный протокол (FC, iSCSI или NFS для обмена данными не нужны). Данные дисковых групп и блоки «четности» дублируются на одном или нескольких узлах в зависимости от выбранных параметров отказоустойчивости vSAN.
- vSAN позволяет по-разному обеспечивать отказоустойчивость для различных виртуальных машин (ВМ) или их дисков: в рамках одного хранилища можно для критичных к производительности ВМ привязать политику с зеркалированием, а для менее критичных ВМ – настроить Erasure Coding (RAID5/6 поддерживается только All-Flash).
- vSAN представляет собой объектное хранилище, данные в котором хранятся в виде объектов или гибких контейнеров (Flexible Containers), распределенных по всему кластеру. Управление хранением осуществляется с помощью политик Storage Policy Based Management. vSAN допускает изменение политики хранения без остановки ВМ, запуская в фоне процессы перераспределения. При распределении объектов по кластеру vSAN контролирует корректность распределения компонентов по разным узлам или доменам отказа (Fault Domain).
Классическая организация vSAN с применением узлов-гипервизоров ESXi не требует дополнительных программных модулей-расширений к vSphere: для построения vSAN используются узлы ESXi, а управление доступно через vCenter. vSAN не требует нарезки LUNов и файловых шар, снабжения их узлам и организации внешнего хранилища, а также выделенной сети хранения.
Тем не менее сегодня есть один серьезный стоп-фактор на пути заказчика к внедрению vSAN – это довольно высокая стоимость лицензии в рублях. Если заказчик создает инфраструктуру с нуля, то традиционная система хранения данных в сходной конфигурации будет стоить примерно столько же. Но при этом она будет менее гибкой с точки зрения администрирования и масштабирования. Поэтому сегодня при выборе решения для хранения данных виртуальных машин на платформе виртуализации vSphere стоит взвесить все плюсы и минусы использования традиционных решений, внедрения технологии программного-определяемого хранения vSAN или альтернативных SDS-решений.
Например, можно собрать решение на Ceph или на GlusterFS, но при работе с инфраструктурой VMware подкупают тесная интеграция vSAN с отдельными компонентами, а также простота администрирования, развертывания и заметно более высокая производительность, особенно на небольшом количестве узлов. Поэтому если заказчик уже работает на инфраструктуре VMware, то ему будет гораздо проще с развертыванием – по сути, оно будет состоять из десятка кликов мышкой в графическом интерфейсе до работающей «SDS из коробки».
Другим не менее значимым мотивирующим фактором к развертыванию именно vSAN может стать использование ее для филиалов (геораспределенных площадок), что даст возможность зеркалировать узлы в удаленных подразделениях с Witness-узлом в дата-центре. Такая конфигурация позволяет получить отказоустойчивое хранилище для виртуальных машин со всеми технологиями и производительностью vSAN всего на двух узлах. Кстати, для использования vSAN существует отдельная схема лицензирования по количеству виртуальных машин, что дает возможность сократить затраты по сравнению с традиционной схемой лицензирования vSAN по процессорам.
Решение NetApp ONTAP Select
NetApp ONTAP Select позволяет использовать надежные сервисы хранения корпоративных данных, без лишних сложностей развертывания, на недорогих аппаратных средствах на выбор заказчика непосредственно в его ЦОД. Это решение сочетает лучшие свойства облака – гибкость и гранулярность масштабирования дискового пространства – с эластичностью, отказоустойчивостью и локальным размещением на мощностях предприятия.
ONTAP Select преобразует внутренние накопители сервера (SSD или жесткие диски) в гибкую и динамичную платформу хранения данных, обладающую многими преимуществами специализированных СХД на базе NetApp ONTAP. Решение можно разворачивать на новых серверах или же на существующей серверной инфраструктуре, тем самым повышая ее гибкость. ONTAP Select отличается простотой в управлении и использует то же ПО для управления, что и все остальные решения на базе ONTAP, что позволяет сократить операционные издержки и потребность в подготовке персонала.
Решения на основе Open Source
Среди решений на базе открытых исходных кодов в первую очередь следует отметить два базовых продукта: Ceph и Gluster.
Ceph – это платформа хранения данных с открытым кодом, предназначенная для создания распределенного кластера и предоставляющая интерфейсы для работы с данными на уровне как объектов, так блоков и файлов. В сегодняшнем виде платформа Ceph является оптимальным кандидатом на роль хранилища объектов, поскольку, несмотря на относительную молодость этого проекта, она уже эксплуатируется крупными корпоративными заказчиками и обладает подтвержденными практикой гипермасштабируемостью, гибкостью, а также надежностью и безопасностью, присущей проприетарным решениям систем хранения данных корпоративного уровня.
Решение проектировалось в расчете на использование в составе облачных инфраструктур и крупномасштабных объектных хранилищ данных. Использование отраслевых стандартов и открытых API позволяет значительно упростить процесс миграции и интеграции имеющихся приложений и сервисов заказчика, а обращение к хранилищу данных может выполняться через Amazon S3, OpenStack Swift или собственные API-протоколы. В отличие от традиционных систем хранения Ceph изначально проектировалась для работы с большими массивами данных – от петабайта и выше. Будучи по сути классическим SDS-решением, она поддерживает горизонтальное масштабирование и может работать в различных аппаратных конфигурациях – в зависимости от требований к подсистеме хранения данных, т. е. состоять как из нескольких Linux-машин, так и из тысячи узлов. Уже известно о применении решения Ceph в инфраструктурах с размером хранимых/обрабатываемых данных в сотни петабайт.
GlusterFS – второе ключевое решение, основанное на открытых исходных кодах. К сожалению, оно менее универсально по сравнению с аналогичным решением Ceph. По сути дела, это сетевая распределенная файловая система, применяемая в облачных вычислениях, хранении медиаконтента и сетях доставки мультимедийного контента.
Указанное решение способно объединять множество серверов по сети Ethernet или Infiniband-RDMA в единую большую параллельную файловую систему. Большая часть функциональности GlusterFS реализована в виде трансляторов, включая зеркальное копирование и репликацию на основе файлов, чередование на основе файлов, балансировку нагрузки на основе файлов, восстановление после отказа тома, планирование и дисковое кэширование, квоты хранилища и моментальные снимки томов с возможностью обслуживания пользователем.
GlusterFS обеспечивает надежность и доступность данных благодаря различным видам репликации: реплицированные тома по площадке или георепликация тома между площадками.
***************************
Какой бы выбор ни сделали заказчики, специалисты ГК «АйТеко» готовы предоставить полный набор услуг, связанный с программно-определяемыми системами хранения данных на основе всего спектра решений ключевых вендоров, решений на основе свободного программного обеспечения, а также собственных разработок.
Проектирование законченных подсистем хранения данных и SAN-сетей под ключ осуществляется с учетом всех требований заказчика, на основе его регламентов информационной безопасности и корпоративных стандартов, предъявляемых к программному и аппаратному обеспечению ИТ-инфраструктуры.
Ссылки на материалы:
IDC Perspectives (TAdviser), статья «Система хранения данных – СХД»
http://www.tadviser.ru/a/53839
New technologies are disrupting legacy storage technologies// сайт Market Realis
https://articles2.marketrealist.com/2015/09/third-platform-changing-landscape