Согласно общемировым тенденциям значительное количество ИТ-решений все дальше уходит в сторону программирования ПО, нежели продолжает базироваться на элементарной логике. Это характерно и для сферы хранения данных, в которой сегодня стремительно набирает обороты технология SDS (Software Define Storage – программно-определяемое хранение). Активное развитие систем SDS обусловлено проблемой хранения и управления значительным объемом информации. Так, в мировом масштабе, по оценкам экспертов, он составляет порядка 8 экзабайт. К 2020 г. эта цифра увеличится вдвое. Именно программная среда открывает нам новые возможности по использованию механизмов сжатия и дедупликации.
Актуальность SDS-решений
Развитие логики, на которую накладывается стремительно совершенствующееся ПО, позволяет снижать цену решений относительно классических систем хранения данных. В настоящий момент стоимость твердотельных носителей уже сравнялась по стоимости с классическими шпиндельными дисками. Это дает возможность на одном носителе хранить такой же объем информации, но в то же самое время обеспечить бóльшую его производительность. А вместе с экономией свободного места – за счет дедупликации, сжатия и тонкого выделения ресурсов – мы получаем более низкую стоимость гигабайта данных, чем раньше.
Рассматривая тенденции к объединению, следует отметить и еще один немаловажный момент: все больше решений совмещают в себе ресурсы вычисления и ресурсы хранения, становясь гиперконвергентными. Это позволяет дополнительно уменьшить стоимость владения парком оборудования и сэкономить пространство в ЦОД, оптимизируя тем самым потребление электроэнергии.
С развитием частных и публичных облаков SDS-решения становятся все более актуальными. В Америке и Европе большинство облачных провайдеров сейчас активно используют гиперконвергентные SDS-решения, в России эти тенденция только начинает проявляться.
Характеристики SDS-решений
Гиперконвергентный тренд идеально ложится на модель применения серверов как единиц хранения. Фактически в них мы имеем то же самое количество дисков, что и в дисковых полках классических систем хранения. Благодаря увеличению объемов поддерживаемой памяти открываются самые широкие возможности активного использования механизма кэширования. Тем самым программно-определяемые СХД значительно ускоряются, особенно при последовательных сценариях чтения и записи. Современные серверы поддерживают теперь достаточное количество PCI-e слотов, чтобы обеспечить все типы подключений: от 10 Гбит до InfiniBand. Стоит отметить, что SDS-продукты достаточно чувствительны к сети, поскольку интерфейс управления сервером построен именно на ней. IP-таргетирование применяется практически во всех SDS-продуктах.
Большинство SDS-решений не имеет привязки к конкретному оборудованию. Компании могут использовать любые серверы, в том числе уже имеющиеся на балансе предприятия, масштабируя систему в нужный момент. При этом процесс масштабирования происходит достаточно просто и эффективно: администратор подключает сервер с установленным ПО в сеть и вводит его в систему двумя кликами. Инфраструктурных препятствий как таковых нет. Единственное, что может ограничить масштабирование, – это пропускная способность сети.
Диски SDS-система видит как единый дисковый массив, оценивая напрямую контроллер. В качестве уровня защиты информации указанные продукты в основном предлагают зеркало. Этим можно объяснить большие потери дискового пространства при использовании системы – они прямо пропорциональны количеству копий, которое планируется хранить. Современные продукты поддерживают до трех копий данных, в том числе объектно.
Оптимальный способ использования SDS-системы – построение объектных хранилищ. Объясняется это особой архитектурой, благодаря которой каждый узел сочетает в себе функции контроллера. В зависимости от количества узлов на выходе у вас получится соответствующее количество контроллеров. Выходить из строя без потери информации при этом могут больше половины контроллеров. В облаке компании КРОК используется SDS для объектного хранилища, но блочного, в том числе и на Flash, также в данный момент тестируются существующие на рынке решения.
Интеграция SDS и Flash-СХД
В эру экспансии Flash-памяти SDS становится все более конкурентоспособным решением на рынке систем хранения. За счет того, что уже сейчас твердотельные диски объемом до 1,5 ТБ идентичны по стоимости с механическими дисками, скорость взаимодействия SDS-систем постепенно сравнивается с классическими СХД. Цена на такого All-Flash-массива будет значительно меньше, а использование в серверах актуального протокола доступа к твердотельному накопителю NVM Express (NVMe) позволит All-Flash-системам пробиться на рынок Business-Critical-систем.
SDS обладают значительным потенциалом, так как позволяют освободить огромное количество средств, выделяющихся из ИТ-бюджета на СХД, также благодаря им отпадает необходимость держать целый отдел администрирования систем хранения, что для предприятия весьма выгодно. Единственный фактор, который пока не позволяет выйти SDS на новый уровень, – это время отклика системы. Большая программная прослойка еще не может обеспечить достаточную скорость взаимодействия.
В рамках тестирования All-Flash SDS-решений в лаборатории КРОК мы отметили, что производительность системы возрастает в разы по сравнению с классическими системами, имеющими только пул SSD-дисков для тиринга. SSD-диск способен обработать на порядок больше обращений в секунду при меньшей задержке. Кроме того, характер профиля нагрузки имеет намного меньшее значение, чем для механики. Иными словами, не столь важно, как нагружается чип.
Однако стоит отметить несколько условных моментов: использование флеш-памяти требует большей вычислительной мощности, а чтобы система успевала обрабатывать эту отдачу, весьма важны ширина и скорость канала передачи данных на стороне сервера.
Рынок SDS-решений
Оценивая рынок SDS, уже сегодня мы можем говорить о сформированном предложении полноценных и стабильных продуктов, используемых под разные задачи. Компании EMC, VMware, Nutanix, Nexenta, HP и др. предлагают подобные решения для любых систем, помогая строить как небольшие корпоративные инфраструктуры, так и облачные среды крупных провайдеров. Некоторые пакетные решения построены на All-Flash SDS, как, например, у EMC.
Получают распространение и OpenSource решения. Например, с помощью Ceph можно создавать том числе и All-Flash СХД. Эта свободная платформа открывает массу возможностей для хранения. Система может реплицировать данные, позволяет создавать снапшоты, осуществлять тиринг между пулами и распределять метаданные между множеством узлов хранения. Поскольку код открыт, можно подключать к системе совершенно различные модули, оптимизировать ее под любые нужды и требования инфраструктуры. Широкие возможности оптимизации имеются также и на этапе формирования серверного интерфейса сети, вплоть до создания собственного алгоритма поверх протокола TCP/IP для отладки трафика. Стоит отметить, что достаточно большая часть современных продуктов мировых вендоров построена как раз на основе Ceph. Все, что предлагают поставщики, включая оптимизации под All-Flash, – это отдельно дописанные блоки кода, оптимизированные под общую нагрузку.
Между тем создание массива на Ceph – это долгая, трудоемкая и сложная работа. Она требует, во-первых, определенного количества специалистов с фундаментальным знанием сетей хранения данных и экспертизой в программировании. Каждая инфраструктура имеет свои особенности, и от квалификации инженеров здесь зависит все – вплоть до работоспособности All-Flash-решения. Например, может помешать неправильно составленный алгоритм, при котором отдача станет минимальной. Кроме того, разработчики Ceph не обеспечивают поддержку решения. Таким образом, внедрять указанную платформу стоит лишь при развертывании некритичных инфраструктур малого размера. При использовании в инфраструктурах крупного масштаба следует обращаться к специализированным ИТ-компаниям, имеющим значительный опыт на интеграционном рынке.
Для создания больших инфраструктур и промышленных систем, а также разворачивания критически важных сервисов, безусловно, следует использовать проприетарные продукты проверенных вендоров. Это позволит, во-первых, получить доступ к квалифицированной поддержке. Во-вторых, использовать отлично отлаженный код, оптимизированный и протестированный на различных инфраструктурах и оборудовании. И как следствие, система хранения, построенная на флеш с использованием SDS, будет стабильной и предсказуемой, в том числе с точки зрения планирования отдачи и соответствующих нагрузок. В-третьих, немаловажным фактором станет наличие единого удобного интерфейса управления с понятными командами и логикой. В отличие от проприетарных систем Ceph, например, управляется командной строкой и логикой команд Linux, и нередко администраторы СХД не обладают соответствующими знаниями, чтобы работать с таким решением. Если к этому добавить трудоемкий процесс, например, создания большого количества LUN или прописывания путей, тогда становится понятно, что это может существенно повысить стоимость проекта. Поэтому в большинстве случаев в крупных компаниях внедрение таких продуктов, как EMC ScaleIO, VMware vSAN, NexentaStor и Datacore SAN Symphony, оправдывает себя.
Подводя итоги, можно сказать, что технологии постоянно движутся вперед, вместе с тем они становятся с каждым годом все доступнее. Стоимость за Flash-гигабайт будет и далее стремительно снижаться. Гиперконвергентные решения уже вытесняют классические системы с рынка, и в перспективе ближайших десятилетий программно-определяемые хранилища займут на нем основную долю.