Масштабируемость – способность продолжать решать задачу, когда масштабы этой задачи растут.
Тео Шлосснагл
За последние несколько лет человечество произвело информации больше, чем за всю предшествующую историю своего существования. Мы генерируем данные в огромных объемах: согласно исследованию IDC, уже к 2020 г. будет накоплено около 44 зеттабайт (для сравнения: в 2014 г. – только 4,4 зеттабайта). Развитие Интернета вещей, промышленного Интернета, увеличение разрешения камер видеонаблюдения, повышение пропускной способности каналов – все это приводит к экспоненциальному увеличению объема информации. Соответственно растет потребность в системах хранения данных, ужесточаются технические требования к ним.
Scale-up vs. Scale-out
Архитектурно системы хранения данных (СХД) можно поделить на два типа: Scale-up – традиционные системы с вертикально масштабируемой архитектурой и Scale-out – горизонтально масштабируемые системы.
По оценкам экспертов компании «АРСИЭНТЕК» (RCNTEC), на сегодняшний день около 95% российских ИT-компаний используют системы хранения данных с вертикально масштабируемой архитектурой.
Традиционные СХД с вертикальным масштабированием (Scale-up) ограничены производительностью контроллеров. Емкость таких систем ограничивается десятками петабайт, и наращивается она путем добавления дисковых полок, количество которых всегда лимитировано. При этом распределение информации между старыми и новыми массивами является ручной операцией, а процесс переноса сопровождается снижением производительности СХД. Рано или поздно такие системы достигают своего потолка, и тогда приходится покупать новый, более мощный контроллер. Независимо от мощности контроллера при увеличении объемов данных и интенсивности работы с ними контроллеры как единственная точка входа-выхода становятся «бутылочным горлышком» подобной системы.
Основатель OmniTI инженер Тео Шлосснагл (Theo Schlossnagle), член IEEE и ACM, совершенно правильно утверждал, что именно «горизонтальное масштабирование – лучший (и единственный полноценный) способ масштабирования».
На сегодняшний день лучше всего задача масштабирования решена крупнейшими зарубежными и российскими интернет-компаниями – Amazon, Google, Facebook, «Яндекс», «ВКонтакте». Они давно осознали, что вертикальным масштабированием постоянно наращивать емкость и производительность СХД нельзя, и начали строить свои системы хранения из большого количества маленьких блоков, стыкующихся в общую сеть хранения данных.
В горизонтально масштабируемых системах (Scale-out) отсутствуют централизованные контроллеры, клиенты общаются с дисковыми модулями напрямую. Соответственно при необходимости увеличить емкость системы хранения или производительность в общую систему просто устанавливаются и подключаются дополнительные дисковые модули.
Таким образом, любая компания может начать с минимально необходимого ей количества модулей и затем уже плавно расти по мере увеличения потребности в дисковом пространстве и производительности.
Естественно, расширять емкость и производительность уже имеющейся системы выгоднее, чем менять ее на новую, более мощную, поэтому такое горизонтальное масштабирование является набирающим силу трендом.
Программно-определяемые СХД – естественная закономерность развития ИТ
Рассуждая о перспективах повышения масштабирования, мы говорим прежде всего о горизонтально масштабируемых системах хранения данных. Это в первую очередь программно-определяемые СХД (Software-Defined Storage – SDS).
Сейчас даже у классически сильных вендоров СХД в портфолио есть системы SDS, например, та же ScaleIO у компании EMC, влившейся недавно в Dell.
Если смотреть на развитие систем хранения данных в контексте общего развития ИТ-технологий, то мы увидим, что появление и развитие программно-определяемых СХД выглядит как вполне естественная закономерность. Например, в телекоммуникациях уже фактически совершилась подобная трансформация проприетарных систем на базе TDM и закрытых управляющих модулей в сторону VoIP и выноса логики управления на открытые платформы, в первую очередь ОС Linux на commodity ×86 серверах.
Нечто похожее происходит сейчас в радиосвязи, когда на замену приемопередатчикам с жестко реализованным в «железе» набором функциональных возможностей приходит технология Software Defined Radio (SDR), где это реализуется на базе открытых DSP. В области сетей активно развивается технология Software Defined Networking (SDN) – она означает разделение уровня непосредственно коммутации пакетов и логики управления этим процессом с выносом последней опять же на открытые платформы. Так что программно-определяемые СХД являются естественным продолжением общего тренда.
«Все системы давно уже, в первую очередь – это ПО, – подтверждает генеральный директор «АРСИЭНТЕК» Денис Нештун, – но когда нужно, чтобы система работала хорошо, ПО и оборудование должны работать вместе, а для этого они должны быть протестированы и взаимоувязаны. Долгое время мы осуществляли поддержку самых разных информационных систем и отлично понимаем, насколько трудно обеспечить работоспособность, если у вас ИТ-оборудование и/или программное обеспечение разношерстные. Мы стараемся избавить заказчика от этой головной боли и поставляем ему аппаратно-программный комплекс, о котором знаем, что он точно будет работать. При наращивании емкости он будет понятным образом развиваться и, что очень важно, обеспечит совместимость разных поколений дисковых модулей. По сути, система хранения данных «Полибайт» является программно-определяемой средой хранения, которая построена на базе нашего аппаратно-программного комплекса».
С увеличением объемов хранимой и передаваемой информации у традиционных файловых хранилищ обнаруживается ряд недостатков. Все более популярными становятся объектные СХД, обеспечивающие высокую производительность и отказоустойчивость при работе с большим объемом неструктурированных данных. Но ключевой функцией этих новых программно-определяемых СХД является использование нескольких протоколов сразу, т. е. сочетание в себе файлового, блочного и объектного хранилища.
Open source: все ли гладко?
Выбирая себе систему хранения данных, многие останавливаются на SDS c открытым кодом, таких как GLUSTERFS, CEPH, ZFS, LUSTRE и др. Обычно к таким решениям приходят те, кто хочет сэкономить, ибо зачем покупать готовое решение у кого-то, когда и самому можно скачать все то же самое, причем бесплатно.
Но подобная экономия может дорого обойтись. Во-первых, сделать так, чтобы система заработала, т. е. увязать открытое ПО с имеющимся у вас «железом», под силу далеко не каждому. Квалификация инженеров в компании должна быть очень высокой.
Во-вторых, в отличие от коммерческих ЦОД, когда любой возникшей проблемой занимается вендор, в случае использования Open Source все проблемы и сбои ложатся на плечи самого внедренца.
В истории есть случаи, когда из-за таких сбоев разрушались целые бизнесы. Например, компания Cloudmouse сделала свою систему на текущей версии CEPH и в результате сбоя в марте 2015 г. потеряла данные 22 тыс. виртуальных машин, включая их бэкапы. Эта компания в конечном счете была вынуждена уйти с рынка.
В-третьих, баги и сбои неизбежно будут: коммерческие решения не зря стоят своих денег. Чтобы решения Open Source нормально работали, на «допиливание» может уйти не один год кропотливого труда.
Так что «бесплатность» решений Open Source – во многом кажущаяся, а в неумелых руках программно-определяемыe СХД c открытым кодом могут быть просто опасны и для пользователей, и для самой компании.
Все в одном? – Плюсы и минусы гиперконвергентных инфраструктур
Набирающим популярность трендом является идеология создания гиперконвергентных инфраструктур, например EMC VxRail или Cisco HyperFlex.
От конвергентных эти системы отличаются простотой управления и расширения, а также более эффективным использованием оборудования, поскольку фактически здесь все возможные ресурсы объединяются в единый пул. Управление такими системами, осуществляемое через общую консоль, по силам одному системному администратору. Для горизонтального роста гиперконвергентной системы достаточно просто добавлять в нее новые узлы.
Пример хранилища корпоративного класса для подобной гиперконвергентной инфраструктуры – VMware Virtual SAN. Развертывание этого решения может быть выполнено на недорогих стандартных серверах, что позволит избежать компании крупных начальных инвестиций. Управление Virtual SAN максимально автоматизировано. При успешной интеграции с имеющимся оборудованием, как заявляют производители, совокупная стоимость владения может быть снижена до 50%. Из недостатков VSAN можно назвать ограничение максимального количества хостов – их всего 64. Следовательно, масштабируемость такой системы существенно ограничена.
Гиперконвергентные решения нельзя назвать панацеей, и подходят они не всем, скорее, занимают свою узкопрофильную нишу в мире СХД.
«Мы считаем, что гиперконвергентные системы не являются универсальными СХД. Профили использования вычислительных ресурсов и ресурсов хранения данных не одинаковы, поэтому невозможно придумать небольшое количество конфигураций гиперконвергентных модулей, так чтобы они решали потенциально любые задачи в частных или в публичных облаках. На наш взгляд, целесообразно строить независимые горизонтально масштабируемую вычислительную платформу и горизонтально масштабируемую систему хранения данных. Это позволяет наращивать те ресурсы, в которых возникает потребность», – комментирует Денис Нештун.
Flash-революция
Говоря о тенденциях в мире современных СХД, нельзя пройти мимо тренда, который мы сейчас наблюдаем в коммерческих ЦОД: SSD-накопители там постепенно вытесняют традиционные HDD. И это естественно, поскольку они обладают рядом преимуществ: потребляют мало энергии, практически не нагреваются при работе и зачастую по производительности на два порядка превосходят HDD.
Главным минусом твердотельных накопителей относительно шпиндельных можно считать их цену. Однако же, по прогнозам экспертов «АРСИЭНТЕК», эта разница в ближайшие несколько лет непременно начнет сокращаться и постепенно сойдет на нет. Производством HDD-накопителей сейчас, по результатам всех слияний и поглощений, занимаются лишь две компании в мире, а SSD – около 200 компаний. Итак, вендоры вынуждены конкурировать между собой, что приводит не только к снижению цен, но и к ускоренному развитию технологий.
Исследования аналитиков IDC также подтверждают данный тренд: «В I квартале 2016 г. впервые в истории российского рынка внешних систем хранения данных общая стоимость гибридных систем, построенных с использованием Flash-памяти, превысила совокупную стоимость традиционных систем на привычных жестких дисках. Таким образом, революционное изменение можно считать свершившимся, и в будущем нам стоит ожидать лишь роста поставок гибридных систем и систем All-Flash», – полагает Михаил Попов, старший аналитик IDC по корпоративным системам.
За горизонтом
Рынок СХД сегодня развивается головокружительными темпами – это обусловлено количеством генерируемой человечеством информации и потребностью ее хранения. Заглядывая вперед, можно с достаточной долей уверенности сказать, что в ближайшие несколько лет темпы развития СХД снижаться не будут.
«Если говорить о системах хранения данных, то следующим шагом в увеличении эффективности СХД будет распределение вычислительных функций хранилища на накопители – это приведет к уменьшению компонентов СХД и повышению их специализации, что, в свою очередь, обусловит повышение плотности хранения и снижение удельной стоимости», – резюмирует Денис Нештун.
Connect благодарит компанию «АРСИЭНТЕК» за помощь в подготовке материала.