В отчете Worldwide Storage Software QView за II квартал 2014 г. аналитическая компания IDC признала корпорацию IBM ведущим поставщиком программно-определяемых платформ хранения данных (Software Defined Storage Platforms – SDS-P), основываясь на объеме доходов компании от продаж программного обеспечения. SDS-P описываются как «платформы, которые предоставляют полный спектр сервисов хранения данных с помощью программного обеспечения, использующего аппаратное обеспечение общего назначения на базе серийных компонентов и при этом не зависящего от него». О концепции SDS и подходах IBM к ее реализации мы беседуем с руководителем отдела корпоративных систем хранения данных IBM Россия и СНГ Андреем СОЛУКОВЦЕВЫМ.
– В чем заключается разница между виртуализированными СХД и программно- определяемыми СХД? Существует ли между ними четкая граница?
– Понятие «программно-определяемые системы хранения данных» является частью более общей концепции программно-определяемых сред. Эту концепцию уже не первый год продвигают многие производители сетевых решений, примерно два года назад такая инициатива начала развиваться и в сфере систем хранения данных.
«Программно-определяемая платформа хранения» – по сути, более общий термин, нежели «виртуализированная система хранения». Он предполагает, что речь идет не только об объединении массивов хранения в виртуальные пулы, но и о расширении функционала. Например, продукт IBM SAN Volume Controller (SVC)*, появившийся на рынке более десяти лет назад, поначалу выполнял в основном функции виртуализации, дополнительный функционал был не очень широк. Сейчас же SVC представляет собой гораздо более развитой продукт, который позволяет: а) работать с гетерогенными средами хранения – SAS, SATA, флеш-массивами и б) обладает расширенным функционалом, позволяющим реализовать все возможности, доступные в массиве класса hi-end.
– Гетерогенность сред хранения – одна из предпосылок перехода к виртуализированным и далее к программно-определяемым СХД. Заказчики хотят иметь возможность управлять гетерогенным аппаратным обеспечением как единым целым. Каковы допустимые масштабы такой гетерогенности? Какова степень свободы использования решений разных поколений и разных производителей?
– Пределов практически нет. В своей довольно обширной практике работы с данной технологией я не встречал случаев, когда какая-то система хранения данных, даже старая, была бы несовместима с программным кодом SVC. Любые среды хранения любых производителей можно объединить в единый виртуальный пул, общая емкость которого может измеряться десятками петабайт.
Мы не рекомендуем включать в пул какие-то самосборные изделия просто потому, что не можем нести за них ответственность. Но даже в таких случаях, как показывает опыт, если изделие основано на стандартных промышленных компонентах, то и оно будет нормально работать в гетерогенной среде под управлением IBM SVC.
– В идеале концепция программной определяемости инфраструктуры предполагает автоматизированное выделение ресурса в зависимости от потребности приложений. В какой степени (насколько глубоко) такая автоматизация может быть реализована в современных системах хранения данных?
– Автоматизация – часть концепции SDS. Отсутствие динамического выделения ресурсов обесценило бы саму идею программно-определяемых систем хранения данных.
Динамическое выделение ресурсов реализовано в наших решениях в полном объеме. Основные параметры работы СХД – емкость и производительность. В зависимости от приоритета приложений система может гибко выделять им ресурсы как емкости, так и производительности: если, например, рабочая нагрузка требует большого количества IOPS, ей могут быть отданы практически все ресурсы ввода-вывода; если приложению нужны терабайты пространства хранения, они могут быть ему выделены по требованию с помощью технологии Thin Provisioning.
Регулировать выделение ресурса можно как в автоматическом режиме, так и вручную. Лично я сторонник того, чтобы в сложных средах предоставлять пользователю возможность самому задавать приоритеты для тех или иных нагрузок. Если эта задача полностью отдается на откуп машине, возможно возникновение конфликтов между виртуальными сущностями, конкурирующими за ресурс. Тем не менее некоторые заказчики используют полностью автоматизированные процессы. Например, у многих заказчиков имеется большое количество старых систем хранения данных, которые либо уже списаны, либо мало используются. В пуле под управлением SVC такие системы хранения можно поставить в «горячий» резерв, и при недостатке емкости они будут задействоваться автоматически. Но, на мой взгляд, идеальный вариант – когда автоматизация основана на ручной проработке сценариев и существует возможность ручного вмешательства в случае отклонений в рабочем процессе.
– Тенденции на рынке (о которых активно говорят аналитики) – облака и большие данные. Преимущества SDS, обеспечивающих гибкое выделение ресурсов, для облачных решений очевидно. Насколько весомы преимущества SDS при работе с большими данными? В чем эти преимущества заключаются?
– Большие данные – это огромные массивы данных, которые, как правило, уже накоплены в организации или поступают из открытых источников. Они уже где-то и для чего-то хранятся. Задача в том, чтобы монетизировать эти данные. Иными словами, решать вопросы хранения данных уже не нужно. Что необходимо, так это быстро их обрабатывать. И здесь помогает технология SDS, которая позволяет консолидировать гетерогенные среды, а именно использовать и обычные диски большого объема, и быстрые флеш-массивы для анализа данных. Основное преимущество SDS – гибкость, позволяющая быстро, по требованию, нарастить производительность работы с облаком данных.
– В какой степени внедрение SDS должно быть увязано с модернизацией и переходом к программной определяемости других составляющих ЦОД – вычислительной инфраструктуры, сети?
– Ни в какой. Но должно измениться мышление ИТ-руководителей и системных администраторов. Компания должна быть готова понять и принять концепцию программно-определяемой платформы. На деле нередко оказывается, что концепция Software Defined Storage очень близка бизнесу, но внутри департамента ИТ возникает отторжение: люди не хотят пробовать нечто новое, ссылаются на «риски консолидации», когда «все яйца складываются в одну корзину», сомневаются в надежности чисто программных решений, поскольку привыкли больше доверять чему-то материальному.
Приходится вести с заказчиком теоретическую работу, которая заключается в разработке архитектурного решения, полностью отказоустойчивого и понятного клиенту. Нужно продумать распределения томов по уровням хранения, выработать адекватные SLA и т. д. Поэтому любой проект по программно-определяемым средам, который выполняет наша компания, обязательно включает услуги консультантов IBM. Яркий пример – проект для ОАО «Северсталь». Эксперты IBM смогли предложить заказчику план эффективной модернизации инфраструктуры, позволяющий сохранить прежние инвестиции в оборудование. На базе IBM SAN Volume Controller мы консолидировали множество разнородных систем хранения данных в рамках единой среды и, интегрировав в нее флеш-массивы, получили необходимое повышение производительности.
– Среди предлагаемых компанией SDS-решений есть программно-аппаратные и чисто программные. Какими вам видятся рыночные перспективы тех и других?
– Считаю, что и те и другие найдут свое применение и будут эффективно использоваться. Каждый тип решений имеет свои преимущества. Например, отличие IBM SVC от конкурирующих решений в том, что это именно программно-аппаратный комплекс. Он включает фирменные серверы в конкретной конфигурации и с конкретной прошивкой. В последних версиях SVC предусмотрен аппаратный ускоритель – отдельный процессор, который используется под задачи компрессии. Благодаря этому компрессия данных производится в режиме реального времени и без потери производительности. А экономия пространства хранения за счет компрессии может составлять до 70%.
Другой пласт технологий IBM – чисто программное решение Elastic Storage*, которое может устанавливаться на любой сервер.
Elastic Storage и SAN Volume Controller решают разные задачи. В Elastic Storage реализуется файловый доступ, в SVC – блочный. SVC предназначен в основном для решения бизнес-задач, связанных с поддержкой баз данных, почтовых сервисов, инфраструктурных приложений. Технология Elastic Storage выросла из продукта IBM GPFS, который применялся главным образом в академической среде для множественного доступа к данным. Сейчас Elastic Storage используется преимущественно как большое файловое хранилище с возможностями анализа.
– Какова востребованность программно-определяемых платформ хранения IBM в России?
– Бестселлерами являются линейки IBM Storwize V5000 и V7000. Это системы класса midrange, в которых преобладает аппаратная реализация, при этом они вписываются в парадигму SDS – в них используется практически тот же код, что в IBM SVC, и они так же позволяют объединять гетерогенные системы в единое пространство хранения и обеспечивать выделение ресурсов емкости и производительности по требованию.
Программно-аппаратное решение IBM SVC востребовано в комплексных проектах, как правило, в связке с флеш-технологиями. Типичный вариант: у заказчика есть множество систем хранения данных, но при этом ни одна из них не может справиться с возросшей нагрузкой. Так было в проекте для «Северстали»: существующие дисковые массивы перестали отвечать уровню производительности, которая требовалась важным для предприятия приложениям, в том числе системам SAP. В подобных случаях выходом для заказчика становится приобретение SVC и объединение всех ресурсов хранения в единый пул. Иногда производительности созданного пула оказывается достаточно, но чаще ее приходится дополнительно наращивать путем добавления в пул флеш-массивов.
Решение Elastic Storage также начинает пользоваться спросом.
– Какие могут существовать риски при внедрении SDS? Существуют ли условия, при которых программно-определяемые решения неприменимы?
– По нашему опыту, у заказчика могут возникнуть сложности, если он пытается внедрять решение самостоятельно. Считаю, что архитектура создаваемого решения должна все-таки диктоваться вендором. Поэтому мы всегда прорабатываем дизайн решения вместе с заказчиком, предусматривая необходимый уровень отказоустойчивости.
Что касается ограничений на применение SDS, то я таких не знаю. Однако есть понятие best practice. Если заказчику необходима система с уровнем надежности на уровне «шести девяток», то реализовать ее имеет смысл на базе отдельно стоящих hi-end-массивов. Программно-определяемое решение столь высокого уровня надежности не обеспечивает.
– Как вы оцениваете перспективы полного перехода ИТ-инфраструктур предприятий к программно-определяемым средам?
– Речь идет о совершенно другой концепции ИТ – облачных дата-центрах. Как работают, например, крупные российские или зарубежные поисковые компании, которые являются новаторами в этой области? Они используют в своей инфраструктуре «строительные блоки». Такой строительный блок универсален, он не зависит от аппаратных компонентов, может одновременно являться и сервером, и системой хранения данных. В будущем (при реализации идеи Software Defined Networking) такой же блок с большим количеством портов ввода-вывода сможет выполнять сетевые функции. Индустрия движется к унификации, когда универсальные строительные блоки ИТ-инфраструктры смогут в зависимости от задач заказчика комплектоваться емкими жесткими или быстрыми флеш-дисками, процессорами нужной мощности, сетевыми картами необходимой пропускной способности, и из них с помощью специализированного ПО можно будет строить сетевые решения, серверные кластеры, кластеры хранения или stand-alone-системы.
Но пока многие заказчики остаются сторонниками классического подхода. Их можно понять, у них построены пусть не самые эффективные, но надежные и отказоустойчивые инфраструктуры. Поэтому IBM будет продолжать развивать классические направления hi-end- и midrange-решений. Но будущее – за унифицированными решениями и облачными технологиями.
* В феврале IBM провела ребрендинг решений для программно-определяемого хранения данных – см. новость на стр. ХХХ