Интервью с техническим руководителем направления резервного копирования и восстановления данных, EMC Россия и СНГ
– В конце 2011 г. компанией EMC было представлено исследование, из которого, в частности, следовало, что в 18% организаций только ИТ-службы участвуют в решении вопросов резервного копирования и восстановления, т. е. бизнес-заказчик об этом не заботится. По вашим оценкам, меняется ли позиция бизнеса, можно ли говорить о повышении внимания руководителей к этому вопросу?
– Было бы лукавством говорить о возрастании интереса руководителей или бизнес-заказчиков к резервному копированию. Это достаточно узкая область ИТ, которая к тому же не обеспечивает увеличения эффективности основного бизнеса (как в случае корпоративных ИТ-систем) и непосредственно не влияет на ежедневную работу пользователей. Система резервного копирования привлекает общее внимание, когда происходит серьезный сбой, например «падает» система электронной почты и ИТ-служба не может ее восстановить. Или когда у руководителя ломается ноутбук и выясняется, что резервное копирование данных не проводилось. И такое «потребительское» отношение вполне естественно.
Скорее можно говорить о том, что ИТ-службам все чаще удается объяснить бизнесу необходимость модернизации систем резервного копирования для снижения рисков потери данных и обосновать необходимость соответствующих инвестиций. Разговор с бизнес-заказчиками ведется не в технических терминах «ленты или диски; копирование или репликация» и т. п., а в терминах соответствия требуемому уровню обслуживания. Грубо говоря, бизнес платит за нужные показатели Recovery Point Objective/Recovery Time Objective и надежности, договариваясь с ИТ о необходимых инвестициях, а задача ИТ-службы – выбрать правильные технические средства.
Еще один важный момент: системы резервного копирования не должны накладывать ограничения на развитие информационных систем и – шире – на рост бизнеса. Мы сейчас работаем с несколькими заказчиками, которые вкладывают серьезные деньги в модернизацию ИТ, строят распределенные виртуализованные инфраструктуры, планируют внедрять облачные сервисы. Для них вопрос: «Сможем ли мы в случае необходимости быстро развернуть сотню виртуальных машин и при этом гарантировать их защиту?» – является одним из главных.
– Говоря о работе с «большими данными», специалисты обычно концентрируются на технологиях хранения и аналитики. А как «большие данные» влияют на развитие технологий/подходов к резервному копированию и восстановлению данных?
– Требования все те же – обеспечение надежного восстановления данных в случае сбоя. Проблема лишь в том, что этих данных очень много и традиционный подход «создания полных резервных копий в ночь с субботы на воскресенье» на объемах в сотни терабайт просто неприменим. Поэтому для «больших данных» стоит говорить о комплексном подходе, сочетающем несколько уровней защиты: повышенную надежность хранения данных, локальную и удаленную репликацию, резервное копирование с использованием дедупликации и различных технологий синтеза полных копий.
– Насколько богат накопленный в мире опыт (удачный или неудачный) резервного копирования больших и сверхбольших объемов данных? Чему он учит?
– Начнем с того, что собой представляют «большие данные» с точки зрения резервного копирования. Можно выделить три основных сегмента:
- большие хранилища неструктурированных данных объемом сотни терабайт, реализованные на базе NAS-систем, например EMC Isilon или кластеров Hadoop;
- большие базы данных стандартной архитектуры от Oracle, IBM или Microsoft;
- аппаратно-программные комплексы для хранения и анализа данных, например EMC Greenplum.
У большинства производителей систем резервного копирования существуют наработанные рекомендации по защите каждого из сегментов и применимости для этого тех или иных технологий. Обычно «большие данные» редко удаляют и практически не изменяют; в то же время для них характерны регулярные добавления информации. Это очень похоже на то, как ведут себя классические системы биллинга у телеком-операторов. Такой профиль работы с данными в большинстве случаев позволяет провести правильный сайзинг и спроектировать систему защиты данных, справляющуюся с ростом данных. Если, конечно, он происходит в соответствии с прогнозом заказчика.
– Каков подход корпорации EMC к проблеме резервного копирования «больших данных»? Какие продукты, решения, сервисы предлагаются для организации Backup & Recovery «больших данных»?
– Используются стандартные продукты и решения EMC, прежде всего на базе EMC Data Domain и EMC NetWorker. Большое внимание уделяется интеграции этих продуктов с решениями EMC для «больших данных» – Isilon и Greenplum.
В частности, EMC Greenplum поддерживает технологию распределенной дедупликации BOOST, что позволяет напрямую копировать данные с узлов Greenplum на системы EMC Data Domain, причем передавая только уникальные данные. Компания EMC опубликовала описания «лучших практик» при работе в таких конфигурациях, там приведены результаты тестирования, включая показатели производительности и дедупликации. Кстати, как я уже говорил, отсутствие резких изменений, характерных для «больших данных», позволяет достичь очень неплохих результатов при использовании дедупликации.
Для заказчиков, строящих подобные системы, наша служба профессиональных услуг предлагает сервисы по оценке, сайзингу, проектированию и внедрению комплексных решений по защите данных, в которые обязательной составной частью входит резервное копирование.
– Хотелось бы затронуть вопрос архивирования данных. Время восстановления для архивных данных не столь критично, зато важна стоимость хранения. Учитывая это, можно ли утверждать, что время ленточных систем хранения уходит (ведь хранение на лентах дешевле)?
– Во многих случаях хранение архивных данных на лентах действительно обходится дешевле, но при этом «потребительские свойства» ленточных систем редко устраивают пользователей. В частности, я бы не согласился с тем, что время восстановления архивных данных для них не критично.
Например, в EMC внедрена система архивирования электронной почты на базе нашего продукта SourceOne, охватывающая больше 50 тыс. сотрудников, и если мне приходится ждать открытия заархивированного письма больше пяти секунд, я уже начинаю нервничать. Думаю, такие же чувства испытывают и сотрудник оператора связи, которому нужно за ограниченное время найти и экспортировать записи о телефонных звонках, сделанных год назад, и администратор базы данных, от которого требуется восстановить информацию, давным-давно выгруженную в архив.
Специалисты EMC всегда говорили о необходимости внедрения активных прозрачных архивов, которые позволяли бы пользователям работать с устаревшими данными, используя привычные инструменты и процессы. Хранение архивов на лентах затрудняет эту задачу и, как минимум, делает ожидание доступа к архивным данным некомфортным для пользователя. Мы предлагаем дополнительную опцию к нашим системам Data Domain – DD Extended Retention. Использование этой опции в сочетании с возможностями Data Domain по дедупликации данных позволяет снизить общую стоимость владения дисковой системой и приблизить ее к стоимости владения архивами на лентах, сохранив характерную для дисков скорость доступа к данным.
Кроме того, при проектировании архивов, особенно долговременных, необходимо учитывать массу нюансов: как будут обеспечиваться надежное хранение и отказоустойчивость, как система хранения будет интегрироваться с программным обеспечением архивирования, как будет производиться миграция на новые технологии хранения и т. д. Специализированные архивные системы, изначально разработанные с учетом всех этих вопросов, всегда будут привлекательны для пользователей, несмотря на относительно высокую стоимость. Примером может служить EMC Centera – первая в мире дисковая система с адресацией по содержанию (Content Addresed Storage, CAS), которая сейчас используется более чем 5 тыс. заказчиков.
– Как вы оцениваете текущий статус и возможные перспективы услуг облачного бэкапа – Backup-as-a-Service?
– Можно говорить о двух больших сегментах этого рынка – пользовательском и корпоративном. Первый сегмент быстро растет, в том числе в России, и препятствий для его дальнейшего развития, на мой взгляд, нет. Я, как и еще 6 млн пользователей, подписан на сервис облачного бэкапа EMC Mozy и очень доволен его работой. Мне намного проще заплатить 150–200 руб. в месяц и забыть о возможных проблемах с домашним компьютером, чем возиться с копированием на внешние жесткие диски или флэшки.
Что касается корпоративного сектора, то здесь все сложнее. В США и Западной Европе огромное количество партнеров EMC предоставляют различным организациям услуги BaaS, используя наши технологии, в частности EMC Avamar. У того же Mozy более 100 тыс. корпоративных клиентов. В России успехи BaaS-провайдеров значительно скромнее. Мне известно меньше десяти провайдеров, ориентированных на корпоративный рынок, и количество заказчиков у них вряд ли превышает несколько сотен. Я говорю именно об оказании отдельной платной услуги Backup-as-a-Service, а не о классическом хостинге или аутсорсинге, когда провайдер оказывает весь спектр сервисных услуг, в том числе резервное копирование.
Как мне кажется, причина кроется не в технологиях (с ними как раз дела обстоят неплохо), а в недостаточном доверии к поставщикам таких услуг. Сама идея того, что корпоративные данные можно отдать на хранение внешней организации, пока не очень укладывается в голове руководителей ИТ-служб. По мере преодоления этого недоверия будет расти и рынок BaaS в России.