Андрей Обижаев, начальник департамента информационных технологий, ФГ «Лайф»
Стратегия руководства ФГ «Лайф» с момента начала ее формирования в 2003 г. вокруг «Пробизнесбанка» была направлена на непрерывное развитие и покупку региональных банков, в связи с чем в скором времени возникла острая необходимость в создании собственного дата-центра. В настоящем материале мы рассмотрим реальный пример построения ЦОД ФГ «Лайф» с учетом всех сложностей, ограничений по времени и бюджету. К информационным системам ФГ «Лайф» предъявляются довольно серьезные требования по доступности, поэтому отказоустойчивый ЦОД – один из наиболее важных показателей.
Требования TIER
Любой дата-центр должен быть надежным и безопасным. Официальные требования к инженерной инфраструктуре, системам безопасности катастрофоустойчивого ЦОД (TIER) разработаны американским Uptime Institute и являются стандартом российского рынка.
На сегодняшний день по показателю отказоустойчивости выделены следующие уровни надежности ЦОД:
TIER I: время простоя – 28,8 часа в год, коэффициент отказоустойчивости – 99,671%, активное оборудование – N, вероятность остановки в течение пяти лет – 37, 17%;
TIER II: время простоя – 22,0 часа в год, коэффициент отказоустойчивости – 99,749%, активное оборудование – N+1, вероятность остановки в течение пяти лет – 31, 37%;
TIER III: время простоя – 1,6 часа в год, коэффициент отказоустойчивости – 99,982%, активное оборудование – N+1, вероятность остановки в течение пяти лет – 25, 91%;
TIER IV: время простоя – 0,4 часа в год, коэффициент отказоустойчивости – 99,995%, активное оборудование – 2N, вероятность остановки в течение пяти лет – 2,14%.
TIER I – базовый уровень
Применение фальшпола, ИБП, ДГУ не обязательно. Возможны самопроизвольные отказы оборудования и нарушения работы. В ЦОД TIER I отсутствует защита от случайных и намеренных событий, обусловленных действиями человека. Активные дублирующие компоненты и распределение потоков не предусмотрены.
TIER II – с резервированными компонентами
В ЦОД TIER II время простоя возможно в связи с плановыми и внеплановыми работами, а также аварийными ситуациями, но оно сокращено благодаря введению одной резервной единицы оборудования в каждой системе (N+1 для UPS, кондиционеров, сетевого оборудования). TIER II требует наличия минимальных защитных мер от влияния человека.
TIER III – c возможностью параллельного проведения ремонтных работ
Третий уровень надежности требует осуществления любой плановой деятельности без остановки ЦОД. Под плановыми работами подразумеваются профилактическое и программируемое техническое обслуживание, ремонт и замена компонентов, добавление или удаление компонентов, их тестирование. Предусматривается наличие резервных входов, дублирующих подъездные пути, защита от электромагнитного излучения и отсутствие окон.
TIER IV – отказоустойчивый
Отказоустойчивый ЦОД характеризуется безостановочной работой при проведении плановых мероприятий и способен выдержать один серьезный отказ без последствий для критически важной нагрузки. Для соответствия TIER IV необходимо иметь защиту от всех проблем, связанных с человеческим фактором. Регламентированы даже избыточные средства защиты от намеренных или случайных действий человека. Чаще всего он строится в специально выделенном помещении с огороженной территорией.
Реальный ЦОД
ЦОД ФГ «Лайф» находится между TIER II и TIER III. Достичь третьего уровня возможно за счет совершенствования систем электропитания и кондиционирования, если же говорить о TIER IV, который предполагает наличие здания в здании и соответствие определенным жестким требованиям безопасности, мы изначально не ориентировались на него, принимая во внимание наши условия, в частности, расположение помещения в жилом районе.
Тем не менее при сравнительно небольших затратах на построение и обслуживание наш ЦОД имеет достаточно высокую надежность, сравнимую с TIER III. За семь лет простой ЦОД из-за инфраструктуры составил порядка одного часа по причине отказа электроники управления кондиционерами.
В процессе построения ЦОД ФГ «Лайф» сталкивалась с определенными трудностями и проблемами, которые впоследствии успешно преодолела. В результате получилась недорогая система, которая работает долго и достаточно надежно. Как мы к этому пришли?
Все началось с выбора подходящего места для размещения ЦОД. Мы рассматривали три варианта: купить готовое здание и сделать там ремонт; построить здание в Greenfield и провести туда электроэнергию; использовать уже имеющееся у банка помещение.
Одной из наших задач в рамках проекта была оптимизация расходов при достижении необходимого уровня надежности, поэтому вариант со специализированным помещением не нашел должной поддержки со стороны участников проекта. Приобретение земли, строительство здания, покупка электрических мощностей, инсталляция каналов связи – слишком долгий и затратный путь. Тем не менее мы прорабатывали варианты покупки земли в Москве, Подмосковье и близлежащих городах. Например, рассматривалось здание бывшего завода. Это место было удобно с точки зрения доступности, телекоммуникаций и электрических мощностей. Однако при всех имеющихся преимуществах это здание являлось промышленным цехом, где никогда не предполагалось строить дата-центр. Для того чтобы соответствовать всем требованиям к инфраструктуре, необходимо было произвести серьезную реконструкцию здания. На это ушел бы минимум год. Следующий цикл, длительность которого составила бы тоже около года, – заключение договоров со всеми производителями, получение стоек, серверов, кондиционеров и другого оборудования. И последний этап – запуск и сдача в эксплуатацию, который занял бы месяца три.
Второй вариант – так называемый Greenfield, на котором можно было бы построить типовой проект – легко возводимую конструкцию здания. Но и в этом случае процесс грозил затянуться, из-за того что необходимо было провести все необходимые согласования.
Поскольку бизнес-план Группы не позволял нам полтора-два года строить ЦОД, с точки зрения сроков реализации первые два варианта оказались неприемлемыми. Поэтому было принято решение использовать находящееся в собственности банка здание, имеющее некоторые особенности, что накладывало ряд ограничений для создания дата-центра. Во-первых, это высота потолков 2,5 м, исключающая возможность устройства фальшполов и соответственно задува воздуха в шкафы снизу. Во-вторых, не соответствующая требованиям несущая поверхность полов. В-третьих, сложность изменения внешнего вида фасадов здания. Необходимо было «вложить» дата-центр в имеющиеся условия, поэтому задача, которая перед нами стояла, была не из легких. Тем не менее, по оценке наших специалистов, из всех рассмотренных вариантов этот оказался наиболее экономичным и простым с точки зрения реализации.
Задачи и условия
Мы понимали, что создать полноценный дата-центр в заданных рамках крайне сложно. Более того, ни у нас, ни у наших подрядчиков такого опыта не было. Однако проект по капитальной реконструкции здания в целях усиления полов значительно увеличил бы затраты и сроки построения ЦОД из-за проведения исследований несущей способности полов, разработки строительного решения по усилению полов и его реализации.
Поэтому первое, что мы сделали, – уменьшили количество серверов, которое можно разместить в стойке. Забить стойки сверху донизу оборудованием было невозможно по причине низкой несущей способности полов и проблем с отводом тепла из-за низких потолков. Исходя из возможностей здания, мы не могли разместить аккумуляторные батареи, сами источники бесперебойного питания в любом свободном месте. Приходилось учитывать максимально возможную нагрузку на полы. Все тяжелое оборудование было размещено по краям помещения, у стен.
Отдельной задачей стало проектирование системы охлаждения. В соответствии с расчетными данными стойки должны были выделять не более 5 кВт тепла, но устанавливать наружные блоки кондиционеров на крыше нам не хотелось из-за возможных проблем с кровлей здания. Выход был найден: закупка наружных блоков, которые можно компактно разместить на стене здания. Из-за недостатка места над шкафами определенным образом были смонтированы лотки для кабельной системы ЦОД, чтобы они не мешали забору горячего воздуха кондиционерами. Ошибкой стало то, что мы не стали ограничивать объем «холодного» коридора, так как полагали, что тепловыделение в наших стойках невысокое и у нас есть возможность обеспечить распределение воздуха с помощью вентиляции.
Внешние ограничения не позволяли построить полностью резервированный дата-центр по всем требованиям TIER III, в связи с чем было принято решение о резервировании только части инфраструктуры. В результате было установлено два источника бесперебойного питания, каждый из которых может питать всю серверную.
Из-за особенностей размещения здания у нас в тот момент не было возможности получить электропитание первой категории, что заставило нас заняться поисками резервного варианта электроснабжения. Поэтому в эксплуатацию был введен контейнерный дизель-генератор с объемом топлива, достаточным для работы в течение 40 часов. К тому же установлен он был в теплошумозащитных кожухах с целью снизить нежелательное воздействие на окружающую среду. Конечно, в процессе эксплуатации был обнаружен ряд недостатков. В частности, мы не учли, что при выходе из строя одного из крайних кондиционеров может наступить перегрев стоек ввиду отсутствия закрытого коридора, поэтому приходилось продумывать размещение серверов в стойке. Кроме того, оказалось, что система вентиляции не обеспечивала вспомогательные помещения серверной притоком воздуха.
Преодолев все трудности, мы создали дата-центр с 30 стойками, оснащенный прецизионными кондиционерами и резервированным бесперебойным питанием. На его постройку – от начала строительства до ввода в эксплуатацию – ушло полгода. Со всеми поставщиками оборудования, которое используется в нашем дата-центре, были заключены сервисные контракты на обслуживание.
В будущем мы не планируем сами обслуживать оборудование и инфраструктуру нашего дата-центра. В ФГ «Лайф» создана служба эксплуатации дата-центра, которая занимается обслуживанием серверов и круглосуточно следит за работой инфраструктуры в помещениях. Сотрудники указанной службы взаимодействуют с аутсорсерами при возникновении неисправностей и проведении регламентных работ по обслуживанию. Кроме того, на нашем складе хранится определенное количество ЗИП, который используется для устранения мелких неисправностей и поломок. Все оборудование (бесперебойники, кондиционеры), а также параметры климата и электричества непрерывно контролируются с помощью системы мониторинга. Все эти технологии позволяют обеспечивать высокий уровень надежности дата-центра.
После завершения строительства ЦОД мы не остановились на достигнутом: Группа развивается, появилась необходимость соответствовать требованиям PCI DSS, в связи с чем было принято решение построить новое помещение ЦОД. При учли предыдущий опыт: была увеличена нагрузка на полы с посредством разгрузочной рамы, более плотно размещено оборудование, установлено большее количество кондиционеров, согласовано изменение фасада, заложены окна, что снизило приток тепла с улицы. В итоге сегодня мы эксплуатируем помещение с восемью стойками, фальшполами и отдельной системой увлажнения воздуха. Как результат в настоящее время можно констатировать качественную работу инфраструктуры и высокую надежность всех серверных помещений.
Перспективы
Финансовая Группа «Лайф» непрерывно развивается, увеличивается количество технологических проектов, требующих дополнительных вычислительных мощностей, в связи с чем мы запланировали создание еще одной серверной, представляющей собой полноценный дата-центр. Мы готовимся к старту проекта с более благоприятными условиями. К примеру, сейчас нам доступно питание первой категории (1 мВт), что дает возможность поставить высоконагруженные стойки с большими мощностями и создать закрытые коридоры. Размещение всего холодильного оборудования предполагается на крыше ввиду отсутствия другого свободного места. Что касается полов, то у нас уже есть опыт по их усилению в этом здании. Мы уверены, что наш опыт и опыт наших подрядчиков позволит реализовать проект в кратчайшие сроки и избежать просчетов и незапланированных сложностей.