Локальная вычислительная сеть офиса это ИТ-система, как и система противоаварийной защиты технологической линии. Однако первая не влияет на промышленную безопасность производственного объекта, вторая влияет самым непосредственным образом, более того, призвана эту безопасность обеспечить. Обслуживание первой не регулируется государством, и ее отказ не несет существенных последствий. Обслуживание второй как составляющей объекта повышенной опасности жестко регулируется законодательством РФ, а ее отказ приводит к авариям и инцидентам с очевидными последствиями.
Проблемы начинаются, когда для обслуживания ИТ-систем, влияющих на безопасность, без адаптации и доработки под требования отрасли и законодательства используются модели классического ИТ-сервиса, описанные в ITIL (Information Technology Infrastructure Library – библиотека инфраструктуры информационных технологий) и других ИТ-стандартах. Указанные стандарты, по сути, являются адаптацией теории массового обслуживания клиентов под специфику ИТ и не призваны обеспечить соответствие схемы обслуживания критических систем законодательству РФ по промышленной безопасности. Подобная практика приводит к увеличению производственно-технических, юридических рисков предприятий и их должностных лиц.
Теория и практика ИТ-сервиса на промышленных предприятиях
В соответствии с действующим законодательством РФ, а также отраслевыми документами основным способом обеспечения владельцем надлежащего уровня надежности и безопасности объекта является систематическая плановая работа по поддержанию оборудования в исправном состоянии. Указанная деятельность, кроме достижения целевых результатов, таких как надежность и безаварийность, должна быть надлежащим образом задокументирована.
Традиционным способом поддержания объекта в исправном состоянии являются планово-предупредительные работы (ППР). Такая стратегия является одной из самых дорогих, но при надлежащем ее исполнении и документировании одной из самых надежных как в плане обеспечения исправности оборудования, так и в плане минимизации финансовых, гражданско-правовых и уголовных рисков для владельца объекта.
Для целей оптимизации затрат на сервис применяются стратегии обслуживания и поддержания требуемого уровня надежности, такие как: RCM (Reliability-Centered Maintenance – обслуживание по состоянию), FMEA (Failure Mode and Effects Analysis – анализ видов и последствий потенциальных дефектов), анализ жизненного цикла и др. [1]. Плюсы и минусы указанных стратегий широко представлены в исследованиях многих российских и зарубежных инженеров. Однако их применение также не исключает необходимость документирования всех этапов.
Документирование призвано обеспечить и такой не менее важный результат – документальное доказательство содержания объекта владельцем в исправном состоянии.
Следует отметить, что даже самые эффективные и дорогие стратегии технического обслуживания и резервирования не могут полностью исключить вероятность аварий и инцидентов. В случае инцидента или аварии наличие записей/их отсутствие помимо других критериев являются серьезным подтверждением/не подтверждением надлежащего исполнения, как владельцем объекта, так и сервисной компанией, требований законодательства РФ и отраслевых документов по обеспечению безопасности объекта.
Даже если обслуживание ведется надлежащим образом, но не оформляется как положено: подтверждающие записи отсутствуют, оформлены неправильно, подписаны неуполномоченными людьми, не соответствуют технологическим регламентам, не сохранились, – все это создает для владельца объекта, обслуживающей сервисной организации и, что совершенно очевидно, для руководителей этих предприятий риски, эквивалентные отсутствию обслуживания вообще.
Такой подход был вполне четко и понятно сформулирован в наставлении по технической эксплуатации и ремонту авиационной техники в гражданской авиации России: «Воздушное судно считают исправным при условии, что на нем проведены все предписанные регламентом работы, устранены неисправности и их последствия, оформлена производственно-техническая документация, исправность судна подтверждена подписями соответствующих должностных лиц».
Однако обеспечить это на практике крайне непросто. Типичная ошибка, которая допускается сервисными компаниями при обслуживании ИТ-систем, влияющих на безопасность, заключается лишь в управлении исполнением заявок, запросов на обслуживание и устранением повреждений. Сервисная компания имеет достаточно эффективные процессы и средства автоматизации для управления исполнением подобных заявок, а также для контроля уровня сервиса (SLA). При этом SLA контролируется только в отношении заявок, процессы и средства управления плановыми работами в соответствии с выбранной стратегией обслуживания, контроля SLA по выполнению ППР, а также управления их документированием не развиты. Зачастую отсутствуют программные средства автоматизации, позволяющие сервисной компании и заказчику управлять плановыми работами, иметь ежедневную достоверную информацию о статусе и качестве их выполнения, а также обеспечивать записи, соответствующие по полноте и оформлению требованиям ФЗ, подтверждающие надлежащее исполнение работ. К сожалению, стандартные средства автоматизации ITSM (IT service management – управление ИТ-услугами) не имеют решений, автоматизирующих требуемую функциональность.
Традиционно применяются методы управления сервисной компанией и выполняемыми ею работами, которые заключаются в ужесточении контрактов, разработке массы локальных нормативных документов, форм и отчетов. Они малоэффективны, так как требуют больших финансовых и ресурсных затрат на проведение проверок исполнения сервисным подрядчиком требований этих документов, что при отсутствии комплексного подхода и автоматизации возможно только путем проведения огромного объема выездных и камеральных проверок, у которых весьма низкое соотношение «достоверность результатов» / «затраты на проверку».
Кроме того, наличие подобного рода «строгостей» в договоре с сервисной компанией, к сожалению, не снимает ответственности с владельца объекта. Описанная ситуация менее характерна для внутрикорпоративного сервиса, так называемого инсорсинга, по причине высокой степени вовлеченности инсорсера в процессы обслуживаемых обществ и в вертикаль управления промышленной безопасностью в холдинге. Однако проблематика в виде отсутствия простого и эффективного инструмента управления обслуживанием ИТ-систем, влияющих на безопасность, позволяющего контролировать интегральный SLA (заявки + плановые работы), существует, что определило предмет реализованного в нашем филиале проекта по оптимизации и автоматизации процесса управления ИТ-сервисными работами, влияющими на безопасность.
Цель проекта
Столкнувшись с крайне низкой эффективностью и дороговизной административных методов управления сервисом по обслуживанию влияющих на безопасность ИТ-систем, а также проблемами достоверной оценки интегрального SLA (плановые работы + заявки), мы озаботились разработкой простого процесса управления такими работами, а также средствами автоматизации этого процесса. Планировалось достижение следующих целевых результатов: увеличить надежность ИТ-систем, влияющих на безопасность; обеспечить исполнение законодательства Российской Федерации в области промышленной безопасности при обслуживании ИТ-систем влияющих на безопасность; обеспечить наличие/сохранность/достоверность записей, подтверждающих выполнение работ; как следствие, снизить риски предприятий и их должностных лиц; обеспечить службе ИТ-заказчика и сервисной ИТ-компании удобный инструмент управления работами по обслуживанию ИТ-систем влияющих на безопасность; повысить эффективность процесса управления и сократить затраты сервисной ИТ-компании на управление внутренними подразделениями, выполняющими работы, а также службы ИТ-заказчика на управление сервисной ИТ-компанией.
Ключевые этапы проекта
В результате проведения анализа всех обслуживаемых ИТ-систем (рис.1) на предмет их влияния на промышленную безопасность объектов были выделены следующие основные системы, попадающие под действие разрабатываемого процесса:
- системы автоматизации управления технологическими процессами (АСУ ТП);
- системы противоаварийных защит и блокировок (ПАЗ);
- системы контроля газовоздушной среды и сигнализации загазованности (ГАЗ);
- системы противопожарной автоматики и автоматического пожаротушения (АПТ);
- локальные и магистральные системы коммуникации, используемые для связи компонентов вышеуказанных систем между собой, а также для передачи сигналов контроля и управления.
Все остальные ИТ-системы не оказывают либо оказывают несущественное влияние на промышленную безопасность, потому их обслуживание разумно строить, исходя из критериев требуемого уровня сервиса (SLA) и целесообразных затрат. Обслуживание и сервисная поддержка таких систем прекрасно управляется стандартными методами ITSM [2, 3].
На втором этапе, для выделения ключевых обязательств владельца объекта по обеспечению промышленной безопасности применительно к ИТ-системам, был проведен анализ действующих в настоящее время законодательных и отраслевых руководящих документов, а также проведен анализ общедоступных судебных материалов по расследованию инцидентов на промышленных объектах. В результате выделен ряд основных обязательств владельца объекта, которые должны выполняться при обслуживании ИТ-систем, влияющих на безопасность. Владелец объекта обязан:
- обеспечивать исправное функционирование необходимых приборов и систем контроля за производственными процессами;
- проводить проверки по графику (плану) технического обслуживания и ремонта утвержденному техническим руководителем организации;
- обеспечивать систематическое наблюдение за состоянием систем, проводить плановые проверки систем защиты;
- обеспечивать оформление актов протоколов или записей в паспортах и журналах, подтверждающих проведение плановых работ и исправность систем.
Эти требования легли в основу построения процесса управления обслуживанием ИТ-систем, влияющих на безопасность.
При кажущейся простоте и очевидности приведенных правил обеспечить эффективный механизм исполнения указанных требований непростая задача. Предлагаемые рынком решения, позволяющие их реализовать, такие как средства автоматизации технического обслуживания и ремонта (ТОИР) либо комплексные системы управления производственными активами (Enterprise Asset Management), можно условно разделить на две категории ПО:
- специализированное (автономное) ПО;
- управления активами в составе ERP-систем.
Можно выделить следующие основные IT-инструменты для управления производственными активами:
- ERP (Enterprise Resource Planning);
- EAM (Enterprise Asset Management);
- аналитические средства диагностики;
- CMMS (Computerized Maintenance Management System).
Рынок предлагает большое количество программных продуктов, автоматизирующих указанный функционал, но они требуют существенных затрат времени и средств на внедрение, кроме того, содержат избыточный функционал, не требующийся в рамках решения настоящей задачи. При выборе платформы автоматизации в нашем случае учитывались высокая стоимость и длительные сроки внедрения модуля ТОИР для применяемой в филиале ERP, высокая стоимость последующего владения и расширения количества пользователей для такого решения, а также необходимость интеграции с существующей платформой автоматизации ITSМ (ServiceDeck) в целях получения инструмента управления интегральным SLA. Исходя из этого было принято решение о разработке модуля управления плановыми работами к существующей системе ITSМ ServiceDeck.
Управление внеплановыми работами построено по стандартным принципам автоматизации ITSM. Все запросы на обслуживание, информация об отказах регистрируются центральной диспетчерской службой сервисной ИТ-компании, заносятся в средство автоматизации ITSM с базовыми параметрами, ничем не отличающимися от параметров, характерных для обычных ИТ-систем (время регистрации, исполнитель, нормативное время устранения).
Далее запрос поступает на исполнение в подразделение сервисной ИТ-компании, отвечающее за конкретные объект, сервис, направление. Контроль сроков исполнения и эскалацию на разные уровни решения осуществляет ЦДС. По факту исполнения исполнитель вносит запись в журнал на объекте, осуществляет отчет об исполнении в средстве автоматизации с указанием объекта, журнала, номера журнала и номера записи в журнале. Таким образом обеспечивается автоматизация процесса управления обслуживанием ИТ-систем, влияющих на безопасность, в части внеплановых работ.
При управлении плановыми работами исходными данными являются графики проверок и графики обслуживания, согласованные с заказчиком и загруженные в модуль управления плановыми работами средства автоматизации ITSM. Все плановые работы распределены в системе по подразделениям-исполнителям. Подразделения планируют свою деятельность на основании планов-графиков в системе. Система заблаговременно направляет исполнителям уведомления о выполнении плановых работ, а также формирует суточные задания на такие работы. Выполнив работу по графику, исполнитель распечатывает документ стандартной формы (выгружается из системы), подтверждающий исполнение работ, визирует у ответственного менеджера заказчика. Оптическая копия этого документа загружается в систему, и только после этого в системе работа отражается как исполненная, а дата исполнения проставляется равной дате загрузки документа. В случае невозможности исполнения работ в срок по графику с заказчиком подписывается документ, обосновывающий эту невозможность, указывающий дату, на которую переносится работа. Документ аналогичным образом загружается в систему и является основанием для фиксации такой работы со статусом «перенос сроков», а инструментами средства автоматизации в графике устанавливается новая дата проверки.
Управление осуществляется на основании валидации загруженных в систему исполнителем документов на соответствие критериям достоверности, полноты, полномочий подписавших документы представителей сервисной компании и заказчика, соответствия объема выполненных работ технологическим картам и инструкциям и т. д. Управление отклонениями обеспечивается контуром обратной связи с мотивацией исполнителей рублем.
Аналогичным образом заказчик, имея доступ к данным системы, осуществляет управление сервисной ИТ-компанией, используя обратную связь в виде управления суммой оплаты по договору, штрафными санкциями.
Клиентская часть модуля доступна всем сотрудникам сервисной компании, осуществляющей работы, и службе заказчика.
Практическая значимость работы и первые результаты
Результаты проделанной работы могут быть интересны всем промышленным предприятиям, владеющим объектами, поднадзорными Федеральной службе по экологическому, технологическому и атомному надзору. Разработанный подход к управлению сервисом ИТ-систем, влияющих на безопасность, и соответствующее средство автоматизации были внедрены в одном из производственных управлений филиала, и в настоящее время идет процесс внедрения в остальных территориальных управлениях.
Благодаря внедрению новой системы нами были получены следующие прикладные результаты и выгоды.
- Повышение надежности ИТ-систем, влияющих на безопасность: по выборке за полгода количество инцидентов снизилось на 2,5%. Результаты не представительные, и требуется более длительный период выборки (не менее одного года) для достоверной оценки изменения уровня надежности.
- Процент исполнения плановых работ, влияющих на безопасность, в тестируемом подразделении достиг 94–100%. Неисполнение до 6% обусловлено санкционированными переносами сроков выполнения работ по технологическим причинам.
- Достоверность записей их качество и полнота – 90%. Отклонение в 10% обусловлено исполнительской дисциплиной. Подлежит корректировке и доведению до 100% за счет внедрения централизованного процесса валидации данных в системе отдельным менеджером и мотивационной обратной связи.
- Получен инструмент контроля и управления работами, влияющим на безопасность, а также записями без выездных проверок, что позволило сократить затраты владельца объекта на управление сервисом, а также затраты сервисной компании на внутреннее управление работами.
- За счет того что разработанный модуль автоматизации управления сервисом ИТ-систем, влияющих на безопасность, интегрирован в существующую систему ITSM, была получена возможность контролировать интегральный SLA, в составе которого учитываются исполнения заявок, запросов на обслуживание, устранение повреждений и плановые сервисные работы для систем, влияющих на безопасность (логическая формула интегрального SLA = ITSM + ТОИР).
Как полагают авторы представленного в настоящем материале проекта, полученные ООО «РН-Информ» наработки могут найти себе применение не только в энергетической отрасли, но и на других предприятиях, сталкивающихся в своей деятельности с решением вопросов, связанных с обслуживанием ИТ-систем, влияющих на безопасность промышленных объектов и производств.
Список литературы
- ГОСТ Р 55.0.00–2014 Управление активами. Национальная система стандартов. Основные положения [Электронный ресурс]. – проект национального стандарта // — Электрон. текстовые, граф. данные. Режим доступа http://www.gostinfo.ru/PRI/Page/GetPage?orderByColumn=PRIKAZ&orderByDirection=D&lpage=1&MaterialID=272138 свободный (дата обращения 18.03.2015)
- ГОСТ Р ИСО/МЭК 20000-1-2013. Национальный стандарт Российской Федерации. Информационная технология. Управление услугами. Часть 1. Требования к системе управления услугами [Электронный ресурс]. — утв. и введен в действие Приказом Росстандарта от 08.11.2013 N 1543-ст // Доступ из справ. — правовой системы «КонсультантПлюс»
- ГОСТ Р ИСО/МЭК 20000-2-2010. Национальный стандарт Российской Федерации. Информационная технология. Менеджмент услуг. Часть 2. Кодекс практической деятельности [Электронный ресурс]. — утв. и введен в действие Приказом Росстандарта от 12.11.2010 N 381-ст // Доступ из справ. — правовой системы «КонсультантПлюс»