Вопросы безопасности являются сейчас одной из основных проблем внедрения и эксплуатации систем больших данных. Существующие подходы, как правило, основаны на разрозненных мерах при отсутствии единой и проверенной временем концепции защиты. Бóльшая часть утечек – следствие халатности или умысла сотрудников компаний. Следует учитывать и тот факт, что технологии больших данных часто построены на решениях с открытыми исходными кодами, развитием которых в компании могут заниматься несколько человек, и информационной безопасности особого внимания не уделяется.
Для защиты систем больших данных используют, на первый взгляд, те же инструменты и подходы, что и для защиты других систем. Однако при планировании безопасности важно помнить о существенных особенностях технологий больших данных. Надежную систему защиты обеспечит риск-ориентированный подход в совокупности с грамотно выстроенными бизнес-процессами и стратегией информационной безопасности.
Что мы называем большими данными?
Изначально понятие больших данных появилось в качестве технологии с открытыми исходными кодами в начале 2000-х гг. в связи с возрастающей дороговизной хранения информации в реляционных базах данных, но активный спрос на них возник только в 2011 г. И хотя технологии больших данных сегодня являются одним из ключевых драйверов развития ИТ, до сих пор встречается недопонимание указанного термина и особенностей технологии.
По отношению к другим способам хранения и обработки информации отличия больших данных проявляются в следующих характеристиках:
- огромный объем (обычно тера- и петабайты);
- высокая скорость обработки (данные должны обрабатываться максимально приближенно к реальному времени);
- разнообразие форматов и источников;
- полнота и достоверность данных;
- ценность информации для бизнеса и необходимость обеспечивать безопасность ее хранения и использования (персональных данных, финансовой информации и т. д.).
Все это и обусловливает особенности обеспечения безопасности больших данных.
Ключевые вопросы безопасности
Основной подход к обеспечению безопасности больших данных может соответствовать классическому:
- распределение ролей;
- обнаружение и предотвращение вторжений;
- аутентификация пользователей и администраторов;
- обучение пользователей;
- шифрование.
Однако в случае с большими данными появляется дополнительный уровень безопасности, поскольку стадия обработки информации разделяется на этапы «входа», «хранения» и «выхода».
Вход
В хранилище информация поступает из самых различных источников – от внутренних CRM-, ERP- и других систем до реляционных баз данных и огромного количества неструктурированной информации, такой как электронная почта или даже социальные сети. Все эти данные нужно защитить при передаче от источника до платформы обработки больших данных.
Хранение
Основными инструментами защиты данных при хранении (в покое) являются качественные механизмы идентификации и аутентификации, шифрование данных, а также защита от вторжений.
При работе с большими данными для классического подхода нужно учитывать некоторые особенности, в частности распределенное хранение данных в кластере с огромным количеством узлов и серверов. Не стоит забывать и о защите смежных систем: аналитических инструментов, сборщиков системных записей, анализаторов состояния и т. п.
Выход
На выходе системы больших данных компания получает самое ценное – структурированную, отфильтрованную информацию и результаты аналитики, на основании которых можно принимать тактические или стратегические решения. Эта информация передается в различные системы – приложения, отчеты, рабочие столы и т. д. Обработанные данные уже являются самой чувствительной информацией, наиболее интересной для нарушителей.
Главным способом защиты этих данных является шифрование. Если их планируется передавать за пределы контролируемой зоны (например, в стороннюю компанию), то необходимо обеспечить и шифрование канала передачи.
Основные технологии защиты больших данных
Технологии защиты систем обработки больших данных знакомы практически всем, однако важно помнить про их особенности. В первую очередь все инструменты должны иметь хорошие возможности масштабирования и способность обеспечивать безопасность различных типов данных на разных этапах (вход, хранение, выход).
Шифрование данных и канала с учетом огромного объема информации. Шифрование должно работать для различных типов данных – пользовательских и сгенерированных сторонней системой. Оно должно быть задействовано и для реляционных баз данных, и для нереляционных, а также для специализированных форматов хранения (например, HDFS). Следует помнить и о шифровании выходных данных в аналитические и другие системы.
Централизованное управление ключами должно обеспечиваться с учетом географической распределенности, а также обилия источников и потребителей данных.
Контроль доступа для больших данных иногда вовсе не реализуется, поскольку проект может быть разработкой нескольких энтузиастов в компании, имеющих права администратора. Для защиты критичной информации необходимо организовать правильную ролевую модель доступа на основе разработанных политик безопасности. Также сюда относится установка систем контроля и аудита действий администраторов.
Детектирование и предотвращение вторжений. Ценность информации и распределенная архитектура систем больших данных привлекают злоумышленников, соответственно риск атаки извне значительно выше, чем для обычных информационных систем. Использование таких классических инструментов, как IDS, IPS, межсетевые экраны, является необходимым для защиты от вторжений.
Физическая безопасность. При создании систем больших данных на собственных мощностях следует обратить особое внимание на систему контроля физического доступа. При решении разворачивать систему в облаке рекомендуется внимательно изучить SLA и заключать договор только с доверенным провайдером.
Подзаг1//Препятствия для защиты больших данных
Даже несмотря на то что некоторые компании понимают всю проблематику защиты систем больших данных, многие все равно пренебрегают мерами безопасности, так как это может повлечь за собой значительные финансовые затраты и повышение риска остановки бизнес-процессов. Имеет место и отсутствие риск-ориентированного подхода.
Основные проблемы в достижении необходимого уровня информационной безопасности для больших данных заключаются в следующем:
- специалистам, которые занимаются разработкой и поддержкой систем больших данных, прежде всего необходимо обеспечить совместную работу различных продуктов с исходными кодами, внешних источников и инструментов анализа, а также надежную, быструю и удобную работу. О безопасности обычно думают в последнюю очередь;
- продвинутые аналитические инструменты для анализа неструктурированных данных, а также нереляционных баз данных (например, NoSQL) зачастую являются новыми продуктами, находящимися пока в стадии разработки, что осложняет работу систем безопасности с ними (в вопросах интеграции, настройки правил и политик, установки патчей и т. д.);
- системы информационной безопасности должны защищать передачу данных из множества аналитических систем к различным потребителям, что связано с большими расходами на обеспечение защиты. К тому же, например, неправильно выбранное средство шифрования может замедлить скорость обработки и предоставления информации, что обусловит значительные убытки;
- администраторы систем больших данных могут самостоятельно (без согласования или уведомления) получать доступ к хранилищу данных и выполнять определенные действия. Система информационной безопасности должна отслеживать все попытки подозрительных доступа или действий в хранилище.
Часто проблемой для обеспечения безопасности больших данных является их объем: терабайты или петабайты данных очень трудно подвергать частому аудиту и анализу безопасности. Кроме того, большинство платформ обработки больших данных – кластерные, что означает возможное наличие различных уязвимостей в нескольких узлах и/или серверах.
Некоторые компании сталкиваются с ситуацией, когда установка обновлений негативно сказывается на производительности системы, и не хотят лишний раз рисковать. Тем не менее регулярные обновления безопасности как самих продуктов систем больших данных, так и всего окружения необходимы и ими нельзя пренебрегать.