Геоинформационные системы становятся одной из основных технологий анализа больших данных для множества областей применения, таких как управление производством, транспорт, энергетика, безопасность и др. Например, для определения оптимального размещения магазинов или проведения рекламной кампании требуется (для каждого местоположения существующего или будущего магазина либо рекламного щита) путем использования пространственных и социально-демографических характеристик рассчитать зоны охвата, а затем построить модель влияния тех или иных социально-демографических факторов на работу торговой точки, т. е. выяснить, какие факторы значимы, а какие –нет, и какова степень влияния. Совокупный объем данных, которые необходимо обработать (количество точек, для которых проводится анализ, количество статистических данных и пр.), огромен. Это действительно «BigData». Наилучший способ выполнить задачу – использовать ГИС совместно с технологиями распараллеливания и работы с большими данными, например Hadoop. Это в разы сокращает время на обработку, а если задействовать еще и виртуальную облачную среду для запуска параллельных процессов, то можно обеспечить и экономию на «железе».
Говоря о больших данных, часто выделяют такие их характеристики, как объем, скорость обработки, особенности визуализации результатов, разнородность самих данных и т. д. Конкретные количественные показатели размеров данных здесь не столь важны, главное, что применение к ним технологий, подобных Hadoop, поможет решить задачи, которые невозможно решить традиционными методами. Или, по крайней мере, получить существенный выигрыш в оперативности, скорости, экономичности расчетов. Особенно актуально применение технологий больших данных при обработке геоданных, поскольку в этом случае нагрузка на традиционные СУБД увеличивается.
Актуальность этих технологий обработки постоянно растет, в том числе за счет увеличения количества данных, поступающих от различных датчиков и сенсоров, число которых уже исчисляется многими миллиардами. Причем часто это данные реального времени, приходящие в разных форматах, которые требуют предварительной гармонизации и структурирования. Правильно организованный анализ таких данных, помимо прочего, позволяет достигнуть понимания на уровне тенденций, а не концентрироваться на отдельных событиях и лежащих на поверхности факторах.
Совмещение технологий больших данных и картографического анализа дает именно то, что требуется при принятии решений, – понимание закономерностей и тенденций, очищенных от «шума». Однако необходимо учитывать, что на восприятие информации существенное влияние оказывает ее представление конкретным человеком, как следствие на основе одних и тех же данных могут делаться совершенно разные выводы. Поэтому важно правильно применять аналитические возможности ГИС и геостатистические методы для выявления закономерностей, сводить к минимуму субъективизм.
Примеры работы с большими данными в ГИС можно найти во множестве областей. Так, если проанализировать с помощью геостатистики все звонки в сети с учетом местоположения абонентов (уровень сигнала, число разрывов соединения и т. д.), то в итоге получим карту качества покрытия сети, которую затем можно использовать в качестве основы для дальнейшего ее совершенствования. Кроме того, эти данные могут применяться для анализа дорожных пробок, плотности пешеходного и автомобильного потоков с целью совершенствования транспортной инфраструктуры или при решении геомаркетинговых задач. Аналогичным образом можно собирать и использовать данные от автомобилей такси (где сели пассажиры, куда ехали, время в пути и т. д.). Эти данные загружаются в Hadoop и анализируются средствами ГИС с использованием инструментов геостатистики. На основе этой информации можно динамически перестраивать маршруты общественного транспорта в зависимости от фактических потребностей пассажиров. Такая система уже реализуется в Абу-Даби и Сингапуре.
Одна из эффективно работающих с большими данными ГИС-систем построена в порту Роттердама (это крупнейший в Европе логистический узел, через который проходит до половины всего европейского импорта и экспорта). Система решает актуальнейшие для порта задачи: обеспечение достаточной глубины акватории для прохождения судов всех типов, мониторинг всей территории порта и обеспечение безопасности, управление активами и множество других. Требования по эргономике системы также предельно четкие. Любая хранящаяся в ГИС информация доступна пользователю не более чем за три клика «мышью». В системе применяются достаточно сложные технологии, в том числе Hadoop, но пользователь об этом знать не обязан, он просто использует ГИС-систему для выполнения своих функциональных обязанностей. Например, быстро получает точную карту тех участков акватории, где требуется провести работы по углублению дна для проводки судов данного типа, или прокладывает соответствующий маршрут.
Таким образом, технологии геоанализа больших данных находятся сейчас на этапе активного развития, но уже сейчас очевидно, что они позволяют реализовать эффективные системы реального времени, дают нетривиальные и практически значимые результаты.