В круглом столе принимают участие:
Андрей БАЙБУТОВ, руководитель практики BI Центра программных решений, компания «Инфосистемы Джет»
Ольга ГОРЧИНСКАЯ, руководитель направления Big Data, компания ФОРС
Александр ГРУНИН, директор департамента комплексных проектов инженерно-технической дирекции, компания «Техносерв»
Оливье КЕССОН, директор по развитию бизнеса Orange Business Services в России и СНГ
Алексей МЕЩЕРЯКОВ, руководитель направления платформенных решений, компания SAS Россия/СНГ
Алексей МОИСЕЕВ, руководитель направления бизнес-аналитики управления сервисов, компания Softline
Юрий ПОПОВ, эксперт по технологиям бизнес-аналитики и больших данных, компания Microsoft в России
Денис РЕЙМЕР, вице-президент, ГК ЛАНИТ
Евгений СТЕПАНОВ, руководитель направления Vertica, компания HP в России
Роман СТЯТЮГИН, директор по развитию бизнеса, компания CleverDATA (ГК ЛАНИТ)
— Если бы вас попросили выстроить иерархию классов ИТ-решений в области больших данных, в каком порядке вы бы их перечислили? Какие из них сегодня развиваются наиболее активно? В каких направлениях будет происходить развитие технологий больших данных?
Ольга ГОРЧИНСКАЯ
Технологии больших данных – это целый набор разных по назначению и функциональности продуктов, среди которых можно выделить четыре основных класса решений:
- средства хранения и обработки больших объемов данных: Hadoop (набор свободно распространяемых утилит, библиотеки программный каркас для разработки и выполнения распределенных вычислений на кластерах с большим количеством узлов); NoSQL-базы данных на основе открытого программного кода; in-memory analytics (технологии, максимально использующие оперативную память для работы аналитических систем);
- средства углубленной аналитики, включая инструменты математических и статистических исследований, средства машинного обучения и Data Mining;
- средства обработки неструктурированной информации – лингвистического анализа (извлечения из текста фактов, определение тональности текста и др.), обработки изображений;
- аналитический инструментарий и среды для бизнес-пользователей: Data Discovery; новые технологии визуального анализа.
Кроме того, существуют специализированные сверхпроизводительные программно-аппаратные комплексы для работы с большими данными.
Над развитием всех этих технологий активно работают представители СПО-сообщества, коммерческие компании и крупные вендоры.
Александр ГРУНИН
Сложно выстроить решения в этой области в иерархию, скорее их можно разложить по уровням. Первый пласт – СУБД с надстройками аналитики. Среди примеров – Teradata, Vertica, Greenplum и т. п. Второй пласт – решения, построенные по типу MapReduce: они включают функционал вышеперечисленных решений, одновременно позволяя использовать не только базы данных (SQL или NoSQL), но и другие источники и средства анализа данных. Оценивая активность развития решений с точки зрения заказчика, я бы говорил не столько о темпах развития, сколько о распространенности решения, частоте внедрений. Например, Apache Hadoop, кажется, используется практически у всех, но это скорее набор библиотек, нежели готовое решение, он больше подходит для использования производителями. И они его используют: Biginsights от IBM на базе Hadoop, Big Data Appliance от Oracle на его же базе.
Алексей МЕЩЕРЯКОВ
Можно выделить несколько направлений развития больших данных, которые уже можно отнести к традиционным. Во-первых, это увеличение объемов потоковых данных и количества источников этих данных. Их генераторами являются мобильные устройства и разнообразные гаджеты, автомобили и все виды транспорта, «умные вещи» – список можно продолжать… вплоть до общественных туалетов, объединенных в единую сеть и подключенных к платежной системе. Во-вторых, это данные из социальных сетей, блогов и форумов. Они могут быть использованы не только для целей маркетинга и просто общения с друзьями, но и для решения важных задач бизнеса, а также в политических целях. В-третьих, кластерные вычисления на базе технологии Hadoop и их все более широкое использование для аналитических вычислений. В-четвертых, появление удобных простых интерфейсов для работы с большими данными, которые вовлекают широкий круг бизнес-пользователей, не умеющих писать SQL-запросы, в ряды аналитиков. Наконец, отметим все большее понимание бизнесом существенного различия между применением технологий больших данных для задач классического BI (отчетность, запросы и пр.) и задач прогнозирования и оптимизации, решаемых с помощью инструментов углубленной аналитики.
Помимо этих уже почти привычных направлений, которые развиваются на протяжении последних лет, можно выделить и несколько новых трендов, набирающих силу и приобретающих все большую ценность. Сегодня очень важно, развивая и продолжая проекты, связанные с большими данными, грамотно выстроить организационную составляющую по управлению ими. Корпоративное управление данными – Data Governance – для больших данных необходимо как воздух. Количество вовлеченных пользователей, а также проектов и задач, которые можно решать, используя большие данные, огромно. Чтобы обеспечить взаимодействие между различными подразделениями и источниками, технологиями, разнородными платформами, которые так или иначе вовлечены в проекты по большим данным, необходимо четко и конкретно выстраивать корпоративное управление данными. Нужно воспитывать, нанимать, создавать позиции для администраторов данных, чтобы «дирижировать» всеми процессами. Понимая это, ведущие компании уже разработали системы для корпоративного управления данными. В контексте больших данных следует упомянуть и «быстрые данные» (Fast Data) или, как их еще называют, «потоковые данные» (Stream Data) – это отдельная новая область больших данных, которая серьезно дополняет и обогащает возможности бизнеса. Концепция потоковых данных – это способ объединить в центре принятия решений не только информацию по накопленным историческим данным, данным из социальных сетей, Интернета и других источников, но и огромные потоки непрерывно поступающих сведений.
Алексей МОИСЕЕВ
На данный момент мы выделяем решения SAP HANA и Oracle Exa… как наиболее близкие к тому, что нужно бизнесу «здесь и сейчас».
Юрий ПОПОВ
Аналитические решения для обработки больших данных в режиме реального времени сегодня весьма актуальны, однако выстроить их четкую классификацию сложно. То, какие технологии используют компании, во многом зависит от их сферы деятельности, ведь каждая отрасль выдвигает свои требования к подобному ПО. Так, торговые предприятия используют аналитические программы для определения «горячих» и «холодных» зон внутри торговых площадей, для выстраивания маркетинговых кампаний и логистики. Компании металлургической сферы и крупные промышленные предприятия чаще всего прибегают к системам автоматизации и учета данных. Госсектор использует инструменты для полнотекстового поиска при работе с нормативными документами и актами.
В целом наиболее популярны сегодня те технологии, которые позволяют обогащать исторические данные дополнительной информацией и создавать информационный капитал компании. Задачи более полного анализа больших данных характерны в первую очередь для банковского сектора. Например, американская компания Klout, которая специализируется на мониторинге социальных сетей, внедрила SQL Server 2012 и средства для бизнес-анализа Microsoft, чтобы определять индекс авторитета конкретного потребителя, который используется банками для оценки его платежеспособности или составления индивидуальных предложений финансовых услуг.
Денис РЕЙМЕР
Не затрагивая аппаратные решения, в первую очередь хотелось бы выделить два класса программных решений: программная инфраструктура для хранения и обработки больших данных и решения по анализу больших данных.
На наш взгляд, активно развиваются сейчас именно решения, связанные с анализом. Большинство наших клиентов уже провели серию экспериментов по сбору, организации хранения и сейчас двигаются в сторону отработки гипотез и кейсов для повышения прибыльности и эффективности деятельности. Ключевой вопрос, на который каждый хочет найти ответ: как монетизировать данные, накопленные внутри организации? Как извлечь из них максимум пользы для развития бизнеса? Можно ли получить еще больший эффект, обогатив собственные данные организации за счет информации, доступной на рынке?
Мы видим новый тренд в готовности компаний из разных секторов экономики активно участвовать в обмене информацией для обогащения данных. В первую очередь обогащение направлено на понимание поведения и намерений потребителя, за счет чего можно более качественно выстраивать коммуникации и предлагать потребителю действительно нужный в данный момент времени сервис или продукт.
Евгений СТЕПАНОВ
Если говорить о структуре технологического ландшафта, то иерархическая структура здесь не очень подходит. Скорее можно говорить о многомерной матрице с множеством связей, измерениями матрицы могут быть технологии хранения, обработки и представления данных, и задачей специалиста по обработке данных (Data Scientist) становится прокладывание кратчайшего маршрута через все многообразие технологий для получения требуемого результата анализа. Целью создания любой из технологий обработки больших данных на нынешнем этапе является сокращение этого пути, т. е. построение полноценного механизма для обработки всего многообразия данных.
Хотел бы отметить, что все без исключения технологии, связанные с обработкой больших данных, развиваются сейчас очень активно. Как правило, это молодые технологии, в то время как классические технологии, востребованные во времена BI, уходят на второй план, замещаются новыми технологиями и парадигмами. Столь бурное развитие связано прежде всего с низким уровнем зрелости отрасли обработки данных, а на молодом рынке, как мы знаем, и цена входа низка, и рост бьет все рекорды.
— Предполагается, что большие данные содержат в себе знание о том, что делать бизнесу, в каком направлении целесообразно развиваться. При этом решение все равно принимает человек. В какой степени актуален вопрос доверия между человеком и аналитическим приложением, работающим с большими данными? Каким критериям должно соответствовать извлеченное знание, чтобы руководитель бизнеса, принимающий решение, мог считать его достоверным и актуальным?
Андрей БАЙБУТОВ
Большие данные содержат в себе информацию для размышлений. Чем больше подобной «пищи для ума», тем проще человеку принимать решение. Но при двух условиях: «пища» правильно приготовлена (получилось желаемое блюдо) и есть уверенность в том, что она полезна и ее действительно стоит употреблять.
Вопрос доверия конечных пользователей к аналитическим приложениям был, есть и будет актуальным. При внедрении новой системы он встает особенно остро. Во-первых, для повышения доверия к данным необходимы полная автоматизация процесса и исключение человеческого фактора. Во-вторых, логика извлечения и трансформации данных должна исходить из бизнеса заказчика, чтобы конечный результат соответствовал его ожиданиям. При сдаче системы в эксплуатацию доказательством ее корректной работы может служить проверка на эталонных образцах, в которых содержатся проверенные цифры. В случае их совпадения с результатами работы системы недоверие будет резко снижаться. Основными критериями, определяющими степень доверия к данным, являются их чистота и корректность бизнес-логики извлечения. Оба критерия, как правило, реализуются на уровне ETL.
Ольга ГОРЧИНСКАЯ
Вопрос доверия человека к программе актуален всегда, поскольку путь от постановки бизнес-задачи до ее реализации в виде программного продукта очень долог и на этом пути встречается множество точек риска, неоднозначностей и неопределенностей. В случае больших данных вопрос доверия стоит еще более остро, чем в традиционных аналитических системах, поскольку обрабатываются не только данные внутренних информационных систем, которым можно доверять, но и огромное количество неструктурированной, сырой и непроверенной информации из внешних источников. Одним из основных источников больших данных является Интернет, где никто не следит за достоверностью и полнотой информации. Тем не менее «количество переходит в качество», и огромные объемы данных позволяют получить полезные и адекватные знания, несмотря на имеющийся «шум». Точно так же мы используем Интернет для решения своих личных задач, понимая, что не все там правильно и согласованно.
Другим источником недоверия могут стать собственно алгоритмы обработки и извлечения из больших данных полезных знаний – фактов, закономерностей, взаимосвязей. Такие алгоритмы основаны на сложных математических и статистических методах, и объяснить конечному пользователю способы использования таких алгоритмов, настройки их на определенный состав и характер данных не так просто. Именно потому столь стремительно развивается относительно новая специальность – Data Scientist. На таких экспертах как раз и лежит основная ответственность за работу с большими данными, и они во многом обеспечивают доверие к результатам со стороны людей, принимающих решения. Такие специалисты в скором времени будут играть ключевую роль в организациях, использующих возможности больших данных для получения конкурентных преимуществ на рынке.
Александр ГРУНИН
Решения принимают руководители организации на основании управленческой отчетности, которая, в свою очередь, также готовится людьми (аналитиками и разработчиками) с помощью средств аналитики. Источниками информации для них и являются «большие» или «небольшие» – любые данные. «Доверять приложению» было бы немного странно – оно также создано людьми и не исключает человеческого фактора. Скорее, вопрос в качестве результата, который оно дает на выходе. Его тоже оценивают специалисты – аналитики и разработчики. Если приложение работает корректно, есть смысл его использовать. Критерии же стоит прилагать не к знаниям, а к умению ими пользоваться: руководитель должен обратить внимание на то, как исполнитель понимает задачу, и на его профессионализм. Правильное понимание задачи – успех в результате; профессионализм – эффективное использование средств получения результата. Ничего не изменилось, все по-прежнему зависит от человека, просто с развитием технологий, в том числе в области больших данных, для него открываются новые возможности.
Оливье КЕССОН
Безусловно, решение в любом случае принимает человек. Поэтому лучше всего использовать различные источники данных, чтобы проверить объективность извлеченного знания. При определении актуальности данных важны такие критерии, как время получения данных, их объем и ценность для бизнеса. К примеру, пользователь оставляет сообщение в одной из социальных сетей, задача системы – определить, требует ли это сообщение немедленной реакции. Таким образом могут обрабатываться огромные объемы информации, и риск ошибки, который присутствует всегда, нивелируется пользой для бизнеса, которую приносит решение в данном случае, экономя человеческие ресурсы. Речь идет о репутационных рисках, которые могут компенсироваться иными мерами. В другом случае, если рассматривать, например, авиационную отрасль, критичны данные о времени прибытия самолета, поэтому тщательно собираются и анализируются данные из разных источников.
Алексей МОИСЕЕВ
Переложить ответственность за принятие решений с человека на машину не получится. Но вопрос в том, чтó это за решение. До Big Data человеку нужно было детально проанализировать огромное количество информации и выбрать наиболее подходящий путь. Чем больше подчиненных участвовало в анализе, тем больше ошибок допускалось. Чем крупнее бизнес, тем больше информации по разным причинам не попадало в рассмотрение и анализ. Задачами Big Data являются снижение количества ошибок до нуля и полное разблокирование всех имеющихся пластов информации, включая внешние.
Существует довольно много мощных решений, не востребованных на рынке именно по причине того, что они воспринимаются как «закрытые». Даже огромное количество документации не способно изменить ситуацию, так как уровень сложности решения выше понимания среднего бизнес-пользователя (пусть и с большим опытом и хорошим образованием).
Критерии оценки достоверности результата будут вырабатываться еще долгое время, сейчас же итоги «большого знания» обязательно идут вместе с аналитическими инструментами BI, которые позволяют рассмотреть данные с разных сторон и убедиться в том, что: а) нет ошибок; б) числа трактуются правильно с точки зрения реальной жизни и бизнес-специфики.
Юрий ПОПОВ
Уровень доверия к аналитическим приложениям в наибольшей степени зависит от типа данных. Важная внутренняя информация требует от компаний максимальной аккуратности, в то время как достоверность публичных данных часто подвергается сомнению. Одним из решающих факторов в этом вопросе является сфера деятельности организации. Например, высокоточное производство и маркетинг требуют совершенно разных подходов к работе с большими данными.
Денис РЕЙМЕР
Большинство решений уже сейчас принимаются автоматически – в этом суть развития информационных технологий. Очевидно, что постепенно расширяются возможности для реализации задач, в которых автоматическое принятие решений возможно. Большие данные позволяют подготовить более качественную почву для принятия решения, точнее определить сегменты, учесть большее число факторов и зависимостей. Автоматизировать или нет сам момент принятия решения, нужно решать в каждом случае отдельно.
Ключевое изменение, которое привнесли большие данные в современные системы принятия решений, – возможность использовать знания в реальном времени, существенно уменьшая недостаток информации, необходимой для понимания следующего шага и уверенности в его правильности. Возможность быстрее принимать решения и получать качественную обратную связь позволяет бизнесу постоянно улучшать свои процессы и настраивать критерии принятия решений.
Евгений СТЕПАНОВ
Доверие – ключевой элемент анализа данных, так как результаты анализа являются основой для принятия управленческих решений. Продукту, недавно появившемуся на рынке, завоевать этот рынок не просто, а зачастую невозможно. В этой ситуации особенно важна плавность перехода от BI к большим данным, чтобы процесс не разрушался, а эволюционировал, чтобы аналитики на первом этапе могли работать с теми инструментами, которые знают и которым доверяют. По сути, инструмент для работы с большими данными сейчас является мостом через реку, на одном берегу которой находится Business Intelligence, а на другом – Big Data. С развитием аналитической экспертизы компании могут переходить к использованию расширенных аналитических функций, пакетов языка R, сентимент-анализа и т. п.
Если же говорить о достоверности выводов аналитической системы, то в первую очередь необходимо контролировать качество алгоритмов и, как ни странно, объемы данных. Сейчас чем больше данных мы обрабатываем, тем выше качество прогнозов и корректнее аналитический вывод. И качество алгоритмов, и количество данных – величины объективные и измеримые, таким образом, мы можем точно определить достоверность результата.
— Объективность анализа, достоверность его результатов определяются, в частности, заложенными в аналитические программы алгоритмами обработки и качеством данных. Как решаются эти задачи поставщиками аналитических приложений? Какие острые вопросы в плане обеспечения качества данных возникают в ходе реализации проектов в компаниях?
Андрей БАЙБУТОВ
Чтобы получить необходимое качество при программной обработке данных, необходимо детально проработать техническое задание и собрать требования по алгоритмам обработки и бизнес-логике формирования показателей. Следует учесть каждую мелочь, каждый фильтр и ограничение. Существуют, конечно, и стандартные способы очистки данных – анализ справочников на предмет наличия посторонних данных, анализ фактов по различным маскам на предмет содержания цифр, не соответствующих действительности. К примеру, продажи: очень часто в таблицах чеков могут содержаться такие записи, как 1 000 000 000 000 000 руб. Естественно, они не являются реальными и не соответствуют действительным суммам продаж, эти записи попали в БД в силу различных обстоятельств: в результате тестирования операционистом корректности проведения транзакций, банального залипания клавиши и др. Их, конечно, необходимо исключать из анализа на этапе ETL.
Другой острый вопрос – обеспечение наличия одинаковых данных в разных системах. Зачастую данные по продажам одновременно ведутся в нескольких бизнес-приложениях. И порой они разнятся. Как этого избежать? Проще всего – аналогичными методами, с помощью аналитических приложений формировать сводные таблицы или отчетные формы, где проводится сопоставление (маппинг) данных из разных систем и где наглядно видно: в этой системе транзакция есть, а в той – нет.
Ольга ГОРЧИНСКАЯ
Частично этот вопрос пересекается с вопросом о доверии человека к аналитическому приложению. Можно добавить, что во многих случаях принципиально невозможно получить абсолютно правильные и точные данные. Поэтому результаты анализа больших данных очень часто имеют такой параметр, как уровень достоверности. Например, при построении профиля лояльного клиента по имеющейся выборке данных гарантируется лишь определенный уровень достоверности построенной модели. Точно так же сложная лингвистическая обработка текстов редко дает идеальные результаты, поскольку полностью формализовать естественный язык не так легко. Все это не мешает получать полезные и значимые результаты, на основе которых можно решать важные бизнес-задачи.
Александр ГРУНИН
Все просто и сложно одновременно. Если не считать желающих лишь заработать, быстро сдав проект, и других недобросовестных исполнителей и взять в качестве данности именно готовые алгоритмы, то результат будет зависеть от совокупности двух факторов: правильности выбора средства анализа и качества исходных данных. Например, качественный прогноз погоды зависит от качества математической модели и качества измерений. Если погрешность измерений (исходных данных) велика, она может сделать прогноз с использованием даже самой продвинутой математической модели гаданием на кофейной гуще.
Оливье КЕССОН
Любой успешный проект опирается на качество данных. Так, чтобы повысить продажи в компании, мы должны проанализировать портрет потребителя. Для этого нужно учесть целый ряд факторов, таких как размер компании, ее история, продуктовая линейка, имена ключевых для нас лиц. В данном вопросе качество данных – важнейший показатель, и не все зависит от используемого решения Big Data. Можно инвестировать огромные суммы в решение, однако так и не получить желаемого результата. Тому есть ряд причин. Важно, во-первых, то, как вы данные получаете, во-вторых, как анализируете, в-третьих, как ими управляете. Например, чтобы проанализировать поведение покупателей в магазинах, Orange использует специальные системы поведенческого анализа. На основании полученных данных принимается решение об изменении бизнес-процессов компании. Качество данных зависит не только от приложения, которое используется, но и от других вышеперечисленных факторов.
Алексей МОИСЕЕВ
Самая большая проблема кроется в том, что аналитические инструменты разрабатываются специалистами в ИТ, а не отраслевыми экспертами. К сожалению, огромные знания первых не применяются вторыми. А заложенные в ПО алгоритмы часто не обеспечивают одинаково эффективное применение на всех вертикальных рынках.
В данном случае все решает человеческий фактор. Например, Softline ведет набор команды BI & BigData по всей России. Это помогает удовлетворить потребности рынка в уникальных специалистах в регионах присутствия компании.
Юрий ПОПОВ
Microsoft помогает извлекать новые знания из массивов данных. Технологии корпорации позволяют работать с Big Data по трем основным направлениям:
- анализ информации на уровне организации в целом с использованием специализированного программно-аппаратного комплекса Analytics Platform System (APS). Данный способ предполагает обработку как структурированных, так и неструктурированных данных силами ИТ-департаментов компаний;
- работа с информацией на стыке математики и логики (Data Science) при помощи технологий Machine Learning (предсказательной аналитики). Этот подход требует привлечения специалистов с богатым опытом математического моделирования;
- самостоятельный анализ данных любого типа, размера, происхождения силами бизнес-пользователей с помощью инструментов Power BI. Главное требование к пользователю в таком сценарии – умение работать в MS Excel.
Универсальных алгоритмов обработки данных не существует. Однако в большинстве случаев работа с информацией строится следующим образом: поиск данных – подтверждение их достоверности – извлечение данных – структуризация информации – создание единой непротиворечивой модели данных – поддержание работы и администрирование баз данных.
Денис РЕЙМЕР
Современные аналитические программы продолжают совершенствоваться, постоянно добавляются новые возможности по работе со статистическими алгоритмами, машинным обучением, визуализацией и построением отчетов на основании доступных данных в реальном времени. Для достижения объективного достоверного результата качество данных, их полнота имеют огромное значение. В большинстве наших кейсов мы сталкиваемся с необходимостью обогатить имеющиеся данные дополнительной информацией из внешних источников. Для этого совместно с компанией CleverDATA развиваем собственный сервис – Биржу данных, площадку на которой наши клиенты могут получить данные от разных поставщиков информации, объединить их для решения своей задачи, обогатить этой информацией свои собственные данные (например, информацию о клиентах в CRM-системе информацией о поведении клиентов онлайн, чтобы более точно понимать их предпочтения и намерения) и извлечь знания для дальнейших действий (например, проведения точечной маркетинговой кампании для наиболее восприимчивого к продукту сегмента аудитории или предложения клиенту продукта, отвечающего его текущим намерениям).
Евгений СТЕПАНОВ
Сейчас алгоритмы перестали быть чем-то статическим. Например, в методах машинного обучения алгоритмы меняются в процессе использования, и платформа обработки больших данных должна предоставлять гибкие возможности конфигурирования используемых алгоритмов, а также, безусловно, возможности расширения алгоритмической базы.
Что касается качества данных, то тут ключевым фактором является выбор источника, и это задача не такая тривиальная, как кажется на первый взгляд. Если мы возьмем информацию из социальной сети для решения задачи кредитного скоринга, то вскоре поймем, что не можем выдавать кредиты никому, потому что информация сильно зашумлена, а полнота ее оставляет желать лучшего. Выбор корректных источников данных – задача, по сложности сравнимая с написанием алгоритмов или выбором аналитической системы, поэтому для ее решения необходима специальная экспертиза.
— Что представляет собой российский рынок ИТ-решений в области больших данных: основные сегменты, объем, точки роста?
Ольга ГОРЧИНСКАЯ
Рынок больших данных в России только формируется, причем предложение опережает спрос. Практически нет проблем с наличием и доступностью технологий, готовностью поставщиков и интеграторов к их внедрению. Но в большинстве своем российские организации пока еще только присматриваются к решениям, в основе которых лежат технологии больших данных. Примеры внедрения пока единичны, думаем, речь идет о долях процента по отношению ко всему отечественному ИТ-рынку – объем этого сегмента пока очень мал.
Александр ГРУНИН
Российский рынок ИТ-решений в области больших данных – это интеграторы, предлагающие решения от производителей, и организации, решающие такие задачи своими способами (как правило, крупные интернет-компании, использующие поисковики, соцсети и т. п.). Точки роста нащупать сложно, принимая во внимание обстановку с санкциями, падением рубля, темой импортозамещения. Можно говорить об отраслях, для которых большие данные уже давно являются актуальной задачей и могут помочь извлечь дополнительную выгоду. Это касается прежде всего области научных исследований, например метеорологии или ядерной физики. В коммерческой сфере в больших данных наиболее заинтересованы банки, страховые компании, телеком-операторы, а в госсекторе – спецслужбы и органы государственной власти, работающие с населением и предприятиями (ФНС, ФМС, Росреестр, Росстат и т. п.).
Юрий ПОПОВ
Спрос на автоматизированные аналитические решения растет, некоторые организации уже сегодня активно их применяют. Наибольшей популярностью они пользуются в банковской сфере, ритейле и у телеком-провайдеров. Несмотря на то что российские компании только начинают проявлять интерес к Big Data, тенденции рынка демонстрируют широкие перспективы развития данного направления.
Евгений СТЕПАНОВ
Мы наблюдаем особенный интерес к большим данным со стороны компаний так называемой Digital Economy, т. е. изначально сфокусированных на обработке данных. В последнее время традиционные отрасли, включая банки, телеком и ритейл, тоже приходят к необходимости извлекать выгоду из больших данных. В России рынок только начинает развиваться, и отмечается ускорение темпов роста. Уверен, что в ближайшее время мы увидим множество интересных проектов в этой области. Необходимо обеспечить низкую стоимость входа в мир больших данных, чтобы все преимущества от их использования были у малого и среднего бизнеса, так как именно они находятся на острие инноваций.
Роман СТЯТЮГИН
Рынок Big Data в России можно разделить на три основных сегмента – инфраструктура, профессиональные услуги в области построения решений Big Data и прикладные решения. В первом сегменте традиционно доминируют крупные западные вендоры, поставляющие на рынок серверы и системы хранения. Второй сегмент – это консалтинг и услуги, связанные с использованием систем хранения и обработки неструктурированной информации (в первую очередь речь идет о Hadoop и связанных с ним продуктах), а также высокопроизводительных NoSQL-систем. В данном сегменте проекты выполняют многие российские интеграторы.
В области прикладных решений, базирующихся на анализе больших объемов информации, основное развитие идет по таким направлениям, как анализ клиентской базы (например, решаются задачи прогнозирования предпочтений или предсказания оттока клиентов). Другая область – управление рисками путем построения скоринговых моделей, основанных на различных срезах информации. Развиваются решения в области веб-аналитики и таргетирования интернет-рекламы. Драйверы роста всех трех сегментов сосредоточены именно в развитии прикладных решений.
— Какие новые концепции, направления развития ИТ могут появиться на базе больших данных в скором времени?
Александр ГРУНИН
Требуется длительное и пристальное наблюдение за этим направлением, чтобы сделать мало-мальски похожий на правду прогноз. Думаю, будет происходить сдвиг в сторону экспертных систем, способных содействовать принятию решения с помощью самообучения, т. е. систем, которые могут давать прогнозы на основании исторических данных либо делать выводы о недостающей информации из актуальных данных. Проблема в том, что сегодня не хватает вычислительных мощностей для обработки огромных массивов данных, которые генерируются в наш цифровой век. Поэтому к данным применяются весьма простые методы обработки. Если будет прорыв в производительности аппаратных решений или прорыв в оптимизации обработки данных, то можно ждать более серьезных успехов в этом направлении.
Алексей МОИСЕЕВ
В некотором смысле Big Data – это рельсы для процесса консьюмеризации, средство приближения сложнейших аналитических машин к рынкам услуг для бизнеса и государства. Это значит, что большие данные не столько расширяют круг используемых продуктов, сколько активизируют рост существующих. В обозримом будущем мы ожидаем появления агломераций банковского и потребительского ритейла, позволяющих вывести аналитику трат рядовых граждан на новый уровень (видеть в интернет-банках не только факт покупок, но и детализацию чека).
Юрий ПОПОВ
Развитие технологий Big Data сегодня служит импульсом к появлению новых профессий в ИТ. Недавно на Западе начали появляться Data Scientists – специалисты, способные работать на стыке математики и ИТ. Их основная задача – анализ больших данных с точки зрения изучения и извлечения ценной для бизнеса информации. В нашей стране на данный момент профильных специалистов в этой области мало.
Кроме того, растут технические навыки бизнес-пользователей и бизнес-компетенции ИТ-специалистов, появляются гибридные сценарии работы. Еще одна важная тенденция – «демократизация» данных и создание user friendly-инструментов. Ставка Microsoft в этом вопросе – на MS Excel, который является наиболее распространенным BI-инструментом в мире (более 1 млрд пользователей).
Наконец, все большее распространение получают технологии для анализа неструктурированной информации. Так, с помощью гибридного облачного решения, созданного компанией Ascribe на базе технологий Microsoft SQL Server и Windows Azure HDInsight, медицинские учреждения Великобритании могут оперативно реагировать на угрозы здоровью людей. Использование технологий Big Data позволяет врачам видеть полную историю болезни пациента, оперативно принимать решения, а также предотвращать эпидемии, анализируя данные в масштабах региона и даже страны.
Денис РЕЙМЕР
Ключевыми направлениями развития будут сокращение времени и повышение точности принятия решения. Например, при работе с потребителями решения в идеале должны позволять выделять сегмент из одного клиента, чтобы предложить ему необходимую услугу или продукт в наиболее подходящий для принятия решения момент и по наиболее предпочтительному для него каналу взаимодействия.
Мы считаем, что развитие решений, связанных с большими данными, будет направлено как на более глубокое извлечение знаний из информации, накопленной внутри организаций, так и на активный поиск внешних кластеров информации, которыми можно обогатить собственные данные. Это может привести к новым открытиям, появлению новых идей и даже изменениям модели ведения бизнеса.
Евгений СТЕПАНОВ
Сейчас технологии обработки больших данных развиваются неравномерно и фрагментарно. В ближайшем будущем мы увидим больше интеграции между различными технологиями, например Hadoop и SQL, что позволит достичь эффекта синергии при внедрении смежных технологий. С другой стороны, размеры инфраструктур, на которых строятся технологии больших данных, становятся поистине колоссальными и значимость их для бизнеса возрастает. Соответственно, необходимо выстраивать экосистему больших данных таким образом, чтобы исключить любые сбои в системах принятия решений.