Татьяна Зобнина, ведущий разработчик систем машинного обучения, департамент систем автоматизации ИТ и процессов обслуживания, NAUMEN
Большие объемы данных во многих отраслях помогают перенести методы машинного обучения из исследовательских лабораторий на реальное производство. Наиболее актуальные вопросы сегодня связаны не со сбором, хранением и передачей огромного количества данных, а с их пониманием, т. е. превращением данных в знания, выводы и действия.
Сегодня уже очевидно, что большие данные – это не маркетинговый ход. В 2005 г. объем всех данных составлял примерно 150 эксабайт, в 2010-м – 1200 эксабайт, а сейчас ежедневно создается 2,5 квинтиллиона байтов данных. Пользователи Twitter генерируют более 500 млн твитов каждый день, аналогичное количество изображений загружается в Facebook. В 2016 г. граф связей пользователей Facebook содержал более миллиарда узлов и свыше сотни миллиардов ребер-связей между пользователями. Объем Всемирной паутины, согласно индексу Google, превышает 45 млрд веб-страниц, а Google ежедневно выполняет несколько миллиардов поисковых запросов по всем страницам.
Потенциал
Вместе с достижениями в области ИИ и машинного обучения большие данные могут привести в новым открытиям в различных областях знаний. Например, высокопроизводительные геномные эксперименты можно применять для персонализированной медицины, а исторические климатические данные – для понимания глобального потепления и прогнозирования погоды. Инструменты анализа снимков со спутников с помощью алгоритмов машинного зрения открывают широкие перспективы для многих отраслей – от сельского хозяйства до нефтедобычи.
Однако исследователи зачастую сталкиваются с плохой масштабируемостью алгоритмов машинного обучения. Алгоритмический параллелизм с использованием многоядерных процессоров, графических процессоров, параллельные и распределенные системы вычислений наряду с разработкой новых алгоритмов обработки данных – неотъемлемая часть процесса актуализации больших данных при помощи алгоритмов машинного обучения. Только благодаря алгоритмам машинного обучения большие данные, обеспечивают беспрецедентные возможности для научных открытий и коммерческой эксплуатации во многих областях знаний и отраслях экономики.
Бизнес
Развитие и распространение технологии больших данных вместе с новыми революционными идеями в области алгоритмов машинного обучения способствовали синергетическому росту применения решений на основе ИИ в различных областях бизнеса. По данным опроса Big Data Executive Survey, представленного в январе 2018 г. компанией NewVantage Partners, подавляющее число руководителей (97,2%) ведущих компаний и корпораций Fortune 1000 отметили, что их компании инвестируют в создание технологий больших данных и внедрение решений на основе ИИ. Среди опрошенных 76,5% руководителей отметили, что технологии больших данных расширяют возможности применения технологий ИИ для их компаний. Результаты опроса показывают, что респонденты видят взаимосвязь между возможностями большими данных и технологиями ИИ.
Среди пионеров применения технологий больших данных и решений на основе алгоритмов машинного обучения – финансовые компании. Из-за большого объема транзакционных и клиентских данных эти организации всегда были на переднем крае использования аналитики для управления рисками, оценки прибыльности и кредитоспособности клиентов и определения целевых сегментов рынка. Однако многие из этих компаний сталкиваются с угрозой со стороны более молодых конкурентов, также ориентированных на использование больших объемов данных и при этом не имеющих устаревших бизнес-процессов, связанных с хранением и обработкой данных, которые создали культуру обработки данных, основанную на поточной обработке событий и алгоритмах машинного обучения.
Самой трудной задачей при переходе к новой культуре управления данными 48,5% считают человеческий фактор, 32,4% – бизнес-процессы и лишь 19,1% – технологии. Подавляющее большинство (79,4%) руководителей отмечают, что они опасаются угрозы со стороны новых высокотехнологичных конкурентов. В ответ на угрозу со стороны конкурентов компании увеличивают свои инвестиции в ИИ и большие данные. 71,8% руководителей указали, что инвестиции в ИИ окажут наибольшее влияние на изменения в их отрасли.
По мнению руководителей, инвестиции в большие данные и ИИ начинают давать значимые и измеримые с точки зрения бизнеса результаты. 73,2% руководителей сообщают, что их организации уже добились качественных результатов своих инвестиций в большие данные и ИИ. В частности, 69% руководителей отмечают значительных успех в инициативах по совершенствованию процессов принятия решений с помощью операционной аналитики, 60,9% сократили расходы. Однако всего 8,7% руководителей сообщают об успехах в монетизации больших данных и всего 7,2% считают это целью «номер один» для своего бизнеса. Подавляющее количество руководителей – 93% –сообщают об инвестициях в ИИ и машинное обучение как в технологию с наибольшим ожидаемым воздействием на развитие отрасли. Влияние больших данных выходит далеко за рамки простых отчетов и аналитики, так как примерно половина опрошенных отметили, что их компании используют технологии больших данных наряду с ИИ для вывода новых продуктов на рынок и улучшения клиентского опыта. Таким образом, большие данные в сочетании с ИИ обеспечивают мощную основу для новой стремительной волны инноваций.
Алгоритмы
Доступность больших объемов разнородных данных, возможность оперативно объединять различные источники информации открыла новые возможности для применения алгоритмов машинного обучения и развития ИИ.
Хотя многие технологии машинного обучения существуют несколько десятилетий, только с реализацией технологий Big Data стали доступны наборы данных достаточно большого размера для получения статистически значимых результатов машинного обучения. Ранее специалисты по статистике и аналитике часто ограничивались работой с выборками или агрегированными данными. Сейчас, вместо того чтобы полагаться на репрезентативные выборки и изучать различные срезы событий, исследователи и аналитики могут экспериментировать с различными выборками и включать в модели машинного обучения более детализированные данные. В результате у предприятий появляется возможность опробовать различные модели и алгоритмы. Большие данные позволяют организациям быстрее разрабатывать системы машинного обучения и внедрять их в бизнес-процессы.
Однако преимущество алгоритмов машинного обучения – их же слабость, поскольку не все алгоритмы машинного обучения являются масштабируемыми с точки зрения применения на больших объемах данных. Зачастую решение отдельных задач при помощи машинного обучения – достаточно затратная процедура по времени и вычислительным мощностям для многих компаний. Другая проблема кроется в самих наборах данных. Успешное применение во многих отраслях нашли алгоритмы машинного обучения с учителем. Для продуктивной работы таким алгоритмам необходимо большое количество данных с известной целевой переменной, которую необходимо прогнозировать. На практике создание целевой переменной требует дополнительных затрат, это довольно трудоемкий процесс.
Обработка dark data, т. е. больших массивов данных, для которых не определена целевая переменная, таких как большие массивы изображений, текста, данных с датчиков и сенсоров, – отдельная проблема для использования алгоритмов машинного обучения. В этой области необходимы дальнейшие исследования алгоритмов обучения без учителя и алгоритмов для поиска взаимосвязей внутри больших массивов данных. Разметкой, или определением целевой переменной для прогнозирования, подобных данных, как правило, занимаются люди. Достаточно часто размечен только небольшой массив данных, т. е. информация о целевой переменной есть только для небольшого числа объектов или событий. Способом решения проблемы «недостаточной» разметки данных является обучение с частичным привлечением учителя (Semi—supervised learning). Когда целевая переменная естественным образом определена, нужно уточнить целевую переменную, чтобы избежать ошибок наблюдений, выбросов и т. п. Кроме того, выбор правильной целевой переменной требует хорошего знания предметной области, наличия экспертной оценки, понимания бизнес- и технологических процессов, для которых необходимо прогнозирование целевой переменной. Таким образом, решение даже самых простых с точки зрения машинного обучения задач требует не только наличия больших данных и вычислительных мощностей для их обработки, но и достаточного уровня зрелости бизнес- и технологических процессов.
Непростая задача для исследователей – конструирование «правильных» выборок для тренировки алгоритмов машинного обучения. Зачастую реальные данные существенно отличаются от тех, на которых происходило обучение алгоритма. Так, в задачах машинного зрения алгоритму могут быть переданы размытые изображения, которые могут являться следствием, например, плохих погодных условий, и алгоритм примет неверное решение. Но даже если добавить такие изображения в исходный набор данных, качество решения задач может только ухудшиться. Иногда достаточно внести несущественные изменения в исходное изображение, чтобы оно стало неверно классифицируемым алгоритмом, созданным на основе исходного изображения. В ряде задач поиск «правильной» выборки может быть заменен моделированием среды и обучением модели на отклике среды, как это реализовано в моделях обучения с подкреплением (Reinforcement learning). Таким образом, развитие и масштабирование алгоритмов обучения без учителя и применение их совместно с алгоритмами обучения с учителем – в числе стратегических задач машинного обучения.
С точки зрения машинного обучения и ИИ у любой задачи есть два пути решения:
- накопить суперобъем данных и обучить на них достаточно универсальный алгоритм;
- обучать алгоритм непрерывно по мере поступления информации.
Первый широко распространенный на практике подход успешно используется в решении целых классов задач, связанных с обработкой фото и видео, анализом текста и речи. Его основу составляют формирование больших по объему размеченных выборок и обучение алгоритмов, которые могут быть применены на широком классе задач, таких как, например, задачи компьютерного зрения и модели InceptionV3, VGG16 и т. п. Развитие моделей обучения и совершенствование вычислительных мощностей могут обеспечить актуальность и второго подхода, а также комбинирование двух подходов.
Алгоритмы машинного обучения помогают справляться с избыточной информацией. Не обязательно сохранять в память, а затем обрабатывать все поступающие данные. Достаточно выделить значимые для процесса части этих данных или обучить модель машинного обучения сразу выдавать значимый с точки зрения бизнеса результат по мере поступления новых данных. Самым простым примером может служить анализ спама почтовых сообщений. Многие алгоритмы машинного обучения достаточно эффективны для обнаружения аномалий в данных, которые могут свидетельствовать, например, о некорректной работе оборудования.
Задача эффективного хранения и использования требуемой для решения задач информации как никогда актуальна. Многие эксперты отмечают бесполезность активности по сбору данных без предварительной оценки алгоритмами необходимости хранения каждой переменной. Выяснить, какая информация является необходимой, можно с помощью алгоритмов. Выделим три способа решения задачи:
- экспертная оценка;
- оценка значимости переменных в модели машинного обучения;
- выделение значимых для решения задачи частей объекта при помощи готовых алгоритмов машинного обучения.
Только в результате сочетания всех способов можно обеспечить эффективное хранение всей поступающей информации и преобразование данных в решение реальных задач бизнеса. Даже самые современные системы ИИ не способны рассуждать, планировать и принимать стратегические решения. Все решения в области ИИ и больших данных необходимо рассматривать как задачу взаимодействия человеческого и искусственного интеллекта.
Разработка алгоритмов машинного обучения, которые максимально эффективно используют большие данные, – наиболее перспективное направление развития технологии Big AI. Агрегирование огромных массивов данных без применения алгоритмов машинного обучения превращает большие данные из капитала в бремя для бизнеса. Только данные, которые дают возможность использовать новые бизнес-модели, могут занимать место на серверах компаний. Хранение и накопление данных без определения взаимосвязей между ними при помощи современных алгоритмов машинного обучения – порочная практика, не приносящая реальной выгоды от технологии больших данных компаниям, которые взяли курс на цифровую трансформацию.