В Москве на площадке «Цифрового делового пространства» прошел шестой ежегодный саммит Machines Can See, который традиционно посвящен проблемам машинного зрения и обработки видео для нужд искусственного интеллекта. Саммит организует компания VisionLabs – в этом году его также поддержали компании Sber AI и MTS AI. На мероприятии выступили исследователи из Китая, Южной Кореи и России, а также представители таких крупнейших компаний, как ПАО «Ростелеком», МТС, Сбер, X5 Group и другие. Machines Can See прошел при поддержке 16 партнеров и за один день собрал 900 участников. В рамках научного трека прошла постерная сессия, на которой было представлено 14 проектов от исследователей из РН БашНИПИнефть, МФТИ, НИУ ВШЭ, AIRI, МГУ им. М. В. Ломоносова и других AI-лабораторий.
Объекты и сцены
В этом году на саммите было много докладов, посвященных восстановлению моделей трехмерных объектов. В частности, именно этой теме был посвящен доклад руководителя проектного Центра прикладного ИИ Сколтеха, ведущего научного сотрудника Института искусственного интеллекта AIRI Евгения Бурнаева. Он рассказал о технологиях построения моделей по данным различных сканирующих устройств: лидеров, лазерных сканеров, стерео-фотоаппаратов, по записи видео объектов и по другой информации. Задача важна в том числе и для промышленности, где очень востребовано лазерное сканирование для создания цифровых двойников реальных объектов. Правда, при обучении системы пока не используются электронные модели, обучение на которых, скорее всего, увеличило бы качество восстановления цифровой формы изделий и объектов.
Тема была продолжена докладами иностранных экспертов южнокорейского ученого Минсу Чо и китайского Ксилинь Чен. Минсу Чо подробно разобрал технологию установления соответствия одного объекта, изображенного на разных фотографиях или кадрах видеопотока. Это существенная часть систем отслеживания объектов по кадрам системы видеонаблюдения для восстановления траектории движения. Это также задача, которая должна учитывать трехмерность объектов, но почему-то объемное моделирование для обучения искусственного интеллекта также не особенно популярно. Ксилинь Чен подробно разобрал особенности технологии описания изображенных сцен и автоматического построения их текстового представления. Хотя приведенные в докладе примеры были с реальных изображений, то есть трехмерные, тем не менее для описания также не строились трехмерная сцена, но только их взаимосвязи и иерархия.
Прикладное использование трехмерного распознавания изображений показал в своем докладе директор по исследованиям VisionLabs Александр Чигорин. Он рассказал о технологии управления с помощью жестов, которая разрабатывалась совместно его компанией и SberDevices. Устройства последней могут управляться с помощью жестов: вертикальных и горизонтальных свайпов и вращений — для автоматизации процесса распознавания жестов используются ресурсы встроенного нейропроцессора. При распознавании жестов важно исключить реакцию системы на естественные движения человека, а здесь также может пригодиться распознавание трехмерных сцен с построением моделей, однако на ограниченных ресурсах реальных устройств дополнительные вычисления затруднительны.
Модели машин
В рамках конференции прошло подведение итогов соревнования по анализу данных, главной целью которого было создание точного и быстрого верификатора моделей транспорта по изображениям. Участникам был предоставлен набор из пар картинок, и программа должно определить одна ли модель на обоих картинках или разные. Причем ракурсы, цвет или состояние машин на картинках может быть разным. Всего соревнование длилось 28 дней, заявки подали 243 участника, было отправлено 1348 вердиктов, при этом одна из команд предложила рекордные 92 варианта решения задачи.
Решения победителей и призеров показали высокие результаты, качество работы лучшего алгоритма составило 97,5% на публичных тестах и 95,5% на приватных – это была разработка команды GigaFlex. Топ-3 команд – GigaFlex, MiniFlex и NANA – подошел к решению задачи с нескольких сторон: сбор данных, выбор архитектуры построения моделей и методов оптимизации алгоритмов, что обеспечило им высокие результаты. Впрочем, похоже именно качество данных, которые использовались для обучения нейросети, оказалось решающим фактором победы. Во всяком случае в датасете победителей собрано более 500 тыс. изображений — таких крупных наборов данных с изображениями транспорта в мире практически нет в открытом доступе. Участники команды победителя взяли публичный набор размеченных изображений автотранспорта CompCars, очистили его и дополнили современными моделями, а также расширили наборы данных для каждой модели с помощью поиска в картинках «Яндекса» и Google.
Впрочем, разработанные решения команд-лидеров универсальны и заметно лучше работают на различных группах транспорта, в том числе на самых сложных для задачи верификации — тяжелых транспортных средствах и производителях бывшего СССР. Алгоритмы победителей и собранные ими данные будут доступны по открытой лицензии, что поможет развитию решений задачи по верификации автомобилей в целом, причем не только в России, но и по всему миру.
Отраслевое направление технического зрения
Как отметил в своем вступительном докладе генеральный директор VisionLabs Дмитрий Марков сейчас лицо уже стало коммодити. Распознавать его уже умеют практически все разработчики технологий машинного зрения. Сейчас наступает время создания промышленных продуктов на основе технического зрения и в целом искусственного интеллекта. Причем роль государства в разработке новых продуктов становиться ключевой — можно легко получить от него поддержку на создание нового стартапа, но оно же определяет правила, по которым должен действовать искусственный интеллект.
В целом можно констатировать, что сейчас технологии обработки изображений и видео сейчас достигли того этапа, когда на их основе можно строить промышленные решения, за которые готовы платить в том числе и крупные промышленные компании. Именно поэтому сейчас наступает самое интересное время для получения максимума эффекта при минимуме вложений — большинство технологий уже достаточно совершенны, причем доступны они вместе с исходными кодами. Если же добавить обучение не только на реальных данных, но и с использованием виртуальной реальности, то качество распознавания трехмерных объектов можно сильно увеличить, поскольку оно сильно зависит от набора данных.