Ученые Института AIRI и НИУ ВШЭ представили и экспериментально подтвердили преимущества использования малых генеративных моделей, обученных на качественном наборе данных, для дальнейшего обучения больших моделей ИИ и решения задач 3D-детекции. Выяснилось, что малые нейросети способны обучать большие ИИ-модели лучше человека. Новый подход впервые применили в компьютерном зрении, что позволило повысить точность детектирования и распознавания 3D-объектов.
Подход будет применим в развитии беспилотных автомобилей и позволит в перспективе точнее определять скорость и направление движения объекта, свойства его поверхности, а также позиционирование транспортного средства в пространстве. Статья принята на крупнейшую международную конференцию по компьютерному зрению CVPR 2024.
Задача 3D-детекции
Распознавание 3D-объектов – одна из ключевых задач для предсказания и планирования пути движения беспилотного автомобиля. Для ее решения система по разрозненному набору показаний определяет область (параллелепипед), внутри которой находится объект.
Однако такие сенсоры, как лидар, не всегда позволяют получить полную информацию о глубине и, как следствие, 3D-позиции предмета. На дороге один элемент может полностью или частично перекрываться другими объектами сложной структуры – например, деревом или движущимся автомобилем, что будет негативно сказываться на эффективности работы лидара.
Предложенный российскими учеными подход показал более точное определение 3D-положения предмета, несмотря на шум в данных лидара и перекрытие объектов друг другом.
Алгоритм решения
В ходе годового исследования команда обучала небольшую генеративную модель на доступных записях облаков точек, снятых во время проезда автомобиля по улицам города. Точки данных собирались по трем сценариям: когда объект был полностью в поле зрения, была видна лишь его часть и когда он оставался позади.
При помощи метода Point Cloud Registration (PCR) облака точек соотносились с конкретными автомобилями и другими предметами даже на основе небольшого видимого фрагмента. Затем эта небольшая, но точная модель (модель-учитель) применялась для обучения большой нейросети (модель-студент), работающей на шумных облаках точек с множеством сложных параметров.
В результате нейросеть значительно повысила точность распознавания реальных объектов – технология стала корректно предполагать форму окружающих предметов, которые могла увидеть лишь в будущем.
Комментарий эксперта
«Мы начали работу над проектом параллельно с исследователями OpenAI, которые решили применить схожий подход для работы с текстами, тогда как наша команда сосредоточилась на компьютерном зрении. Интересно, что и сама идея, и полученные результаты показали свою состоятельность у обеих команд, которые пришли к схожим выводам не взаимодействуя друг с другом напрямую. Мы видим возможность масштабировать подход в компьютерном зрении: например, увеличивать количество задач и сложность каждой модели. Так, можно обучать несколько маленьких моделей-учителей на хороших данных, каждую – для своих целей, которые после обучат большую модель-студента. Еще вариант – обучать малые нейросети сразу нескольким задачам для получения мультитаск-учителя», – рассказал Илья Макаров, руководитель группы «ИИ в промышленности» Института AIRI.