Научить роботов читать между строк

Центр робототехники Сбера совместно с AIRI и МФТИ разрабатывает систему управления роботами на естественном языке. Для реализации этой задачи будет использоваться воплощенный искусственный интеллект.

Вызов для разработчиков

Исследователи из Сбера совместно с коллективом ученых из AIRI и МФТИ работают над созданием системы планирования действий роботов, которая позволит им выполнять бытовые задачи по командам на естественном языке. Об этом рассказали на конференции AI Journey 2023.

Научить роботов понимать человеческую речь – настоящий вызов для разработчиков. Однозначное восприятие естественного языка, на котором люди говорят каждый день, – непростая задача для роботов. Абстракции, обобщения, контекст или сленг могут изменять смысл слов и предложения и, как следствие, запутать робота.

Управление роботами с помощью языковых команд усложняется еще и тем, что, хотя искусственный интеллект добился значительных успехов в понимании письменного текста, идеально переводить это понимание на разговорный язык с его вариациями акцента, скорости и интонации он пока не умеет. Кроме того, роботы с трудом понимают неоднозначные команды и не «читают между строк», что является естественным для человека. А еще современные роботы, даже самые простые, управляются набором из написанных команд – программного кода.

Потенциал воплощенного ИИ

Воплощенный искусственный интеллект позволит роботу самостоятельно формировать последовательности действий для решения задач, взаимодействуя с внешней средой в реальном мире. Система, построенная на основе такой технологии, обрабатывает информацию, ориентируется в пространстве и принимает решения. В результате робот должен суметь выполнять задачи по перемещению предметов по запросу пользователя на естественном языке, а не как ранее по заранее заданному разработчиком алгоритму в виде последовательности команд на языке программирования.

Чтобы использовать прогресс генеративных технологий для успешного применения ИИ в робототехнике, Центр робототехники Сбера, Институт AIRI и Центр когнитивного моделирования МФТИ разрабатывают универсальный подход для планирования поведения роботов на основе больших языковых моделей. Так получилось, что для задачи предсказания текста большим языковым моделям пришлось неявным образом выучить представления об окружающем мире – какие предметы в нем бывают, что с ними можно и нельзя делать. Это свойство команды используют для генерации планов действий роботов.

Эксперименты с использованием робота-ровера

В будущем решение, позволяющее машинам понимать команды людей, можно будет подключить к роботам разного типа. В настоящее время ученые проводят эксперименты с использованием исследовательского робота-ровера.

Одна из сложностей в реализации такого проекта – получение обратной связи от среды, в которой действует робот. Каждая квартира или офис уникальны, и привычные нам объекты – чашки, компьютеры, мебель – отличаются друг от друга. Чтобы решить эту проблему, предложенная учеными система разбивает задачу на несколько частей в зависимости ситуации. Например, простая даже для ребенка просьба «положить все игрушки в ящик» оказывается совсем нетривиальной для ИИ. Он не обладает «здравым смыслом» и не знает, что такое «все игрушки».

В такой ситуации робот должен преобразовать запрос в требование «сегментировать игрушки», собрать список найденных в комнате предметов и разбить задачу на этапы, то есть самостоятельно написать себе руководство по уборке каждого конкретного объекта.