Концерн «Росэнергоатом», АО «КОНСИСТ-ОС» и Частное учреждение по цифровизации атомной отрасли «Цифрум» завершили пилотный проект по созданию отраслевого банка данных обучающих выборок для создания моделей искусственного интеллекта — так называемых датасетов. Проект реализован в рамках программы Росатома «Сквозные цифровые технологии и управление данными» и направлен на создание единой платформы для отраслевого реестра датасетов, моделей машинного обучения, методологий решения типовых задач в области искусственного интеллекта.
Учителя для ИИ
Каждый датасет, размещенный в реестре сопровождается подробным описанием его содержания, назначения и истории использования. Эта информация позволяет оценить потенциальную пригодность конкретного набора данных для решения других задач и вариантов его последующего использования. В банк уже загружены 12 пилотных паспортов датасетов, которые верифицированы «Росэнергоатомом». Наличие реестра позволит в случае сбоев в работе систем с искусственным интеллектом найти исходные данные, на которых обучалась данная нейросеть, провести анализ и внести необходимые корректировки в нейросеть — переобучить ее.
«Безопасность и эффективность систем искусственного интеллекта напрямую зависит от качества данных, на которых строятся и тренируются модели машинного обучения, — пояснил руководитель Центра цифровых технологий Концерна «Росэнергоатом» Константин Кудашев. — Все наши датасеты являются верифицированными, апробованными на реальных моделях и работающими в промышленных системах, что позволяет создавать более точные модели. Само же их хранилище, размещенное в нашем опорном ЦОД, обеспечивает сохранность, защищенность и прозрачное использование всех наборов данных»
Безопасность обучения
Вопросы безопасности искусственного интеллекта напрямую связаны с обучающей выборкой, поскольку поведение ИИ в конкретной ситуации зависит от тех моделей, которые использовались при его обучении. Если в обучающей выборке были примеры «неправильного» поведения, то и полученная нейросеть в аналогичной ситуации будет ввести себя аналогично. Разобраться же в причинах происходящих событий без доступа к исходным данным обучающей выборки — датасета — достаточно сложно. В то же время существующие на рынке библиотеки искусственного интеллекта базируются на так называемых предобученных моделях ИИ — обучающая выборка которых держится в секрете разработчиками. Именно поэтому так важно иметь собственный банк данных датасетов, верифицированных российскими компаниями, поскольку большинство предобученных библиотек имеют иностранное происхождение.
На прошедшей в прошлом году конференции «Информационные технологии в оборонно-промышленном комплексе», организованной Издательским домом «КОННЕКТ», поднимался вопрос о создании банка верифицированных данных для обучения искусственного интеллекта, который может быть применен при проектировании в том числе и оборонной продукции. Понятно, что в этом случае использовать датасеты иностранного происхождения крайне рискованно — уже есть публикации, которые показывают уязвимости их обучающих выборок. В частности, такие проблемы возникают при использовании различных библиотек распознавания изображений. Использовать их в критически важных продуктах крайне рискованно. Будем надеяться, что проект «Росатома», который частично относится и к оборонно-промышленноу комплексу, станет катализатором для создания подобного реестра верифицированных датасетов, безопасность использования которого будет гарантирована проверками на уровне Министерства обороны России.