
Государство откроет доступ бизнесу, госорганам и физлицам к наборам госданных для обучения и тестирования алгоритмов искусственного интеллекта, сообщают «Ведомости» со ссылкой на представителя аппарата вице-премьера Дмитрия Григоренко.
Уже в феврале госорганы и разработчики ИИ смогут заключать первые контракты на получение размеченных госданных на безвозмездной основе. Наборы данных сформированы таким образом, чтобы они были узнаваемыми и понятными для алгоритмов машинного обучения и анализа. При этом, в размеченных наборах использовались только исходные базы, которые не содержат персональных данных граждан, а также сведений, составляющих служебную и иную охраняемую законом тайну, информацию ограниченного доступа.
Минцифры в роли оператора
Оператором передачи данных выступает Минцифры. Согласно утвержденному Григоренко плану, министерство разработало проекты двух типовых соглашений о передаче – для госорганов и для физических и юридических лиц. По словам представителя Минцифры, соглашения на получение госданных с метками и аннотациями для обучения, разработки и тестирования ИИ будут заключаться с региональными ведомствами и подведомственными организациями, занимающимися вопросами сопровождения внедрения ИИ в своих субъектах Федерации.
«Помимо обеспечения равного доступа разработчиков к этому ресурсу критическую значимость имеет качество данных. Этой задаче было уделено особое внимание при формировании государственных наборов данных, так называемых дата-сетов», – добавил Григоренко.
Качество данных
Доступ к качественно размеченным данным – один из важных факторов для успешной разработки решений в области искусственного интеллекта. Компании смогут использовать размеченные данные для обучения различных ИИ-систем. Чем больше данных доступно, тем проще пользователям будет общаться с системой, а значит, улучшится и качество сервиса.
По словам члена комитета Госдумы по информационной политике, информационным технологиям и связи, федерального координатора партийного проекта «Цифровая Россия» Антона Немкина, «в первую очередь, речь идет о данных, которые нужны для обучения систем на основе ИИ и последующего решения задач в таких отраслях, как городская среда и ЖКХ, транспорт, экология, сельскохозяйственная деятельность. Сегодня 76 регионов России уже применяют решения на основе искусственного интеллекта в самых разнообразных отраслях. За 2024 год появилось более 200 новых региональных проектов на основе искусственного интеллекта, и это только начало. Поэтому ощутить позитивные последствия такой инициативы должны, конечно, не только сами компании, но и наши граждане», — добавил он.
Новые возможности
Доступ к государственным данным откроет новые возможности для создания нейросетей и ускорит импортозамещение в сфере ИИ.
По мнению парламентария, «будет расти качество моделей и их надежность, а значит и конкурентоспособность. Мы стремимся к тому, чтобы российские нейросети могли общаться максимально привычным для граждан способом. Ведь любая разработка искусственного интеллекта направлена в первую очередь на помощь людям – а значит взаимодействие должны быть выстроено максимально естественно и понятно, для чего и нужны массивы качественных данных».
Грамотное обучение нейросетей на собственных данных – неотъемлемый фактор развития суверенного ИИ в целом. При этом успех инициативы во многом зависит от степени вовлеченности бизнеса и научного сообщества. Развитие отечественной экосистемы ИИ требует не только доступа к данным, но и инвестиций в кадровую подготовку, создание исследовательских центров и поддержку стартапов в сфере искусственного интеллекта.
Важно, чтобы открытые государственные данные стали катализатором развития инноваций, а не просто инструментом для выполнения локальных задач отдельных ведомств и регионов.