За последние два года технологии машинного перевода существенно продвинулись и вышли на прикладной уровень. Прежде всего это произошло за счёт использования моделей глубокого обучения, а в последние полгода значительный прогресс стал возможен за счёт активного развития так называемых языковых трансформеров.
И хотя команда Сбера пока не занимается машинным переводом, наши недавние разработки в области обработки неструктурированной информации также вышли на новый уровень — прежде всего за счёт усиления ставки на междисциплинарный подход. Эксперты в предметной области работают в плотной связке со специалистами по глубокому обучению разных направлений — от обработки естественного языка (NLP) до компьютерного зрения (CV). Примером успеха такой коллаборации являются наработки, которыми мы уже начали делиться с профессиональным сообществом на соревнованиях по ИИ в преддверии AI Journey 2020. Один из таких хакатонов — как раз про понимание собственноручно написанных рукописей Петром I. Трек называется «Digital Пётр», который мы подготовили в партнёрстве с Российским историческим обществом. В рамках него участникам предоставляется возможность улучшить алгоритмы распознавания рукописей со стартовой точностью в 92% до более высоких значений. По сути дела, речь идёт о понимании старорусского языка и так называемой скорописи — вида кириллического письма, популярного в период с XV вплоть до начала XIX веков. На сегодняшний день это один из наиболее точных алгоритмов распознавания рукописного текста. И единственный алгоритм, способный «читать» старорусскую письменность.
История имеет для России огромное значение, а технологии XXI века позволяют нам заглянуть в прошлое, понять, о чём думали и говорили наши великие предшественники. У нашего поколения есть уникальный шанс узнать из подлинных рукописей о том, как развивалось Российское государство, ведь это крайне важно для будущего нашей страны.