Для оценки ML-моделей в медицине доступны бенчмарки. Альянс в сфере искусственного интеллекта совместно с Лабораторией ИИ Сбера разместил на своей платформе задачи и датасеты для оценки ИИ-решений, применяемых в здравоохранении.
Доступные задачи
На сайте ассоциации доступны несколько задачи попроверке эффективности моделей, использующих машинное обучение для автоматической обработкиестественного языка. Это задачи на логику и знания, вопросно-ответное моделирование и понимание смысла медицинского текста. Еще один бенчмарк предназначен для моделей, нацеленных на поиск патологий в ЭКГ сигналах.
Задача RuMedNLI позволяет оценить, насколько хорошо большие языковые модели определяют логическую связь между медицинскими текстами. Модель должна установить, следует ли второй текст из начального утверждения, противоречит ему или не предоставляет достаточно информации для логического вывода.
С помощью задачи RuMedDaNet можно протестировать языковые модели на пониманиемедицинских текстов, задавая вопросы на основе предоставленного фрагмента текста. Модель должна ответить «да» или «нет», чтобы продемонстрировать знания в различных областях медицины.
Задача ECG2Pathology проверяет точность, с которой та или иная модель на основе машинного обучения способна справляться с обработкой медицинских сигналов. По предложенному ЭКГ сигналу модель должна предсказать список обнаруженных сердечных заболеваний из 75 возможных патологий.
Участие в бенчмарках
В разделе «Здравоохранение» платформы Альянса любой желающий может бесплатно скачать необходимые для работы данные. Зарегистрированным пользователям доступно участие в бенчмарках – загруженные модели проходят скоринг, результаты которого отображаются в открытом лидерборде.
В создании бенчмарков принимали участие лидеры ИТ—сообщества и крупнейшие профессионалы из области медицины, обмен экспертизой активно происходит на площадке Отраслевого клуба Альянса «ИИ в здравоохранении», в который входят 25 ведущих медицинских центров России и разработчиков ИИ-решений.
Мнения экспертов
«Дальнейшее развитие и более широкое внедрение ИИ в медицине невозможно без специализированных данных для обучения и тестирования моделей. Бенчмарки Альянса призваны помочь разработчикам сравнить ML-модели в равных условиях и оценить,насколько предлагаемые решения отвечают требованиям рынка. Приглашаем всех желающих к участию в этом проекте, это позволит российским медицинским учреждениям получить самые точные и эффективные медицинские решения на основе ИИ», – рассказал Павел Блинов, исполнительный директор по исследованию данных Лаборатории искусственного интеллекта Сбербанка.
«В медицине от качества принимаемых решений зависит здоровье и жизнь человека, поэтому здесь особенно важно использовать механизмы объективной оценки ИИ-сервисов. В мировой практике есть влиятельные бенчмарки, которые дают рынку точное представление о возможностях ML-моделей, – говорит Анна Мещерякова, генеральный директор компании «Платформа Третье Мнение», сопредседатель отраслевого клуба «ИИ в здравоохранении». – У российского заказчика также должна быть возможность первичного отбора и квалификации решений, которая подходит для сервисов анализа данных вне зависимости от их типа: изображений, текстовых или звуковых файлов, видеопотока. Первично отобранные решения в дальнейшем должны будут себя проявить и показать стабильность в реальной клинической практике на больших потоках данных».
«Пилот первых отраслевых бенчмарков в сфере АПКна платформе Альянса в сфере ИИ показалэффективность и объективность результатов, из чего следует, что необходимо расширять данный механизм проверки на различные отрасли. Уверен, что подобные инструменты объективной оценки применяемых моделей могут стать основой для принятия бизнес-решений крупными заказчиками уже в ближайшем будущем», – подчеркнул Антон Смирнов, лидер продуктового направления Cloud.ru.