Москва ускорит тестирование ИИ-сервисов в медицине благодаря новым разработкам
Москва разработала новый метод тестирования ИИ-систем в здравоохранении, который позволит быстрее и точнее оценивать их надежность. Ученые Центра диагностики и телемедицины определили количество исследований для объективной проверки точности нейросетей, что поможет ускорить процесс внедрения таких технологий в клиническую практику. Новый подход уже подтвердил свою эффективность в лучевой диагностике и может быть применен в других областях медицины. Об этом CNews сообщили представители Центра диагностики и телемедицины Департамента здравоохранения Москвы.
«Москва уже много лет является лидером в применении искусственного интеллекта в медицине, и теперь мы сделали еще один важный шаг вперед. Ученые Центра диагностики и телемедицины провели масштабное исследование и нашли новый и надежный способ тестирования медицинских ИИ-систем. До сих пор не было четкого ответа на вопрос, сколько исследований необходимо для объективной проверки нейросети — приходилось тестировать на огромных выборках, что требовало много времени и ресурсов. Теперь мы точно знаем, какое количество исследований необходимо, чтобы оценить точность ИИ и когда дальнейшее увеличение выборки не меняет результат. Это открытие позволит разработчикам быстрее адаптировать свои технологии, а врачам — эффективнее использовать их в работе. Кроме того, теперь мы сможем еще быстрее внедрять ИИ-сервисы в медицину, будучи уверенными в их надежности. Методика уже доказала свою эффективность в лучевой диагностике, но ее можно применять и в других областях медицины. Мы уверены, что такой подход поможет сделать искусственный интеллект еще более точным и безопасным инструментом для врачей и пациентов, а значит, повысит качество диагностики и ускорит выявление заболеваний на ранних стадиях», — сказал главный рентгенолог Москвы Юрий Васильев.
Ученые Центра диагностики и телемедицины разработали новый метод определения необходимого количества исследований для надежного тестирования медицинских ИИ-систем. Они проанализировали более 2 млн вариантов тестов и доказали, что для объективной оценки точности алгоритмов с бинарной классификацией (например, выявления патологий на снимках) необходимо не менее 400 исследований, из которых хотя бы 10% должны относиться к каждому из классов, то есть иметь отмеченные признаки патологий. Дальнейшее увеличение выборки не меняет результат, что делает подобную методику наиболее эффективной. Исследование проводилось на примере лучевой диагностики, но этот подход можно применять и в других областях, где ИИ работает по принципу «да/нет». Это открытие позволит быстрее тестировать и внедрять искусственный интеллект в медицину, повышая его точность и надежность.
«Классические методы тестирования искусственного интеллекта не давали точного ответа на вопрос, сколько исследований необходимо для объективной проверки его точности. Сложность задач, которые решает ИИ в медицине, постоянно растет, поэтому ученые Центра диагностики и телемедицины предложили альтернативный подход. Они проанализировали более 2 млн комбинаций параметров тестовых выборок и 25 тыс. изображений, изучили поведение диагностических метрик и доказали, что необходимо не менее 400 исследований для получения стабильного результата. Минимальная доля каждого класса должна составлять не менее 10%, то есть 40 исследований, а дальнейшее увеличение выборки не влияет на итоговую точность. Полученные данные не зависят от типа медицинских изображений или конкретной нейросети, что делает методику универсальной. Исследование проводилось на примере лучевой диагностики, но этот подход можно масштабировать и на другие медицинские системы ИИ с бинарной классификацией, что станет следующим этапом научной работы», — сказал Юрий Васильев.
Статья «Эмпирический метод расчета размера выборки для тестирования алгоритмов искусственного интеллекта» уже получила положительную рецензию академиков РАН и других привлеченных лиц и стала победителем конкурса AI Journey. В работе рассказывается о новом методе оценки размера выборки для тестирования алгоритмов искусственного интеллекта, основанном на результатах анализа большого объема накопленных эмпирических данных.
Речь идет о сервисах искусственного интеллекта с бинарной классификацией результата, например, для выявления наличия патологии на лучевом исследовании. Общая оценка качества классификации таких сервисов проводится по значению ROC AUC — это метрика, позволяющая оценить качество ИИ-модели бинарной классификации. Традиционные методы расчета не подходят для таких решений, поэтому ученые предложили альтернативный подход.
С 2020 г. в Центре диагностики и телемедицины организовано и выполняется крупнейшее в мире проспективное клиническое исследование — эксперимент по внедрению компьютерного зрения для анализа медицинских изображений. Учеными Центра созданы оригинальные методологии комплексной оценки качества и зрелости технологий ИИ. Обоснованы конкретные способы и сценарии применения технологий ИИ в работе службы лучевой диагностики.