Глубокое обучение в медицине

«Симптомы никогда не лгут», — так сказал самый блестящий диагност, доктор Хаус, который, увы существует только в телесериале. В реальной жизни симптомы часто нелегко обнаружить даже лучшим специалистам, а ошибочные диагнозы признаны самыми частыми и опасными медицинскими ошибками: с теми или иными ошибочными диагнозами сталкиваются ежегодно от 12 до 18 миллионов жителей США.

Есть надежда, что искусственный интеллект (artificial intelligence, AI) и машинное обучение (machine learning, ML) смогут в будущем изменить эту тревожную ситуацию. В этой статье рассматриваются самые успешные примеры использования машинного обучения в диагностике, подчёркивается его потенциал и описываются современные ограничения.

AI в выявлении заболеваний: текущая ситуация

В 2016 году известный специалист по computer science Джеффри Хинтон, которого часто называют «крёстным отцом глубокого обучения», предсказал, что радиологи (специалисты, диагностирующие заболевания по рентгенограммам, снимкам компьютерной и магниторезонансной томографии) вскоре потеряют свою работу. «Нам прямо сейчас надо перестать обучать радиологов. Очевидно, что через пять лет глубокое обучение будет справляться лучше, чем люди», — заявил он.

Шесть лет спустя глубокое обучение по-прежнему остаётся самой многообещающей и широко используемой техникой ML, для радиологии в частности и для выявления заболеваний в целом. Это неудивительно, ведь диагностическая визуализация преобладает в клинической диагностике, а распознавание изображений является естественной областью работы для алгоритмов глубокого обучения. Это то, с чем они справляются лучше всего.

Однако не менее очевидно и то, что машины всё ещё не могут заменить живых специалистов. «Мы видим, что глубокое обучение используется в помощь врачам или для предварительного выбора и расстановки приоритетов в случаях, когда в очереди находится много пациентов», — рассказывает о текущей ситуации консультант по здравоохранению из Conclusion Эрвин Бретшер, который среди прочего консультирует компании по искусственному интеллекту.

Существует множество стимулов, подталкивающих к использованию глубокого обучения в радиологии и в других диагностических практиках:

Продолжающийся рост вычислительных мощностей и технологий хранения.
Снижение стоимости оборудования.
Повышение стоимости здравоохранения.
Нехватка медицинского персонала.
Изобилие медицинских данных для обучения моделей. Только в одних США ежегодно создаётся 60 миллиардов радиологических снимков, не говоря уже о других данных.

Сегодня большинство алгоритмов глубокого обучения дополняет процесс диагностирования, но ни в коем случае не заменяет живых специалистов. Ниже мы изучим самые многообещающие способы применения AI в здравоохранении и покажем примеры решений на основе ML, коммерчески используемых в Северной Америке (с одобрения FDA), в Европе (в соответствии с требованиям ЕС) или на обоих рынках.

Скрининг рака молочной железы

Согласно данным Всемирной организации здравоохранения, рак молочной железы — самое распространённое у женщин онкологическое заболевание, ежегодно приводящее примерно к 627 тысячам смертей. Чтобы спасти жизни, многие страны внедрили программы скрининга, нацеленные на выявление рака на ранних этапах.

Процедуры в разных странах варьируются. Например, женщины в США делают маммограммы (рентгеновские снимки груди) каждые один-два года, и каждый снимок анализируется одним радиологом. Британские женщины проходят скрининг раз в три года, но результаты выдают два специалиста. Хотя ни один из этих подходов не идеален, двойная проверка обеспечивает бо́льшую точность.

Прогресс AI и возможные преимущества

В самом начале 2020 года отдел искусственного интеллекта Google под названием DeepMind представил модель глубокого обучения, которая превзошла результаты среднего радиолога на 11,5% и существенно снизила нагрузку на второго специалиста в британской системе исследований.

Ещё одно недавнее исследование, проведённое университетскими клиниками Южной Кореи, показало, что AI имеет более высокую чувствительность при выявлении рака по сравнению с живыми специалистами, особенно в случае изучения груди с большой жировой прослойкой (90% против 78%).

Исследования по-прежнему находятся на ранних этапах и им требуется больше клинических испытаний. На настоящий момент модели могут служить в качестве дополнительного специалиста, автоматически выдающего второе мнение. Потенциально, они могут заткнуть увеличивающийся дефицит квалифицированных радиологов.

Коммерческие решения

Breast Health Solutions компании iCAD (штат Нью-Гемпшир, США; решение одобрено FDA и соответствует требованиям ЕС). Пакет AI применяет алгоритмы глубокого обучения к 2D-маммографии, 3D-маммографии (digital breast tomosynthesis, DBT) и оценке плотности молочной железы. Его технология ProFound AI стала первым одобренным FDA решением на основе искусственного интеллекта для 3D-маммографии.

Transpara компании ScreenPoint Medical (Нидерланды; решение одобрено FDA и соответствует требованиям ЕС). Алгоритм глубокого обучения Transpara, обученный на более чем миллионе маммограмм, помогает радиологам анализировать 2D- и 3D-маммограммы. Решение уже используется в 15 странах, включая США, Францию и Турцию.

Выявление меланомы на ранних этапах

Заболевания кожи — четвёртая по частоте причина нетрудоспособности в мире, а рак кожи — самое распространённое злокачественное образование, с которым сталкивается к 70 годам 20% людей. К счастью, в случае своевременного выявления и лечения 99% случаев излечимо. И здесь значимую роль может сыграть AI. Как и радиологи, дерматологи активно используют распознавание визуальных паттернов.

Прогресс AI и возможные преимущества

В 2017 году специалисты по computer science из Стэнфордского университета создали модель свёрточной нейронной сети (convolutional neural network, CNN), обученную выявлять рак на 130 тысячах клинических снимков патологий кожи. Алгоритм достиг степени точности живых дерматологов.

Так разработанная в Стэнфорде CNN классифицирует кожные поражения по снимкам. Источник: ExtremeTech

Годом позже Европейское общество по медицинской онкологии (European Society for Medical Oncology, ESMO) продемонстрировало ещё более высокие результаты: CNN корректно выявляла меланомы в 95%, в то время как точность дерматологов составляла 86,6%.

Наконец, в марте 2020 года Journal of Investigative Dermatology опубликовал исследование учёных из Сеульского национального университета. Их модель CNN на более чем 220 тысячах снимков обучили прогнозировать злокачественные образования и классифицировать 134 заболеваний кожи. AI также подтвердил свою способность различать меланому и родимые пятна на уровне живого специалиста.

Кроме повышения скорости и точности диагностики, существуют планы по реализации алгоритмов CNN на смартфонах для непрофессионального исследования кожи. Это может подтолкнуть людей к посещению дерматологов из-за повреждений, которые в противном случае они бы игнорировали.

Коммерческие решения

Несмотря на все многообещающие исследования, ни одна из программ распознавания рака в настоящее время не авторизована FDA для вывода на рынок Северной Америки из-за потенциального вреда в связи с некачественной диагностикой. В то же время, два решения для выявления меланомы получили одобрение ЕС, то есть они соответствуют стандартам безопасности ЕС.

SkinVision (Нидерланды; решение соответствует требованиям ЕС). Приложение предназначено для оценки риска рака на основании фотографий подозрительных родинок и других пятен. Её алгоритм AI обучен выявлять настораживающие признаки на 3,5 миллионах фотографий. SkinVision уже сделала свой вклад в диагностирование 40 тысяч случаев рака кожи. Приложение доступно для iOS и Android по всему миру, за исключением США и Канады. Однако оно ни в коем случае не может быть заменой посещения дерматолога.

skinScan компании TeleSkin ApS (Дания; решение соответствует требованиям ЕС). Это приложение для iOS, доступное для скачивания в Скандинавии, Новой Зеландии и Австралии, использует алгоритм AI для того, чтобы отличать обычные родинки от атипичных.

Скрининг рака лёгких

Рак лёгких — самое смертоносное в мире онкологическое заболевание: оно возглавляет список вызванной раком смертности, а по частоте его обгоняет только рак кожи. Как и в случае с другими злокачественными образованиями, выявление на ранних этапах может спасти жизни. К сожалению, симптомы рака лёгких очень похожи на симптомы пневмонии или бронхита. И поэтому примерно в 70% он выявляется только на поздних стадиях.

Прогресс AI и возможные преимущества

Исследование, проведённое в 2019 году компанией Google, продемонстрировало многообещающий результат: модель глубокого обучения, созданная совместно с Northwestern Medicine и обученная на 42 тысячах снимков компьютерной томографии, оказалась лучше в диагностировании рака лёгких, чем радиологи, имеющие восемь лет опыта. Алгоритм был способен находить злокачественные образования в лёгких на 5-9,5% чаще, чем живые специалисты. Ранее ещё одна модель CNN доказала свою способность выявлять хроническую обструктивную болезнь лёгких (ХОБЛ), которая часто перерастает в рак.

Есть шанс, что скоро системы AI будут помогать радиологам в анализе больших объёмов снимков КТ, таким образом делая вклад в успешное лечение и повышение выживаемости.

Коммерческие решения

Veye Chest компании Aidense (Нидерланды; решение соответствует требованиям ЕС). Это решение AI автоматически выявляет подозрительные узелки в лёгких на снимках КТ с низкой дозой излучения, измеряет их и сравнивает с предыдущими снимками, чтобы выявить скорость роста.

Veye Chest анализирует узелки при помощи AI.

ClariCT.AI компании ClariPi (Южная Корея; решение одобрено FDA). Это решение не выявляет рак, а очищает от шума снимки КТ с низкими и ультранизкими дозами, повышая уверенность радиологов в диагнозе. Модель CNN обучена на более чем миллионе снимков разных частей тела, но ClariPi утверждает, что ключевой областью применения алгоритма является скрининг рака лёгких.

Скрининг диабетической ретинопатии

В сфере офтальмологии AI в основном используется для анализа снимков сетчатки, и, в частности, для выявления диабетической ретинопатии (ДР). Это повреждение глаз может вызывать слепоту и поражает каждого третьего пациента с диабетом, то есть до 422 миллионов человек по всему миру. Ранее выявление предотвращает риск потери зрения. Однако проблема в том, что ДР часто не проявляет симптомов до тех пор, пока лечить её не становится сложно.

Прогресс AI и возможные преимущества

Запущенная в 2017 году технология глубокого обучения компании IBM достигла в выявлении ДР и степени её тяжести (от умеренной до пролиферативной).

Этот результат был превзойдён Google. Совместно с организацией Verily этот технологический гигант в течение трёх лет обучал глубокую нейронную сеть на массиве данных из 128 тысяч снимков сетчатки. В 2018 году AI Eye Doctor компании Google продемонстрировал точность в 98,6 процента — наравне с живыми специалистами. Сегодня алгоритм помогает врачам в индийской глазной клинике «Аравинд».

Пять уровней тяжести ДР, выявленной на снимках сетчатки. Источник: Adafruit

В условиях растущего количества людей с диабетом системы скрининга на основе AI могут снизить нагрузку на офтальмологов. Ранее выявление приводит к снижению затрат на лечение: стоимость лекарств от тяжёлой патологии может возрасти более чем в десять раз по сравнению с лекарствами от ранних фаз.

Коммерческие решения

IDx-DR компании IDx (Айова, США; решение одобрено FDA, соответствует требованиям ЕС). ПО IDx-DR, известное как первая одобренная FDA система AI для диагностирования ДР, может работать только с аппаратом для фотографирования сетчатки под названием Topcon. Алгоритм глубокого обучения выдаёт один из двух результатов:

1) Посетите офтальмолога (выявлена ДР более чем умеренной степени) или

2) Пройдите повторный скрининг через 12 месяцев (умеренная степень или отрицательный результат).

IRIS (Флорида, США; решение одобрено FDA). Intelligent Retinal Imaging Systems может работать с различными камерами, поскольку автоматически улучшает качество исходных снимков. Компания использует Microsoft Azure Machine Learning Package for Computer Vision.

Оценка риска сердечных заболеваний на основании электрокардиограмм (ЭКГ)

Заболевания сердца — первая причина смерти среди мужчин и женщин в США и по всему миру. Своевременная оценка риска, основанная на ЭКГ — самом быстром и простом тесте сердечной деятельности — может существенно снизить смертность и предотвратить сердечные приступы.

Прогресс AI и возможные преимущества

Благодаря тому, что ежегодно в мире выполняется 300 миллионов ЭКГ, у алгоритмов есть огромный пул данных для обучения. Многие исследования показывают, что AI уже не только выявляет текущие аномалии на ЭКГ, но и прогнозирует будущие риски. Например, разработанная Массачусетстким технологическим институтом в 2019 году технология RiskCardio оценивает вероятность смерти по причине сердечно-сосудистой патологии в пределах от 30 до 365 дней для людей, уже переживших острый коронарный синдром (ОКС).

Группа исследователей из Медицинского центра Гейсингера использовала более двух миллионов ЭКГ для обучения глубоких нейронных сетей выявлению пациентов с повышенным риском смерти в пределах года. Важнее всего оказалось то, что алгоритмы были способны распознать паттерны риска, проигнорированные кардиологами.

Ожидается, что AI сэкономит существенную часть времени специалистов и снизит количество ошибочных диагнозов. В сочетании с дешёвым оборудованием алгоритмы глубокого обучения потенциально могут позволить использовать ЭКГ в качестве диагностического инструмента в местах, где кардиологов мало или они отсутствуют.

Коммерческое решение

KardiaMobile компании AliveCor (Калифорния, США; решение одобрено FDA и соответствует требованиям ЕС). Личное решение для анализа ЭКГ состоит из небольшого записывающего устройства, фиксирующего ЭКГ в течение 30 секунд, и мобильного приложения, использующего глубокую нейронную сеть для выявления медленных и быстрых сердечных ритмов (брадикардия и тахикардия), мерцательной аритмии и нормальных ритмов. После записи ЭКГ можно отправить клиническому врачу для дальнейшего анализа.

Ранняя диагностика инсультов по снимкам КТ головы

Инсульт или внезапная смерть мозговых клеток вследствие нехватки кислорода — вторая по величине причина смертей и третья причина длительной неработоспособности по всему миру. Это опасное состояние требует немедленной диагностики и лечения: статистика показывает, что пациенты, получающие профессиональную помощь в течение трёх часов после первых симптомов, обычно восстанавливаются лучше и быстрее. Но, к сожалению, персонал скорой помощи упускает приблизительно 15% инсультов, что приводит к несвоевременной интенсивной терапии и повышает риски смертельных исходов.

Прогресс AI и возможные преимущества

Дата-саентисты из Медицинского центра Гейсингера собрали более 46 тысяч снимков КТ мозга для создания модели, способной сигнализировать о признаках внутримозгового кровоизлияния — самого смертоносного типа инсультов со смертностью в 40% в пределах 30 дней и глубокой инвалидности выживших. Они внедрили алгоритм в регулярный уход и тестировали его в течение трёх месяцев. В некоторых случаях это приводило к снижению времени диагностирования на 96%. Также исследователи сообщили, что алгоритм способен выявлять малозаметные симптомы внутримозгового кровоизлияния, пропущенные радиологами.

Согласно множественным исследованиям, AI также можно успешно применять при диагностировании ишемического инсульта, вызванного окклюзией крупных сосудов. А эксперименты с Teachable Machine компании Google показали, что обученные алгоритмы корректно определяют тип инсульта в 77,4% случаев.

В большинстве случаев алгоритмы AI достаточно хорошо различают ишемические инсульты, вызванные тромбами, от геморрагических инсультов, вызванных кровоизлияниями. Источник: Young Scientist Journal

Потенциально, обученный нейрорадиологами AI может предоставлять надёжное «второе мнение» поставщикам медицинских услуг, не имеющих специального образования, чтобы они могли принимать быстрые решения и минимизировать ущерб.

Коммерческие решения

Viz LVO и Viz-ICH компании Viz.ai (Калифорния, США и Израиль; решение одобрено FDA и соответствует требованиям ЕС). Алгоритмы глубокого обучения анализируют снимки КТ, чтобы распознавать возможные ишемические и геморрагические инсульты. Система автоматически уведомляет специалистов, экономя драгоценное время и спасая клетки мозга.

AI Stroke компании Aidoc (Израиль; решение одобрено FDA и соответствует требованиям ЕС). Пакет AI Stroke предназначен для работы с двумя типами инсультов — ишемическим и геморрагическим. Система автоматически сигнализирует о подозрительных случаях, позволяя радиологам быстро выбирать план действий.

e-Stroke Suite компании Brainomix (Великобритания, соответствует требованиям ЕС). ПО распознавания изображений на основе AI автоматически оценивает снимки КТ пациентов с инсультами. В настоящее время алгоритм идентифицирует только ишемический инсульт, который составляет 85% всех случаев.

Препятствия внедрения ML в здравоохранение

Использование AI в процессе диагностики могло бы быть более обширными, если бы не множество препятствий. Что же замедляет внедрение AI в медицинскую диагностику? Во-первых, на ум приходят деньги: проекты ML экономически и трудозатратны, они требуют огромных вычислительных ресурсов. Медицинские учреждения часто имеют ограниченный бюджет, а потенциальные инвесторы могут сомневаться в будущей прибыльности из-за нехватки подтверждённых успешных случаев использования.

Но наряду с финансовыми проблемами, актуальными для многих сфер, сектор здравоохранения добавляет собственный уникальный слой трудностей.

Нормативные проблемы

ПО, предназначенное для диагностики, подвержено строгому нормированию, защищающему безопасность пациентов. Чтобы продавать решения на основе AI в Европе, компания должна получить маркировку CE (Conformité Européenne), а для попадания на рынок США требуется авторизация FDA (Управления по контролю за качеством пищевых продуктов и лекарственных средств). В обоих случаях процесс сертификации занимает много времени, требует много денег, энергии, клинических испытаний, проверок и кучи технической документации. Для мелких бизнесов и стартапов это может представлять серьёзную сложность.

Нехватка данных по новых болезням

Подавляющее большинство заболеваний известно нам десятилетиями и даже веками, по ним накоплено огромное количество данных. Однако это не так в ситуации с новыми инфекциями наподобие COVID-19. Нехватка крупных массивов данных — основная причина неэффективности машинного обучения в выявлении симптомов коронавируса.

Диагноз на COVID-19, сделанный при помощи AI на основе снимков КТ. Изготовленной в Китае интеллектуальной системе по-прежнему недостаёт данных для широкого применения. Источник: medRxiv

Почему изобилие данных так важно для успеха алгоритмов ML? Грубо говоря, чем больше снимков патологии можно пропустить через машину на этапе обучения, тем лучше она сможет распознавать конкретные аномалии самостоятельно. В случае коронавируса нехватка исторических данных усугубляется ещё одной, более долговременной проблемой — ограничениями на публикацию информации о состоянии здоровья.

Хранилища данных и правила конфиденциальности

Очень часто больницы и исследовательские учреждения хранят медицинские данные отдельно, вне пределов досягаемости научного сообщества. Такая фрагментация усиливается нормативами защиты данных наподобие GDPR или HIPAA, накладывающими ограничения на передачу информации о пациентах. Мысль о централизованном хранилище чувствительных данных на облачном сервере, доступном для технологических компаний, чрезвычайно непопулярна в Великобритании, США и других странах.

Для решения проблемы конфиденциальности Google предложила новый подход под названием federated learning. Он позволяет обучать текущий алгоритм в разных больницах с использованием их локальных массивов данных. Обновления отправляются в центральное хранилище для улучшения общей модели. Благодаря этому организации обмениваются моделями, а не чувствительными данными. Однако у этой методики есть свои недостатки. Например, она требует, чтобы у больниц были инфраструктуры и персонал, способный обучать модели.

Нехватка стандартизации

Даже если бы медицинские данные были открыты публично, это бы не решило проблему качества и стандартизации. Медицинская информация собирается во многих форматах, а стандарты в разных организациях сильно варьируются. Поэтому учёным требуется значительное время для очистки и разметки данных, прежде чем передавать их моделям.

Аспект «чёрного ящика» и недостаток доверия

Обычно алгоритмы глубокого обучения устроены как «чёрные ящики»: они не объясняют, как пришли к конкретным выводам. Во многих областях отсутствие интерпретируемости не проблема, однако в здравоохранении, где на кону жизни людей, оно определённо важно. Врачам и их пациентам нужно знать, что заставляет машину генерировать свои вердикты и есть ли им доказательства. В противном случае они вряд ли смогут полагаться на диагнозы, предлагаемые ИТ-системами.

Чтобы проиллюстрировать проблему с доверием, Эрвин Бретшер привёл пример проект выявления кардиомиопатии (заболевания сердечной мышцы) на диагностических снимках. «Аномалия узнаваема для машин. Однако специалисты часто видят проблемы на снимках, где всё кажется нормальным. И в большинстве случаев они правы! Это приводит меня к вопросу: может ли компьютер заменить человеческую интуицию? И кто ответственен за результат?»

В долговременной перспективе проблему доверия можно решить так называемым explainable AI (XAI) — новой областью машинного обучения, нацеленной на то, чтобы предоставить специалистам в предметных областях чёткое обоснование создаваемых моделями результатов.

Разница между современными моделями ML и XAI. Источник: DARPA

Разрабатываемые сейчас решения XAI просты и находят ограниченное применение. Однако ожидается, что такие алгоритмы со временем станут доминировать в здравоохранении, поскольку они привносят прозрачность в процессы принятия решений.

AI или врач: кто главнее?

Мозг человека, даже такого гения, как Хаус, имеет ограничение по объёму данных, который он может хранить и обрабатывать. AI может решить эту проблему, ускорив время диагностики и лечения. Благодаря умным алгоритмам врачи получают «вторую пару глаз» для выявления проблемы, которую можно пропустить из-за усталости, отвлекающих моментов, нехватки опыта и других человеческих факторов.

«AI может снизить давление на системы здравоохранения. Во многих странах население стареет и требует больше ухода, однако этот сектор не может расти с нужной скоростью», — добавляет Эрвин Бретшер.

В ближайшие годы мы увидим больше диагностических решений, использующих алгоритмы глубокого обучения для внесения существенных улучшений в уход за пациентами. Однако кто будет принимать окончательное решение и нести ответственность? Очевидно, живой профессионал: AI по-прежнему слишком молод для этого.

Глубокое обучение в диагностике: как AI спасает жизни и экономит средства на лечение

AI в выявлении заболеваний: текущая ситуация

Скрининг рака молочной железы

Прогресс AI и возможные преимущества

Коммерческие решения

Выявление меланомы на ранних этапах

Прогресс AI и возможные преимущества

Коммерческие решения

Скрининг рака лёгких

Прогресс AI и возможные преимущества

Коммерческие решения

Скрининг диабетической ретинопатии

Прогресс AI и возможные преимущества

Коммерческие решения

Оценка риска сердечных заболеваний на основании электрокардиограмм (ЭКГ)

Прогресс AI и возможные преимущества

Коммерческое решение

Ранняя диагностика инсультов по снимкам КТ головы

Прогресс AI и возможные преимущества

Коммерческие решения

Препятствия внедрения ML в здравоохранение

Нормативные проблемы

Нехватка данных по новых болезням

Хранилища данных и правила конфиденциальности

Нехватка стандартизации

Аспект «чёрного ящика» и недостаток доверия

AI или врач: кто главнее?