Биг Дата (Big Data), или большие данные, — два волшебных слова, на которые возлагаются огромные надежды. Исследователи и проповедники мира высоких технологий в один голос уверяют, что их анализ сможет до неузнаваемости изменить практически все отрасли. И здравоохранение — не исключение. Мысль о том, что колоссальные объёмы неструктурированных данных обо всем на свете помогут врачам и пациентам, безусловно, очень привлекательна, но станут ли большие данные панацеей? Чтобы разобраться, MedAboutMe отследил самые актуальные примеры использования технологии в России и за рубежом.
Здоровые данные: что Биг Дата может дать медицине
Ведущий исследователь университета Джона Хопкинса (John Hopkins University) Скотт Зегер считает, что в паре с достижениями биомедицины большие данные станут основой второй революции в медицине. По его словам, этот переворот будет «не менее драматичным и всеобъёмлющим», чем первая революция в медицине, которую принято связывать с изобретением микроскопа и первыми попытками лекарей фиксировать наблюдения о состоянии больных, анализировать и собирать информацию, основываясь на науке.
Что большие данные могут дать медицине? Если нужно ответить в двух словах, то ими будут «персонализация» и «оптимизация». Технологии анализа Биг Дата могут дать врачам возможность ставить самые точные диагнозы, прогнозировать развитие болезни, рассчитывать риски для каждого пациента, а иногда и предотвращать их.
Что делает данные по-настоящему «большими»
По мнению исследователей, чтобы квалифицировать накопленный массив информации как большие данные, он должен достичь такого объёма, который становится затруднительно хранить, обрабатывать и анализировать. Другими словами, сложности в работе ученые считают хорошим симптомом: вы не знаете, что делать с колоссальным количеством неструктурированной информации в вашей системе? — поздравляем, у вас Биг Дата.
Хорошая новость в том, что производственные мощности компьютеров стремительно растут, и по некоторым оценкам, удваивались каждые 40 месяцев (каждые 3,3 года) с 1980-х. Одним из первых примеров обработки больших данных в истории медицины, пожалуй, можно считать расшифровку генома человека. Декодировать его начали в 2000-м году, и на расшифровку 3 миллиардов знаков самого важного «документа» о наследственной информации, хранящейся в клетке нашего тела, ушло 10 лет. В 2015 году геном человека может быть расшифрован машиной менее чем за день.
Биг Дата знает о вас все
Тремя основными целями применения больших данных можно назвать создание максимально полных реестров медицинских данных, обменивающихся между собой информацией, использование накопленной информации для прогнозирования возможных «волн» заболеваний. Следом идет внедрение электронных карт для каждого пациента, которые были бы доступны каждому лечащему его врачу.
Представьте: история всех медицинских «манипуляций» с рождения человека будет храниться в системе, а постоянно оттачивающие свое мастерство с помощью машинного обучения алгоритмы смогут сигнализировать врачам о возможном недуге задолго до того, как он возникнет. Здесь неплохим примером может быть часто проявляющийся в детском возрасте сахарный диабет: если бы компьютер мог увидеть предпосылки к возникновению болезни и предупредить, то врач мог бы дать предписания о диете.
Предупрежден — значит вооружен
Немного бесчеловечное определение «оптимизация» в контексте больших данных как раз является проявлением чистейшего гуманизма: годами собираемая и обрабатываемая информация позволяет аналитическим центрам понять, что условия в этом году складываются так, что пандемии гриппа не избежать. Такая информация появляется в руках у экспертов за несколько месяцев до того, как наступит «горячий» сезон, а значит, у них есть время, чтобы принять меры.
Кроме того, использование потенциала больших данных может оптимизировать работу медучреждений и эффективнее управлять персоналом. Например, в пропуски сотрудников могут быть встроены крошечные чипы, и тогда их перемещение между палатами пациентов, лабораториями, операционными будет фиксироваться, а информация — храниться в одном месте. Таким образом, медучреждение сможет научиться рациональнее планировать загрузку, продолжительность смен, рассчитывать свои потребности в персонале в зависимости от множества факторов, и как результат — экономить бюджет. Здесь внедрение технологий больших данных максимально тесно соприкасается с интернетом вещей и возможностями, которые может дать «умная» носимая электроника — датчики, трекеры, анализаторы и др.
Плохой почерк, мало ответов
Такова теория, а на практике все немного иначе. Технологии обработки больших данных сталкиваются с целым рядом проблем. По данным исследований команды Университета Джона Хопкинса, одна из них — отсутствие по-настоящему значимой, или как они ее называют — «функциональной» информации в документах обследования. Система не всегда может извлечь данные из записанных на диктофон комментариев в ходе осмотра или распознать написанный от руки неразборчивый текст, который затем был отсканирован или отправлен по факсу.
По мнению директора Института геномики, созданного в крупнейшем нью-йоркском медицинском центре Mount Sinai доктора Эрика Шадта, основные ограничения медицины и фармацевтической индустрии связаны с недостаточным пониманием биологической природы болезней.
Аналитика больших данных в медицине, прежде всего, должна агрегировать всю возможную информацию о том, что может влиять на болезнь — от ДНК, продуктов межклеточного обмена, микроорганизмов, тканей, органов до целых экосистем, считает он. Только так можно построить предсказательные модели, которые будут реально работать, совершенствоваться — в том числе с помощью алгоритмов машинного обучения — и смогут помочь индивидуальным пациентам. По словам Шадта, процесс перехода к Биг Дате не будет мгновенным: модели предстоит отлаживать, информацию — накапливать. Еще одна сложность — отсутствие квалифицированных кадров, способных работать на стыке медицинских и информационных технологий.
Последние находки
Команда исследователей из Университета Кейптауна (UCT) совершила открытие: проанализировав шесть наиболее распространенных видов онкологических заболеваний, они пришли к выводу, что каждый из этих видов рака характеризуется отчетливо выраженной комбинацией генов. Информация об открытии была опубликована 20 мая. Анализ накопленных результатов о состоянии здоровья тысяч пациентов с генетической точки зрения показал, что у рака груди, кишечника, легких, яичников и мозга есть отчетливые генетические маркеры. По словам руководителя исследования, команда не смогла бы совершить открытие, если бы у нее не было доступа к массивам больших данных.
Во второй половине мая достоянием общественности стали и результаты работы команды исследователей из некоммерческого института Christiana Care Health System, которую они вели совместно с Университетом Делавера (UD). Ученые использовали данные о пациентах, накопленные медицинскими учреждениями округа, чтобы исследовать результативность лечения для больных, страдающих хронической почечной недостаточностью. Целью исследования было понять, как и когда даже незначительные изменения в жизненных показателях таких пациентов приводят к осложнениям и госпитализации.
В итоге ученые пришли к выводу, что госпитализацию можно предсказать с необыкновенно высокой степенью вероятности, если пристально следить за артериальным давлением, частотой возникновения эпизодов кожных и респираторных инфекций, проявлениями гиперволемии (увеличение объёма циркулирующей крови и плазмы) и гипонатриемии (снижения концентрации ионов натрия в плазме крови).
Поиску возможностей наиболее ранней диагностики и наименее инвазивного лечения посвящено и исследование ученых Университета Квинс в Белфасте, Великобритания. Первые выводы исследования были опубликованы в журнале Nature Medicine 16 мая. Цель работы группы ученых — заложить основы для создания единой международной базы данных, в которой бы хранилась разнопрофильная информация, те самые большие данные о максимально большом числе случаев заболевания раком по всему миру. Поиск закономерностей внутри такой бесконечной «картотеки» смогли бы спасти немало жизней, считают они.
Исследователи отмечают, что современные технологии впервые создали инструменты для того, чтобы описывать обнаруженные у онкологических пациентов опухоли максимально быстро и недорого. Сочетание этих двух факторов вместе с доступностью медицинских баз данных, агрегирующих большие данные, позволяет говорить о близости прорыва в лечение многих разновидностей рака.
Золотое правило индивидуального подхода
Один из первых в США пилотных проектов по работе с большими данными запустили в Университете Джона Хопкинса. Oncospace — «умная» база данных, в которой хранятся 3D-снимки опухолей нескольких тысяч пациентов, которые страдали от рака шеи, головы, предстательной или поджелудочной желез. К снимкам прилагается практически исчерпывающая по меркам онкологов информация о пациенте: сопутствующие заболевания, особенности анатомии, количество полученной в ходе терапии радиации, побочные эффекты во время лечения, исход болезни.
В традиционной практике онкологи изучают снимки опухоли и назначают лечение, основываясь на них, на своем опыте и опыте ближайших коллег. Для врачей, которые используют Oncospace, это только первый шаг. Постоянно пополняющаяся база данных дает им доступ к историям лечения случаев, похожих на тот, с которым они работают, и позволяет рассчитать эффективность разных стратегий лечения. Первые результаты показали, что Oncospace повышает эффективность и безопасность программ лучевой терапии.
Примерно в то же время систему аналитики больших данных для отделений интенсивной терапии местных больниц опробовал Калифорнийский Университет (UC). Она позволяет в режиме реального времени отслеживать изменения в состоянии пациентов на основе базовых показателей — пульса, сердечного ритма, артериального давления, температуры, — которые регулярно фиксирует медперсонал.
Несмотря на высокий уровень развития медицины, современные антибиотики и постоянное наблюдение, сепсис, или заражение крови, до сих пор остается одной из распространенных причин смерти пациентов отделений интенсивной терапии. На предотвращение развития этого процесса и направлен разработанный командой UC алгоритм. Системы агрегируют данные о жизненных показателях и предсказывают, что у пациента может развиться сепсис за несколько часов до того, как это смог бы сделать квалифицированный врач. Таким образом, у медиков появляется время принять меры, которого до внедрения системы могло просто не оказаться.
Когда речь идет о медицине, тема смерти практически неизбежна. В Центральной больнице Массачусетса в Бостоне внедрили систему, которая позволяет предсказать риск летального исхода во время сложных и продолжительных хирургических операций. Предсказательная модель анализирует все данные, полученные при поступлении пациента в больницу, «ищет» и запрашивает данные из сторонних баз, а затем рассчитывает вероятность смерти пациента на операционном столе. В некоторых ситуациях это означает, что операцию лучше отложить до стабилизации показателей, а в других — что здесь нужен тот или иной врач. Профили врачей также хранятся в системе, чтобы она могла «связать» их квалификации с требованиями ситуации.
Экономия сил — всем на пользу
Другое активно развивающееся направление — это оптимизация расходов медицинских учреждений, человеческих и материальных ресурсов. Один из наиболее масштабных проектов, в котором большие данные используются для того, чтобы обеспечить равномерный доступ населения к медицинским услугам, придумали и запустили ученые с кафедры медицины Флоридского университета (UF). Они систематизировали информацию об уровне хронических заболеваний, росте населения, «густоте» населенности отдельных районов штата. Оказалось, что три округа испытывали недостаток оборудования для диагностики рака груди, и это оборудование было им предоставлено. При этом сами больницы не замечали ни повышенного спроса на такие обследования, ни, следовательно, нехватки оборудования.
Бюджеты таких проектов редко становятся достоянием общественности, возможно, чтобы размером «чека» не отвлекать от того, на что способны большие данные. Однако в этом случае создатели проекта с гордостью говорят, что на программном обеспечении им удалось здорово сэкономить: они пользовались инструментарием Google Maps, чтобы отмечать «горячие» точки.
В некоторых больницах штата Техас большие данные используют для того, чтобы снизить издержки и предотвратить возвращение пациентов в больницу в первые 30 дней после выписки. Повторная госпитализация в течение этого периода чревата для медицинских учреждений расходами, которые не смогут быть покрыты страховкой пациентов, а значит, они должны быть снижены. Анализируя историю болезни и просматривая показатели пациентов, которые выписались, система позволяет скорректировать лечение таким образом, чтобы обойтись краткими визитами в больницу и приемом необходимых препаратов.
Сам себе аналитик
Эксперты в один голос говорят об огромном значении носимой электроники для сбора и анализа больших данных. С каждый годом шагомеры, трекеры, весы, аппараты для измерения артериального давления становятся все умнее, и собираемая ими информация о сердечном ритме, пройденных километрах, сожженных калориях и давлении вполне может обогатить профиль каждого пользователя, случись ему обратиться за медицинской помощью. Ценность этих устройств — в том, что они непрерывно агрегируют информацию о жизненных показателях. Их интерфейсы становятся все более дружелюбными, а значит, пользователи оказываются в состоянии сами (хотя бы минимально) проанализировать динамику изменений в своем самочувствии и получают привычку регулярно следить за информацией о здоровье. А для развития аналитики больших данных и широкого проникновения технологии это очень важно.
По мнению старшего научного сотрудника ИВМ РАН, профессора Сколковского института науки и технологий (Сколтех) Ивана Оселедеца, «у российских медучреждений пока нет глобальной программы работы с большими данными».
«В России есть проблема, прежде всего, со сбором информации, так что о технологиях ее обработки сейчас говорить немного преждевременно, — считает он. — В отдельных медучреждениях могут вестись пилотные проекты с Биг Датой, но в целом в отрасли остается очень много учреждений, где даже самое высокотехнологичное диагностическое оборудование, например, не подключено к интернету, не собирает, не накапливает и не анализирует данные обо всем потоке проходящих через него пациентов».
В здравоохранении вопрос не всегда в том, чтобы собрать огромный массив информации, но в интеллектуальном анализе, выделении функциональных данных из собранного множества, пояснил исследователь.
Компании, занимающиеся генетической экспертизой и анализами, как отметил Оселедец, на российском рынке развиваются вполне успешно. «Прежде всего, это касается стартапов, которые занимаются генетическими исследованиями, в том числе ДНК. Среди них — Atlas, Genotek, «Мой ген» и др. Хотя, конечно, остается открытым вопрос о качестве исследований: я знаю случаи, когда люди заказывали расшифровку ДНК в трех разных лабораториях и получали три отличных друг от друга результата», — рассказал он.
Говоря о мировых тенденциях, Иван Оселедец отметил, что «в последний год словосочетание «большие данные» стало исчезать из отчетов многих международных компаний». Причина, по его мнению, в том, что они так и не смогли определить для себя, что такое Биг Дата и как ее можно использовать.