Интерес человечества к прогнозу эпидемий оправдан. Конечно, сейчас не Средневековье, и даже не 1918 год, когда «испанка» унесла почти 25 млн жизней. Но и в памяти живущих ныне людей сохранились несколько нашумевших эпидемий и даже пандемий (эпидемий мирового масштаба). Это стремительно распространение СПИДа, появившегося в 1970-х годах, эпидемия атипичной пневмонии (SARS) 2003 года, пандемия свиного гриппа 2009 года, распространение резистентных к антибиотикам патогенным бактерий, неподдающаяся мировому сообществу малярия и др. Сегодня, в День интернета в России, MedAboutMe выясняет, можно ли уже предсказывать эпидемии при помощи соцсетей и поисковиков?
Компьютерные методы прогнозирования эпидемий
В доинтернетную эпоху люди уже пытались прогнозировать вспышки самых распространенных инфекционных заболеваний. В Советском Союзе еще в 1960-х годах была разработана и внедрена в практику математическая схема развития эпидемий гриппа, получившая название модель Барояна-Рвачева. На ее основе была разработана компьютерная программа, позволявшая предсказывать от 100 до 200 локальных эпидемий гриппа на территории страны одновременно, с учетом перемещения потенциальных пациентов на поездах и самолетах. С ее помощью удавалось более-менее точно прогнозировать до 80% эпидемий местного характера.
Традиционные методы прогнозирования в медицине
Сегодня официальная медицина пользуются пассивными и активными системами надзора за распространением инфекций. Пассивные системы работают с данными, которые собираются на местах. Врачи и сотрудники лабораторий предоставляют информацию, которая постепенно (не сразу) попадает в руки аналитиков, способных обработать ее с помощью существующих математических моделей. Пассивная — значит, информация поступает «снизу». Если же ситуацией с заболеваемостью заинтересовались вышестоящие органы здравоохранения, система надзора считается активной. Что, впрочем, не сильно повышает ее эффективность.
Данная схема работает, но она требует много денег, времени и сотрудников. Даже при максимально быстрой обработке таких данных задержка распространения полученных результатов составляет не менее двух недель.
История интернет-прогнозирования
Учитывая гигантский скачок в области работы с информацией, который совершило человечество за последние 25-30 лет, было бы странно, если бы оно не попыталось воспользоваться новыми возможностями.
Первой программой, предназначенной для контроля за инфекционными заболеваниями, стала ProMED, запущенная в 1994 году. А в 1997 году канадские ученые вместе с ВОЗ разработали и запустили Глобальную публичную сеть медицинской разведки (GPHIN) — систему, агрегирующую новостные сообщения по ключевым словам. В 2002 году во время вспышки атипичной пневмонии в Китае именно с помощью этих двух систем собиралась и обрабатывалась актуальная информация о распространении вируса.
Рано или поздно, в поисках более точных прогнозов, исследователи должны были перейти от обобщающих новостных сводок к индивидуальным запросам пользователей. По интернет-легенде, в 2005 году канадец Гюнтер Эйзенбах приобрел контекстную рекламу у компании Google: если пользователь забивал в поисковик «грипп» или «симптомы гриппа», он видел баннер, который вел на страничку самого Эйзенбаха. Наложив статистику заходов на сводки по распространению гриппа, полученные у эпидемиологов, ученый обнаружил выраженную зависимость: чем больше людей из конкретного региона интересовались гриппом, тем выше была в этом же месте заболеваемость. Причем скачок заболеваемости происходил примерно через неделю от скачка запросов.
Google, куда Эйзенбах обратился со своими выводами, сначала не заинтересовался ими. Однако уже в 2008 году сразу две группы (Yahoo и Google) предложили способ предсказывать заболевания, используя статистику запросов в поисковиках. Результатом изысканий стал сервис Googe Flu Trends (GFT), который несколько лет подряд выдавал прогноз по распространению вирусов гриппа на территории США. Его аналогом был сервис Google Dengue Trends, позволявший получать актуальную информацию о распространении лихорадки денге.
Но в 2009 году GFT «прозевала» эпидемию свиного гриппа, а в 2011-2013 годах ее ошибка прогнозирования составила 140-150%. В результате обе программы были закрыты. Ученые объяснили, что подобного рода сервисы удовлетворительно работают лишь на протяжении первых 2-3 лет, после чего требуются другие методы работы с большими данными (Big Data). Поиск таких методов разными институтами по всему миру сегодня ведется с удвоенным рвением.
Как работают системы интернет-прогнозирования?
Итак, в основе интернет-прогнозирования лежит реакция пользователей на первые случаи заболеваемости в их регионе. Еще до того, как число заболевших превысит эпидемический порог, родственники и коллеги первых инфицированных людей задают свои вопросы по болезням и их симптомам поисковикам. IP-адрес позволяет вычислить, откуда территориально пришел запрос, и с уверенностью прогнозировать, что через 1-3 недели в том или ином месте страны будет вспышка заболевания. Аналогичным образом работает анализ данных социальных сетей, включая Facebook и Twitter.
В России несколько лет назад сходное исследование было проведено журналом Newsweek. Сотрудники журнала проанализировали статистику запросов в Яндексе и совместили ее с информацией по сезонной эпидемии гриппа. В принципе, статистика поисковика совпадала с эпидемиологическими данными и позволяла предсказывать местные вспышки гриппа за несколько недель. Но российские врачи из НИИ гриппа скептически отнеслись к изысканиям журналистов. Эксперты заявили, что запросы отражают «уровень страха» людей перед инфекцией, а не уровень заболеваемости.
Интересная попытка прогнозирования по Википедии была сделана в 2014 году. Известно, что «Вики» коллекционирует запросы пользователей. На момент исследования, пару лет назад, их набиралось 850 млн за сутки. Исследователи собрали запросы по 8 болезням в 9 странах за 4 года (2010-2014) и наложили полученные данные на хронологию эпидемий. Оказалось, что таким образом можно было за неделю предвидеть эпидемию гриппа в Японии, за 2 недели — эпидемию лихорадки денге в Бразилии и за месяц — вспышку туберкулеза в Таиланде. В остальных случаях получить прогноз не получилось бы — речь шла о таких болезнях, как холера, СПИД, чума, лихорадка Эбола.
Ученые объясняют это тем, что лихорадка денге и грипп — сезонные заболевания: СМИ публикуют статьи еще до начала эпидемии, а люди активно читают их и начинают искать дополнительную информацию. Также у этих болезней короткий инкубационный период, что побуждает людей побыстрее получить информацию о потенциальной угрозе. Остальные заболевания, по которым проводился поиск (вялотекущий СПИД, редкая чума) — не столь интересны пользователям интернета.
Итак, основная проблема интернет-прогнозирования на основе социальных медиа, как считают эксперты — это сложность фильтрации данных:
- например, в отделении реальности от вымысла. Данные, которые пользователи вносят в сеть, так или иначе, влияют на прогноз — даже если они неверны;
- или в разделении сообщений пользователей и медицинских текстов, которые тоже выкладываются обычными людьми.
С другой стороны, эксперты в области Big Data считают, что как раз использование больших данных позволит избежать подобных отклонений.
Будущее интернет-прогнозов эпидемий
- Сегодня ученые говорят о возможности получать и обрабатывать новые разновидности данных: например, с систем видеонаблюдения.
- Суть нынешнего этапа развития систем прогнозирования — объединение данных и их комплексный анализ. Информация из соцсетей, с агрегаторов сайтов и из поисковиков в сочетании с метеоданными позволит в ближайшем будущем получать прогнозы по распространению инфекций в режиме реального времени.
- Интернет-системы выходят за рамки наблюдений. Постепенно идет переход к созданию интерактивных систем, которые могли бы стать инструментом по распределению имеющихся на местах ресурсов для борьбы с эпидемиями.
- Ученые указывают на то, что пока основная масса наблюдений и прогнозов приходится на развитые страны. Но практически без внимания остаются государства, где риск эпидемий намного выше, чем в странах с развитыми медициной и здравоохранением. Эксперты отмечают необходимость создания системы глобального надзора за инфекционной безопасностью человечества.
- Возникает вопрос: что станет с традиционным неспешным сбором информации на местах? Ученые считают, что данный подход должен стать частью единой информационной системы прогнозирования — только тогда удастся получить наиболее объективную картину распространения инфекций.