Интернет дает человечеству небывалые возможности по сбору большого количества статистической информации о людях. Поисковые системы и социальные сети могут подсчитать количество запросов и упоминаний разных вещей. Это давно поняли в рекламной отрасли и вовсю пользуются личными предпочтениями и историей поиска. Осваивают эту нишу и ученые, исследования, проведенные в университете Калифорнии искали связь между различными поисковыми запросами, связанными и рискованным секусальным поведением и количеством венерических заболеваний. Связь обнаружилась, оказалось, что можно заранее прогнозировать количество пациентов с сифилисом.
Два исследования проводились в сотрудничестве с Центрами по контролю и профилактике заболеваний (CDC), в них анализировалась поведение пользователей в поисковой системе Google и в социальной сети с короткими сообщениями Twitter. После этого брались медицинские данные о заболеваниях сифилисом по округам и штатам и все эти массивы данных сопоставлялись с целью выявить тенденции.
Шон Янг (Sean Young), основатель и директор центра цифрового поведения (Center for Digital Behavior) рассказал, что со множеством сегодняшних проблем здравоохранения можно бороться, если видеть загодя тенденции и принять меры. Венерические болезни, ВИЧ, сифилис и другие заболевания, передающиеся половым путем, наркозависимости, и даже рак - для выбора лучших стратегий борьбы с ними требуется знать не только текущее состояние, но и прогнозировать ситуацию в будущем, видеть тренды.
В ходе проведенной работы с сифилисом ученые разработали методологию использования поисковых данных для подобных исследований на медицинские темы в будущем.
В первой части ученые собирали поисковые запросы в Google по каждому из штатов США и сравнивали их с зарегистрированными случаями сифилиса - первичным и вторичным - это самые ранние и наиболее заразные стадии инфекции, передаваемой половым путем. Такую информацию предоставили государственные органы - центры по контролю и профилактике заболеваний.
Всего было выбрано 25 ключевых слов и фраз (таких как “найти секс” (find sex), хотя русскоязычный перевод наверное был бы погрубее, “заболевания передающиеся половым путем” и т.п.), введенных пользователями в поисковой системе Google с 1 января 2012 года по 31 декабря 2014 года. После этого взяли статистику CDC по еженедельным уровням обращений пациентов с сифилисом по округам всех пятидесяти американских штатов.
Далее эти данные сравнивали с помощью статической компьютерной модели, с машинным обучением, которая просматривает большие объемы данных и находит зависимости. Этот алгоритм, основанный на искусственном интеллекте, использовался сначала для обучения, а потом для предсказания количества заболеваний по поисковым запросам с ключевыми словами.
Исследователи обнаружили, что модель предсказывает уровень заболеваний для каждого штата с 90-процентной точностью, что стало отличным результатом.
Во второй части работы проделали то же самое с сообщениями пользователей в Twitter. Информация собиралась за период с 26 мая по 9 декабря 2012 года - нашлось 8 538 сообщений с ключевыми словами, содержащих географические метки, позволяющие выявить местоположение (штат) написавшего твит.
Как и в первом случае, алгоритм пытался найти зависимости с количеством обращений пациентов с сифилисом. И также была обнаружена связь рискованного сексуального поведения в интернете и увеличением количества заболеваний. Дополнительно исследовалось количество другой стадии болезни - раннего скрытого сифилиса, которые обнаруживается только спустя год после заражения. И данные за 2013 также повторяли поисковые запросы годовой давности.
Штаты и округа, где пользователи твиттера вели себя фривольно, показали рост заболеваний первичной стадии на 2,7 процента, вторичной - на 3,6 процента.
В результате ученые на своем примере показали, что имея недорогие и масштабные статистические данные, можно предсказывать тенденции заболеваемости в разных штатах и округах, организовывать мероприятия по недопущению развития эпидемий и т.д. Такие алгоритмы могут взять на вооружение и другие исследователи, в других областях науки, в других странах.
Интересная статья и впечатляют данные. Наука движется вперед. Если вплотную заняться искусственным интеллектом, то в скором времени станет возможно предотвращать на ранней стадии разные заболевания. Ведь сегодня практически каждый человек имеет доступ выхода в интернет паутину, и практически все сначала гуглят интернет, и только после принимают решение как поступить дальше в сложившейся ситуации.
Вы получили 100.00 % апвоут от @uplift. Проект @whalepunk
You have received a 100.00 % vote from @uplift. Powered by @whalepunk
Очень интересно и доступно написано.)
Спасибо!
Кевларовые презервативы с нано покрытием спасут всех)
@vik 100%
Все хорошо, но 2,7 и даже 3,6 % - это на уровне статистической погрешности, или попросту количества необратившихся за помощью официально.
Подписывайтесь и читайте нас в обзорах @psk
Прикольно, кто бы мог подумать