Статистика - как много в этом слове. Ильф и Петров писали:
Статистика знает все.
Точно учтено количество пахотной земли в СССР с подразделением на чернозем, суглинок и лёсс. Все граждане обоего пола записаны в аккуратные толстые книги, так хорошо известные Ипполиту Матвеевичу Воробьянинову, — книги загсов. Известно, сколько какой пищи съедает в год средний гражданин республики. Известно, сколько этот средний гражданин выпивает в среднем водки с примерным указанием потребляемой закуски. Известно, сколько в стране охотников, балерин, револьверных станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок.Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!
Конечно, писатели иронизировали. Но сбор данных - это только часть возможностей статистического аппарата. Сегодня я хочу поговорить о таком понятии, как корреляция.
Источник
Корреляция - это статистическая взаимосвязь между несколькими случайными величинами. Часто ее трактуют, как связь между какими-либо переменными. Но всегда ли корреляция означает причинно-следственную связь?
Простой пример. Если верить статистике, то раком легких чаще болеют те, кто в течение рабочего дня делает много небольших перерывов, между этими этими параметрами (вероятность заболеть раком легких и количество перерывов) есть корреляция. Означает ли это, что лучше работать от звонка до звонка, не покидая рабочего места?
Конечно же, нет.
Стоит подумать, куда же расходуется большинство таких перерывов - и все станет понятным: к сожалению, это не просто перерывы, а перекуры. А курение - убивает.
Источник фото
Получается, что чисто математически можно найти связь между самыми разными вещами, хоть между популярностью светлых носков и длиной железнодорожных составов на Южно-Уральской железной дороге. Второй параметр выбрал не случайно: большую часть поста я пишу в поезде, от руки.
Логики в этой связи, правда, не будет никакой. Приведу немножко забавных примеров корреляции, найденных мной в интернете.
Расходы на научные, технические и космические исследования в США коррелируют с количеством самоубийств путем удушения и повешения с коэффициентом корреляции 0,99789126.
А это “связь” между общим доходом от аркад и количеством защитившихся докторов в компьютерных науках. Коэффициент корреляции тут составляет 0,985065.
В целом, графики могут использоваться для доказательств связи даже более убедительно, чем непонятные цифры. Вот как Google Trends сравнил поисковые запросы “тыква” и “global warming”
Явно видно, что сначала несколько русскоязычных людей ищут про тыквы - а потом гораздо большее количество начинает интересоваться глобальным потеплением на английском. Наверное, это неспроста:)
Про то, что количество пиратов “влияет” на среднюю земную температуру, знают многие, но вот графическое подтверждение:
Источник
Разбавлю скучные цифры фотографией Николаса Кейджа.
Источник
Статистика утверждает, что чем чаще он появляется в фильмах, тем больше людей тонут, упав в бассейн:
Коэффициент корреляции тут ниже, чем у предыдущих примеров, но все-таки высок: 0,666. И три шестерки - это тоже вряд ли случайность:)
Источник забавных корреляций - сайт http://www.tylervigen.com/spurious-correlations, любопытным советую его посмотреть.
Получается, что корреляция - бесполезная штука? Вовсе нет. У нее есть полезное свойство: она может отображать зависимости между действительно связанными вещами. Впервые “закон корреляции” разработал французский палеонтолог Кювье в XVIII веке. Конечно, он не выводил формулу расчета коэффициента и не рисовал красивые графики. Он объяснял так:
“Каждое животное приспособлено к той среде, в которой оно живёт, находит корм, укрывается от врагов, заботится о потомстве. Если это животное травоядное, его передние зубы приспособлены срывать траву, а коренные - растирать её. Массивные зубы, растирающие траву, требуют крупных и мощных челюстей и соответствующей жевательной мускулатуры. Стало быть, у такого животного должна быть тяжёлая, большая голова, а так как у него нет ни острых когтей, ни длинных клыков, чтобы отбиться от хищника, то оно отбивается рогами. Чтобы поддерживать тяжёлую голову и рога, нужны сильная шея и большие шейные позвонки с длинными отростками, к которым прикреплены мышцы."
Как это связано с современной статистикой? Благодаря выводам, к которым пришел Кювье: “Каждый организм образует единое замкнутое целое, в котором ни одна из частей не может измениться, чтоб не изменились при этом и другие”. Взаимосвязь между частями (читай - параметрами!) - вот что важно в работе Кювье. Палеонтолог предлагаю по найденным отдельным частям восстанавливать облик всего животного.
А формулу для расчета коэффициента предложил английский математик Пирсон.
Она выглядит следующим образом:
X и Y тут - это как раз те самые параметры, между которыми мы находим связь.
Вообще, именно взаимосвязь между такими параметрами ищет статистика, ищет машинное обучение. Корреляция в этом играет не последнюю роль.
Таким образом, корреляция - один из рабочих методов для описания связи между различными переменными. Но к ней, как и к любому другому методу, нужно относиться с осторожностью. Ведь нет же связи между возрастом Мисс Америка и количеством смертей от ожогов. А корреляция - есть.
Учите статистику, включайте голову, пишите на Голосе. Да пребудет с Вами сила!
Ваш пост поддержали следующие Инвесторы Сообщества "Добрый кит":
chiliec, polyideic, archibald116, shuler, vadbars, yurgent71, vasilisapor2, renat242, tnam0rken, karusel1, i-findirector, felicita, amelina.elena, kertar, nerengot, lokkie, igrinov, foxycat, ksantoprotein, chugoi
Поэтому я тоже проголосовал за него!
Узнать подробности о сообществе можно тут:
Разрешите представиться - Кит Добрый
Правила
Инструкция по внесению Инвестиционного взноса
Вы тоже можете стать Инвестором и поддержать проект!!!
Если Вы хотите отказаться от поддержки Доброго Кита, то ответьте на этот комментарий командой "!нехочу"
Ну вы блин даете
О, моя любимая тема. А как вы считаете, корреляция между ценой барреля нефти и уровнем жизни в позднем СССР/новой РФ ложная или нет?
Если честно, то я не уверен, что такая корреляция вообще есть: быстрый гуглеж с телефона ничего не дал. И даже если она есть, то надо все-таки быть специалистом в экономике, чтобы мнение было более обосновано. Но я все же попробую ответить.
Я считаю, что уровень жизни зависит от производства в стране и от стабильной и высокой конкурентоспособности внутренней валюты (в данном случае - рубля). А производство и цена рубля зависит в т.ч. и от цены на нефть. Но это все рассматривается на очень короткий период, насколько он значим в мировой экономике - сказать сложно.
Резюмируя: мое субъективное мнение - корреляция есть, но данных для полноценного анализа может не хватать. Как и мне не хватает знаний для уверенного ответа:)
отличная подборка примеров. осталось дополнить ситуациями, где корреляции нет, но обыватель упорно считает, что связь есть
Но это будет уже совсем другая история:)