Tatiana Mikhailova is on Facebook. To connect with Tatiana, log into Facebook.
Tatiana Mikhailova is on Facebook. To connect with Tatiana, log into Facebook.
Tatiana  Mikhailova, profile picture

Пост немного технический, и о том, как я люблю свою работу.

Если вы учили эконометрику, хоть самую простейшую, то вы сможете вытащить огромное количество информации из самого минимального количества данных. И в этом волшебство нашей работы: из хаоса получить информацию.

Вчера мэрия Москвы озвучила результаты тестирования на антитела. https://www.mos.ru/news/item/74512073/ Всего 9 цифр - данные по районам. И из этих цифр можно узнать много интересного.

На первой картинке эти цифры против данных о госпитализациях с известного портала Mash. (Огромное спасибо Sergey Shpilkin за данные!) Данные не самые достоверные, но других нет. САО выпало из зависимости - тому есть версии.

Если оценить регрессию, получим константу на уровне 5,8%.
Если бы мы взяли данные не у докторов, а у господа Бога, у которого есть вся генеральная совокупность, и который точно знает, кто болел, а кто нет - то константа была бы равна 0. Тестируем район с нулем случаев - получаем 0% антител.

Но у простых смертных тесты имеют ошибки. И еще простые смертные формируют смещенные выборки, делая выбор, идти или не идти на тест. Однако, если предположить, что самоотбор людей работает во всех районах Москвы примерно одинаково, то оценив константу, мы на самом деле оцениваем специфичность теста на антитела. Это тот % ложноположительных, который мы получим, протестировав совершенно здоровую популяцию.

По данным (непроверенным) тут https://pcr.news/korotko/opublikovany-resheniya-klinicheskogo-komiteta-departamenta-zdravookhraneniya-moskvy-po-massovomu-tes/ - чувствительность (s) и специфичность (c) теста равны 96.26% и 95.38%.

А значит, что имея X истинно положительных в популяции, получим Y = X*s+(1-X)*(1-c) положительных тестов.
Пересчитав московские результаты, получим истинные Х для АО Москвы такие:
ВАО - 9.25%
ЗАО - 7.62%
САО - 8.82%
СВАО - 9.79%
СЗАО - 7.83%
ЦАО - 8.16%
ЮВАО - 9.33%
ЮЗАО - 7.18%
ЮАО - 8.49%

И для всей Москвы примерно 8.5%.

И с этими цифрами оценка константы становится нулем (статистически) и вся зависимость выглядит логично. (рис 2)

Всю жизнь получаю удовольствие от этого момента, когда вдруг за цифрами удается увидеть спрятанную от беглого взгляда суть вещей.

Похоже, что пиарщики мэрии озвучили "сырую" цифру.
Это общая проблема, к сожалению. Политики любят эти сырые цифры озвучивать, т.к. по сравнению с ними летальность кажется ниже. Губернатор шт. Нью-Йорк, и мэр города озвучивали сырые цифры. Про Мадрид я так и не нашла информации - их 11% это с поправкой на ошибки или без?

Осталось разобраться, что с САО. Версия Sergey Shpilkin о том, что в выборке рандомного тестирования не представлены люди, попавшие в локальную вспышку в северных районах вполне вероятна, если учесть, что из этих районов относительно далеко ехать на тестирование. Это один из видов самоотбора, который может искажать результаты.

Можно попробовать вырезать труднодоступные районы, откуда долго ехать в поликлиники, из выборки и пересчитать.

Я надеюсь, что достоверные данные по районам появятся рано или поздно, и многие загадки можно будет коллективным разумом ученых и аналитиков разгадать.

No photo description available.
No photo description available.
Peter Grintser, profile picture
Peter Grintser
Класс!)
1 yrReport
Vasily Pushko, profile picture
Vasily Pushko
А выводы-то какие? В среднем по Москве 8.5% людей переболели?
1 yrReport
Kirill Skripkin, profile picture
Kirill Skripkin
В рекламном буклете у mindray другие цифры
No photo description available.
1 yrReport
Георгий Коновалов, profile picture
Георгий Коновалов
Здравствуйте. А правильно ли я понял, что 5,8% это смещение выборки? И насколько это надёжный способ оценки смещения? Мне показалось, что выборка у мэрии невероятностная и вообще очень странная
1 yrReport
Ivan Silvestrov, profile picture
Ivan Silvestrov
а что означает формулировка "подобранная прямая"? Это линия (линейной) регрессии (она же "линейная аппроксимация") или что-то другое?
1 yrReport
Denis Ivanov, profile picture
Denis Ivanov
А эти цифры по округам исключают "нековидные стационары"?
1 yrReport
Denis Ivanov, profile picture
Denis Ivanov
Про северные районы интересно, что там происходит. Я бы посмотрел на то, какая станция скорой помощи их обслуживает - может быть, там просто другая политика госпитализации
1 yrReport
Alexandr Alexandrov, profile picture
Alexandr Alexandrov
В первой же фразе две стилистические ошибки! Ай-яй🤔
1 yrReport
Maxim  Osadchiy, profile picture
Maxim Osadchiy
как учитывается то, что сдавать анализы могут по месту работы, а госпитализироваться - по месту жительства?
1 yrReport
Andrey Kuzmin, profile picture
Andrey Kuzmin
Я не совсем понял, куда по вашему мнению далеко ехать из моего района (до красной площади, к вашему сведению, 10 км). Вы не могли бы уточнить?
1 yrReport
Vladislav  Borkus, profile picture
Vladislav Borkus
Если пренебречь вторым порядком малости(ложноотрицательными от малой доли зараженных), то: 12,5% (общий результат "от населения") - 4.5% ложноположительных ("от населения") = 8%
1 yrReport
Andrey Kuzmin, profile picture
Andrey Kuzmin
Вообще-то отклонение САО столь велико, что может объяснять наличие 5%-ной константы. А что получается без САО?
1 yrReport
Андрей Алексеев, profile picture
Андрей Алексеев
Послал вам запрос на френда. Я такой же - работаю с мусорными данными и нахожу нужное.
1 yrReport
Андрей Подлазов, profile picture
Андрей Подлазов
Попытка интересная, но как-то всё это неправдоподобно… И данные по селективности/чувствительности с 4(!) значащими цифрами, и различие в 6+ раз между полным и выявленным числом заболевших (возможность такого масштаба скрытого течения должна сказываться на летальности, но мы не видели столь большого разброса в ее финалах, который можно было бы отнести на полноту выявления, между странами, сдержавшими эпидемию). Кроме того, погрешность определения свободного члена регрессии по точкам, отстоящим от начала координат на несколько своих разбросов, должна быть чудовищна (да и идеальной прямой тут никто не обещал).
1 yrReport
Alexey Mitin, profile picture
Alexey Mitin
Только 8.5% - это не "для всей Москвы", а для тех кто согласился ехать из тех кому предложили.
А выборка согласившихся ехать определённо булет смещена в сторону тех кто переболел каким-то ОРВИ и хочет понять что это было.
Тут определённо нужна правильная нормализация данных. Например, по профессиям - те кто коммуницируют по работе с большим числом людей - имеют больше вероятность того, что переболели каким-то ОРВИ и значит будут более представлены в выборке.

Ну то есть, то что вы получили - скорее правильней назвать оценкой сверху кмк.
1 yrReport
Антон Жабунин, profile picture
Антон Жабунин
Круто.
1 yrReport
Alexey Okulov, profile picture
Alexey Okulov
а проводили прямую как ? наименьшие квадраты ? почему линия уперлась в свао ? зажиточный юзао, и сзао близко друг к другу, а зао - "мажоры" - все выстроилось по доходам people ))).
1 yrReport
Maria  Galaktionova, profile picture
Maria Galaktionova
Мы как раз в САО. И судя по количеству заболевших знакомых, у нас «весело». Приглашение на тесты никто из окружения не получал. Только зеленоградские друзья. В Зеленограде, кстати, жесть какая-то по заболевшим знакомым и их друзьям и коллегам.
1 yrReport
Dmitry Koplovich, profile picture
Dmitry Koplovich
Мэрия опубликовала агрегированный результат по всей выборке, свалив в кучу случайно отобранных граждан и группы риска (неких, цитирую мэрию, «работников сфер городского хозяйства») Хотя, казалось бы, чего им стоило сделать разбивку по группам? При этом сообщалось, что 12,5% было по итогам тестирования 50 с чем-то тысяч человек. До этого сообщали, что по «случайным» СМСкам за неделю было обследовано 27 тыс человек и еще 18 тыс в «нековидных стационарах». Уже так много подозрений начало появляться, что мэрия была вынуждена выпустить «эксперта» с «опровержением» https://www.mskagency.ru/materials/3006077
1 yrReport
Pavel Bushev, profile picture
Pavel Bushev
Во Франции Иль Де Франс около 14%
1 yrReport
Анна Киртоки, profile picture
Анна Киртоки
Спасибо за отчёт и разъяснения.
1 yrReport
Pavel Bushev, profile picture
Pavel Bushev
а в Стокгольме говорят процентов семь, чуток пониже чем в МСК и без особого карантина...
1 yrReport
Pavel Bushev, profile picture
Pavel Bushev
на самом деле по Франции есть вот такие цифры. Источник статья в Сайенс французской группы. H. Salje et al., Science
10.1126/science.abc3517 (2020).
No photo description available.
1 yrReport
Evgeny  Vasin, profile picture
Evgeny Vasin
Эх, я до последнего надеялся, что семь процентов будет.
1 yrReport
Сергей Мерзляков, profile picture
Сергей Мерзляков
А что там про родной Зеленоград?
1 yrReport
Olya  Koposova, profile picture
Olya Koposova
Кстати, прошу прощения, но не про антитела, а про статистику. Почему-то по федеральной Я-статистике по нашей Удмуртии 12 скончались. Между тем по местным новостям и по сообщениям губернатора уже давно говорят о 14.

Откуда я-статистика берет данные и как оперативно их обновляет, интересно

upd. причем 14 их стало еще 15 мая. а 13 - 13.05. Но по статистике их до сих пор 12

upd-2. Да, и заболевших на 25 число 549, а не 529.
No photo description available.
1 yrReport
Alexander Gromov, profile picture
Alexander Gromov
А если сао все таки вернуть то вообще никакой зависимости не будет?
1 yrReport
Daria Khaltourina, profile picture
Daria Khaltourina
12 mosReport