Главная / Блогеры "Кавказского Узла" / Политическая география Южного Кавказа

14:33, 29 апреля 2020

Что мы понимаем неверно про статистику коронавируса

Обновлено 30 апреля 2020

Если коротко – то почти все. Пойдем по порядку.

1. Количество инфицированных.

Мы уже знаем сейчас, что значительная часть носителей коронавируса – бессимптомные. Обычно это число составляет около 45% от всех инфицированных, в отдельных случаях превышая половину. Доля бессимптомных носителей зависит от того, включать ли в это число тех, кто находится в инкубационном периоде, а также от доли детей в обследуемой популяции, поскольку значительная часть бессимптомных носителей – младшего возраста. В то же время, следует правильно понимать это. Бессимптомные носители – это не те, кто не болеют, просто их имунная система справляется с вирусом куда лучше, чем у других – причем в пассивном режиме, без того чтобы повышать температуру тела и так далее. А обследования на корабле Diamond Princess показали, что и у части бессимптомных носителей есть признаки воспаления легких, но не очень значительные.

Чаще всего инфицированные регистрируются при проявлении симптомов. Это зависит от страны, в некоторых странах зарегистрировали всех или почти всех, в том числе тех, кто не проявляет никаких симптомов. Но в большинстве стран регистрируют только тех, кто обратился в больницу (это примерно от 10 до 20% инфицированных). А это обычно те, у кого симптомы проявляются на достаточно выраженном уровне, и потом у многих из них развивается воспаление легких. В некоторых странах вовсе регистрируют только тех, у кого есть пневмония или даже не всех из них (как например в Италии). Статистика многих стран неполна и недооценивает число инфицированных. Поэтому сопоставления между странами имеют смысл только при дополнительной обработке данных, позволяющей компенсировать этот «недобор».

Страны, которые зарегистрировали всех или почти всех инфицированных (но, вероятно, не менее 95% от их числа) – это Исландия, Сингапур, Тайвань, Южная Корея, Австралия, Объединенные Арабские Эмираты, Бахрейн, Новая Зеландия и, возможно, ряд других; к группе лидеров довольно близок Израиль. В наименьшей пропорции инфицированных регистрировали в Швеции, Италии и Испании.

Другая проблема, что количество инфицированных регистрируется с опозданием. Сегодня полнота данных куда выше, чем в начальной фазе эпидемии в Ухане, Иране или на севере Италии. Тестирование выполняется больше и интенсивнее (и его точность выше), а лаг сокращается. В странах, где регистрируют по симптомам, минимальное отставание составляет в среднем 5 дней (когда начинают проявляться симптомы), а на практике – больше. В Ухане это составляло 12 дней, в Армении и Азербайджане – около недели. Другое дело – страны, которые пытаются пойти по всем цепочкам заражения и выявить всех потенциальных носителей, как это делает Южная Корея и ряд других стран; отчасти это делают и на Южном Кавказе.

Как следствие:

Как правило, мы узнаем о факте инфицирования с опозданием (что означает, что за период, пока больной не был зарегистрирован и изолирован, он продолжал заражать и, как следствие, общее число инфицированных уже больше),
Как правило, мы недооцениваем число инфицированных, в виду неполной регистрации бессимптомных носителей. Доля бессимптомных среди протестированных показывает степень этой недооценки; условно, если число близко к 50%, то регистрация сравнительно полная,
Сопоставление между странами имеет очень много уязвимостей, поскольку в одних странах зарегистрировали почти всех, в других странах зарегистрировали 20, 50 или 75% больных. В результате, соотношения окажутся неадекватными.

2. Количество случаев инфицирования в отношении к населению

Привычные нам по экономике проценты, в демографии превращаются в промилле (то есть, расчету показателей на 1000 населения), в здравоохранении и статистике заболеваний – на 10,000 населения, а в статистике смертности от тех или иных заболеваний – на 100,000 населения. В начальной фазе пандемии, число больных рассчитывали на 1 миллион населения, то есть как относительное число переболевших. Как следствие, в некоторых маленьких странах число инфицированных оказывалось на порядок больше чем в других, как например в Исландии, где это число составляет 5,260 на 1 млн или 0.5% населения, Андорре (1% населения) или в Сан Марино (1.6%), в то время как в больших странах, даже серьезно затронутых пандемией, это число куда ниже (США – 0.3%, Россия – 0.06%, Турция – 0.13%, Китай – 0.006%).

Оставим в стороне недооценку по регистрации (в Андорре и Сан Марино она еще выше, чем в перечисленных случаях). В действительности процент распространения не так важен, пока мы не говорим об очень большом числе случаев, сопоставимом с численностью населения. Математическая симуляция показывает, что эпидемия останавливается после охвата примерно 57-60% населения, причем на начальном этапе она развивается одинаково в двух странах с разницей населения в 10 раз.

Чтобы сделать это более понятным, приведу пример на совсем небольших популяциях. Если у нас есть две популяции, в первой 10 человек, а во второй – 100, то первые десять человек будут инфицированы с одной и той же скоростью, после чего абсолютное число в первом случае достигнет своего предела, а во втором – продолжит охватывать других членов сообщества. Это может быть не так в ряде случаев. Например, если популяция в десять человек географически распределена, а популяция в сто человек – скучена (или наоборот). Кроме того, популяция из 10 человек может составлять одно сообщество из 10 человек, а популяция из 100 человек – 10 таких же сообществ из 10 человек.

Таким образом, скорость распространения эпидемии в малой популяции на первом этапе будет сопоставимой с большой. Поэтому сравнения числа инфицированных в пропорции к населению очень мало дают для понимания в случае, если размер стран очень сильно отличается. Другое дело, когда страны более-менее сопоставимы.

Есть из этого правила одно исключение: если в большей по размеру стране есть большое количество крупных населенных пунктов с большой плотностью населения, то эпидемия в них будет развиваться параллельно, что приведет к ускоренному росту числа инфицированных. В противном случае, опять же, на первом этапе темпы роста абсолютных чисел будут равнозначными, а в относительном выражении будет выглядеть так, что маленькая страна подвергается инфицированию быстрее.

3. Количество умерших и летальность

Этот вопрос является самым дискуссионным, поскольку в конечном счете от него зависит, верно ли было введение карантина, стоит ли игра свеч и оправданы ли экономические потери, а также нарушение права на передвижение и нормального ритма жизни?

Существует три подхода: согласно первому из них, надо максимально жестко загасить распространение инфекции и, как следствие, всеми возможными методами ее свести к нулю. У этого варианта есть также альтернативный вариант – сделать то же самое, но путем расширенного подхода к тестированию и помещению в карантин всех, кого возможно, следствием чего мы видим такой же результат, как и в случае жесткого карантина. Второй подход – что надо «выровнять кривую» числа заболевших так, чтобы система здравоохранения смогла бы обслужить большинство нуждающихся и не случалось бы коллапса как в Италии и ряде других мест. Это достигается путем умеренного карантина и ожидания того, что медленными темпами переболеют все, либо удастся сдержать распространения болезни до появления вакцины. Третий подход состоит в том, что надо дать переболеть всей популяции, в результате чего выработается коллективный («стадный») иммунитет, а значит, никаких мер принимать не надо. У этого варианта есть изъятия: необходимо дать переболеть молодежи, а старшее поколение нуждается в карантине и особом внимании, к тому же следует не допустить перегрузки системы здравоохранения в любом случае.

И то, какой именно подход надо применить, зависит от того, насколько эпидемия опасна. Условно, если мы имеем дело с чем-то типа чумы или эболы, то необходимо любой ценой прекратить вспышку, а если это сезонный грипп, то мы почти никак на это не реагируем. Именно поэтому, вопрос летальности стал ключевой точкой преткновения во всех дебатах и основным объектом спекуляций.

Сейчас существует несколько подходов к оценке летальности болезни. Первый и чаще всего используемый – CFR, то есть case (crude) fatality rate, простое отношение числа умерших к числу зарегистрированных инфицированных. Пока не стало известно о том, что большое число инфицированных ускользает от регистрации, это считалось нормальным методом, но этот метод в принципе неверен. Если регистрация происходит сразу после инфицирования, а смерть через определенный период – чаще всего называются сроки от 17.3 до 19 дней, то при определении отношения умерших к общему числу инфицированных, мы получим смещение на те самые ~18 дней относительно даты инфицирование – число дней, прошедших до регистрации факта. Попытка определить Infection fatality rate наталкивается на основную проблему в определении реального числа инфицированных и, как следствие знаменателя для этих расчетов. А поскольку почти нигде число инфицированных не известно, то и оценить летальность также не представляется возможным.

Другой показатель – число зарегистрированных умерших относительно числа зарегистрированных выздоровевших. Здесь мы сталкиваемся с хронологической проблемой, но с другой стороны: медианный период от инфицирования для смерти в летальных случаях составляет около 18 дней, а до выздоровления – около 23 дней, как следствие, на первых порах показатель летальности будет завышен.

Еще одно обстоятельство состоит в том, что регистрируются не все случаи, а со смещением в сторону более тяжелых случаев, что приводит к завышению показателя летальности из-за смещения выборки.

Другое обстоятельство, которое искажает летальность – это то, что с другой стороны не все смерти от Ковид-19 регистрируются. Для определения их числа сейчас стали использовать общие показатели смертности, это делает несколько ресурсов одновременно, например scumm.it, euromomo, а также в статьях New York Times и Financial Times. А недавно китайские власти признали, что количество умерших в Ухане было в полтора раза больше, чем считалось ранее.

Еще один фактор, влияющий на летальность – возрастная структура населения. Однако это неверно понимать как просто пропорции тех или иных возрастов в общей численности населения. Судя по всему (это пока невозможно однозначно подтвердить), смерть от коронавируса повышается при достижении возраста ОПЖ-n лет. То есть если в Италии средний возраст населения при смерти 85 лет, то рост смертности будет наблюдаться с 70 лет, а если в Афганистане 60 лет, то – с 45. Это с одной стороны, но даже с учетом этого фактора различия в возрастной структуре заметны, поскольку различия медианного возраста по странам еще более значительны из-за разницы в рождаемости.

На летальность от коронавируса влияет еще несколько факторов. Один из главных вопросов – получил ли человек медицинскую помощь? Очевидно, что при воспалении легких, особенно при обострениях, когда человек самостоятельно не может дышать, без медицинской помощи вероятность смерти стремится к 1, тогда как при квалифицированной помощи она может сильно изменяться. И от качества этой помощи также зависит очень многое. Где-то использовали плазму крови переболевших, где-то какие-то другие собственные наработки. При этом, какова летальность без врачебного вмешательства, мы не знаем и узнаем только если пандемия охватит значительную часть популяции в каком-нибудь из обществ с низким уровнем развития медицины.

Неоднократно высказывалось мнение, что вакцинация БЦЖ, т.е. от туберкулеза, положительно влияет на выживаемость при Ковид-19. Это еще надо будет подтвердить клиническими испытаниями, но, судя по различиям между разными странами, этот фактор действительно существует.

А вот что точно известно – это то, что летальность среди имеющих диабет или даже просто ожирение существенно выше, чем среди тех, у кого таких проблем нет. И в зависимости от того, каков уровень ожирения в среднем по заболевшим, летальность будет значительно отличаться.

При этом, зачастую количество умерших в той или иной стране (или в выборке) от коронавируса невелико, что приводит к тому, что репрезентативность низка. Делать далеко идущие выводы, если в стране заболело 500 человек, а умерло 5, неверно.

Кроме того, статистику смертей от коронавируса многие страны формируют по-разному. В одних случаях в умершие от коронавируса записываются все, кто умерли с коронавирусом. В очень редких случаях, но может быть, что человек и так бы умер, а так умер от коронавируса. В других случаях, пытаются понять, от чего реально человек умер - и тогда есть склонность сдвинуть ситуацию в сторону смертности от других болезней. Например, зарегистрировать умершего от коронавируса как от тех сопутствующих болезней, которыми также болел этот человек. И часто, как мы знаем (более 90% случаев) человек имеет сопутствующие болезни, а то и сразу несколько. Это повышает летальность от коронавируса и поэтому всегда возникает пространство для разных трактовок летальности, и тут уже от властей, врачей, системы здравоохранения и т.д. многое зависит в том, как понимать факт смерти. Ну и есть третий случай, когда у властей есть цель поменьше регистрировать такого рода случаи, это приводит к тому, что смерти от коронавируса "списывают" на что угодно, вплоть до того, чтобы писать, что причина смерти не установлена.

Как следствие, наши представления о летальности искажаются как по техническим причинам, так и по медицинским, причем вся их совокупность делает задачу определения летальности почти неразрешимой. Пока же суммируем вышесказанное. Летальность определить очень сложно из-за ряда технических причин:

Case Fatality Rate определять неверно, поскольку смерть наступает с определенным отставанием от инфицирования,
Infection Fatality Rate определять неверно по той же причине, а также потому что общее число инфицированных неизвестно,
Смотреть на соотношение выздоровевших и умерших неверно из-за более позднего в среднем выздоровления,
Регистрация числа инфицирований неполна и смещена в сторону более тяжелых случаев, вследствие чего летальность завышается,
Регистрация числа смертей также неполна, поэтому летальность недооценивается,
Число умерших во многих выборках невелико, что не дает возможности считать их репрезентативными,
Разное понимание причин смрети от коронавируса, с коронавирусом и от коронавируса, но при хронических заболеваниях.

Некоторые из этих факторов при увеличении объема данных и при корректной математической обработке можно учесть, хотя такое количество статистических наслоений неизбежно снижает точность любого исследования. А вот медицинские причины, влияющие на летальность уже вычленять будет сложнее. Это:

Разный в разных популяциях возраст дожития и, как следствие, разное число людей, приближенных к нему на 10-20 лет, когда летальность начинает резко возрастать,
Разный по странам процент людей, не получивших медицинской помощи,
Разный уровень качества медицинской помощи и системы здравоохранения,
Разное число людей с ожирением и диабетом,
(Вероятный фактор) распространенность прививки от туберкулеза.

Есть еще ряд медицинских факторов, которые вероятно также влияют на процент летальности, но я не буду уходить так далеко и выше написал только то, что твердо статистически подтверждено.

4. Тесты и интенсивность тестирования

Считается, что чем больше интенсивность тестирования, тем выше вероятность охватить большую часть инфицированных, затем их изолировать и предотвратить распространение инфекции в основном или полностью. В целом, этот подход верен – действительно, чем больше тестов, тем больше вероятность охватить большинство носителей вируса. Однако это не означает большое число протестированных в отношении к населению.

Эталонным считается пример Исландии, протестировавшей на данный момент 14% населения. Но на одного протестированного, у кого был зарегистрирован коронавирус, в Исландии приходилось 25 тех, у кого вируса не было. По странам это отличается очень сильно. К примеру, в Сан Марино было протестировано 6.4% населения, но это не означает, что там охват более полный чем в Грузии, где протестировали 0.3%. На самом деле – наоборот. Тестирования могут производиться в почти случайном порядке как в Исландии – и целенаправленно, как к примеру в странах Южного Кавказа.

Сравнительно более достоверным является отношение числа позитивных результатов к общему числу тестов, но и тут могут быть расхождения из-за разной методологии. Соотношение 4-5 проведенных тестов на один положительный результат почти гарантировано дает сильную недооценку числа реальных случаев, тогда начиная с примерно 20 можно предполагать более-менее полный охват. Но и то, это относится не ко всем странам в равной мере.

Кроме того, стоит учитывать, что точность тестов различается. Начиная с 40%, далее к 70-80% и сейчас уже она зачастую приближается к 90-99%, но даже тогда при большом количестве случаев мы можем получить заметную разницу. К тому же, поскольку качество тестов различается между странами, то мы и в этом аспекте не всегда можем страны сопоставлять.

5. Темпы роста инфицирования

Один из ключевых параметров, которые использовались при анализе статистики нынешней пандемии – это прирост числа инфицированных в процентах. Эти цифры варьируются от 50% в начальной фазе вспышки до 20-25% как, вероятно, естественного темпа роста и вплоть до 0% при окончании эпидемии в стране. Однако этот показатель пригоден только в том случае, если мы хотим узнать, с какой скоростью эпидемия охватывает всю популяцию. В ином случае он очень мало чем может нам помочь. А поскольку, как мы уже увидели, в большинстве случаев мы не знаем какой процент населения охвачен, то процент прироста к числу инфицированных ни о чем не говорит.

Если сколько-либо заметная часть когда-либо инфицированных уже выздоровела или умерла, то рассчитывать прирост к этим людям не имеет никакого смысла. Если прирост отражает степень заразности вируса в той или иной стране, то имеет значение число активных случаев и число заразившихся от них соответственно. Выздоровевший полностью человек не может никого заразить, также как и умерший. Тем самым искажаются в сторону занижения темпы роста числа инфицированных. К тому же, если считать, что все зарегистрированные инфицированные уже перестали инфицировать людей, поскольку помещены в карантин, по сути вирус распространяется за счет тех, кто не зарегистрирован и продолжает распространять инфекцию. По сути, это именно прирост к их числу отражает число новых случаев.

Также, процент прироста имеет ограниченную пригодность по той причине, что интенсивность тестирования меняется, а значит доля раскрытых случаев может меняться и чаще всего меняется в сторону повышения.

С другой стороны, если предположить быстрое распространение болезни, остающееся вне внимания служб здравоохранения по причине множественных асимптоматичных случаев, это означает, что "естественный темп" распространения или Basic Reproductive Number, R0, тоже в действительности выше. Причем никто не знает насколько, потому что обследования пациентов не дадут полноты информации (часть передач происходит с поверхностей без какого-либо контакта с инфицированным), а точный показатель базового репродуктивного числа измерить вряд ли возможно, поскольку ни в одной из стран не допускали полностью свободного распространения вируса (кроме Китая в ноябре-декабре 2019 года и Италии в январе-феврале 2020), а в те периоды и в тех местах, где распространение относительно свободное, уровень регистрируемости очень низкий.

6. Тесты на антитела

В последнее время для исследований на распространенность коронавируса стали использовать тесты на антитела. Учитывая все неточности в регистрации и, особенно, ее неполноту, этот метод позволяет оценить реальную степень распространенности болезни и, как следствие, поможет оценить действительную летальность.

Непосредственно прикладного значения эти тесты не имеют, их важность научная, а поэтому внимание к ним меньше. Взамен, они стали постоянным поставщиком сенсаций на информационный рынок. Как уже сказано выше, спекуляции относительно смертности встречаются чаще всего и больше всего привлекают внимание отрицателей Covid-19, считающих, что коронавирус не отличается от гриппа. Ниже график из Италии, показывающий, что это не так.

При этом стоит учитывать, что на пике от коронавируса умерло за неделю 7000 человек в Италии (включая примерно 50% тех, кто не были зарегистрированы по этой статье), а на пике от гриппа умерло 46 человек, несмотря на все карантины, международную помощь и мобилизацию всех врачей.

В частности, шведское агентство по здравоохранению запустило информацию, что на самом деле число инфицированных в 1000 раз больше, чем число зарегистрированных больных, что означало бы, что все шведы переболели уже по полтора раза. Потом они удалили это сообщение, но желание оправдать свой подход осталось. Сейчас уже (как следует из статьи НЙТ) на треть или более занижено число умерших относительно нормального.

Другая спекуляция заключается в том, что в штате Нью-Йорк 14% населения переболели коронавирусом. Но выборка включала в себя тех, кто выходили за покупками и были на улице. То есть, это исследование имеет смещение в сторону тех, кто переболел, поскольку многие находятся в режиме самоизоляции и не покидают дома.

Еще одно исследование обращалось к Санта-Кларе в Калифорнии, где, якобы, переболело в 50-85 раз больше, чем официально зарегистрировано и, соответственно, пишут авторы, летальность в 50-85 раз ниже. Тот факт, что всегда исследования на антитела сопровождаются сообщениями о предполагаемой летальности, показывает, что на самом деле мотивация изначально была в подтверждении того или иного нарратива.

А теперь рассмотрим, как на самом деле неправильно интерпретированные результаты сравнительно массовых тестов на антитела искажают фактическую картину. У каждого теста есть своя погрешность. В последнее время она чаще всего на уровне от 2.5%. Существует такое понятие как Base Rate Fallacy. Оно относится к тому, когда одинаковый процент ложно-позитивных и ложно-отрицательных анализов при разных выборках дает смещение. Итак, если в популяции 15% инфицированных, а тест имеет 2.5% погрешность, то в результате тестирования будет следующий результат. 82.875% - отрицательные, 2.125% - ложноположительные, 14.625% положительные и 0.375% - ложноотрицательные. Итого, конечный результат будет 16.75% положительных при реальном числе в 15%. То есть при погрешности в 2.5% получаем смещение в 1.15 раз при 15% положительных. Завышение запрограммировано именно из-за Base Rate Fallacy и пока процент инфицированных меньше процента не болевших, это будет работать так.

При числе положительных в 1%, погрешность метода превышает результат, поэтому это исследование не имеет смысла.

Теперь рассмотрим пример с Нью-Йорком подробнее. 13.9% инфицированных в выборке из 3300 человек, означает до 460 человек, у кого был позитивный тест. Если погрешность теста 2.5%, реальный процент около 12%. А если 1%, то около 13%. При этом, существуют помимо погрешности метода, также погрешность статистического исследования. При генеральной совокупности в 19.5 млн и выборке в 3300 человек, погрешность составляет ±1.9%. Итого вместо 13.9%, мы имеем 12%±1.9%, то есть от 10.1% до 13.9%. Верхнюю границу, по сути, взяли как основной результат. Не говоря уже о том, что выборка изначально несколько смещена, то есть надо дополнительно смещать результат вниз, но чтобы понять на какую величину, нужно понять какая доля населения вообще не выходит из дому.

Это один пример, причем расчет умозрительный, поскольку какая именно погрешность у теста, не сообщалось, также, как и много других деталей. Главное знать, что тесты на антитела напрямую как критерий распространения Covid-19 в населении применять нужно с большой осторожностью. И для этого желательно делать максимально большие выборки с максимально точными тестами. И желательно очень много времени не терять, поскольку антитела через несколько лет начинают пропадать.

Есть статья, где довольно подробно разбирают проблематику: Насколько достоверны тесты на антитела к SARS-CoV-2. Из 14 тестов на антитела, которые были проверены на выборке из 100-300 испытуемых только один тест не показал ложно-положительных. Еще в одном - 1% случаев, еще в одном - 2, в остальных был процент от 5 до 16%. Подробнее см. на сайте covidtestingproject.org.

Ну а летальность Covid-19 на основе тестов на антитела можно определять только с учетом всех перечисленных погрешностей по статистике летальности, а также Base Rate Fallacy. И при наслоении огромного числа погрешностей ошибки становятся неизбежными.

Грант Микаелян