01/04/2020
Pôvodný post od Richarda Kollára veľmi pekne ilustruje jeden zo základných problémov akejkoľve analýzy dát - ich reprezentatívnosť:
Jednou z kľúčových otázok ohľadom dát šírenia COVID-19 je to, do akej miery sú publikované dáta potvrdených prípadov reprezentatívne (ignorujúc úmyselne zlé reportovanie v niektorých krajinách). Facebook je plný tvrdení ľudí, ktorí tvrdia, že im, alebo ľuďom, ktorých poznajú a sú alebo boli chorí, boli testy odopreté, lebo nespĺňali nejakú podmienku, a preto takýchto prípadov musí byť veľa a vírus sa teda šíri oveľa rýchlejšie ako to z reportovaných čísel vyzerá.
Lenže toto je v skutočnosti veľmi komplikovaná otázka. Väčšina ľudí takéto miery vníma pomocou percent, možno aj preto, že sa často stretajú s percentami preferencií politických strán vo verejných prieskumoch. Preto použijem práve takéto prieskumy ako ilustratívny príklad.
V krajine ako Slovensko s cca. 5,5 miliónom obyvateľov má typický prieskum cca. 1000 repondentov, keďže tento počet zaručuje jeho dostatočnú reprezentatívnosť, ak sú respondenti vyberaní náhodne (a vzorka spĺňa pár ďalších reprezentatívnych kritérií).
Na základe výsledku prieskumu sa inferujú preferencie pre jednotlivé politické strany, popularita politikov a pod. Všetci už dobre zo skúsenosti vieme, že tie čísla nie sú perfektné, ale máme istú vieru v spoľahlivosť týchto údajov (v skutočnosti často oveľa väčšiu, ako to odhady chyby vzhľadom na veľkosť vzorky dovoľujú). A teraz si predstavme, že použijeme podobný prieskum na zistenie počtu ľudí nakazených vírusom COVID-19 v populácii. Ak je 4-5% populácie nakazených, prieskum s 1000 repondentami (t.j. test založený na prítomnosti RNA vírusu vo vzorke z odberu) by to mal približne ukázať. Ale čo keď je nakazených len 0,01% populácie (to je viac ako 5000 prípadov na Slovensku)? Aké malé musia byť error bary (odhad chyby)? Koľko ľudí musíme mať v prieskume (t.j. otestovať), aby sme mohli náš nameraný odhad považovať za hodnoverný? Samozrejme, toto je matematická otázka, na ktorú existuje číselná odpoveď, ale intuitívne tušíme, že musíme do vzorky zahrnúť (otestovať) veľmi veľmi veľa ľudí, ale to by teoreticky šlo.
Lenže, sú tu aj ďalšie problémy. Pre jednoduchosť ignorujme to, koľko času by trvalo také veľké množstvo ľudí otestovať a venujme sa ďalšiemu špecifickému aspektu COVID-19. Tento vírus sa šíri fyzickým kontaktom, alebo prenosom na osoby pohybujúce sa v tom istom priestore. Na to, ako si to predstaviť opäť použijeme prieskum politických preferencií. Veľmi malá strana - Slovenská liga získala v posledných parlamentných voľbách vo februári cca. 0,03% hlasov. To je síce trikrát viac ako 0,01%, ale slúži to ako dobrý príklad, keďže skončili poslední. A teraz si predstavme, že chceme preferencie tejto ministrany zistiť prieskumom verejnej mienky. Nájsť ich fanúšikov nie je vôbec jednoduché. Je veľmi pravdepodobné, že tvoria centrá, ako sú rodiny, príbuzní, známi a susedia, t.j. geograficky sa často združuje viacero priaznivcov spolu. Takže musíte mať so svojou náhodnou vzorkou veľké šťastie, aby ste ich vôbec našli. V prípade Slovenskej ligy asi naozaj veľké štastie.
Keď priaznivcov Slovenskej ligy neviete nájsť, rozhodnete sa, že namiesto náhodného samplovania ich začnete priamo vyhľadávať. Budete sa pýtať ľudí, či niekoho takého nepoznajú, alebo nepoznajú niekoho, kto by niekoho takého poznal. Taktiež na základe politického programu, ktorý si dôkladne preštudujete, vyselektujete vekové a geografické skupiny ľudí, ktoré by teoreticky mohli so Slovenskou ligou sympatizovať. A budete samplovať tieto skupiny a prehľadávať možné kontakty. Možno dokonca narazíte na fanúšikov Slovenskej ligy, ktorí sa k tomu nepriznajú, t.j. budú klamať, prípadne sa niektorí z nich pred vami skryjú, keďže vám nedôverujú. No a na konci tohto prieskumu zistíte, že 4% vašej finálnej vzorky sympatizujú so Slovenskou ligou. Čo z toho vyplýva pre skutočné preferencie Slovenskej ligy na Slovensku? No, nič moc. A takto je to s testovaním COVID-19.
Takže, možno veriť zverejneným číslam? Odpoveď je prekvapujúco - áno. Samozrejme, určite nemáme dobrý odhad toho, aké percento populácie je v skutočnosti choré, najmä preto, že testovanie systematicky podreportuje skutočné číslo počtu chorých (t.j. určite nezachytávame všetky aktívne prípady). Ale, ak je naše vyhľadávanie systematické, t.j. testujeme najpravdepodobnejších nakazených, a vzorka je dostatočne veľká, zistený počet prípadov je dobrým odhadom rozsahu epidémie na Slovensku. Dobrým ale nie perfektným.
Ale čo sa stane, keď výrazne zvýšime počet testov, nemalo by sa to odraziť v dátach, sú potom spoľahlivé? Môžeme tvrdiť, že napr. Česká republika robí 10-krát viac testov, t.j. mali by sme naše čísla prenásobiť aspoň desiatimi, aby boli uveriteľné. Toto je však tiež záludné. Väčšina testov sa robí na príjme v nemocniciach, kam prichádzajú ľudia s vážnymi príznakmi choroby (nie nutne COVID-19). To je asi také isté, ako keby sme robili prieskum politických preferencíí na volebnom mítingu strany Slovenská liga. Kým je ich míting malý, stačí nám malý počet respondentov prieskumu, keď však mítingy narastú, potrebujeme našu vzorku nutne zväčšiť. Čo je však z tohto príkladu jasné, aj oveľa väčšia vzorka na mítingoch nám dá len podobne presný odhad preferencií tejto strany, ako malá vzorka z malého mítingu (ak sú to všetky mítingy), jednoducho len potrebujeme urobiť prieskum na všetkých účastníkoch všetkých mítingov. Preto je viac testovania s nárastom počtu chorých nevyhnutnosťou, ale ani viac testov nám nedá nutne oveľa presnejší odhad skutočného počtu nakazených v populácii.
Samozrejme, toto neznamená, že viac testov je zbytočných. Testy sú v skutočnosti úplne kľúčové, nie však nutne na určenie rozšírenia epidémie v populácií, ale oveľa viac na to, aby sa našlo čo najviac nakazených a tí sa dobre izolovali a taktiež sa dobre preskúmala na prítomnosť vírusu sieť ich kontaktov. Preto neočakávajme, že počet potvrdených prípadov bude signifikantne rásť s väčším počtom testov. Ale každý odhalený prípad pomocou testovania pomôže v budúcnosti spomaliť rozsah epidémie a urýchli hľadanie ďalších prípadov (v príklade voličov Slovenskej ligy). Vieme, že sú medzi nami, ale nevieme presne kde a kde môžu ďalej šíriť (ich politické názory).