
Postavit a spravovat jakýkoliv analytický systém, do kterého jsou pořizována data manuálními vstupy mnoha lidí, není podle Novotného vůbec jednoduchá věc. Budou se podle něj hlavně na začátku jeho zavádění objevovat chyby v datech. „Tak to prostě je a musí se s tím vždy počítat a mít připraveny zdroje a postupy na odstraňování chyb v datech a hlavně o tom konzistentně dávat vědět všem uživatelům výstupů systému. Data se jim bez nějakého varování nesmí měnit pod rukama, aniž by věděli proč,“ říká odborník.
Podle Novotného je jednou z podmínek kvality analytického systému i komunikace s uživateli. Ta musí také rychle reagovat na chyby a spolehlivě vysvětlit, kde se chyba stala a jak byla opravena. „Pokud tohle není, tak uživatelé přestanou okamžitě datům důvěřovat,“ obává se docent.
Změny v datech nákazy koronavirem v České republice byly na konci července provedeny v rámci předem avizovaného auditu. Se zpětnou platností se po přepočtu zvýšil počet vyléčených, který způsobil, že zároveň v čase až do dubna kleslo číslo aktuálně nakažených.
Po auditu proběhla ještě změna v počtu hospitalizovaných, kdy zdravotní statistici změnili způsob, jak nahlížejí na člověka hospitalizovaného s koronavirem. Číslo se tak snížilo zhruba o třetinu. Podle statistiků se při předchozím auditu ukázalo, že desítky z hospitalizovaných jsou nadále vedeni jako nakažení covid-19, přestože už tuto nemoc překonali a v nemocnici zůstávají kvůli jiným chorobám.
Mezi menší změny, které ale probíhaly v datech i po auditu, patří úbytek tří mrtvých 4. srpna, změny v datech, ke kterým byly oběti přiřazeny, a také počet hospitalizovaných je podroben častým revizím s několikadenní zpětnou platností. Když například ubylo hospitalizovaných v těžkém stavu, Ministerstvo zdravotnictví to pro Seznam Zprávy okomentovalo tak, že se stav pacientů zlepšil a nemuseli již být připojení na plicní ventilaci.
Zásahy do vydaných statistik pak nejsou podle Novotného neobvyklé. „Stává se, že až po publikaci se zjistí nějaká anomálie ve vstupních datech, někdo něco špatně vyplní nebo zaúčtuje. Potom je třeba vydat opravenou statistiku s komentářem (ve chvíli, kdy se jedná o zpracované výstupy) nebo opravit datovou sadu (ideálně nějakým korekčním komentovaným záznamem), pokud se jedná o otevřená data,“ říká a dodává, že mu reakce ministerstva přijde alibistická. „Podle mne se prostě chyby na vstupech dat stávají a není problém o nich pohovořit a ukázat, jak byly opraveny. To nakonec i zvýší důvěru v celý systém. V této chvíli už je vidět opravdu malý zárodek na stránce Ministerstva zdravotnictví. Bude to ale samozřejmě chtít ještě dost práce.“
Epidemiologická data i podle symptomů
Ředitel Ústavu zdravotnických informací a statistiky Jaroslav Dušek se před poslanci zdravotního výboru v dubnu vyslovil proti zpřístupnění dat. „Já ta data nikdy v životě nemůžu otevřít,“ řekl statistik.
V zahraničí ale jsou hned na první pohled podstatně komplexnější datové sady veřejnosti k dispozici, například v Hongkongu. Místní statistici uvádí nakažené na mapě až podle ulice. Hongkong má ale také podstatně hustší zalidnění. Se svými 6,3 tisíci lidmi na kilometr čtvereční je jednou z nejhustěji zalidněných oblastí na planetě. Po rozkliknutí jednotlivých případů je možné zjistit pohlaví, věk, datum potvrzení, symptomy, spojení s místním případem nebo nakažení v zahraničí, hospitalizaci a další detaily. Mimo jiné se ve statistikách objevuje i například čekací doba odběrových míst. Podle vyjádření ředitele ÚZIS Duška epidemiologická data na podobné úrovni existují i v ČR, jen nejsou veřejnosti k dispozici.

Interaktivní panel s koronavirovými daty Hongkongu. Foto: Centre for Health Protection, Hongkong.

Vedoucí Katedry informačních technologií na VŠE docent Ota Novotný.
Autor: JIŘÍ BURÝŠEK, PETR JUNA
Zdroj: Seznam Zprávy