[Aktuality] Stát tají příliš mnoho dat, říká v rozhovoru pro Seznam Zprávy Ota Novotný

Datová analytika, jakkoli jsou to pro širokou veřejnost ještě pořád tak trochu cizí slova, se promítá do každodenního života. A právě širokou veřejnost ovlivňuje ve vysoké míře. Jeden příklad za všechny?

Na konci června se ve statistice ministerstva zdravotnictví objevil údaj, který ukazoval, že těžký průběh nemoci způsobené novým typem koronaviru poskočil a týká se celkem 23,6 % hospitalizovaných. To byl v té době obrovský nárůst z předchozích devíti procent. Během několika hodin se však statistika změnila a data o počtu osob s těžkým průběhem nemoci byla změněna na polovinu původní hodnoty.

Mluvčí ministerstva zdravotnictví Gabriela Štěpanyová situaci vysvětlila tak, že se nemocným udělalo lépe. „Změny se odvíjí od aktuálního zdravotního stavu pacientů v lůžkových zařízeních, který lékaři promítají do statistik pro Ministerstvo zdravotnictví. Z dat vyplývá, že se stav pacientů zlepšil a tudíž již nemuseli být připojeni na UPV. S hledem na aktualizaci 2x denně se tato informace může v čase měnit,” napsala.

O tom, jak datová analytika funguje, jak se u nás se statistikami pracuje (a také jak by se mohlo pracovat) si s reportérem Seznamu Zpráv Petrem Junou povídal vedoucí katedry informačních technologií na VŠE a zakladatel a ředitel odborné platformy Data and Business VŠE Ota Novotný (ON).

Pokud uživatelé přestanou datům důvěřovat, systém nepoužívají, říká Ota Novotný

ON: Postavit a spravovat jakýkoliv analytický systém, do kterého jsou pořizována data manuálními vstupy mnoha lidí (ne vždy detailně metodicky proškolených nebo u kterých pořizování dat není jejich hlavní náplní práce) nebo jsou do něj data importována z řady jiných provozních systémů, není vůbec jednoduchá věc. V komerčním sektoru takové věci trvají řadu měsíců, neobvyklé nejsou ani roky. Nejde ani tak o technologii – tam je to dneska v době cloudových služeb záležitostí celkem rychlou. Jde o vyladění celého sběru dat, nastavení kontrol a zpětných procedur oprav vstupů a v neposlední řadě i postupné ladění toho, co od systému uživatelé výstupů chtějí.

Zejména v úvodních měsících zavádění takového systému (a díky manuálním vstupům v podstatě pořád) se vždy objevují a budou objevovat chyby v datech. Setkávám se s projekty, kde při čištění dat v úvodní fázi narážejí na nekonzistence v řádech statisíců záznamů. Tak to prostě je. Musí se s tím vždy počítat a mít připraveny postupy na odstraňování chyb v datech. Hlavně se o tom musí dávat konzistentně vědět všem uživatelům výstupů systému. Data se jim bez nějakého varování nesmí měnit pod rukama, aniž by věděli proč.

Kvalitní nasazení analytického systému vždy musí doprovázet velmi dobrá komunikace řešitelů s uživateli a velmi rychlá reakce na oznámené chyby ve stylu – “tohle by mohla být opravdu nekonzistence, zjišťujeme, kde se stala chyba, byla tady, opraveno a aktualizovaná data jsou zde”, případně “víme o tom, pracujeme na opravách systému vstupů nebo způsobu jak ty věci lépe vykazovat, bude to hotovo tehdy a tehdy”. Pokud tohle není, tak uživatelé přestanou okamžitě datům důvěřovat, systém už nepoužívají. Dochází tak ke zmaření značných investic. Tyto “křivky nadšení a následného zklamání” lze bohužel vysledovat v mnoha případech.

Systém sběru dat o současné pandemii v ČR a jejich prezentaci dovnitř veřejné správy a k občanům výše uvedené přesně splňuje. Jde o projekt, který je na světě cca čtyři měsíce. Dochází k jeho převzetí a implementaci dovnitř té části veřejné správy, která nebyla zvyklá a neměla systémy na práci s daty skoro v reálném čase (zdravotnické statistiky se dělají většinou s mnohem větším zpožděním, kde je čas odladit výstupy a najít anomálie, které se potom prověřují). Podle mého názoru postupuje na poměry implementace IT systémů do veřejné správy v ČR velmi slušně, ale s chybami v datech se prostě musí počítat.

Co slušně nepostupuje, je komunikace směrem k veřejnosti s tím spojená. Nezachytil jsem v podstatě žádné zprávy o postupu projektu a hlavně o tom, jak jsou postupně řešeny zmiňované anomálie v datech. Současně mi možná ještě více chybí i informace o průtočnosti celého systému (nejen jeho prezentační části), ve smyslu například za jak dlouho se podaří “odbavit” jeden případ atp.

Zásahy do statistik jsou obvyklé, ale potřebují dobrý komentář

Je takový zásah, jako v případě čísel u koronavirových pacientů, do již vydané statistiky obvyklý? Může to být vůbec takto odůvodněno?

ON: Zásahy do vydaných statistik nejsou vůbec neobvyklé. Stává se, že až po publikaci se zjistí nějaká anomálie ve vstupních datech, někdo něco špatně vyplní nebo zaúčtuje. Potom je třeba vydat opravenou statistiku s komentářem (ve chvíli kdy se jedná o zpracované výstupy) nebo opravit datovou sadu (ideálně nějakým korekčním komentovaným záznamem), pokud se jedná o otevřená data.

Komentář, který uvádíte, mi přijde velmi alibistický. Podle mne se prostě chyby na vstupech dat stávají a není problém o nich pohovořit a ukázat jak byly opraveny. To nakonec i zvýší důvěru v celý systém. Ještě jedna věc – ve chvíli, kdy máme nízké počty hospitalizovaných a zemřelých, tak každá chyba na vstupu (pokud to přepočítáváme na procenta) vyvolává mediálně zajímavou odezvu – nárůsty o desítky procent apod. Tady bych doporučil pracovat primárně s čísly na 100 000 obyvatel a minimálně s týdenními průměry, které nějaký jednodenní možný výpadek eliminují.

Od začátku testování do dnešního dne navíc není jasné, z čeho je tvořeno číslo celkového počtu provedených testů v ČR. Jediná známá věc je, že se číslo skládá i z opakovaných testů u stejné osoby.

Je současná úroveň transparentnosti dat dostatečná a může vůbec stát s takovou statistikou operovat? Když to totiž přeženu, tak místo milionu provedených testů může být milionkrát otestovaný jeden člověk a z dat to jednoduše nepůjde zjistit.

ON: Toto číslo chápu jako první ukazatel efektivnosti systému opatření. Víc testů bylo chápáno jako větší jistota, že zasahují větší část populace a hlavně že postupně budují takovou testovací kapacitu. Nic jiného tehdy k dispozici nebylo.

Dneska by se efektivnost systému měla měřit už jinak – například právě jako čas “odbavení (nalezení, otestování, vytrasování atp)” konkrétního případu bez ohledu na to, kolik testů k tomu bylo potřeba. Vypovídací hodnota počtu provedených testů jako celku by podle mne měla klesat. Maximálně by měla ukazovat kapacity a vytížení laboratoří jednotlivých krajů – a tam je opravdu jedno, jestli jeden člověk měl test jeden nebo dva.

Podobně na tom je i datová sada o potvrzených případech a zemřelých. Geograficky jsou případy totiž indexovány podle trvalého bydliště, nikoliv podle místa úmrtí. Má pro veřejnost i odborníky taková datová sada nějakou vypovídací hodnotu?

ON: Tady opět závisí na tom, co s tím ukazatelem chceme dělat. Pokud chceme “hledat” ohniska nákazy, tak je vhodné trvalé bydliště a k tomu ještě lépe bydliště v době možného nakažení. Pokud se chceme bavit o vytíženosti zdravotnických zařízení těžkými případy (kam jsou obvykle tyto případy směrovány), tak má smysl místo úmrtí. Nejlepší by byla datová sada s oběma údaji, kde si člověk může sám vybrat, co by potřeboval.

Transparentní datové sady v České republice dosud chybí

V porovnání s jinými zeměmi jsou dostupná epidemiologická data v České republice řekněme hodně povrchní. Například Hongkongští statistici uvádí nakažené na mapě podle ulice. Po rozkliknutí je možné zjistit pohlaví, věk, datum potvrzení, symptomy, spojení s místním případem nebo nakažení v zahraničí, hospitalizaci a další detaily. (Podle vyjádření ředitele Ústavu zdravotnických informací a statistiky ČR Ladislava Duška data na podobné úrovni existují i v ČR, jen nejsou veřejnosti k dispozici). Jsou nějaké argumenty pro a proti podobně transparentním datovým sadám v České republice?

ON: Osobně nevidím důvod, proč by si měl jakýkoliv úřad brát právo na to schraňovat a interpretovat takto důležitá data veřejnosti. Jsem zastáncem jejich publikace v podobě, kterou si kdokoliv může načíst a zpracovávat pro svoje účely. Ta data jsou v principu naše a platíme si je ze svých daní. Vzhledem k tomu, že jde také o zdravotní záznamy, které jsou jedny z nejcitlivějších, je potřeba samozřejmě velmi dobře zvážit úroveň detailu, ve kterém budou prezentovány. Podle mého názoru by se dalo jít určitě do větší šíře, než ve kterém jsou nyní zveřejněné datové sady.

Asijské země jsou hezkým příkladem, jen je jejich přístup ke zpracování osobních dat kulturně zcela jinde než v našem geografickém prostoru. Například granularitu na ulici či adresu si u nás neumím představit. Předpokládám, že by ale ÚOOÚ, který se na Chytré karanténě také podílí, mohl toto celkem rychle a jasně definovat. Potom už by podle mne nic nebránilo publikaci většiny věcí, které se v rámci tohoto projektu sbírají.

Jaké by to mohlo přinést benefity pro odbornou veřejnost, datové analytiky a statistiky a jaké naopak úskalí skrývají natolik otevřená data?

ON: Benefity jsou v tom, že si kdokoliv může zpracovat statistické výstupy pro svoje účely v podobě, jakou potřebuje. Snížila by se i zátěž spojená s poskytováním informací ze strany relevantních úřadů. To je smysl otevřených dat. Nezávislý a třeba i inovativní pohled na data “z jiné strany” také může přinést zajímavé podněty na rozvoj Chytré karantény jako celku a pomoci ji zlepšovat.

Riziko vidím v tom, že ta data bude někdo chybně interpretovat, ať již z neznalosti nebo záměrně. Také hrozí, že na nich bude někdo chtít nějak dále bezpracně vydělávat. Na to už máme ale i v ČR zkušenosti z publikace dat z jiných částí veřejné správy a neměl by to být důvod k tomu se do toho nepustit.

Autor: JIŘÍ BURÝŠEK, PETR JUNA
Zdroj: Seznam Zprávy