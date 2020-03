I cittadini rimangono frastornati davanti alla mole di dati sull’epidemia di Covid-19. Servono invece informazioni chiare e stime attendibili. Si possono ottenere da un protocollo di osservazione a campione riferito all’intera popolazione italiana.

La confusione sui dati

È comprensibile la confusione davanti alla quotidiana lettura degli attesissimi dati snocciolati in conferenza stampa alle 18 in punto dalla Protezione civile, che Pietro Garibaldi ha ben testimoniato nel suo articolo su lavoce.info. Ed è lodevole che da più parti si diffondano guide alla loro lettura, come quella proposta in quell’articolo.

Naturalmente, va bene che le istituzioni responsabili comunichino i dati relativi agli interventi straordinari delle strutture sanitarie verso quanti vi si rivolgono quotidianamente; che informi su come si distribuiscano tra ricoverati in terapia intensiva, ricoverati ordinari e in isolamento a domicilio e quanti tamponi vengano somministrati. Sono buoni indicatori della gravità del contagio e della capacità di risposta del sistema sanitario. Così come sono preziose le notizie sui guariti e su quanti invece sono deceduti.

Non si tratta di dati campionari; sono il risultato di conteggi sull’intera popolazione accolta nelle strutture sanitarie per la quale sia stata diagnosticata la patologia. Scontano quindi alcune lacune nel sistema di raccolta e contabilizzazione, testimoniate da fluttuazioni delle serie regionali dovute a registrazioni dei dati in giorni diversi da quelli cui si riferiscono e che danno adito a letture di inattese accelerazioni o di agognati rallentamenti dei contagi.

Altra cosa, però, è conoscere la dimensione e l’evoluzione dei contagi e dei tassi di letalità della patologia: sono informazioni fondamentali per programmare gli interventi e valutarne gli effetti e sono essenziali per la percezione dei cittadini riguardo all’epidemia e quindi per attivare i loro comportamenti.

In effetti, i dati sul numero di contagi per intervalli temporali (flussi giornalieri) e sulla popolazione contagiata a una certa data (stock alle ore 18 di ogni giorno) sono stime distorte dei parametri epidemiologici necessari per il controllo della diffusione del Sars-CoV-2 e si prestano ad analisi fuorvianti.

Per prevedere il progresso futuro dell’epidemia e suggerire interventi di politica sanitaria efficaci è necessario disporre di stime eseguite con metodologie corrette e con accuratezza.

Perché servono stime attendibili sull’epidemia

È prevedibile che l’epidemia abbia una lunga durata e le regole sull’uscita progressiva dall’emergenza, in piena sicurezza, di porzioni di territori, tipologie di nuclei famigliari e imprese impongono una conoscenza il più possibile nitida dei rischi relativi. Serve soprattutto per ottenere la necessaria fiducia e condivisione da parte dei cittadini e degli operatori economici su misure che non potranno che essere di carattere selettivo. Fiducia e condivisione devono potersi fondare su una base informativa solida.

I dati sui tamponi raccolti finora sono basati su un campionamento “di convenienza”, che ha privilegiato i casi che manifestavano sintomi. Non consentono quindi di produrre stime corrette.

Per questo motivo riteniamo sia indispensabile progettare e realizzare un protocollo di osservazione a campione riferito all’intera popolazione italiana, che permetta confronti significativi nel tempo e tra aree geografiche, tenendo conto dei differenti contesti economici, demografici, sociali, ambientali e culturali. Sul campione dovrebbe essere effettuato il tampone (o eventualmente altri esami diagnostici, come analisi del sangue o del Dna), ripetendolo a opportune scadenze temporali.

Occorre fare luce anche sulle caratteristiche individuali, famigliari e ambientali che possano favorire o ostacolare l’infezione. È necessario, infine, valutare l’effetto degli interventi adottati. Si tratta di un lavoro da fare insieme tra epidemiologi, virologi, responsabili sanitari, esperti di indagini e modelli statistici, esperti di valutazione di politiche pubbliche, per produrre stime accurate delle variabili e ricomporre un quadro informativo coerente.

L’integrazione con altre competenze scientifiche vale soprattutto per la statistica, che soltanto insieme alle discipline sostantive può fornire un contributo utile alla conoscenza e alle decisioni. Il suo contributo riguarda il livello di fiducia (o, al contrario, il grado di scetticismo) che si può (si deve) avere nei confronti dei risultati di una raccolta di dati o di un modello interpretativo o previsivo.

Per fare affermazioni su una caratteristica d’interesse di una popolazione, fornendone simultaneamente il livello di attendibilità, occorre basarsi su un campione probabilistico, curare la selezione delle unità da includervi, sfruttando tutte le informazioni disponibili, adottare metodi di stima adeguati. Gli statistici ufficiali stanno sperimentando metodi che, attraverso l’integrazione di dati campionari con quelli di provenienza amministrativa e quelli di nuove fonti (big data), consentano di arricchire l’informazione prodotta. Anche in questo contesto, rimane il pilastro del paradigma inferenziale, basato sulla copertura informativa dei diversi segmenti che compongono la popolazione d’interesse.

Pur nella consapevolezza della mancanza delle condizioni che assicurano risultati affidabili, come possiamo svolgere e divulgare esercizi di previsione, ad esempio, sul picco del numero di contagi? Vi rientrano non soltanto le persone per le quali si è già accertato il contagio, ma anche quelle con la patologia in fase di incubazione e i cosiddetti asintomatici.

Colmare questa lacuna è quanto proponiamo di fare (qui la proposta progettuale articolata).

Come costruire i due campioni

Operativamente, ci si dovrebbe rivolgere a due campioni. Il primo è relativo alla popolazione A, persone il cui stato di infezione sia stato accertato (che possono essere ricoverati o in quarantena coatta) e quelle che con loro hanno avuto contatti risalenti fino a 14 giorni prima (quindi, dimensione emersa del fenomeno e dimensione sommersa collegata); il secondo gruppo è relativo alla popolazione B, persone non entrate in contatto con quelle del gruppo A, quindi sane, ma in fase di incubazione (i cosiddetti silenti) per le quali i sintomi si manifesteranno successivamente, nell’arco di massimo 14 giorni.

Per la stima statistica del numero di persone contagiate (riferita alla popolazione A) in un dato dominio territoriale (territorio nazionale/specifica area geografica come, ad esempio, una regione) e temporale (settimana/giorno) è necessario coinvolgere nell’indagine circa mille persone tra i contatti delle persone conclamate sulle quali effettuare i tamponi. Questa dimensione campionaria assicurerebbe una stima con un errore relativo di campionamento inferiore al 5 per cento qualora la proporzione dei contagiati nel campione fosse intorno al 20 per cento. Supponendo circa 25 contatti per ogni conclamato, le persone alle quali somministrare i mille tamponi (o altri esami) potrebbero essere individuate selezionando circa 200 persone conclamate da cui si ricostruirebbero 5 mila contatti fra i quali campionare una quota di circa il 20 per cento.

Per la stima del numero di contagiati al di fuori dei contatti delle persone conclamate (riferita alla popolazione B) deve essere selezionato un panel di circa mille individui che dovranno essere seguiti a opportune cadenze temporali. Il gruppo viene sottoposto al tampone (o altri esami); se una persona del panel risulta positiva, devono essere ricostruiti tutti i suoi contatti negli ultimi 14 giorni; un campione dei quali sarà sottoposto a tampone. Il numero di persone da coinvolgere nel panel dovrebbe essere di circa mille (per circa 1.200 tamponi, compresi quelli per i contatti di persone del panel risultate positive) per un dato dominio territoriale e temporale. Questo garantirebbe una stima con un errore relativo di campionamento inferiore al 5 per cento qualora la proporzione dei contagiati nel campione fosse intorno al 4 per cento. Il panel potrebbe essere eventualmente selezionato mediante un pre-screening distinguendo le persone che continuano a spostarsi (quindi maggiormente soggette a contagio) e quelle con pochi contatti che seguono essenzialmente le medesime prescrizioni di quanti posti in quarantena.

Non dobbiamo nasconderci la complessità del protocollo di osservazione appena descritto. Si tratta di una sfida metodologica, tecnologica e organizzativa che può essere affrontata soltanto in un clima di collaborazione interistituzionale. Gli statistici, e certamente quelli ufficiali, possono fare la loro parte.

L’incertezza rimarrà, è inevitabile, ma l’imprecisione può e deve essere ridotta.