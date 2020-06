Con la crisi del coronavirus abbiamo capito che la scienza non ha sempre soluzioni pronte, a volte serve tempo. Ma siamo in grado di padroneggiare probabilità, curve, tassi e seguire le prescrizioni per gestire l’incertezza che pervade la nostra vita?

Il codice universale dei numeri

L’emergenza Covid-19 ha portato la dialettica tipica del dibattito scientifico davanti alle platee televisive, mostrando illustri scienziati su posizioni contrastanti, interpretazioni divergenti, dati discordanti. La gente dapprima è rimasta disorientata, poi ha compreso che la ricerca ha i suoi tempi e, infine, ha capito che dovrà convivere a lungo con l’incertezza.

Siamo rimasti piacevolmente impressionati da come il paese abbia modificato con facilità usi e costumi secolari. Il cambiamento tecnologico va però accompagnato da una equivalente elaborazione culturale: va rotta la “quarta parete” della scienza. Servono sia competenze specifiche (numeracy) per gestire l’incertezza, sia cultura generale per comprendere la complessità.

Migliori sono l’educazione, le capacità cognitive e le sensibilità quantitative di una popolazione, maggiore è la sua capacità di prendere scelte consapevoli. Ciò produce una magnifica immunità di gregge che protegge, proprio, gli analfabeti funzionali e i matematico-depressi.

Nella tecnologia c’è stato un processo potente di convergenza: in un unico strumento, più o meno grande, veloce o piacevole sono confluite le funzioni di centinaia di oggetti, di professioni, di conoscenze. L’impronta digitale che lasciamo ha reso possibile un processo di conversione in cui tutto – parole, immagini, movimenti e sentimenti – è enumerabile.

Al contrario delle lettere non c’è stata una Babele dei numeri, anzi: bit, log, pixel altro non sono che un codice universale, come la musica. I dati possono essere primari strutturati (da indagine o da registro), primari non strutturati (dati macchina, immagini, testo, tweet, like) e secondari (derivati dai primari). E accuratezza nella raccolta, condivisione dei criteri, rispetto della privacy, deontologia nell’uso, etica nella diffusione sono principi non negoziabili.

La creazione di dati secondari avviene sovente per data-lisi: un componente informativo si slega da una specifica struttura (indagine, archivio, web) e si unisce a un altro elemento creando un componente nuovo, generato a partire dai singoli elementi con proprie proprietà. Il processo espone i dati a una forte eterogenesi dei fini: infatti, quando si combinano più informazioni (biomediche, finanziarie, geo-referenziate) si attiva un processo di arricchimento del dato che produce informazioni sovralimentate, realtà aumentate e connessioni profonde.

Queste infinite valenze fanno ritenere che nei big-data sia ragionevole trovare informazioni inaspettate, quindi, per la legge dei grandi numeri, la serendipity diventa qualcosa di più di una piacevole sorpresa: è un valore atteso. Pertanto, decisivo diventa il data mining: la capacità di estrarre valore dai big data. Il machine learnig o l’intelligenza artificiale captano tanti segnali, trovando innumerevoli connessioni utili e scovando preziose regolarità, ma anche tante associazioni spurie o non significative. Pertanto l’attendibilità delle fonti – lo sanno bene i cronisti – è fondamentale.

I big data sono come il vento forte per una barca: può far andare veloci ma è difficile da governare. Un enorme potenziale di conoscenza (1024 byte al giorno) che va maneggiato con perizia e prudenza, tanto da richiedere capacità di elaborazione non convenzionali (computer quantistici), accurata analisi semiotica (una foto ha la stessa dimensione digitale della Bibbia ma non lo stesso significato) e dettagliato corredo informativo (metadati).

I dati per le scelte pubbliche – necessariamente – debbono essere frutto di un processo di produzione trasparente e condiviso, ovvero falsificabile, altrimenti si pregiudicano le stime e le valutazioni. La reciprocità, in questi mesi, è tornata a essere un valore: dati attendibili sono un patrimonio comune, perciò partecipare alle rilevazioni è un dovere civile.

La statistica e la miniera inesauribile di dati

La statistica sovente è chiamata a stimare fenomeni in presenza di informazione incompleta, tuttavia quando la pervasività dello shock è tanto ampia, la fedeltà delle raccolte può essere critica: si pone il problema della latenza tra l’impulso (dato) e la risposta del sistema (politica) dovuta all’antagonismo tra “accuratezza e tempestività delle informazioni”.

Le misure parziali viste in questi mesi hanno prodotto sovente “più rumore che segnale” creando più incertezza di quanta ne risolvessero. Molte analisi si alimentano di para-dati ottenuti da contatori parziali o da algoritmi ignoti o da strumenti di rilevazione non ortogonali al fenomeno osservato (per cui le misure non sono indipendenti dal fenomeno). Le statistiche estemporanee che si basano su dati poco significativi, producono misure fragili e imprecise: parafrasando René Magritte “ceci n’est pas une statistique!”

Tuttavia, va riconosciuto ai big data il non trascurabile merito di offrire proto-statistiche in ambiti privi di specifici riferimenti quantitativi (contesti rurali, emergenziali, epifenomeni, questioni minori) svolgendo una preziosa funzione di statistic advisor.

Le smart statistic sono comunicazioni medianiche per cui dipende dal transfert la forza del segnale. Affidarsi a strumenti di misurazione basati sui social-media (esposti a manipolazioni, censure, fake-news, opacità, marketing) è rischioso: fenomeni grandi ma silenti potrebbero essere sottostimati rispetto a trending topic. Si otterrebbe il contrario di quella misura assoluta prerequisito di uno strumento diagnostico (tipo il termometro, l’orologio o la bussola).

Quando si pensa alla ricerca il pensiero corre alla medicina, alla fisica o alla tecnologia. Le scienze sociali appaiono più speculazioni intellettuali. Se l’elevata aspettativa di vita del nostro paese è in gran parte il prodotto del patrimonio genetico, della dieta mediterranea e della sanità pubblica, anche il contributo della gestione statistica dei rischi (specialmente idiosincratici) è rilevante: previdenza, assicurazioni e prevenzione concorrono in maniera tangibile alla cura, al benessere e all’aspettativa di vita delle persone – specialmente le meno ricche o istruite – non meno della pasta al pomodoro o degli antibiotici.

Le statistiche sono passate da collezioni di dati a parametri di funzionamento, da strumento di analisi a strumento di politica, assumendo un ruolo attivo nell’allocazione delle risorse dello stato, nella profilazione dell’utenza, nella creazione di valore. Le scelte data-driven sono più difendibili ma ciò non deve deresponsabilizzare o condizionare il godimento dei diritti.

I dati sono miniere che anziché esaurirsi, ogni giorno, crescono. L’effetto collaterale di questo formidabile motore epistemologico (la conoscenza crea conoscenza) è la riduzione della capacità di disambiguazione dei dati, ovvero di condurre ad una soluzione condivisa.

Il dato, dunque, non è più il risultato finale. Bisognerà tenerne conto.

* Le opinioni espresse non impegnano l’Istituto d’appartenenza.