Analisi dei dati epidemiologici del coronavirus in Italia (al 24 maggio)

Tempo di lettura: 5 mins
 --

In questo documento sono descritti alcuni risultati relativi all’analisi dei dati dell'epidemia di Covid-19 in Italia a livello regionale. I dati utilizzati sono stati scaricati dal sito https://github.com/pcm-dpc/COVID-19/tree/master/dati-regioni.

Allo scopo di individuare dei precursori dell'aumento di attività di diffusione dell'epidemia, abbiamo considerato la sequenza temporale dei valori misurati dell'incidenza di Covid-19, ossia il numero di nuovi casi positivi al giorno. Per rendere più facilmente confrontabili i risultati delle diverse regioni, abbiamo "normalizzato" l'incidenza rispetto alla popolazione della regione, rapportandola a 100,000 abitanti. A partire dai dati di ciascuna regione, abbiamo stimato i parametri di un modello teorico da noi ottenuto generalizzando quello "logistico". In alternativa, nei casi in cui ci siano variazioni improvvise e significative dell'incidenza, di cui il modello non è in grado di tener conto, abbiamo utilizzato un approccio "non parametrico". Questo è ad esempio il caso del Molise, che fino al 7 maggio si trovava in una fase avanzata dell'epidemia, con valori molto bassi dell'incidenza, che pero' l'8 maggio hanno subito un aumento consistente a causa di un focolaio, generato probabilmente da un funerale avvenuto il 30 aprile a Campobasso. A questo punto, due sono essenzialmente gli indicatori che abbiamo considerato. 

Il primo riguarda la velocità con cui l'incidenza diminuisce andando verso lo zero. Se i valori misurati dell'incidenza sono molto bassi ma non diminuiscono o lo fanno con velocità inferiore al modello teorico, risultando in un eccesso di casi rispetto al modello negli ultimi giorni, consideriamo sospetta questa situazione. Il secondo precursore riguarda le "fluttuazioni" dei valori misurati dell'incidenza rispetto al modello teorico. Tali fluttuazioni sono quantificate tramite la loro varianza in una finestra temporale mobile di 21 giorni. Un aumento dei valori della varianza negli ultimi giorni è da noi considerato sospetto. Oltre alle fluttuazioni rispetto al modello, abbiamo anche considerato quelle rispetto ad un modello lineare locale stimato dai dati nella finestra, considerando per ogni tempo la varianza più bassa tra le due. 

Il principio alla base di questo precursore è quello secondo il quale, prima che avvengano cambiamenti macroscopici di una grandezza (a livello della sua media) che descrive un sistema che sta uscendo fuori dall'equilibrio, e.g. la concentrazione di emoglobina nel sangue durante un sanguinamento gastrico in fase iniziale, possano avvenire delle variazioni nelle fluttuazioni rispetto al valor medio della grandezza considerata. Questo indicatore, ci ha permesso di prevedere esattamente il giorno del terremoto di Parkfield del 2004 (retrospettivamente usando i dati sismici fino a 100 giorni prima del mainshock) e prevederne uno nello stesso sito nel 2024. 

Oggi 24 maggio ci sono sei regioni dove l'aumento del numero totale di casi positivi rispetto a dieci giorni fa è inferiore a venti, le stesse dei tre giorni scorsi: la Sardegna, la Calabria, l'Umbria, la Valle D'Aosta la Basilicata e la provincia di Bolzano. Inoltre, per le prime tre oggi l'incidenza è nulla. La Sardegna sembra vicina alla fine dell'epidemia, seguita dalla Calabria e dall'Umbria. D’altro canto, preoccupa la situazione di Lombardia, Liguria, Trento, Molise, Puglia e Lazio, dove i valori rimangono medio-alti o subiscono aumenti significativi.

Di seguito riportiamo i valori odierni dell’incidenza, ossia del numero di nuovi casi positivi al giorno per 100,000 abitanti

Abruzzo 0,37814
Basilicata 0,17533
Bolzano 0,56478
Calabria 0
Campania 0,08563
Emilia Romagna 1,0115
Friuli Venezia Giulia 0,24633
Lazio 0,33909
Liguria 3,3859
Lombardia 2,8447
Marche 0,84522
Molise 0,32211
Piemonte 0,97894
Puglia 0,24607
Sardegna 0
Sicilia 0,039552
Toscana 0,40081
Trento 1,6633
Umbria 0
Valle D'Aosta 0,78813
Veneto 0,34641

Rimane alto il valore dell'incidenza in Lombardia e Liguria (circa 2,8 e 3,4 nuovi casi al giorni per 100.000 abitanti rispettivamente), mentre fortunatamente il valore del Piemonte scende oggi poco sotto 1. I valori della Liguria da circa due settimane non scendono sotto il valore 2. Dopo il rilascio parziale del lockdown (4 maggio, segmento verticale), sembra che ci sia una riduzione della velocità con cui l'incidenza diminuisce verso lo zero. Situazione da monitorare con molta attenzione per Liguria e Lombardia.

 

Trend in salita purtroppo negli ultimi dieci giorni per la provincia di Trento, con un valore medio dell’incidenza negli ultimi quattro giorni attorno a 1.6 nuovi casi al giorno per 100,000 abitanti. Situazione da monitorare con molta attenzione.

Gli incrementi dell'incidenza avvenuti negli ultimi due giorni in Puglia e Basilicata sembra siano stati sporadici. Comunque la situazione va monitorata nei prossimi giorni.

Sembra aumentare la velocià con cui va a zero l'incidenza in CalabriaUmbria, dove negli ultimi dieci giorni circa c'è un alternanza giornaliera di valori nulli.

Lenta discesa dell'incidenza per regioni come la Campania, la Toscana ed il Friuli Venezia Giulia. Sembra rientrare l'allarme per le ultime due regioni dovuto all'aumento nei giorni scorsi. Utile osservare cosa accade nei prossimi giorni.

La situazione altalenante dell’incidenza nel Lazio vede ieri fortunatamente una diminuzione fino a circa 0,3 nuovi casi al giorno per 100.000, confermato anche oggi. Anche la varianza sembra essere tornata a diminuire.
Situazione da monitorare.

Per il Molise, dopo l'aumento significativo dell'8 maggio e giorni successivi, il ritorno a valori bassi nei giorni 14-17 maggio, il rialzo significativo del 18 maggio, raggiungendo un valore attorno a 3,5 nuovi casi al giorno per 100.000 abitanti, l'incidenza nulla del 19 e 20 maggio, il valore degli ultimi tre giorni attorno a 0,3, 1 e 1,6, oggi osserviamo una diminuzione fino ad un valore attorno a 0,3. Anche la varianza sembra essere tornata a diminuire. Situazione da tenere sotto osservazione.

Sembra che la Sardegna sia vicina alla fine dell'epidemia.

Dopo aver simato per ciascuna regione il modello per l'andamento temporale dell'incidenza e calcolato la sua varianza, possiamo utilizzare i valori finali delle due quantità per formare dei "gruppi" di regioni con valori "vicini". Questo può essere fatto epr esempio con l'algoritmo del clustering gerarchico che minimizza localmente la somma delle varianze all'interno dei gruppi delle grandezze considerate. Nella figura seguente è illustrato tramite il "dendrogramma" il risultato ottenuto. Osserviamo l'evidenza di tre gruppi:

  • Liguria, Lombardia, Molise, Piemonte, Trento e Valle D'Aosta dove i valori delle due grandezze sono grandi;
  • Abruzzo, Bolzano, Emilia Romagna, Friuli Venezia Giulia, Lazio, Marche, Toscana e Veneto, con valori intermedi;
  • Basilicata, Calabria, Campania, Puglia, Sicilia, Sardegna ed Umbria, con valori bassi.

La curva dell'incidenza "media" nel gruppo 2 delle regioni mostra che il valore limite al quale converge sembra maggiore di zero.

Giovanni Sebastiani
Istituto per le Applicazioni del Calcolo "Mauro Picone", Consiglio Nazionale delle Ricerche