Lavoce.info

Un modello da campioni del mondo

Chi vince il Mondiale di calcio del 2010? È una domanda alla quale tutti vogliono dare una risposta.  Alcuni prospettano la vittoria dell’’una o dell’’altra squadra in base a coincidenze astrali degli anni di svolgimento della competizione; altri propongono studi particolari più o meno approfonditi su variabili di ogni genere. Noi partiamo da una serie di dati statistici e tentiamo di stimare, attraverso un modello econometrico e un’’analisi fattoriale, la probabilità di vittoria delle diverse nazionali.

IL MODELLO ECONOMETRICO

Lo studio econometrico si avvale di un dataset che raccoglie numerose informazioni sulle nazionali di calcio che, almeno una volta nella loro storia, hanno vinto un Mondiale. Si tratta di Italia, Francia, Inghilterra, Germania, Brasile, Uruguay e Argentina.
Per ragioni di disponibilità di dati, lo studio prende in considerazione le edizioni dei Mondiali a partire dal 1950 e comprende 105 osservazioni. (1)
Tra le variabili esplicative utilizzate, per ciascuna nazionale in ciascuna delle edizioni cui hanno preso parte, ci sono:
–         differenza reti totale;
–         media punti a partita omogeneizzando i punteggi di tutte le edizioni come segue: vittoria 3 punti, pareggio 1 punto, sconfitta 0 punti e sconfitta ai rigori 1 punto;
–         numero di goal del capocannoniere della nazionale;
–         spettatori per partita, data dalla somma totale dei spettatori presenti alle partite di una nazionale diviso il numero di partite giocate dalla stessa;
–         ammonizioni ed espulsioni, valutandole, rispettivamente, con peso 0.5 e 1;
–         quotazioni dei bookmakers sulla possibilità di vittoria della squadra; (2)
–         età media dei convocati;
–         una variabile che mostra se la nazionale è arrivata tra le prime quattro;
–         numero medio di calciatori della nazionale militanti in campionati esteri rispetto al totale dei convocati;
–         numero di giocatori convocati militanti in squadre che, nell’’anno del mondiale, hanno vinto la Coppa dei campioni o la Copa Libertadores;
–         una variabile indicante se la nazionale avesse ospitato il Mondiale in quell’’edizione.

Vi sono inoltre delle variabili di controllo socio-demografiche riferite alla nazione nell’’anno del mondiale:
–         il livello di reddito pro-capite;
–         il tasso di alfabetizzazione primario;
–         la densità della popolazione.

L’’obiettivo è quello di individuare quali variabili esplicative hanno avuto il maggior impatto sulla probabilità di vittoria del Mondiale di una nazionale. Per ottenere questi risultati è stato realizzato un modello panel probit considerando come variabile dipendente la probabilità di vittoria del Mondiale e come variabili esplicative quelle precedentemente elencate. I risultati dell’’analisi mostrano, con vari test di robustezza, che le variabili di maggiore e significativo impatto sulla probabilità di vittoria in un Mondiale sono i punti a partita (o, in sostituzione ad essa, la differenza reti, con la quale è molto correlata), la presenza di un goleador di razza in squadra e le previsioni dei principali bookmakers.
Si è osservato come, pur essendo ottime variabili di controllo, le esplicative riferite alle condizioni socio-demografiche non siano significative: il problema risiede, a nostro giudizio, nella differente dimensione economica rispetto alla variabile di interesse. I dati relativi alle squadre sono di carattere micro-economico, mentre il reddito pro-capite, il tasso di istruzione medio e la densità di popolazione fanno riferimento a un livello comunque aggregato.
Si può, andando avanti, evidenziare la presenza di correlazione positiva e significativa tra la variabile riferita all’’organizzazione del mondiale con i punti a partita (o la differenza reti) e con la presenza di un goleador di razza. (3) Questo esito ci permette di identificare un effetto della variabile riferita all’’organizzazione del Mondiale sui risultati dello stesso, anche se questa non influenza significativamente la probabilità di vittoria.
Una possibile estensione sarebbe quella di prendere in considerazione tutti i dati relativi alle nazionali di calcio che, almeno una volta nella loro storia, si sono classificate tra le prime quattro. In quel caso, oltre ad ampliare la dimensione del campione, sarebbe senz’’altro possibile catturare l’’effetto netto del paese organizzatore. (4)
Lo studio considera i pesi di ciascuna variabile significativa, ottenuti dai coefficienti del modello stimato, che arrivano dalla storia delle edizioni passate, come coefficienti da applicare ai dati relativi alle qualificazioni mondiali delle squadre presenti in Sudafrica. In particolare, per quanto riguarda il goleador, si è scelto di utilizzare la media-gol nel campionato nazionale giocato degli attaccanti convocati. L’’applicazione di questo modello predittivo indica come le due nazionali più accreditate per la vittoria finale siano la Spagna e l’’Inghilterra, segnalando come possibile outsider l’’Olanda. Nel caso in cui si tenesse conto della classifica della Scarpa d’’oro per il miglior goleador della nazionale, ovviamente questa variabile assumerebbe un’’importanza maggiore in particolare per l’’Argentina, la quale mostra un potenziale offensivo straordinario, che rischia però di essere compromesso con il controllo di altre variabili.

Leggi anche:  Un grillo nel piatto*

L’ANALISI FATTORIALE

La seconda tecnica utilizzata fa capo alla statistica multivariata. Attraverso un’’analisi fattoriale, si procede all’’aggregazione di dati multi-dimensionali per la costruzione di un indicatore sintetico. L’’idea è che un insieme di variabili facenti riferimento alle performance calcistiche condividano un fattore latente, nel nostro caso la forza e le potenzialità di una squadra.
L’’analisi fattoriale consente di calcolare i pesi di ciascuna delle variabili aggregate nel contribuire a tale fattore latente.
Le informazioni, in questo caso, sono quelle raccolte per le nazionali impegnate in Sudafrica nelle partite che hanno giocato durante le qualificazione al Mondiale 2010. (5)
Le variabili prese in considerazione sono:
–         differenza reti;
–         punti media a partita;
–         media goal degli attaccanti convocati nelle nazionali nei rispettivi campionati;
–         età media dei convocati;
–         ranking Fifa;
–         quotazioni dei bookmakers; (6)
–         difficoltà del percorso nel mondiale. (7)

In questo caso, l’’indicatore che emerge dall’’analisi è un numero a valori crescenti, dalla squadra meno forte a quella più forte. (8)
Il primo fattore latente contribuisce a spiegare lo 0.6696 della variabilità complessiva, che è un risultato molto soddisfacente. (9)
Nella tabella seguente sono riportate le variabili con i relativi pesi.

Tabella 1: Pesi risultanti dall’’analisi fattoriale

Variabili Peso
differenza reti 0.84
punti a partita 0.89
percorso al mondiale -0.88
bookies 0.82
ranking Fifa -0.7
età media giocatori 0.04
potenziale offensivo -0.15

Ciascun peso va interpretato come il contributo relativo della variabile alla forza di una squadra: tutti i valori sono ragionevoli. Stupisce il contributo negativo del potenziale offensivo. Una possibile spiegazione sta nel fatto che un attacco senza potenziali titolari, come quello dell’’Argentina ad esempio, rende difficile costruire un 11 stabile.
Il basso valore, inoltre, contribuisce a spiegare il perché, nonostante la forza dei singoli giocatori, l’’Argentina finisca con l’’essere penalizzata in un giudizio di insieme.
La nostra predizione, in linea con il modello econometrico descritto, prevede una finale Spagna-Inghilterra (resa possibile, per altro, dalla struttura del tabellone), e una possibile sorpresa Olanda ai danni del Brasile, indicato da molti come la principale candidata alla vittoria finale. (10)
Concludiamo con le previsioni che probabilmente tutti aspettano con maggiore curiosità: nell’’un caso e nell’’altro i risultati offrono poche chance agli azzurri. La nazionale italiana ha sì una buona probabilità di passare il turno, ma con tutte le tecniche utilizzate non sembra avere molte opportunità di superare i quarti di finale.
(1) Il risultato delle 15 edizioni dei Mondiali dal 1950 al 2006 moltiplicato per le 7 nazionali.
(2) Non disponendo delle quotazioni storiche, per alcune edizioni, abbiamo fatto ricorso a un focus group interrogando alcuni giornalisti sportivi sulle loro probabilità.
(3) Spearman rank correlation.
(4) Anche perché si inserirebbero tra le osservazioni i casi di Cile, Svezia e Corea del Sud che, senz’’altro, hanno avuto un vantaggio dall’’ospitare la competizione.
(5) Per il Sudafrica, le partite della Confederations Cup.
(6) Quelle ufficiali per il 2010 dei principali bookmakers inglesi.
(7) Valutata ancora una volta grazie al parere di esperti giornalisti sportivi.
(8) Il numero è espresso in unità di standard deviation.
(9) Lo studio di Ubs, per esempio.
(10) Anche la distanza tra i valori del primo e del secondo autovalore è superiore all’’unità, il che ci consente di utilizzare soltanto il primo fattore come componente per la costruzione del punteggio.

Leggi anche:  Mangiare con la cultura: chi ci riesce e chi no

Lavoce è di tutti: sostienila!

Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!

Leggi anche:  Combattere la violenza contro le donne è un impegno culturale

Precedente

Un quiz per i nostri lettori

Successivo

La risposta ai commenti

  1. mirco

    A parte eventuali corruzioni degli arbitri (era equadoriano il tipo dell’ultima volta?) e previsioni di solidità di squadre alla Leman Brothers…

  2. fantrucchi

    Ma se facessimo gli stessi calcoli per il mondiale del 2006 facendo finta che sia mai stato giocato ancora….l’Italia sarebbe stata tra le favorite all’epoca?

  3. Luciano Raso

    Perché non basta guardare le stime dei bookmakers, che scontano tutte le informazioni e le aggregano in un dato solo (prob di vittoria=1/quotazione)?

  4. Alessio Cannucci

    Salve, affascinante studio, tuttavia nell’analisi fattoriale o nel probit (a proposito ha provato il logit, reminiscenze universitarie mi dicono che forse era migliore) ne inserirei uno che potrebbe sbilanciare i risultati. Mi riferisco ad un peso sui punti a partita. Mi spiego meglio con un esempio. L’Italia del 1994 fece solo 4 punti nel girone eliminatorio, ma vinse ottavi, quarti e semifinali, la stessa cosa nel 1982 dove fece 3 soli punti nel girone e vinse tutte le altre partite. In questo caso si dà una maggiore incidenza alle partite ad eliminazione diretta. Squadre come Spagna, Inghilterra ed Olanda non hanno una così grande tradizione in partite secche. Secondo me mettere un peso 0,8 ai punti nei gironi ed 1,2 ai punti nelle partite ad eliminazione diretta potrebbe dare un risultato diverso … probabilmente a favore di Italia, Germania e Brasile (non a caso coloro che hanno fatto più finali e vinto più campionati). Alessio Cannucci

  5. matteo

    Perché non provate a utilizzare la variabile numero di giocatori di ogni nazionale che giocano in squadre europee, dandogli però dei pesi come: Se il campionato a cui i giocatori partecipano è di prima/seconda/ terza….fascia Se la squadra in cui giocano in europa è di prima/seconda/ terza….fascia L’importanza di quel giocatore nella squadra europea, guardando il numero di minuti che ha giocato nella stagione e magari la media voti dei giocatori ponderato per il campioanto in cui partecipa dell’ultima stagione Inoltre il peso che viene dato al goleador di razza nn può essere dato in base alla media gol, ma deve essere ponderata per il coefficiente del campionato in cui gioca. Invece una curiosità, con i dati del mondiale in germania i risultati sono diversi, cioè alla fine il modello riesce a discriminare sostanzialmente da un mondiale all’altro, o si verifica una differenza minima?

  6. Marco Di Marco

    Sono molto incuriosito e chiedo agli autori delle delucidazioni tecniche. Le previsioni del modello di che tipo sono? A me sembrano degli aggiustamenti/correzioni del ranking FIFA "prima dei mondiali" e/o del ranking ottenuto dalle quotazioni dei bookmakers, sempre "prima dei mondiali". Cioè, fondamentalmente delle probabilità a priori (correggetemi se sbaglio). Ora, se ci fosse la possibilità di inserire nel modello lo scarto fra previsioni e risultati effettivi nelle precedenti edizioni del mondiale si potrebbe inserire una specie di ‘error correction’ che a me sembra utile (il caso dell’Italia 1982 è significativo). Magari c’è già una correzione d’errore implicita e io non ho capito com’è fatto il modello. Altra cosa interessante, i confronti fra risultati ‘storici’, predizioni del vostro modello, probabilità a priori (odds) dei bookmakers e ranking FIFA. Perchè gli errori di previsione rispetto ai risultati reali? C’è qualche squadra che viene sistematicamente sopravvalutata o sottovalutata a priori? Qual è l’effetto della stampa sportiva?

  7. Massimo Sernesi

    "La nostra predizione, in linea con il modello econometrico descritto, prevede una finale Spagna-Inghilterra (resa possibile, per altro, dalla struttura del tabellone), e una possibile sorpresa Olanda ai danni del Brasile, indicato da molti come la principale candidata alla vittoria finale. " A conti fatti, un’ottima analisi, che centra anche la vittoria a sorpesa dell’Olanda sul Brasile. Chapeau…

Lascia un commento

Non vengono pubblicati i commenti che contengono volgarità, termini offensivi, espressioni diffamatorie, espressioni razziste, sessiste, omofobiche o violente. Non vengono pubblicati gli indirizzi web inseriti a scopo promozionale. Invitiamo inoltre i lettori a firmare i propri commenti con nome e cognome.

Powered by WordPress & Theme by Anders Norén