La Statistica fa canestro

 

Paola Zuccolotto, Marica Manisera e Marco Sandri

Big&Open Data Innovation Laboratory (BODaI-Lab), Università di Brescia

 

Negli ultimi anni si è andato manifestando un crescente interesse verso l’utilizzo di metodi statistici per l’analisi di dati sportivi. Nel 2016 presso l’Università di Brescia è nato il progetto BDsports (Big Data Analytics in sports, bdsports.unibs.it), con l’obiettivo di mettere in contatto il mondo della ricerca scientifica con quello dello sport, attraverso la creazione di un network di persone che potessero dialogare sul tema di comune interesse delle sports analytics (Gli statistici hanno i numeri… anche nello sport, Statistica & Società, 2016, 5). Nell’ambito delle attività del BDsports è stato recentemente sviluppato un pacchetto R contenente funzioni per l’analisi di dati relativi alla pallacanestro, denominato BasketballAnalyzeR, disponibile sul CRAN (https://CRAN.R-project.org/package=BasketballAnalyzeR). All’indirizzo bdsports.unibs.it/basketballanalyzer/ sono reperibili tutte le informazioni per l’installazione del pacchetto, codici di esempio per tutte le funzioni, dati aggiuntivi per le analisi e FAQ. Il pacchetto è pensato principalmente per persone con una adeguata conoscenza di base di R, che vogliano svolgere analisi statistiche, anche avanzate, applicate a dati della pallacanestro. È particolarmente adatto alla didattica, sia per corsi di laurea in statistica che per master specifici sullo sport, e può utilmente essere impiegato da tecnici specializzati che lavorano nella pallacanestro professionistica.

Le funzioni del pacchetto sono idealmente suddivise in 4 categorie a seconda dell’ambito di applicazione: (1) analisi statistiche di base, (2) analisi esplorativa dei dati alla ricerca di associazioni, (3) analisi di raggruppamento e (4) semplici modelli statistici parametrici e non parametrici.

Per quanto riguarda la categoria (1), sono disponibili funzioni per l’analisi e la rappresentazione grafica dei Four Factors di Dean Oliver, per la costruzione di grafici a barre, radiali, nubi di punti e di bolle, per lo studio della variabilità e della concentrazione, per la rappresentazione di diagrammi di tiro (shotchart) con il campo diviso in settori colorati secondo una variabile di gioco selezionata e annotati con le percentuali di successo.

Nella categoria (2) troviamo funzioni per l’analisi dell’associazione tra variabili (con particolare attenzione alla correlazione lineare), per la costruzione di mappe, tramite MultiDimensional Scaling, in cui i giocatori e le squadre sono localizzati in base alla loro somiglianza, per la rappresentazione e l’analisi delle reti assist-canestro, per la stima della densità di eventi (rispetto a una covariata o nello spazio) e la distribuzione della densità congiunta di due variabili.

Le funzioni della categoria (3) sono sostanzialmente mirate allo svolgimento di cluster analysis, con il metodo delle k medie o l’algoritmo di agglomerazione gerarchica, complete di grafici per la decisione del numero ottimale di gruppi e l’interpretazione dei profili medi degli stessi.

Infine, nella categoria (4) sono contenute funzioni per l’adattamento di modelli di regressione lineare semplice e due tecniche di regressione non parametriche (polynomial local regression e Gaussian kernel smoothing). Due funzioni aggiuntive specifiche sono dedicate alla stima della probabilità di successo dei tiri e del numero atteso di punti segnati in funzione di alcune variabili di gioco, come i secondi giocati in un dato quarto, i secondi giocati in totale nella partita, la durata dell’azione, la distanza del tiro.

Alcuni esempi di analisi effettuate utilizzando dati NBA (stagione 2017/2018) sono riportati nella figura: in alto a sinistra lo shotchart di Kevin Durant con settori colorati in funzione della lunghezza dell’azione; in alto a destra la rete assist-canestro dei Golden State Warriors; in basso a sinistra la stima della densità di tiro dei Golden State Warriors in funzione della distanza del tiro, con annotate informazioni aggiuntive (numero di tiri, percentuale dei tiri totali, percentuale di successo, miglior tiratore e punti da lui segnati); in basso a destra la curva dei punti attesi di Stephen Curry e Kevin Durant in funzione della distanza del tiro.

Tutte le funzioni del pacchetto BasketballAnalyseR sono descritte, con esempi ampiamente commentati, nel libro di P. Zuccolotto e M. Manisera, 2020, Basketball Data Science, CRC Press (ISBN 9781138600799).

 

 

Facebooktwitterlinkedinmail