Alessia Naccarato
Negli anni recenti sempre più informazioni sono generate dall’uso di internet, rilevate e collezionate mediante dispositivi elettronici; per la loro dimensione essi sono denominati big data. Queste informazioni hanno la caratteristica di essere immediatamente disponibili ed a basso costo e si è portati pertanto a valutare se essi possano fornire una rappresentazione attendibile di fenomeni di diversa natura e configurarsi come un utile strumento di stima e previsione.
L’interesse nei confronti di tali possibilità riguarda anche fenomeni economici e sociali di competenza della statistica ufficiale (Daas et al., 2015).
Tuttavia, il problema che si configura non è di semplice soluzione per diversi motivi, primo fra tutti la qualità e la rappresentatività delle informazioni generate dall’uso di internet, poichè esse non sono soggette ai controlli di qualità a cui si sottopongono le informazioni rilevate mediante indagini ufficiali. In particolare, si devono affrontare problemi relativi alla copertura della popolazione di interesse ed alla rappresentatività delle informazioni estratte (Pfeffermann, 2015; Citro 2014; Einav and Levine, 2014).
Se appare chiaro che un’informazione “non controllata” può porre problemi di carattere metodologico non sempre superabili, è altrettanto evidente che gli internet search data possano risultare utili a fini previsivi qualora si configurino come una “proiezione” del modo in cui il fenomeno di interesse si evolve nel tempo e nello spazio.
In altri termini, cogliere l’informazione circa le dinamicità spaziali e temporali del fenomeno osservato mediante lo studio delle dinamicità di un fenomeno ad esso strettamente correlato e reperibile in rete, può rappresentare una buona opportunità per ottenere previsioni nel tempo e/o nello spazio nonchè stime preliminari immediatamente disponibili (nowcasting) (Choi and Varian, 2012).
L’aspetto più complesso è che nel grande contenitore “Big Data” è necessario selezionare solo le serie che hanno un reale legame con il fenomeno oggetto di studio. Se si tratta di fenomeni sociali o economici, questa avvertenza non è affatto scontata: ipotizzare relazioni tra grandezze di questo tipo è tanto semplice quanto pericoloso. Se si pensa ai soli aspetti legati a particolari consumi, comportamenti e opinioni, si intuisce immediatamente quanti tipi di “correlazioni spurie” potrebbero incontrarsi. Inoltre, ad aggravare la situazione contribuisce la “natura” delle informazioni di tipo “internet search data”; esse non sono create a priori con lo scopo di rappresentare un’informazione in senso statistico, ma derivano dall’uso delle più disparate categorie di utenti internet e dalle loro ancora più variegate ricerche online. Ciò vuol dire che in questo mare magnum di dati, riuscire a classificare, organizzare e rendere fruibile solo quello che può considerarsi “informazione statistica” richiede un notevole impegno in termini sia informatici che statistici.
Si tratta però di cogliere le enormi potenzialità di tali dati al fine di produrre informazione statistica di qualità, riducendo i costi e i tempi di produzione che troppo spesso rappresentano un ostacolo alla condivisione delle informazioni. Numerosi lavori a riguardo sono già presenti nella più recente letteratura di riferimento (Akistas e Zimmermann, 2015; Camberlin, 2010; D’Amuri e Marcucci, 2012; Einav e Levin, 2014; Fondeur e Karamè, 2013; Guzman, 2011; Vicente, 2015)
Negli ultimi anni l’Istat ha avviato progetti di ricerca, il cui obiettivo è quello di valutare le potenzialità e i rischi dell’uso di Big Data nella statistica ufficiale. Le strade da esplorare sono molte. Uno di questi progetti, al quale partecipo insieme ad altri colleghi, si occupa dei Big Data per la previsione ed il nowcasting di indicatori congiunturali, con particolare riferimento a quelli legati al mercato del lavoro. I primi risultati sperimentali fino ad ora ottenuti (Falorsi et al., 2015; Fasulo et al., 2015), indicano alcune potenzialità che vale certamente la pena di continuare ad indagare sia in ambito di nowcasting che di previsione, nonché di stima per piccole aree.
– Askitas, N., and Zimmermann, K. F. (2015). The Internet as a Data Source for Advancement in Social Sciences. Forschungsinstitutzur Zukunft der Arbeit. Institute for the Study of Labor. (IZA DP No. 8899). Available at: ftp.iza.org/dp8899.pdf
– Chamberlin G., (2010). Googling the present, Economic&Labour Market Review, 4 (12), 59-95.
– Choi H., and Varian H., (2012). Predicting the Present with Google Trends. The Economic Record, 88 (s1), 2-9.
– Citro C. F., (2014). From multiple modes for surveys to multiple data sources for estimate. Survey Methodology, 40 (2), 137-161.
– Daas P., Buelens B., van Den Hurk P. A. M., and Puts M. J., (2015). Big Data as a Source for Official Statistics. Journal of Official Statistics, 31 (2), 249-262.
– Francesco D’Amuri & Juri Marcucci, (2012). The predictive power of Google searches in forecasting unemployment, Economic Working Papers, 891, Bank of Italy, Economic Research and International Relations Area.
– Einav L., and Levin J., (2014). Economics in the age of big data. Science, 346 (6210), 715-722.
– Falorsi S., Naccarato A., Pierini A., (2015), Using Google Trend Data to predict the Italian Unemployment Rate, Working Paper 203, Department of Economics, Roma Tre University.
– Fasulo A., D’Alò M., Falorsi F., 2015, Monthly Unemployment Rate Prediction using Google Trend Data: Does Google Search Data Improve the Nowcast of the Italian Labour Market? In Big Data and the Complexity of Labour Market Policies: New Approaches in Regional and Local Labour Market Monitoring for Reducing Skills Mismatches, Eds. Larsen C., Rand S., Schmid A., Mezzanzanica M., Dusi S., Reiner Hamp Verlag.
– Fondeur Y., and Karamè F., (2013). Can Google data help predict French youth unemployment? Economic Modelling, 30, 117-125.
– Guzman G., (2011). Internet search behavior as an economic forecasting tool: the case of inflation expectations. Journal of Economic and Social Measurement, 36 (3), 119-167.
– Vicente M. R., Lopez-Menéndez A. J., and Pérez R., (2015). Forecasting unemployment with internet search data: Does it help to improve predictions when job destruction is skyrocketing? Technological forecasting & Social Change 92, 132-139.