Un nuovo approccio alla Big Data analysis

Anna Capoluongo,

avvocato in Milano e esperta di Data Protection

 

Il 10 febbraio 2020 è stato pubblicato il rapporto finale dell’indagine conoscitiva sui Big Data[1] condotta dall’Autorità per le Garanzie nelle Comunicazioni (AGCOM), dall’Autorità Garante della Concorrenza e del Mercato (AGCM) e dal Garante per la Protezione dei Dati Personali, volto ad approfondire l’incidenza dei Big Data – in un arco temporale di un anno, da novembre 2017 a novembre 2018 – su utenti e aziende utilizzatori di dati e, per naturale conseguenza, anche sui mercati esistenti.

Se è vero che nel settore delle comunicazioni i Big Data e le piattaforme online rivestono una particolare rilevanza in ambito di servizi media audiovisivi e comunicazioni elettroniche, le principali sfide per l’AGCOM appaiono essere quelle relative alla “necessità di inquadrare tale fenomeno nell’ambito della definizione dei mercati rilevanti e dell’individuazione di posizioni di significativo potere di mercato (art. 16, 17 e 18 del Codice delle Comunicazioni elettroniche – d.lgs. 259/2003 – “Codice Comunicazioni”), nonché della salvaguardia dei principi di interconnessione da punto a punto della rete (art. 42, comma 2, lettera a) del Codice Comunicazioni) e interoperabilità”.

Con riferimento, invece, ai Big Data e ai mercati, l’indagine ha portato alla distinzione di almeno tre macro-categorie di settori, ossia i mercati in cui l’utilizzo dei BigData ha un rilievo minimo nella fornitura del bene/servizio; quelli in cui l’utilizzo dei Big Data può incidere sulle condizioni di offerta del servizio (es. qualità) e investe in maniera diretta la relazione fornitore-utente; e quelli in cui l’utilizzo dei Big Data è essenziale perché da esso dipendono caratteristiche fondamentali del bene/servizio, in particolare in termini di innovazione e/o di personalizzazione del servizio.

Al netto di tali considerazioni, ciò che emerge in maniera lampante è la crescita esponenziale del volume totale mondiale di dati creati, che al 2018 era decuplicato rispetto al 2011, arrivando a toccare un massimo di 28 zettabyte (ZB).

Tale aumento è facilmente comprensibile, soprattutto laddove si pensi alla natura e alle caratteristiche intrinseche dei Big Data, i quali nascono precipuamente per “accrescere l’efficienza dei processi produttivi, migliorare la capacità decisionale degli amministratori, prevedere più accuratamente le tendenze di mercato e indirizzare in modo molto più mirato (e dunque variamente efficiente) la pubblicità o le diverse proposte commerciali”, mediante la cd. “filiera dei Big Data”, ovverosia la raccolta (suddivisa in generazione, acquisizione e memorizzazione), l’elaborazione (a sua volta distinta in estrazione, integrazione ed analisi) e l’interpretazione (che avrà come esito la decisione).

In tale ottica è importante distinguere sin dall’origine la natura dei dati oggetto di elaborazione, in quanto da ciò dipenderà la scelta tra l’applicazione della normativa privacy – in primis del GDPR, ma anche delle direttive 2002/58/CE e 2009/136/CE – (natura personale) o del Regolamento (UE) 2018/1807[2] (natura non personale).

Pur essendo stato evidenziato che l’interesse prevalente in questo ambito è la conoscenza di usi, costumi e preferenze di “utenti-modello”, piuttosto che di dati personali, non bisogna dimenticare che, nel caso dei Big Data, le finalità del trattamento non vengono individuate ab origine, poiché è norma che le correlazioni tra dati emergano solo in un momento successivo alla loro raccolta.

In ottica privacy, dunque, qualora vengano coinvolti dati personali di persone fisiche, sarebbe forse il caso di ipotizzare il ricorso ad un cd. dynamic consent, similarmente a quanto avviene nel contesto sanitario, e dunque al rilascio di una prima informativa generale seguita da una seconda dove vengano esplicitate le finalità puntuali e specifiche.

Con l’avvento dei Big Data, infatti, i processi di analisi si sono evoluti dalla semplice diagnostica all’analitica descrittiva, predittiva ed infine prescrittiva, arrivando così, mediante l’utilizzo di dati in real time unitamente a dati esterni al singolo sistema, persino alla possibilità di istruzione del sistema stesso (mediante complessi algoritmi e Machine Learning), reso capace di valutare, sulla base di determinati fattori, quali azioni intraprendere autonomamente per adattarsi ai cambiamenti.

In una realtà “data driven” come quella che si va sempre più delineando, la quantità, la varietà dei dati ed i mezzi che determinano l’alimentazione dei Big Data contribuiscono ad innovare fortemente i processi di analisi e conoscenza, tanto che si è giunti alla comparsa di nuovi scenari – anche e soprattutto mediante l’Artificial Intelligence – in cui a farla da padroni sono i dati stessi. Come si legge nel citato rapporto, infatti, “il dato, in quanto sorgente di informazione sul fenomeno che si intende studiare, rappresenta l’origine stessa dell’evoluzione degli algoritmi, cosicché è la disponibilità di nuove fonti di dati che consente il miglioramento degli algoritmi impiegati e/o lo sviluppo di nuovi algoritmi”.

E’ giusto il caso di sottolineare che la valenza dei dati è inversamente proporzionale alla loro genericità e che “la precisione degli algoritmi aumenta con la diversità delle fonti di dati cosicché una fonte di dati debolmente correlata ad un fenomeno può avere un impatto maggiore in termini di miglioramento dell’algoritmo di una fonte più precisa e raffinata strettamente connessa al medesimo fenomeno”.

Parlando di Big Data, dunque, ciò che conta non è tanto la quantità enorme di dati ottenuti, quanto piuttosto la loro qualità, ed ecco perché il nuovo trend è da riconoscersi nel passaggio dai big data ai cd. smart data, ovvero alla qualità dei database perché solo dati accuratamente selezionati, acquisiti e gestiti correttamente, mediante procedure che rispettino ex multis anche i principi di privacy by design e by default, saranno in grado di produrre evidenze valide che permettano a loro volta – proprio in virtù delle procedure e dei processi di selezione applicati sin dall’origine – di ridurre al minimo il rischio di errore o di data breach.

Punto focale diventa, dunque, l’affidabilità e la qualità dei processi di Big Data analysis.

 

 

 

[1]
[1]     https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9264297.

[2]
[2]     Si veda anche “GDPR e IoT, l’impatto della normativa europea sulle tecnologie connesse”, https://www.cybersecurity360.it/legal/privacy-dati-personali/gdpr-e-iot-limpatto-della-normativa-europea-sulle-tecnologie-connesse/.

Facebooktwitterlinkedinmail