FYI.

This story is over 5 years old.

Tecnologia

Cosa rivelano di noi i metadati

I metadati sanno tutto di noi: dove viviamo, dove andiamo e anche a che ora andiamo a dormire.
Riccardo Coluccini
Macerata, IT
Foto dell'autore

A partire dal 2013, dopo le rivelazioni di Edward Snowden sul sistema di sorveglianza di massa operato dalla National Security Agency, il concetto di metadati ha invaso la discussione pubblica.

Per metadati si intendono, letteralmente, le informazioni riguardanti dei dati. Le agenzie di intelligence affermano che questi metadati siano sostanzialmente innocui e che non rivelino alcuna informazione sensibile degli utenti. Giornalisti e ricercatori, però, affermano da tempo il contrario.

Pubblicità

Lo scorso 16 maggio lo studio titolato "Evaluating the privacy properties of telephone metadata", pubblicato da tre ricercatori della Stanford University sul Proceedings of the National Academy of Sciences, ha dimostrato scientificamente la fondatezza dei timori riguardo la possibile violazione della privacy a partire dalle informazioni contenute nei metadati telefonici.

Per metadati si intendono, letteralmente, le informazioni riguardanti dei dati.

Qualunque comunicazione, sia essa telefonica o via internet, lascia una traccia di metadati. Nel caso dei metadati delle conversazioni telefoniche essi includono il numero di telefono dei due soggetti che si stanno chiamando, il luogo e la durata della telefonata, i codici IMEI (identificativo del dispositivo) ed IMSI (identificativo dell'utente di telefonia mobile) associati ai dispositivi.

I tre studiosi hanno sviluppato un'applicazione apposita, Metaphone, che ha permesso loro di raccogliere i metadati dagli smartphone degli utenti che hanno deciso, su base volontaria, di partecipare allo studio. Il numero complessivo dei partecipanti è di 823, per un totale di 251.788 chiamate e 1.234.567 messaggi di testo analizzati.

Utilizzando le informazioni disponibili su Google Places, Yelp e Facebook, sono riusciti ad identificare, usando un semplice processo di confronto automatico, il 32% dei numeri chiamati dai partecipanti e presenti nel loro dataset. Infatti, molti negozi, ospedali ed istituti finanziari forniscono i loro recapiti telefonici su queste tre piattaforme. In alcuni casi è stato possibile persino identificare dei singoli individui poiché avevano reso pubblico su Facebook il loro numero di telefono. Utilizzando, invece, una ricerca manuale dei singoli numeri sia su Google che su Intelius, un registro a pagamento che permette di ottenere informazioni pubbliche per ogni individuo, sono riusciti ad identificare fino al 65% dei numeri.

Pubblicità

Il codice sorgente della chat Messenger dell'autore. I dati contenuti nella variabile 'LastActiveTimes' sono accoppiati in questo modo: numero tra "-" è l'identificativo dell'utente, mentre il numero che segue indica l'orario di accesso.

Con le informazioni raccolte da questa identificazione, i tre studiosi hanno individuato inoltre l'abitazione di 130 partecipanti sui 241 che mostravano la città in cui vivevano attualmente su Facebook, necessaria per la verifica delle loro ipotesi, e che avevano almeno 10 chiamate verso aziende che erano state identificate con il precedente metodo. La localizzazione è stata effettuata senza l'utilizzo di dati dal GPS, dalle reti wifi o dalle antenne per il segnale cellulare, mostrando quindi come, sulla base dei soli metadati di chiamate ed SMS, è possibile applicare algoritmi di clustering, come il DBSCAN usato nello studio, per predire la posizione dell'abitazione di un individuo.

Lo studio, però, non si ferma qui e mostra come dai metadati telefonici sia possibile dedurre molte altre informazioni sensibili. I tre ricercatori hanno potuto desumere correttamente che un partecipante avesse un'aritmia cardiaca. Sulla base dei suoi metadati, il soggetto aveva ricevuto una lunga telefonata da un gruppo cardiologico di un centro medico ed aveva effettuato brevi chiamate ad un call-center di assistenza per un dispositivo di monitoraggio dell'aritmia cardiaca.

I tre ricercatori inoltre affermano che, senza considerare se le deduzioni siano completamente accurate o meno, la possibilità di possedere delle informazioni altamente sensibili costituisce un serio pericolo per la privacy. Infatti, le informazioni sensibili che si possono ricostruire dalle chiamate effettuate a centri sanitari, a servizi finanziari, ad uffici di partiti politici, ad istituti religiosi rivelano tratti personali altrimenti nascosti, come problemi di salute o orientamento religioso ed hanno un impatto drammatico e pericoloso sulla privacy individuale.

Pubblicità

Metadati for dummies. via Privacy International

Questo studio dimostra come i metadati telefonici siano altamente interconnessi, permettendo un'agevole identificazione dei soggetti, fornendo la possibilità di dedurre relazioni personali, luoghi in cui si vive e dati sensibili, minando l'integrità della privacy dell'utente.

I metadati, però, sono collegati anche alle attività che sono svolte su internet: gli indirizzi IP, i mittenti ed i destinatari delle email, l'orario a cui effettuiamo il login e la durata della sessione sono alcuni esempi di informazioni disponibili. Questi metadati possono rivelare gusti in fatto di acquisti online o persino, come dimostrato da Søren Louv-Jansen, le abitudini del sonno.

Louv-Jansen, un programmatore di Copenhagen, ha sviluppato un codice che permette di dedurre i pattern del sonno dei propri amici a partire dalle informazioni disponibili su Messenger, l'app di Facebook. Nella versione web dell'app viene mostrato l'orario in cui l'altro utente ha effettuato l'ultimo accesso di recente. Analizzando il codice sorgente della pagina, Louv-Jansen ha individuato una lista di identificativi di utenti affiancati dall'orario del loro ultimo login. Raccogliendo quindi questi dati ad intervalli regolari di 10 minuti è riuscito a ricostruire le abitudini del sonno dei suoi amici.

Nel caso in cui si presenti un'anomalia nel pattern delle ore di sonno durante la settimana, infatti, si potrebbe concludere che l'utente abbia dormito a casa di qualcuno o che sia stato fuori a cena o ad una festa.

Pubblicità

Gli utenti spesso accedono a Facebook poco prima di addormentarsi e riaccedono solamente la mattina dopo, appena svegli. In questo modo si può ricostruire un quadro dettagliato degli orari in cui si dorme: si possono individuare quali amici devono svegliarsi presto per andare a lavoro, quali invece rimangono svegli fino a tardi o anche come trascorrono il weekend.

Raccogliendo questo tipo di dati per un arco di tempo consistente può permettere di dedurre informazioni sensibili. Nel caso in cui si presenti un'anomalia nel pattern delle ore di sonno durante la settimana, infatti, si potrebbe concludere che l'utente abbia dormito a casa di qualcuno o che sia stato fuori a cena o ad una festa. Tutte informazioni sensibili che danneggiano il diritto alla privacy dell'individuo.

Logicamente, come fanno notare i tre ricercatori, i risultati da loro ottenuti, ma si possono considerare anche quelli relativi ai login su Facebook, sono conservativi: sono infatti frutto di analisi che utilizzano un database di modeste dimensioni.

L'accesso ai metadati di un maggior numero di persone aumenta il rischio di violazioni della privacy, facilitando il processo di deduzione ed analisi delle informazioni in essi contenuti. Non si presenta alcun problema di mancanza di tecnologie per analizzare questi dati, come dimostrato sia nella ricerca di Stanford che nel caso di Louv-Jansen, i quali, basandosi su semplici algoritmi e linee di codice, hanno potuto dedurre una quantità ingente di informazioni.

La raccolta di massa di metadati svolta dalle agenzie di intelligence, che possono raccoglierne non solo in ingenti quantità ma hanno inoltre a disposizione strumenti specifici ed avanzati per effettuare analisi più approfondite su di essi, ci deve preoccupare.

L'idea che i metadati siano innocui è pericolosamente falsa. Persino il Generale Michael Hayden, direttore della NSA dal 1999 al 2005, parlando ad un dibattito al The Johns Hopkins Foreign Affairs Symposium nell'Aprile 2014, ha riconosciuto la loro importanza ed ha affermato che il governo americano si basa anche sui metadati per uccidere gli obiettivi nemici. Continuare quindi a ritenere i metadati inoffensivi, privi di informazioni rilevanti e del tutto superflui, in quanto non includono il contenuto delle conversazioni, rappresenta un serio pericolo per la privacy.