Come si analizzano i 2.6 terabyte di documenti dei #PanamaPapers

La mole di dati dei #PanamaPapers equivale a 2.6 terabyte di documenti, decisamente troppi per gli esseri umani.

di Federico Nejrotti

5.4.16

Alle 20.00 ora locale di domenica 3 aprile oltre 400 giornalisti provenienti da 80 paesi diversi hanno pubblicato a reti unificate la prima tranche dei Panama Papers, il più grande leak di dati nella storia del giornalismo.

Si tratta di documenti appartenenti allo studio legale panamense Mossack Fonseca, diffusi da un whistleblower al giornale tedesco Süddeutsche Zeitung (SZ) e infine elaborati nell'arco di un anno dal network di giornalisti dell'International Consortium of Investigative Journalists (ICIJ). Il leak si preannuncia essere l'evento politico dell'anno, visto che i 'papers' hanno rivelato "una rete di "140" personaggi di spicco della politica e dell'economia internazionale coinvolti nella creazione e nella gestione di compagnie offshore in diversi stati del mondo, spesso utilizzate per corruzione e riciclaggio di denaro sporco, evasione di tasse, copertura di traffici di droga," come spiega Valerio Bassan su VICE News.

L'evento non ha precedenti non solo dal punto di vista dello scandalo che ha prodotto—e che produrrà, visto che SZ ha preannunciato diverse serie di documenti ancora da pubblicare—ma anche dal punto di vista metodologico. Quello dietro ai Panama Papers è un team internazionale composto da oltre 400 giornalisti coordinati dall'ICIJ che è riuscito nell'incredibile impresa di coordinare le forze in totale segreto per un anno intero e, infine, pubblicare in contemporanea in tutto il mondo.

Lui è Sigmundur Davíð Gunnlaugsson, il primo ministro islandese, che scopre di essere incluso nei Panama Papers davanti alle telecamere del Guardian.

Ciò che (non) stupisce è che uno dei principali argomenti di discussione riguardi proprio le dimensioni e i metodi sfruttati per diffondere il leak: Twitter da più di 48 ore è invaso da giornalisti, news-junkies e aficionados della giustizia in trance estatica per l'insieme dei fattori. È un trend potenzialmente pericoloso—Proprio ieri Philip Di Salvo spiegava come, nel caso di Edward Snowden e Chelsea Manning, gran parte del sacrificio di alcuni whistleblower sia stato vanificato dalla tendenza dei media a occuparsi delle fonti e non dei contenuti. In breve: l'attenzione è stata spostata sulle personalità che hanno diffuso i leak, oscurando efficacemente l'importanza dei leak stessi.

Il leak di Panama Papers è stato diffuso attraverso una rete di redazioni e testate giornalistiche, e non, come successo in molti altri casi, da Wikileaks, l'hub mondiale per la diffusioni di documenti segretati. Ciò significa che i Panama Papers non sono una fuga di dati open access: non sono visibili a tutti, e anzi verranno diffusi in tranche nel corso dei prossimi mesi. La prima è andata online domenica sera, e consta di appena 151 documenti—Sono in moltissimi a non aver gradito questa scelta e a richiedere una diffusione istantanea e totale dei documenti. È proprio in questo senso che la smania per la comprensione della metodologia diventa importante: perché i Panama Papers non sono stati diffusi pubblicamente?

Marie Gutbub 3 aprile 2016

Come detto, il leak di Mossack Fonseca è gigantesco. Si tratta di 2.6 terabyte di dati trafugati, 1.500 volte quelli dello storico Cablegate del 2010. Ma non è solo la dimensione informatica a stupire—i Panama Papers consistono di 11.5 milioni di file: oltre 4.8 milioni di email, oltre 3 milioni di fogli di database, oltre 2.1 milioni di PDF, oltre 1 milione di immagini e circa 320.000 file di testo. Secondo alcuni significa 187 milioni di pagine, che impilate verticalmente doppierebbero l'Everest per un totale di 18 chilometri in altezza.

La mole di dati dei Panama Papers, paragonati a quella degli altri importanti leak degli ultimi anni. via SZ

Con un calcolo brutalmente pratico ed empirico si può dire che se il leak si compone di 11.5 milioni di documenti, ognuno dei 400 giornalisti si sarebbe dovuto oberare dell'analisi di 28.750 documenti. Il processo di analisi è durato circa 1 anno, ovvero 78 documenti al giorno, tutti i giorni, per ognuno dei 400 giornalisti. Questo non integrando in questo calcolo dozzinale tutto il lavoro necessario a "unire i puntini" e scoprire il contesto in sui si innesta ogni singolo documento. Una mole di lavoro irreale anche per un team di giornalisti qualificati.

Non si tratta soltanto di leggere 11.5 milioni di documenti, ma di analizzarli e scegliere quali pubblicare—Tutto ciò tenendo bene a mente la prima regola fondamentale per quando si ha a che fare con fughe di dati come questa: non tutti i nomi presenti devono essere diffusi. Ci sono casi limite, e nessi di causalità che vanno interpretati per evitare che l'unica condizione necessaria e sufficiente per condannare qualcuno sia la mera presenza del suo nome in un determinato leak.

Cosa c'è dentro i Panama Papers? via SZ

Non me la sento di prendere una posizione in merito: da sempre considero l'open access come principio fondamentale per la trasparenza, e non posso dire di non aver storto il naso quando mi sono reso conto che i Panama Papers non stavano passando attraverso Wikileaks. Al tempo stesso, però, credo che in un caso straordinario come questo l'applicazione di un codice deontologico giornalistico sia fondamentale per massimizzare il potenziale che questi documenti celano.

Quindi, come si analizza una fuga di dati da 2.6 terabyte? "Mossack Fonseca ha creato una cartella per ogni shell company—ovvero un'azienda sfruttata al solo scopo di veicolare delle transazioni attraverso di essa, ndr—, e in ogni cartella si trovavano le mail, i contratti, i registri e i documenti scannerizzati relativi alle sue attività," si legge sulla pagina dedicata al come del leak su SZ. "Prima di tutto i dati sono stati indicizzati per poterli analizzare," ovvero: hanno preso questa enorme cassettiera piena di fogli e li hanno riordinati, "SZ ha sfruttato Nuix, un software apposito […] Al suo interno sono stati caricati i milioni di documenti, e sono stati fatti processare da computer particolarmente potenti," continua.

Una volta messi in fila, i giornalisti dei Panama Papers si sono ritrovati ad avere a che fare con uno dei problemi più fastidiosi relativi alla analisi di grande quantità di dati: gli errori di forma. Immaginiamo di collezionare figurine, ne abbiamo davvero un sacco e vogliamo metterle in un raccoglitore. Per nostra sfortuna queste figurine sono state prodotte da 140 aziende diverse, e ognuna ha fatto di testa propria quindi ogni figurina ha una forma diversa. Noi però abbiamo un solo raccoglitore pieno di bustine di una certa dimensione: la prima cosa da fare sarà trovare un modo per far stare tutte le figurine in bustine standard.

Si chiama data scrubbing ed è il processo attraverso il quale la forma dei dati viene riordinata—Nel caso dei Panama Papers il primo passo è stato quello di trasformare i documenti non nativamente digitali in fogli leggibili da un computer, sono stati dunque processati attraverso un programma di optical character recognition (OCR): in breve, il computer riconosce la forma delle lettere e dei numeri e li traduce in lettere e numeri digitali, "Questo processo ha trasformato immagini di documenti anagrafici e contratti in testo indicizzati—È stato un passo molto importante, perché ha permesso ai giornalisti di applicare un modello di ricerca molto semplice all'intera mole di documenti, un po' come succede per Google."

Wired UK ha approfondito la questione: Nuix è un software di un'azienda privata, e proprio per questo uno dei problemi principali ha riguardato il come mantenere privati i dati processati attraverso il programma—Carl Barron, senior consultant di Nuix ha spiegato a Wired che i dati sono stati immagazzinati in server locali e che alla fine del processo di data scrubbing il volume totale di dati utili corrispondeva a circa il 30% di quelli originari. Che per la cronaca significa che i 2.6 terabyte sono diventati 780 gigabyte, e 780 gigabyte di testo sono ancora una quantità mostruosa di testo.

È a questo punto però che la faccenda si fa interessante. Come spiegato prima, i documenti erano davvero troppi per poter essere analizzati manualmente, così i giornalisti dell'ICIJ si sono affidati agli algoritmi di Nuix. Barron, continua su Wired, ha spiegato che i giornalisti hanno compilato una lista di nomi potenzialmente interessanti, e che questa lista è stata dato in pasto agli algoritmi del programma, che hanno fatto emergere le menzioni all'interno del leak e stabilito le relazioni tra i documenti interessanti. È un fatto degno di nota, perché dimostra come l'informatica ci abbia portato a produrre quantità talmente ingenti di dati da impedirci di poterli analizzare manualmente.

Ancora su Wired, Bastian Obermayer—il reporter di SZ inizialmente contattato dalla fonte—racconta i retroscena degli scambi tra lui, la fonte, e i restanti giornalisti. Dopo aver sviluppato l'impianto di analisi con l'aiuto degli sviluppatori dell'ICIJ, è stato costruito un sistema crittografato per poter scambiare le informazioni con gli altri giornalisti, autenticazione a doppio fattore e chat in tempo reale incluse. Infine, in procinto di contattare Mossack Fonseca per commentare l'investigazione portata avanti dai reporter, Obarmeyer spiega di aver fisicamente distrutto i drive originali su cui erano inizialmente contenuti i file.

La storia del leak di Panama Papers darà di cui parlare ancora per diversi mesi, probabilmente per tutto l'anno vista la mole di documenti che devono ancora essere diffusi—È importante, però, tenere bene a mente le circostanze e le metodologie sfruttate in questo caso esemplare di giornalismo. In un mondo editoriale sempre più veloce è chiaro che l'unico modo sensato per portare a casa inchieste di queste dimensioni in maniera sensata sia collaborare, e per farlo è necessario imparare a usare strumenti per comunicare, analizzare e immagazzinare in maniera sicura questo tipo di informazioni.

Segui Federico su Twitter: @nejrottif

Tagged:Big dataPanama PapersLeakmotherboard showTechMotherboard