cover_internet archive_intervista semenzin

A sinistra: Davide Semenzin, immagine per gentile concessione del soggetto ritratto;
A destra: una pagina del Manoscritto di Voynich, via Internet Archive. Composizione: Motherboard

L'italiano che sta digitalizzando milioni di libri e manoscritti perduti

Internet Archive è la più grande biblioteca online e tra i suoi corridoi digitali puoi trovare gratuitamente manuali di stregoneria, documenti vecchi di millenni, guide con disegni assurdi, mappe, riviste di erotica e molto altro.

di Riccardo Coluccini

Macerata, IT

6.5.20

Una delle biblioteche più antiche del mondo si trovava a Ebla, in Medio Oriente, e già nella seconda metà del III millennio a.C. raccoglieva tavolette di argilla scritte in caratteri cuneiformi. Come molti altri luoghi simili nella storia, rappresentava una prima forma di open-access della conoscenza, per quanto, certo, saper leggere e scrivere fosse spesso un privilegio.

Oggi viviamo piuttosto in un’epoca di contenuti in affitto, e internet ci ha abituati all’idea che ogni informazione sia disponibile per sempre e conservata al sicuro. La verità è che non tutto il mondo a cui internet allude è ancora qui. Ma esiste un luogo digitale che porta avanti la tradizione delle biblioteche antiche, catalogando e conservando opere a prescindere dal loro valore economico: l’Internet Archive. E posti come questo, in questi mesi di isolamento e quarantena in tutto il mondo, sono più preziosi che mai.

L’Internet Archive è una no-profit fondata dall’ingegnere informatico Brewster Kahle nel 1996 e la sede attuale è in una chiesa sconsacrata di San Francisco, acquistata nel 2007 perché assomiglia al logo della fondazione. Il suo motto è “accesso universale a tutto il sapere.” Il suo scopo originario è conservare i siti web e ad oggi contiene circa 900 miliardi di URL e 400 miliardi di pagine web. Nel frattempo, però, la sua missione si è ampliata e l’archivio comprende ora 21 milioni di opere scritte fra testi, documenti, e magazine—senza contare file audio e video, software e videogiochi—, disponibili a chiunque abbia una connessione internet.

Davide Semenzin è un ragazzo italiano che sviluppa e mantiene i sistemi di digitalizzazione dei libri e i centri di scansione dell’Internet Archive. L’importanza di questo lavoro si è palesata quando, cercando un passaggio dal libro “Staccando l’ombra da terra” di Daniele Del Giudice, si è reso conto di poterlo consultare su Internet Archive, ha raccontato a Motherboard per telefono.

1588236146150-300funston02_internet-archive-sede

La sede di Internet Archive a San Francisco. Immagine via Internet Archive

Dopo gli studi in Italia e in Olanda, e un’esperienza con una propria startup, Semenzin si è trasferito negli Stati Uniti, dove ha preso parte al progetto Berkeley Prosopography Services dell’UC Berkeley—costruendo quello che può definirsi una sorta di social network delle vite degli autori del passato per aiutare gli storici a fare ricerca—ed è poi finito a lavorare all’Internet Archive circa cinque anni fa.

“Digitalizzare libri è una danza altamente coreografica,” ha raccontato Semenzin, aggiungendo che più ci si mantiene aderenti ai tempi e ai passi stabiliti e più le cose andranno bene. Semenzin si occupa del software e dell'hardware degli scanner e mantiene i servizi di backend che permettono di gestire i dati una volta che sono stati scansionati; inoltre, gestisce anche logistica, spedizione e catalogazione dei libri; infine, crea il software e le API per collegare i metadati giusti di ciascun libro.

“Quando ho iniziato, nel primo anno e mezzo, il software era la priorità assoluta,” ha spiegato. “Archive ha iniziato a digitalizzare i libri nel 2005, e c’è stata una prima iterazione del software di digitalizzazione—che si chiamava Scribe—e una seconda iterazione a fine 2009-2010. Nel 2014-2015 il software non era più mantenuto e c’era bisogno di rifare tutto da capo.”

Cultură

11 archivi digitali, immensi, gratuiti e meravigliosi

Carolina Davalli

25.3.20

Prima di lasciare la sua posizione, il precedente ingegnere che si occupava del software aveva preparato una bozza di soluzione e il lavoro di Semenzin per i primi due anni è stato trasformare quello script in una versione completa che potesse digitalizzare quotidianamente 1000 libri: ovvero caricare sui server dell’Archive circa un terabyte di dati al giorno.

L’obiettivo è stato raggiunto: oggi l’Archive scansiona 1000 libri al giorno grazie a 18 centri di digitalizzazione sparsi in tutto il mondo e contiene già 3,8 milioni di libri digitalizzati. Il sistema funziona talmente bene, ha raccontato Semenzin, che a maggio dell’anno scorso il direttore dell’archivio fisico lo ha chiamato per avvisarlo che stavano per finire i libri: ne erano rimasti circa 300mila.

Fortunatamente, grazie all’acquisizione di Better World Books—un’azienda che compra libri dismessi da librerie in tutto il mondo e li rivende a basso prezzo e che è stata trasformata in no-profit dopo l’acquisizione—, il problema è rientrato.

Su Internet Archive si può trovare di tutto: dal libro illustrato sulla “Stregoneria gitana e cartomanzia” di fine Ottocento, caricato dalla Biblioteca del Congresso statunitense, agli studi sui geroglifici pubblicati nel Cinquecento, fino ad arrivare a documenti più antichi pubblicati addirittura nell’Anno Mille. In mezzo, gran parte dei testi prodotti dall’umanità, tra Bibbia, Corano, documenti risalenti al periodo dell’Illuminismo, mappe, guide e, ovviamente, riviste e trattati di erotica.

L’attività di digitalizzazione e scansione prevede tre diversi approcci. Oltre alle donazioni giornaliere di libri, c’è una collaborazione con università e biblioteche in tutto il mondo. “Abbiamo partnership con università come Yale e Stanford,” ha spiegato Semenzin, “loro sono nostri clienti nel senso che comprano da noi gli scanner di cui hanno bisogno e in cambio gli offriamo di ospitare il contenuto digitale sul nostro sito per sempre, in base ad un prezzo fisso stabilito in anticipo.”

Ci sono anche due centri di scansione, uno ad Alberta e uno a Toronto, entrambi collegati all’Università di Toronto. In tutti questi luoghi è presente personale dell’Internet Archive che lavora lì. In media, ha raccontato Semenzin, un libro ha 333 pagine e se si considerano che vengono scansionati 1000 libri al giorno, ci sono 333.000 giramenti di pagina al giorno. “È un movimento che abbiamo perfezionato,” ha spiegato.

Per questo un ruolo importante nella coreografia è svolto dagli scanner: “i nostri scanner fanno scanning conservativo: non distruggiamo il libro rimuovendo la rilegatura, abbiamo scansionato persino una collezione di manoscritti su foglie di palma che viene dallo Sri Lanka.”

Dei tre modelli di scanner, due hanno una culla su cui viene poggiato il libro aperto a 45° o 60°, con sopra un vetro che separa il libro dalle videocamere.

Il modello più vecchio è il Full Frame Scribe, grande come una cabina del telefono, e che “permette di effettuare una digitalizzazione di ottima qualità,” ha spiegato Semenzin, grazie alle telecamere e al vetro mobili. Per la digitalizzazione di massa si usa invece la Table Top Scribe, con camere fisse e un sensore magnetico che scatta automaticamente la foto quando il libro aderisce al vetro. “Il sensore è una cosa che mi sono inventato sei mesi fa, è una novità,” ha raccontato Semenzin.

Questo modello si basa sul progetto di DIY Scanner sviluppato dal collettivo di hacker Noisebridge. “È tutto in open hardware, noi lo abbiamo rifatto in alluminio, quello originale era in legno, e i file CAD per riprodurlo sono online: chiunque può costruirsi uno scanner acquistando i componenti necessari,” ha specificato Semenzin.

Il terzo tipo di scanner è usato per inserti pieghevoli, mappe e pagine di grandi dimensioni.

“Abbiamo provato anche ad usare dei robot per girare le pagine, ma visto che c’è comunque il rischio che la pagina si rovini, abbiamo preferito farne a meno,” ha chiarito Semenzin.

“Preferiamo caricare tutto subito sui nostri server, è molto più economico fare cropping lì che dagli scanner, abbiamo molta più potenza di calcolo e web app specifiche che offrono strumenti appositi,” ha spiegato Semenzin. “Sono orgoglioso del mio software, riesce a catturare circa 300mila foto al giorno senza battere ciglio,” ha aggiunto.

Oltre ai libri più antichi conservati dalle università e dalle biblioteche, ci sono tutti i libri di cui l’Internet Archive va in cerca. “La grossa parte di quei 1000 libri che scansioniamo ogni giorno li paghiamo noi,” ha spiegato Semenzin, “sono libri del Novecento che sono ancora coperti da copyright e che passano attraverso il nostro sistema di prestito digitale controllato.” In uno dei 3 magazzini di proprietà dell’Archive “conserviamo una copia di tutti i libri che abbiamo scansionato,” ha aggiunto Semenzin, “così possiamo riprodurre il framework delle biblioteche, e con l’iniziativa Open Library cerchiamo anche di ampliare l’orizzonte e coinvolgere tutte le biblioteche che vogliono farne parte.” Il tutto, spesso a costi minimi o nulli, se una biblioteca possiede una copia fisica di un libro presente nell’archivio digitale.

La caccia ai titoli del Novecento da parte dell’Archive è giustificata dal problema che “i libri pubblicati negli ultimi 20 anni sono nativi digitali; per quelli prodotti prima del 1923 non ci sono grossi problemi, ma non sono mai stati stampati così tanti libri come nel Novecento,” ha chiarito Semenzin, “esistono solo in formato cartaceo e stanno scomparendo, distrutti al macero ogni giorno.”

La priorità per l’Internet Archive è quindi andare a cercare tutti questi libri, salvaguardarli e creare la copia digitale per renderla accessibile al maggior numero di persone possibile. “Se una cosa è accessibile allora è preservabile.” ha aggiunto Semenzin.

Ma l’Internet Archive ha anche una seconda missione, che punta a sfruttare le nuove proprietà degli artefatti digitali, per loro natura diversi da quelli cartacei. “Ci sono modalità di ricerca nuove,” ha spiegato Semenzin, “tutti i nostri libri sono full text searchable, puoi saltare da una parte all’altra, puoi linkarli. Così nasce anche un nuovo modo di interagire con i libri.”

Tecnologia

Grafton9 è un archivio digitale di riviste cyberpunk italiane

Antonella Di Biase

7.9.17

L’Internet Archive controlla ogni singolo componente della sua infrastruttura: possiede i magazzini, costruisce i propri server, gestisce il proprio software e fa da proprio operatore internet. Questa scelta, oltre che per motivi di risparmio economico, è giustificata anche da esigenze legali: l’agenzia americana NSA può inviare richieste per accedere ai dati e informazioni sugli utenti e i file che consultano o caricano, “se ti appoggi a un servizio cloud,” ha spiegato Semenzin, “mandano la richiesta a loro e tu non saprai mai che il tuo contenuto è stato richiesto dal governo americano.” Richieste che sono già avvenute negli scorsi anni in due occasioni.

Altri rischi che corre l’archivio, invece, sono legati al copyright: capita che titolari dei diritti chiedano di rimuovere dei contenuti; in quel caso l’Internet Archive provvede a farlo, oppure li lascia solamente in prestito controllato. In generale, però, viene scansionato di tutto: i server dell’Internet Archive si trovano tutti negli Stati Uniti e per questo beneficiano di protezioni sulla libertà di espressione molto più robuste che in altre parti del mondo—gli unici problemi riguardano i contenuti di pedopornografia, che gli addetti devono necessariamente cancellare del tutto dai dischi e sovrascrivere i dati in modo da non lasciare traccia.

Edizione della rivista High Times del 1974. Immagine via: Internet Archive

Purtroppo non esistono al momento partnership con biblioteche o università italiane, e per un paese come il nostro, ricco di manoscritti antichi, sembra un’opportunità persa. Alcune biblioteche, come la Biblioteca Nazionale Centrale di Firenze, quella di Napoli, e altri progetti europei offrono delle versioni di libri e manoscritti digitalizzati sul proprio sito. Eppure, l’accesso universale deve essere per tutto il sapere, anche quello conservate in piccole biblioteche locali che, per mancanza di fondi o stimoli, decidono di lasciare i documenti dietro teche di vetro. Per loro—e per tutti noi—l’Internet Archive è la soluzione.

Segui Riccardo su Twitter: @ORARiccardo

Tagged:Internet ArchiveletteraturaArchivi Digitalimanoscritti antichi digitalicopyrightopensource