De menselijke kennis redden met duizenden pagina's per uur

In deze scanfabriek worden miljoenen pagina's vakliteratuur op het internet gezet.

2.3.15

Op de bovenste verdieping van een bibliotheek in Londen zitten 12 mensen in een door rolgordijnen verduisterende kamer. De kamer wordt heel zachtjes verlicht door de kleine witte LEDlampjes van een aantal scanners.

Dit is het Euston Scan Centre, het tijdelijke verblijf voor een team mensen van The Internet Archive - een online bibliotheek die gratis universele toegang biedt tot digitale boeken. Zij zijn deel van een ambitieus project waarin tien verzamelingen met medische boeken uit de 19e eeuw worden gedigitaliseerd. Ze streven ernaar om per persoon 800 pagina's per uur te scannen. In oktober zijn ze begonnen met scannen, en sindsdien hebben ze zo'n 2.5 miljoen pagina's gescand. Naar verwachting zullen ze in 2016 tussen de 16 en de 17 miljoen pagina's gescand hebben.

Advertentie

Boek Scanner Helen Claes

De kamer ruikt ook echt naar een bibliotheek van deze tijd: stof, tapijt en verhitte elektronische apparaten. Daarbij is het bijna volkomen stil binnen. Af en toe hoor het geluid van de opname van een afbeelding, of het onregelmatige gepiep van de voetpedalen waarmee de scanners worden bediend.

Chris Booth, manager van de Britse Internet Archive, vertelt hoe het enorme digitaliseringsproject tot stand is gekomen. Het is begonnen met de medische vakliteratuur uit de Wellcome Library in Londen en andere participerende bibliotheken. De interpretatie van wat een medisch boek is, wordt nogal breed opgevat: teksten over pseudowetenschap zoals frenologie zijn ook inbegrepen. De boeken arriveren in oranje kratten op locatie en zijn al vooraf gecheckt om er zeker van te zijn dat ze nog niet online staan. Ieder nog te digitaliseren boek krijgt meteen een eigen stabiele, unieke URL.

De boeken worden in eerste instantie gecontroleerd op 'scanbaarheid'. Als ze te dik zijn is het niet mogelijk om de volledige pagina vanaf het midden van de spread (die bij sommige boeken heel diep kan liggen) te scannen. "In de 19e eeuw dachten ze nog niet na over scannen," zegt Booth. Veel van de pagina's in de boeken worden bij elkaar gehouden gehouden door een sluitband om te voorkomen dat ze uit elkaar vallen. Sommige pagina's zijn zelfs nog niet 'open geknipt,' wat betekent dat ze na al die tijd nog nooit zijn open geslagen.

Advertentie

Het doel van de digitalisering is er voor te zorgen dat de boeken nu wél worden gelezen, of tenminste beschikbaar zijn voor degene die dat willen.

De scanners die gebruikt worden door het team worden Table Top Scribes genoemd en zijn gebaseerd op een open source systeem. De boeken worden open op een V-gevormd platvorm gelegd, daarna wordt met een voetpedaal een V-gevormd glazen plaat naar boven geduwd. Twee Nikon-camera's maken dan tegelijkertijd een foto van de twee pagina's. "Ze brengen zo goed als geen schade aan de boeken," zegt Booth. In plaats van het ultraviolet licht dat je kent van de huis, tuin- en keuken scanner wordt er gebruikt gemaakt van LED lampjes, om zo de boeken nog beter te beschermen tegen verval. "Feitelijk is dit een soort vakantie voor de boeken," want in de reguliere circulatie wordt er met de boeken vaak juist minder zorgvuldig omgegaan.

Nadat de spreads gescand zijn verschijnen ze op een monitor die er voor zorgt dat alle tekst wordt opgeslagen. In team in de Verenigde Staten doet daarna een kwaliteitscheck. De software die hiervoor wordt gebruikt heet Scribe en is ontworpen door The Internet Archive.

Het is lopendebandwerk, maar vaak komt een team interessante dingen tegen zoals foto's van ziektes, vreemde overtuigingen over zwangerschap door mannelijke auteurs en zelfs beleefde afwijzingsbrieven van uitgevers, die als boekenlegger zijn gebruikt. De bijzondere vondsten worden door het team van scanners met elkaar gedeeld via Skype. De meeste van hen dragen een koptelefoon, en ik zie één van hen op een klein schermpje in de hoek van haar monitor YouTube filmpjes kijken tijdens het scannen.

Advertentie

Boek Scanner Paul Horn

Er zijn een paar grote Scribes aanwezig om de grotere boeken mee te scannen. Ook is er een tafel aanwezig met een kleine 'fotostudio' om verschillende uittrekbare diagrammen, artwork, kaarten en ander veelvoorkomend 'niet-scanbaar' materiaal te fotograferen. Booth laat me wat willekeurige voorbeelden zien; één beeld lijkt op een zorgvuldig geschetste oogheelkundigetest en een ander toont tekeningen van chirurgische instrumenten die wat weg hebben van een mechanisch hoofd.

De gedigitaliseerde boeken zullen deel worden van de Herigate-bibliotheek van het Verenigd Koninkrijk, gehost door archive.org en gekopieerd door de Wellcome Library in Londen. Ze worden gepubliceerd onder de Creative Commons license. Booth zegt dat verschillende kunstenaars al bezig zijn met het maken van collages uit het afbeeldingenarchief van de bibliotheek.

Nadat de boeken zijn gescand worden ze teruggestuurd naar de bibliotheek waar ze vandaan komen. Hopelijk worden ze daar in het vervolg wel zorgvuldig behandeld zodat ze geen ezelsoortjes krijgen of andere beschadigingen. Hun gedigitaliseerde broertjes zijn in ieder geval in veilige handen.

Tagged:Internet Archivemotherboard showdigitaliseringbibliotheekveelwerkTechMotherboard

FYI.

This story is over 5 years old.

De menselijke kennis redden met duizenden pagina's per uur

Blijf op de hoogte van onze beste verhalen!