17.000 fotos kommer ud af ”Transcriptoriet”
Bag en kontordør på Det Kgl. Bibliotek lærer bibliotekets medarbejdere computere at læse dansk håndskrift, og derfor kan du nu søge i 17.000 visitfotografier.
På fjerde sal i Den Sorte Diamant er der en helt almindelig kontordør på en helt almindelig kontorgang, men over døren hænger et skilt med teksten ”Transcriptoriet”, og inde bag døren arbejder en flok studenter, der har været fortroppen i et højteknologisk stykke biblioteksarbejde, der nu resulterer i, at 17.000 visitfotografier fra Peter Elfelt-samlingen kommer ud til Det Kgl. Biblioteks brugere.
Vi kommer tilbage til, hvad der foregår i ”Transcriptoriet”, men hvad er visitfotografier egentlig? Det ved seniorforsker ved Det Kgl. Bibliotek Mette Kia Krabbe Meyer, der er ansvarlig for bibliotekets billedsamling, noget om:
Digitaliseringen af Elfelt-samlingen
I 2020 begyndte Det Kgl. Bibliotek digitaliseringen af "Peter Elfelts negativsamling fra 1890-1931". Nu er første del af samlingen i Digitale samlinger. Det drejer sig om 18.000 visitkortfotografier, små billeder, der blev sat på papplader, og som i slutningen af 1800-tallet blev delt, næsten som billeder bliver det på sociale medier i dag.
Datidens sociale medier
- Visitkortfotografierne blev, som navnet siger, brugt til at dele ud, når man var på visit. I modtagelsesværelset stod i de pæne hjem en skål, hvor man kunne lægge sit fotografi. Der kunne man så stå og se på andres billeder, ligesom man i dag kan se fotografier af venners venner på sociale medier, forklarer hun.
Peter Elfelt var en københavnsk portrætfotograf, som gjorde en forretning ud af blandt andet visitfotografier. Han åbnede sit atelier på Købmagergade 64 i 1893 og blev hurtigt populær.
- Det var alle, der var noget ved musikken, som fik taget visitfotografier hos Peter Elfelt, selv hvis de måske ikke var mere end en lille piccolofløjte ved musikken, så skulle de altså have sådan et, men det betyder også, at protokollerne, som tit er vores eneste mulighed for at vide, hvem fotografierne forestiller, er meget lange – og så er de oven i købet håndskrevne, og det er her, studenterne og jeg kan hjælpe, supplerer Jakob K. Meile, projektleder på Transkribusprojektet.
Peter Elfelt førte meget omhyggelige protokoller over sine opgaver. Alle negativer fra hans samling er derfor indført i protokoller sammen med oplysninger om, hvem der har bestilt billedet, og hvad det forestiller. Det kan for eksempel være ”Fru Andersen m. hund” eller ”Grosserer Hansen, Alvorlig”. Det er disse protokoller, som skal blive til metadata, sådan at brugerne i fremtiden kan få et relevant søgeresultat.
Sådan bliver protokoller til søgbar data
- Det er normalt et stort arbejde at indtaste håndskrevne protokoller i vores databaser. Vores opgave var at forsøge at automatisere den proces ved at lære en computer at læse håndskrifterne i protokollerne, siger Jakob K. Meile; samtidig var det vigtigt for os at teste teknologien på strukturerede data, som dem man finder i en protokol, for mange af vores andre samlinger er registreret i håndskrevne protokoller eller registranter, sådan som Peter Elfelts visitfotografier.
Det Kgl. Bibliotek har siden 2018 eksperimenteret med programmet Transkribus, der sætter computere i stand til at tyde indscannede, håndskrevne bogstaver, selv skråskrift, ved hjælp af HTR (Handwritten Text Recognition) teknologi. Teknologien ligger inden for feltet kunstig intelligens (AI), så for at kunne læse dansk håndskrift, skal softwaren først ”trænes” til det, og det har en lang række studentermedhjælpere siddet og gjort i kontoret med det mærkelige skilt. Men opgaven blev lidt større end ventet.
- Vi er blevet meget klogere på, hvad teknologier som Transkribus kan hjælpe os med, og en ting vi har måttet sande er, at det har krævet et møjsommeligt arbejde af vores studenter at rense den automatisk genererede tekst fra protokollerne. Det skyldes blandt andet, at en håndskrevet protokol måske ikke er helt så struktureret, som en computer godt kunne ønske sig. Flere steder har den protokolførende tilføjet en note ovenover et navn eller i marginen, og så kan computeren ikke finde ud af, hvor oplysningen hører til henne, forklarer Jakob K. Meile.
Hvilke processer skal der til for at digitalisere fotografierne?
Det er lang vej til at få motiverne fra negativerne ud på nettet. Første skridt er at finde dem frem fra magasinerne, hvor de ligger køligt for at forhindre nedbrydning. Hovedparten er skrøbelige glasnegativer ordnet efter størrelse, men der er også en del celluloid-negativer. Her skal man være særlig påpasselig, for de kan være behandlet med nitrat, som er stærkt brandfarlig. Negativerne bliver kørt til Digitaliseringsafdelingen, hvor de bliver fotograferet og redigeret digitalt. Parallelt arbejdes der med metadatering, så billederne kan søges frem af brugerne, når de er blevet offentliggjort.
Studenterne får en større rolle
Studenterne fik derfor en større rolle i projektet end først tænkt med at rette i de HTR-genererede datafiler. Men det arbejde har også givet en væsentlig sidegevinst.
- HTR fungerer optimalt, når computeren blot skal genkende den skrift, den er oplært med, men det er selvsagt ikke så tilfredsstillende, som hvis den kunne læse andre, lignende håndskrifter. Vi forsøger derfor at skabe en mere robust 'model'. Det gør vi ved at fodre Transkribus med så mange forskellige håndskrifter som muligt, siger Jakob K. Meile.
Projektet med Elfelts protokoller skubber på en udvikling, hvor vi i fremtiden vil se computere være endnu bedre til at genkende dansk håndskrift. Og det vil få stor betydning for tilgængeliggørelsen af bibliotekets samlinger. Men hvorfor kom studenternes kontor egentlig til at hedde Transcriptoriet?
- I middelalderens klostre hed munkenes skrivestue ”scriptorium”. Det var her, de skrev håndskrifter af, og det krævede stor præcision og tålmodighed, ligesom vores studenter skal have, når de arbejder med Transkribus, og det var måske også ind i mellem lidt kedsommeligt, så det lå lige for, griner Jakob K. Meile.