Program og abstracts
11. og 12. november 2024 afholder Det Kgl. Bibliotek seminaret Digitale historier. Omdrejningspunktet for de to dage er, hvordan den digitale transformation har påvirket kulturarvssektoren.
Det vil vi under seminaret undersøge på et både metodisk og strategisk niveau og gennem et bredt udvalg af eksempler fra de nordiske lande.
Nedenfor finder du programmet, abstracts og det oprindelige call for papers.
Mandag 11. november 2024 - formiddag
9.30-10.00 | Ankomst, registrering og kaffe | |
10.00-10.15 | Velkomst | Søren Bitsch Christensen, vicedirektør (Det Kgl. Bibliotek) |
10.15-11.15 | Keynote om digitale strategier: Massedigitalisering på norsk: Et blikk på digitaliseringsprosjektet til det norske Nasjonalbiblioteket | Henrik Grue Bastiansen, professor (Volda University College) |
11.15-11.30 | Pause | |
11.30-12.00 | Som at pode gamle sorter på et nyt æbletræ – arbejdet med at bringe legacy stednavnedata i spil i moderne forskning og formidling? | Peder Gammeltoft (Universitetsbiblioteket, Universitetet i Bergen) |
12.00-12.30 | Digitale Historier – Historien om retrodigitaliseringen på Det Kgl. Bibliotek | Stig Svenningsen, Peter Thiesen, Ulla Bøgvad Kejser og Ditte Laursen (Det Kgl. Bibliotek) |
12.30-13.30 | Frokost |
Mandag 11. november 2024 - eftermiddag
13.30-14.00 | Kunstig intelligens kan gøre (det meste af) arbejdet - design af specialiseret AI-software til katalogisering | Michael Monefeldt (Syddansk Universitetsbibliotek) |
14.00-14.30 | Serendipitsk kontekstualitet: Alt det udenom som (retro)digitalisering giver os | Muhamed Fajkovic (Det Kgl. Bibliotek) |
14.30-15.00 | Pause | |
15.00-15.30 | En digital repræsentation af en bys historie | Søren Bitsch Christensen (Det Kgl. Bibliotek) |
15.30-16.00 | Store it, Don’t Show It: Opbygning af bæredygtige infrastrukturer for digitale videnskabelige udgaver | Katrine F. Baunvig, Krista S. G. Rasmussen, Kirsten Vad og Jon Tafdrup (Aarhus Universitet) |
16.00-16.30 | Perspektiver fra dagen. Opsamling og videre diskussion | |
16.30-17.30 | Reception |
Tirsdag 12. november 2024 - formiddag
9.00-10.00 | Keynote om digitale metoder: Digitale metoder udviklet i Link-Lives | Barbara Revuelta-Eugercios, arkivar og forskningslektor (Rigsarkivet) og Anne Løkke, professor (Københavns Universitet) |
10.00-10.30 | Brugen af kulturarvsdata i tværfaglig historisk sundhedsforskning | Mads Villefrance Perner (Roskilde Universitet) |
10.30-11.00 | Pause | |
11.00-11.30 | Hvordan arkiverne med AI og tekstgenkendelse kan bidrage til personlig medicin og ny viden | Jeppe Klok Due (Rigsarkivet) |
11.30-12.00 | Fortidige kontekster og latente betydningsrum: Digitaliseringen af enevældens aviser | Johan Heinsen og Camilla Bøgeskov (Aalborg Universitet) |
12.00-12:50 | Frokost |
Tirsdag 12. november 2024 - eftermiddag
12.50-13.20 | Åpen tilgang til nettarkiv: Digital tekstanalyse av nyheter fra nett | Jon Tønnesen (Nasjonalbiblioteket) |
13.20-13.50 | Fællessangsbegrebet i danske aviser | Anne Agersnap (Aarhus Universitet) |
13.50-14.20 | Se min kjole. Muligheder og udfordringer ved at anvende “computer vision” på Det Kgl. Biblioteks fotografier fra 1870-1950 | Laura Søvsø Thomasen (Det Kgl. Bibliotek), Mette Kia Krabbe Meyer (Det Kgl. Bibliotek), Henrik Kragh Sørensen (Københavns Universitet) |
14.20-14.40 | Pause | |
14.40-15.10 | Kommentering i en digital tidsalder. Udforskning og automatisering af editionsfaglige kommentarer i digitale, tekstkritiske udgivelser | Kirsten Vad og Katrine Frøkjær Baunvig (Aarhus Universitet) |
15.10-15.50 | Perspektiver fra dagen og den videre proces |
Praktiske oplysninger
Seminaret finder sted i Blixen-salen på Det Kgl. Bibliotek i København 11.-12. november 2024.
Det koster ikke noget at deltage, men der er et begrænset antal pladser. Du kan tilmelde dig ved at skrive til digitalehistorier@kb.dk senest 1. november 2024.
Det er muligt at deltage én eller to dage. Tilmelding er bindende.
Abstracts
Keynote 1 om digitale strategier:
Massedigitalisering på norsk: Et blikk på digitaliseringsprosjektet til det norske Nasjonalbiblioteket
Henrik Grue Bastiansen, professor (Volda University College)
Ett av verdens største prosjekter innenfor massedigitalisering har siden 2006 funnet sted i Norge. Der har Nasjonalbiblioteket nå i snart 20 år gjennomført et digitaliseringtsprosjekt som er uvanlig, selv i internasjonal sammenheng. Målet har vært å digitalisere alt som noen gang er publisert i Norge - i alle typer medier, og gjennom alle tider.
I dette foredraget presenterer professor Henrik G. Bastiansen dette prosjektets fremvekst og utvikling. Han spør seg hva digitaliseringen har gjort med de historiske kildene og peker også på hvilke muligheter og utfordringer for forskerne som ligger i at et helt lands kulturarv nå er blitt tilgjengelig digitalt. Foredraget bygger på Bastiansens bok "Når fortiden blir digital: Medier, kilder og historie i digitaliseringens tid, som utkom på det norske Universitetsforlaget i 2023.
Keynote 2 om digitale metoder:
Digitale metoder udviklet i Link-Lives
Barbara Revuelta-Eugercios, arkivar og forskningslektor (Rigsarkivet) og Anne Løkke, professor (Københavns Universitet)
Link-Lives er et forskningsprojekt, der rekonstruerer simple livsforløb for (næsten) alle mennesker, der har levet i Danmark 1787-1968. Det gør vi ved at kombinere domain expertise med machine learning, så vi kan sammenkoble historiske oplysninger om den samme person fra folketællinger, kirkebøger og Københavnske begravelsesprotokoller. Algoritmerne trækker det tunge læs med at gennemsøge millioner af personregistreringerfor at finde et troværdigt match. Men før man når så langt, skal man have troværdige trænings- og testdata. Derfor har vi udviklet specialiseret software (ALA = Assisted Linkage Application), som vores team af historikere, der har specialist kendskab til vores kilder og deres kontekst, bruger til at linke. ALA logger linkingsprocessen og giver mulighed for at sammenligne links lavet af forskellige linkere. På den måde skaber vi domain-ekspert links, som vi kan beskrive kvaliteten af, hvilket igen gør det muligt at måle kvaliteten af de computergenererede links.
Link-Lives ophører sommeren 2025, men Rigsarkivet har besluttet at videreudvikle kompetencer, metoder og redskaber fra Link-Lives. Visionen er, at der på sigt etableres en stadigt voksende forsknings-infrastruktur, Historisk Person Register (HisPeR), som successivt kan integrere nye historiske datasæt, både fra Rigsarkivets egne transskriberingsprojekter og fra andre institutioner. I oplægget fortæller vi, hvordan vi skaber livsforløbene, formidler vores data, og giver eksempler på, hvilke nye problemstillinger, man kan belyse med denne infrastruktur.
Som at pode gamle sorter på et nyt æbletræ – arbejdet med at bringe legacy stednavnedata i spil i moderne forskning og formidling?
Peder Gammeltoft (Universitetsbiblioteket, Universitetet i Bergen)
Norge var meget tidligt ude med at digitalisere centrale værker og kilder. Først ude var Registreringscentral for historiske data ved Universitetet i Tromsø, men digitaliseringsindsatsen tog fart i sidste halvdel af 1990'erne, da Dokumentasjonsprojsektet (Universitetet i Oslo) og Digitalarkivet (Arkivverket) gik i gang med at massedigitalisere. I tillæg har universiteter og fylkeskommunale arkiver også digitaliseret regionale samlinger.
Disse digitaliseringsindsatser er naturligvis prisværdige, men én ting har manglet i arbejdet – en fælles digitaliseringspraksis. Det har betydet at emnespecifikke digitaliseringer er blevet til på forskellig måde og med vidt forskellig struktur. For stednavnedigitaliseringer er resultatet et sammensurium af materialetyper, der dele er koordinatsat, andre har lyd og billeder, hvorimod andet igen er afskrifter af kildeværker, m.m.
I stednavneforskerkredse har der længe været et ønske om at have en fælles indgang for digitale stednavnekilder med fælles navneopslag, men digitaliseringseksperter har til stadighed påstået det var umuligt at koordinere data på en sådan måde. Men med navneteoretisk og -metodisk indsigt, er dette fuldt muligt. Språksamlingane ved Universitetsbiblioteket i Bergen har de sidste år arbejdet på dette – og nu er resultatet her: Stadnamnportalen, der millionvis af kildeformer kan tilgås – både som enkeltkilder og som del af stednavnopslag – til gavn i forskning og formidling. Denne præsentation viser vejen til det ’umulige’ – som i princippet minder om at pode frugttræer.
Digitale Historier – Historien om retrodigitaliseringen på Det Kgl. Bibliotek
Stig Svenningsen, Peter Thiesen, Ulla Bøgvad Kejser og Ditte Laursen (Det Kgl. Bibliotek)
Starten på den digitale transformation af bibliotekssektoren kan spores tilbage til 1970’erne, og i 1980’erne begyndte retrodigitalisering af bibliotekernes kataloger. I 1990’erne fulgte retrodigitalisering af de fysiske samlinger, og senere indsamling af elektronisk fødte materialer.
Hvor digitaliseringen af kataloger lettede fremsøgning af materialer og forvaltningsmæssige processer, så markerede retrodigitaliseringen starten på en mere fundamental transformation i brugen af samlinger. Retrodigitaliseringen af de fysiske samlinger har tilvejebragt helt nye muligheder for forskning og formidling, samtidig med at brugen i mange tilfælde er gjort uafhængig af adgang på de fysiske læsesale. Retrodigitaliseringen ophæver mange af den fysiske verdens begrænsninger for brugen af samlingerne på tværs af geografi og materialemæssige skel. Digitaliseringen kommer dog med en pris. Meget store dele af de fysiske samlinger er ikke digitaliseret, og digitaliseringen risikerer derfor at marginalisere de fysiske samlinger, da brugen er ressourcekrævende.
De valg, som bliver taget i forbindelse med udvælgelse af materialer til digitalisering, har således stor betydning for hvilke materialer der er til rådighed. Imidlertid er det som bruger af Det Kgl. Biblioteks samlinger vanskeligt at danne sig et overblik over de valg og fravalg, samt tekniske og juridiske muligheder som ligger til grund for udvælgelsen af materialer. Brugerne efterspørger, med rette, transparente kriterier for prioritering af værker og samlinger til digitalisering og dermed også begrundelser for fravalg. Meget af denne information eksisterer kun internt i organisationen og den er ikke veldokumenteret.
Med dette oplæg ønsker vi at undersøge hvordan retrodigitalisering på Det Kgl. Bibliotek som et udtryk for den digitale transformation af bibliotekssektoren har udviklet sig over tid, og hvordan skiftende tekniske og forvaltningsmæssige forhold har påvirket de retrodigitaliserede samlinger som i dag er tilgængelige på de digitale bibliotekshylder.
Kunstig intelligens kan gøre (det meste af) arbejdet - design af specialiseret AI-software til katalogisering
Michael Monefeldt (Syddansk Universitetsbibliotek)
Jeg har udviklet et AI-drevet værktøj, Urania. Det skal hjælpe med at katalogisere de mange uregistrerede særsamlinger på SDU’s Bibliotek, med det formål at forbedre adgangen til de fysiske materialer for forskere, studerende og øvrige interessenter.
Med min nye digitale løsning skal de biblioteksansatte blot tage et billede af et titelblad med deres mobil. Derpå OCR-behandler programmet billederne og kategoriserer elementerne i den digitaliserede tekst (titel, forfatternavn, etc.), så alt havner i de rigtige kasser i systemet. Tests fortæller os, at værktøjet kan spare biblioteket mere end 90% af arbejdsbyrden.
Det er vigtigt at forholde sig kritisk til computer vision og AI-generet materiale, da ingen af teknologierne leverer fejlfrie resultater endnu. Og Urania er netop udviklet ud fra et princip om, at vi ikke kan have blind tillid. Den kunstige intelligens er ét element i et større og mere intelligent design, som tager højde for, at alt skal efterses.
Det er min overbevisning, at løsningen på SDU kan mindske bias, når det kommer til metadatering. Det ville kræve ufattelige mængder ressourcer at registrere alle samlingerne manuelt, og derfor tyr vi til det mest naturlige alternativ: De samlingsansvarlige udvælger og registrerer, hvad de anser for værende af størst betydning. Hvert valg er dog også et fravalg – fysiske originaler, der kunne have værdi for forskere, forbliver usynlige, og et stort forskningspotentiale går tabt. Med Urania bliver det langt mere realistisk at opnå en fuldstændig registrering af samlingerne.
Serendipitsk kontekstualitet: Alt det udenom som (retro)digitalisering giver os
Muhamed Fajkovic (Det Kgl. Bibliotek)
Søgningsaktiviteter i digitale arkiver involverer ofte ”heldige træf” — vi finder brugbare resultater på måder, som kan forekomme ”tilfældige”: Det var ikke vores mål at finde netop disse resultater, og vi havde ikke forestillet os, at de fandtes (1,2). Dette kan skyldes alt fra, at vores søgehandlinger er højt idiosynkratiske, til at det serendipitiske er en indkalkuleret mekanisme i disse arkiver (3).
I dette oplæg vil jeg gerne definere og introducere en særlig underart af denne type situation og især dens effekt: serendipitisk kontekstualisering.
Det sker nemlig især i retro-digitaliserede arkiver, at vi finder frem til de ønskede objekter, men opdager ofte, at de kommer akkompagneret af alle slags “paratekstuelle” elementer. Disse “paratekstualier” er den serendipitiske ingrediens her; de er ofte biprodukter af digitaliseringsprocessen og står langs hovedobjektets tærskel, tynget af deres tvetydighed: uden for objektet, men stadigvæk en integreret og uadskillelig del af det. Altså: biblioteksstempler, ikke-relaterede reklamer, en projektmedarbejders finger, som også blev scannet under digitalisering, og mange forskellige andre — de kan være sjove, lærerige eller endda meget værdifulde; per definition er de uforudsigelige og spøgelsesagtige.
Jeg vil reflektere over flere eksempler på dette, som jeg er stødt på gennem arbejdet med mine seneste publicerede aktiviteter (4,5). Jeg vil argumentere for, at disse uventede ”gaver” kan hjælpe os med at etablere enten historisk, socio-kulturel eller litteraturhistorisk kontekst; min hovedtese er dog, at ethvert forsøg på at arbejde systematisk med dem ikke alene ville være forgæves, men også ville betyde at benægte det grundlæggende i deres væsen.
En digital repræsentation af en bys historie
Søren Bitsch Christensen (Det Kgl. Bibliotek)
Arkivopgaven er under forandring for offentlige GLAM-institutioner. Én kilde til forandring er arkivarprofessionens teoretiske og praktiske udvikling under indtryk af the archival turn’s fokus på repræsentation og decentraliseret arkiv- og erindringspraksis. En anden er omverdenens forventninger med målgrupper, der kan være både bredere og mere specifikke end tidligere. En tredje er den offentlige sektors forandring i retning af økonomisering, selvbetjening og samskabelse. Den fjerde kilde forener alle tre og sætter sin egen turbo på. Det er digitaliseringen. Både af arkivmaterialet, processeringen af data, kommunikationen og katalogiseringen.
Oplægget vil fortælle om arbejdet med at skabe en digital strategi for en lokal bevaringsinstitution på Aarhus Stadsarkiv. Strategien omfattede tråde mellem arkivsystem, formidlingskanaler, accessioner, offentlig it-infrastruktur og inddragelse af offentlighed og citizen scientists. I sidste instans med det formål at udvikle og kvalificere lokalsamfundets politiske strukturer, beslutningsdygtighed, oplysningsniveau, fællesskabsfølelse og deltagelse.
Store it, Don’t Show It: Opbygning af bæredygtige infrastrukturer for digitale videnskabelige udgaver
Katrine F. Baunvig, Krista S. G. Rasmussen, Kirsten Vad og Jon Tafdrup (Aarhus Universitet)
Omfanget af digitale videnskabelige udgaver er omsiggribende. Men projekterne er præget af (over)fokus på kortsigtede visninger på diverse hjemmesider frem for langsigtet bevaring af det kulturarvsmateriale, de bearbejder. På trods af standardiserede produktionsprocesser mangler der således bæredygtige løsninger til samlende data management-strategier. Det fører til isolerede soloprojekter, hvis fremtidige tilgængelighed er usikker.
Vi opfordrer på den baggrund interessenter fra universiteter, GLAM-institutioner, fonde og politikere til at samarbejde om at en dansk infrastruktur, der sikrer klar arbejds- og ansvarsdeling for dataproduktion, kortsigtet materialebrug og langsigtet opbevaring.
Ved at tilpasse os FAIR-principperne sigter vi mod at beskytte kulturarven og opfordrer fonde til at prioritere bæredygtige opbevaringsløsninger som en forudsætning for støtte.
Brugen af kulturarvsdata i tværfaglig historisk sundhedsforskning
Mads Villefrance Perner (Roskilde Universitet)
I den hektiske tid under første bølge af COVID-19-pandemien blev det klart, at historien har stor værdi for sundhedsforskere og policy makers. Det nye patogen blev sammenlignet direkte med de historisk store influenzaudbrud i 1918-20, 1957-58 og 2009-10, og mediebilledet var fyldt med fortællinger om pest, kolera, og andre fortidige sundhedskriser.
På det nye grundforskningscenter PandemiX - Center for the Interdisciplinary Study of Pandemic Signature Features er studiet af historisk epidemiologi en central komponent i arbejdet for at bygge en vidensbase, der kan forberede os på den næste pandemi.
Mit oplæg handler om et af centrets projekter, der skal gøre os klogere på fortidens sygdomme, gennem en social og rumlig kortlægning af det store fald i dødeligheden - den såkaldte epidemiologiske transition - i København i årene ca. 1860 til 1940. Til det formål anvendes primært Rigsarkivets folketællinger og Københavns Stadsarkivs begravelsesprotokoller, men også et bredt udvalg af digitaliserede arkivalier, kort og trykte publikationer, som kan bruges til at berige grunddataen på forskellig vis. Oplægget illustrerer både mulighederne og udfordringerne ved brugen af kulturarvsdata i en sundhedsvidenskabelig kontekst, og lægger samtidig vægt på hvordan kulturarvsdata kan komme i spil på måder, man måske ikke havde forestillet sig.
Hvordan arkiverne med AI og tekstgenkendelse kan bidrage til personlig medicin og ny viden
Jeppe Klok Due (Rigsarkivet)
Den digitale tidsalder blev kickstartet i 1968 med etableringen af et unikt individ-id i CPR-registret. Fra da af kan man kombinere oplysninger om sundhed, sygdom og sociale forhold for alle danskere. Det har gjort Danmark ledende indenfor registerforskning, fordi forskere kan studere sammenhænge om fx vacciner og bivirkninger, som ikke kan studeres andre steder i hele verden. Men biologiske og historiske tendenser og kausaliteter rækker længere tilbage end 1968. Hvis forskere fx vil studere sammenhænge mellem det føtale miljø repræsenteret ved fødselsvægten og udvikling af stofskiftesygdomme, så kan kun studere det for nulevende individer over halvtreds år, som først lige kommet i risikoalderen for stofskiftesygdomme.
Vil man forstå trends der rækker længere tilbage end 1970’erne må man på Rigsarkivet, som har oplysninger om alle danskere fra vugge til grav. Problemet er bare at de ligger relativt utilgængelige på papir. Rigsarkivet bruger AI metoder til billedanalyse og tekstgenkendelse for at etablere historiske registre om de millioner af individer, der ligger gemt i arkiverne. Når oplysningerne samtlige individer linkes til CPR-registret, får de et helt nyt anvendelsespotentiale, idet forskere ikke længere behøver lede efter oplysninger om individer med karakteristika, diagnoser, men kan studere samtlige individer. Det vil fx give forskere mulighed for at analysere sammenhængen mellem fødselsvægt og udvikling af stofskiftesygdomme senere i livet for samtlige individer, der er har haft en stofskiftesygdom. Hvis der eksisterer sådanne sammenhæng, vil det enkelte individ kunne få oplysninger om sin egen fødselsvægt, hvorved dette kan indgå i et eventuelt valg af personligt behandlingsforløb eller forebyggelse.
Fortidige kontekster og latente betydningsrum: Digitaliseringen af enevældens aviser
Johan Heinsen og Camilla Bøgeskov (Aalborg Universitet)
I løbet af de seneste to år har historikere ved AAU arbejdet på at gen-digitalisere enevældens adresseaviser. På stående fod dækker korpus de fleste store aviser frem til ca. 1830. Aviser fra Christiania og Bergen er også inkluderet indtil 1814. Det samlede tekstmateriale er på omkring 380.000 sider, der er digitaliseret ved hjælp af forskellige machine learning-værktøjer herunder Transkribus til layout og tekstgenkendelse, samt en kombination af word2vec og randomforest til segmenteringen af den genkendte tekst. Tekstgenkendelsen har en høj præcision – c. 97% på ordniveau. Sammenlignet med den oprindelige OCR i Mediestream (c. 50% præcision) er dette en forbedring, der åbner for mange nye muligheder. Projektet er work in progress.
Vores paper vil præsentere arbejdet med aviserne samt de perspektiver, der ligger i at træne såkaldte word- og paragraph-embeddings på materialet. Grundlæggende risikerer digitaliseringsprojekter som vores at skabe indgange til samlinger, der ved at basere sig på keyword-søgning isolerer små bidder af tekst og giver en form for kontekstuel blindhed. Vi håber at kunne skabe alternative ruter igennem materialet, der åbner for læsninger informeret af overlappende kontekster. Embedding-teknikker er nyttige i denne sammenhæng, fordi de placerer mange elementer i et abstrakt, komprimeret betydningsrum af numeriske vektorer, der kan bruges computationelt. Paperet vil præsentere nogle eksempler, på hvordan dette kan åbne for kontekstudforskning.
Åpen tilgang til nettarkiv: Digital tekstanalyse av nyheter fra nett
Jon Tønnesen (Nasjonalbiblioteket)
Nasjonalbiblioteket (NB) har siden 1990-tallet arkivert enorme mengder innhold fra nett.
Samlingen har stor potensiell verdi for forskning og kunnskapsproduksjon, men tilgangen har lenge vært begrenset av hensyn til opphavsrett og personvern. Et sentralt spørsmål er hvordan samlingen kan tilbys til flere, samtidig som etiske og juridiske forpliktelser overholdes.
Presentasjonen vil vise arbeidet med å gi åpen tilgang til et korpus med mer enn 1,5 mill. tekster fra nettaviser. Ved å tilby nettavis-tekst som data gjennom NBs Laboratorium for digital humaniora (DH-lab) muliggjør vi fjernlesing i stor skala, i tråd med FAIR-prinsipper, samtidig som vi ivaretar hensyn til opphavsrett og personvern.
Jeg vil først gå gjennom hvordan tekstinnholdet hentes ut fra «arkivoriginalen» og omformes til et egenartet tekstobjekt, gjennom:
a) ekstraksjon fra Web ARChive-filer (WARC),
b) scoping og filtrering av korpus,
c) tokenisering av tekst til databaser.
Deretter vil jeg demonstrere hvordan brukeren kan skreddersy korpus for egen bruk og
analysere tekster i stor skala – både med brukervennlige web-apper, og programmatisk med notebooks mot API. Demonstrasjonen synliggjør noe av tilnærmingens begrensninger, men også de store mulighetene som åpnes for digital tekstanalyse av innhold fra nett.
Avslutningsvis vil jeg diskutere hvordan samlinger som data gir bredere tilgang og nye perspektiver på nettarkiv: Åpen tilgang gjør at nyhetstekst kan tas i bruk i nye sammenhenger,slik som undervisning ved universitetene. Med brukervennlige web-apper senkes også terskelen for fjernlesing av store tekstvolum, slik at også ikke-teknikere kan benytte verktøy for analyse av store samlinger med digitalt skapt materiale.
Fællessangsbegrebet i danske aviser
Anne Agersnap (Aarhus Universitet)
Det Kgl. Biblioteks avisarkiv Mediestream er en helt afgørende ressource i aktuel forskning i dansk fællessangskultur. På Enhed for Sangforskning ved Aarhus Universitet anvender vi arkivet til at undersøge fællessangsbegrebets kulturhistoriske udvikling fra 1788-2001. Tidligere undersøgelser af fællessangens brug og historie har ofte fokuseret på udgivelser af sangbøger eller beskæftiget sig med konkrete fællesskaber, der aktivt har brugt fællessang til at mobilisere og vedligeholde fællesskaber. Man har med andre ord ofte kigget mod empiri, der i sig selv har været centreret omkring fællessang som fænomen.
I min igangværende undersøgelse giver digitaliserede aviser mig mulighed for at observere begrebets funktion og udvikling i en genre, der ikke er sat i verden for at skrive og udlægge fællessang. De giver mulighed for at observere, hvordan fællessangsbegrebet ”økologisk” har udviklet sig over tid i den offentlige diskurs og hvilke semantiske felter, det bevæger sig ind og ud ad. I mit paper vil jeg præsentere arbejdet med at sample, læse og analysere avisartikler indeholdende ordet ”fællessang”. Jeg vil fremhæve muligheder og udfordringer ved at arbejde med indscannede aviser, og jeg vil præsentere foreløbige fund omhandlende fællessangsbegrebets repræsentation og udvikling i danske aviser.
Se min kjole. Muligheder og udfordringer ved at anvende “computer vision” på Det Kgl. Biblioteks fotografier fra 1870-1950
Laura Søvsø Thomasen (Det Kgl. Bibliotek), Mette Kia Krabbe Meyer (Det Kgl. Bibliotek), Henrik Kragh Sørensen (Københavns Universitet)
Det Kgl. Biblioteks omfattende digitaliserede billedarkiver giver mulighed for at træne forskellige modeller på fotografier fra perioden 1870-1950. Selvom man i dag ganske let kan få adgang til billedgenkendelse og “object detection" med store modeller, så har det vist sig, at hvis man ønsker at analysere ældre fotografier, kan det være en større udfordring: En 1910’er-bil kan ganske enkelt ikke genkendes som en bil, og det gælder også i vidt omfang for klædedragt etc., der så helt anderledes ud end for 100 år siden.
Ved at træne en object-detection-model på billeder fra Det Kgl. Biblioteks Elfeltsamling (ca. 180.000 billeder) og Visitkortsamlingen (ca. 14.000 billeder) har vi nu mulighed for at skabe en “vintage detektor”, som er trænet specifikt på ældre fotografier. Det vil være et meget brugbart værktøj i forskning ikke kun inden for mode, men i historisk forskning generelt. For eksempel i forskningsprojektet ”Queer kvinder 1880-2020”, hvor Mette Kia Krabbe Meyer undersøger, hvordan kvindefrigørelsen hang sammen med ændringer i klædedragt. Det vil også have en betydning for andre områder. For eksempel kan en datering foretaget på baggrund af klædedragt anvendes i forskning generelt.
Detektoren vil anvende samlingerne, men også på sigt trykt materiale, varehuskataloger etc. Det vil være et revolutionerende værktøj i forhold metadatering og søgning generelt. Her kan det danne grundlag for et human-in-the-loop system, hvor oplysninger kan fødes ind og anvendes.
I dette oplæg vil vi vise nogle af de muligheder og faldgrubber, der er ved en vintage detektor. Endvidere vil vi diskutere, hvordan nye måder at genere og tænke om metadata også påvirker, hvordan man stiller interessante forskningsspørgsmål til store datamængder. Vi illustrerer i oplægget processen med at integrere spørgsmål, teknik og data i en specifik case om kjoler. Det leder os til at skulle gentænke, hvordan metadata fremstilles og bruges.
Kommentering i en digital tidsalder. Udforskning og automatisering af editionsfaglige
kommentarer i digitale, tekstkritiske udgivelser
Kirsten Vad og Katrine Frøkjær Baunvig (Aarhus Universitet)
Den tekstkritiske punktkommentar forbinder tekstens tilblivelseskontekst med læserens nutid og fungerer som en demonstration af en videnskabelig udgaves relevans og formidlingsevne. Dette paper undersøger, hvordan kunstig intelligens (AI) kan anvendes til at skærpe og forbedre punktkommentaren i digitale tekstkritiske udgaver (DSE).
Det er relevant at diskutere punktkommentarens rolle i digitale udgaver og undersøge, hvordan komputationelle metoder kan anvendes i udgivelsesarbejdet – kan AI f.eks. bruges til at generere punktkommentarer automatisk? Fokus vil være på udgivelsesprojektet Grundtvigs Værker (GV), suppleret med erfaringer fra andre nordiske projekter.
GV har udgivet 56% af det samlede Grundtvig-korpus (N=1073). I udgivelsen af N.F.S. Grundtvigs (1783-1872) forfatterskab genanvender vi flere former for data, såsom information om personer, steder og mytologiske entiteter, der lagres i databaser og anvendes på tværs af tekster. Automatiseringsværktøjer bruges til fx udpegning og opmærkning af entiteter. Alle verbalkommentarer – p.t. 143.316 – er manuelt opmærket, ofte med gentagelser af ord, der kræver forklaring i deres historiske kontekst.
Vi ønsker at skitsere, hvordan AI-modeller kan identificere og forklare kommentarkrævende ord for at effektivisere udgivelsesprocessen. Anvendelsen af AI i produktion, visning og udforskning af kulturarvsdata har allerede kastet nyt lys over Grundtvigs forfatterskab (Baunvig 2023; Baunvig og Nielbo 2022). Vi ser et stort udviklingspotentiale inden for editionsfilologien og tekstkritisk udgivelse – og vi ønsker med dette oplæg at eksemplificere, hvordan såvel diskriminativ og generativ AI kan implementeres i en tekstkritisk udgivelsesproces.
Call for papers
NB: Abstracts kan ikke længere indsendes.