Guide til ejere af hjemmesider
Formålet er at forbedre mulighederne for, at en hjemmeside kan gemmes med succes i netarkivet, og dermed leve op til pligtafleveringslovens intentioner.
Det Kgl. Bibliotek kan aldrig garantere, at et site er høstet komplet. Men vi får mere med, hvis du som ejer af en hjemmeside har fulgt anvisningerne i denne guide.
Det vigtigste
Hav et sitemap med links til ALLE sider og data, der skal arkiveres, inklusiv eventuelle paginerede sider
(../result.php?page=1, ../result.php?page=2 etc.).
Kald det "sitemap.xml" og læg det i roden til hjemmesiden. Hvis du ikke kan linke til en side, kan den ikke arkiveres!
Link til sitemap skrives ind i robots.txt
Tilføj også gerne vigtige ressourcer (for eksempel PDF-filer, jsondata, billeder, lyd- og videofiler) direkte i sitemap eller i et andet sitemap, der linkes til.
- Hav alle nødvendige ressourcer på det samme domæne
Det inkluderer Javascript-filer, CSS, medier, billeder og så videre. Vores crawlere får kun i stærkt begrænset omfang ressourcer med, som ligger på andre domæner.
- Overvej at bruge eksplicitte links til dine mediefiler og liste dem i sitets sitemap
Crawleren kan downloade visse typer af lyd-/visuelle filer, men det afgørende er, om crawleren kan opdage dem i første omgang. Hvis stien (URL) til videoen er skjult, for eksempel i et JavaScript eller Flashsetup, vil crawleren ikke kunne finde dem.
- Mistet data
Data, der ikke er til rådighed på siden umiddelbart, når den tilgås, opfanges ikke af vores høstere. Det gælder for eksempel ajaxindhold, uendeligt scroll og paginering uden href-links. Sider, der kun kan nås på den måde bør medtages i sitemap.
- Test din side med Javascript slået fra
Så får du en idé om, hvad vores høster kan se.
- Søgefelter og andre indtastningsformularer stopper typisk vores crawler
Det samme gælder POSTrequests. Er der sider, der kun kan tilgås på den måde, bør der linkes til dem i sitets sitemap.
- Undgå brug af dynamiske URLs
Uanset om det er links, kalendere, kontaktformularer et cetera. Undgå generelt brug af 'uendelige' muligheder, som for eksempel i kalendermoduler. Begræns dem om muligt til kun at omfatte realistisk tid.
- Aktive links
Sørg for at alle links fungerer på dit websted; hvis dit websted indeholder ødelagte links, vil kopier af dit websted også have ødelagte links.
- Giv adgang
For at vi kan arkivere og vise din hjemmeside korrekt, skal vores crawler have adgang til alle de ressourcer, der bestemmer, hvordan hjemmesiden vises, herunder billeder, scripts og stylesheets. Vi bruger Heritrixcrawleren, og crawlerens user agent identificerer sig som:
Mozilla/5.0 (compatible; heritrix/3.4.0 https://www.kb.dk/netarkivindsamling/ Firefox/57
- Undgå 'forkerte' http-statuskoder
Hvis en side ikke kan findes, så svar med 404, ikke 200. Når der svares med 200, tror crawleren, at den er på rette vej.
- Dato og tid
Hvis siden viser dato og tid, så brug datoen genereret af serveren i stedet for datoen på klientens side. En dato genereret dynamisk af klienten, vil for evigt vise aktuel dato, ikke datoen for arkivering.
- RSS-feed
Tilbyd gerne et RSS-feed til nyt indhold, hvis dit website opdateres ofte med nye sider/artikler et cetera. På den måde kan Netarkivet høste det nyeste indhold uden at skulle crawle hele sitet igennem. Husk link til rssfeed i sidens sitemap.
- Alle browsere
Design altid også til browsere, der ikke understøtter JavaScript eller har deaktiveret JavaScript.
- Alternativ adgang
Giv alternative adgangsmetoder til indhold, såsom simpel HTML.
- Overhold webstandarder
Det er generelt god praksis at overholde aktuelle webstandarder og validere din kode mod aktuelle webstandarder: http://validator.w3.org/
- Afvist materiale
Vi kan ikke acceptere 'dumps' eller 'backups' af websteder fra indholdsstyringssystemer, databaser, på harddiske, CD'er eller DVD'er eller andre eksterne medier i arkivet. Kun øjebliksbilleder, der direkte crawles af vores system, accepteres. Derfor kan det ofte betale sig at gøre sitet arkiverbart fra starten – husk sitemap.
- Indlejret indhold
Indlejring af indhold på en webside ved hjælp af en tredjepartstjeneste gør det usandsynligt, at webcrawleren vil være i stand til at læse og gemme det. Eksempler på indlejringstjenester omfatter Youtube, Flickr, Scribd, SlideShare, Storify og SoundCloud.
- Hold fast i domæne
Man bør beholde ejerskabet af hjemmesidens domæne, efter at det sidste crawl af hjemmesiden er foretaget efter det er lukket, for at:
- Undgå cybersquatting
- Eventuelt henvise til at hjemmesiden er arkiveret i netarkivet