Guide til ejere af hjemmesider

Formålet med guiden er at forbedre mulighederne for, at en hjemmeside kan gemmes med succes i netarkivet, og dermed leve op til pligtafleveringslovens intentioner.

Det Kgl. Bibliotek kan aldrig garantere, at et site er høstet komplet. Men vi får mere med, hvis du som ejer af en hjemmeside har fulgt anvisningerne i denne guide.

Det vigtigste

Hav et sitemap med links til ALLE sider og data, der skal arkiveres, inklusiv eventuelle paginerede sider
(../result.php?page=1, ../result.php?page=2 etc.). 

Kald det "sitemap.xml" og læg det i roden af hjemmesiden. Hvis du ikke kan linke til en side, kan den ikke arkiveres!

Link til sitemap skal du skrive i robots.txt

Tilføj også gerne vigtige ressourcer (for eksempel PDF-filer, jsondata, billeder, lyd- og videofiler) direkte i sitemap eller i et andet sitemap, der linkes til.

  • Hav alle nødvendige ressourcer på det samme domæne
    Det inkluderer Javascript-filer, CSS, medier, billeder og så videre. Vores crawlere får kun i stærkt begrænset omfang indhold med, som ligger på andre domæner.
     
  • Overvej at bruge eksplicitte links til dine mediefiler og liste dem i hjemmesidens sitemap
    Crawleren kan downloade visse typer af lyd-/visuelle filer, men det afgørende er, om crawleren kan opdage dem i første omgang. Hvis stien (URL) til videoen er skjult, for eksempel i et JavaScript eller Flashsetup, vil crawleren ikke kunne finde dem.
     
  • Mistet data
    Data, der ikke er til rådighed på siden umiddelbart, når den tilgås, opfanges ikke af vores crawlere. Det gælder for eksempel ajaxindhold, uendeligt scroll og paginering uden href-links. Sider, der kun kan nås på den måde, bør tages med i sitemap.
     
  • Test din side med Javascript slået fra
    Så får du en idé om, hvad vores crawler kan se.
     
  • Søgefelter og andre indtastningsformularer stopper typisk vores crawler
    Det samme gælder POSTrequests. Er der sider, der kun kan tilgås på den måde, bør der linkes til dem i hjemmesidens sitemap.
     
  • Undgå brug af dynamiske URLs
    Uanset om det er links, kalendere, kontaktformularer og så videre. Undgå generelt brug af "uendelige" muligheder, som for eksempel i kalendermoduler. Begræns dem om muligt til kun at omfatte realistisk tid.
     
  • Aktive links
    Sørg for, at alle links fungerer på din hjemmeside; hvis din hjemmeside indeholder ødelagte links, vil kopier af din hjemmeside også have ødelagte links.
     
  • Giv adgang
    For at vi kan arkivere og vise din hjemmeside korrekt, skal vores crawler have adgang til alle de ressourcer, der bestemmer, hvordan hjemmesiden vises, herunder billeder, scripts og stylesheets. Vi bruger Heritrixcrawleren, og crawlerens user agent identificerer sig som:

    Mozilla/5.0 (compatible; heritrix/3.4.0 https://www.kb.dk/netarkivindsamling/ Firefox/57
     
  • Undgå "forkerte" http-statuskoder 
    Hvis en side ikke kan findes, så svar med 404, ikke 200. Når der svares med 200, tror crawleren, at den er på rette vej.
     
  • Dato og tid
    Hvis siden viser dato og tid, så brug datoen genereret af serveren i stedet for datoen på klientens side. En dato genereret dynamisk af klienten vil for evigt vise aktuel dato, ikke datoen for arkivering.
     
  • RSS-feed
    Tilbyd gerne et RSS-feed til nyt indhold, hvis din hjemmeside opdateres ofte med nye sider/artikler og så videre. På den måde kan netarkivet indsamle det nyeste indhold uden at skulle crawle hele hjemmesiden igennem. Husk link til rssfeed i hjemmesidens sitemap.
     
  • Alle browsere
    Design altid også til browsere, der ikke understøtter JavaScript eller har deaktiveret JavaScript.
     
  • Alternativ adgang
    Giv alternative adgangsmetoder til indhold, så for eksempel simpel HTML.
     
  • Overhold webstandarder
    Det er generelt god praksis at overholde aktuelle webstandarder og validere din kode mod aktuelle webstandarder: http://validator.w3.org/
     
  • Afvist materiale
    Vi kan ikke acceptere "dumps" eller "backups" af hjemmesider fra indholdsstyringssystemer, databaser, på harddiske, CD'er eller DVD'er eller andre eksterne medier i arkivet. Kun øjebliksbilleder, der direkte crawles af vores system, accepteres. Derfor kan det ofte betale sig at gøre hjemmesiden arkiverbar fra starten – husk sitemap.
     
  • Indlejret indhold
    Indlejring af indhold på en side ved hjælp af en tredjepartstjeneste gør det usandsynligt, at webcrawleren vil være i stand til at læse og gemme det. Eksempler på indlejringstjenester omfatter Youtube, Flickr, Scribd, SlideShare, Storify og SoundCloud.
     
  • Hold fast i domænet
    Man bør beholde ejerskabet af hjemmesidens domæne, efter det sidste crawl af hjemmesiden er foretaget, og efter det er lukket for at:
    • Undgå cybersquatting
    • Eventuelt henvise til at hjemmesiden er arkiveret i netarkivet