Guide til websiteejere

Formålet er at forbedre mulighederne for, at et website kan gemmes med succes i Netarkivet, og dermed leve op til pligtafleveringslovens intentioner.

Vigtigst!

Hav et sitemap med links til ALLE sider og data der skal arkiveres, inkl. evt. paginerede sider
(../result.php?page=1, ../result.php?page=2 etc.).


Kald det "sitemap.xml" og læg det i roden til sitet. Hvis du ikke kan linke til en side, kan den ikke arkiveres!


Link til sitemap skrives ind i robots.txt


Tilføj også gerne vigtige ressourcer (fx PDF-filer, jsondata, billeder, lyd- og videofiler) direkte i sitemap eller i et andet sitemap der linkes til.

  • Hav alle nødvendige ressourcer på det samme domæne.
    Javascript-filer, CSS, medier, billeder etc. Vores crawlere får kun i stærkt begrænset omfang ressourcer med, som ligger på andre domæner.
     
  • Overvej at bruge eksplicitte links til dine mediefiler, og liste dem i sitets sitemap.
    Crawleren kan downloade visse typer af lyd-/visuelle filer, men det afgørende er, om crawleren kan opdage dem i første omgang. Hvis stien (URL) til videoen er skjult, f.eks. i et JavaScript eller Flashsetup, vil crawleren ikke kunne finde dem.
     
  • Data der ikke er til rådighed på siden umiddelbart når den tilgås, opfanges ikke af vores høstere. Det gælder fx. ajaxindhold, uendeligt scroll og paginering uden href-links. Sider der kun kan nås på den måde, bør medtages i sitemap.
     
  • Test din side med Javascript slået fra.
    Så får du en idé om, hvad vores høster kan se.
     
  • Søgefelter og andre indtastningsformularer stopper typisk vores crawler.
    Det samme gælder POSTrequests. Er der sider der kun kan tilgås på den måde, bør der linkes til dem i sitets sitemap.
     
  • Undgå brug af dynamiske URLs
    Uanset om det er links, kalendere, kontaktformularer etc. Undgå generelt brug af 'uendelige' muligheder, som f.eks. i kalendermoduler. Begræns dem om muligt til kun at omfatte realistisk tid.
     
  • Sørg for, at alle links fungerer på dit websted; hvis dit websted indeholder ødelagte links, vil kopier af dit websted også have ødelagte links.
     
  • For at Netarkivet kan arkivere og vise dit websted korrekt, skal vores crawler have adgang til alle de ressourcer, der bestemmer, hvordan webstedet vises, herunder billeder, scripts og stylesheets. Vi bruger Heritrixcrawleren, og crawlerens user agent identificerer sig som:

    Mozilla/5.0 (compatible; heritrix/3.4.0 https://www.kb.dk/netarkivindsamling/ Firefox/57
     
  • Undgå 'forkerte' http-statuskoder. Hvis en side ikke kan findes, så svar med 404 ikke 200. Når der svares med 200, tror crawleren at den er på rette vej.
     
  • Hvis siden viser dato og tid, så brug datoen genereret af serveren i stedet for datoen på klientens side. En dato genereret dynamisk af klienten, vil for evigt vise aktuel dato, ikke datoen for arkivering.
     
  • Tilbyd gerne et RSS-feed til nyt indhold, hvis dit website opdateres ofte med nye sider/artikler etc. På den måde kan Netarkivet høste det nyeste indhold, uden at skulle crawle hele sitet igennem. Husk link til rssfeed i sidens sitemap.
     
  • Design altid også til browsere, der ikke understøtter JavaScript eller har deaktiveret JavaScript.
     
  • Giv alternative adgangsmetoder til indhold, såsom simpel HTML.
     
  • Det er generelt god praksis at overholde aktuelle webstandarder og validere din kode mod aktuelle webstandarder: http://validator.w3.org/
     
  • Vi kan ikke acceptere 'dumps' eller 'backups' af websteder fra indholdsstyringssystemer, databaser, på harddiske, CD'er eller DVD'er eller andre eksterne medier i arkivet. Kun øjebliksbilleder, der direkte crawles af vores system, accepteres. Derfor kan det ofte betale sig at gøre sitet arkiverbart fra starten – husk sitemap.
     
  • Indlejring af indhold på en webside ved hjælp af en tredjepartstjeneste, gør det er usandsynligt at webcrawleren vil være i stand til at læse og gemme det. Eksempler på indlejringstjenester omfatter Youtube, Flickr, Scribd, SlideShare, Storify og SoundCloud.
     
  • Man bør beholde ejerskabet af webstedets domæne, efter at det sidste crawl af webstedet er foretaget efter sitet er lukket, for at:
    - Undgå cybersquatting.
    - Evt. henvise til at sitet er arkiveret i Netarkivet.