Webarchiv uchovává český web


Pro první seznámení s webarchivem pokračujte zde


Terminologie

Webová archivace

Archivace webu je proces, který zahrnuje získávání webových zdrojů, jejich ukládání, trvalé uchování, ochranu a v neposlední řadě i jejich zpřístupnění.

Selekce

Webarchiv jako součást Národní knihovny se v rámci celoplošných sklizní zaměřuje na archivaci zdrojů ležících na národní doméně *.cz. V rámci výběrové a tematické sklizně však není nutné, aby jednotlivé zdroje měly českou doménu, podmínkou je jejich bohemikální charakter (viz Kritéria výběru). Zdroje, které jsou předmětem archivace (např. www.nkp.cz), mohou mít více semínek (URL adres, např. www.nkp.cz, http://wwwold.nkp.cz/), třeba při přesměrování na novou adresu nebo při její změně.

Sklízení webu

Jde o proces sběru dat z webu, který spočívá v automatizovaném mapování, vyhledávání a stahování určitých webových stránek pomocí crawlerů na základě definovaných parametrů. Crawler je speciální počítačový program, který dokáže automaticky procházet a stahovat webové stránky. Používají je nejen internetové vyhledávače, ale i jednotlivé webové archivy. Webarchiv používá crawler Heritrix, který vytvořil Internet Archive. Jedná se o open software.

Uchování

Pro uchování obrazu webu v původní podobě využíváme formát WARC - Web ARChive určený k uložení webových sklizní vytvořených v rámci archivace.

Zpřístupnění

Zpřístupnit archiv široké veřejnosti můžeme díky dalšímu open softwaru z dílny Internet Archive. Wayback machine (doslova stroj času) je zobrazovací software, který koncovému uživateli umožňuje snadné prohlížení archivovaného obsahu, včetně přehledné časové osy.