Pro vydavatele
- Základní informace
- Creative Commons
- Spolupracující vydavatelé
- Podpořte nás
- Navrhněte zdroj
- Generátory
O projektu
Obsah WebArchivu
Napsali o nás
Právní linka (5/2013)
Príma receptář (3/2013)
Základní škola Bruntál (2/2013)
Přibližovadla.cz (6/2012)
CzechFolks.com PLUS (5/2012)
Neviditelný pes (2/2012)
NETzin.cz (1/2012)
VysokeSkoly.cz (9/2011)
Honzíkovy vláčky (7/2011)
Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)
Fakta
WebArchiv obsahuje 60,3 TB dat k 1. 6. 2012. První dokument byl archivován 3.9.2001.
Stáhněte si naše logo!
Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:
Náš web je pod licencí
Noví partneři
19.5.2013
Aktuálně byla uzavřena smlouva s autory těchto webových stránek:
Náš region
Krajská hygienická stanice Jihočeského kraje se sídlem v Českých Budějovicích
Obec Pěnčín
Krajská galerie výtvarného umění ve Zlíně
Český svaz jerseyského skotu
Svaz výrobců skla a bižuterie
Ústav biologie obratlovců Akademie věd ČR, v.v.i.
Svaz chovatelů ovcí a koz Česká republika
CELKEM:
3760 uzavřených smluv
Novinky
10.05.12
Článek o WebArchivu
Na stránkách CzechFolks.com PLUS publikoval český novinář a spisovatel Miroslav Sígl článek věnovaný WebArchivu.
26.04.12
Výroční zasedání IIPC 2012, Washington
Ve dnech 30. 4. až 4. 5. 2012 se koná ve Washingtonu výroční zasedání International Internet Preservation Consortium (IIPC) včetně jednodenní otevřené konference. Více informací a program konference na stránkách
IIPC.
4.04.12
Výběrová sklizeň duben 2012
Byla spuštěna výběrová sklizeň zdrojů se smlouvou s frekvencí sklízení 6x a 12x ročně. Více na našem blogu.
29.03.12
Přednáška o WebArchivu
Přednáška na téma “WebArchiv a jeho budoucnost” v rámci Jinonických informačních pondělků se uskuteční 2. 4. od 14 hod. v prostorách UISK FF UK v Jinonicích. Více na blogu.
14.03.12
Anketa
Na blogu můžete hlasovat o zařazení zdroje do výběrových sklizní WebArchivu. Je to poprvé, kdy používáme anketu pro hlasování. Více na blogu v článku.
Charakteristika Webarchivu
WebArchiv vznikl v rámci programového projektu výzkumu a vývoje „Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet“ (Ministerstvo kultury ČR). Projekt je řešen od roku 2000 v Národní knihovně České republiky, financován téměř výhradně z grantové podpory. Spoluřešitelem odpovědným za informační technologie je Moravská zemská knihovna v Brně, externím spolupracovníkem je Ústav výpočetní techniky Masarykovy univerzity v Brně. V roce 2006 obdržel projekt WebArchiv cenu INFORUM.
Úloha projektu WebArchiv
V prostředí internetu průběžně narůstá obrovské množství publikovaných dokumentů, které se postupně mění nebo zcela mizí. Pokud nebudou průběžně archivovány, tato významná součást národního kulturního dědictví bude nenávratně ztracena. Odpovědnost za archivaci webových zdrojů a jejich registraci v národní bibliografii nesou národní knihovny, příp. další depozitní knihovny.
Úlohou projektu WebArchiv je řešení problematiky archivace národního webu, tj. bohemikálních dokumentů zveřejněných v prostředí sítě Internet – shromažďování webových zdrojů, jejich archivace a ochrana a zajištění dlouhodobého přístupu k těmto archivovaným dokumentům. Provádí se jednak kompletní archivace, tj. automatický sběr „celého“ českého webu. Souběžně probíhá výběrová archivace (na základě URL nejzajímavějších webových zdrojů vybraných na základě selekčních kritérií) a tématické archivace (zaměřené na určité aktuální téma, např. volby, povodně apod.). V současné době je stav řešení na úrovni výzkumu a testování. K provádění rutinních činností je zapotřebí jednak podstatné navýšení financování projektu, jednak řešení stávající legislativy zejména autorsko-právní tak, aby umožňovala zpřístupňování archivovaných zdrojů.
Získávání
Získávání dokumentů z webu je po technické stránce převážně automatický proces, kdy se na základě zadaných parametrů ve speciálním SW nástroji stahují data, indexují a ukládají do digitálního archivu. V současné době se používají a přizpůsobují volně dostupné SW nástroje s otevřeným zdrojovým kódem (Heritrix) na serveru vyčleněném pro archivaci. Nezbytnou součástí akvizice je stanovení kritérií výběru zdrojů a výběrová archivace jako intelektuální činnost s cílem registrace nejvýznamnější části publikací na Internetu v České národní bibliografii (ČNB). Praktické řešení získávání dokumentů je podmíněno řešením legislativy, zejména zákonné úpravy povinného výtisku.
Archivace a ochrana
Stažená data (webové zdroje a metadata) jsou ukládána v archivu v archivačních formátech, které by měly zajistit v rámci vývoje informačních technologií migraci dat a tím jejich trvalé zpřístupnění. Vedle serveru slouží pro archivaci diskové pole.
Zpřístupnění
Pro zpřístupnění je v současné době využíván druhý server, který je stěží dostačující pro současné experimentální zpřístupnění malého souboru dat. Pro fulltextovou indexaci je využíván volně dostupný systém Nutch a nad ním postavená rozšíření Nutchwax a WERA.
Standardy
Ve všech oblastech jsou důsledně aplikovány mezinárodní standardy – pro popis online zdrojů formáty MARC21, Dublin Core, XML; pro identifikaci zdrojů jednoznačné mezinárodní identifikátory (ISSN, URN); pro archivaci formát ARC.
Popisy dokumentů vybraných pro Českou národní bibliografii a konzervační fond jsou experimentálně ukládány v systému ALEPH, který disponuje podporou protokolu Z39.50 na úrovni klient i server a podporou OAI-PMH pro režim repository i harvesting s profilem pro MARC 21 a kvalifikovaný DC.
Legislativa
Současná legislativa upravující povinnost vydavatelů odevzdávat určeným knihovnám povinný výtisk je pro publikované online zdroje nevyhovující. Současná verze Autorského zákona neumožňuje zpřístupňování dat z digitálního archivu (konzervační fond). Pro zpřístupnění je zásadním problémem současná verze Autorského zákona.



