O projektu

Identifikační kód projektu: DG18P02OVV016

Zahájení projektu: 1. 3. 2018

Ukončení řešení projektu: 31. 12. 2022

Cíle projektu přispívají k naplnění Globálního cíle č. 2: Kulturní dědictví programu NAKI II, kde přímo navazují na jednotlivé specifické cíle v této oblasti. Globální cíl č. 2: Kulturní dědictví vymezuje oblast řešení problematiky využití, identifikace a prezentace ohroženého kulturního dědictví.

Společenské změny

Výrazné rozšíření webu od jeho vzniku na počátku 90. let minulého století vedlo k enormnímu nárůstu elektronického publikování a webové prostředí se stalo významných zdrojem pro studium nedávné historie a současných politických, sociálních a kulturních jevů. Vzhledem k dynamické povaze webu je práce s webovými zdroji odlišná od ostatních zdrojů: každý den narůstá počet webových zdrojů, ale zároveň další obrovské množství zdrojů zaniká, mění svou podobu, obsah nebo adresu. Dnešní vědci a výzkumníci běžně využívají online publikované zdroje pro svoji práci, ale studie z roku 2014 provedená na Harvard Law School ukázala, že více než 70 % citací tohoto typu zdrojů neodkazuje na správný obsah (Zittrain 2014).

Archivace Internetu

Webové archivy, jakožto informační zdroje pro badatelskou činnost, nabývají v posledních pěti letech v zahraničí na významu. Vedle zájmu tradičních společenskovědních oborů, jako např. historie či sociologie, vznikají nové transdisciplinární obory zkoumající vztahy mezi technologiemi a společností. Tyto obory kombinují zavedené metodologie společenských věd s aplikovanou počítačovou vědou (Risse, 2014; Brügger, 2013). Ve světě jsou zastřešovány prestižními univerzitami, jako je Oxford University (University of Oxford, 2001), Stanford (Center for Internet and Society, 2000) nebo MIT (Massachusetts Institute of Technology, 1998). Webové archivy v zahraničí již několik let spolupracují s širokou badatelskou obcí, jmenovitě např. webový archiv Britské knihovny, evropský Internet Memory Foundation či kalifornský Internet Archive. Existují národní a mezinárodní výzkumné iniciativy pracující primárně s daty webových archivů (RESAW, 2014).

Nekonečný zdroj informací

Dnes jsou webové archivy využívány tak, že jsou prohledávány pomocí adres webových stránek. Webové archivy ale nesou celou řadu potenciálních informací, jež umožňují úplně jiný způsob jejich použití (Leetaru, 2012). Např. je možné pomocí analýzy dat sledovat historické propojení webových stránek v archivu, vývoj HTML kódu, proměny digitálních formátů či vývoj nálad na webech apod. (Reynolds, 2013). Potenciál uložených dat je využitelný napříč obory a v zahraničí již nějakou dobu vznikají nové studie, které využívají jako primární zdroj dat právě webové archivy. Nicméně zatím neexistuje jednotný systém, jak mohou sdílet webové archivy svá data s badateli.

Nástroje pro výzkum

S narůstajícím počtem požadavků ze strany badatelů se ukazuje, že badatelé nejsou schopni jednoznačně definovat, jakou část dat z webových archivů potřebují, často chtějí všechna data, i když je ke svému výzkumu nepotřebují a nemají na jejich zpracování dostatečné výpočetní kapacity, ale zároveň webové archivy nejsou schopny pružně na tyto požadavky reagovat. Ve světe začaly vznikat iniciativy, které se snaží klást větší důraz na zvýšení komunikace a navázání spolupráce s badateli, na vývoj technologií, budování lokálních počítačových kapacit a na školení a rozvoj dovedností pro práci s datovými soubory (Truman 2016). Například britský a portugalský webový archiv realizují aplikovaný výzkum vyhledávače zohledňujícího specifika archivovaných webových dat (Costa, 2014). Ještě zásadněji než o fulltextové vyhledávání se badatelská obec zajímá o možnosti analytického zpracování webových dat automatizovaným způsobem a přístupu k výsledným datovým souborům (Weikum, 2011).