Výstup projektu

WACloud: Centralizované rozhraní pro vytěžování velkých dat z webového archivu

WACloud: Centralizované rozhraní pro vytěžování velkých dat z webového archivu je nástroj, který umožňuje badatelům práci s archivními webovými daty. Pro generování a kategorizaci textových výstupů využívá pokročilé postupy strojového zpracování a pomocí fulltextového a fasetového vyhledávání nabízí široké možnosti definice datových setů. Badatelé tak mohou na základě svých požadavků získávat relevantní data pro svůj další výzkum. Analýza témat a jejich automatická detekce je založena na základě hlubokých neuronových sítí, používány jsou i postupy rozpoznávání informací z video nebo audio souborů. Rozhraní umožňuje získávání datasetů napříč daty webového archivu, což otevírá nové možnosti pro jejich analýzu.

WACloud: Centralizované rozhraní pro vytěžování velkých dat z webového archivu:

https://github.com/WebarchivCZ/WACloud

Exportní aplikace:

https://github.com/WebarchivCZ/WACloud_ExportApp

Dokumentace a uživatelský manuál:

https://github.com/WebarchivCZ/WACloud_Docs

Lokalizace

Software je dostupný na webové adrese: https://www.wacloud.nkp.cz v budově Národní knihovny ČR.

Dedikace

Tato ověřená technologie vznikla v rámci projektu „Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů“ č. DG18P02OVV016 financovaného z programu na podporu aplikovaného výzkumu a vývoje národní a kulturní identity (NAKI II, Ministerstvo kultury ČR).