[Home Page]

WebArchiv

WebArchiv vznikl v rámci programového projektu výzkumu a vývoje „Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet“ (Ministerstvo kultury ČR). Projekt zabývající se archivací českého webu je řešen od roku 2000 v Národní knihovně České republiky a je financován téměř výhradně z grantové podpory. Spoluřešitelem odpovědným za informační technologie je Moravská zemská knihovna v Brně, externím spolupracovníkem je Ústav výpočetní techniky Masarykovy univerzity v Brně. V roce 2006 obdržel projekt WebArchiv cenu INFORUM.

Úlohou projektu WebArchiv je řešení problematiky archivace národního webu, tj. českých dokumentů zveřejněných v prostředí sítě Internet – shromažďování webových zdrojů, jejich archivace a ochrana a zajištění dlouhodobého přístupu k těmto archivovaným dokumentům. Provádí se zejména kompletní archivace, tedy automatický sběr „celého“ českého webu.

Pro zpřístupnění je v současné době využíván server, který stěží dostačuje pro experimentální zpřístupnění malého souboru dat. Pro fulltextovou indexaci je využíván volně dostupný systém Nutch a nad ním postavená rozšíření Nutchwax a WERA. V současné době projekt sdružuje přes 134 mil. dokumentů, což je dohromady více než 5400 GB dat.

Jaroslav Burian

vyvěšeno: 21.03.2007
poslední aktualizace: 26.03.2007
ID článku: 2431
další informace: www.webarchiv.cz/

Tento příspěvek zde zveřejnil přispěvovatel Jaroslav Burian a nemusí vyjadřovat názory a stanoviska redakce


Z časopisu Zeměměřič č. 07-01a02
[Server] Internet [Pošta]