2020-01-27 10:24:04

Završeno deveto harvestiranje nacionalne domene

Nacionalna i sveučilišna knjižnica u Zagrebu u suradnji sa Sveučilišnim računskim centrom Sveučilišta u Zagrebu (Srce) provela je od 24. prosinca 2019. do 3. siječnja 2020. godine deveto harvestiranje hrvatskoga weba. Prikupljeni su i pohranjeni javno dostupni sadržaji svih mrežnih sjedišta na vršnoj .hr domeni, uključujući from.hr i .com.hr.

Uspješno je odrađeno 164 433 348 upita te je harvestiranjem preuzeto 16 TB sadržaja spremljenoga u format WARC. WARC datoteke komprimirane su te zauzimaju 9,3 TB diskovnoga prostora.

Korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila CARNet-ova DNS služba, a pobiranje je provedeno pomoću alata otvorenoga koda Heritrix. Robot koji je provodio harvestiranje predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.4.0-SNAPSHOT-2019-05-22T20:43:22Z +http://haw.nsk.hr/faq).

Sadržaj devetoga harvestiranja .hr domene bit će uskoro dostupan na stranici Hrvatskoga arhiva weba, gdje se mogu pregledavati sadržaji pohranjeni u prethodnih osam harvestiranja, tematska harvestiranja, kao i sadržaji prikupljeni selektivnim pobiranjima.


www.skole.hr