Web archiving

La Biblioteca Nazionale Centrale di Firenze, nell’ambito del servizio Magazzini Digitali, raccoglie, conserva e rende accessibili in maniera permanente contenuti web di interesse per la cultura e la storia italiane.

 

Il progetto

I siti web e i documenti in essi contenuti sono considerati oggetti digitali “effimeri”: chiunque, infatti, navigando sul Web ha fatto esperienza dei cosiddetti “link rotti”, vedendosi restituire l’errore 404.

È però altrettanto indubbio che essi siano una fonte ormai imprescindibile per la storia e la cultura contemporanee.

Per questo motivo, nel 2018 la BNCF, nell’ambito del più ampio servizio di conservazione e accesso a lungo termine alle pubblicazioni digitali, ha avviato un programma di Web archiving, in maniera analoga e complementare a quanto già fanno le grandi istituzioni della memoria del resto del mondo.

Sulla base delle previsioni normative della legge sul “Deposito legale dei documenti di interesse culturale destinati all’uso pubblico” (L. 106/2004 e D.P.R. 252/2006), vengono raccolti in via prioritaria:

  • documenti e siti che garantiscono la continuità delle collezioni già avviate, anche su supporti e mediante tecnologie tradizionali;
  • documenti e siti concernenti la produzione scientifica delle università, dei centri di ricerca e delle istituzioni culturali;
  • documenti e siti elaborati e messi in rete da soggetti pubblici.

Per la raccolta e l’accesso ai siti archiviati, la Biblioteca si avvale della piattaforma Archive-it.

Fatte salve particolari esigenze, la raccolta viene effettuata di norma un paio di volte all’anno.

Come aderire

In Italia, il deposito legale dei documenti diffusi tramite rete informatica non è obbligatorio, pertanto l’adesione al programma è su base volontaria ed è sufficiente compilare l’apposito form online.

La Biblioteca si riserva successivamente di contattare gli enti e le istituzioni aderenti per definire l’opportunità della raccolta e verificarne i requisiti tecnici.

Requisiti tecnici per la raccolta

Per poter effettuare la raccolta automatica (harvesting), i siti devono:


È, inoltre, consigliabile:

  • raccogliere in un’unica pagina e/o directory del sito le pubblicazioni di interesse culturale (es. “Pubblicazioni” o in sottosezioni uniformi es. “Mobilità > “Documentazione”; “Servizi sociali > “Documentazione”), non solo per facilitarne la ricerca e l’accesso da parte dei normali utenti del sito, ma anche per velocizzare le attività di selezione, raccolta e metadatazione del materiale ai fini della conservazione.
    È possibile anche l’uso del Protocollo Sitemap per indicare, con maggiore precisione, al crawler di Archive-it quali sono le pagine utili per la scansione;
  • nominare in maniera coerente i file rispetto al contenuto e/o ad altra documentazione cui sono legati (es. fascicoli diversi di una stessa rivista, numeri di una collana…);
  • non pubblicare gli stessi file in parti diverse del sito ma prediligere i link interni.

 

Limiti alla cattura
  • L’harvesting di siti o sezioni di sito ad accesso limitato è possibile se vengono fornite alla BNCF le credenziali; l’harvesting non può invece operare se il sito fa uso di CAPTCHA.
  • I siti e/o le parti di sito realizzati in Flash e Javascript che, notoriamente, sono difficilmente indicizzabili dai motori di ricerca che non riconoscono linguaggi diversi dall’HTML, per lo stesso motivo non possono essere oggetto di raccolta con le attuali tecnologie. Se ne sconsiglia l’uso.
  • I documenti per la cui visualizzazione è previsto un viewer integrato nel sito (es. Sfogliami.it, PressReader ecc…), anche se vengono raccolti, non sono quasi mai visualizzabili con gli attuali sistemi di replay di Archive-it.
    Qualora per ragioni legati alla facilità di fruizione di questi oggetti non sia possibile o auspicabile dismettere tali piattaforme, bisognerà prevedere la pubblicazione sul sito anche di una versione scaricabile dei documenti o una diversa modalità di deposito.

Archiviabilità dei siti web

La Biblioteca sta lavorando ad un elenco di criteri di archiviabilità dei siti web, che saranno pubblicati su questa pagina e sul sito di Magazzini Digitali.
I criteri diverranno prescrittivi al momento dell’entrata in vigore del regolamento sul deposito legale dei documenti diffusi tramite rete informatica.

Per ora è possibile fare riferimento alle indicazioni contenute sui siti, entrambi in inglese, della rete delle biblioteche di Stanford e della Library of Congress.

Segnaliamo anche la possibilità di usare il validatore ArchiveReady per verificare la rispondenza del proprio sito ai criteri di archiviabilità.

Accesso alle collezioni

I siti archiviati sono stati organizzati in otto collezioni, all’interno della più ampia Collezione BNCF di Archive-it:

    1. Associazionismo
    2. Enti e istituti di ricerca
    3. Enti e istituzioni culturali
    4. Istituti del MIBACT
    5. Open Access Journal
    6. Ordini e associazioni professionali
    7. Pubblica amministrazione
    8. Testate giornalistiche e siti di notizie

Al momento della compilazione del form per la richiesta di adesione al servizio, i titolari dei siti web possono scegliere se consentire l’accesso pubblico da qualsiasi postazione online o l’accesso ristretto dalla sola rete interna della BNCF.

Contributi online in italiano

La lista seguente è assolutamente parziale e in continuo accrescimento.

2020
Web archiving e pandemia

2019

2018

Contatti

È sempre possibile scrivere o telefonare a:

Chiara Storti | Resp. Magazzini Digitali e Web Archiving
info@depositolegale.it e chiara.storti@beniculturali.it
tel. 055 24919219