Magazzini Digitali

logo Magazzini Digitali

 

Il progetto Magazzini Digitali, avviato nel 2006 dalla Fondazione Rinascimento Digitale, dalla Biblioteca Nazionale Centrale di Firenze e dalla Biblioteca Nazionale Centrale di Roma si propone di mettere a regime nel 2011 un sistema per la conservazione permanente dei documenti elettronici pubblicati in Italia e diffusi tramite rete informatica, in attuazione della normativa sul deposito legale (L. 106/2004, D.P.R. 252/2006).

La conservazione digitale, come è oramai ben noto, non si esaurisce solo in procedure di natura tecnologica. Le strategie volte ad evitare la perdita dei bit o a prevenire le dipendenze dall'hardware o dal software sono infatti solo una parte del problema. Vanno tenute nel conto dovuto le implicazioni economiche (la sostenibilità), la necessità di selezionare cosa è necessario conservare per le generazioni future, gli aspetti legali legati alla normativa sul diritto d'autore, la necessità delle cooperazione fra le istituzioni titolari del deposito legale

Ai fini del progetto, la conservazione digitale può essere definita come un servizio pubblico fornito da depositi digitali affidabili o fidati (trusted o trustworthy digital repositories)  in grado di assicurare, per le risorse digitali depositate,  la Leggibilità a livello di bit da parte di una macchina (Viability), la Interpretabilità a livello di formato (per esempio: pdf, doc ecc.) da parte di un elaboratore (Renderability),  l'Autenticità (Authenticity) intesa come  identità e integrità dell'oggetto digitale, e la effettiva Disponibilità (Availability) per le comunità designate (comunità di riferimento, interessate all'uso di quelle risorse)

Il nome del progetto richiama intenzionalmente i magazzini delle biblioteche titolari del deposito legale. Come definito da uno storico progetto europeo sulla conservazione digitale (NEDLIB, svoltosi dal 1997 al 2000): "For us, as memory organizations, this means we have to move from paper-based stacks to digital stacks". Per molti aspetti i magazzini digitali sono comparabili a quelli convenzionali: le risorse digitali devono essere conservate indefinitamente; i magazzini digitali crescono man mano che si aggiungono nuove risorse; modifiche o cancellazioni di risorse non sono di norma possibili; è impossibile predefinire la frequenza d'uso delle risorse, alcune delle quali non saranno mai utilizzate, o lo saranno raramente.   


Lo scopo del progetto è stato quello di impiantare un'infrastruttura tecnologica con caratteristiche di permanenza.  Dando per assodato che i guasti o le disfunzioni dei vari componenti sono la norma piuttosto che l'eccezione, l'infrastruttura è basata sulla replica dei dati (macchine differenti collocate in luoghi differenti) e su componenti hardware semplici e universalmente diffusi, non dipendenti dai produttori, e che possono essere sostituiti facilmente: in altre parole, semplici personal computer. Inoltre, l'infrastruttura non è dipendente da software proprietario ma si basa su sistemi operativi e servizi a codice sorgente aperto (open source).
Attualmente un normale personal computer può facilmente immagazzinare  fino ad 8 terabyte di dati, su 4 dischi da 2000 gigabyte, usando tecnologie SATA diffusissime ed economiche .  La replica dei dati si basa su  comuni programmi di utilità (utility) per la sincronizzazione dei dischi  come rsync e,   per evitare dipendenze hardware come ad esempio le dipendenze da un determinato  disk controller, non viene utilizzato il RAID hardware.

Grazie al finanziamento della DGBID (Direzione Generale per le Biblioteche, gli Istituti Culturali e il Diritto d'Autore), l'attuale prototipo di Magazzini digitali sta ora evolvendo in un servizio operativo basato su due siti principali di deposito, gestiti dalla Biblioteca Nazionale Centrale di Firenze e dalla Biblioteca Nazionale Centrale di Roma, e da un dark archive gestito dalla Biblioteca Nazionale Marciana di Venezia. Naturalmente la Fondazione Rinascimento Digitale continuerà a supportare e promuovere il servizio.

Ciascun sito principale si compone di un insieme di nodi indipendenti ed autonomi.  A sua volta ogni nodo è formato da un insieme di computer che gestiscono in autonomia le attività di acquisizione dei dati (ingest). Ciascun nodo su un determinato sito ha un corrispondente nodo replica sull'altro sito.  Magazzini digitali non si basa quindi su un'architettura sito principale/sito replica (master site  mirror site) dato che  ciascun sito contiene, in maniera simmetrica, sia i nodi master che i nodi mirror. Ciascun file fisico è replicato due volte su computer diversi all'interno della stesso nodo. Anche il dark archive contiene due copie di ciascun file su due differenti computer. All'interno di Magazzini digitali, dunque, ciascun file fisico è replicato sei volte.

Collocare uno dei siti principali a Firenze sulle rive dell'Arno e l'altro a Venezia in Piazza San Marco, soggetta al noto fenomeno dell'acqua alta, avrebbe costituito una seria minaccia per la sicurezza complessiva del servizio. Si è dunque deciso di collocare tutto l'hardware presso centri di elaborazione dati esterni, selezionati sulla base del possesso del requisito di base della certificazione secondo lo standard internazionale ISO 27001. Ciascun istituto (BNCF, BNCR, BNM) selezionerà tre differenti centri di elaborazione dati posseduti e gestiti da tre differenti aziende, al fine di ridurre un possibile effetto domino. Tali centri dovranno inoltre essere distanti l'uno dall'altro non meno di duecento chilometri, al fine di ridurre il rischio derivante da eventi catastrofici naturali. Questa architettura basata sullo standard ISO 27001 formerà la base per una specifica certificazione di Magazzini digitali come archivio digitale affidabile (o fidato).

Per maggiori informazioni:  Digitalia, 5(2010), n. 2, pp. 144-153 (versione online; pdf, 129kb).

Per il servizio di deposito delle tesi di dottorato online: http://www.depositolegale.it.




doc. n. 1049 del 14/04/2011