Secondo l’
articolo di
Stephen Lawson, Dell sta spostando il proprio campo di interesse verso la sfera della
deduplication. Il concetto non è nuovo anche se la tecnologia lo è almeno relativamente. Già a fine settembre,
NetApp aveva annunciato la sua intenzione di utilizzare la
deduplication embedded nella tecnologia VMware garantendo un minimo del 50% di spazio di immagazzinamento risparmiato. Ma che cos’è la
deduplication e come funziona?
La
data deduplication (a volte chiamata anche
intelligent compression o
single-instance storage)
è un metodo per il risparmio dello spazio fisico di immagazzinamento dei dati, ottenuto mediante la riduzione dei dati ridondanti scrivendo i blocchi una sola volta e indicizzando tutti i successivi riferimenti. Ad esempio, in un mail server vi possono essere 100 e-mail con lo stesso allegato da 1 MB, richiedendo quindi 100 MB di spazio di archiviazione. Con la
deduplicazione dei dati l’allegato viene salvato una sola volta e facendo riferimento in tutte le altre e-mail a questa singola versione si ottiene un risparmio del 99%.
Secondo l’articolo di
Storagemojo, in un mondo di dati non strutturati la
deduplicazione dello
storage primario è un passo ormai ovvio se non necessario. Uno studio di
NetApp ha però portato ad alcuni risultati anomali: solo il 66% dei file immagazzinati viene riaperto; meno dell’1% dei client esegue il 50% delle richieste di accesso ai dati; il file sharing è piuttosto raro e più del 76% dei file è aperto da un singolo client; il file sharing concorrente è molto raro, tanto che solo il 5% dei file è aperto da più di un utente contemporaneamente e nel 90% dei casi si tratta di sola lettura; la maggior parte dei file non ha pattern comuni.