¿Qué es la deduplicación de datos?

28 junio 2009, 07:54

Carlos Roberto

Uno de los principales problemas hoy en día en la empresa es la ingente cantidad de datos que tenemos guardados y de estos además las copias de seguridad, la copia incremental, la copia de pánico y otra que tengo yo en local por si hay algún problema con el servidor seguir trabajando en local. Llega un momento que por muchos discos duros que amplíes esto crece de forma exponencial y es muy difícil de controlar. Una de las opciones para intentar frenar la escalada cuanto menos en el tema de las copias de seguridad lo tenemos con la deduplicación de datos, pero ¿qué es la deduplicación de datos?

Esta técnica de respaldo elimina los datos redundantes almacenados, guardando una única copia idéntica de los datos, y reemplazando las copias redundantes por indicadores que apuntan a esa única copia. Vamos a intentar explicarlo con un ejemplo. Pongamos una empresa con 50 empleados que reciben un correo enviado a toda la empresa de 1MB. Si cada usuario guarda el archivo adjunto en su ordenador, la copia se replicará 50 veces cuando se realice el respaldo de los puestos de trabajo, lo que consumirá 49MB más de espacio de lo necesario.

Un sistema de copias de seguridad que utilice la técnica de la deduplicación guarda sólo una vez el archivo y reemplaza las demás por un enlace a dicho archivo, o un indicador que apunta a esta única copia. Este sistema consigue ahorrar espacio ocupado por las copias de seguridad lo que nos ayudadará a ahorrar costes en discos duros y cintas, así como recuperar con mayor rapidez los datos desde la copia.

Depende del sistema que tengamos montado podemos optar por distintos tipos de soluciones de deduplicación:

Dentro de este segundo nivel se pueden dividir también en el momento en el que se produce el procesamiento de deduplicación de datos, que lógicamente llevará un tiempo. Hay soluciones que calculan y buscan archivos comunes en segundo plano o fuera de banda, dirigiendo estos cálculos hacia la memoria intermedia y ejecutándose de forma que no interfieren en el proceso del servidor y la copia. Otras soluciones lo realizan en tiempo real, lo que puede provocar cierto retardo.

Todas estas optimización del espacio que ocupan nuestros datos suelen venir en los paquetes de copias de seguridad, aunque no únicamente y existe distinto software específico para el servidor par evitar estos problemas de duplicación de datos. Utilizando estas técnicas se consiguen ahorros de espacio en torno a 3:1 y 500:1. Estas soluciones son muy recomendables si se realiza backup en la nube donde el espacio es más limitado y caro que en local.

Quizás en un empresa pequeña con una buena disciplina y organización de la estructura de carpetas, o un gestor documental sencillo no sería necesario implementar un sistema como éste pero a poco que no se cumplan ciertos criterios será recomendable para que no se nos vaya de las manos el espacio que ocupamos. Es una forma de no tener problemas en la organización documental y el espacio que nos ocupa, así la empresa tendrá posibilidades de asumir el crecimiento futuro.

Foto | imelenchon
En Tecnología Pyme | Qué es la gestión documental