Detección de datos con ruido en bases de datos utilizando herramientas OLAP

Resumen

Para realizar una correcta auditoría de sistemas es necesario que los datos incluidos en las bases de datos posean calidad, por tal motivo es necesario analizar si es posible la detección de ruidos en una base de datos, utilizando una herramienta de visualización OLAP.

Para detectar ruido a través de técnicas de visualización OLAP1 utilizamos una metodología Top-Down, intentando ir desde lo general a lo particular. De esta forma, en cada etapa vamos refinando cada vez mas la granularidad del ruido detectado, hasta lograr aislar cada tupla con ruido.

Durante el proceso de experimentación primeramente se selecciona la fuente de datos, una vez obtenida esta, se genera una matriz de dispersión. Para lograr visualizar como se agrupa los valores de cada atributo de manera clara, se aplica un desplazamiento aleatorio sobre los valores en los ejes x e y (Jitter), para identificar los atributos cuya dispersión represente la probabilidad de ruido. Sobre los atributos en los que se observe alguna irregularidad, se genera un gráfico de dispersión (Scatter). Nuevamente para lograr una mejor visualización de la agrupación de los datos aplicamos un Jitter. Así se identifican el rango de valores en los que se presenta el ruido y con este y el de cada atributo se realiza una consulta a la base de datos para aislarlo.

Debido a lo antes expuesto, hemos visto que para detectar el ruido de una manera más rápida y clara, es necesario aplicar una pequeña variación aleatoria de los valores de X e Y (Jitter). Esto genera una leve dispersión de los puntos en los gráficos y nos permite identificar a simple vista en que rango de valores se concentra cada atributo y en que rango el ruido existente.

A través de esta investigación hemos demostrado que utilizando herramientas de visualización OLAP es posible identificar el ruido presente en una base de datos e incluso, si se desea, es posible aislarlo.

De esta manera se obtienen dos segmentos de la base de datos, uno con ruido y otra sin ruido presente.

Creemos que esto es un aporte muy útil para investigadores y personal de sistemas en general que necesiten trabajar con bases de datos limpias de ruido, así como también, para los auditores de sistemas para la búsqueda de datos con ruido.

Adjunto Size
Deteccion de Ruido con OLAP.pdf 162 bytes