1.4 Estructuración de los Datos

Para poder analizar los datos con >abilidad es necesario que exista una cierta estructuración y coherencia entre los mismos [11].

Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, y a su vez estas pueden ser tanto internas como externas.

Surge aquí la necesidad de conjugar los distintos >cheros y bases de datos de manera que se pueda utilizarlos para extraer conclusiones.

Solucionados los inconvenientes de heterogeneidad de las fuentes, surgen otros problemas relacionados a la estandarizacion de los datos:

  • Diferentes tipos de datos representando el mismo concepto (ejemplo: la representación de fecha, donde al año se lo puede guardar con dos o cuatro dígitos).
     
  • Diferentes claves para representar el mismo elemento (ejemplo: un mismo cliente puede ser representado por un código de cliente o por un NIF).
     
  • Diferentes niveles de precisión al representar un dato (ejemplo: los números reales no siempre se almacenan de la misma forma, y es posible que generen algún problema.

Como se ve, la estructuracion de los datos no es sencilla y esto se agrava cuando los diferentes >cheros se encuentran en sistemas informáticos y soportes diferentes.

Por ello la calidad de los resultados está directamente relacionada con la correcta comprensión y posterior estructuración de los datos almacenados.

Lo razonable sería recoger los datos (información histórica) en un sistema separado y especí>co. Nace el Data-Warehousing: Almacenes o Bodegas de Datos, con la necesidad de uni>car los distintos >cheros y bases de datos para poder comprenderlos. Por ello, se necesita de tecnologías que sirvan de guía para comprender el contenido de las Bases de Datos.