Comprensión de datos

Comprensión de datos Dataprix 15 Septiembre, 2007 - 16:02
  1. Comprensión de Datos

    1. Recolección de datos iniciales

Tarea Recoger datos iniciales

Obtener los datos (o el acceso a los datos) listados en los recursos de proyecto. Esta colección inicial incluye carga de datos, si es necesario para la comprensión de datos. Por ejemplo, si usted tiene la intención de usar una herramienta específica para comprender los datos, es lógico cargar sus datos en esta herramienta.

Salida Informe de la recolección de datos inicial

Describir toda la variedad de datos usados para el proyecto, e incluya cualquier requerimiento de selección para datos más detallados. El informe de colección de datos también debería definir si algunos atributos son relativamente más importantes que otros.

Recuerde que cualquier evaluación de calidad de datos debería ser hecha no solamente de las fuentes de datos individuales, pero también de algunos datos que son resultado de fuentes de datos que se combinan. Por inconsistencias entre las fuentes, los datos combinados pueden presentar los problemas que no existen en las fuentes de datos individuales.

Actividades Planificación de requerimientos de datos

Planee que información es necesaria (por ejemplo, sólo para atributos determinados, o la información adicional específica)

Comprobar si toda la información necesaria (para resolver los objetivos de la minería de datos) esta en realidad disponible

Criterios de selección

  • Especificar los criterios de selección (por ejemplo, ¿Qué atributos son necesarios para los objetivos específicos de minería de datos? ¿Que atributos han sido identificados como no pertinentes? ¿Cuantos atributos podemos manejar con las técnicas escogidas?)

  • Elegir tablas/archivos de interés

  • Elegir datos dentro de una tabla/archivo

  • Pensar cuanto tiempo de una historial habría que usar (por ejemplo, si 18 meses de datos están disponibles, sólo 12 meses pueden ser necesarios para el ejercicio)

¡Tenga cuidado!

Estar consciente de que los datos recolectados de diferentes fuentes pueden dar lugar a problemas de calidad cuando sean combinados (Por ejemplo, los archivos de dirección combinados con una base de datos de cliente pueden mostrar inconsistencias de formato, invalidez de datos, etc.).

Inserción de datos

  • Si los datos contienen libre entradas de texto, ¿tenemos que codificarlos para modelar o necesitamos agruparlos en entradas específicas?

  • ¿Cómo podemos encontrar atributos omitidos?

  • ¿Cómo podemos mejorar la extracción los datos?

¡Buena Idea!

Recordar que algún conocimiento sobre los datos puede estar disponible de fuentes no-electrónicas (Por ejemplo, de gente, de texto impreso, etc.).

Recordar que puede ser necesario a preproceso de los datos (datos de serie tiempo, promedios ponderados, etc.).

    1. Descripción de datos

Tarea Describir datos

Examine las propiedades "gruesas" de los datos obtenidos y el informe sobre los resultados.

Salida Informe de descripción de datos

Descripción de los datos que han sido obtenidos, incluyendo el formato de los datos, la cantidad de los datos

(Por ejemplo, el número de registros y campos internos de cada tabla), las identidades de los campos, y cualquier otro rasgo superficial que haya sido descubierto.

Actividades Análisis Volumétrico de datos

  • Identificar datos y métodos de captura

  • Acceder a las fuentes de datos

  • Usar análisis estadísticos si es apropiado

  • Reportar las tablas y sus relaciones

  • Compruebe el volumen de datos, el número de múltiplos, la complejidad

  • Notar si los datos contienen entradas de texto libres

Atributo tipos y valores

  • Comprobar la accesibilidad y disponibilidad de atributos

  • Comprobar los tipos de atributos (numérico, simbólico, la taxonomía, etc.)

  • Comprobar el rango de valores de los atributos

  • Analizar los atributos correlativos (correlaciones de atributo)

  • Comprender el significado de cada atributo y clasificar (describir) el valor en términos de negocio

  • Para cada atributo, calcular la estadística básica (por ejemplo, calcule la distribución, el promedio, el máximo, el mínimo, la desviación estándar, la varianza, la moda, la inclinación, etc.)

  • Analizar la estadística básica y relacionan los resultados con su significado en términos de negocio

  • Decidir si el atributo es relevante para los objetivos específicos de la minería de datos

  • Determinar si el significado del atributo es usado coherentemente (conscientemente)

  • Entrevistar a expertos de dominio para obtener su opinión sobre la importancia de los atributos

  • Decidir si es necesario equilibrar los datos (basado en las técnicas que modelan a ser usado)

Claves

  • Analizar relaciones claves

  • Comprobar la cantidad de coincidencias entre valores de atributos claves a través de tablas

Revisión de Objetivos/Presunciones

  • Actualizar la lista de presunciones, si es necesario

    1. Exploración de datos

Tarea Explorar datos

Esta tarea aborda las preguntas de minería de datos que pueden ser dirigidas usando la interrogación, la visualización, y técnicas de informe. Estos análisis pueden directamente dirigir los objetivos de minería de datos. Sin embargo, ellos pueden también contribuir a refinar la descripción de datos e informes de calidad, y alimentar internamente la transformación y otros pasos de preparación de datos necesario antes de que pueda ocurrir un futuro análisis.

Salida Informe de exploración de datos

Describir los resultados de esta tarea, incluyendo las primeras conclusiones o las hipótesis iniciales y su impacto sobre el resto del proyecto. El informe también puede incluir gráficos y diseños (plots) que indican las características de los datos o los puntos de interés de subconjuntos de datos dignos de una futura investigación.

Actividades Exploración de Datos

  • Analizar en detalles las propiedades de atributos interesantes (por ejemplo, la estadística básica, las sub-poblaciones interesantes)

  • Identificar las características de las sub-poblaciones

Formar suposiciones para análisis futuro

  • Considerar y evalúan la información y conclusiones en el informe de descripciones de datos

  • Formar una hipótesis e identifican acciones

  • Transforman la hipótesis en un objetivo de minería de datos, si es posible

  • Aclarar objetivos de minería de datos o hacerlos más exactos. Una búsqueda "ciega" no es necesariamente inútil, pero una búsqueda más dirigida hacia objetivos de negocio es preferible.

  • Realizar un análisis básico para verificar la hipótesis

    1. Verificación de la calidad de datos

Tarea Verificar la calidad de datos

Examine la calidad de los datos, dirigiendo preguntas como: Es los datos completos (¿esto cubre todos los casos requeridos?) ¿Hay en ellos errores o ellos contienen errores? ¿Si hay errores, como son ellos? ¿Hay valores omitidos en los datos? Si es así, ¿cómo son representados, donde ocurren, y como son ellos?

Salida Informe de calidad de datos

Listar los resultados de la verificación de calidad de datos; si hay problemas de calidad, Listar las posibles soluciones.

Actividades

Identificar valores especiales y catalogar su significado

Revisión de atributos claves

  • Comprobar la cobertura (por ejemplo, si todos los valores posibles son representados)

  • Comprobar las claves

  • Verificar que los significados de los atributos y valores contenidos se satisfacen simultáneamente

  • Identificar atributos omitidos y campos en blanco

  • Establecer el significado de datos que faltan o fallan

  • Comprobar los atriibutos con los valores diferentes que tienen significados similares (por ejemplo, la grasa baja, la dieta)

  • Comprobar la ortografía y el formato de valores (por ejemplo, mismo valor pero a veces comienza con una letra minúscula, a veces con una letra mayúscula)

  • Comprobar las desviaciones, y deciden si una desviación es "ruido" o puede indicar un fenómeno interesante

  • Comprobar la plausibilidad de valores, (por ejemplo, todos los campos que tienen el mismo o casi los mismos valores)

¡Buena idea!

Repasar cualquiera de los atributos que dan respuestas que están en desacuerdo con el sentido común (por ejemplo, adolescentes con altos niveles de ingreso).

Use plots de visualización, histogramas, etc. para revelar inconsistencias en los datos.

Calidad de datos en archivos planos

  • Si los datos son almacenados en archivos planos, comprobar que delimitador es usado y si esto es usado coherentemente en todos los atributos

  • Si los datos son almacenados en archivos planos, comprobar el número de campos en cada registro para ver si ellos coinciden

Ruido e inconsistencias entre fuentes

  • Comprobar consistencia y superabundancia entre fuentes diferentes

  • Planear para tratar el ruido

  • Descubrir el tipo de ruido y que atributos son afectados

¡Buena idea!

Recuerde que puede ser necesario excluir algunos datos ya que ellos no exponen comportamiento positivo o negativo (por ejemplo, al comprobar en el comportamiento del préstamo de clientes, excluye a todo los que nunca han tomado prestado, aquellos que no financian una hipoteca de casa, aquellos cuya hipoteca se acerca a la madurez, etc.).

Revisar si las presunciones son válidas o no, considerando la información real o actual en los datos y el conocimiento de negocio.