La guía de usuario de CRISP-DM

La guía de usuario de CRISP-DM Dataprix 15 Septiembre, 2007 - 15:54

III-La guía de usuario de CRISP-DM

 

Comprendiendo el negocio

Comprendiendo el negocio Dataprix 15 Septiembre, 2007 - 15:59

Comprendiendo el negocio

  1. Determinación de objetivos de negocio

Tarea Determinar objetivos de negocio

El primer objetivo del analista es comprender a fondo, desde una perspectiva de negocio, lo que el cliente realmente quiere lograr. A menudo el cliente tiene muchos objetivos y restricciones que compiten que deben ser correctamente equilibrados. El objetivo del analista debe destapar factores importantes en el principio del proyecto esto puede influir en el resultado final. Una consecuencia probable de descuidar este paso debe ser a expensas de un dar un gran esfuerzo de producir las respuestas correctas a las preguntas incorrectas.

Salida Contexto

Coteje la información que conoció sobre la situación de negocio de la organización al principio del proyecto. Estos detalles no sólo sirven para identificar mas estrechamente los objetivos de negocio a ser alcanzados, pero también sirven para identificar los recursos, tanto humano como material, que puede ser usado o sea necesario durante el curso del proyecto.

Actividades Organizar

  • Desarrollar organigramas que identifiquen divisiones, departamentos, y grupos de proyectos. El organigrama debería también identificar los nombres de los gerentes y sus responsabilidades

  • Identificar a personas claves en el negocio y sus roles

  • Identificar a un patrocinador interno (el patrocinador financiero y el experto primario del dominio de usuario)

  • Indicar si hay un comité de dirección y lista de miembros

  • Identificar las unidades de negocio que son afectadas por el proyecto de minería de datos (por ejemplo, el Control de comercialización, Ventas, Finanzas)

Área del problema

  • Identificar el área del problema (por ejemplo, el control de comercialización, el cuidado de cliente, el desarrollo comercial, etc.)

  • Describir el problema en términos generales

  • Comprobar el estado actual del proyecto (por ejemplo, Comprobar si ya esta claro que dentro de la unidad de negocio un proyecto de minería de datos debe ser realizado, o si la minería de datos necesita ser promovida como una tecnología clave en el negocio)

  • Clarificar los requisitos previos del proyecto (por ejemplo, ¿Cuál es la motivación del proyecto? ¿La minería de datos ya está siendo usada en el negocio?)

  • Si es necesario, preparar presentaciones y demostraciones de minería de datos para el negocio

  • Identificar grupos de objetivos para el resultado de proyecto (por ejemplo, ¿Esperamos entregar un informe para la dirección superior o un sistema operacional para ser usado por usuarios finales inexpertos?)

  • Identificar las necesidades de los usuarios y sus expectativas

Solución actual

  • Describir cualquier solución usada actualmente para dirigir el problema

  • Describen las ventajas y las desventajas de la solución corriente y el nivel al que esto es aceptado por los usuarios

Salida Objetivos de negocio

Describir el objetivo primario del cliente, desde una perspectiva de negocio. Además del objetivo de negocio primario, hay típicamente un gran número de preguntas relacionadas al negocio a las que al cliente le gustaría dirigir. Por ejemplo, el objetivo primario de negocio podría ser mantener a clientes actuales por predicción cuando ellos son propensos a moverse a un competidor, mientras un objetivo secundario de negocio podría ser de determinar si precios (comisiones) inferiores afectan sólo un segmento particular de clientes.

Actividades

  • De manera informal describir el problema a ser solucionado

  • Especificar todas las preguntas de negocio tan precisas como sea posible

  • Especificar cualquier otras exigencias de negocio (por ejemplo, el negocio no quiere perder a ningún cliente)

  • Especificar las ventajas esperadas en términos de negocio

¡Cuidado!

  • Tener cuidado de establecer objetivos inalcanzables hechos por ellos tan realistas como posible.

Salida Criterios de éxito de negocio

Describir los criterios para un resultado exitoso o útil al proyecto desde el punto de vista del negocio. Esto podría ser bastante específico y fácilmente medible, como una reducción de cliente a un cierto grado, o general y subjetivo, como “dar ideas útiles en las relaciones”. En el caso último, esté seguro de indicar quien haría el juicio subjetivo.

Actividades

  • Especificar criterios de éxito de negocio (por ejemplo, Mejorar la tasa de respuesta en una campaña de correo en el 10 por ciento y marcar la tasa en el 20 por ciento)

  • Identifican quien evalúa los criterios de éxito

¡Recuerde!

Cada uno de los criterios de éxito debería relacionarse con al menos uno de los objetivos especificados de negocio.

¡Buena Idea!

Antes del comienzo de la evaluación de situación, usted podría analizar las experiencias anteriores de este problema-

Internamente, usando CRISP-DM, o externamente, usando soluciones pre-empaquetadas.

    1. Evaluación de la situación

Tarea Evaluar la situación

Esta tarea implica una investigación más detallada sobre todos los recursos, restricciones, presunciones, y otros factores que deberían ser considerados en la determinación del objetivo de análisis de datos y en el desarrollo del plan de proyecto.

Salida Inventario de recursos

Listar los recursos disponibles para el proyecto, incluyendo el personal (expertos de datos y de negocios, soportes técnicos, expertos en minería de datos), datos (extracciones fijas, acceso a datos existentes en almacenes de datos u operacionales), recursos computacionales (plataformas de hardware), y software (instrumentos de minería de datos, otros software relevantes).

Actividades Recursos de Hardware

  • Identificar el hardware básico

  • Establecer la disponibilidad del hardware básico para el proyecto de minería de datos

  • Comprobar si la planificación del mantenimiento de hardware se opone a la disponibilidad del hardware para el proyecto de minería de datos.

  • Identificar el hardware disponible para ser usado por la herramienta de minería de datos (si el instrumento es conocido en esta etapa)

Fuentes de datos y conocimientos

  • Identificar las fuentes de datos

  • Identificar el tipo de fuentes de datos (fuentes en línea, expertos, documentación escrita, etc.)

  • Identificar fuentes de conocimiento

  • Identificar el tipo de fuentes de conocimientos (fuentes en línea, expertos, documentación escrita, etc.)

  • Comprobar herramientas disponibles y técnicas

  • Describir el conocimiento de generalidades relevante (de manera informal o formalmente)

Fuentes de personal

  • Identificar al patrocinador de proyecto (si difiere del patrocinador interno como en la Sección 1.1.1)

  • Identificar al administrador de sistema, el administrador de base de datos, y el personal de soporte técnico para futuras preguntas

  • Identificar a analistas de mercado, los expertos en minería de datos, y estadísticos, y comprobar su disponibilidad

  • Comprobar la disponibilidad de expertos de dominio para fases posteriores

¡Recuerde!

Recuerde que el proyecto puede necesitar personal técnico en cualquier momento en todas partes del proyecto, por ejemplo durante la transformación de datos.

Salidas Requerimientos, presunciones, y restricciones

Listar todos los requerimientos del proyecto, incluyendo la planeación de la terminación, la comprensibilidad, y la calidad y seguridad de los resultados, así como cuestiones legales. Como la parte de esta salida, asegúrese de que le permiten usar los datos.

Listar las presunciones hechas por el proyecto. Estos pueden ser presunciones sobre los datos, que pueden ser verificados durante la minería de datos, pero también puede incluir presunciones no-comprobables relacionadas con el proyecto. Esto es en particular Importante de ponerlos en una lista si ellos afectarán la validez de los resultados.

Listar las restricciones hechas en el proyecto. Estas restricciones podrían implicar la carencia de recursos para terminar algunas tareas en el proyecto en el tiempo requerido, o allí pueden ser restricciones legales o éticas sobre el uso de los datos o la solución necesita terminar la tarea de minería de datos.

Actividades Requerimientos

  • Especificar el perfil del grupo objetivo

  • Capturar todas los requerimientos en la planificación

  • Capturar los requerimientos de comprensibilidad, exactitud, desarrollar habilidades, mantenimiento, y repetibillidad del proyecto de minería de datos y los modelos resultantes.

  • Capturar los requerimientos de seguridad, restricciones legales, de privacidad, información, y planificación de proyecto

Presunciones

  • Aclarar todas las presunciones (incluyendo las implícitas) y las hechas por ellos explícitamente (por ejemplo, dirigir las cuestiones de negocio, a un número mínimo de clientes con la edad por encima de 50 es necesaria)

  • Listar las presunciones sobre calidad de datos (por ejemplo, exactitud, disponibilidad)

  • Listar las presunciones sobre factores externos (por ejemplo, cuestiones económicas, productos competitivos, avances técnicos)

  • Aclarar presunciones que conducen a cualquiera de las estimaciones (por ejemplo, el precio de un instrumento específico es asumido para ser menor que 1,000 $)

  • Listar todas las presunciones en cuanto a si es necesario entender y describir o explicar el modelo (Por ejemplo, como el modelo y los resultados son presentados a la dirección / patrocinador)

Restricciones
  • Comprobar restricciones generales (por ejemplo, cuestiones legales, presupuesto, escalas de tiempo, y recursos)

  • Comprobar el correcto acceso a fuentes de datos (por ejemplo, restricciones de acceso, la contraseña requerida)

  • Comprobar la accesibilidad técnica de datos (los sistemas de operaciones, el sistema de administración de datos, el formato de archivo y de base de datos)

  • Comprobar si el conocimiento relevante es accesible

  • Comprobar restricciones de presupuesto (gastos fijos, gastos de implementación, etc.)

¡Recuerde!

La lista de presunciones también incluye presunciones al principio del proyecto, esto es, lo que el punto de inicio del proyecto ha sido.

Salidas Riesgos y contingencias

Listar los riesgos, es decir los acontecimientos que podrían ocurrir, impactando en la planificación, el costo, o el resultado. Listar los planes de contingencias respectivos: que acción será tomada para evitar o reducir al mínimo el impacto o recuperar de la ocurrencia de los riesgos previstos.

Actividades Identificar riesgos
  • Identificar riesgos de negocio (por ejemplo, el competidor aparece primero con mejores resultados)

  • Identificar riesgos de organización (por ejemplo, el departamento que solicita el proyecto no tiene financiación para el proyecto)

  • Identificar riesgos financieros (por ejemplo, aumentar la financiación depende de los resultados iniciales de minería de datos)

  • Identificar riesgos técnicos

  • Identificar los riesgos que dependen de datos y de las fuentes de datos (por ejemplo, la mala calidad y cobertura)

Desarrollo de planes de contingencia

  • Determinar condiciones en las que cada riesgo puede ocurrir

  • Desarrollar planes de contingencia

Salida Terminología

Compilar un glosario de terminología relevante al proyecto. Esto debería incluir al menos dos componentes:

(1) Un glosario de terminología relevante de negocio, que forma parte de la comprensión de negocio disponible al proyecto

(2) Un glosario de terminología de minería de datos, ilustrada con ejemplos relevantes al problema de negocio en cuestión.

Actividades

  • Comprobar la disponibilidad previa de glosarios; si no comience a bosquejar glosarios

  • Hablar a expertos de dominio para entender su terminología

  • Familiarizarse con la terminología de negocio

Salida Costos y beneficios

Preparar un análisis de costo-beneficio para el proyecto, comparando los gastos del proyecto con el beneficio potencial para el negocio si esto es exitoso

Actividades

  • Estimar el costo para la colección de datos

  • Estimar el costo de desarrollo y realización de una solución

  • Identificar beneficios (por ejemplo, mejorar la satisfacción del cliente, ROI, y el aumento de las ganancias)

  • Estimar gastos de operación

¡Buena Idea!

La comparación debería ser tan específica como sea posible, como esto permite un mejor caso de negocio para ser realizado.

¡Cuidado!

Acuérdese de identificar costos ocultos, como la extracción y preparación repetida de datos, cambios en los procesos laborales, y tiempo requerido para el entrenamiento.

    1. Determinar objetivos de minería de datos

Tarea Determinar objetivos de minería de datos

Un objetivo de negocio declara objetivos en la terminología de negocio; un objetivo de minería de datos declara objetivos de proyecto en términos técnicos. Por ejemplo, el objetivo de negocio podría ser, “Aumentar la venta por catalogo a clientes existentes”, mientras un objetivo de minería de datos podría ser, “Predecir cuantas baratijas comprará un cliente, considerando sus compras durante los tres años pasados, información demográfica relevante, y el precio del artículo.”

Salidas Objetivos de minería de datos

Describir las salidas planeadas del proyecto que permiten el logro de los objetivos de negocio.

Note que estos son salidas normalmente técnicas.

Actividades

  • Traducir las preguntas de negocio a objetivos de minería de datos (por ejemplo, una campaña de control de comercialización requiere la segmentación de clientes para decidir a quien acercarse en esta campaña; el nivel/tamaño de los segmentos debería ser especificado).

  • Especificar datos tipo de problema de minería de datos (por ejemplo, la clasificación, la descripción, la predicción, y clustering). Para más detalles sobre tipos de problema de minería de datos, vea el Apéndice 2.

¡Buena idea!

Puede ser sabio redefinir el problema. Por ejemplo, modelar la retención de producto más que la retención del cliente cuando la retención del cliente entrega resultados muy tarde para afectar la salida.

Salida Criterios de éxitos de minería de datos

Definir los criterios para un resultado acertado para el proyecto en términos técnicos, por ejemplo un cierto grado de exactitud predictiva o un perfil de propensión-a-comprar con un nivel dado "elevación". Como con los criterios de éxitos del negocio, puede ser necesario describir estos en términos subjetivos, en el caso de que la persona o las personas que hacen el juicio subjetivo deberían ser identificadas.

Actividades

  • Especificar los criterios para evaluar el modelo (por ejemplo, la exactitud del modelo, el funcionamiento y la complejidad)

  • Definir el patrón de pruebas para los criterios de evaluación

  • Especificar las reglas que dirigen criterios de evaluación subjetivos (por ejemplo, el habilidad de explicar del modelo y de los datos y la comprensión de mercadeo proporcionada por el modelo)

¡Tenga cuidado!

Recuerde que los datos que extraen criterios de éxito son diferentes a los criterios de éxito de negocio definidos antes.

Recuerde es sabio planear para el desarrollo desde el principio del proyecto.

    1. Producción del plan del proyecto

Tarea Producir el plan del proyecto

Describir el plan propuesto para alcanzar los objetivos de minería de datos y así alcanzar de los objetivos de negocio.

Salida Plan del Proyecto

Listar las etapas para ser ejecutadas en el proyecto, juntos con su duración, recursos requeridos, entradas, salidas, y dependencias. En cualquier parte donde posible, haga explícito las iteraciones en gran escala en el proceso de minería de datos- Por ejemplo, las repeticiones del modelado y fases de evaluación. Como parte del plan de proyecto, esto es también importante analizar dependencias entre el planeamiento de los tiempos y los riesgos. Marcar los resultados de estos análisis explícitamente en el plan de proyecto, idealmente con acciones y recomendaciones para actuar si los riesgos son manifestados.

Aunque esto sea la única tarea en la que el plan de proyecto directamente es llamado, sin embargo debería ser consultado continuamente y repasado en todas partes del proyecto. Deberían consultar el plan de proyecto como mínimo siempre que una tarea nueva sea comenzada o una iteración futura de una tarea o una actividad esta comenzando.

Actividades

  • Definir el plan de proceso inicial y hablar de la viabilidad con todo el personal incluido

  • Combinar todos los objetivos identificados y técnicas seleccionadas en un procedimiento coherente que solucione las cuestiones del negocio y encuentre los criterios de éxito de negocio

  • Estimar el esfuerzo y los recursos necesarios para alcanzar y desarrollar la solución. (Es útil considerar la experiencia de otras personas estimando escalas de tiempo para proyectos de minería de datos. Por ejemplo, es a menudo presumido que el 50-70 por ciento del tiempo y el esfuerzo en un proyecto de minería de es usado en la Fase de Preparación de Datos, mientras que solo un 20-30 por ciento es usado en la Fase de Comprensión de Datos, mientras que solo un 10-20 por ciento es gastado en cada uno de las Fase de Modelado, Evaluación, y Comprensión del Negocio Entendiendo y el 5-10 por ciento en la Fase de Desarrollo.)

  • Identificar pasos críticos

  • Marcar los puntos de decisión

  • Marcar los puntos de revisión

  • Identificar las principales iteraciones

Salida Evaluación de Inicial de herramientas y técnicas

Al final de la primera fase, el equipo de proyecto realiza una evaluación inicial de herramientas y técnicas. Aquí, es importante seleccionar una herramienta de minería de datos que soporte varios métodos para las diferentes etapas del proceso, ya que la selección de herramientas y técnicas puede influir en el proyecto entero.

Actividades

  • Crear una lista de criterios de selección para herramientas y técnicas (o usar uno existente si está disponible)

  • Escoger herramientas y técnicas posibles

  • Evaluar la adecuación de técnicas

  • Revisar y priorizar técnicas aplicables según la evaluación de soluciones alternativas

 

Comprensión de datos

Comprensión de datos Dataprix 15 Septiembre, 2007 - 16:02
  1. Comprensión de Datos

    1. Recolección de datos iniciales

Tarea Recoger datos iniciales

Obtener los datos (o el acceso a los datos) listados en los recursos de proyecto. Esta colección inicial incluye carga de datos, si es necesario para la comprensión de datos. Por ejemplo, si usted tiene la intención de usar una herramienta específica para comprender los datos, es lógico cargar sus datos en esta herramienta.

Salida Informe de la recolección de datos inicial

Describir toda la variedad de datos usados para el proyecto, e incluya cualquier requerimiento de selección para datos más detallados. El informe de colección de datos también debería definir si algunos atributos son relativamente más importantes que otros.

Recuerde que cualquier evaluación de calidad de datos debería ser hecha no solamente de las fuentes de datos individuales, pero también de algunos datos que son resultado de fuentes de datos que se combinan. Por inconsistencias entre las fuentes, los datos combinados pueden presentar los problemas que no existen en las fuentes de datos individuales.

Actividades Planificación de requerimientos de datos

Planee que información es necesaria (por ejemplo, sólo para atributos determinados, o la información adicional específica)

Comprobar si toda la información necesaria (para resolver los objetivos de la minería de datos) esta en realidad disponible

Criterios de selección

  • Especificar los criterios de selección (por ejemplo, ¿Qué atributos son necesarios para los objetivos específicos de minería de datos? ¿Que atributos han sido identificados como no pertinentes? ¿Cuantos atributos podemos manejar con las técnicas escogidas?)

  • Elegir tablas/archivos de interés

  • Elegir datos dentro de una tabla/archivo

  • Pensar cuanto tiempo de una historial habría que usar (por ejemplo, si 18 meses de datos están disponibles, sólo 12 meses pueden ser necesarios para el ejercicio)

¡Tenga cuidado!

Estar consciente de que los datos recolectados de diferentes fuentes pueden dar lugar a problemas de calidad cuando sean combinados (Por ejemplo, los archivos de dirección combinados con una base de datos de cliente pueden mostrar inconsistencias de formato, invalidez de datos, etc.).

Inserción de datos

  • Si los datos contienen libre entradas de texto, ¿tenemos que codificarlos para modelar o necesitamos agruparlos en entradas específicas?

  • ¿Cómo podemos encontrar atributos omitidos?

  • ¿Cómo podemos mejorar la extracción los datos?

¡Buena Idea!

Recordar que algún conocimiento sobre los datos puede estar disponible de fuentes no-electrónicas (Por ejemplo, de gente, de texto impreso, etc.).

Recordar que puede ser necesario a preproceso de los datos (datos de serie tiempo, promedios ponderados, etc.).

    1. Descripción de datos

Tarea Describir datos

Examine las propiedades "gruesas" de los datos obtenidos y el informe sobre los resultados.

Salida Informe de descripción de datos

Descripción de los datos que han sido obtenidos, incluyendo el formato de los datos, la cantidad de los datos

(Por ejemplo, el número de registros y campos internos de cada tabla), las identidades de los campos, y cualquier otro rasgo superficial que haya sido descubierto.

Actividades Análisis Volumétrico de datos

  • Identificar datos y métodos de captura

  • Acceder a las fuentes de datos

  • Usar análisis estadísticos si es apropiado

  • Reportar las tablas y sus relaciones

  • Compruebe el volumen de datos, el número de múltiplos, la complejidad

  • Notar si los datos contienen entradas de texto libres

Atributo tipos y valores

  • Comprobar la accesibilidad y disponibilidad de atributos

  • Comprobar los tipos de atributos (numérico, simbólico, la taxonomía, etc.)

  • Comprobar el rango de valores de los atributos

  • Analizar los atributos correlativos (correlaciones de atributo)

  • Comprender el significado de cada atributo y clasificar (describir) el valor en términos de negocio

  • Para cada atributo, calcular la estadística básica (por ejemplo, calcule la distribución, el promedio, el máximo, el mínimo, la desviación estándar, la varianza, la moda, la inclinación, etc.)

  • Analizar la estadística básica y relacionan los resultados con su significado en términos de negocio

  • Decidir si el atributo es relevante para los objetivos específicos de la minería de datos

  • Determinar si el significado del atributo es usado coherentemente (conscientemente)

  • Entrevistar a expertos de dominio para obtener su opinión sobre la importancia de los atributos

  • Decidir si es necesario equilibrar los datos (basado en las técnicas que modelan a ser usado)

Claves

  • Analizar relaciones claves

  • Comprobar la cantidad de coincidencias entre valores de atributos claves a través de tablas

Revisión de Objetivos/Presunciones

  • Actualizar la lista de presunciones, si es necesario

    1. Exploración de datos

Tarea Explorar datos

Esta tarea aborda las preguntas de minería de datos que pueden ser dirigidas usando la interrogación, la visualización, y técnicas de informe. Estos análisis pueden directamente dirigir los objetivos de minería de datos. Sin embargo, ellos pueden también contribuir a refinar la descripción de datos e informes de calidad, y alimentar internamente la transformación y otros pasos de preparación de datos necesario antes de que pueda ocurrir un futuro análisis.

Salida Informe de exploración de datos

Describir los resultados de esta tarea, incluyendo las primeras conclusiones o las hipótesis iniciales y su impacto sobre el resto del proyecto. El informe también puede incluir gráficos y diseños (plots) que indican las características de los datos o los puntos de interés de subconjuntos de datos dignos de una futura investigación.

Actividades Exploración de Datos

  • Analizar en detalles las propiedades de atributos interesantes (por ejemplo, la estadística básica, las sub-poblaciones interesantes)

  • Identificar las características de las sub-poblaciones

Formar suposiciones para análisis futuro

  • Considerar y evalúan la información y conclusiones en el informe de descripciones de datos

  • Formar una hipótesis e identifican acciones

  • Transforman la hipótesis en un objetivo de minería de datos, si es posible

  • Aclarar objetivos de minería de datos o hacerlos más exactos. Una búsqueda "ciega" no es necesariamente inútil, pero una búsqueda más dirigida hacia objetivos de negocio es preferible.

  • Realizar un análisis básico para verificar la hipótesis

    1. Verificación de la calidad de datos

Tarea Verificar la calidad de datos

Examine la calidad de los datos, dirigiendo preguntas como: Es los datos completos (¿esto cubre todos los casos requeridos?) ¿Hay en ellos errores o ellos contienen errores? ¿Si hay errores, como son ellos? ¿Hay valores omitidos en los datos? Si es así, ¿cómo son representados, donde ocurren, y como son ellos?

Salida Informe de calidad de datos

Listar los resultados de la verificación de calidad de datos; si hay problemas de calidad, Listar las posibles soluciones.

Actividades

Identificar valores especiales y catalogar su significado

Revisión de atributos claves

  • Comprobar la cobertura (por ejemplo, si todos los valores posibles son representados)

  • Comprobar las claves

  • Verificar que los significados de los atributos y valores contenidos se satisfacen simultáneamente

  • Identificar atributos omitidos y campos en blanco

  • Establecer el significado de datos que faltan o fallan

  • Comprobar los atriibutos con los valores diferentes que tienen significados similares (por ejemplo, la grasa baja, la dieta)

  • Comprobar la ortografía y el formato de valores (por ejemplo, mismo valor pero a veces comienza con una letra minúscula, a veces con una letra mayúscula)

  • Comprobar las desviaciones, y deciden si una desviación es "ruido" o puede indicar un fenómeno interesante

  • Comprobar la plausibilidad de valores, (por ejemplo, todos los campos que tienen el mismo o casi los mismos valores)

¡Buena idea!

Repasar cualquiera de los atributos que dan respuestas que están en desacuerdo con el sentido común (por ejemplo, adolescentes con altos niveles de ingreso).

Use plots de visualización, histogramas, etc. para revelar inconsistencias en los datos.

Calidad de datos en archivos planos

  • Si los datos son almacenados en archivos planos, comprobar que delimitador es usado y si esto es usado coherentemente en todos los atributos

  • Si los datos son almacenados en archivos planos, comprobar el número de campos en cada registro para ver si ellos coinciden

Ruido e inconsistencias entre fuentes

  • Comprobar consistencia y superabundancia entre fuentes diferentes

  • Planear para tratar el ruido

  • Descubrir el tipo de ruido y que atributos son afectados

¡Buena idea!

Recuerde que puede ser necesario excluir algunos datos ya que ellos no exponen comportamiento positivo o negativo (por ejemplo, al comprobar en el comportamiento del préstamo de clientes, excluye a todo los que nunca han tomado prestado, aquellos que no financian una hipoteca de casa, aquellos cuya hipoteca se acerca a la madurez, etc.).

Revisar si las presunciones son válidas o no, considerando la información real o actual en los datos y el conocimiento de negocio.

Preparación de los datos

Preparación de los datos Dataprix 15 Septiembre, 2007 - 16:06
  1. Preparación de los datos

Salida Conjunto de datos

Estos son los conjuntos de dato(s) producidos por la fase de preparación de datos, usada para modelar o para el trabajo de análisis principal del proyecto.

Salida Descripción del conjunto de datos

Esto es la descripción del conjunto de datos(s) usado para el modelado o para el trabajo de análisis principal del proyecto.

    1. Datos seleccionados

Tarea Seleccionar datos

Decidir los datos a ser usados para el análisis. Los criterios incluyen la importancia a los objetivos de minería de datos, la calidad, y las restricciones técnicas como los límites en el volumen de datos o en los tipos de datos.

Salida Razonamiento para inclusión/exclusión

Listar los datos a ser usados / excluidos y los motivos para estas decisiones.

Actividades

  • Recogen datos adicionales apropiados (de diferentes fuentes - internos así como externos)

  • Realizar las pruebas de importancia y correlación para decidir si los campos son incluidos

  • Reconsideran Criterios de Selección de Datos (Vea la Tarea 2.1) en la luz de las experiencias de calidad de los datos y en la exploración de datos (esto es, puede desear incluir/excluir otros juegos de datos)

  • Reconsiderar Criterios de Selección de Datos (Vea la Tarea 2.1) en la luz de experiencia de modelado (esto es, la evaluación del modelo puede mostrar que otros conjuntos de datos son necesarios)

  • Seleccionar diferentes subconjuntos de datos (por ejemplo, atributos diferentes, sólo los datos que encuentran ciertas condiciones)

  • Considerar el uso de técnicas de muestreo (por ejemplo, una solución rápida puede implicar la prueba dura y el entrenamiento del conjunto de datos o la reducción del tamaño de la conjunto de datos de prueba, si la herramienta no puede manejar conjunto de datos llenos. Esto puede también ser útil para tener muestras ponderadas para dar la distinta importancia a atributos diferentes o valores diferentes del mismo atributo.)

  • Documentar el razonamiento para la inclusión/exclusión

  • Comprobar técnicas disponibles para el muestreo de datos

¡Buena idea!

Basado en Criterios de Selección de Datos, decidir si uno o más atributos son más importantes que otros el correspondiente peso de los atributos. Decidir, basado en el contexto (esto es, el uso, la herramienta, etc.), como manejarse con el peso.

    1. Limpieza de datos

Tarea Limpiar datos

Elevar la calidad de datos al nivel requerido por las técnicas de análisis seleccionadas. Esto puede implicar la selección de subconjuntos limpios de los datos, la inserción de faltas apropiadas, o técnicas más ambiciosas como la estimación de datos omitidos por modelado.

Salida Informe de la limpieza de datos

Describir las decisiones y las acciones que fueron tomados para dirigir los problemas de calidad de datos informados durante la Tarea de Verificación de Calidad de Datos. Si los datos están para ser usados en el ejercicio de minería de datos, el informe debería dirigir cuestiones de calidad de datos excepcionales y el efecto posible que esto podría tener sobre los resultados.

Actividades

  • Reconsiderar como tratar con cualquier tipo de ruido observado

  • Corregir, remover, o ignorar el ruido

  • Decidir como tratar con valores especiales y su significado. El área de valores especiales puede dar lugar a muchos resultados extraños y con cuidado deberían ser examinados. Los ejemplos de valores especiales podrían surgir por los resultados tomados de una revisión donde algunas cuestiones no fueron preguntadas o no fueron contestadas. Esto podría terminar en un valor de 99 para datos desconocidos. Por ejemplo, 99 para estado civil o afiliación política. Los valores especiales también podría surgir cuando los datos son truncados por ejemplo., 00 para gente de 100 años o para todos los coches con 100,000 kilómetros en el odómetro.

  • Reconsiderar Criterios de Selección de Datos (Vea la Tarea 2.1) en la luz de las experiencias de los datos limpiados (esto es, usted puede desea incluir/excluir otros conjuntos de datos).

¡Buena idea!

Recuerde que algunos campos pueden ser irrelevantes a los objetivos de minería de datos y, por lo tanto, el ruido en aquellos campos no tiene ninguna importancia. Sin embargo, si el ruido es ignorado por estos motivos, esto debería ser totalmente documentado como circunstancias que pueden cambiarse más tarde.

    1. Construcción de datos

Tarea Construir datos

Esta tarea incluye la construir de operaciones de preparación de datos tales como la producción de atributos derivados, completar registros nuevos, o transformar valores para atributos existentes.

Actividades

  • Comprobar los mecanismos de construcción disponibles con la lista de herramientas sugeridas para el proyecto

  • Decidir si esto es lo mejor para realizar la construcción dentro de la herramienta o fuera de ella (esto es, que es más eficiente, exacto, repetible)

  • Reconsiderar Criterios de Selección de Datos (Vea la Tarea 2.1) en la luz de las experiencias de construcción de datos (esto es, usted puede desear incluir/excluir otros conjuntos de datos)

Salida Atributos derivados

Los atributos derivados son los atributos nuevos que son construidos de uno o atributos más existentes en el mismo registro. Un ejemplo podría ser: área = longitud * anchura.

¿Por qué deberíamos tener que construir atributos derivados durante el curso de una investigación de minería de datos? No debería pensarse que sólo los datos de bases de datos u otras fuentes deberían ser usados en la construcción de un modelo. Los atributos derivados podrían ser construidos porque:

  • El conocimiento del contexto nos convence que algún hecho es importante y debería ser representado aunque no tengamos ningún atributo actualmente para representarlo

  • El algoritmo de modelado en uso maneja los sólo ciertos tipos de datos -por ejemplo estamos usando regresión lineal y sospechamos que hay ciertas no-linealidades que serán incluidos en el modelo

  • El resultado de la fase de modelado sugiere que ciertos hechos no sean cubiertos

Actividades Derivar atributos

  • Decidir si cualquier atributo puede ser normalizado (por ejemplo, usando un algoritmo de agrupamiento (clustering) con el periodo y el ingreso, en ciertas divisas, el ingreso se controlará)

  • Considerar agregar nueva información sobre la importancia relevante de los atributos para agregar de nuevos atributos (Por ejemplo, atributos con peso, normalización ponderada)

  • ¿Cómo se puede construir o imputar atributos faltantes? [Decidir el tipo de construcción (por ejemplo, la combinación, el promedio, la inducción).]

  • Agregar atributos nuevos a los datos acceso de acceso

¡Buena idea!

Antes de agregar Atributos Derivados, intente determinar si y como ellos facilitan el proceso de modelado o facilitan el algoritmo de modelado. Quizás “el ingreso por persona” es un mejor/más fácil atributo para usar que “el ingreso por casa.” No saque atributos simplemente para reducir el número de atributos de entrada.

Otro tipo de atributo derivado es la transformación de un atributo individual, por lo general realizado para cubrir las necesidades de las herramientas de modelado.

Actividades Transformaciones de atributo individual

  • Especificar los pasos de transformaciones necesarias en los términos de facilitar las transformación disponibles (por ejemplo, cambiar un binning de un atributo numérico)

  • Realizar pasos de transformación

¡Buena idea!

Las transformaciones pueden ser necesarias para cambiar rangos a campos simbólicos (por ejemplo, años a rangos de edad) o campos simbólicos (“definitivamente sí”, “sí”, “no se sabe,” "no") a valores numéricos. Las herramientas de modelado o los algoritmos a menudo los requieren.

Salida Registros generados

Los registros generados son registros completamente nuevos, que agregan nuevo conocimiento o representan nuevos datos que de otro modo no son representado (por ejemplo, habiendo segmentado los datos, puede ser útil generar un registro para represente al miembro prototípico de cada segmento para un tratamiento futuro).

Actividades

Comprobar por técnicas disponibles si es necesario (por ejemplo, mecanismos para construir prototipos para cada segmento de datos segmentados).

    1. Integración de datos

Tarea Integrar datos

Estos son métodos para combinar la información de múltiples tablas u otras fuentes de información para crear nuevos registros o valores.

Salida Datos combinados

La combinación de tablas se refiere a la unión de dos o más tablas que tienen diferente información sobre los mismos objetos. En esta etapa, también puede ser aconsejable generar registros nuevos. También puede ser recomendado para generar valores agregados.

La agregación se refiere a operaciones donde los nuevos valores son calculados por información resumida de múltiples registros y/o tablas.

Actividades

  • Comprobar si las aplicaciones de integración son capaces de integrar las fuentes de entrada como se requiere

  • Integrar fuentes y resultados almacenados

  • Reconsiderar Criterios de Selección de Datos (Vea la Tarea 2.1) en la luz de las experiencias de integración de datos (esto es, usted puede desear incluir/excluir otros conjuntos de datos)

¡Buena idea!

Recordar que algún conocimiento puede estar contenido en el formato no-electrónico.

    1. Formateo de datos

Tarea Formatear datos

Transformar formateando se refiere principalmente a modificaciones sintácticas hechas a los datos que no cambian su significado, pero podría ser requerido por la herramienta de modelado.

Salida Datos reformateados

Algunas herramientas tienen requerimientos sobre la orden de los atributos, tal que el primer campo sea un único identificador para cada registro o el campo último ser el juego de resultados que el modelo debe predecir.

Actividades Atributos reorganizados

Algunas herramientas tienen requerimientos sobre la orden de los atributos, tal que el primer campo sea un único identificador para cada registro o el campo último ser el juego de resultados que el modelo debe predecir.

Reordenando registros

Podría ser importante cambiar el orden de los registros en el conjunto de datos. Quizás el instrumento de modelado requiere que los registros sean clasificados según el valor del atributo de resultado.

Reformateado valores internos

  • Estos son cambios puramente sintácticos hechos para satisfacer las exigencias de la herramienta específica de modelado

  • Reconsiderar Criterios de Selección de Datos (Vea la Tarea 2.1) en la luz de las experiencias de limpieza de datos (esto es, usted puede desear incluir/excluir otros conjuntos de datos)

 

Modelado

Modelado Dataprix 15 Septiembre, 2007 - 16:09
  1. Modelado

    1. Seleccionar técnicas de modelado

Tarea Seleccionar técnicas de modelado

Como el primero paso en modelado, seleccionar la técnica de modelado inicial actual. Si múltiples esta para ser aplicados, realizar separadamente esta tarea para cada técnica.

Recuerde que no todos los instrumentos y técnicas son aplicables a toda y cada tarea. Para ciertos problemas, sólo algunas técnicas son apropiadas (Vea el Apéndice 2, donde las técnicas asignan para ciertos tipos de problemas de minería de datos es hablada más detalladamente). “Requerimientos políticos” y otras restricciones adicionales limitan las opciones disponibles para el ingeniero de minería de datos. Puede ser solo una herramienta o técnica están disponibles para solucionar el problema a mano - y que el instrumento no pueda ser absolutamente lo mejor, de un punto de vista técnico.

Figura 10: Universidad (Diversidad) de Técnicas

Salida Técnicas de modelado

Registrar las técnicas de modelado real que se usa.

Actividades

Decidir las técnicas apropiada para el ejercicio, teniendo en cuenta la herramienta seleccionada.

Salida Presunciones de modelado

Muchas técnicas de modelado realizan presunciones específicas sobre los datos.

Actividades

  • Definir cualquier presunciones construidas hechas por la técnica sobre los datos (por ejemplo, la calidad, el formato, la distribución)

  • Comparar estas presunciones con aquellas de el Informe de Descripción de Datos

  • Asegurarse que estas presunciones sostienen y volver a la Fase de Preparación de Datos, si es necesario

    1. Generar el diseño de prueba

Tarea Generar el diseño de prueba

Antes de construir un modelo, es necesario definir un procedimiento para probar la calidad del modelo y la validez. Por ejemplo, en tareas de minería de datos supervisadas como la clasificación, es común usar tasas de error como medidas de calidad para modelos de minería de datos. Por lo tanto, el diseño de prueba especifica que el conjunto de datos debería ser separado en el entrenamiento y en el conjunto de prueba. El modelo esta construido sobre el conjunto de entrenamiento y su calidad estimada sobre el conjunto de prueba.

Salida Diseño de Prueba

Describir el plan deliberado para el entrenamiento, las pruebas, y la evaluación de los modelos. Un componente primario del plan es para decidir como dividir el conjunto de datos disponible sobre datos que se entrenan, datos de prueba, y conjunto de pruebas de validación.

Actividades

  • Comprobar que existe diseños de prueba separadamente para cada objetivo de minería de datos

  • Decidir los pasos necesarios (el número de iteraciones, el número de desviaciones o curvas, etc.)

  • Preparar los datos requeridos para la prueba

    1. Construcción del modelo

Tarea Construir el modelo

Correr la herramienta de modelado sobre el conjunto de datos listo para crear uno o más modelos.

Salida Parámetros de ajuste

Con cualquier herramienta de modelado, hay a menudo un gran número de parámetros que pueden ser ajustados. Listar los parámetros y sus valores seleccionados, con la explicación (el razonamiento) para la elección.

Actividades

  • Determinar los parámetros iniciales

  • Documentar las razones para elegir aquellos valores

Salida Modelos

Controle la herramienta de modelado en el conjunto de datos listos para crear uno o más modelos.

Actividades

  • Ejecutar la técnica seleccionada sobre el conjunto de datos de entrada para producir el modelo

  • Post-procesar los resultados de minería de datos (por ejemplo, editar reglas, mostrar árboles)

Salida Descripción del modelo

Describir el resultado del modelado y evaluar su exactitud esperada, la robustez, y defectos posibles.

Informar sobre la interpretación de los modelos y encontrar cualquier de las dificultades.

Actividades

  • Describir cualquier características del modelo actual que puede ser útil para el futuro

  • Ajustar parámetro de entorno (de registro) usado para producir el modelo

  • Dar una descripción detallada del modelo y cualquier rasgo especial

  • Para modelos basados por regla, listar las reglas producidas, más cualquier evaluación de cada-regla o la exactitud y alcance total del modelo

  • Para modelos no transparentes, listar cualquier información técnica sobre el modelo (como la topología de las redes neuronales) y cualquier descripción de comportamiento producido por el proceso de modelado (como la exactitud o la sensibilidad)

  • Describir el comportamiento del modelo y la interpretación

  • Expresar conclusiones respecto a los patrones en los datos (si hay alguno); a veces el modelo revela hechos importantes sobre los datos sin un proceso de evaluación separado (por ejemplo, que la salida o la conclusión son duplicadas en una de las entradas)

    1. Evaluación del modelo

Tarea Evaluar el modelo

El modelo ahora debería ser evaluado para asegurar que se encontró criterios de éxito de la minería de datos y aprobar los criterios de prueba deseados. Esto es una evaluación puramente técnica basada en el resultado de las tareas modelado.

Salida Evaluación del modelo

Resumir los resultados de esta tarea, listar las calidades de los modelos generados (por ejemplo, en términos de exactitud), y el nivel de su calidad en relación a cada otro.

Actividades

  • Evaluar los resultados en lo que concierne a criterios de evaluación

  • Probar los resultados según una estrategia de prueba (por ejemplo: Corrida y Prueba, Validación cruzada, bootstrapping, etc.)

  • Comparar los resultados de la evaluación y la interpretación

  • Crear la clasificación de resultados en lo que concierne a criterios de éxito y evaluación

  • Seleccionar los mejores modelos

  • Interpretar los resultados en términos de negocio (tanto como sea posible en esta etapa)

  • Conseguir comentarios de los modelos por expertos en datos o en el dominio

  • Chequear la credibilidad del modelo

  • Comprobar los efectos sobre los objetivos de minería de datos

  • Comprobar los modelan contra una base de conocimiento determinada para ver si la información descubierta es nueva y útil

  • Comprobar la fiabilidad de los resultados

  • Analizar el potencial para el desarrollo de cada resultado

  • Si hay una descripción verbal del modelo generado (por ejemplo, en forma de reglas), evaluar las reglas: ¿Ellos son lógicos, o ellos son factibles, hay demasiadas reglas o hay demasiado poco, ellos violan el sentido común?

  • Evaluar resultados

  • Conseguir ideas específicas de cada técnica de modelado y ciertos parámetros de ajustes que conduzcan a resultados buenos/malos

¡Buena idea!

“Tablas de Elevación” y “Tablas de Beneficio” pueden ser construidas para determinar los bien que el modelo predice.

Salida Revisación de parámetros de ajuste

Según la evaluación del modelo, revise parámetros de ajuste y témplelos para la siguiente corrida en la tarea de Construcción del Modelo. Itere (repita) la construcción del modelo y evalúe hasta que usted encuentre el mejor modelo.

Actividades

Ajustar parámetros para producir mejores modelos.

Evaluación

Evaluación Dataprix 15 Septiembre, 2007 - 16:11
  1. Evaluación

Los pasos de evaluación previa tratan con factores como la exactitud y la generalidad del modelo. Este paso evalúa el grado que el modelo encuentra los objetivos de negocio, y procura determinar si hay alguna razón de negocio por qué este modelo sea deficiente. Esto compara resultados con los criterios de evaluación definidos en el principio del proyecto.

Un modo bueno de definir las salidas totales de un proyecto de minería de datos es usar la ecuación:

RESULTADOS = MODELOS + CONCLUSIONES

En esta ecuación, definimos que la salida total del proyecto de minería de datos no es solamente los modelos (aunque ellos sean, desde luego, importantes) pero también las conclusiones, las que definimos como algo (aparte del modelo) que es importante en

  • la búsqueda de los objetivos de negocio o importante para arribar a nuevas preguntas,

  • las líneas de aproximación, o

  • los efectos negativos (por ejemplo, los problemas de calidad de datos descubierto por el uso de la minería de datos).

Notar: Aunque el modelo esté directamente conectado a las preguntas de negocio, las conclusiones no necesariamente están relacionadas con cualquiera de las preguntas u objetivos, mientras ellos son importantes para el promotor del proyecto.

    1. Evaluación de los resultados

Tarea Evaluar los resultados

Este paso evalúa el grado al que el modelo encuentra los objetivos de negocio, y procura determinar si hay alguna razón de negocio por el cual este modelo es deficiente. Otra opción es probar el (los) modelo(s) sobre la aplicación de prueba en el sistema verdadero, si permiten las restricciones de tiempo y de presupuesto.

Además, la evaluación también evalúa otros resultados generados por la minería de datos. Los resultados de minería de datos cubren los modelos que están relacionados con los objetivos originales de negocio y todas las demás conclusiones. Unos son relacionados con los objetivos de negocios originales mientras que otros podrían revelar desafíos adicionales, información, o ideas para futuras administraciones (direcciones).

Salida Evaluación de los resultados de minería de datos en lo que respecta a criterios de éxito de negocio

Resumir resultados de evaluación en términos de criterios de éxito de negocio, incluyendo una declaración final relacionada a si el proyecto ya encuentra los objetivos iniciales de negocio.

Actividades

  • Comprender los resultados de la minería de datos

  • Interpretar los resultados en términos de la aplicación (del uso)

  • Comprobar efectos sobre los objetivos de minería de datos

  • Comprobar los resultados de minería de datos contra la base de un conocimiento determinado para ver si la información descubierta es nueva y útil

  • Evaluar y estimar los resultados en lo que respecta a criterios de éxito de negocio (esto es, el proyecto ha alcanzado los Objetivos de Negocio originales)

  • Comparar los resultados de la evaluación y la interpretación

  • Clasificar los resultados en lo que respecta a criterios de éxito de negocio

  • Comprobar el efecto de los resultados sobre el objetivo (fin) de la aplicación inicial

  • Determinar si hay nuevos objetivos de negocio para ser dirigidos más tarde en el proyecto, o en nuevos proyectos

  • Expresar recomendaciones para proyectos futuros de minería de datos

Salida Modelos aprobados

Después de evaluar los modelos con respecto a los criterios de éxito de negocio, seleccionar y aprobar los modelos generados que encontraron los criterios seleccionados.

    1. Proceso de revisión

Tarea Revisar el proceso

En este punto, el modelo resultante parece ser satisfactorio y parece satisfacer necesidades de negocio. Es ahora apropiado hacer una revisión más cuidadosa de las promesas de minería de datos para determinar si hay algún factor importante o tarea que de algún modo ha sido pasada por alto. En esta etapa del ejercicio de minería de datos, el Proceso de Revisión toma la forma de una Revisión de Garantía de Calidad.

Salida Revisión de procesos

Resumir el proceso de revisión y poner en una lista las actividades que han sido omitidas y/o deberían ser repetidas.

Actividades

  • Proporcionar una descripción del proceso de minería de datos usado

  • Analizar el proceso de minería de datos. Para cada etapa del proceso pregunte:

    • ¿Esto fue necesario?

    • ¿Esto fue ejecutado óptimamente?

    • ¿En que modo podría ser mejorado?

  • Identificar fracasos

  • Identificar pasos desviados (de engaños)

  • Identificar acciones alternativas posibles y/o caminos inesperados en el proceso

  • Revisar resultados de minería de datos en lo que concierne a criterios de éxito de negocio

    1. Determinación de los próximos pasos

Tarea Determinar los próximos pasos

Basado en los resultados de evaluación y la revisión de proceso, el equipo de proyecto decide como proceder.

Las decisiones a ser hechas incluyen si hay que terminar este proyecto y seguir adelante al desarrollo, para iniciar futuras Iteraciones, o establecer nuevos proyectos de minería de datos.

Salida Lista de acciones posibles

Lista acciones futuras posibles con los motivos para y contra de cada opción.

Actividades

  • Analizar e potencial para el desarrollo de cada resultado

  • Estimar el potencial para la mejora de proceso actual

  • Comprobar los recursos restantes para determinar si ellos permiten iteraciones de proceso adicionales (o si recursos adicionales pueden estar siendo disponibles)

  • Recomendar continuar con las alternativas

  • Refinar el plan de proceso

Salida Decisión

Describir las decisiones hechas, con el razonamiento para ello.

Actividades

  • Clasificar las acciones posibles

  • Seleccionar una de las acciones posibles

  • Documentar las razones para la elección

 

Desarrollo

Desarrollo Dataprix 15 Septiembre, 2007 - 16:14
  1. Desarrollo

    1. Plan de desarrollo

Tarea Desarrollo del Plan

Esta tarea comienza con la evaluación de los resultados y concluye con una estrategia para el desarrollo de los resultados de la minería de datos en el negocio.

Salida Plan de Desarrollo

Resumir la estrategia de desarrollo, incluyendo los pasos necesarios y como realizarlos.

Actividades

  • Resumir resultados desarrollados

  • Construir y evaluar los planes alternativos para el desarrollo

  • Decidir para cada resultado de conocimiento o información distinto

  • Determinar como el conocimiento o la información serán propagados (generados) a los usuarios

  • Decidir como será supervisado el uso del resultado y medido sus beneficios (donde sea aplicable)

  • Decidir por cada resultado de modelo desarrollado o de software

  • Establecer como el modelo o el resultado de software serán desplegados dentro de los sistemas de la organización

  • Determinar como su empleo será supervisado y medido sus beneficios (donde sea aplicable)

  • Identificar posibles problemas durante el desarrollo (peligros a ser evitados)

    1. Supervisión y mantenimiento del plan

Tarea Supervisar y mantener el plan

La supervisión y el mantenimiento son cuestiones importantes si los resultados de la minería de datos se hacen parte del negocio cotidiano y de su ambiente. Una preparación cuidadosa de una estrategia de mantenimiento ayuda evitar innecesariamente largos períodos de uso incorrecto de los resultados de minería de datos. Para supervisar el desarrollo de los resultados de minería de datos, el proyecto necesita un plan detallado para supervisar y mantener. Este plan tiene en cuenta el tipo específico de desarrollo.

Salida Plan de supervisión y mantenimiento

Resumir la estrategia de supervisión y mantenimiento, la inclusión de pasos necesarios y como realizarlos.

Actividades

  • Comprobar aspectos dinámicos (esto es, ¿qué cosas podrían cambiar en el entorno?)

  • Decidir como será supervisada la precisión

  • Determinar cuando el resultado de minería de datos o el modelo no deberían ser usados más. Identifique criterios (la validez, el límite de la exactitud, nuevos datos, cambios en el dominio de aplicación, etc.), y que debería pasar si el modelo o el resultado no pueden ser más usados. (Actualización del modelo, establecimiento de nuevos proyectos de minería de datos, etc.).

  • ¿Cambiarán con el tiempo los objetivos de negocio del uso empleo del modelo? Documentar totalmente el problema inicial que el modelo intentaba solucionar.

  • Desarrollar el plan de mantenimiento y la supervisión.

    1. Producción de Informe definitivo

Tarea Producir Informe definitivo

En el final del proyecto, el equipo de proyecto sobrescribe un informe definitivo. Según el plan de desarrollo, este informe puede ser sólo un resumen del proyecto y su experiencia, o una presentación final de los resultados de minería de datos.

Salida Informe definitivo

En el final del proyecto, habrá al menos un informe definitivo en el que todos los hilos son encontrados. Así como la identificación de los resultados obtenidos, el informe también debería describir el proceso, mostrar los costos que se han encontrados, definir cualquier desviación del plan original, describir proyectos de implementación, y hacer cualquier recomendación para el futuro trabajo. El contenido real detallado del informe depende muchísimo de la audiencia planeada.

Actividades

  • Identificar cuales informes son necesarios (presentación de diapositiva, conclusiones de administración, detalles encontrados, explicación de los modelos, etc.)

  • Analizar que tan bien se han encontrado los objetivos de minería de datos iniciales

  • Identificar grupos de objetivos para el informe

  • Describir en forma general las estructuras y el contenido de informe(s)

  • Seleccionar conclusiones para ser incluidas en los informes

  • Escribir un informe

Salida Presentación final

Así como un informe definitivo, puede ser necesario hacer una presentación final para concluir el proyecto- tal vez al patrocinador de dirección, por ejemplo. La presentación normalmente contiene un subconjunto del contenido de la información en el informe definitivo, estructurado de un modo diferente.

Actividades

  • Decidir el grupo objetivo para la presentación final y determinar si ellos ya habrán recibido el informe definitivo

  • Seleccionar cuales de los artículos del informe definitivo deberían ser incluidos en la presentación final

    1. Revisión del proyecto

Tarea Revisar el proyecto

Evaluar que fue lo correcto y que fue lo errado, cual fue el éxito obtenido, y que necesidades serán mejoradas.

Salida Documentación de experiencia

Resumir la gran experiencia ganada durante el proyecto. Por ejemplo, trampas, accesos a información incorrecta (misleading approaches), o los puntos para seleccionar las mejores técnicas de minería de datos en situaciones similares podrían ser la parte de esta documentación. En proyectos ideales, la documentación de experiencia también cubre cualquier informe que ha sido escrito por miembros individuales del proyecto durante el proyecto.

Actividades

  • Entrevistar a toda la gente significativa involucrada en el proyecto y preguntarles sobre su experiencia durante el proyecto

  • Si los usuarios finales trabajan en el negocio con los resultados de minería de datos, entrevistarlos: ¿Están satisfechos? ¿Cómo podría haber sido mejor realizado? ¿Necesitan de apoyo adicional?

  • Resumir la realimentación y escribir la documentación de experiencia

  • Analizar el proceso (las cosas que se trabajaron bien, los errores producidos, las lecciones aprendidas, etc.)

  • Documentar el proceso de minería de datos específico (¿Cómo puede los resultados y la experiencia de aplicación del modelo ser realimentado en el proceso?)

  • Generalizar desde los detalles para producir la experiencia útil para proyectos futuros