Introducción a la Minería de Datos
Introducción a la Minería de Datos alfonsocutro 24 Febrero, 2010 - 23:041.1 Los Datos y el Origen de la Información
1.1 Los Datos y el Origen de la Información alfonsocutro 24 Febrero, 2010 - 23:09El dato es un hecho que describe un suceso o una entidades.
La importancia de los datos está en su capacidad de asociarse dentro de un contexto para convertirse en información.
Por sí mismo los datos no tienen capacidad de comunicar un signi>cado y por lo tanto no pueden afectar el comportamiento.
En cambio la información reduce nuestra incertidumbre (sobre algún aspecto de la realidad) y, por tanto, nos permite tomar mejores decisiones.
1.2 El Procesamiento de los Datos
1.2 El Procesamiento de los Datos alfonsocutro 24 Febrero, 2010 - 23:16Los datos necesitan alojarse en un lugar físico (memoria) para su posterior procesamiento o ejecución. Hasta el momento se ha supuesto que los datos no son tan voluminosos y por lo tanto caben en memoria.
Sin embargo, existen problemas en donde el volumen de datos es tan grande que es imposible mantenerlos en memoria. Entonces, los datos se almacenan en un conjunto de archivos, los que forman una base de datos.
Día a día se multiplica la cantidad de datos almacenados, sin embargo, contrariamente a lo que pudiera esperar, esta explosión de datos no supone un aumento de nuestro conocimiento, puesto que resulta imposible procesarlos con los métodos clásicos.
Es así que hoy las organizaciones tienen gran cantidad de datos almacenados y organizados, pero a los cuales no los pueden analizar e>cientemente en su totalidad.
Con algunas sentencias de SQL se puede realizar un primer análisis, pero la mayoría de las veces, se requiere la utilización de técnicas más avanzadas.
El descubrimiento de conocimiento en bases de datos apunta a procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil en ellos.
1.3 Descubrimiento de Conocimiento en Bases de Datos (KDD)
1.3 Descubrimiento de Conocimiento en Bases de Datos (KDD) alfonsocutro 24 Febrero, 2010 - 23:24El KDD ( Knowledge Discovery from Databases) es el proceso no trivial de identicar patrones válidos, novedosos, potencialmente útiles y en última instancia, comprensibles a partir de los datos. [10]
El objetivo fundamental del KDD ( Knowledge Discovery from Databases), es encontrar conocimiento útil, válido, relevante y nuevo sobre una determinada actividad mediante algoritmos, dadas las crecientes órdenes de magnitud en los datos (ver fig. 1.1).
Figura 1.1: Proceso del KDD( Knowledge Discovery from Databases).
Al mismo tiempo hay un profundo interés por presentar los resultados de manera visual o al menos de manera que su interpretación sea muy clara.
El resultado de la exploración deberá ser interesante y su calidad no debe ser afectada por ruido en los datos.
1.4 Estructuración de los Datos
1.4 Estructuración de los Datos alfonsocutro 24 Febrero, 2010 - 23:33Para poder analizar los datos con >abilidad es necesario que exista una cierta estructuración y coherencia entre los mismos [11].
Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, y a su vez estas pueden ser tanto internas como externas.
Surge aquí la necesidad de conjugar los distintos >cheros y bases de datos de manera que se pueda utilizarlos para extraer conclusiones.
Solucionados los inconvenientes de heterogeneidad de las fuentes, surgen otros problemas relacionados a la estandarizacion de los datos:
- Diferentes tipos de datos representando el mismo concepto (ejemplo: la representación de fecha, donde al año se lo puede guardar con dos o cuatro dígitos).
- Diferentes claves para representar el mismo elemento (ejemplo: un mismo cliente puede ser representado por un código de cliente o por un NIF).
- Diferentes niveles de precisión al representar un dato (ejemplo: los números reales no siempre se almacenan de la misma forma, y es posible que generen algún problema.
Como se ve, la estructuracion de los datos no es sencilla y esto se agrava cuando los diferentes >cheros se encuentran en sistemas informáticos y soportes diferentes.
Por ello la calidad de los resultados está directamente relacionada con la correcta comprensión y posterior estructuración de los datos almacenados.
Lo razonable sería recoger los datos (información histórica) en un sistema separado y especí>co. Nace el Data-Warehousing: Almacenes o Bodegas de Datos, con la necesidad de uni>car los distintos >cheros y bases de datos para poder comprenderlos. Por ello, se necesita de tecnologías que sirvan de guía para comprender el contenido de las Bases de Datos.
1.5 Data Warehouse (DW), Bodegón de Datos o Almacén de Datos
1.5 Data Warehouse (DW), Bodegón de Datos o Almacén de Datos alfonsocutro 24 Febrero, 2010 - 23:36Básicamente se la puede describir como una combinación hardware, software especializado y datos provenientes de distintas fuentes que sirve a la administración para la toma de decisiones [12].
Es un sistemas de información orientado a la toma de decisiones empresariales que almacenando de manera integrada la información relevante del negocio, permite la realización de consultas complejas con tiempos de respuesta cortos.
El Data Warehouse es un almacén estructurado de la información clave de nuestro negocio, que integra datos provenientes de todos los departamentos, sistemas, etc., y que nos permite analizar el funcionamiento de nuestra compañía y tomar de decisiones sobre su gestión.
Es un almacén destinado especí>camente para mantener datos organizados.
1.5.1 Características del DW
1.5.1 Características del DW alfonsocutro 24 Febrero, 2010 - 23:39Un Data Warehouse es una colección de datos orientados a temas integrados, no volátiles y variantes en el tiempo, organizados para soportar necesidades empresariales [11]
Por ello es que un Data Warehouse se caracteriza por ser Integrado, Temático, Histórico y No volátil.
Integrado, es decir que al Huir del entorno operacional al entorno de almacén de datos, los datos asumen una codi>cación consistente.
Temático, debido a que almacena información resumida que se estructura en función de temas empresariales u organizacionales.
Histórico, dado que contiene su>ciente espacio para almacenar datos que posean una antigüedad de diez años o mayor aun .
No volátil, es decir los datos no se modi>can o cambian bajo ningún concepto una vez introducidos en el almacén de datos, únicamente puede ser cargados o leídos.
1.5.2 Bene1cios del DW
1.5.2 Bene1cios del DW alfonsocutro 24 Febrero, 2010 - 23:41Las claves que provee el Data Warehouse son, por un lado la creación de una arquitectura de datos única para todas las aplicaciones, como se vemos en la fig.g. 1.2 y también la resolución de problemas de integridad y calidad de datos.
Figura 1.2: Principales Aplicaciones del Data Warehouse.
Permitiendo así a los Administradores de Bases de Datos que redacten informes o analicen estas grandes cantidades de información, para así poder tomar decisiones según los resultados del análisis [13].
1.5.3 Construcción del DW
1.5.3 Construcción del DW alfonsocutro 25 Febrero, 2010 - 15:23Un Data Warehouse se genera a partir de otras bases de datos, su construcción y desarrollo requiere integrar varios componentes de tecnología y la habilidad para hacerlos funcionar todos juntos [4].
El objetivo fundamental es transformar datos en conocimiento.
Para ello es necesario ensamblar datos existentes siguiendo instrucciones precisas para obtener un óptimo resultado.
Para su construcción se debe considerar en primer lugar el hardware necesario, dado que a mayor tamaño del almacén, mayor deberá ser la capacidad de almacenamiento y el procesamiento. Luego el software y los datos que se utilizarán.
Las Principales etapas de construcción del Almacén de Datos son:
• Extracción: Se crea los archivos de la Base de Datos para transacciones y se guardan en el servidor que mantendrá el Almacén de Datos (se extrae la información operacional).
• Depuración: Se uni>ca la información de los datos de manera que se pueda insertar en el Almacén de Datos (se transforma la información a un formatos consistentes).
• Carga: Se trans>ere los archivos depurados a la base de datos que servirá como almacén de datos.
• Comparación: Se comparan los datos del almacén con los originales.
De todas maneras, el éxito de Data Warehouse no está en su construcción, sino en saber utilizarlo para mejorar procesos empresariales, operaciones y decisiones.
1.5.4 Información Oculta en los DW
1.5.4 Información Oculta en los DW alfonsocutro 25 Febrero, 2010 - 15:25Si se almacena la información mas relevante de nuestro negocio en un sistema que acumula y acumula datos sin parar, un análisis razonable nos puede permitir descubrir tendencias, localizar grupos de datos con comportamiento homogéneo, establecer relaciones, etc [2].
Esta información está oculta en los datos y será necesario utilizar todas las técnicas a nuestro alcance para obtenerla. El objetivo que nos planteamos es localizar relaciones entre atributos de nuestro Data Warehouse.
1.5.5 DW Como Soporte de Decisión Para Los Negocios
1.5.5 DW Como Soporte de Decisión Para Los Negocios alfonsocutro 25 Febrero, 2010 - 15:39Los negocios necesitan aprovechar las posibilidades que les ofrece la actual tecnología para permanecer competitivos y rentables.
El conocimiento del mercado y de los clientes se ha convertido en un factor de supervivencia para las empresas, y el Data Warehouse se per>la como la tecnología para lograr manejarlo.
Las organizaciones necesitan información renovada acerca de las tendencias presentes para mantener su competitividad. Precisan saber qué es lo que está pasando por las mentes de sus clientes.
Asimismo, necesitan determinar los requerimientos corporativas y traducirlos en consultas que puedan ser respondidas a través del Data Warehouse.
Para ello, el Data Warehouse conserva información histórica y actual sobre un negocio, y permite recuperar datos que, bajo la forma de informes, facilitan el descubrimiento y las comprensión de patrones de comportamiento y tendencias de las cuales resultan conclusiones o recomendaciones para los futuros cursos de acción.
Sintetiza algunos datos muy importantes, otorgando al usuario nuevo conocimiento comercial.
1.6 Inteligencia de Negocios
1.6 Inteligencia de Negocios alfonsocutro 25 Febrero, 2010 - 15:45Hace referencia a un conjunto de productos y servicios para acceder a los datos, analizarlos y convertirlos en información.
Es un paraguas bajo el que se incluye un conjunto de conceptos y metodologías cuya misión consiste en mejorar el proceso de toma de decisiones en los negocios basándose en hechos y sistemas que trabajan con hechos. [Howard Dresner ,Gartner Group, 1989].
La Inteligencia de Negocios es una manera de manejar la información histórica de una empresa a través de la construcción de un Data Warehouse, y explotarla con >nes de análisis para una mejor toma de decisiones [8].
A través de la creación de modelos de información multidimensionales una organización puede bene>ciarse al conocer de manera óptima cómo su negocio se ha comportado a lo largo del tiempo, cómo se comporta en el presente y cómo se estima se comportará en el futuro [7].
Algunos de los beneficios que obtienen las organizaciones al implementar este sistemas son:
- Capacidad de análisis.
- Reducción de costos.
- Reducción de tiempos de proceso.
- Búsqueda de patrones desconocidos que sólo aparecen al momento en que los datos son analizados.
- Generación de pronósticos, presupuestación y planeación.
La inteligencia en el negocio electrónico, incluye actividades como el procesamiento analítico en línea (OLAP) y aprovechamiento de datos, también llamada extracción de datos o Minería de Datos (verfig. 1.3).
1.7 Mineria de Datos
1.7 Mineria de Datos alfonsocutro 25 Febrero, 2010 - 15:53Figura 1.3: Inteligencia de Negocios BI.
La Minería de Datos es la etapa de descubrimiento en el proceso de KDD (Knowledge Discovery from Databases): “paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados” [3].
Para conseguirlo hace uso de diferentes tecnologías que resuelven problemas típico de agrupamiento automático, clasi>cación y asociación de atributos, etc.
La Minería de Datos es, en principio, una fase dentro de un proceso global denominado Descubrimiento de Conocimiento en Bases de Datos, aunque >nalmente haya adquirido el signi>cado de todo el proceso en lugar de la fase de extracción de conocimiento [5].
Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos.Está muy ligada a las Bodegas de Datos ya que las mismas proporcionan la información histórica con la cual los algoritmos de minería tiene la información necesaria para la toma de decisiones [4].
El Data Mining (DM) es un conjunto de técnica de análisis de datos que permiten:
- Extraer Patrones, Tendencias y Regularidades para describir y comprender mejor los datos.
- Extraer Patrones y Tendencias para predecir comportamientos futuros.
Debido al gran volumen de datos este análisis:
- Ya no puede ser manual (ni incluso facilitado por herramientas de Almacén de Datos).
- Ha de ser (semi-) automático.
En los sistemas estándar de gestión de bases de datos las consultas se resuelven accediendo a distintos conjuntos de datos almacenados.
Los sistemas de Data Mining (DM) in>eren conocimiento de las bases de datos en forma de Estructuras y Patrones. Este conocimiento supone un nuevo conjunto de información en base a la cual se responden las consultas.
1.7.1 Evolución Historia de la Minería de Datos
1.7.1 Evolución Historia de la Minería de Datos alfonsocutro 26 Febrero, 2010 - 11:51La idea de Minería de Datos no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data Archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido.
A principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro entre otros, empezaron a consolidar los términos de Minería de Datos y KDD.
Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios.
La evolución de sus herramientas en el transcurso del tiempo puede dividirse en cuatro etapas principales:
- Colección de Datos (1960).
- Acceso de Datos (1980).
- Almacén de Datos y Apoyo a las Decisiones (principios de la década de 1990).
- Minería de Datos Inteligente.(nales de la década de 1990).
1.7.2 Aplicacion de la Minería de Datos
1.7.2 Aplicacion de la Minería de Datos alfonsocutro 26 Febrero, 2010 - 12:07En Internet
— E-bussines: Perfiles de clientes, publicidad dirigida, fraude.
— Buscadores Inteligentes: Generación de jerarquías, bases de conocimiento web.
— Gestión del Tráfico de la Red: Control de e>ciencia y errores.
El Mundo de los Negocios
— Banca: Grupos de clientes, préstamos, oferta de productos.
— Compañías de Seguros: Detección de fraude, administración de recursos.
— Marketing: Publicidad dirigida, estudios de competencia.
En Mundo de la Ciencias
— Meteorología:Teleconexiones (asociaciones espaciales), predicción.
— Física: Altas energías, datos de colisiones de partículas (búsqueda de patrones).
— Bio-Informática: Búsqueda de patrones en ADN, proyectos cientí>cos como genoma humano, datos geofísicos, altas energías, etc.
1.7.3 Ejemplos de las Aplicaciones de la Mineria de Datos
1.7.3 Ejemplos de las Aplicaciones de la Mineria de Datos alfonsocutro 26 Febrero, 2010 - 12:28En el Area de la Meteorología
Teleconexiones: Son predicción de asociaciones espaciales sobre una determinada Área Geográfica (ver fig. 1.5).
Existen bases de datos con simulaciones de los campos atmosféricos en rejillas dadas (ver fig. 1.4).
Se dispone de gran cantidad de información en observatorios locales: precipitaciónes, temperaturas, vientos, etc. (ver fig. 1.6).
En el Ambito de la Web
- Reglas de Asociación:
El 60% de las personas que esquían viajan frecuentemente a Europa.
- Clasificación:
Figura 1.4: Areas de los Campos Atmosféricos.
Figura 1.5: Analisis sobre una determinada Área Geográfica.
Figura 1.6: Información obtenida en los observatorios.
Personas menores de 40 años y salario superior a $2000 compran on-line frecuentemente.
- Clustering:
Los usuarios A y B tienen gustos parecidos (acceden URLs similares).
- Detección de “Outliers”:
El usuario A navega en Internet más del doble del tiempo promedio. [5]
1.8 Sistemas OLAP (On-Line Analytical Processing)
1.8 Sistemas OLAP (On-Line Analytical Processing) alfonsocutro 26 Febrero, 2010 - 12:45El procesamiento analítico en línea se de>ne como el análisis rápido de información compartida [1].
Aparece en contraposición al concepto tradicional OLTP (On-Line Transactional Processing), que designa el procesamiento operacional de los datos,orientado a conseguir la máxima eficacia y rapidez en las transacciones individuales de los datos.
Es una aplicación de bases de datos orientada a array que permite visualizar, manipular y analizar bases de datos multidimensionales.
Permite a los usuarios analizar datos corporativos críticos para descubrir los factores decisivos que inHuyen en el negocio. Realizan todas las tareas analíticas y de reporte incluyendo informes de medidas de rendimiento del negocios que resaltan indicadores de rendimiento clave.
1.8.1 Las Herramientas del OLAP
1.8.1 Las Herramientas del OLAP alfonsocutro 26 Febrero, 2010 - 12:52Están basadas generalmente en sistemas o interfaces Multidimensionales.
Utilizan operadores específicos (además de los clásicos):
- Drill.
- Roll.
- Pivot.
- Slice.
- Dice.
El resultado se presenta de una manera Matricial o Hibrida.
1.8.2 Principales Bene1cios del OLAP
1.8.2 Principales Bene1cios del OLAP alfonsocutro 26 Febrero, 2010 - 12:54Permite a los usuarios de entender no solo lo que está pasando, sino cuándo, por qué y cómo.
Resuelve todas las necesidades de análisis con una herramienta de velocidad electrónica.
Proporciona capacidades de análisis para todos los tipos de usuario así como para clientes y proveedores.
Bibliografía
Bibliografía alfonsocutro 26 Febrero, 2010 - 13:11[1] Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and OLAP. USA, 1997.
[2] Mc Graw Hill Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining and OLAP. USA, 1997.
[3] G.; Smith P.; Ramasasmy U. Fayyad, U.M.; Piatetskiy-Shapiro. Advances in Knowledge Discovery and Data Mining. AAAI Press / MIT Press, 2006.
[4] IBM Software Group. Enterprise Data Warehousing whit DB2: The 10 Terabyte TPC-H Benchmark. IBM Press, USA, 2003.
[5] José M. Guitiérrez. Data Mining Extracción de Conocimiento en Grandes Bases de Datos. España, 2001.
[6] Manuel Palomar Juan C. Trujilla. Diseño de Almacenes de Datos. España, 2002.
[7] IBM Press. IBM DB2 Intelligent Miner for Data: Utilización del Visualizador de Asociaciones. IBM Press, USA, 1999.
[8] IBM Press. IBM DB2 Intelligent Miner for Data: Utilización de Intelligent Miner for Data. IBM Press, USA, 2002.
[9] Rudyanto Linngar Saida Davies, Surech Amujuri. WebSphere Business Integration Pub/Sub Solutions. IBM Press, USA, 2004.
[10] Platesky Shapiro C. Matheus W. Frawley, G. Knowledge Discovery in Database An Overview. Al Magazine, 1992.
[11] Jhon Wiley W. H. Inmon and Sons. Data Warehouse Performance. John Wiley, USA, 1992.
[12] Jhon Wiley W. H. Inmon and Sons. Building the Data Warehouse. John Wiley, USA, 1996.
[13] Colin J. White. IBM Enterprise Analytics for the Intelligent e-Business. IBM Press, USA, 2001.