Resumen de mi Tesis - Minería de Datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación

En la presente investigación se realizó una Minería de Datos sobre el Cubo 04 Desgranamiento, exportado del Sistema de Gestión Académica SIU-Guaraní, provistos por el Ministerio de Educación, Ciencia y Tecnología de la Nación.

El objetivo principal fue maximizar la calidad que los modelos tienen para clasificar y agrupar a los estudiantes, de acuerdo a sus características académicas, factores sociales y demográficos, que han desertado de la Carrera Analista en Sistemas de Computación de la Facultad de Ciencias Exactas, Químicas y Naturales de la Universidad Nacional de Misiones.

Luego, estos modelos fueron utilizados para realizar pronósticos sobre el resto de los alumnos.

El proyecto se desarrolló bajo la metodología de libre difusión Crisp-DM y con la herramienta comercial IBM DB2 Warehouse (versión 9.5).

La calidad de los modelos obtenidos a través de la clasificación con árboles de decisión superó a la técnica de agrupamiento a través de la generación de clústeres y ambas han superado ampliamente lo planteado.

 

Terminado el manual de Minería de Datos aplicada a la Encuesta Permanente de Hogares

Acabamos terminar de editar la última incorporación a los manuales online de Dataprix. Se trata del interesante trabajo Minería de datos aplicada a la encuesta permanente de hogares que Alfonso Cutro nos ha enviado para así poder compartirlo con todos vosotros.

También podéis descargar la versión original en formato pdf desde esta entrada de blog donde él mismo presenta el trabajo.

Podéis consultar bajo la figura el índice completo a todo el contenido del manual

 

DataMining en Microstrategy 9 (I).

DataMining en Microstrategy 9 (I).La orientación de Microstrategy 9 con el Data Mining es integrarlo totalmente en su plataforma de Business Intelligence y que no sea un producto aparte como en muchos otros fabricantes (lo que nos obliga a realizar los análisis en un sistema paralelo). Esta integración se realiza a traves de las métricas predictivas, que estaran disponibles en el sistema como un elemento mas del sistema de BI.
Ademas, soporta el estandar de la industria PMML (Predictive Model Markup Language), lo que nos permite importar modelos de data mining desde otras plataformas y crear de forma automatica en el repositorio de metadatos las metricas predictivas. Recordemos que PMML es un estandar de la industria en XML desarrollado por el Data Mining Group(DMG) para describir los modelos predictivos. En su desarrollo han participado los principales fabricantes de software de datamining, incluyendo Microstrategy. Este estandar soporta un gran numero de algoritmos de data mining, como son las Redes Neuronales, Clustering, Regresion, Arboles de Decision y Asociacion. PMML se puede generar en las principales aplicaciones de DM como son SAS®, SPSS®, Microsoft®, Oracle®, IBM®, KXEN™, ANGOSS y otros. Microstrategy es la primera plataforma BI que soporta el estandar, y su plataforma incluye, de forma integrada con el resto de elementos, la creación de modelos y la distribución de los resultados a los usuarios a traves del visor de modelos previsibles, que presenta unas características e información gráfica diferente según el tipo de análisis que estemos realizando. Los resultados de los estudios se pueden incluir como un elemento mas en los Dashboards de analisis...

 

DataMining en Microstrategy 9 (II).

DataMining en Microstrategy 9 (II).El analisis de clúster ofrece un método para agrupar valores de datos basado en similitudes dentro de estos. Esta técnica segmenta distintos elementos en grupos según el grado de asociación entre los elementos. El grado de asociación entre dos objetos es máximo si pertenecen al mismo grupo y mínimo si no pertenecen al mismo grupo. Se forma un número determinado o especificado de grupos, o clusteres, lo que permite clasificar matematicamente cada valor de los datos en el grupo adecuado.
El analisis de cluster se considera una técnica de aprendizaje sin guía debido a que no hay variable de destino o dependiente. Generalmente, hay características subyacentes (que habrá que descubrir) que determinan el motivo por el que determinadas cosas aparecen relacionadas y otras no lo estan. El análisis de cluster de elementos relacionados proporciona información significativa sobre cómo se relacionan entre sí los diversos elementos de un conjunto de datos...

Resumen de Minería de Datos Aplicada a la Búsqueda de Perfiles de Alumnos

Aplicación de técnicas de minería de datos basadas en clustering para la búsqueda de perfiles de los alumnos según su rendimiento académico, situación demográfica y socio económica. 

El objetivo principal de este trabajo es encontrar perfiles de alumnos por medio de la aplicación de técnicas de minería de datos a un data warehouse con datos académicos, socio económico y demográfico correspondientes a alumnos de Sistemas Operativos de la Licenciatura en Sistemas de Información de la FACENA de la UNNE.

Teoria de Data Mining.

Teoria de Data Mining.En una entrada anterior del Blog (2.4. DataMining o Mineria de Datos.) intentamos hacer una aproximación inicial a la teoria del Data Mining. Los procesos de data mining tratan de extraer información oculta en los datos mediante el uso de diferentes técnicas (la mayoría relacionadas con la estadística y los modelos matemáticos, en combinación con aplicaciones informáticas).
Dada la complejidad de estas técnicas, y no siendo el cometido de esta blog entrar en profundidad en esta materia (por cuestiones de tiempo y de conocimientos), nos limitaremos a ver un par de metodologias de datamining, enumerar las técnicas mas habituales y a recordar los conceptos de tres de estas técnicas mediante ejemplos prácticos. Esos mismos ejemplos nos permitirán la posterior utilización de las herramientas de DataMining que proporciona Microstrategy 9 (también incluidas en la Microstrategy Reporting Suite) y explicar que visión tiene el producto de las técnicas de Data Mining.
Antes de comenzar, os recomiendo ver la presentación Data Mining.Extracción de Conocimiento en Grandes Bases de Datos, realizada por José M. Gutiérrez, del Dpto. de Matemática Aplicada de la Universidad de Cantabria, Santander...

 

DataMining o Mineria de Datos.

DataMining o Mineria de Datos.El Data Mining es un proceso que, a través del descubrimiento y cuantificacion de relaciones predictivas en los datos, permite transformar la información disponible en conocimiento útil de negocio.Esto es debido a que no es suficiente “navegar” por los datos para resolver los problemas de negocio, sino que se hace necesario seguir una metodología ordenada que permita obtener rendimientos tangibles de este conjunto de herramientas y técnicas de las que dispone el usuario.
Constituye por tanto una de las vías clave de explotación del Data Warehouse, dado que es este su entorno natural de trabajo.
Se trata de un concepto de explotación de naturaleza radicalmente distinta a la de los sistemas de información de gestión, dado que no se basa en coeficientes de gestión o en información altamente agregada, sino en la información de detalle contenida en el almacén...

 

 

Minería de Datos Aplicada a la EPH Encuesta Permanente de Hogares

EHPCon la denominada sociedad de la información se está produciendo un fenómeno curioso, día a día se multiplica la cantidad de datos almacenados. Sin embargo, contrariamente a lo que pudiera esperarse, esta explosión de datos no supone un aumento de nuestro conocimiento, puesto que resulta imposible procesarlos con los métodos clásicos.

La información que se genera diariamente dentro de la organización es uno de sus activos principales, por lo que se debe orientar los recursos tecnológicos de manera que ayuden a los ejecutivos a tomar decisiones estratégicas y oportunas.

La capacidad de solucionar problemas de decisión, y la calidad de las decisiones tomadas, tienen grandes repercusiones en la organización y en su correcto funcionamiento, de modo que actualmente las organizaciones se enfrentan a la paradoja de que, cuantos más datos están disponibles, menos información se tiene.

Para enfrentar estos problemas, en los últimos años han surgido una serie de técnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de los mismos de forma automática. La idea clave es que los datos contienen más información oculta de la que se ve a simple vista....