El Data Mining consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la Inteligencia Artificial y en el Análisis Estadístico. Mediante los modelos extraídos utilizando técnicas de Minería de Datos se aborda la solución a problemas de predicción, clasificación y segmentación. Ver info en Wikipedia.
Desde TodoBI, hemos llevado a cabo un estudio y creado un documento de diferentes herramientas de data mining, algunas open source como Weka o Tanagra, otras gratuitas como k-nime o RapidMiner (que también dispone de versión de pago) y otras de pago sobradamente conocidas como SPSS Clementine (llamada PASW desde su adquisición por IBM en enero).
Dada la gran cantidad de información disponible para casi todas las herramientas seleccionadas, se ha optado por realizar la comparativa solamente de los distintos Algoritmos de datamining que integran, dejando a un lado las opciones de pretratamiento, post-procesado y visualización disponibles. Posiblemente más adelante ampliemos el documento con esta información.
A la vista de los resultados obtenidos nos hemos decantado por Weka, ya que además de ser gratuita y de tener el más amplio abanico de algoritmos, se integra perfectamente con PDI (antes Kettle), por lo que será sencillo incorporarlo a nuestras soluciones integrales de Business Intelligence.