La minería de datos, o data mining, es el proceso no trivial de descubrir patrones válidos, nuevos, potencialmente útiles y comprensibles dentro de un conjunto de datos, según la definición de Piatetsky-Shapiro publicada en la revista "AI Magazine".
Para simplificarlo, podríamos decir que la minería de datos trata de extraer conocimiento a partir de los datos.
Mediante una serie de procesos aplicados en diferentes fases sobre los datos en bruto, y definidos por un experto que conozca el significado de estos datos, y tenga claros los objetivos que persigue, se pueden extraer relaciones entre estos datos, descubrir patrones ocultos y construir modelos que describan este conocimiento.
Las fases por las que debería pasar este proceso de descubrimiento de conocimiento son las siguientes:
- Definición de la tarea de minería de datos. ¿Qué objetivos se persiguen?
- Selección de los datos
- Preparación de los datos
- Aplicación de procesos de minería de datos sobre los datos preparados
- Evaluación y interpretación del modelo obtenido
- Integración de los resultados en los sistemas de información
Es un proceso continuo, y que puede constar de diferentes iteraciones, donde los resultados de una iteración alimentan el inicio de la siguiente.
Por supuesto, para la realización de todo el proceso existen diferentes herramientas especializadas que facilitan, o posibilitan, el paso por todas las fases. Dos de las más conocidas son SAS Enterprise Miner y SPSS Clementine. También existe algún proyecto de software de libre distribución, como WEKA, desarrollado en la Universidad de Waikato, que permite realizar procesos de Data Mining.