La minería de datos, o data mining, es el proceso no trivial de descubrir patrones válidos, nuevos, potencialmente útiles y comprensibles dentro de un conjunto de datos, según la definición de Piatetsky-Shapiro publicada en la revista "AI Magazine".
Para simplificarlo, podríamos decir que la minería de datos trata de extraer conocimiento a partir de los datos.
Mediante una serie de procesos aplicados en diferentes fases sobre los datos en bruto, y definidos por un experto que conozca el significado de estos datos, y tenga claros los objetivos que persigue, se pueden extraer relaciones entre estos datos, descubrir patrones ocultos y construir modelos que describan este conocimiento.
Las fases por las que debería pasar este proceso de descubrimiento de conocimiento son las siguientes:
- Definición de la tarea de minería de datos. ¿Qué objetivos se persiguen?
- Selección de los datos
- Preparación de los datos
- Aplicación de procesos de minería de datos sobre los datos preparados