Cada vez hay más datos, y cada vez tienen mayor importancia. Las empresas que son capaces de analizar mejor sus datos, y también los datos externos, adquieren una ventaja competitiva sobre las demás, ya que mediante la analítica de datos pueden tomar decisiones estratégicas basadas en información.
Las herramientas de Business Intelligence, como Oracle BI, IBM Cognos o Pentaho llevan años permitiendo a las empresas organizar sus datos mediante Data Warehouses o almacenes de datos corporativos, y explotarlos gracias a los informes que se pueden ejecutar desde los servidores de reporting. Estos informes pueden ser operativos o analíticos, y permiten entonces la exploración activa de los datos por parte de analistas en busca de respuestas a preguntas de negocio.
Pero el poder de los datos no termina ahí. El Business Intelligence siempre ha buscado sacar el máximo rendimiento de la analítica de datos de las empresas u organizaciones, e incluso ha pasado a llamarse durante un tiempo Business Analytics, o analítica de negocios, aunque el término no ha acabado de cuajar, ya que la llegada del Big Data y del Data Science lo ha terminado eclipsando, al orientar directamente las tendencias tecnológicas hacia la analítica de datos.
En las suites de Business Intelligence más completas siempre había una parte de las herramientas dedicadas a la Minería de Datos, como Weka en la suite de Pentaho, o SPSS en la suite de CPM de IBM. También existen herramientas independientes de Datamining, como SAS o el software Open Source RapidMiner.
La minería de datos se ha definido como un campo tecnológico dedicado a extraer conocimiento de los datos y obtener patrones ocultos en los datos mediante la aplicación de métodos estadísticos y algoritmos de inteligencia artificial y de aprendizaje automático, aplicados sobre grandes volúmenes de datos.
Existe desde hace muchos años, y ha sido utilizada a muchos niveles, aunque ha prestado especial ayuda a entidades financieras y por aseguradoras para el cálculo de riesgo, detección de fraude, y realización de proyecciones o previsiones. Con la llegada de Internet, las redes sociales, y la explosión de datos públicos y datos externos disponibles en la red, ha surgido el termino Big Data para englobar todo lo que se refiere al tratamiento de grandes volúmenes de datos para la obtención de información y conocimiento, que en realidad no aporta nada especialmente innovador con respecto al Business Intelligence, salvo la manera en que se almacenan los grandes datos, que ya no está limitada a las bases de datos clásicas basadas en modelos relacionales. Los sistemas como Hadoop y las bases de datos llamadas NoSQL permiten almacenar grandes cantidades de datos en ficheros distribuidos, lo que aporta a estos sistemas una escalabilidad muy grande, y sencilla, algo crítico para, por ejemplo, las redes sociales que están triunfando hoy en día, y que generan diariamente teras y teras de datos con las aportaciones de sus activos usuarios.
Volviendo al tema de la minería de datos, que nunca ha llegado a ser demasiado utilizada en la mayoría de empresas, igual que ha aparecido el Big Data, ha llegado el término Data Science, que básicamente es lo mismo, pero parece que está entrando mejor, seguramente porque las necesidades han cambiado, hay más datos para analizar, y algunas herramientas son más fáciles de utilizar. Destaca especialmente el proyecto de lenguaje open source R, que parece que está desbancando a SAS como software más emblemático para Data mining, o Data Science, como se le quiera llamar.