Estos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.
Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos.
El libro comienza con una acertada introducción a R, a Big Data, y a Hadoop, que en pocas páginas deja claro en qué consiste cada tecnología, cuáles son sus principales funcionalidades, características o componentes, y qué aporta la combinación de R y Hadoop.
Los dos primeros capítulos están dedicados a introducir el proceso de instalación de R, y de Hadoop, a explicar la arquitectura (HDFS y MapReduce), los componentes, y los subproductos de Hadoop, y a mostrar cómo desarrollar programas MapReduce para trabajar sobre el sistema distribuído de ficheros HDFS, incluyendo al final un pequeño ejemplo, y mencionando posibles aplicaciones en el 'mundo real’.
El tercer y cuarto capítulo se introducen ya en la integración entre R y Hadoop, que permite desarrollar en R programas MapReduce que se ejecutan sobre el cluster de Hadoop. Se explica cómo hacerlo con tres métodos diferentes, con el package RHIPE (R and Hadoop Integrated Programming Environment), con la colección de paquetes RHadoop (rhdfs, rmr y rhbase), y con el package de R HadoopStreaming R, que como su nombre indica permite utilizar el streaming de Hadoop con R.
Los siguientes capítulos son los que he encontrado más interesantes, ya que en ellos se plantean ejemplos de casos reales de analítica sobre Big Data que se pueden resolver con la combinación de R y Hadoop. Además el autor explica todo el proceso, con las diferentes etapas que suelen componer el cliclo de vida de un proyecto de analítica de datos. Los datasets que se utilizan son, por ejemplo, extracciones de datos de Google Analytics, o de Yahoo! Finance.
La explicación de cómo aplicar técnicas y algoritmos de aprendizaje automático como regresión lineal, clasificación, clusterización y, especialmente, algoritmos de recomendación es bastante completa, y puede servir de inspiración para muchos proyectos.
El libro termina detallando cómo utilizar packages de R para importar y exportar datos de diferentes orígenes o bases de datos tales como RData, CSV, MySQL, Excel, MongoDB, SQLite, PostgreSQL, Hive o HBase.
Encuentro la obra de gran utilidad para todo aquel que quiera introducirse en el mundo de la analítica de datos sobre Big Data, sobretodo si ya se tiene alguna experiencia con R u otros paquetes de analítica de datos que utilicen algoritmos de base estadística.
Disponible en Amazon: Big Data Analytics with R and Hadoop
Me parece muy interesante el
Subido por Anonimo (no verificado) el 16 Abril, 2014 - 11:51
Me parece muy interesante el libro tanto el manejo o concepto de big data con la integración de distintas tecnologías.
Me parece muy interesante el
Subido por fran el 16 Abril, 2014 - 15:10
Me parece muy interesante el libro y mas aun la combinación de las tecnologias con big data.
Hola El libro combina dos de
Subido por Jomaweb (no verificado) el 16 Abril, 2014 - 18:54
Hola
El libro combina dos de las tecnologías más importantes que hay en la actualidad para el tratamiento de datos. Hadoop es casi insuperable para el tratamiento de grandes volúmenes de información y R es un lenguaje estupendo para realizar tareas estadísticas y analíticas sobre dichos datos.
Gracias por ofrecer esta oportunidad de conseguir el libro
Buenos días, Como
Subido por fongalmi el 17 Abril, 2014 - 09:41
Buenos días,
Como consultor de BI este libro me parece super interesante!
Me gustaría aprender el legunaje R y el Big Data también es un area que quiero aumentar mis conocimientos asi que este libro me vendria muy bien.
Saludos!
Buen Día: Encuentro muy
Subido por Carolina Otalora (no verificado) el 20 Abril, 2014 - 17:48
Buen Día:
Encuentro muy interesante el libro y la forma como se manejan e integran las bases de datos, me gustaría poder participar en el sorteo del e-book.
Gracias.
CAROLINA OTALORA
Buen Día: Encuentro muy
Subido por Carolina Otalora (no verificado) el 20 Abril, 2014 - 17:52
Buen Día:
Encuentro muy interesante el libro y la forma como se manejan e integran las bases de datos, me gustaría poder participar en el sorteo del e-book para poder ponerlo en practica en la institución para la que trabajo.
Gracias.
CAROLINA OTALORA
Hola, Un libro muy
Subido por Joaquim el 22 Abril, 2014 - 12:32
Hola,
Un libro muy interesante. Una buena combinación de tecnologías.
Salut!