Introducción a Apache Spark

Hoy vamos a hacer una introducción a Apache Spark, el nuevo motor del Big Data, se trata de un framework de computación paralela enfocando especialmente hacia la ciencia de datos.

Hay que destacar que Spark lleva incluidas librerías específicas para tratar datos estructurados (SparkSQL), integración con lenguaje R (Spark R), capacidades para el streaming de datos (Spark Streaming), machine learning (MLib) y computación sobre grafos (GraphX).

Esta primera introducción es una guía para su instalación, conceptos, estructura y el primer contacto que tendremos será la implementación de un Clúster Standalone con PySpark, las aplicaciones se ejecutan como un grupo independiente de procesos en el Cluster, dirigido por el programa principal.

 

 

 

Sorteamos 10 eBooks de Economía de las nubes

Cloud computingTan sencillo como subir una fotografía a flickr, acceder al gmail para leer nuestro correo o subir un fichero a dropbox para compartir. Si, así de sencillo va a ser participar en el nuevo sorteo de dataprix.

Un simple comentario y podrás ganar uno de los 10 eBooks que sorteamos este mes de diciembre...

¿Por qué crear mi blog en Dataprix si ya tengo mi propio blog?

Escribir en un blogEn esta ocasión quiero comentar a nuestros usuarios bloggers las ventajas de participar en los blogs de Dataprix, aunque sea compaginándolo con la escritura en vuestro blog personal. 

Dataprix ofrece grandes ventajas a quien publique contenidos en el portal. La visibilidad, el prestigio de colaborar en un sitio de referencia hace muy interesante abrir un blog y publicar en Dataprix.

Integración de Pentaho con MongoDB

Pentaho ofrece soporte para una gran variedad de bases de datos NoSQL diseñadas para trabajar con un gran volumen de datos. Estas bases de datos se están convirtiendo en una tecnología fundamental en el mundo del BigData. Ofreciendo una velocidad y escalabilidad mayor que en las bases de datos estructuradas.

Pero cual deberíamos elegir para nuestros proyectos?

Por este motivo queremos testear diferentes tecnologías, ver su integración con otras herramientas,  y analizar su rendimiento. Podeis seguir las diferentes comparativas desde nuestro blog https://www.jortilles.com/blog/

En este artículo empezamos Mongodb, desde su instalación, los primeros pasos, comandos.. hasta su integración con Pentaho para realizar un informe. A continuación podeis descargaros la guía en pdf

Reseña sobre economía de las nubes

Taxonomia Cloud computing“Economía de las Nubes” es una publicación con estructura de manual donde su autor, Matt Mayevsky, nos da la oportunidad de elevarnos entre las nubes y vivir entre conocimientos e información acerca de su computación. El libro consigue abarcar ampliamente este concepto que puede parecer complejo para transformarlo de una forma sintética en una herramienta útil para el usuario individual como para el empresarial..

Gana un ejemplar del libro Pentaho 5.0 Reporting by Example

Pentaho Reporting by Example

Tras la entrevista que realizamos a Dario Bernabeu y Mariano Garcia sobre la publicación de su nuevo libro Pentaho 5.0 Reporting by Example, hemos llegado a un acuerdo con Packt Publishing para organizar un concurso en el que sortearemos 3 ejemplares del mismo en formato eBook..

Taller FLOSS Reporting con Pentaho 5 en las jornadas de informática de la UNdeC

Los días 4 y 5 de octubre se realizaron en la Universidad Nacional de Chilecito (UNdeC) las VI Jornadas de Informática y Comunicaciones.

 

Fuimos invitados a dictar un taller sobre Pentaho Reporting 5, el mismo fue dictado el día 4 con muy alta concurrencia.

Aprovechamos la oportunidad para hablar de nuestro libro y el proceso de construcción. Algunos concurrentes fueron acreedores de copia (gracias Sandy Joseph de Packtpub).