Dataprix | El portal sobre software empresarial

Big data

Lee más sobre Building Hadoop Clusters [Video] - Review (en español)
Inicie sesión para enviar comentarios

Estimad@s,

una vez más se trata de una review de un video curso publicado por Packt Publishing. En este caso les haré un comentario sobre "Building Hadoop Clusters" cuyo autor es Sean Mikha.

Lee más sobre Big data: Gestión de datos no estructurados
1 comentario
Inicie sesión para enviar comentarios

La gestión de los datos no estructurados se ha convertido en uno de los principales retos a los que hacen frente las compañías en lo relativo a gestión de información y Big Data. En este post damos una breve introducción al tratamiento de los mismos y las problemáticas más comunes en su gestión..

Lee más sobre Big Data: schema on read vs schema on write
Inicie sesión para enviar comentarios

schema on read vs schema on write A raíz de una consulta recibida en el post anterior a continuación mostramos las principales diferencias entre el “schema on write” que es el que ya conocemos de las BBDD tradicionales y el “schema on read” más ligado a la arquitectura Big Data.

Lee más sobre Big Data: Integración SAS y Hadoop
Inicie sesión para enviar comentarios

Big Data con Hadoop y SAS Una de las herramientas más maduras en el mundo Big Data es el framework de licencia libre Apache Hadoop. En este post exponemos de forma resumida la integración entre Hadoop y uno de los fabricantes líder en analítica de negocio: SAS.

En primer lugar resumimos los principales componentes de la arquitectura Hadoop..

Lee más sobre Consideraciones procesos ETL en entornos Big Data: Caso Hadoop
5 comentarios
Inicie sesión para enviar comentarios

Procesos de ETL En el presente post pretendemos mostrar la problemática que con frecuencia encontramos en los procesos de extracción, validación y carga de datos en los entornos Big Data. Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza, realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su posterior análisis. Cuando en los datos fuentes, tenemos volúmenes altos, una frecuencia de actualización alta en origen o bien son datos no estructurados, estos procesos ETL suelen tener problemas..

Lee más sobre La confianza y el Big Data en la pyme
Inicie sesión para enviar comentarios

Big Data can generate Big Brainstorms En principio un concepto como el Big Data, puede parecer que es un traje que le queda demasiado grande a una pyme. El Big Data se define como la capacidad para recopilar y analizar las enormes cantidades de datos que el mundo genera actualmente, y aquí también las empresas, consumidores, máquinas con las que interactúan..

Lee más sobre Y los ganadores de los 3 ejemplares del libro "Big Data Analytics with R and Hadoop" son...
3 comentarios
Inicie sesión para enviar comentarios

Tenemos el placer de anunciar que acabamos de realizar el sorteo de 3 eBooks de Big Data Analytics with R and Hadoop en la web de sorteos 'sortea2', y de entre los 8 participantes que han aportado con un usuario registrado sus comentarios sobre el interés que para ellos tiene el libro, los 3 ganadores son...

Lee más sobre Sorteamos 3 ejemplares del libro 'Big Data Analytics with R and Hadoop'
Inicie sesión para enviar comentarios

Sorteo de Big Data Ya está aquí el nuevo sorteo de Dataprix! Conseguir uno de los 3 ejemplares del libro 'Big Data Analytics with R and Hadoop' es muy fácil! En este post explicamos como!

Sigue las instrucciones y... mucha suerte!

Lee más sobre Reseña de Big Data Analytics with R and Hadoop
7 comentarios
Inicie sesión para enviar comentarios

Estos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos..

Lee más sobre Introducción a Apache Spark
Inicie sesión para enviar comentarios

Hoy vamos a hacer una introducción a Apache Spark, el nuevo motor del Big Data, se trata de un framework de computación paralela enfocando especialmente hacia la ciencia de datos.

Hay que destacar que Spark lleva incluidas librerías específicas para tratar datos estructurados (SparkSQL), integración con lenguaje R (Spark R), capacidades para el streaming de datos (Spark Streaming), machine learning (MLib) y computación sobre grafos (GraphX).

Esta primera introducción es una guía para su instalación, conceptos, estructura y el primer contacto que tendremos será la implementación de un Clúster Standalone con PySpark, las aplicaciones se ejecutan como un grupo independiente de procesos en el Cluster, dirigido por el programa principal.

Prueba Semrush gratis 14 días!