Databricks

Databricks es una plataforma de software basada en la nube para la ingeniería de datos, la ciencia de datos y el aprendizaje automático. Ofrece un entorno escalable para ejecutar aplicaciones de datos de alto rendimiento, y soporte para grandes conjuntos de datos y altos volúmenes de procesamiento de datos.

Databricks machine learning

Las organizaciones la utilizan para crear, ejecutar y gestionar clústeres de Apache Spark en la nube o en las instalaciones. También proporciona herramientas de colaboración, como Jupyter Notebooks y los cuadernos Apache Zeppelin (Apache Zeppelin es una aplicación web de código abierto que permite a los usuarios escribir consultas interactivas de análisis de datos en lenguajes como SQL y Python/Scala/R).

La plataforma ofrece a los usuarios la posibilidad de ejecutar consultas SQL contra tablas Spark SQL y Hive, así como realizar operaciones ETL en Databricks Delta, un servicio de almacenamiento de objetos compatible con Amazon S3 que soporta lecturas y escrituras de alto rendimiento a escala.

La plataforma también permite a los usuarios ejecutar trabajos de Apache Spark en un entorno distribuido con soporte para múltiples lenguajes, incluyendo Scala, Java, Python y R. Los usuarios pueden utilizar Databricks Runtime para Apache Spark para ejecutar sus trabajos en clusters a través de la nube, que puede ser tanto Google Cloud como AWS o Microsoft Azure.

Databricks tiene tres componentes principales: Databricks Unified Analytics Platform (DUAP), Databricks Streaming y Apache Zeppelin. DUAP es una plataforma de datos basada en la nube que proporciona un fácil acceso a Spark y a otras herramientas como MongoDB, Amazon Redshift, Tableau y RStudio. También incluye un cuaderno de análisis interactivo llamado Databricks Notebook, que permite la exploración rápida de datos mediante programas SQL y Scala.

Databricks Streaming permite a los usuarios crear fácilmente flujos en tiempo real desde cualquier fuente hacia Apache Kafka o Apache Flume (o HDFS). Esto significa que, por ejemplo, se pueden enviar datos de sitios web o sensores directamente a un clúster para procesarlos sin tener que preocuparte de mantener varios sistemas sincronizados.