Databricks

 

Databricks és una plataforma de programari basada en el núvol per a l'enginyeria de dades, la ciència de dades i l'aprenentatge automàtic. Ofereix un entorn escalable per a executar aplicacions de dades d'alt rendiment, i suport per a grans conjunts de dades i alts volums de processament de dades.

Databricks machine learning

Les organitzacions la utilitzen per a crear, executar i gestionar clústers d'Apatxe Spark en el núvol o en les instal·lacions. També proporciona eines de col·laboració, com Jupyter Notebooks i els quaderns Apatxe Zeppelin (Apatxe Zeppelin és una aplicació web de codi obert que permet als usuaris escriure consultes interactives d'anàlisis de dades en llenguatges com SQL i Python/Scala/R).

La plataforma ofereix als usuaris la possibilitat d'executar consultes SQL contra taules Spark SQL i Hive, així com realitzar operacions ETL en Databricks Delta, un servei d'emmagatzematge d'objectes compatible amb Amazon S3 que suporta lectures i escriptures d'alt rendiment a escala.

La plataforma també permet als usuaris executar treballs d'Apatxe Spark en un entorn distribuït amb suport per a múltiples llenguatges, incloent-hi Scala, Java, Python i R. Els usuaris poden utilitzar Databricks Runtime per a Apatxe Spark per a executar els seus treballs en clústers a través del núvol, que pot ser tant Google Cloud com AWS o Microsoft Azure.

Databricks té tres components principals: Databricks Unified Analytics Platform (DUAP), Databricks Streaming i Apatxe Zeppelin. DUAP és una plataforma de dades basada en el núvol que proporciona un fàcil accés a Spark i a altres eines com MongoDB, Amazon Redshift, Tableau i RStudio. També inclou un quadern d'anàlisi interactiva anomenada Databricks Notebook, que permet l'exploració ràpida de dades mitjançant programes SQL i Scala.

Databricks Streaming permet als usuaris crear fàcilment fluxos en temps real des de qualsevol font cap a Apatxe Kafka o Apatxe Flume (o HDFS). Això significa que, per exemple, es poden enviar dades de llocs web o sensors directament a un clúster per a processar-los sense haver de preocupar-te de mantenir diversos sistemes sincronitzats.