Por qué el almacenamiento de objetos es ideal para los lagos de datos

Por Israel Serrano, responsable de Scality para España y Portugal

El término "lago de datos" -un repositorio centralizado que contiene una gran cantidad de datos en bruto en su formato nativo- sólo existe desde hace una década. A pesar de ser un término relativamente nuevo, se espera que los lagos de datos alcancen un volumen de mercado anual de 20.100 millones de dólares en 2025, según Research and Markets.

Por lo general, un lago de datos alberga datos de muchas fuentes en múltiples formatos, todos los cuales requieren un análisis para obtener información empresarial. Cada vez se oye hablar más de "lago de datos" y "big data" al mismo tiempo. Y tiene sentido, porque la analítica de big data requiere una gran cantidad de datos para obtener información.

Dado que los lagos de datos agregan datos de varias fuentes, pueden alcanzar rápidamente la escala de petabytes y más. Este volumen de datos supera la capacidad de las tecnologías de bases de datos tradicionales, como los sistemas de gestión de bases de datos relacionales (RDBMS), que fueron diseñados principalmente para manejar datos estructurados.

No sólo existe un problema potencial de capacidad, sino que los lagos de datos acumulan datos estructurados, semiestructurados y no estructurados. Para gestionar de forma flexible y escalable estos diferentes tipos de datos, se han utilizado nuevos sistemas de almacenamiento como el sistema de archivos distribuidos Hadoop (HDFS) como solución de almacenamiento para los lagos de datos. Pero, como cualquier tecnología, HDFS tiene sus limitaciones.

Una de las principales desventajas de HDFS es que sus recursos informáticos y de almacenamiento están estrechamente acoplados a medida que se amplía (porque el sistema de archivos se aloja en las mismas máquinas que la aplicación). La capacidad de computación y la memoria crecen juntas, lo que puede acabar teniendo un alto coste económico.

Para aprovechar al máximo los conocimientos empresariales que se encuentran en estos lagos de datos masivos, las organizaciones dependen tanto de las herramientas de análisis como del repositorio de almacenamiento en el que se guardan los datos; este último es posiblemente el más importante.

¿Por qué? Porque el repositorio debe procesar los datos de varias fuentes con el rendimiento adecuado, además de poder crecer tanto en rendimiento como en capacidad para que los datos estén ampliamente disponibles para las aplicaciones, las herramientas y los usuarios.

En la búsqueda de una mayor escalabilidad, flexibilidad y menor coste, el almacenamiento de objetos está emergiendo rápidamente como el estándar de almacenamiento para los lagos de datos.

Con el almacenamiento de objetos, no hay límite en el volumen de datos. Otra ventaja clave es que da cabida a todo tipo de datos sin necesidad de "esquemas" predefinidos (como ocurre con los RDBMS, en los que hay que predefinir la estructura y las relaciones entre tablas para realizar consultas complejas); esta capacidad aumenta la flexibilidad.

 

Además, los sistemas modernos de almacenamiento de objetos, como el nuestro, admiten el escalado independiente de la capacidad y el rendimiento, una ventaja importante para los grandes proyectos de análisis. La posibilidad de escalar de forma independiente ofrece el rendimiento informático adecuado para el análisis de datos -bajo demanda- y disminuye sustancialmente el coste total de una solución de lago de datos.

El almacenamiento de objetos también ha sido adoptado por los proveedores de aplicaciones en su intento de resolver los retos de aumentar la capacidad de datos para los clientes. Soluciones como Splunk admiten ahora el almacenamiento de objetos a través de la interfaz SmartStore (que aprovecha la API de Amazon S3), y Microfocus Vertica ofrece el modo EOM (que también aprovecha S3).

Estas soluciones desvinculan el nivel de computación (búsqueda) del nivel de capacidad persistente, lo que proporciona a los usuarios más flexibilidad y eficiencia de costes, a la vez que permite volúmenes de datos mucho mayores para que la analítica sea más eficaz. Además, el ecosistema de herramientas Apache Spark, que tradicionalmente utilizaba HDFS para el almacenamiento, también es compatible con el almacenamiento de objetos S3 a través de la interfaz del sistema de archivos compatible con Hadoop S3A, que aprovecha la API de S3.