¿Cuándo usar Data Lake y cuándo los Blob de las Storage Account?

Sitio dedicado a Microsoft Azure y otras tecnologías Cloud

Paisaje precioso de un lago con montañas al fondo

Una pregunta que emerge de vez en cuando en mis alumnos es la de ¿cuándo es pertinente utilizar los Container (Blob) de las cuentas de almacenamiento, y cuándo es mejor configurarla como un Data Lake Gen2.

Y la respuesta corta es: depende.

Cuestión de tamaño

En este documento de Microsoft tienes una descripción detallada de las diferencias entre ambos sistemas, pero los requisitos principales que hay que preguntarse para escoger por qué camino seguir los resumiría en:

  • Tamaño. Si necesitas almacenar más de 500Tb. en una sola cuenta de almacenamiento, no hay más opción que escoger el Data Lake Gen2.
  • Workflow. Si el objetivo de los datos está relacionado directamente con procesos de Big Data, Data Mining, Machine Learning… En donde principalmente se van a guardar los datos una vez y se van a leer muchas, entonces Data Lake Gen 2 es tu amigo.
  • Esquema. Si necesitas un árbol de ficheros, con profundidad, donde almacenar ficheros. Otra vez Data Lake es el sistema de persistencia a elegir.
  • Si necesitas conectar con HDInsight, DataBricks, DataFactory, o con cualquier sistema Hadoop vía HDFS; o quieres lenguajes avanzados de explotación de los datos como USQL o PolyBase… otra vez Data Lake Gen2.
  • Incluso si necesitas un sistema de permisos POSIX a nivel de carpetas o ficheros: Data Lake Gen2.

Ojo, para todo lo demás yo utilizo siempre y de de forma mayoritaria Contenedores (Blob).

De hecho, mi recomendación tanto como formador como en experiencia personal es siempre pensar y construir un Blob Storage, que ya los requisitos te llevarán a un Gen2 cuando sea necesario.

Espero que sea de ayuda.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.