South Europe, Spain
listas@juanquijano.es

Migrando datos cuando no tengo conexión: Azure Data Box

Para un usuario hiper conectado como yo, me resulta muy raro y extraño los escenarios en donde no pueda enviar mi información de manera ubicua y veloz a través de una conexión de calidad y estable.

Incluso en aquellos momentos más complicados, como un viaje en AVE, o ese pueblo perdido de la mano del 4G, siempre puedo moverme a una localización fuera de la sombra de conectividad para realizar la transmisión o sincronización de mis datos.

¿Pero si mi captura de datos está situada en una zona con una infraestructura de comunicaciones deficiente, errática o lenta?

Cuando no hay conexión que valga

Imagínate que tengo un sistema de monitorización de migración de ballenas en una región específica del océano, y que tengo una miriada de sensores detectando todo bicho viviente que nade o se arrastre por la zona.

Estos dispositivos generan cada día unos cuantos Gigabytes de información audiovisual y datos; que deben ser procesados por medio de sistemas de big data y machine learning.

Obviamente es muy complicado recoger estos datos en un medio como el marino, y más aún hacerlo llegar a mi plataforma de explotación montada en Azure. Y por ello, empresas que se enfrentan a escenarios de este tipo están apostando por Azure Data Box.

Dos tipos con cinco sabores de Azure Data Box

Básicamente Azure Data Box es el procedimiento que ofrece Microsoft para hacer llegar dispositivos físicos de almacenamiento al cliente, que lo llene a rebosar de datos, que sean enviados a la región más cercana y que sean volcados en el Cloud.

Pero como todo en la Nube de Microsoft, tenemos dos tipos diferenciados, cada uno con diferentes sabores de servicios.

Escenarios sin conexión

En este caso no tengo posibilidad de conexión, o es muy mala. Y lo que me ofrece este servicio es hacerme llegar tres tipos diferentes de dispositivos de almacenamiento.

  • Data Box Disk. Es una especie de maletín en donde se guardan unidades de almacenamiento SSD de hasta 8Tb. cada uno, y pudiendo guardar de una tacada hasta 5 unidades. Es decir, me vale para poder transferir hasta 35Gb de datos.
  • Data Box. El origen y la unidad estándar. Es una caja del tamaño de una torre de sobremesa que es una NAS de hasta 100Tb de capacidad, y de las cuales puedo pedir hasta 5 unidades.
  • Data Box Heavy. Ahora mismo está en preview, pero es una carretilla (si con asa y cuatro ruedas) llena de unidades de almacenamiento que es capaz de llevar 800Tb. de una tacada.

La seguridad de los datos está garantizada por el propio Azure ya que se utiliza Bitlocker con cifrado AES 256 para proteger toda la información almacenada; un bloqueo por contraseña del dispositivo, que se define en el portal de Azure; y el uso de empresas de transporte de máxima confianza para Microsoft.



Una vez volcados los datos en Azure, se borran los dispositivos de forma completa siguiendo las directrices del NIST 800-88r1 .

La velocidad de almacenamiento de nuestros datos en estos dispositivos de transporte depende de cada tipo. En el caso de los Data Disk, son SDD USB 3.0 con 450Mbs; esto sube hasta 80Tb/día en los Data Box con su interfaz de 10GbE; siendo la interfaz de 40GbE del Box Heavy el que mayor tasa de transferencia soporta.

Sobre precios, mi percepción depende del valor del dato y el coste que supondría hacer este traspaso de otra forma.

Así tengo un coste por cada unidad física de datos que utilice, al que tengo que añadirle el transporte (ida y vuelta) , más el almacenamiento en la Storage Account, y el pequeño coste de las operaciones CRUD.

Aquí tengo toda la información sobre precios.

 

Por ejemplo: para un Data Box de 80Tb, el coste total para volcarlo en menos de diez días sería de unos 340€;con un coste de almacenamiento mensual de unos 3,5€.

Pero, escribiendo el artículo, me he llevado la sorpresa de que hay una forma más de enviar datos por medio de dispositivos físicos y que solamente aparece en el portal de Azure y no en la documentación de Data Box: Envía tu propio disco.

Azure Data Box heavy

Tal y cómo se muestra, me permite 10 discos duros SSD o HDD SataII/III con 1Tb de capacidad cada uno. Y sin coste de envío, porque ese corre por mí cuenta.

Realmente es la parte de envío del servicio Import/Export (al cual le dedicaré algún día otro artículo), y sale a unos 70€ por disco.

Escenario con conexión

¿Y si que tengo conexión pero quiero automatizar la sincronización de los datos con Azure?

Sin quererlo me da la sensación que es la puntilla final en el proceso de muerte y sustitución de StoreSimple como plataforma de sincronización de datos (si bien sigue siendo una excelente solución de almacenamiento híbrido inteligente).

StoreSimple

Lo segundo es que me parece una idea genial para aquellos sitios que tienen una conectividad pobre, lenta o errática; que requieren una administración constante y pesada o que tienen múltiples orígenes de datos; y que quieren automatizar al máximo el envío de la información a una cuenta de almacenamiento de forma segura y óptima.

Para ello Azure ofrece un appliance «novedoso» llamado Data Box Edge, el cual no es ni más ni menos que (supongo) una evolución del Azure IoT Gateway.

Es decir, Microsoft me va a enviar un cacharro con dos CPU con 10 núcleos, 16Gb de RAM y 12Tb de almacenamiento, capaz de funcionar como un gateway de datos, y realizar pre procesamiento y aplicación de machine learning perimetral (es decir en el propio dispositivo).

Osea, una máquina excelente para recuperar la información de mi infraestructura IoT y realizar acciones basadas en el modelo ya enseñado, recibir nuevas versiones y enviar ese enorme volumen de información al Cloud para ser añadido al proceso de machine Learning o de Big Data que tenga configurado en mi HDInsight, o en los servicios que prefiera utilizar.

Pero ya que estoy en el mundo virtual, también puedo virtualizar esta máquina física en forma de un Azure Data Box Gateway. Que es una VM con las características necesarias para realizar las mismas funciones que un Data Box Edge, pero sobre un Host Hyper-V, VMWare o Azure/ Azure Stack configurando un recurso del tipo Data Box Gateway.

En este caso, el coste no es el de una adquisición, si no un alquiler o suscripción de recursos que en el caso físico son 283€/més y en virtual 53€/mes (más el coste de la cuenta de almacenamiento).

Gestión desde el Portal

Está claro que Azure me ofrece bastantes posibilidades para transferir información de forma masiva por medio de dispositivos físicos –aunque con menos opciones que Amazon, pero se va acercando.

Sin embargo la gestión de todo el proceso desde el portal de Azure creo que es una de sus virtudes.

Desde él realizo el pedido del tipo de Data Box; selecciono el sabor que quiero y configuro los parámetros de tamaño, direcciones de recogida y región de entrega, visualización del estado del transporte, del estado de la carga y la descarga, del estado del dispositivo (abierto/bloqueado), y la ejecución del borrado final.

¿Demasiado sencillo?

Parece que Microsoft no es capaz de quitarse de encima la costumbre de complicar sus modelos de facturación y uso de los servicios. Y Azure en general, y Data Box en particular, también sucede.

Así que estos servicios no solo no están disponibles para todos los países o regiones, sino que además tampoco todos los tipos de suscripciones: Data Box Disk, Data Box y Data Box heavy necesitan que la suscripción sea del tipo: Enterprise Aggrement (EA), CSP o Microsoft Partner Network(MPN).

Osea que con una pago por uso, una MSDN, o una MCT, solo vas a poder mandar discos sueltos. En cambio los escenarios conectados no tienen ninguna restricción.

Conclusión

Data Box es un servicio que tiene una pinta excelente, el cual tiene un ámbito de actuación mucho mayor del que parece en un primer vistazo, y que imbrica con el mundo de IoT y la omnipresente Inteligencia Artificial.

Espero que sea de utilidad

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

A %d blogueros les gusta esto: