¿Quien tiene miedo de la Nube? (Parte IV)

Seguimos con la cuarta entrega de la serie de Michele Iurillo, dedicada al Cloud Computing.

Hoy hablaremos Cloud Analytics.

Una vez que gracias a la data virtualization y al cloud ya no existe el problema de procesar datos para hacer análisis en tiempo real, nos damos cuenta del potencial que tiene la analítica distribuida

Si es verdad que la data virtualization solventa el problema de los procesos ETL que ya no son necesarios.

El Cloud nos brinda disponibilidad y solvencia. Todo perfecto. Quizá no tanto. Analicemos entonce ventajas e inconvenientes de la business intelligence en la nube.

Los siguientes beneficios se encuentran en la mayoría de las soluciones analíticas basadas en la nube

Escala infinita: A diferencia de las soluciones basadas en las instalaciones, que están  limitadas por el espacio físico en el rack del centro de datos, un la solución basada en la nube puede (en teoría), escalar a un tamaño casi infinito. En realidad, como cada solución existen límites prácticos.

Inversión más contenida: Como las implementaciones basadas en la nube se pagan por suscripción o por pago por uso, no es necesaria una gran inversión, y esto es una ventaja significativa para las pequeñas y medianas empresas.

Pienso en aquello clientes que se desprendieron de un riñón para pagar las licencias de Cognos en su día, que ahora ven que casi todo se hace con PowerBI.

La BI y el mid-market: una fábula maravillosa que empezó QlikView y que ahora permite a casi toda empresa poder sacar información relevante de sus datos.

La misma gran revolución va a ser la analitica en cloud

Os aconsejo echar un vistazo a Google Data Studio.

Siempre disponible: Cada solución normalmente posee alta disponibilidad. Esto no es los mismo que con las soluciones on-premise, que normalmente necesitan un centro de datos.

¿Y si son las 3 de la madrugada y quiero hacer una análisis en tiempo real? Ya no hay cubos que tienen que girar y el dato es el dato actual ahora en este mismo momento. Esto mola.

Control de costes: El modelo de pago por uso apoya la capacidad de controlar los costes de forma continua, y evita un gasto de capital significativo y sobre todo es flexible.

Normalmente el modelo de licencia nominal ha hecho estragos sobre todo después de la crisis. Tenía clientes que aún cerrando mitad de las tiendas tenían que seguir pagando el mantenimiento por todas ellas.

Time to Market: La mayoría de las bases de datos basadas en la nube se pueden implementar en un nuevo hardware en cuestión de minutos, lo cual acelera la entrega de nuevas soluciones.

Agilidad: Muchas soluciones basadas en la nube pueden desplegarse rápidamente, ampliarse o suspenderse temporalmente.

Coste Reducido: La capacidad de implementar o eliminar rápidamente una base de datos ayuda a reducir los costos al evitar bases de datos de pruebas de rendimiento y de aceptación de usuarios asignadas de forma permanente. 

OLTP tiene 40 años y se nos olvida…

La arquitectura OLTP basada en filas fue ideada hace casi 40 años, desde entonces se han ampliado.

Como ejemplo de la complejidad, Oracle11g incluye una amplia gama de opciones de ajuste de rendimiento añadidas en el tiempo, incluyendo más de 500 parámetros de sintonía individuales y 16 tipos de índices.

El paso a la nube abre una verdadera oportunidad para simplificar o incluso eliminar la administración del sistema en los sistemas heredados.

No sólo el mantenimiento del hardware y del sistema operativo, sino también de la base de datos en sí mismo.

Realmente no solo virtualizamos máquinas… sino también base de datos y éste es el punto.

Para ello, algunas soluciones analíticas han sido rediseñadas desde cero y ofrecen una arquitectura innovadora que elimina casi por completo la necesidad de recursos técnicos altamente cualificados.

Esto significa que en una base de datos los ingenieros y arquitectos se liberan de las exigencias de la administración de bases de datos para centrarse en lo real de la empresa, aportando información a los clientes.

Pero no es todo… aquí algún otro ejemplos de limitaciones y problemas que el Cloud ha resuelto:

Diseño de Índices: Antes para maximizar el rendimiento de las consultas en las búsquedas el diseñador tenía que equilibrar los requisitos de rendimiento, a menudo contradictorios de las consultas de lectura, con la necesidad de cargar grandes volúmenes de datos.

Esto conducía a la desactivación de índices durante cargas de lotes grandes.

Captura de datos estadísticos: Para apoyar a un optimizador basado en costos, la mayoría de las bases de datos on-premise utilizan herramientas para analizar y capturar estadísticas de metadatos para maximizar el rendimiento de las consultas.

Sin embargo, como se insertan entradas adicionales, estas estadísticas pueden quedar obsoletas, lo que conduce a una estrategia de limpieza para actualizarlas regularmente que puede ser una tarea exigente de la CPU.

Particionamiento horizontal y replicación: Lo que implica especificar un método de distribución de datos razonable a través de múltiples servidores.

Así nacieron las base de datos distribuidas pero siempre estaban en el mismo centro de datos. Hoy con los sistemas de Computación en Paralelo no es necesario. Pensar por ejemplo en Azure CosmoDB.

Las soluciones basadas en la nube también ofrecen características adicionales

Clonación de copia cero: Una técnica utilizada para replicar rápidamente una base de datos para construir una prueba completamente poblada.

Esto funciona mediante la clonación de la base de datos sin ninguna copia física de los datos.

Puede facilitar la DEVOPs, ya que los terabytes de datos pueden ser clonados en cuestión de segundos con inserciones subsiguientes.

Intercambio de datos: Que proporciona acceso a recursos informáticos y de datos a socios externos o subsidiarias sobre una base de sólo lectura.

Esto evita la necesidad de construir múltiples Transformaciones y Cargas de Extracción (ETL) a usuarios externos, y evita la necesidad de rutinas de Captura de Datos de Cambio (CDC) cuando el los datos del almacén se actualizan, ya que los usuarios siempre ven los datos más recientes.

Michele Iurillo. Synergo

 

Autor:  Michele Iurillo es es miembro de DAMA Italy y VP Marketing, Events DAMA España fundador del Data Management Summit eventos de referencia en el mundo del manejo de los datos