Inicio Blog Página 2

Introducción al área de calidad del dato

0
Calidad de datos
Calidad de datos

Durante los últimos años, las empresas están haciendo un gran esfuerzo por llegar a ser data-driven, sin embargo, tomar decisiones basadas en datos puede convertirse en un reto difícil de alcanzar.

Las compañías recogen datos procedentes de fuentes diversas y los almacenan en distintos sistemas de información basados en diferentes tecnologías.

Como resultado, aparecen silos de datos con estructuras y formatos heterogéneos.

Además, es habitual encontrar que la información almacenada se encuentra incompleta, desactualizada, duplicada o contiene errores.

Bajo este contexto, resulta difícil tomar decisiones estratégicas basadas en datos debido a la dificultad que entraña disponer de datos de calidad.

Cultura del dato

Garantizar la calidad de los datos es un reto que requiere de todo un proceso (no un proyecto) en el que debe intervenir toda la compañía, desde el comité directivo hasta las diferentes unidades de negocio.

Es una creencia muy extendida que la calidad de los datos es una responsabilidad del área de tecnología, sin embargo, una exitosa política de calidad debe involucrar a Negocio, porque es este área quien conoce qué se debe esperar de los datos.

El primer reto para establecer una cultura en torno al dato es entender que la mala calidad de los datos tiene un coste real para la compañía: errores de facturación, pérdida de confianza del cliente, mala reputación, pérdida de oportunidades de negocio o pérdidas por toma de decisiones erróneas pueden ser algunas de ellas.

¿Cómo abordar la calidad del dato?

Una vez concienciados de la importancia de la calidad de los datos y que se ha establecido como una prioridad, ¿qué necesita la compañía?

En primer lugar, es necesario definir la propiedad del dato.

El propietario del dato debe ser una persona de negocio que se haga responsable de los datos que le pertenecen, asegurándose de la calidad y del uso responsable de sus datos.

La propiedad del dato debe ser debidamente entendida, es un error muy frecuente encontrar unidades de negocio con un concepto erróneo de la propiedad.

Estas unidades suelen mostrarse reacias a compartir sus datos o que las métricas de calidad sean transparentes al resto de la compañía.

Dato activo de la compañía

No hay que perder de vista que el dato es un activo de la compañía, y como tal, debe ser accesible y se debe conocer su calidad.

En segundo lugar, deben establecerse procesos que permitan realizar controles periódicos de la calidad de los datos. La calidad de los datos no es estática, los datos que hoy se hayan corregido no tienen por qué permanecer así mañana.

Por este motivo, los controles deben ejecutarse con cierta frecuencia y los resultados de las métricas deben ser públicos y accesibles, bien a través de dashboards, informes o en el catálogo de metadatos.

Tampoco hay que perder de vista que el dato es un elemento “vivo”: se crea, se transporta, se transforma y se consume. Como consecuencia, se deben establecer controles a lo largo del ciclo de vida del dato.

El objetivo final debe ser detectar los problemas de calidad y corregirlos en origen.

Esto no implica que adicionalmente no puedan realizarse medidas de limpieza para corregir los errores existentes.

Los controles de calidad que se hayan establecido permitirán medir el éxito de las medidas correctivas aplicadas y monitorizar cualquier cambio que se produzca.

De cara a la monitorización, es conveniente establecer umbrales de calidad que desencadenen alarmas y notificaciones cuando la calidad caiga por debajo de un determinado umbral.

Por último, no hay que olvidar que los datos no son estáticos, los controles deberán modificarse conforme a las variaciones de las estructuras de datos, crear controles nuevos, nuevas reglas de negocio, etc.

Además, es fundamental establecer planes que busquen la mejora continua de la calidad de los datos como parte de esta nueva cultura en torno al dato.

Disponer de un comité de calidad de datos o de un centro de excelencia puede resultar muy útil para liderar la iniciativa: alinear la estrategia de la empresa, identificar los datos críticos, coordinar los controles periódicos y definir roles y responsabilidades dentro de las diferentes áreas de la compañía.

Una labor fundamental para el éxito de la iniciativa son las comunicaciones corporativas, difusión de las políticas y liderar el cambio cultural mediante formaciones obligatorias.

Tecnología

La tecnología juega un papel fundamental en todo este proceso. Es importante definir los roles, responsabilidades y el proceso, pero no es posible realizar controles de calidad sin la herramienta adecuada.

Comenzaba explicando que las compañías almacenan datos en sistemas de información heterogéneos.

Es importante, por este motivo, elegir una herramienta que permita conectar con distintos orígenes de datos (tanto sistemas de almacenamiento más tradicionales como tecnologías Big Data), tanto en entornos Cloud como On Premise

Por otro lado, es importante disponer de una herramienta que permita llevar las métricas de calidad a distintos sistemas, por ejemplo, al catálogo de metadatos o a una herramienta de reporting.

Por último, hay que considerar qué características ofrece la herramienta en cuanto a funcionalidades de calidad de datos:

  • capacidades de perfilado,
  • creación de reglas de negocio,
  • traducción de reglas funcionales a consulta técnica,
  • ejecución de controles,
  • visualización de resultados,
  • agregación de métricas,
  • monitorización de calidad,
  • umbrales de calidad,
  • alertas, etc.

En conclusión, la calidad de los datos requiere crear una cultura en torno al dato que establezca la calidad como una prioridad.

Además, es importante destacar que no se trata de un proyecto con un final, sino un proceso continuo que requiere de compromiso por parte de la organización.

Lucía Engo. Responsable Calidad Dato
Lucía Engo. Responsable Calidad Dato

Introducción al área de Modelado, DWH, Business Intelligence

0
Modelo Dimensional BI

El Gobierno del DATO abarca una amplia cantidad de perspectivas, desde la arquitectura, operación y gestión de las BBDD, pasando por la seguridad y la calidad de los DATOS y llegando hasta las verdaderas preguntas a las que nos gustaría que diesen respuesta esos DATOS.

En nuestra área de Modelado, Almacenamiento o “DataWareHouse” y Business Intelligence nos centramos precisamente en las preguntas y respuestas que requiere nuestro Negocio.

Tenemos conocimiento de la Infraestructura y la operación de BBDD, pero en una capa de Gobierno, como también sabemos de los distintos tipos de datos que se emplean en nuestros proyectos, la privacidad que deben respetar, su calidad y la gestión de la seguridad y ciclo de vida, desde una visión de Gobierno.

Nosotros no entramos a gestionar estos aspectos, aunque son muy importantes en el resultado final de nuestro trabajo.

De nuevo dentro de nuestra área de influencia, también hay distintas aproximaciones, lógicamente atendiendo al DMBok: 

  • Teniendo en cuenta el método a emplear, Modelos en Estrella idealmente.
  • Las distintas tecnologías, local, nube o mixta, almacenes físicos o lógicos de datos.
  • Y por supuesto las distintas Herramientas, PowerBI, Tableau, Clik, etc.

Considero “el arte” de Modelar el cimiento sobre el cual edificamos toda la estrategia de DATOS. Por este motivo y a modo de introducción entramos con algo más de detalle para tener claros unos conceptos bastante simples.

Entidades: Datos, Registros y Tablas

Un número de teléfono es un Dato.

Un registro agrupa todos los datos de una persona, por ejemplo, un cliente. La clave o código único, el nombre, la dirección, población, país, teléfono, web, email, Agente comercial, etc.

Y finalmente, siguiendo el ejemplo una tabla agrupa los registros de todos nuestros clientes.

Tablas de Hechos y Dimensiones

Una factura es un Hecho. Nos dice, por ejemplo, que en fecha 26-05-2020 el cliente 00101 a comprado 5 unidades del artículo AA12 a un precio de 12 Euros.

El importe de venta 5 x 12 = 60 Euros es un campo calculado, no es un dato “físico”.

El calendario o tiempo, el cliente y el articulo son Dimensiones de análisis.

Puedo analizar, filtrar, segmentar las ventas por la dimensión Año, Mes, Semana o Día

También por la dimensión País, Agente, Cliente.

Y finalmente por la dimensión Familia, Artículo.

Relaciones

Las tablas de dimensiones suelen tener más campos y menos registros

Las tablas de hechos por contra tienen menos campos y muchos más registros

En las tablas de dimensiones la clave es la fecha, el código de cliente o de artículo

En las tablas de hechos la clave es el número de factura y línea (en realidad son 2 tablas)

Un cliente se Relaciona con muchas facturas, esa relación se llama de uno a muchos.

Y la dirección del filtrado es de cliente a factura, es decir si seleccionas un cliente te muestra solo sus facturas

Nos encanta divulgar sobre Entidades, Modelos, Business Intelligence, Gobierno del DATO y Tecnología en General, pero siempre teniendo en cuenta que el valor reside en cómo ayudamos al éxito de la Estrategia de Negocio.

Enrique Mora
Enrique Mora

 

Autor: Enrique Mora. Responsable del Área de Modelado, DWH y Business Intelligence

¿Y por qué ahora me hablan de metadatos…?

0
¿Y por qué ahora me hablan de metadatos…?

Si eres el CEO o un cargo directivo de alto nivel y hace bien poco tomaste la decisión de gestionar profesionalmente (como otros activos) los datos de tu empresa, es probable que últimamente estés escuchando con frecuencia a tu alrededor la palabra metadatos.

Los metadatos son los datos que necesitas para poder realizar una gestión eficiente de los datos de tu empresa.

No, no es una frase de Groucho Marx (aunque bien podría serlo); sirva el siguiente ejemplo para explicarlo.

Imagina una biblioteca con cientos de miles de libros y revistas, pero sin un catálogo.

Los lectores no sabrían por dónde empezar a la hora de buscar un determinado libro o incluso libros sobre un tema determinado.

El catálogo no sólo proporciona la información necesaria sobre qué libros hay y dónde están ubicados, sino además permite localizar fuentes usando diferente información como tema, autor o título.

Una organización sin metadatos es como una biblioteca sin catálogo.

Los metadatos requieren de planificación y gestión; y a medida que se incrementan los datos que maneja una organización, crece la importancia de los metadatos en la gestión global de los mismos.

Hay muchos tipos de metadatos y a menudo la línea de separación entre un dato y su metadato es prácticamente inapreciable, pero básicamente los podemos dividir en tres grandes categorías: de negocio, técnicos y operacionales.

  • Los metadatos de negocio concentran la información sobre el contenido y origen de los datos y sobre el gobierno de los mismos (por ejemplo la definición y la descripción de un determinado conjunto de datos. 
  • Los metadatos técnicos aportan información sobre detalles técnicos (quién puede acceder a esos datos, por ejemplo), sistemas que almacenan datos y procesos de intercambio de los mismos.
  • Finalmente los metadatos operacionales describen los detalles del procesado y acceso a los datos como por ejemplo registros de accesos, errores, etc.

Construir una estrategia de datos

A la vista de esto, queda claro que para construir una estrategia de datos dentro de una empresa, obligadamente tenemos que construir una estrategia de metadatos y esto requiere trabajo y disciplina; y no es fácil de realizar, incluso aunque la mayoría de los involucrados en el proceso de cambio reconozcan el valor de la fiabilidad de los metadatos.

DAMA España crea el marco adecuado para el intercambio de experiencias y casos de éxito entre profesionales de la gestión de datos, lo que es especialmente útil cuando hablamos de metadatos.

Referencia: Navigating the labyrinth. An executive guide to data management (By Laura Sebastian-Coleman for DAMA Internacional)

José Marín-Roig, Presidente
José Marín-Roig, Presidente

Autor: José Marín-Roig. Presidente de Dama España.

Director de la Cátedra de Innovación del Campus de Gandia de la UPV

¿Quien tiene miedo de la Nube? (Parte IV)

0
¿Quien tiene miedo de la Nube? (Parte IV)

Seguimos con la cuarta entrega de la serie de Michele Iurillo, dedicada al Cloud Computing.

Hoy hablaremos Cloud Analytics.

Una vez que gracias a la data virtualization y al cloud ya no existe el problema de procesar datos para hacer análisis en tiempo real, nos damos cuenta del potencial que tiene la analítica distribuida

Si es verdad que la data virtualization solventa el problema de los procesos ETL que ya no son necesarios.

El Cloud nos brinda disponibilidad y solvencia. Todo perfecto. Quizá no tanto. Analicemos entonce ventajas e inconvenientes de la business intelligence en la nube.

Los siguientes beneficios se encuentran en la mayoría de las soluciones analíticas basadas en la nube

Escala infinita: A diferencia de las soluciones basadas en las instalaciones, que están  limitadas por el espacio físico en el rack del centro de datos, un la solución basada en la nube puede (en teoría), escalar a un tamaño casi infinito. En realidad, como cada solución existen límites prácticos.

Inversión más contenida: Como las implementaciones basadas en la nube se pagan por suscripción o por pago por uso, no es necesaria una gran inversión, y esto es una ventaja significativa para las pequeñas y medianas empresas.

Pienso en aquello clientes que se desprendieron de un riñón para pagar las licencias de Cognos en su día, que ahora ven que casi todo se hace con PowerBI.

La BI y el mid-market: una fábula maravillosa que empezó QlikView y que ahora permite a casi toda empresa poder sacar información relevante de sus datos.

La misma gran revolución va a ser la analitica en cloud

Os aconsejo echar un vistazo a Google Data Studio.

Siempre disponible: Cada solución normalmente posee alta disponibilidad. Esto no es los mismo que con las soluciones on-premise, que normalmente necesitan un centro de datos.

¿Y si son las 3 de la madrugada y quiero hacer una análisis en tiempo real? Ya no hay cubos que tienen que girar y el dato es el dato actual ahora en este mismo momento. Esto mola.

Control de costes: El modelo de pago por uso apoya la capacidad de controlar los costes de forma continua, y evita un gasto de capital significativo y sobre todo es flexible.

Normalmente el modelo de licencia nominal ha hecho estragos sobre todo después de la crisis. Tenía clientes que aún cerrando mitad de las tiendas tenían que seguir pagando el mantenimiento por todas ellas.

Time to Market: La mayoría de las bases de datos basadas en la nube se pueden implementar en un nuevo hardware en cuestión de minutos, lo cual acelera la entrega de nuevas soluciones.

Agilidad: Muchas soluciones basadas en la nube pueden desplegarse rápidamente, ampliarse o suspenderse temporalmente.

Coste Reducido: La capacidad de implementar o eliminar rápidamente una base de datos ayuda a reducir los costos al evitar bases de datos de pruebas de rendimiento y de aceptación de usuarios asignadas de forma permanente. 

OLTP tiene 40 años y se nos olvida…

La arquitectura OLTP basada en filas fue ideada hace casi 40 años, desde entonces se han ampliado.

Como ejemplo de la complejidad, Oracle11g incluye una amplia gama de opciones de ajuste de rendimiento añadidas en el tiempo, incluyendo más de 500 parámetros de sintonía individuales y 16 tipos de índices.

El paso a la nube abre una verdadera oportunidad para simplificar o incluso eliminar la administración del sistema en los sistemas heredados.

No sólo el mantenimiento del hardware y del sistema operativo, sino también de la base de datos en sí mismo.

Realmente no solo virtualizamos máquinas… sino también base de datos y éste es el punto.

Para ello, algunas soluciones analíticas han sido rediseñadas desde cero y ofrecen una arquitectura innovadora que elimina casi por completo la necesidad de recursos técnicos altamente cualificados.

Esto significa que en una base de datos los ingenieros y arquitectos se liberan de las exigencias de la administración de bases de datos para centrarse en lo real de la empresa, aportando información a los clientes.

Pero no es todo… aquí algún otro ejemplos de limitaciones y problemas que el Cloud ha resuelto:

Diseño de Índices: Antes para maximizar el rendimiento de las consultas en las búsquedas el diseñador tenía que equilibrar los requisitos de rendimiento, a menudo contradictorios de las consultas de lectura, con la necesidad de cargar grandes volúmenes de datos.

Esto conducía a la desactivación de índices durante cargas de lotes grandes.

Captura de datos estadísticos: Para apoyar a un optimizador basado en costos, la mayoría de las bases de datos on-premise utilizan herramientas para analizar y capturar estadísticas de metadatos para maximizar el rendimiento de las consultas.

Sin embargo, como se insertan entradas adicionales, estas estadísticas pueden quedar obsoletas, lo que conduce a una estrategia de limpieza para actualizarlas regularmente que puede ser una tarea exigente de la CPU.

Particionamiento horizontal y replicación: Lo que implica especificar un método de distribución de datos razonable a través de múltiples servidores.

Así nacieron las base de datos distribuidas pero siempre estaban en el mismo centro de datos. Hoy con los sistemas de Computación en Paralelo no es necesario. Pensar por ejemplo en Azure CosmoDB.

Las soluciones basadas en la nube también ofrecen características adicionales

Clonación de copia cero: Una técnica utilizada para replicar rápidamente una base de datos para construir una prueba completamente poblada.

Esto funciona mediante la clonación de la base de datos sin ninguna copia física de los datos.

Puede facilitar la DEVOPs, ya que los terabytes de datos pueden ser clonados en cuestión de segundos con inserciones subsiguientes.

Intercambio de datos: Que proporciona acceso a recursos informáticos y de datos a socios externos o subsidiarias sobre una base de sólo lectura.

Esto evita la necesidad de construir múltiples Transformaciones y Cargas de Extracción (ETL) a usuarios externos, y evita la necesidad de rutinas de Captura de Datos de Cambio (CDC) cuando el los datos del almacén se actualizan, ya que los usuarios siempre ven los datos más recientes.

Michele Iurillo. Synergo

 

Autor:  Michele Iurillo es es miembro de DAMA Italy y VP Marketing, Events DAMA España fundador del Data Management Summit eventos de referencia en el mundo del manejo de los datos

Webinar. La importancia del Gobierno del Dato en el framework de DAMA

0
webinar ANJANA DAMA España

¡Tenemos nuevo webinar!

Regístrate en nuestro tercer hashtagwebinar de la serie “The DATA-DRIVEN webinar series”.

Estaremos conversando con Michele Iurillo, miembro de la Junta Directiva de DAMA ESPAÑA y Fundador de Synergo!, sobre la importancia del Gobierno del Dato en el framework de DAMA.

>>> Más información y registro en: https://bit.ly/2WPIuSG

¿Quien tiene miedo de la Nube? (Parte III)

0
¿Quien tiene miedo a la nube?

Seguimos con la tercera entrega de la serie dedicada al Cloud Computing podéis encontrar la primera entrega aqui y la segunda aqui. Hoy hablamos de Dockers y Kubernetes y algo mas.

Hemos visto hasta ahora que con la virtualización, se permite que el hardware sea utilizado más eficientemente y ejecute más de un sistema operativo y sea accedido por más de un usuario y que podemos fácilmente gestionar clusters de maquinas virtuales duplicándolas y dándole un recursos IP diferentes para que trabajen, por ejemplo, con HDFS y Hadoop para poder gestionar grandes cantidades de datos.

El clustering ha contribuido en crear otras formulas de virtualización no de maquinas sino de aplicaciones y recursos.

Los servicios en la nube pueden productos de software alojados remotamente en el hardware de los proveedores de la nube.

Estos servicios implican la opción de la computación en nube haciendo uso de la virtualización.

Las opciones de la nube pueden ser privadas, públicas o híbridas. Ya hemos hablado de ello. De todas formas, la Nube utiliza una o más máquinas virtuales para ejecutar el software.

La entrega de los servicios de software se realiza a través de una red pública, privada o privada virtual.

Máquinas Virtuales Docker y Kubernetes

Como se dijo anteriormente, la virtualización y la nube permiten a la empresa administrar mejor el hardware, y administrarlo de manera que es exactamente como administrar el software.

Los administradores de nuevo pueden hacer plantillas de máquinas virtuales, es decir, hacer una copia de ella y a partir de esa plantilla hacer otras copias idénticas.

Se pueden hacer múltiples copias de imágenes virtuales con su propia dirección IP y su propio ID de host.

Por lo tanto, pueden ponerse en pie y funcionar de forma independiente y ser accedidas a través de la red de forma independiente.

Los sistemas operativos independientes necesitan una red, y la Nube provee adaptadores de red virtual para permitir que las imágenes virtuales se comuniquen como cualquier máquina de metal desnuda se comunicaría a través de la red.

Las máquinas virtuales proporcionan una estrategia de prueba más fuerte.

Ya hemos hablado de esto antes, donde podemos hacer copias de un entorno vivo, y las pruebas de aplicación por lo general las pruebas de seguridad de la prueba de aceptación se pueden ejecutar en una copia del entorno vivo lo que hace que los resultados de las pruebas sean mejores y de mayor calidad.

Las máquinas virtuales no son el único escenario de hospedaje. Hay otros escenarios de hospedaje como, Docker y Kubernetes. 

Dockers

Docker es un proyecto de código abierto que automatiza el despliegue de aplicaciones dentro de contenedores de software, proporcionando una capa adicional de abstracción y automatización de virtualización de aplicaciones en múltiples sistemas operativos.

Docker utiliza características de aislamiento de recursos del kernel Linux, tales como cgroups y espacios de nombres (namespaces) para permitir que “contenedores” independientes se ejecuten dentro de una sola instancia de Linux, evitando la sobrecarga de iniciar y mantener máquinas virtuales.

No proporciona una máquina virtual completa, pero Docker sigue utilizando la virtualización. Docker es (PaaS) una plataforma como producto de servicio y proporciona entornos de sistema operativo llamados contenedores. 

Docker Containers
Docker Containers

Los contenedores Docker son 100% independientes entre sí, y están empaquetados. Cada contenedor está empaquetado con su propio software, bits, bibliotecas y otros elementos.

Los Docker Containers no pueden funcionar por sí solos. Todos los contenedores Docker funcionan con un único núcleo del sistema operativo llamado Docker engine. Los contenedores Docker dependen del núcleo del sistema operativo.

Los contenedores Docker son mucho más simples que una máquina virtual completa.

Los Docker containers proveen la totalidad de la predicción de cómo la aplicación será instalada, ejecutada y realizada. Todos estos contenedores se ejecutan en el host Docker que eventualmente es parte del sistema operativo del host.

El sistema operativo del host obviamente se ejecuta en el hardware que sería el host Docker.

Así que estos contenedores aquí son cada uno de estos tiene una aplicación o posiblemente la misma aplicación, pero cuando todos estos se reúnen proporcionan la previsibilidad sobre cómo se ejecutará la aplicación.

Ahora las aplicaciones pueden ser instaladas también en máquinas virtuales. Así que podemos ver aquí App1, App2, App3, todas se ejecutan en sus propias máquinas virtuales, y estas máquinas virtuales pueden derivar ligeramente.

Así que una vez que están funcionando pueden convertirse en ordenadores completamente independientes y a veces puede ser difícil mantenerlos sincronizados. Aquí está el hipervisor que está administrando estas tres máquinas virtuales en el servidor físico.

Esta es una manera de funcionar. Pero hay mucha complejidad aquí, casi se puede decir mucha ineficiencia porque estamos ejecutando una o tres aplicaciones en una infraestructura virtual muy compleja.

Aquí con los contenedores podemos ver que hay un sistema operativo un motor Docker, y podemos ver aquí que estas aplicaciones o la aplicación 1,2,3 están instaladas en estos contenedores.

Todos estos contenedores utilizan el motor Docker y son capaces de proporcionar ese entorno de alojamiento virtual que garantizará que estas aplicaciones se ejecuten de la misma manera cada vez.

Estas imágenes pueden conectarse a Internet también para Devapps y para Database y son registro Docker.

Una vez que se establece el patrón de despliegue Docker puede ser repetido y automatizado.

Así que Docker viene con estrategias de despliegue son patrones [inaudibles] estrategias de despliegue que pueden ser muy fácilmente automatizadas y documentadas

Kubermetes en principio fue Google…

Kubernetes (referido en inglés comúnmente como “K8s”) es un sistema de código libre para la automatización del despliegue, ajuste de escala y manejo de aplicaciones en contenedores que fue originalmente diseñado por Google y donado a la Cloud Native Computing Foundation (parte de la Linux Foundation).

Soporta diferentes entornos para la ejecución de contenedores, incluido Docker.

Kubernetes es también una plataforma como servicio (PaaS), contenedor y producto de orquestación. Kubernetes también ofrece una infraestructura como servicio.

Automatiza la implementación, escalado y mantenimiento de las aplicaciones. Como vimos un poco antes, escalar la aplicación Docker, podría implicar bastante trabajo o retrabajo en el entorno, mientras que Kubernetes ofrece esa escalada e infraestructura como un servicio como parte del producto.

Es compatible con los contenedores Docker y mucho más complejo que Docker.

Kubernetes se construye sobre capas o bloques, y estos se denominan primitivos.

Los bloques se construyen a medida que la aplicación se amplía. La arquitectura de Kubernetes se basa en una estructura llamada pod, y el pod alberga contenedores similares a Docker.

Los pods forman grupos de Kubernetes. Así que como dijimos que estos clusters podrían ser, bueno en este caso serían pods independientes funcionando realmente como un solo pod. Un pod es independiente y tiene su propia dirección IP.

Un servicio de Kubernetes es un conjunto de pods que trabajan juntos dentro del clúster de Kubernetes.

Así que podemos ver que el servicio de los gobernantes es un conjunto de pods que usan el enfoque de clúster.

Podemos ver aquí que tenemos un pod aquí ejecutando una aplicación o con los contenedores A y B, ejecutando varias aplicaciones con esta dirección de red.

Los pods dos y tres en este caso tienen los mismos contenedores C, D y E, y actúan esencialmente como uno solo aunque tengan una dirección de red separada.

Por lo tanto, en este escenario de alojamiento podemos ver realmente cómo podemos desplegarnos en estos diversos pods, pero también podemos escalar según sea necesario debido a la forma en que los gobernantes tienen esta infraestructura como un tipo de enfoque de servicio.

Edge Computing cuando la latencia lo es todo…

Edge Computing es una variación de la computación en la nube. Edge Computing es donde los servicios de computación, incluyendo el procesamiento y el almacenamiento se acercan físicamente al cliente.

Esto permite una respuesta más rápida de la red. Los orígenes de la Edgo Computing vienen de la entrega de contenido de grandes archivos de datos, incluyendo audio y video.

La entrega de este tipo de datos debe estar cerca de los usuarios ya que está sujeta a un alto grado de latencia.

La computación Edge es muy popular en los juegos y en el Internet de las Cosas ya que la capacidad de respuesta es muy, muy crítica.

Los dispositivos en el Internet de las Cosas son a menudo muy pequeños y no tienen mucho almacenamiento.

Por lo tanto, Edge Computing proporciona ese tipo de respuesta que no se podría obtener con la típica computación en nube.

Serverless

La computación sin servidores es una extensión de la “Función como un servicio”. Con la computación sin servidores el proveedor de la nube administra los recursos de computación de manera que puedan ser entregados de manera dinámica.

El precio se basa sólo en el tiempo de ejecución de la computación utilizada, el tiempo de inactividad no se cobra.

En lugar de una aplicación monolítica se entregan microservicios individuales que entregan una función.

Por lo tanto, el tiempo de inactividad se vuelve menos significativo. Todos los grandes proveedores de nubes ofrecen alguna forma de computación sin servidores.

Recientemente, las ofertas de base de datos y almacenamiento sin servidores también se han hecho disponibles.

Los productos de bases de datos sin servidor se basan generalmente en bases de datos populares como MySQL. La computación sin servidor ofrece ventajas con respecto a los costos y la implementación de software.

La computación sin servidor es sólo de ejecución, los datos no se almacenan generalmente.

También en este caso hay compensaciones, el rendimiento puede ser lento ya que el tiempo de inicio de la computación sin servidor es limitado y los recursos son limitados.

La computación sin servidores suele basarse en normas de proveedores patentadas, por lo que la movilidad puede ser un problema.

La computación sin servidores ofrece una serie de ventajas sobre la infraestructura tradicional basada en la nube o centrada en el servidor.

Para muchos desarrolladores, las arquitecturas sin servidores ofrecen una mayor escalabilidad, más flexibilidad y un tiempo de lanzamiento más rápido, todo ello a un costo reducido.

Con las arquitecturas sin servidores, los desarrolladores no necesitan preocuparse por la compra, el aprovisionamiento y la administración de los servidores de respaldo.

Sin embargo, la computación sin servidores no es una solución mágica para todos los desarrolladores de aplicaciones web.

Serverless computing vs. containers

Tanto la computación sin servidores como los contenedores permiten a los desarrolladores construir aplicaciones con muchos menos gastos generales y más flexibilidad que las aplicaciones alojadas en servidores tradicionales o máquinas virtuales.

El estilo de arquitectura que un desarrollador debe utilizar depende de las necesidades de la aplicación, pero las aplicaciones sin servidor son más escalables y generalmente más rentables.

Aplicaciones distribuidas y descentralizadas 

DLT se basa en una red de ordenadores llamados nodos. Los nodos son capaces de almacenar datos de forma que sean inmutables.

La inmutabilidad proviene del concepto de hashing. Hashing Data lo convierte en una cadena de longitud fija. Una cadena única. Una vez que los datos son hasheados, el hash puede ser almacenado en el nodo.

Si algún dato fuera manipulado o hackeado, esto se reflejaría en el hash, ya que el hash cambiaría, y otros nodos pueden restaurar el nodo que ha sido manipulado.

La nube nos da un entorno ideal para gestionar los nodos DLT y los nodos de Blockchain.

Obviamente, varios nodos pueden ser creados dentro de una nube para manejar esa red operativa. Los nodos pueden ser desplegados según sea necesario.

Muchos proveedores de nubes ya ofrecen servicios de DLT y Blockchain.

Los nodos de DLT también pueden ejecutar aplicaciones llamadas aplicaciones distribuidas o DApps.

Las DApps nunca pueden ser cambiadas. Existen como parte de la red. La nube puede utilizarse para crear todos estos diversos nodos que ejecutarán la aplicación distribuida.

Por hoy es todo… en la próxima entrega vamos a analizar las ofertas de los players mas importantes del mercado del Cloud y hableremos de DataOps

Michele Iurillo. Synergo

 

Autor: Michele Iurillo. Synergo

Data Governance: diferencias entre Business Glossary, Data Dictionary, and Data Catalog

0
Data Governance
Data Governance

A menudo vemos que las definiciones conflictivas y superpuestas de los glosarios de negocios (Business Glossary), los diccionarios de datos (Data Dictionary) y los catálogos de datos (Data Catalog), así como el consenso sobre las definiciones estándar de cada uno de ellos, siguen siendo difíciles de alcanzar.

Vamos a intentar aclarar algo tirando de DMBok2 de DAMA. Este articulo podría ser de alguna forma el seguito de “Cómo evaluar una herramienta de #DataGovernance con 20 indicadores” que podéis encontrar aqui

Delante de cualquier duda y en el momento de tener que empezar a montar el Gobierno de los Datos de vuestra organización yo como siempre (para no pillarme los dedos) os recomiendo de tirar de DAMA o sea de DMBok2 para tener claro como diferenciar las cosas, más que nada porque cualquiera que reconozca este framework va a entender bien de que estamos hablando.

Parte de esta confusión viene porque diferentes software de Data Governance nos pueden confundir ya que en cada ecosistema tiene cierta diferencia, este lío se comprende fácilmente si se tiene en cuenta la forma en que la gobernanza de los datos evoluciona típicamente dentro de una organización.

A menudo puede ser eficiente comenzar con la creación de un diccionario de datos o un catálogo de datos y posteriormente elaborar un programa de gobierno de datos encima de esto. 

Este enfoque ofrece resultados rápidos en el gobierno de datos, a la vez que adopta el espíritu de “agile”’. 

Nuestra intención es entender el valor conjunto de estos activos, proporcionar definiciones específicas de cada uno, explicar cómo encajan en un programa de gobierno de datos y proporcionar ejemplos de cada uno.

Glosario de negocios (Business Glossary)

Un glosario de negocios se centra en el lenguaje de los negocios y es fácil de entender en cualquier entorno de business, desde salas de juntas hasta equipos de tecnología.

Los términos empresariales no están destinados a definir datos, metadatos, transformaciones o ubicaciones, sino más bien a definir lo que cada término significa en un sentido empresarial.

¿Qué queremos decir con una conversión? ¿Una venta? Este tipo de preguntas se pueden responder con un glosario de negocios.

Disponer de un glosario de negocios aporta una comprensión común del vocabulario utilizado en toda una organización.

El ámbito de aplicación de un glosario de negocios debe ser de toda la empresa o, al menos, de toda la división en los casos en que las diferentes divisiones tengan una terminología de negocios significativamente diferente.

Debido a su alcance y a los conocimientos técnicos necesarios, la responsabilidad del glosario empresarial recae en la empresa y no en la tecnología.

A menudo, un Data Steward o un analista empresarial tendrá esta responsabilidad exclusiva.

Cualquier tool de gobierno que se aprecie tiene que tener la posibilidad de almacenar estos datos como si de metadatos se trataras el ideal seria luego tenerlo ligados al Data Catalog.

Data Dictionary (Diccionario de datos)

Un diccionario de datos debe centrarse en las descripciones y detalles que conlleva el almacenamiento de datos está directamente ligado a los metadatos.

Debería haber un diccionario de datos para cada base de datos de la empresa. El diccionario de datos incluye detalles sobre los datos como el tipo de datos, la longitud permitida, el linaje, las transformaciones, etc.

Estos metadatos ayudan a los arquitectos, ingenieros y científicos de datos a entender cómo unir, consultar y reportar los datos, y también explica la granularidad.

Debido a la necesidad de conocimientos técnicos y metadatos, la responsabilidad de la propiedad de un diccionario de datos recae en la tecnología, frecuentemente con funciones como administradores de bases de datos, ingenieros de datos, arquitectos de datos y/o administradores de datos.

Catálogo de datos (Data Catalog)

El catálogo de datos sirve como un directorio de un solo punto para localizar información y además proporciona el mapeo entre el glosario de negocios y los diccionarios de datos.

El catálogo de datos es un activo de toda la empresa que proporciona una única fuente de referencia para la localización de cualquier conjunto de datos necesarios para diversas necesidades como las operacionales, BI, analíticas, de ciencia de los datos, etc.

Al igual que con el glosario de negocios, si una división de una empresa es significativamente diferente de otras, sería razonable que el catálogo de datos fuera exclusivo de la división y no de la empresa.

Lo más razonable sería que el catálogo de datos se desarrollara después de la creación satisfactoria tanto del glosario empresarial como de los diccionarios de datos, pero también puede ensamblarse de forma incremental a medida que los otros dos activos evolucionen con el tiempo.

Un catálogo de datos puede presentarse de diversas maneras, como una especie de “marketplace” de datos empresariales.

Este marketplace serviría como punto de distribución o acceso a todos, o a la mayoría de los conjuntos de datos certificados de empresas para diversos fines.

Debido a que el trabajo de mapeo requiere la participación de expertos tanto empresariales como técnicos, el montaje del catálogo de datos es un esfuerzo de colaboración.

Es evidente que por razones de seguridad un buen tool de gobierno tiene que definir roles de acceso y “esconder” aquellos datos que no son pertinencia de un determinado rol o analistas concreto. 

Existen diferentes enfoques a la hora de aprontar un Data Catalog, a parte las herramientas que generan y mantienen los catalogos de datos a partir de la lectura de los metadatos en las fuentes generalmente podemos diferenciar entre “Embedded Data Catalog” y las que son especificas de cada tool.

La gran diferencia es la “re-usabilidad” en el segundo caso puedes quedarte “prisonero” de tu eco-sistema y pierdes oportunidades ya que no quieres perder el trabajo hecho que se queda incrustrado en tu herramienta.

Los tools de generación automática de Data Catalog suelen estar limitado a un solo eco-sistema y no todas permite añadir información a los metadatos gestionados.

A mi forma de ver usar un tool de estas característica solo puede ser un punto de partida para luego gestionar todo con una herramienta externa.

Por supuesto, el éxito que se obtiene del ensamblaje y la utilización de estos activos de gobernanza de datos depende totalmente de otros pilares de un programa sólido de gobernanza de datos, como una iniciativa de calidad de los datos, la gestión de los datos maestros, las preocupaciones de cumplimiento y seguridad, etc. 

Michele Iurillo. Synergo

 

Autor: Michele Iurillo es es miembro de DAMA Italy y DAMA España

Imagen portada de Xenonstack.com

 

¿Quien tiene miedo de la Nube? (Parte II)

0
Quien tiene miedo a la nube (parte II)

Seguimos con la segunda entrega de la serie dedicada al Cloud Computing podéis encontrar la primera entrega aquí. Como la mayoría de la tecnología, la computación en la nube tiene diferentes modelos de despliegue: público, privado e híbrido.

No hay un modelo de despliegue que funcione mejor para cada empresa.

Por lo tanto, los diferentes modelos de despliegue permiten a los clientes adaptar los servicios a sus necesidades.

La computación en nube es bastante flexible. Se ha referido a ella como elástica. Los modelos de despliegue permiten responder a algunos de los inconvenientes y riesgos de la computación en nube.

Despliegue de una Nube Privada

Una Nube Privada es un modelo de despliegue de computación en la Nube donde la empresa controla y es propietaria del centro de datos que proporciona los servicios de la Nube. Este es el modelo privado puro.

Una Nube Privada no utiliza la Internet pública. Utiliza la red propia de la empresa, y los servicios de la nube se entregan a través de la red de la empresa.

La Nube Privada permite a la empresa tener control sobre sus datos.

Las Nubes Privadas pueden ser físicas o pueden ser virtuales. Una Nube Privada física es donde la empresa tiene la custodia física del centro de datos donde se aloja la Nube.

Obviamente, esto puede proporcionar ventajas en cuanto a la seguridad de los datos. Sin embargo, la empresa está renunciando a las ventajas de la externalización de los costes en el mantenimiento de la Nube.

Construirse un Data Center no es nada barato. Supone tener hierro (máquinas), seguridad (firewall y no solo), personas (un buen administrador de Data Center es caro y muchas veces no es suficiente, licencias para todo el software, mantenimiento continuo de hardware y software y mucho más.

El hecho que un servidor esté en un Rack no evita que se pueda romper y por todos los RAIDS que le metas siempre hay un riesgo de perderlo todo sin procesos de Backup (que muchas veces por absurdo van en la Nube Pública)

Una Nube Privada Virtual o VPC es donde un proveedor de Nube pública tiene un conjunto dedicado de recursos de computación para un cliente específico.

Por lo tanto, los servicios de la Nube se proporcionan a la empresa a través de una red privada virtual.

Y la empresa obtiene las ventajas de que el proveedor de la Nube mantenga la infraestructura, pero aún así es capaz de controlar los datos y otras partes de lo que pueden ser recursos informáticos sensibles. 

Una Nube Privada Virtual utiliza un enfoque de red privada virtual para entregar servicios de Nube a la empresa.

Así que la red privada virtual sigue utilizando Internet, pero utiliza la Internet como un medio, y para conectarse a un servidor VPN donde los datos se entregan encriptados. Así que la VPN permite a las empresas extender su trabajo a centros de datos externos usando Internet.

La empresa no es propietaria ni tiene la custodia de las computadoras en el centro de datos del proveedor de la Nube.

Con los VPCs, el proveedor de la Nube puede tener el control de los datos, ya sea el control físico o como parte de los servidores dedicados en el proveedor de la Nube.

También es posible que una empresa compre hardware y que el proveedor de la Nube lo mantenga a través de una Nube Privada Virtual. De esta manera la empresa puede subcontratar el mantenimiento del hardware al proveedor de la Nube. Amazon, IBM, Azure, Google, todos ofrecen Nubes Privadas Virtuales.

Modelo de despliegue público.

Una Nube pública es el modelo de despliegue donde una empresa utiliza los servicios de un tercer proveedor. Los servicios de computación en la nube se entregan a través de la Internet pública.

Las ofertas de la Nube pública están generalmente disponibles para todos. Es una oferta totalmente pública y no hay momentos en los que se utilice ninguna red privada o hardware privado en absoluto.

Los servicios de la Nube pública se facturan sólo por los servicios que se utilizan. Las Nubes Públicas son típicamente centros de datos están en una ubicación segura.

Por razones obvias, los proveedores de Nubes escogen ubicaciones sísmicamente estables para mantener los centros de datos seguros.

Eso no significa que no haya desastres naturales y típicamente los proveedores de Nubes tienen estrategias de respaldo en caso de inundaciones, incendios u otros desastres naturales.

La Nube Pública está disponible para todos y está disponible a través de la Internet pública. Así que las empresas necesitan decidir qué modelo de computación funciona mejor para ellas.

Una vez más, hay compensaciones con este modelo de despliegue. Los grandes proveedores de Nube Pública como Aws, Azure y Google incluso te dejan elegir en que data center quieres alojarte y el coste varía dependiendo de donde están situados.

Modelo Híbrido

Una Nube Híbrida, como su nombre indica, es una mezcla de servicios de Nube privada (incluso virtual) y  Nube Pública.

Es una arquitectura o una solución que el cliente pone en conjunto. Los componentes privados de la Nube Híbrida son típicamente hardware comercial y los usuarios son capaces de hacer un uso eficiente del hardware y obtener los servicios gestionados.

El componente privado podría ser una Nube privada virtual, que se encuentra alojada en el proveedor de la Nube Pública o, de nuevo, alojada por algún otro tercero o en la propia empresa.

El componente público es típicamente un servicios de computación de un proveedor de Nube pública como Amazon o Azure. Por lo tanto, esta se puede considerar como infraestructura como servicio (IaaS).

Normalmente utiliza diferentes componentes público para el alojamiento, la infraestructura, la copia de seguridad en disco y otros elementos que forman parte de la infraestructura.

Un enfoque típico para este tipo de modelo es que las empresas utilicen la Nube privada para asegurar datos muy sensibles como transacciones de tarjeta de créditos, datos personales de clientes o incluso todos los datos relevantes para el negocio.

Existen empresa que tienen solo datos como activos (pensar el Facebook, AirBnb, Instagram) y no pueden permitirse (o no deberían permitirse) pérdidas o extravíos de los mismos. Dentro de la Data Governance una de las formas para entender el valor de un dato es preguntarse cuánto costaría recuperarlo o defenderse a nivel legal en caso de extraviarlo.

Tener los dato sensibles fuer del proveedor de la Nube pública da cierta forma de seguridad para la empresa y para los clientes. No hay que olvidar que un despliegue en nube híbrida facilita la movilidad de la empresa.

Si hace falta pueden cambiar el proveedor de Cloud computing público y todavía tienen control sobre lo que hay en su Cloud privado.

La Nube pública de nuevo se utiliza muchas veces como la infraestructura como servicio. Así que la empresa es capaz de obtener las ventajas de la experiencia, los diversos niveles de computación en nube, redes y otros servicios, y obtienen todas las ventajas de la externalización.

Todos los servicios de cloud computing deberían ofrecer ciertas eficiencias en diferentes grados, pero es probable que los servicios públicos de cloud computing sean más rentables y escalables que las nubes privadas.

Con la nube híbrida, una organización puede maximizar sus eficiencias empleando servicios públicos de nube para todas las operaciones no sensibles, confiando únicamente en una nube privada donde la necesiten, garantizando así que todas las plataformas estén perfectamente integradas.

El coste de una nube privada nunca va a ser parangonable al coste de una nube pública, sobre todo ahora que existe una fuerte competencia entre Microsoft Azure, Amazon AWS y Google.

Aunque estos tres operadores garantizan cierta seguridad, las empresas siguen sintiéndose incómodas en compartir los datos sensibles dentro de estas estructuras “públicas”.

Como son Norteamericana tienen cierta dependencia del gobierno estadunidense y del FBI, cualquier fiscal americano solicitado por cualquier empresa norteamericana puede pedir intervenir los datos y no quiero ni pensar lo que pueda hacer la CIA.

Si bien se ha pensado en un principio que la nube híbrida debía ser una especie de etapa intermedia para aquellas empresas que iban a moverlo todo en la nube, con el pasar del tiempo y con los últimos escándalos sobre datos sensibles perdidos o robados parece que esta arquitectura se está consolidando.

Segun la definición de Gartner un servicio híbrido de computación en nube abarca tanto las implementaciones de nube privadas como públicas, o las implementaciones de nube privadas o públicas dentro y fuera de las instalaciones.

Un servicio de cloud híbrido puede, entre otras cosas, sincronizar y/o replicar datos entre nubes públicas y privadas, y migrar servicios de forma continua entre nubes públicas y privadas.

Según Milind Govekar, vicepresidente ejecutivo de Gartner, “El cloud computing híbrido puede maximizar este valor equilibrando el uso de activos internos y servicios externos (por ejemplo, permitiendo que los servicios se desplieguen internamente cuando la capacidad interna esté disponible, pero que se trasladen a servicios públicos de cloud computing cuando no esté disponible), al tiempo que permite una mejor escalabilidad.

Computación en la nube de alto rendimiento 

La Computación de Alto Rendimiento o HPC se ha convertido en una oferta popular de los proveedores de Computación en la Nube.

HPC es en realidad una arquitectura de un conjunto de computadoras o procesadores. Por lo tanto, es el modelo de computación paralela donde si tienes un ordenador procesando y añades un segundo, ahora tienes dos ordenadores que se arrastran ejecutando los cálculos por ti y que, obviamente, pueden procesar más datos y darte resultados más rápidamente.

De manera similar, si quisiéramos aspirar una habitación, una aspiradora puede llevar mucho más tiempo que si cinco aspiramos la habitación al mismo tiempo.

Es ese tipo de idea la que está detrás de la computación de alto rendimiento.

La arquitectura ejecuta varios ordenadores en lo que se llama un clúster. Un clúster es un grupo de ordenadores que actúan como uno solo y hay software e infraestructura que apoyan este tipo de modelo de computación.

La computación de alto rendimiento utiliza de nuevo ese procesamiento paralelo como estrategia. Las arquitecturas de alto rendimiento pueden ejecutar cuatrillones de cálculos por segundo. 

Hay típicamente tres componentes de la computación de alto rendimiento.

Está el procesamiento de la computación, el almacenamiento de datos, y por supuesto la red.

Una Nube provee esa flexibilidad o elasticidad para construir el clúster y puede agregar dinámicamente al clúster si es necesario.

Así que la Nube realmente proporciona un modelo ideal para la computación de alto rendimiento ya que el hardware virtual puede ser añadido al clúster según sea necesario y se puede hacer muy eficientemente.

Como se ha mencionado anteriormente, la nube también puede proporcionar la red y el almacenamiento para la computación de alto rendimiento.

Por lo tanto, una vez más, la solución de la Nube para la Computación de Alto Rendimiento es bastante rentable y muy eficiente sobre todo en enfoque de Big Data.

Big Data necesita la Nube y el HPC

Big Data es un término que hemos estado escuchando desde hace tiempo se usa a menudo como un término de marketing.

Big Data es un término para una familia de estrategias para analizar, extraer información, buscar tendencias y patrones de grandes y complejos conjuntos de datos.

Estos conjuntos de datos se consideran demasiado grandes para obtener cualquier tipo de tendencias reales o para obtener información utilizable.

Por lo tanto, se debe hacer un análisis poderoso para entender u obtener cualquier información útil de estos grandes conjuntos de datos.

Este es el tipo de análisis de datos requiere una gran cantidad de almacenamiento y grandes cantidades de procesamiento, típicamente en Clusters.

La Nube puede ofrecer una solución. Los clusters de la Nube pueden ser típicamente implementados dinámicamente para procesar eficientemente los conjuntos de datos de Big Data.

Las soluciones de la nube también pueden aumentar o disminuir la escala según sea necesario para acomodar las necesidades de los datos a ser analizados.

Estos son conjuntos de datos extremadamente grandes que necesitan alta potencia, alto rendimiento, alto uso de hardware para obtener cualquier información útil de los datos.

El concepto de un almacén de datos fue creado principalmente para proteger a los usuarios del mal rendimiento causado por el análisis de los datos relacionales.

Típicamente, el procesamiento de los datos estaba programado para funcionar fuera de las horas en que los usuarios no estaban conectados al sistema.

La tecnología OLAP hacía posible los análisis multidimensionales porque las combinaciones y la cargas de los datos se hacían de noche o un par de veces al día para evitar el colapso de los sistemas.

El aumento de la cantidad de datos y la demanda de análisis en tiempo real para procesar los datos requieren hoy en día muchos recursos de computación, y si ese procesamiento se ejecutaría durante el tiempo que los usuarios también necesitan estar conectados al sistema, puede causar que el sistema se ralentice bastante.

La computación en nube proporciona una gran solución para este tipo de análisis. La computación en nube puede crear el Data Warehouse y también puede ofrecer los recursos de computación para procesar los grandes conjuntos de datos.

Una vez más, la flexibilidad de la Nube proporciona esa solución muy eficiente para los informes de Big Data, Big Data processing y Big Data. Existen otras técnicas que se empoderan y mejoran a la hora de usar la nube como la Data Virtualization.

Bare-Metal Server

Un “bare-metal server” es un servidor informático que es un “single-tenant physical server”. El término se utiliza hoy en día para distinguirlo de las formas modernas de virtualización y alojamiento en la nube.

Los servidores de “metal desnudo” tienen un solo “inquilino”.

No se comparten entre los usuarios. Cada servidor puede ejecutar cualquier cantidad de trabajo para el cliente, o puede tener varios usuarios simultáneos, pero están dedicados enteramente al cliente que los alquila.

A diferencia de muchos servidores en un centro de datos, no se comparten entre múltiples usuarios.

Los servidores bare-metal son servidores “físicos”. Cada servidor lógico que se ofrece en alquiler es una pieza física distinta de hardware que es un servidor funcional por sí mismo. No son servidores virtuales que se ejecutan en múltiples en un hardware compartido.

A veces un solo servidor físico funcionará con lo que llamamos una estrategia de alojamiento de metal desnudo. (bare metal hosting strategy).

Allí es donde se instalan los productos de software, incluido el sistema operativo, y se ejecutan directamente en el hardware físico o el software se instala en el hardware nativo y a menudo esto se denomina “bare metal”.

Así que el hardware y software nativo de un portátil es un buen ejemplo de computación “bare metal”.

La mayoría de los dispositivos móviles funcionan de esta manera. No se utiliza la virtualización, el software se comunica directamente y se ejecuta en el hardware de los dispositivos.

Esta es una estrategia fiable. Sin embargo, hoy en día, el hardware y los procesadores son muy rápidos, por lo que pueden procesar el software muy rápidamente, y muy a menudo hay mucho tiempo de inactividad asociado a la computación virtual.

Si un equipo quiere usar la computación “bare metal”, el equipo tendrá que obviamente usar hardware sobredimensionado porque va a costar mucho actualizar continuamente el hardware.

Con la virtualización, se permite que el hardware sea utilizado más eficientemente y ejecute más de un sistema operativo y sea accedido por más de un usuario.

Recapitulando

La Nube Privada es un servicio de computación en nube ofrecido por una empresa en su red interna privada y sólo para usuarios selectos en lugar del público en general.

También conocida como nube interna o corporativa, la computación en nube privada ofrece a las empresas muchos de los beneficios de la computación en nube, tales como: autoservicio, escalabilidad y elasticidad.

Sin embargo, una Nube privada ofrecía a la empresa el control y la personalización de los recursos de datos y hardware.

La empresa también tiene control sobre la infraestructura informática alojada en las instalaciones.

Además, las nubes privadas ofrecen un mayor nivel de seguridad y privacidad, tanto a través de los cortafuegos de la empresa como del alojamiento interno, para garantizar que las operaciones y los datos sensibles no sean accesibles a terceros proveedores.

Una desventaja es que el departamento de tecnología de la información de la empresa se hace responsable del costo y la responsabilidad de la gestión de la nube privada.

Por lo tanto, las nubes privadas requieren los mismos gastos de personal, gestión y mantenimiento que la propiedad tradicional de los centros de datos.

Nube Privada Virtual (VPC)

Una Nube Privada Virtual (VPC) es un pool configurable bajo demanda de recursos de computación compartidos asignados por un proveedor de Nube pública, dentro de una nube pública, entregando servicios de computación en la Nube a través de una red privada virtual (VPN). La VPN permite o crea una subred que forma parte de la red de la empresa.

Sin embargo, la VPN utiliza la Internet como medio para la conexión de la empresa. La VPN permite a la empresa trabajar virtualmente en privado.

Una nube pública es un proveedor de terceros que pone los servicios de computación a disposición de cualquier individuo o empresa que desee adquirir los servicios. Los servicios se entregan a través de la Internet pública.

Las Nubes Públicas hacen que los servicios estén disponibles en un modelo de “pago por uso”, donde los clientes pueden ampliar o reducir la escala según sea necesario.

Una Nube Híbrida es una mezcla entre la Nube privada en las instalaciones y los servicios de un proveedor de Nube pública. La mezcla permite a la empresa reducir algunas de las desventajas y riesgos de la Nube pública.

La empresa puede utilizar la parte privada de la solución para gestionar datos privados o sensibles. Esto también puede mantener el control de los datos críticos.

El componente privado también puede reducir la dependencia de un tercer proveedor.

El componente público de la Nube Híbrida típicamente agrega infraestructura como un servicio. El componente público ofrece procesamiento, redes, entornos de prueba y otros elementos.

Una Nube Híbrida ofrece todas las ventajas de la computación en la Nube, mientras que sigue gestionando los inconvenientes y riesgos.

Un enfoque multicloud representa el alojamiento distribuido y redundante de diferentes clouds en diferentes provedores publicos para repartir el riesgo de fallos.

La computación de alto rendimiento (HPC) es una estrategia de computación que implica un procesamiento paralelo. El procesamiento paralelo se realiza mediante un clúster.

Un clúster es un grupo de computadoras que actúan como una sola. El procesamiento es compartido por todas las computadoras del clúster. Esta estrategia permite más cálculos por segundo.

Por hoy es todo… en la próxima entrega hablaremos de Dockers, Kubernetes y mucho más

Michele Iurillo. Synergo

 

Autor: Michele Iurillo. Synergo

¿Quien tiene miedo de la Nube? (Parte I)

0
Quien tiene miedo a la nube (parte I)
Quien tiene miedo a la nube (parte I)

No hay duda de que la economía de la nube, sus números y todas las cuentas de resultados son favorable, aun así hay muchos profesionales y empresas que aun sigue decantándose para tener servidores físicos en sus empresas.

Se siguen vendiendo servidores “físicos” en medio mundo, hay quien dicen que los data center son monstruos ecológicos, un gran debate sobre un concepto que no se limita solo en el almacenamiento, sino que permite abordar grandes potencialidades, cualquiera puede desplegar un cluster en la nube desde su propria casa, nunca el ser humano ha tenido tanta potencia de calculo en sus manos.

La pregunta de estos dias es ¿Que hubiera pasado con la Pandemia de Covid19 sin los data centers? Imaginar cuantos servicios caídos, cuanta gente enferma, la ineficiencia de respuesta. Realmente nos has salvado la Nube y es duro de admitir.

La Historia de la computación en la nube esta muy ligada a la figura de J.C.R. Liclkider (“Lick” para los amigos), que participó en el desarrollo de la madre de Internet la famosa red ARPANET.

La aportación de John McCarthy, padre del término Inteligencia Artificial, fue también muy importante ellos son en definitiva los principales previsores de lo que se convertiría en el termino “Cloud”.

Licklider trazó las primeras ideas de una red computacional global ya en el 1962, en concreto entorno al concepto de ‘Red Computacional’.

El estadounidense describió en diversos documentos algunas aplicaciones en la red, y predijo el uso de las redes para soportar comunidades de intereses comunes sin importar la ubicación de sus usuarios.

Por su parte, MacCarthy opinaba lo siguiente: “La computación algún día estará organizada como un servicio público, así como la luz o el agua”.

Reflexionemos hoy si todos los data center del mundo se pudiesen apagar aunque sea solo para unas horas, seria el caos, quizá por esto que aun se venden servidores físicos hoy en día, pero ¿tiene sentido un ordenador hoy en día sin una conexión a internet?

Si en los 60 nació el germen, la aplicación de la nube tal y como la conocemos hoy comenzó en los años 80, cuando algunas tareas empezaron a tomar cuerpo en una red de computadoras en lugar de hacerlo en un único servidor.

De esta manera, la tarea se reparte entre varias máquinas, exigiendo menos del sistema para entregar el servicio a los usuarios.

El padre de la nube

La palabra “nube” fue empleada por primera vez en el entorno académico en 1997 por el profesor Ramnath Chellappa, quien habló de un nuevo paradigma de computación.

Aunque quizá sea Salesforce.com la fue la primera empresa en introducir el término “software como servicio”, entregando aplicaciones para empresas a través de un sitio web.

La nube es conectividad, flexibilidad, ligereza, un concepto revolucionario que permite que el mundo avance, la nube hoy lo es todo, sobre todo porque los datos han tomado relevancia, existen empresas que tienen en sus activos solo datos y ¿donde se encuentran estos datos? En la nube.

La nube es menos costosa en general y sobre todo más justa. El uso de los servicios de computación en la Nube se cobra por hora o por una suscripción mensual. Sin embargo, por lo general los clientes pueden negociar cualquier tipo de opción de pago.

La computación en nube es un costo variable del 100 por ciento. Por lo tanto, una empresa puede eliminar los costos fijos y los gastos generales de su propia infraestructura de TI o hardware.

Las empresas pueden añadir tantos servicios como necesiten e incluso pueden reducir los servicios según sea necesario o según lo requiera su propia demanda de negocio. La nube y otros servicios remotos no son un sustituto de ningún dispositivo, hardware o software nativo.

La nube puede proporcionar servicios como la movilidad. Por lo tanto, en un dispositivo móvil como una tableta o incluso un teléfono móvil, es posible traer un escritorio Cloud y se puede utilizar de una manera muy similar al escritorio que aparece en el ordenador portátil.

Mirate alrededor…

Es probable que tengas varios dispositivos, cada uno de los cuales tiene su propio hardware físico, sistema operativo nativo y software nativo.

El hardware y el software nativo se llaman recursos locales. Los servicios en la nube son servicios remotos.

Así que deberías poder acceder tanto a los recursos de la Nube como a los recursos locales desde cualquier dispositivo.

Cualquier servicio al que se acceda a través de la red va a ser un servicio remoto por definición. La escalabilidad de los servicios en la Nube permite una mejor gestión de la infraestructura informática y una gestión más eficiente de la misma.

Las infraestructuras

Las infraestructuras informáticas son el conjunto de hardware, software, redes, instalaciones y equipos relacionados que se utilizan en el desarrollo de aplicaciones, operaciones informáticas, cualquier tipo de monitorización y cualquier otro tipo de soporte de la tecnología de la información o del procesamiento de datos.

La nube permite a las empresas consolidar y reducir los servicios de computación a casi un 100 por ciento de infraestructura en la nube si eso es consistente con el modelo de negocios de la empresa.

Pero ¿Que son los servicios gestionados?. Son servicios que pueden gestionar completamente su infraestructura desde la Nube.

Michele Iurillo. Synergo

 

Autor: Michele Iurillo. Synergo

 

Profesiones con gran futuro entorno al dato

0
'Big data', científico de datos y programador e ingeniero informático, los más difíciles de cubrir

El periódico Expansión público recientemente en un artículo las profesiones que se lanzan al futuro con grandes posibilidades de crecimiento.

Científicos de datos, relacionados con el gobierno del dato, analistas, … Podéis leerlo aquí. https://amp.expansion.com/expansion-empleo/profesiones/2020/02/27/5e57a7b3468aeb86768b458d.html

Las posiciones más demandadas actualmente, según el último Informe Epice sobre posiciones y competencias son ingeniero informático (7,53%), científico de datos (6,45%) y programador informático (5,38%). En años anteriores, account manager era la posición más demandada, pero la ingeniería informática ha tomado este lugar situándose en las primeras tres posiciones en los últimos 4 años.

En un futuro próximo, entre tres y cuatro años, big data (11,24%), científico de datos (9,55%) y comercial digital (5,06%) serán las posiciones más demandadas, mientras que las posiciones de ingeniero informático e ingeniero industrial (con 4,49 y 3,93, respectivamente) ocupan el cuarto y quinto lugar.