Azure DP-900: T01/M02: Exploración de roles y servicios de datos

https://docs.microsoft.com/es-es/learn/modules/explore-roles-responsibilities-world-of-data/1-introduction

Unidad 1: Introducción

Durante la última década, la cantidad de datos que generan los sistemas y los dispositivos ha aumentado considerablemente. Debido a este aumento, los expertos en el tratamiento de datos se enfrentan a nuevas tecnologías, nuevos roles y nuevos enfoques para trabajar con los datos. Los expertos en el tratamiento de datos suelen desempeñar diferentes roles a la hora de administrar, usar y controlar los datos. En este módulo, conocerá los distintos roles que las organizaciones suelen aplicar a estos expertos y las tareas y las responsabilidades asociadas a dichos roles, así como los servicios de Microsoft Azure que se usan para su realización.

Unidad 2: Exploración de los roles de trabajo del mundo de los datos

Hay una amplia variedad de roles implicados en la administración, el control y el uso de datos. Algunos roles están orientados a los negocios, mientras que otros implican más ingeniería. También los hay más centrados en la investigación, o incluso existen roles híbridos que combinan distintos aspectos de la administración de datos. La organización puede definir roles de maneras distintas o asignarles nombres diferentes, pero los que se describen en esta unidad resumen la clasificación más habitual de las tareas y las responsabilidades.

Estos son los tres roles de trabajo principales que se ocupan de los datos de la mayoría de las organizaciones:

  • Los administradores de bases de datos administran bases de datos, asignan permisos a los usuarios, almacenan copias de seguridad de datos y restauran datos en caso de que se produzca un error.
  • Los ingenieros de datos administran la infraestructura y los procesos para la integración de datos en una organización, aplican rutinas de limpieza de datos, identifican reglas de gobernanza de datos e implementan canalizaciones para transferir y transformar datos entre sistemas.
  • Los analistas de datos exploran y analizan los datos con el fin de crear visualizaciones y gráficos que permiten que las organizaciones tomen decisiones fundamentadas.

Nota: Los roles de trabajo definen tareas y responsabilidades diferenciadas. En algunas organizaciones, la misma persona podría ejercer varios roles, por lo que, en su rol de administración de base de datos, podría aprovisionar una base de datos transaccionales y, luego, en su rol de ingeniería de datos podría crear una canalización para transferir datos de la base de datos a un almacén de datos para su análisis.

Administrador de base de datos

El administrador de base de datos de Azure es responsable del diseño, la implementación, el mantenimiento y los aspectos operativos de los sistemas de bases de datos locales y los basados en la nube. Son responsables de la disponibilidad general y de las optimizaciones y el rendimiento coherentes de las bases de datos. Trabajan con las partes interesadas para implementar directivas, herramientas y procesos para la realización de copias de seguridad, así como planes de recuperación que permiten reponerse tras un desastre natural o un error humano.

Los administradores de base de datos también son responsables de administrar la seguridad de los datos en la base de datos, conceder privilegios sobre los datos, y conceder o denegar el acceso a los usuarios según corresponda.

Ingeniero de datos

 Los ingenieros de datos colaboran con las partes interesadas para diseñar e implementar cargas de trabajo relacionadas con datos, incluidas canalizaciones de ingesta de datos, actividades de limpieza y transformación, y almacenes de datos para cargas de trabajo analíticas. Usan una amplia gama de tecnologías de plataforma de datos, como bases de datos relacionales y no relacionales, almacenes de archivos y flujos de datos.

También son responsables de garantizar que la privacidad de los datos se mantenga dentro de la nube y que abarque desde el entorno local hasta los almacenes de datos en la nube. Se ocupan de la administración y la supervisión de canalizaciones de datos para asegurarse de que las cargas de datos funcionen según lo previsto.

Analista de datos

Un analista de datos ayuda a las empresas a maximizar el valor de sus recursos de datos. Son los responsables de explorar datos para identificar tendencias y relaciones, diseñar e implementar modelos analíticos, y habilitar funcionalidades de análisis avanzado mediante informes y visualizaciones.

Los analistas de datos se ocupan del procesamiento de los datos sin procesar para convertirlos en información pertinente, en función de los requisitos empresariales establecidos, con el fin de ofrecer conclusiones de interés.

Nota: Los roles que se describen aquí representan los roles clave relacionados con los datos que se encuentran en la mayoría de las organizaciones medianas y grandes. Hay roles adicionales de este tipo que no se mencionan aquí, como científico de datos y arquitecto de datos; además, existen otros profesionales técnicos que trabajan con datos, como los desarrolladores de aplicaciones y los ingenieros de software.

MCT: Video 1.2.1 Descripción de las herramientas para la administración de datos

Tareas y herramientas para la administración de BD’s

  • Los administradores de BD llevan acabo tareas de administración y organización de BD’s
  • El trabajo principal es asegurar que los datos están disponibles y están protegidos contra la pérdida y robo
  • Responsabilidades más comunes:
    • Instalar y actualizar las herramientas de la aplicación y servidor de BD
    • Asignar el almacenamiento del sistema y planear los requerimientos de almacenamiento
    • Modificar la estructura de la base de datos, cuando sea necesario a partir de la información que brindan los desarrolladores de la aplicaciones
    • Controlar y supervisar el acceso de los usuarios
    • Garantizar el cumplimento del contrato de licencia con el proveedor
    • Agregar usuarios mantener la seguridad del sistema
    • Supervisar y optimizar el rendimiento de la base de datos
    • Planeamiento de respaldos y recuperación
    • Mantener los datos archivados
    • Realizar copias de seguridad de la bases de datos
    • Ponerse en contacto con el proveedor para obtener soporte técnico
    • Administrar y supervisar la aplicación de los datos
    • Generar informes consultando la BD

Herramientas comunes del administrador de BD

  • La mayoría de los sistemas de administración de BD’s proporcionan su propio conjuntos de herramientas para ayudar a la administración
  • Por ejemplo
    • SQL Server -> SQL Server Management Studio
    • PostgreSQL -> PGAdmin
    • Mysql -> Worbench
  • Además existen muchas herramientas de administración de BD’s multiplaforma como por ejemplo Azure Data Studio

¿Qué es Azure Data Stuido?

  • Proporciona una interfaz gráfica de usuario para administrar números sistemas de BD’s
  • Actualmente tiene soporte para:
    • SQL Sever (local)
    • Azure SQL Database
    • PostgreSQL
    • Azure SQL Data WereHouse
    • Y clusters de macrodatos de SQL Server
  • Es una herramienta extensible que permite descargar e instalar extensiones desde desarrolladores terceros que se conectan a otro sistemas
  • Y proporciona asistentes que ayudan a automatizar muchas tareas administrativas

¿Qué es SQL Server Management Studio? SSMS

  • Proporciona una interfaz gráfica de usuario que permite:
    • Consultar datos
    • Realizar tareas generales de administración
    • Y Generación de script para automatización las operaciones de mantenimiento y soporte técnico
  • Una característica es la capacidad de crear scripts de TRANSACT-SQL para casi todas las funcionalidades que brinda SSMS
  • Esto le permite al administrador de BD’s programar y automatizar muchas tareas comunes
  • Transact-SQL es un conjunto de extensiones de programación Microsoft que agregan características al lenguaje de consulta estructurado SQL incluido:
    • El control de transacciones
    • El control de excepciones y errores
    • Procesamiento de filas
    • Y variables declaradas

Uso de Azure Portal para administrar Azure SQL Database

  • Azure SQL Database proporciona servicios de BD’s que se ejecutan en la nube
  • Para administrar estas BD’s se puede utilizar Azure Portal para las tareas habituales como:
    • Como aumento del tamaño de la BD
    • Creación y eliminación de una BD

¿Dónde puedo descargar Azure Data Studio?

  • Se instala con el asistente

Unidad 3: Identificación de los servicios de datos

Microsoft Azure es una plataforma de nube que usan las aplicaciones y la infraestructura de TI de algunas de las organizaciones más grandes del mundo. Incluye numerosos servicios para admitir soluciones en la nube, incluidas cargas de trabajo de datos transaccionales y analíticos.

A continuación se describen algunos de los servicios en la nube que se usan más a menudo para los datos.

 Nota: En este tema se tratan solo algunos de los servicios de datos más usados para soluciones transaccionales y analíticas modernas. Hay disponibles otros servicios.

Azure SQL

Azure SQL es el nombre colectivo de una familia de soluciones de bases de datos relacionales basadas en el motor de base de datos de Microsoft SQL Server. Los servicios específicos de Azure SQL incluyen:

  • Azure SQL Database: se trata de una base de datos de plataforma como servicio (PaaS) totalmente administrada hospedada en Azure
  • Azure SQL Managed Instance: es una instancia hospedada de SQL Server con mantenimiento automatizado, que permite una configuración más flexible que Azure SQL Database, pero con más responsabilidad administrativa para el propietario.
  • Máquina virtual de Azure SQL: consiste en una máquina virtual con una instalación de SQL Server, lo que ofrece una capacidad de configuración máxima con una responsabilidad de administración completa.

Normalmente, los administradores de bases de datos aprovisionan y administran sistemas de bases de datos de Azure SQL para admitir aplicaciones de línea de negocio (LOB) que necesitan almacenar datos transaccionales.

Los ingenieros de datos pueden usar sistemas de bases de datos de Azure SQL como orígenes para canalizaciones de datos que realizan operaciones de extraccióntransformación y carga (ETL) para ingerir los datos transaccionales en un sistema analítico.

Los analistas de datos pueden consultar las bases de datos de Azure SQL directamente para crear informes, aunque en organizaciones grandes los datos suelen combinarse con datos de otros orígenes en un almacén de datos analíticos para admitir análisis empresariales.

Azure Database para bases de datos relacionales de código abierto

Azure incluye servicios administrados para sistemas populares de bases de datos relacionales de código abierto, entre los que se incluyen:

  • Azure Database for MySQL: consiste en un sistema de administración de bases de datos de código abierto fácil de usar que suele emplearse en aplicaciones de pila de LinuxApacheMySQL y PHP (LAMP).
  • Azure Database for MariaDB: es un sistema de administración de bases de datos más reciente que han creado los desarrolladores originales de MySQL. El motor de base de datos se ha reescrito y se ha optimizado para mejorar el rendimiento. MariaDB ofrece compatibilidad con Oracle Database (otro sistema de administración de bases de datos comerciales conocido).
  • Azure Database for PostgreSQL: se trata de una base de datos híbrida de objetos relacionales. Una base de datos de PostgreSQL permite almacenar datos en tablas relacionales, pero también tipos de datos personalizados con sus propias propiedades no relacionales.

Al igual que sucede con los sistemas de bases de datos de Azure SQL, los administradores de bases de datos son los responsables de administrar las bases de datos relacionales de código abierto para admitir aplicaciones transaccionales. Dichas bases de datos proporcionan un origen de datos para los ingenieros de datos que crean canalizaciones destinadas a soluciones analíticas, así como para los analistas de datos que crean informes.

Azure Cosmos DB

Azure Cosmos DB es un sistema de base de datos no relacional (NoSQL) a escala global que admite varias interfaces de programación de aplicaciones (API), lo que permite almacenar y administrar datos como documentos JSON, pares clave-valor, familias de columnas y gráficos.

En algunas organizaciones, los administradores de base de datos pueden aprovisionar y administrar las instancias de Cosmos DB, aunque suelen ser los desarrolladores de software quienes administran el almacenamiento de datos NoSQL como parte de la arquitectura general de la aplicación. A menudo, los ingenieros de datos necesitan integrar orígenes de datos de Cosmos DB en soluciones analíticas empresariales que admitan el modelado y la elaboración de informes por parte de los analistas de datos.

Azure Storage

 Azure Storage es un servicio básico de Azure que permite almacenar datos en:

  • Contenedores de blobs: almacenamiento escalable y rentable para archivos binarios.
  • Recursos compartidos de archivos: recursos compartidos de archivos de red, como es habitual en redes corporativas.
  • Tablas: almacenamiento de clave-valor para aplicaciones que necesitan leer y escribir valores de datos rápidamente.

Los ingenieros de datos usan Azure Storage para hospedar lagos de datos, es decir, almacenamiento de blobs con un espacio de nombres jerárquico que permite organizar los archivos en carpetas en un sistema de archivos distribuido.

Azure Data Factory

Azure Data Factory es un servicio de Azure que permite definir y programar canalizaciones de datos para transferir y transformar datos. Puede integrar las canalizaciones con otros servicios de Azure, lo que le permite ingerir datos de almacenes de datos en la nube, procesar los datos mediante procesos basados en la nube y conservar los resultados en otro almacén de datos.

Los ingenieros de datos usan Azure Data Factory para compilar soluciones de extraccióntransformación y carga (ETL) que rellenan almacenes de datos analíticos con datos de sistemas transaccionales de toda la organización.

Azure Synapse Analytics

Azure Synapse Analytics es una solución completa y unificada de análisis de datos que proporciona una interfaz de servicio única para varias funcionalidades analíticas, entre las que se incluyen las siguientes:

  • Pipelines: se basa en la misma tecnología que Azure Data Factory.
  • SQL: se trata de un motor de base de datos SQL altamente escalable, optimizado para cargas de trabajo de almacenamiento de datos.
  • Apache Spark: es un sistema de procesamiento de datos distribuidos de código abierto que admite varios lenguajes de programación y API, incluidos Java, Scala, Python y SQL.
  • Azure Synapse Data Explorer: consiste en una solución de análisis de datos de alto rendimiento que está optimizada para consultas en tiempo real de datos de registro y telemetría mediante el Lenguaje de consulta Kusto (KQL).

Los ingenieros de datos pueden usar Azure Synapse Analytics para crear una solución de análisis de datos unificada que combine canalizaciones de ingesta de datos, almacenamiento en el almacén de datos y almacenamiento en el lago de datos mediante un único servicio.

Los analistas de datos pueden usar grupos de Spark y SQL mediante cuadernos interactivos para explorar y analizar los datos. Además, pueden aprovechar la integración con servicios como Azure Machine Learning y Microsoft Power BI para crear modelos de datos y extraer información de los datos.

Azure Databricks

Azure Databricks es una versión integrada de Azure de la popular plataforma Databricks, que combina la plataforma de procesamiento de datos de Apache Spark con la semántica de base de datos SQL y una interfaz de administración integrada para habilitar el análisis de datos a gran escala.

Los ingenieros de datos pueden usar las capacidades de Databricks y Spark para crear almacenes de datos analíticos en Azure Databricks.

Los analistas de datos pueden usar la compatibilidad nativa con cuadernos en Azure Databricks para consultar y visualizar datos en una interfaz basada en web fácil de usar.

HDInsight de Azure

 Azure HDInsight es un servicio de Azure que proporciona clústeres hospedados en Azure para tecnologías conocidas de procesamiento de macrodatos de código abierto de Apache, entre las que se incluyen las siguientes:

  • Apache Spark: es un sistema de procesamiento de datos distribuidos que admite varios lenguajes de programación y API, incluidos Java, Scala, Python y SQL.
  • Apache Hadoop: se trata de un sistema distribuido que usa trabajos de MapReduce para procesar grandes volúmenes de datos de forma eficaz en varios nodos de clúster. Los trabajos de MapReduce pueden escribirse en Java o abstraerse mediante interfaces como Apache Hive, una API basada en SQL que se ejecuta en Hadoop.
  • Apache HBase: consiste en un sistema de código abierto para consultas y almacenamiento de datos NoSQL a gran escala.
  • Apache Kafka: es un agente de mensajes para el procesamiento de flujos de datos.
  • Apache Storm: se trata de un sistema de código abierto para el procesamiento de datos en tiempo real mediante una topología de spouts y bolts.

Los ingenieros de datos pueden usar Azure HDInsight para admitir cargas de trabajo de análisis de macrodatos que dependan de varias tecnologías de código abierto.

Azure Stream Analytics

Azure Stream Analytics es un motor de procesamiento de flujos en tiempo real que captura un flujo de datos de una entrada, aplica una consulta para extraer y manipular los datos del flujo de entrada y escribe los resultados en una salida para su análisis o procesamiento posterior.

Los ingenieros de datos pueden incorporar Azure Stream Analytics en arquitecturas de análisis de datos que capturan datos de streaming para su ingesta en un almacén de datos analíticos o para su visualización en tiempo real.

Explorador de datos de Azure

Azure Data Explorer es un servicio independiente que permite consultar datos de telemetría y del registro con el mismo alto rendimiento que el runtime de Azure Synapse Data Explorer en Azure Synapse Analytics.

Los analistas de datos pueden usar Azure Data Explorer para consultar y analizar datos que incluyan un atributo de marca de tiempo, como es habitual en los archivos de registro y los datos de telemetría de IoT (Internet de las cosas).

Microsoft Purview

Microsoft Purview proporciona una solución para la gobernanza y la detectabilidad de datos de toda la empresa. Puede usar Microsoft Purview para crear un mapa de los datos y realizar un seguimiento del linaje de datos en varios orígenes de datos y sistemas, lo que le permite encontrar datos de confianza para el análisis y la elaboración de informes.

Los ingenieros de datos pueden usar Microsoft Purview para aplicar la gobernanza de datos en toda la empresa y garantizar la integridad de los datos que se usan para admitir cargas de trabajo analíticas.

Microsoft Power BI

 Microsoft Power BI es una plataforma para el modelado de datos analíticos y la elaboración de informes que los analistas de datos pueden usar para crear y compartir visualizaciones de datos interactivas. Los informes de Power BI pueden crearse mediante la aplicación Power BI Desktop y, luego, publicarse y entregarse mediante informes y aplicaciones basados en web en el servicio Power BI, así como en la aplicación móvil de Power BI.

MCT: Video 1.2.2 Descripción de las tareas y herramientas para la ingeniería de datos

Descripción de las atreas y las herramientas para la ingeniería de datos

  • Los ingenieros de datos son un cargo muy técnico que requiere experiencia y conocimientos en áreas como programación, matemáticas e informática
  • Se encargan de administrar y organizar los datos al mismo tiempo que supervisan las tendencias e incoherencias que afectan a los objetivos empresariales
  • Ademas deben contar con habilidades interpersonales para poder comunicar las tendencias de los datos a los demás miembros de la organización y ayudar a la empresa a usar los datos que se recopilan

Tareas y responsabilidades de los ingenieros de datos

  • Desarrollar, construir, probar y mantener bases de datos y estructuras de BD
  • Adaptar la arquitectura de datos a los requisitos empresariales
  • Adquirir datos
  • Desarrollar procesos para crear y recuperar información de conjuntos de datos
  • Usar herramientas y lenguajes de programación para examinar los datos
  • Identificar maneras de mejorar la confiabilidad, eficacia y calidad de los datos
  • Investigar cuestiones comerciales y empresariales
  • Implementar programas de análisis sofisticados Machinne Learning y métodos estadísticos
  • Preparar los datos para el modelado predictivo y descriptivo
  • Usar datos para detectar tareas que se pueden automatizar

Herramientas habituales de la ingeniería de datos

  • Para el dominio de la ingeniería de datos, se debe tener dominio de diversas herramientas que le permiten crear bases de datos bien diseñadas y optimizadas para los procesos empresariales que se ejecutarán
  • Debe tener conocimiento exhaustivo del sistema de administración de BD la plataforma en donde se ejecutará el sistema y los requisitos empresariales que se aplican a los datos almacenados en la BD
  • Si se utiliza un sistema de administración de BD relacionales se deben tener conocimientos de SQL para poder crear bases de datos, tablas, indices, vistas, etc
  • Muchos sistemas de administración de BD proporcionan una interfaz de lineas de comando que permiten operaciones
  • Por ejemplo se puede utilizar SQL CMD para conectarse a la Azure SQL Sever y Databases que permite ejecutar consultas y comandos ad hoc

MCT: Video 1.2.3 Descripción de las tareas y herramientas para la visualización de datos

Descripción de las tareas y las herramientas para la visualización de datos y la creación de informes

  • Los analistas de datos se encargar de descifrar el significado real de los datos y explorar los datos
  • Los datos se utilizan para determinar las tendencias de los problemas y otra información que pueda ser útil para la empresa
  • Gran parte del rol del analista de datos se centra en:
    • La visualización de los datos que es fundamental para presentar grandes cantidades de información de manera que se entiendan universalmente o que se puedan interpretar con facilidad
    • Detectar patrones y tenencias correlacionales
    • Estas representaciones incluyen gráficos, grafos, infografias y otros recursos visuales

Principales funciones de un analista de datos

  • Hacer que los conjuntos de datos grandes o complejos sean más accesibles, comprensibles e utilizables
  • Creación de grafos, gráficos, histogramas, mapas geográficos y otros modelos visuales que ayudan a explicar el significado de grandes volúmenes de datos e aislar las áreas de interés
  • Transformar, mejorar e integrar datos de varios orígenes en función de los requerimientos empresariales,
  • Combinar los conjuntos de resultados de datos de varios orígenes
  • Buscar patrones ocultos mediante el uso de datos
  • Proporcionar información de manera práctica y atractiva a los usuarios mediante la creación de informes y paneles gráficos enriquecidos

Herramientas habituales de visualización de datos

  • Power BI:
    • Es una colección de servicios de software, aplicaciones y conectores que funcionan conjuntamente para convertir orígenes de datos relacionados entre sí, en información coherente, interactiva y atractiva visualmente
    • Permite conectarse fácilmente a los orígenes de datos, hojas de cálculo de excel, BD locales y en la nube
    • Descubrir que es importante en estos datos y compartir sus hallazgos con otras personas de la organización
    • Para descargarlo https://www.microsoft.com/es-es/download/details.aspx?id=58494
    • Al iniciarlos por primera vez se muestra la ventana de bienvenida
  • Aquí se puede agregar o consultar orígenes, abrir informes