- Ciencia y TecnologíaLo Más Reciente
- 20/10/2023
Tutorial paso a paso para construir una canalización de transformación de datos usando MySQL, Athena y AWS

En la actualidad, una de las formas más populares de ejecutar tareas de transformación de datos es a través del procesamiento de datos por lotes. Este patrón de diseño de canalización de datos se vuelve increíblemente útil cuando necesitamos procesar datos en trozos, lo que lo hace muy eficiente para trabajos de ETL (Extract, Transform, Load) que requieren programación. En este artículo, te mostraré un tutorial paso a paso de cómo implementar este patrón construyendo una canalización de transformación de datos utilizando MySQL y Athena, y desplegándolo en la nube utilizando infraestructura como código.
Imagina que acabas de unirte a una empresa como Ingeniero de Datos. Su conjunto de herramientas de datos es moderno, basado en eventos, rentable y flexible, lo que permite escalar fácilmente de acuerdo a las demandas de crecimiento de los recursos de datos. Las fuentes de datos externas y las canalizaciones de datos en la plataforma se manejan mediante un entorno flexible con integración de GitHub para CI/CD.
Como Ingeniero de Datos, tu tarea es crear un panel de inteligencia empresarial que muestre la geografía de los flujos de ingresos de la empresa, como se muestra a continuación. Los datos brutos de los pagos se almacenan en una base de datos de servidor (MySQL). Tu objetivo es construir una canalización por lotes que extraiga datos de esa base de datos diariamente, los almacene en AWS S3 y luego los procese utilizando Athena.
Panel de ingresos. Imagen del autor.
Canalización de datos por lotes
Una canalización de datos se puede considerar como una secuencia de pasos de procesamiento de datos. Debido a las conexiones lógicas de flujo de datos entre estas etapas, cada etapa genera una salida que sirve como entrada para la siguiente etapa.
Una canalización de datos existe siempre que haya procesamiento de datos entre los puntos A y B.
Las canalizaciones de datos pueden variar en su naturaleza conceptual y lógica. Había hablado previamente al respecto aquí [1]:
Enlace a la fuente
Si te interesó esta noticia y deseas mantenerte al día con los últimos acontecimientos, no dudes en explorar nuestras otras secciones en Uni2Noticias. Continúa informándote con nosotros.