Tutorial paso a paso para construir una canalización de transformación de datos usando MySQL, Athena y AWS

Tutorial paso a paso para construir una canalización de transformación de datos usando MySQL, Athena y AWS

En la actualidad, una de las formas más populares de ejecutar tareas de transformación de datos es a través del procesamiento de datos por lotes. Este patrón de diseño de canalización de datos se vuelve increíblemente útil cuando necesitamos procesar datos en trozos, lo que lo hace muy eficiente para trabajos de ETL (Extract, Transform, Load) que requieren programación. En este artículo, te mostraré un tutorial paso a paso de cómo implementar este patrón construyendo una canalización de transformación de datos utilizando MySQL y Athena, y desplegándolo en la nube utilizando infraestructura como código.

Imagina que acabas de unirte a una empresa como Ingeniero de Datos. Su conjunto de herramientas de datos es moderno, basado en eventos, rentable y flexible, lo que permite escalar fácilmente de acuerdo a las demandas de crecimiento de los recursos de datos. Las fuentes de datos externas y las canalizaciones de datos en la plataforma se manejan mediante un entorno flexible con integración de GitHub para CI/CD.

Como Ingeniero de Datos, tu tarea es crear un panel de inteligencia empresarial que muestre la geografía de los flujos de ingresos de la empresa, como se muestra a continuación. Los datos brutos de los pagos se almacenan en una base de datos de servidor (MySQL). Tu objetivo es construir una canalización por lotes que extraiga datos de esa base de datos diariamente, los almacene en AWS S3 y luego los procese utilizando Athena.

Panel de ingresos. Imagen del autor.

Canalización de datos por lotes

Una canalización de datos se puede considerar como una secuencia de pasos de procesamiento de datos. Debido a las conexiones lógicas de flujo de datos entre estas etapas, cada etapa genera una salida que sirve como entrada para la siguiente etapa.

Una canalización de datos existe siempre que haya procesamiento de datos entre los puntos A y B.

Las canalizaciones de datos pueden variar en su naturaleza conceptual y lógica. Había hablado previamente al respecto aquí [1]:

Enlace a la fuente

Si te interesó esta noticia y deseas mantenerte al día con los últimos acontecimientos, no dudes en explorar nuestras otras secciones en Uni2Noticias. Continúa informándote con nosotros.

Publicaciones Relacionadas

K-dramas emocionantes esta semana: My Demon, Marry My Husband y Welcome to Samdalri. ¡Mantén tus pantallas encendidas!

K-dramas emocionantes esta semana: My Demon, Marry My Husband…

Esta semana, desde el lunes 8 de enero hasta el domingo 14 de enero de 2024, los espectadores pueden esperar ver…
“¿Dónde ver Training Day en línea? Descubre cómo transmitir esta película en streaming”

“¿Dónde ver Training Day en línea? Descubre cómo transmitir…

Si estás interesado en saber dónde ver y transmitir Training Day en línea, has llegado al lugar correcto. Antoine Fuqua dirigió…
Good Trouble Temporada 4 ahora en streaming en Hulu

Good Trouble Temporada 4 ahora en streaming en Hulu

Good Trouble Temporada 4: Disponible para ver en streaming a través de Hulu La Temporada 4 de Good Trouble es la…