이 번 모듈은 이 전에 학습한 Airflow 지식을 바탕으로 AWS Analytics 서비스를 활용한 Data Warehousing (DW) 파이프라인을 Airflow를 통해 구축해 봅니다.

실습 아키텍처는 RDS에 원천 데이터가 관계형 테이블 구조로 저장 되어 있으며, 데이터를 S3 Data Lake로 수집하기 위해 Glue Spark ETL job을 수행합니다. 그리고 수집 한 원천 데이터를 쿼리에 활용 하기 위해 Athena SQL를 수행하여 Operational Data Store (ODS) 테이블을 Glue Data Catalog 에 생성합니다. ODS 환경이 구축되면 Athena SQL과 EMR Spark job을 수행하여 ODS 데이터를 star schema로 변환 한 dimension table 및 fact table을 S3 Data Lake에 생성합니다. 그리고 S3 Data Lake에 최종적으로 준비 된 DW 데이터를 Redshift로 로딩 합니다. Airflow는 RDS 소스에 업데이트 되는 최신 데이터를 데이터 분석에 활용할 수 있도록 주기적으로 Redshift로 데이터를 이동하는 전체 파이프라인을 구축합니다.

실습에서 활용하는 Chinook 샘플 데이터베이스는 ITunes Library의 실제 데이터를 사용하여 생성 되었으며 Customer, Employee 및 Sales를 포함 한 대부분의 non-media 데이터는 가상 또는 Random하게 생성 된 데이터 입니다. 샘플 데이터베이스에는 위 그림과 같은 테이블이 존재하고 2009년부터 4년치의 데이터를 소규모로 포함하고 있습니다.
데이터와 관련 된 자세한 내용은 하기 Github에 설명 되어 있습니다.
Airflow 버전에 따라 다음 실습을 선택 합니다: