이 모듈에서는 Airflow를 사용하여 기계 학습(ML) 워크플로우 또는 파이프라인을 개발하는 방법을 배웁니다. ML 워크플로우는 데이터 수집, 변환, 학습, 테스트 및 ML 모델 평가와 같은 일련의 작업을 수행하여 비즈니스 결과를 달성합니다.
비즈니스 요구 사항: 뉴욕시에서 택시 이용 요금을 예측하는 모델을 구축합니다.
이 실습에서는 “NYC taxi ride” 데이터를 사용하며 워크샵 초기에 구축 한 Airflow v2.0.2 환경을 사용할 것입니다. 만약 Airflow 환경이 준비되어 있지 않다면 워크샵 2번과 3번을 먼저 완료하고 진행 하십시오.
ML 워크플로우는 먼저 데이터를 탐색하고 데이터를 변환하여 모델 학습의 사용 할 데이터 세트를 준비합니다. 모델 학습은 Amazon SageMaker 학습 클러스터를 사용하여 모델을 피팅합니다. 그런 다음 테스트 데이터 세트에 대한 일괄 예측을 수행하기 위해 Sagemaker 엔드포인트에 배포합니다. 이러한 모든 작업은 Amazon SageMaker와 Managed Airflow 서비스와 통합을 통해 오케스트레이션 및 자동화할 수 있는 워크플로우로 구축됩니다.
아래 다이어그램은 본 실습에서 구현할 ML 워크플로우를 보여줍니다.

워크플로우는 다음 작업을 수행합니다.
Amazon SageMaker Operators는 Airflow에서 사용 가능하고 SageMaker와 통신하여 다음 ML 작업을 수행할 수 있습니다.
이 배경 지식을 바탕으로 Airflow에서 ML 워크플로우를 개발 해 볼텐데 실습은 다음 모듈 순서대로 진행 해야 합니다: