airflow는 빅데이터의 ETL(Extraction -> Transformation -> Loading) workflow를 관리하는 플랫폼(툴)이다.
pipline이 많아지면서 관리가 어려워지는 걸 쉽게 하기 위해 AirBnB에서 만들었다.(Apache lincese, 오픈소스)
4가지 구성요소가 있다.
Webserver
Scheduler
Excutor
Workers
Dag(Directed Acyclic Graph)를 이용하여 Workflow를 작성한다.
m1 맥북 에어
python 3.9
python3 -m pip install "apache-airflow==2.3.3" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.3.3/constraints-3.9.txt"
위 방법으로 설치하면 알아서 환경변수를 잡아준다.
airflow standalone
터미널 콘솔에서 "Airflow is ready"문구가 뜨면 그 다음 라인에는 "username"과 "password"가 표시된다.
localhost:8080으로 접속한다.
콘솔에 뜬 "Username"과 "Password"를 입력해준다.
로그인 후
reference
https://airflow.apache.org/docs/apache-airflow/stable/start/local.html
마스크 알리미 사이트 크롬으로 분석하기 동작원리와 API 추출 (2) | 2020.03.07 |
---|---|
직접 코로나 맵 사이트 만드는 방법, 우한 폐렴 데이터 수집 및 공유 파이썬 (4) | 2020.02.02 |
우한 폐렴 국내 선별진료소 현황 수집하기 (python, pandas이용) (0) | 2020.02.01 |