khann's IT와 경제 블로그

반응형

우한 폐렴 국내 선별진료소 현황 수집하기 (python, pandas이용)

 

 

우한 폐렴 : 코로나 바이러스

2019년 12월 12일 중국 후베이성 우한시의 화난수산물도매시장 일대에서 처음 발병되었습니다.

 

20219년 12월 31일 전세계 감염자 27명에서

2020년 12월 1일 현재 전 세계 감염자 11,947명 사망 259명이 발생했습니다.

 

 

그리고 1월 20일 한국에서도 첫 확진 환자가 발생했고

2월 1일 현재는 12번째 확진자가 나왔습니다.

 

 

 

 

우한폐렴(신종 코로나바이러스감염증) 선별 진료소 현황

현재 우리나라의 질병관리본부(KCDC)에서는 우한 폐렴 즉 신종 코로나바이러스감염증에 대해서 진료소를 선별하고 공개했습니다.

 

*KCDC제공 우한폐렴 선별 진료소 현황 사이트

http://www.mohw.go.kr/react/popup_200128.html

 

 

 

 

우한 폐렴 선별 진료소 현황 도표 수집하기

수집 시 이용하는 언어는 python이고

python의  pandas라이브러리를 활용해서 손쉽게 도표를 dataframe으로 변환시켜 가져오겠습니다.

 

수집 시 사용한 IDE 환경은 Jupyter입니다.

 

*주피터를 구성하는 방법은 아래 링크 참조

Jupyter환경 설치 및 구성하기 

 

 

1. jupyter에서 Notebook 실행하기

 

 

2. pandas 라이브러리 import 하기

1
import pandas as pd
cs

 

 

 

3. pandas의 read_html 메소드를 이용해서 웹에 있는 테이블을 수집 후 datafame형식으로 변환

주의할 점은 이렇게 수집된 df_wuhan은 type이 list형식입니다.

그래서 0번째 인덱스만 다시 저장해주면 됩니다.

1
df_wuhan = pd.read_html('http://www.mohw.go.kr/react/popup_200128.html')
df_wuhan = df_wuhan[0]
cs

 

 

 

4. 수집된 dataframe이 잘 수집 되었는지 출력해보기

1
print(df_wuhan)
cs

 

 

 

5. 2~3번 과정 Output 

 

 

 

이렇게 수집을 하면 requests나 BeautifulSoup을 사용하지 않고 코드 한 줄로 바로 table이 수집됩니다.

추후에 선별 진료소 현황이 업데이트 되면 이 코드 한 줄로 바로 업데이트하여 데이트를 가져올 수 있습니다.

 

이 데이터는 CSV로 저장하거나 DB에 저장할 수 있고 시각화를 하여 지도에 표시하는 등 활용할 수 있습니다.

 

 

6. 수집된 dataframe을  csv로 저장해보기

1
df_wuhan.to_csv('wuhanlist.csv', index=False)
cs

Out :

 

 

 

이런 방법으로 웹에서 table로 저장하실 때나 크롤링하실 때 활용하시면 될 거 같습니다. 

반응형

이 글을 공유합시다

facebook twitter googleplus kakaostory naver