우한 폐렴 : 코로나 바이러스
2019년 12월 12일 중국 후베이성 우한시의 화난수산물도매시장 일대에서 처음 발병되었습니다.
20219년 12월 31일 전세계 감염자 27명에서
2020년 12월 1일 현재 전 세계 감염자 11,947명 사망 259명이 발생했습니다.
그리고 1월 20일 한국에서도 첫 확진 환자가 발생했고
2월 1일 현재는 12번째 확진자가 나왔습니다.
현재 우리나라의 질병관리본부(KCDC)에서는 우한 폐렴 즉 신종 코로나바이러스감염증에 대해서 진료소를 선별하고 공개했습니다.
*KCDC제공 우한폐렴 선별 진료소 현황 사이트
http://www.mohw.go.kr/react/popup_200128.html
수집 시 이용하는 언어는 python이고
python의 pandas라이브러리를 활용해서 손쉽게 도표를 dataframe으로 변환시켜 가져오겠습니다.
수집 시 사용한 IDE 환경은 Jupyter입니다.
*주피터를 구성하는 방법은 아래 링크 참조
1. jupyter에서 Notebook 실행하기
2. pandas 라이브러리 import 하기
1
|
import pandas as pd
|
cs |
3. pandas의 read_html 메소드를 이용해서 웹에 있는 테이블을 수집 후 datafame형식으로 변환
주의할 점은 이렇게 수집된 df_wuhan은 type이 list형식입니다.
그래서 0번째 인덱스만 다시 저장해주면 됩니다.
1
|
df_wuhan = pd.read_html('http://www.mohw.go.kr/react/popup_200128.html')
df_wuhan = df_wuhan[0]
|
cs |
4. 수집된 dataframe이 잘 수집 되었는지 출력해보기
1
|
print(df_wuhan)
|
cs |
5. 2~3번 과정 Output
이렇게 수집을 하면 requests나 BeautifulSoup을 사용하지 않고 코드 한 줄로 바로 table이 수집됩니다.
추후에 선별 진료소 현황이 업데이트 되면 이 코드 한 줄로 바로 업데이트하여 데이트를 가져올 수 있습니다.
이 데이터는 CSV로 저장하거나 DB에 저장할 수 있고 시각화를 하여 지도에 표시하는 등 활용할 수 있습니다.
6. 수집된 dataframe을 csv로 저장해보기
1
|
df_wuhan.to_csv('wuhanlist.csv', index=False)
|
cs |
Out :
이런 방법으로 웹에서 table로 저장하실 때나 크롤링하실 때 활용하시면 될 거 같습니다.
airflow 설치 [locally] on m1 (0) | 2022.08.03 |
---|---|
마스크 알리미 사이트 크롬으로 분석하기 동작원리와 API 추출 (2) | 2020.03.07 |
직접 코로나 맵 사이트 만드는 방법, 우한 폐렴 데이터 수집 및 공유 파이썬 (4) | 2020.02.02 |