khann's IT와 경제 블로그

반응형

개요

우리나라에는 이동이 불편한 장애인들을 위해 이동편의를 제공해 사회참여의 확대를 늘리고자,

2002년부터 전국적으로 '장애인 콜택시'라는 서비스를 운영하고 있다.

그중, 서울시의 장애인 콜택시는 서울시설공단에서 운영하며 2016년 기준 총 487대의 차량을 운행 중에 있다.

 

장애인 콜택시는 장애인을 대상으로 인터넷/모바일로 콜을 통해 접수를 받고 배차가 되면 기사님이 오셔서 승객분을 태워주게 되는 로드맵 방식으로 서비스되고 있다.

 

그런데 이 서울시 장애인 콜택시의 이용 만족도가 현저하게 낮다는 기사를 봤다.

 

 

이러한 이유로 서울시 장애인 콜택시의 낮은 만족도에 대한 이용자의 이유를 알고 싶었다.

찾아보니 서울시설공단 장애인 콜택시 웹사이트에서 시민의 소리 게시판에서 Q & A형식으로 이용에 대한

이슈 및 문제점을 올리는 서비스가 존재했다.

 

 

그래서 게시판에 존재하는 모든 게시글들을 크롤링하여 데이터를 분석해보기로 했다.

 

데이터 수집

장애인 콜센터 시민의 소리 게시판에는 14년 1월부터 게시글이 등록되어있으며,

19년 7월 10일 기준으로 총 250개의 글이 존재했다.

 

 

이 게시글을 Python 라이브러리인 Requests와 Beautiful soup으로 크롤링 진행했다.

 

시민의소리 게시글을 크롤링한 데이터

 

게시글 별 명사 리스트 생성

클로링한 게시글들은 자연어로 된 문장들이다. 명사, 동사, 접속사 등이 모두 포함되어있다.

이를 활용하여 빈도수 분석 및 TF-IDF분석을 활용하기 위해서는 각 단어들의 용언 품사들 중 가장 중요한 명사와 동사 위주로 추출해서 정리해야 한다.

Konlpy의 komoran을 이용해서 진행했고 명사 동사들을 공백으로 구분하여 리스트로 구성했다.

 

게시글을 명사와 동사를 추출하여 공백으로 구분한 리스트

 

 

이 이후부터는 어떤 분석방법을 이용해서 분석하냐에 따라 조금씩 달라진다.

이번 포스트에서는 단순히 빈도수 분석으로 워드 클라우드를 추출하는 방법으로 진행해볼 것이다.

 

명사들의 빈도수 분석

빈도수 분석된 결과 데이터

 

 

데이터 전처리 - 의미 없는 단어 블랙리스트 생성

우리는 장애인 콜택시를 이용한 시민들의 '시민의 소리'게시글을 이용해서 분석을 진행했다.

그렇다는 건 '장애인', '콜택시'등의 단어들은 당연히 자주 나올 것이라는 것을 알 수 있다. 또한 의미 없는 '등', '것' 등도 추가적으로 제외를 시켜서 블랙리스트를 생성하고 제외시킨다.

 

 

 

시각화(Visualization) - 워드 클라우드 생성

python의 WordCloud와 matplotlib 라이브러리를 사용해서 앞서 생성한 단어의 빈도수 데이터를 입력시켜 WordCloud를 출력받았다.

 

서울시설공단 장애인 콜택시 시민의소리 키워드 워드클라우드

워드 클라우드를 이쁘게 꾸밀 수도 있지만 일단 생략했다.

우리가 이 워드 클라우드를 통해 알 수 있는 자주 사용된 키워드는 운전, 대기, 차량, 이용, 시간, 감사 등등이다.

대략 키워드를 통해서 예상할 수 있는 문제는 이용시간, 대기시간 등 시간에 대한 문제가 많을 것으로 보이고 장애인 콜택시를 통해서 병원에 자주 가는 것 같다. 또한 전화차량에 대한 이슈도 가능성이 충분하다는 게 예측이 가능하다.

 

마무리하며,,

장애인 콜택시 게시글 양이 생각보다 충분치 않아서 분석 결과가 의미가 없을 수도 있다.

그러나 이러한 방법을 통해 데이터가 충분한 다른 곳에 응용이 가능할 것으로 보인다.

 

 

 

다음 포스팅에는 Word2Vec, TF-IDF를 이용한 키워드 클러스터링을 통해 긍/부정 키워드 분류 시멘틱 분석도 확인해 볼 수 있겠다.

 

 

 

피드백은 언제나 환영입니다.

 

 

반응형

이 글을 공유합시다

facebook twitter googleplus kakaostory naver