khann's IT와 경제 블로그

반응형

빅데이터 분석 책 리뷰, 모두 거짓말을 한다(everybody lies) 

 

책 : 모두 거짓말을 한다(Everybody lies)

저자 : 세스 스티븐스 다비도위츠(Seth Stephens-Davidowitz)

출판일 : 2018.06.17

요약 : 가장 솔직한 데이터, 구글 검색어(빅데이터)를 통한 사람들의 심리 분석

 

 

 

이 책의 저자는 인간들의 진짜 욕망을 알고 싶었고 가장 솔직한 구글 검색 데이터로 다양한 분석을 진행하여 빅데이터로 인문학을 설명한다. 특히 실업률이 증가하면 포르노 사이트의 검색이 많아지는 관계를 발견해내고 오바마 대통령의 당선 발표일에 깜둥이라는 단어를 많이 검색하여 대다수의 사람들이 인종차별의 내면을 가지고 있다는 사실을 데이터를 통해 증명한다. 욕망을 자극하는 자극적인 소재의 실험이 많아 재밌게 읽을 수 있으며 빅데이터 분석의 무한한 가능성을 느낄 수 있었다. 아래에 책의 내용 중 일부를 질문-답 포맷으로 정리해보았다.

 

 

 

Q1. 왜 설문조사를 신뢰할 수 없는가? 설문조사의 약점

A. 솔직한 답변을 기대하기 어렵다. 우리가 전형적인 정보원이라고 생각하는 설문조사, 인터뷰 등은 민감한 질문에 거짓으로 답변할 확률이 있으며 자기도 모르는 무의식의 영역에서 자기의 생각과 다른 답을 할 수 있다.

그렇기 때문에 철저한 익명성(방에서 혼자) 속에서 무언가 궁금한 것, 필요한 것, 알고 싶은 것을 검색하는 검색 데이터 정보를 최고로 신뢰할 수 있다.(검색 데이터는 빅데이터가 된다)

 

 

Q2. "프로이트의 말실수", 무의식에 숨겨둔 속마음이 실언으로 나오는 현상인데 이를 빅데이터 과학으로 반증할 수 있는가?

A. 일부 반증할 수 있다. 2가지 경우를 실험했다.

 

첫 번째, 야한 단어가 포함되게 철자를 바꿔 쓰는 오타를 발생시키는 경우이다. 마이크로 소프트 데이터 세트를 이용하여 사람들이 얼마나 자주 특정한 문자를 실수로 바꿔 쓰는지에 관한 모형을 만들었다. 이후 사람과 같은 방식으로 실수하는 컴퓨터 프로그램(에러봇, 무의식이 없는 존재)을 만들어 시뮬레이션을 해보니 사람과 같은 빈도로 오타를 발생시켰다. (seashell → sexshell, lipstick → lipsdick, luckiest → fuckiest). 다시 말해 이 같은 실수가 무의식의 속마음이 드러나는 게 아닌 그저 실수라는 얘기이다. (이 데이터 분석에 따르면 프로이트의 이론은 틀렸다.)

 

두 번째, 꿈(무의식)에 특정 과일이 자주 나오는 경우이다. 우리가 왜 음식 꿈을 꿀까? 를 생각해봤을 때 예측해 볼 수 있는 변수는 '우리가 그 음식을 얼마나 자주 먹느냐'다.(p65) 꿈을 기록하는 앱인 쉐도우(Shadow)에서 데이터를 받아서 꿈 수만 개에 등장한 음식들을 코드화 했다. 꿈에서 가장 많이 나오는 물질은 물이며, 가장 많이 등장하는 음식은 닭고기, 빵, 샌드위치, 밥 등이다. 과일과 채소에 걸쳐 회귀분석을 해보았을 때도 인기순위 외에는 다른 변수(이유)로 자주 등장할 가능성이 보이지 않았다.

 

 

Q3. 골드만삭스를 비롯한 금융기관이 왜 '월간 실업률'을 가장 중요한 데이터라고 생각할까?(p75)

A. 1000분의 1초의 단위로 움직이는 금융회사에서는 통신속도의 1000분의 4초를 줄이기 위해서 수천만 달러를 들여 광섬유 케이블 접근권을 얻는다. 하지만 '월간 실업률' 정보는 미국 노동통계청에서 실시하는 전화 설문조사에서 나오며 발표될 때에는 이미 3주(1000분의 20억 초)가 지나있다. 대강이라도 미리 알 수 있다면 얼마나 좋을까?라는 생각으로 데이터 분석을 생각해 볼 수 있다.

 

전 구글 엔지니어 제러미 긴즈버그(Jeremy Ginsberg)는 정부에서 발표하는 '의료 데이터'가 오랜 시간이 걸린다는 사실을 발견하고, 구글 검색 데이터를 활용했다. 독감에 걸린 사람이라면 사람들은 독감 관련 내용을 검색해볼 것이다. 실제로 '독감 증상'과 '근육통'같은 검색어는 독감이 얼마나 빨리 퍼지는지를 보여주는 중요한 지표로 밝혀졌다.(구글 플루, Google Flu)

 

이후 구글은 다양한 분야에서 동일한 분석 유형으로 실험할 수 있는 수단을 외부 연구자들에게 제공하는 서비스인 구글 코릴레이트(Google Correlate)를 만들었다.

구글 수석 경제학자인 할 베리언(Hal Varian)은 구글코릴레이트를 이용해서 어떤 검색이 주택 가격을 가장 근접하게 추적하는지 알 수 있었다. 주택가격이 오를 때 미국인은 '80/20 융자', '주택 건축업자', '평가율' 같은 문구를 검색하고, 주택가격이 떨어질 때 '쇼트세일 short sale 절차', '언더워터 모기지 underwater mortage (융자액이 부동산 가치보다 높은 상황', '융자 구제' 등을 검색한다.

 

그렇다면 '실업률'을 검색 데이터를 이용해 판단할 수 있을까? 2004년부터 2011년까지의 미국 실업률을 구글 코릴레이트에 넣었고 '실업률'과 가장 긴밀한 연관성을 보인 단어를 추출했다. 놀랍게도 가장 많은 연관성을 보인 단어는 '슬럿로드 slutload(포르노사이트)다. 사람들이 일자리를 잃고 시간이 많아지니 포르노사이트를 많이 검색하게 된 것이다. 다음으로 관련이 많은 단어는 '스파이더 솔리테어 spider solitair(혼자서 하는 카드게임)'였다.

이 한 가지 분석을 기초로 실업률을 정확히 예측하는 최선의 방법은 될 수 없으나, 이 방식이 실업률을 추적하는 좋은 모델이 될 수 있다.

반응형

이 글을 공유합시다

facebook twitter googleplus kakaostory naver