정하웅 KAIST 물리학과 교수님의 강연을 들은 적이 있다. 복잡계 및 통계물리 연구실에서 계셨던 교수님께서는‘구글 신은 모든 것을 알고 있다.’는 흥미로운 주제를 가지고 강연을 진행하셨다. 강연을 들은 후, 교수님의 저서인 ‘구글 신은 모든 것을 알고 있다.’를 읽었으며 그 뒤 직접 실제 우리나라에서 있었던 일들을 검색해 그 결과를 비교해봤다.
핵심은, 구글이 방대한 양의 빅데이터를 가지고 있다는 점이었다.
가장 먼저, 구글 트렌드에 ‘촛불집회’를 검색했다. 이 방법으로 사람들이 촛불집회를 어느 시기에 가장 많이 검색했는지를 확인할 수 있었는데, 그 기간은 10.23~10.29 이었다. 놀라운 점은, 10.29일이 바로 첫 대규모 촛불집회가 열린 날이라는 것이다. 이로써 촛불집회라는 단어를 검색한 빈도수와 실제 처음으로 대규모 촛불집회가 열린 기간이 일치함을 확인할 수 있다.
두 번째로 확인한 것은 안희정 충남지사의 지지율 변화이다. 한국일보의 2017년 2월 13일자 기사에 따르면 안희정 충남지사의 지지율이 1주 만에 10%에서 19%로 크게 상승했다고 한다. 구글 트렌드에 안희정을 검색해 본 결과 역시 동일했다. 안희정 검색 빈도수의 최고점이 찍힌 기간은 2.12~2.18 사이였다. 검색 빈도수의 최고점이 실제 지지율이 상승했던 기간과 일치하는 것을 확인한 것이다.
세 번째로 조사한 것은 대선 후보자들의 지지율 순위였다. 구글에 문재인, 안희정, 이제명 등 더불어민주당 후보들과 황교안, 홍준표, 이인제 등 자유한국당의 후보들을 모두 검색한 결과 검색결과 수는 민주당에서 문재인후보가 41,600,000건이며 지지율 순위 1위, 안희정 후보가 21,500,000건이며 2위, 이제명 후보가 20,800,000건이며 3위였다. 실제 지지율 순위와 검색 건수가 동일한 경향을 보였다.
한국당도 마찬가지였다. 황교안 후보가 19,200,000건, 홍준표 후보가 6,050,000건, 이인제 후보가 1,320,000건으로 실제 순위 역시 각각 1위, 2위, 3위를 차지했다.
마지막으로 각 후보의 지지율 변동을 구글 트렌드에서 알아보았다. 안희정 후보의 지지율이 3월 2주차가 1주차에 비해 0.3% 높아졌다고 보도된 바 있다. 트렌드 검색 결과 역시 안희정 후보의 검색 빈도수가 3월 1주차 29 보다 2주차가 48로 더 컸다. 황교안 후보의 지지율은 3월 1주차에 비해 2주차가 0.7% 하락했다고 보도되었는데, 실제로 트렌드에서 검색한 결과 1주차 52의 빈도수에서 48로 하락한 것을 확인할 수 있었다.
[이미지 제작=대한민국청소년기자단 4기 신온유기자]
위의 과정을 통해 사람들의 검색 빈도수와 건수 같은 빅데이터들이 실제 생활과 밀접하게 연관됨을 직접 확인할 수 있다. 이는 결론적으로 데이터들의 축적과 이렇게 형성된 방대한 빅데이터들을 이용하면 실제 일어나는 일까지 추측할 수 있다는 것을 의미하기도 한다.
이런 일이 가능한 이유는 사람들이 검색할 때 거짓말을 하지 않기 때문으로 설명된다. 구글 트렌드에 다이어트를 검색하면 검색 건수는 매년 1월 1일마다 최고점을 반복하여 찍는다. 사람들이 다이어트를 새해 목표로 삼고, 관련 내용을 검색하기 때문이다. 독감이 유행했을 당시 독감의 증상 및 예방법과 같은 독감 관련 검색 빈도수가 증가하는 것 또한 하나의 예이다.
물론 빅데이터가 가리키는 지표가 항상 맞는 것은 아니다. 그 예로, 구글에서 해당 년도의 독감 환자 수를 실시간으로 예측하는 프로젝트를 진행한 적이 있다. 현재 얼마나 많은 독감 환자가 있을까하는 것을 독감 관련 검색어의 검색 횟수 급증 경향을 가지고 파악하고자 한 것이다. 2003년부터 2007년까지 기존 데이터를 활용하여 독감 환자수와 가장 잘 맞는 키워드 50개를 선정, 구글 검색엔진을 이용한 독감 예측에 나섰다. 이 결과는 실제 독감 환자 증가 치와 매우 일치했다. 그러나 2013년, 프로젝트는 실패하고 만다. 2013년 일본에서 백신 부족 사태가 일어나 관련 뉴스들이 넘쳐났기 때문이다. 이로서 실제 독감 환자들과 관련이 없는 사람들도 백신 부족에 관심을 가지고 검색을 하는 바람에 데이터 값이 실제 독감 환자와 다르게 무척 큰 수치를 띄게 됐다. 당시 상황과 맥락, 내용 검토 없이 숫자만 맹신하는 것은 금물이라는 교훈을 남겨준다.
우리 사회는 정보화 사회를 넘어 4차 산업혁명이라는 단어까지 등장하는 시대에 극면 해있다. 데이터의 양은 갈수록 많아질 것이고, 빅데이터의 중요성 또한 더욱 강조될 것이다. 구글의 빅데이터를 이용한 실제 상황에 대한 예측은 빅데이터의 강점을 더욱 부각시켜준다. 사람의 필요와 선택에 의해 검색되는 정보들이 한데 모여 사람 사이에 일어나는 일들을 추측해낸다. 사람조차 ‘운’이라 정의하며 예측하지 못 하는 결과들을 사람이 모은 데이터가 안다는 것이다. 데이터가 쌓이는 과정은 의외로 간단하지만, 데이터의 쓰임은 무궁무진하며 때로는 사람도 하지 못하는 일을 이뤄내기도 한다. 우리는 앞으로 빅데이터를 현명하게 모으고 활용하는 방법을 익혀 우리의 한계를 극복해냄과 동시에 인류의 편익과 공익을 일궈내야 할 것이다.
[대한민국청소년기자단 IT·과학부=4기 신온유기자]