security_login_new.png
cs_new_10.pngside_bottom_02.png
문화&라이프

구글의 빅데이터, 어디까지 알 수 있을까?

by 7기신온유기자 posted Jan 23, 2018 Views 15779
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
Extra Form

 정하웅 KAIST 물리학과 교수님의 강연을 들은 적이 있다복잡계 및 통계물리 연구실에서 계셨던 교수님께서는구글 신은 모든 것을 알고 있다.’는 흥미로운 주제를 가지고 강연을 진행하셨다강연을 들은 후교수님의 저서인 구글 신은 모든 것을 알고 있다.’를 읽었으며 그 뒤 직접 실제 우리나라에서 있었던 일들을 검색해 그 결과를 비교해봤다.

 핵심은구글이 방대한 양의 빅데이터를 가지고 있다는 점이었다.

 가장 먼저구글 트렌드에 촛불집회를 검색했다이 방법으로 사람들이 촛불집회를 어느 시기에 가장 많이 검색했는지를 확인할 수 있었는데그 기간은 10.23~10.29 이었다놀라운 점은, 10.29일이 바로 첫 대규모 촛불집회가 열린 날이라는 것이다이로써 촛불집회라는 단어를 검색한 빈도수와 실제 처음으로 대규모 촛불집회가 열린 기간이 일치함을 확인할 수 있다.

 두 번째로 확인한 것은 안희정 충남지사의 지지율 변화이다한국일보의 2017년 2월 13일자 기사에 따르면 안희정 충남지사의 지지율이 1주 만에 10%에서 19%로 크게 상승했다고 한다구글 트렌드에 안희정을 검색해 본 결과 역시 동일했다안희정 검색 빈도수의 최고점이 찍힌 기간은 2.12~2.18 사이였다검색 빈도수의 최고점이 실제 지지율이 상승했던 기간과 일치하는 것을 확인한 것이다.

 세 번째로 조사한 것은 대선 후보자들의 지지율 순위였다구글에 문재인안희정이제명 등 더불어민주당 후보들과 황교안홍준표이인제 등 자유한국당의 후보들을 모두 검색한 결과 검색결과 수는 민주당에서 문재인후보가 41,600,000건이며 지지율 순위 1안희정 후보가 21,500,000건이며 2이제명 후보가 20,800,000건이며 3위였다실제 지지율 순위와 검색 건수가 동일한 경향을 보였다.

 한국당도 마찬가지였다황교안 후보가 19,200,000홍준표 후보가 6,050,000이인제 후보가 1,320,000건으로 실제 순위 역시 각각 1, 2, 3위를 차지했다.

 마지막으로 각 후보의 지지율 변동을 구글 트렌드에서 알아보았다안희정 후보의 지지율이 3월 2주차가 1주차에 비해 0.3% 높아졌다고 보도된 바 있다트렌드 검색 결과 역시 안희정 후보의 검색 빈도수가 3월 1주차 29 보다 2주차가 48로 더 컸다황교안 후보의 지지율은 3월 1주차에 비해 2주차가 0.7% 하락했다고 보도되었는데실제로 트렌드에서 검색한 결과 1주차 52의 빈도수에서 48로 하락한 것을 확인할 수 있었다.

최종 사용본.PNG


[이미지 제작=대한민국청소년기자단 4기 신온유기자]


 위의 과정을 통해 사람들의 검색 빈도수와 건수 같은 빅데이터들이 실제 생활과 밀접하게 연관됨을 직접 확인할 수 있다이는 결론적으로 데이터들의 축적과 이렇게 형성된 방대한 빅데이터들을 이용하면 실제 일어나는 일까지 추측할 수 있다는 것을 의미하기도 한다.

 이런 일이 가능한 이유는 사람들이 검색할 때 거짓말을 하지 않기 때문으로 설명된다구글 트렌드에 다이어트를 검색하면 검색 건수는 매년 1월 1일마다 최고점을 반복하여 찍는다사람들이 다이어트를 새해 목표로 삼고관련 내용을 검색하기 때문이다독감이 유행했을 당시 독감의 증상 및 예방법과 같은 독감 관련 검색 빈도수가 증가하는 것 또한 하나의 예이다.

 물론 빅데이터가 가리키는 지표가 항상 맞는 것은 아니다그 예로구글에서 해당 년도의 독감 환자 수를 실시간으로 예측하는 프로젝트를 진행한 적이 있다현재 얼마나 많은 독감 환자가 있을까하는 것을 독감 관련 검색어의 검색 횟수 급증 경향을 가지고 파악하고자 한 것이다. 2003년부터 2007년까지 기존 데이터를 활용하여 독감 환자수와 가장 잘 맞는 키워드 50개를 선정구글 검색엔진을 이용한 독감 예측에 나섰다이 결과는 실제 독감 환자 증가 치와 매우 일치했다그러나 2013프로젝트는 실패하고 만다. 2013년 일본에서 백신 부족 사태가 일어나 관련 뉴스들이 넘쳐났기 때문이다이로서 실제 독감 환자들과 관련이 없는 사람들도 백신 부족에 관심을 가지고 검색을 하는 바람에 데이터 값이 실제 독감 환자와 다르게 무척 큰 수치를 띄게 됐다당시 상황과 맥락내용 검토 없이 숫자만 맹신하는 것은 금물이라는 교훈을 남겨준다.


 우리 사회는 정보화 사회를 넘어 4차 산업혁명이라는 단어까지 등장하는 시대에 극면 해있다데이터의 양은 갈수록 많아질 것이고빅데이터의 중요성 또한 더욱 강조될 것이다구글의 빅데이터를 이용한 실제 상황에 대한 예측은 빅데이터의 강점을 더욱 부각시켜준다사람의 필요와 선택에 의해 검색되는 정보들이 한데 모여 사람 사이에 일어나는 일들을 추측해낸다사람조차 이라 정의하며 예측하지 못 하는 결과들을 사람이 모은 데이터가 안다는 것이다데이터가 쌓이는 과정은 의외로 간단하지만데이터의 쓰임은 무궁무진하며 때로는 사람도 하지 못하는 일을 이뤄내기도 한다우리는 앞으로 빅데이터를 현명하게 모으고 활용하는 방법을 익혀 우리의 한계를 극복해냄과 동시에 인류의 편익과 공익을 일궈내야 할 것이다.


[대한민국청소년기자단 IT·과학부=4기 신온유기자]




Copyright ⓒ 대한민국청소년기자단(www.youthpress.net), 무단 전재 및 재배포 금지


kltw_kyp_adbanner5.png

TAG •

List of Articles
제목 날짜 이름 조회 수
리움미술관, 마우리치오 카텔란의 국내 첫 개인전 file 2023.03.30 박우진 436818
[포토] 일본 야마구치현 우베시 초요컨트리클럽(CC) file 2023.03.22 조영채 434279
[PICK] 요즘 떠오르는 힐링수업, ‘플라워 클래스’ 2 file 2021.08.27 조민주 855951
도시 속에서 다시 태어난 자연, '월드컵공원' file 2021.01.04 서원오 12833
코로나19, 장애인들에겐 가시 1 2021.01.04 이수미 10599
미디어 리터러시와 걸어가는 미디어시대 file 2021.01.04 신아인 11349
“누구나 한 번쯤 소문의 주인공된다” 푸른숲주니어, '소문의 주인공' 신간 출간 file 2021.01.04 디지털이슈팀 12169
쌓여있는 이메일, 지구 온난화의 주범? 3 2020.12.31 원규리 15370
대기 중 이산화탄소로 망가져가는 해양을 살릴 수 있는 기술들 1 file 2020.12.31 이지민 40368
644골의 메시, 역대 단일 클럽 최다 득점 기록 갱신 1 file 2020.12.31 김민재 14219
영화의 기억, 영화 굿즈 스토어 1 file 2020.12.30 이준표 14144
지구를 구하는 대학생 봉사단 ASEZ를 만나다 1 file 2020.12.29 송다은 11344
소셜 미디어의 충격적인 민낯 <소셜 딜레마> file 2020.12.29 김수연 14118
마스크 착용! 우리의 생명을 지키는 유일한 방법 1 file 2020.12.29 정주은 11995
All is well! 동탄국제고 11기 준비 오픈 채팅방을 소개합니다 file 2020.12.29 문청현 18240
전 세계 관광지들의 침체 1 2020.12.28 김상현 11653
12월 25일에 학교 가는 나라 1 2020.12.28 오예린 11057
도산 안창호의 흥사단 평택 안성 지부 50주년 기념식 개최 file 2020.12.28 김서진 12331
쿠팡, ‘쿠팡플레이'로 OTT 시장까지 노린다! 1 file 2020.12.28 유채연 15375
YLC 동아리 활동을 들여다보다! file 2020.12.28 정지후 12651
공인인증서는 가고 시작된 민간인증서들의 시대 file 2020.12.28 이채은 10971
2021학년도 유치원 보육비 지원 상승으로 학부모의 부담 경감시켜 file 2020.12.28 김아연 11557
지금까지 코로나19같은 전염병은 없지 않았다? 1 file 2020.12.24 정승우 11907
크리스마스 유래, 어디까지 알고 있니? 2 file 2020.12.24 조수민 13328
예비 고1, 아무도 알아주지 않은 작지만 거대한 그들의 상처 3 file 2020.12.24 문청현 22020
울산 현대 AFC 챔피언스리그 통산 두 번째 우승! 1 file 2020.12.23 최준우 11777
12월 1일은 세계 에이즈의 날! file 2020.12.23 윤현서 10944
사회적 거리 두기 3단계 격상 시 변화되는 우리의 일상은? 3 file 2020.12.21 신재호 10501
실감형 콘텐츠로 방구석 문화생활 즐기기 2 file 2020.12.18 이소은 12356
UN, 중앙아시아와 아프간 지역 청년들의 목소리 전하다 file 2020.12.17 김태환 12394
전기자동차의 배터리와 미래 file 2020.12.16 전승호 11114
신기하고 특별한 외계 행성 1 file 2020.12.15 이채영 10311
입소문 탄 '경이로운 소문' 4회만에 OCN 역대 최고 시청률 2위 1 file 2020.12.11 홍재원 13136
무심코 쌓아둔 이메일이 지구온난화를 부른다? 3 file 2020.12.11 이채림 13484
하얗게 물들은 북런던 더비, 토트넘 승리의 핵심은? 2 file 2020.12.10 황동언 15591
당신은 '난민 수용'에 대해 어떻게 생각하십니까? 1 file 2020.12.10 김하은 11519
코로나19 극복을 위해 학교에선 어떤 노력을 할까? file 2020.12.09 양윤아 12095
일본인이 기억하는 시인 윤동주 2 file 2020.12.09 유승호 12962
인터넷만 있어도 뚝딱 만드는 카드뉴스, 너도 만들 수 있어! file 2020.12.09 송민서 16655
시민과의 소통이 절실한 지금, 고양시는? 1 file 2020.12.08 김한나 11295
조선일보 창간 100주년 특별전 예술을 담아내다. "한글의 새로운 해석" <ㄱ의 순간> 1 file 2020.12.04 이예찬 10991
대만 인기 퀴어 영화 <네 마음에 새겨진 이름>, 넷플릭스로 찾아온다 file 2020.12.04 김예슬 22005
베트남서 "한국어 제1외국어로 채택될 것" 1 file 2020.12.03 김유진 12912
전 세계를 위협하는 코로나19? 1 file 2020.12.03 박정은 10612
지하철 이용, 과연 코로나19로부터 안전할까? 1 file 2020.11.30 김시은 12767
논란 많은 선거인단 제도, 왜 바뀌지 않을까? 1 2020.11.30 이유진 14104
2020년 연말은 NCT 가 책임진다! 1 file 2020.11.30 홍지원 11744
11월 11일, 빼빼로 대신 묵념은 어떨까? 2 file 2020.11.30 신재호 10758
가깝지만 가까워질 수 없는 존재, 가공식품 1 file 2020.11.30 김나래 10693
후쿠시마 오염수 방류…일본인의 의견을 묻다 1 file 2020.11.30 오은빈 13155
역사에 관심 있는 중·고등학생들이여, 이곳으로 모여라! file 2020.11.30 황지우 11611
목록
Board Pagination Prev 1 ... 14 15 16 17 18 19 20 21 22 23 ... 97 Next
/ 97
new_side_09.png
new_side_10.png
new_side_11.png