[이미지 제작=대한민국청소년기자단 3기 정현호기자, ⓒ대한민국청소년기자단]
요즘 ‘빅데이터’라는 말이 많이 사용된다. 빅데이터란 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고 생성 주기가 짧으며, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 데이터의 양이 폭증한 정보화 시대에 데이터의 종류가 다양해져 빅데이터를 통해 사람들의 행동과 위치 정보를 알 수 있고, SNS 등으로 생각이나 취향까지 분석이 가능하다.
빅데이터는 이미 우리 일상생활 속 많은 곳에서 활용되고 있다. 가장 대표적인 예는 구글이다. 구글은 데이터 양이 많으면 많을수록 얻을 수 있는 정보의 품질이 좋아진다는 것을 알고 이를 실천하고 있다. 구글은 제목과 내용이 검색어와 얼마나 밀접한 관계를 가지는지를 측정해 지수로 환산하는 검색 시스템을 가지고 있다. 또한 학생들이라면 한번쯤 이용해봤을 ‘구글 번역기’도 빅데이터의 산물이다. 구글은 이를 ‘통계적 기계 번역’이라 부르는데, 이는 컴퓨터에게 문법을 가르치지 않고 사람이 이미 번역한 문서에서 패턴을 조사해 번역 규칙을 기계가 스스로 발견하도록 하는 방식이다.
기업들은 빅데이터를 활용해 대박 상품을 기획하기도 한다. 편의점 히트 상품 가운데 하나였던 ‘김치찌개 맛 감자칩’은 빅데이터를 분석한 결과 편의점에서 김치찌개 맛 컵라면을 살 때 감자 스낵도 함께 결제된 경우가 많다는 점에서 착안하여 만들어졌다. 또한 항상 먹을 때마다 양이 부족해 아쉬웠던 요구르트는 빅데이터로 용량이 3배 늘어난 제품이 탄생했다. 편의점 계산대에서 소비자들의 구매 패턴을 보면 한 번에 3개 이상을 마시는 고객이 많았기 때문이다.
빅데이터는 기업들의 이익을 위해서 뿐만 아니라 공익적으로도 가능성이 무한하다. 보건복지부는 사각지대 아동 발견을 위해 빅데이터를 활용하여 학대 위험 가구 예측 및 발굴 시스템인 ‘e아동행복지원시스템’을 내년부터 본격적으로 가동할 예정이다. 복지부는 진료정보, 어린이집 출결 현황, 학부모 부채정보, 알코올 중독 정보 등을 담기 위한 자료를 검증 중이다. 또한 정부 합동 점검 결과 학대가 많이 발견된 학업 중단 위기 학생에 대해서는 누락없이 발견하기 위해 학적정보가 관리 및 연계될 수 있게 관련 시스템도 개선한다.
빅데이터로 지역별 건강상태도 확인할 수 있다. 보건복지부와 국민건강보험공단은 10월부터 국민들의 건강수준을 모니터링할 수 있는 ‘건강검진 및 의료이용지표’를 확대하여 제공한다. 전 국민의 건강보험 빅데이터를 분석해 제공하는 ‘건강검진 및 의료이용 지표’는 건강위험요인 보유율, 만성질환 의료이용률 등 55종의 지표로 구성됐다. ‘건강검진 및 의료이용 지표’는 각종 진료, 건강검진을 토대로 누적된 약 2조8,000억건의 건강보험 빅데이터 자료를 기반으로 산출된 지표로, 지역 뿐 아니라 소득, 성별, 연령대별로 특정 질환의 의료이용률을 직접 비교할 수 있는 유일한 지표다. 국민건강보험공단 신순애 빅이터운영실장은 “지역사회 보건의료계획의 수립과 평가에 유용하게 활용될 수 있는 자료로, 국민들의 건강증진에 기여할 수 있을 것”이라고 말했다.