본문 바로가기

[데도무문]
2장. 데이터는 말이 없다

  • 입력 2017-09-18 14:42:05
  • 수정 2017-09-18 15:27:49
데도무문 : 데이터의 길엔 문이 없다
데이터 전문가 연작 인터뷰 2화
황성연 닐슨코리아 미디어조사부문 부장
한 수 배우겠습니다

1手. 일상이 된 데이터
2手. 데이터는 말이 없다
3手. 써먹을 생각 말고, 준비부터
4手. AI-4차 혁명 논하기 전에


[편집자 주] '데이터로 돌아가는 세상(data-driven world)'이다. 모두 데이터를 이야기한다. 굴지의 글로벌 기업도, 정부도, 학교도, 병원도, 언론사도, 배달업체도, 스타트업(startup)도, 미래를 선점코자 하는 모든 진영이 데이터를 갈구한다.

바야흐로 '데도무문*'의 시대.
*데도무문: 대도무문(大道無門). 큰 길엔 문이 없다는 사자성어다. 송나라 선승인 무문 혜개(1183~1260)의 수행 이치를 담은 책 '무문관(無門關)'에 쓰여 있다. '데도무문(데이터+대도무문)'에서 문 없는 큰 길, 데이터 분야에 몸담은 사람을 인터뷰하며 수(手)를 배워본다.

그러나 여전히 '데이터'의 실체는 모호하다.
  1. 도대체 데이터란 무엇인가.
  2. 그 데이터로 어떤 황금알을 낳을 수 있기에 이리도 난리인가.
  3. 각 진영은 어떤 데이터를 수집하고, 분석하고 있는가.
  4. 데이터를 제대로 알고 있는 전문가는 누군가.
  5. 데이터 인력이 추구해야 할 가치는 무엇일까.

이 5가지 미스테리를 풀기 위해 문(門)이 없는 거대한 데이터의 길을 뉴스래빗이 걸어 가보고자 한다. 데이터 고수를 꿈꾸는 강종구 뉴스래빗 데이터 에디터(기자)가 직접 말이다 !.!

데도무문 2장에서 만날 고수는 황성연 닐슨코리아(이하 닐슨) 미디어조사부문 부장이다. 닐슨코리아는 약 100년 전통을 자랑하는 글로벌 상품 마케팅 및 컨설팅, 미디어 분석 전문기업인 닐슨(Nielsen)의 한국 지사다.

황 부장은 2010년부터 KBS, MBC, SBS, JTBC, YTN 등 국내 지상파 및 보도전문채널 시청률 분석을 주도해왔다. 미디어 사용자 및 트렌트 분석, 컨설팅으로 국내에서 잔뼈가 굵었다. 전통 데이터 분석 기업인 닐슨에서 미디어 현상을 데이터로 관찰·해석하고 있다. 언론학 박사이기도 한 그는 이미 국내 미디어 업계에선 데이터 분석으론 그 내공이 익히 알려진 '자타공인 고수'다. 특히 단순 트렌드을 분석하기보다, 데이터의 본질을 들여다보려는 전문가로 손꼽힌다.
데도무문 2장, 황 부장이 쏟아낸 인사이트를 데이터를 갈구하는 독자들께 가감없이 전달한다. 아래는 황 부장과 강종구 기자의 일문일답 !.!

1수(手). 일상이 된 데이터

- 닐슨 하면 여론조사, 시청률 등이 떠오르는데.

"닐슨은 다양한 데이터를 다룬다. TV 시청률 외에 PC, 모바일 이용 행태도 수집한다. 대형 마트를 비롯한 수많은 매장의 판매정보시스템(POS) 데이터로 소비 행태를 분석하기도 한다."

- 올해 조기 대선을 겪으면서 데이터를 보는 대중의 눈이 깐깐해졌음을 느꼈다.

"일상에서 자연스럽게 데이터를 접할 수 있는 시대다. 사회연결망서비스(SNS) 좋아요·댓글·공유 수 등 일상이 수치로 다가온 지 오래다. 데이터의 일상성이 높아졌다. 내 주변 데이터를 알면 나에게 큰 도움이 된다는 걸 알기 시작했다. 알기 쉽게 가공한 데이터와 이를 쉽게 쓸 수 있는 애플리케이션이 나타나면서 데이터에 관심이 높아진 것 같다.

변한 점도 있다. (대중의 데이터 이해도가 낮았던) 예전엔 데이터를 가진 자가 자기 마음대로 해석을 해도, 검증하기가 쉽지 않았다. 지금은 안 된다. 누구든지 다 알고 얘기할 수 있는 만큼 정확한 데이터를 제시해야 하는 사회가 됐다."



2手. 데이터는 말이 없다

- 정확히 가공한 수치엔 익숙하지만 방대한 데이터를 개괄적으로 이해하기엔 여전히 부담을 느끼는 이가 많다.

"인간은 데이터에서 인과 관계를 찾으려 한다. 결과가 아니라 원인을 궁금해한다. 원인을 이해해야 가설이 성립하고, 증명이 가능해지기 때문이다. 요즘 데이터는 (확정 통계치와 다르게) 방대한 원본 데이터(raw data)다. 원인을 찾기 전 데이터에서 보이는 현상에 대한 설명(description)이 필요하다.

그런데 한꺼번에 하려 한다. 현상을 있는 그대로 받아들이자니 뭔지 모를 밋밋함을 느껴서다. 분석은 데이터를 가공해 표현할 수 있도록 처리하는 게 아니라, 원인을 파악해 다른 변수가 어떤 영향을 미쳤는지 확인하는 과정이다.

여기서부터 상상력이 필요하다. 그러니까 어렵게 느끼는 것이다. 제일 중요한 건 '데이터는 말을 하지 않는다'는 사실이다. 데이터를 볼 땐 트렌드를 봐야 한다. 트렌드를 보면 설명이 된다."

- 원본 데이터를 섣불리 해석하기엔 위험하다. 어떻게 극복해야 할지.

"극복보단 연습이 필요하다고 본다. 데이터에서 인과 관계를 찾으려 들면 (경우의 수가) 너무 다양하다. 기존 통계학에서 인과 관계를 도출할 땐 극히 제한된 조건을 전제로 한다. 수많은 변수 중 내가 정한 것만 본다. 심지어 그렇게 만든 결과를 통계적 공간 안에서 맞냐 틀리냐를 따진다.

통계학자 분들에겐 죄송하지만 (웃음), 통계적 공간에서만 유효한 방식으로 오래 먹고 살았다. (아무리 좋게 봐도) 최소 200년 이상이다. 그러다 갑자기 그 방법론들 없이 설명해야 하는 전체 데이터들이 주목받고 있다. 통계적 공간에 정의한 독립 변수가 다 날아간다. 이 지점에서 문제가 생기기 시작한다."

- 어떤 연습을 뜻하나.

"이종(異種) 데이터가 필요하다. 단일 데이터와 붙여볼 다른 데이터를 찾아야 한다. 단일 데이터만을 가지고는 설명은 가능하나 원인 규명이 안 된다.

뉴스래빗의 서울 지하철 부정승차 기사를 예로 들자. 발생 시간대, 부정승차자 연령대, 발생 역명 등 다른 데이터가 붙으면 얘기가 달라질 수 있다. 날씨나 유동인구 현황도 함께 보면 참 좋을 것이다."

- 이종 데이터를 찾는 일이 항상 쉽지만은 않다. 뉴스래빗은 그 간극을 취재로 메우고 있다. 다만 데이터 자체에서 도출된 사실로 보도해보고 싶은 욕심은 항상 있다.

"퓰리처 상을 받은 한 데이터저널리즘 기사는 데이터를 취재의 보조 수단으로 사용했다. 미국에서 스쿨버스 운전을 하다 사고가 났다. 그런데 알고 보니 이미 범죄 이력이 있는 자였다. 알코올 중독 증세도 있었다. 전국에 있는 버스 기사 중 알코올 중독인 사람인지 얼마인지 찾는 일을 했더라. 뉴스의 확증을 찾아내는 용도로 데이터를 활용한 것이다.

방대한 원본 데이터에 원하는 독립 변수가 없다면, 독립 변수를 만들어 놓고 들어가면 된다. 독립 변수를 만들기 위해 필요한 이종 데이터를 수집하고 조합하면 된다."
상단의 '준비가 필요한 때' 탭을 터치하세요.
나머지 기사를 보실 수 있습니다 !.!


  • 페이스북 보내기
  • 페이스북에 저장
ⓒ '성공을 부르는 습관' 한경닷컴, 무단 전재 및 재배포 금지
TOP