본문 바로가기

[데도무문] 
1장. 완벽한 데이터는 없다

  • 입력 2017-08-17 10:26:38
  • 수정 2017-08-18 07:31:05
데도무문 : 데이터의 길엔 문이 없다
데이터 전문가 연작 인터뷰 1화

'맞춤법 검사기' 권혁철 부산대 교수
한 수 배우겠습니다


[편집자 주] '데이터로 돌아가는 세상(data-driven world)'이다. 모두 데이터를 이야기한다. 굴지의 글로벌 기업도, 정부도, 학교도, 병원도, 언론사도, 배달업체도, 스타트업(startup)도, 미래를 선점코자 하는 모든 진영이 데이터를 갈구한다.

바야흐로 '데도무문*'의 시대.
*데도무문: 대도무문(大道無門). 큰 길엔 문이 없다는 사자성어다. 송나라 선승인 무문 혜개(1183~1260)의 수행 이치를 담은 책 '무문관(無門關)'에 쓰여 있다. '데도무문(데이터+대도무문)'에서 문 없는 큰 길, 데이터 분야에 몸담은 사람을 인터뷰하며 수(手)를 배워본다.

그러나 여전히 '데이터'의 실체는 모호하다.

  1. 도대체 데이터란 무엇인가.
  2. 그 데이터로 어떤 황금알을 낳을 수 있기에 이리도 난리인가.
  3. 각 진영은 어떤 데이터를 수집하고, 분석하고 있는가.
  4. 데이터를 제대로 알고 있는 전문가는 누군가.
  5. 데이터 인력이 추구해야 할 가치는 무엇일까.

이 5가지 미스테리를 풀기 위해 문(門)이 없는 거대한 데이터의 길을 뉴스래빗이 걸어 가보고자 한다. 데이터 고수를 꿈꾸는 강종구 뉴스래빗 데이터 에디터(기자)가 직접 말이다 !.!

부산대학교 한국어 맞춤법·문법 검사기(이하 부산대 검사기)는 많은 사람이 이용하는 '생활 필수품' 중 하나다. 한국어 문장을 입력하면 맞춤법과 문법을 검사해 틀린 부분을 알려준다. 이용자만 하루 5만여 명. 처리하는 문서 수는 하루 20만여 건이다.

데도무문 1장에선 이 검사기를 만든 권혁철 부산대학교 전기컴퓨터공학부 교수를 만났다. 권 교수는 지난 1990년부터 부산대 검사기를 고도화하고 있다. 30년 가까이 데이터 분야에서 산전수전을 겪은 은둔 고수다. 그가 28년간 쌓은 '맞춤법·문법 수제 데이터' 20만여 건에 스민 내공을 조금이라도 배우고 싶어 부산까지 내려갔다. 그 일문일답을 공개한다.

1수(手). 맞춤법 검사기는 28년치 '데이터'

- 부산대 맞춤법 검사기는?

1990년 발표해 올해로 28주년을 맞았다. 하루 5만여 명이 접속하고 20만건 정도의 검색 문서를 처리한다.

- 하루 이용자가 그 정도 되면 인프라가 작지 않을텐데.

일반 PC 1대를 서버로 사용한다. 90년 당시부터 IBM PC XT 모델의 256KB(킬로바이트) RAM(주 기억 장치)에 한국어 사전 10만건을 모두 넣었다. 한국과학기술원(KAIST) 물리학 교수의 도움으로 저장 방식을 개선해 가능했다. 현재 부산대 검사기 소프트웨어 또한 50MB(메가바이트) 정도의 작은 용량을 차지한다.

- 한 소프트웨어를 27년씩이나 개발하는 이유가 있나.

이유는 두 가지다. 새로운 용어가 계속 나오기 때문이고, 정확도를 높이기 위해서다. 200자 문장이 있다고 치자. 문장 내 오류 중 90%는 1년 안에 잡게 할 수 있다. 나머지 10% 중 5%를 잡게 하는 덴 10년이 걸린다. 나머지 5%는 평생 해도 안 된다. 마지막 5%를 위해 검사기를 28년째 계속 고도화하고 있다. 틀린 부분을 최대한 찾아내 알려주는 게 검사기의 역할 아닌가. 100%는 불가능하지만 항상 100%를 추구해나가고 있다.

- 듣다보니 검사기의 핵심은 '데이터'다.

그렇다. 부산대 검사기의 약점을 굳이 꼽자면 띄어쓰기인데, 통계만 쓰면 우리도 띄어쓰기 잘 할 수 있다. 기술은 우리가 네이버보다 십몇 년 전에 먼저 개발해 놨다. 네이버는 쓰고 있는데 우리가 안 쓰는 이유는 서버 비용이 많이 들고 아래아한글 같은 소프트웨어에 붙이기도 힘들기 때문이다. 용어 사전 데이터 20만건이 있기 때문에 가벼운 소프트웨어로 정확도 높은 서비스를 제공할 수 있다.

2. 소프트웨어와 '철학'

- 부산대 검사기 내 '강한 규칙' 기능이 눈에 띈다.

강한 규칙을 적용하면 외래어나 어투까지 교정한다. 예를 들어 외래어인 '디렉터스 컷'같은 경우 '감독 편집판'으로 바꾼다. 어투도 교정한다. '~에 있어서'를 '~의'로, '~위해서'는 '~려고'로 고치는 식이다.

- 기계를 통해 더 빼어난 한글을 꿈꾸는 것인가.

그렇다. 사람들이 "언어는 시대에 따라 변하는 건데 왜 당신의 철학을 받아들여야 하냐"고 많이 묻는다. 언어학자인 아내도 "왜 언어를 화석화시키려 하냐"고 타박한다. 그래도 가능하다면 순우리말을 살려 쓰면 좋지 않겠나.

- 소프트웨어 만드는데 철학까지 필요한가.

필요하다. 옛날엔 마니아가 많았는데 자꾸 사라진다. 레디 메이드(ready made)에 사람들이 익숙해가는 게 아닌가 싶다. 동네 빵집, 철학 있는 음식점보다 표준화, 상품화한 프랜차이즈를 해야 돈 벌 수 있다는 요구가 생긴다. 조금만 유명해지면 프랜차이즈화되는 문화가 팽배하다.

지난해 부산대 검사기와 네이버·다음 검사기 간 있었던 논란도 마찬가지다. 구글은 'don't be evil(악해지지 말자)'는 철학을 내세우고 지키기 위해 노력한다. 네이버는 과연 그런 (생태계를 위한) 철학 가지려고 노력할까. 만약 있었다면 30여 년 유지해온 부산대 검사기를 두고 그런 식으로 접근하진 않았을 것이다. 소프트웨어를 만드는 기업이 최소한의 철학은 가지고 있어야 하지 않겠나.

3. 기계는 기계요, 인간은 인간이다

- '용어 사전'에 기계 학습을 적용해도 수작업이 필요한가.

언어는 지금도 수많은 요소에 의해 바뀌어가고 있다. 문재인 대통령을 예로 들자. 한 달 전엔 지지율이 90%대였는데 지금은 70%대다. 문 대통령에 대한 대중의 생각이 계속 바뀌어가고 있다는 뜻이다. 언어도 마찬가지다. 시시각각 변하는 걸 (기계 학습으로) 어떻게 헤쳐가나.

기계 학습(machine learning)이 작업 시간 단축에 도움이 될 순 있다. 많은 부분을 자동화할 수 있다. 이를테면 텍스트 안에서 (맥락에 맞지 않는 단어가) 계속 나타난다면 사람 이름일 가능성이 높다. 한 사람이 똑같은 철자 오류를 한 텍스트 안에서 100번 씩은 안 낸다. 이런 식으로 생각하면 맥락 상 맞지 않는 단어까지 찾아낼 수 있다.

- 맞춤법 검사기는 기계 학습 적용이 불가능한가.

아니다. 우리 연구실은 하고 있다. 우리는 구글 데이터를 썼다. 영어는 꽤 정확한데 한국어는 데이터가 모자라다. 틀리는 유형 자체도 너무 많다. 영어에 비해 의미 변화가 많아서 데이터 양도 너무 많다. (적용은 가능하지만) 아직 부족하다.

한국어와 외국어 간 페어(pair) 데이터 만드는 일이 굉장히 어렵다. 작년 쯤 일본 문학작품을 영어로 번역했더니 완벽했다고 세계적 이슈가 됐다. 보자마자 비웃었다. 무라카미 하루키와 같은 유명 작가 작품은 기계 학습 적용이 무의미하다. 기계가 학습한 내용에 이미 그 작품이 들어가 있을 가능성이 크기 때문이다. 언어 분야에서 기계 학습은 아직 갈 길이 멀다.

- '데도(데이터의 길)'를 걸어온 입장에서,
기계 학습 시대에도 인간의 역할은 유효할 것이라 생각하는가.


그렇다. 기계 학습엔 항상 한계가 있기 때문이다. 알파고는 인간을 넘어설 수 있다. 다만 주어진 데이터 안에서일 뿐. 처리 능력이 인간보다 뛰어나기 때문에 범위가 넓을 뿐이다. 인간에겐 그만큼 처리할 능력이 없을 뿐이다. 인간과 기계 사이엔 능력의 차이가 아니라 데이터 처리 능력의 차이가 있을 뿐이다. 기계가 알지 못하는 세상은 영원히 존재할 것이다.
상단의 '완벽한 데이터는 없다' 탭을 터치하세요.
나머지 기사를 보실 수 있습니다 !.!

  • 페이스북 보내기
  • 페이스북에 저장
ⓒ '성공을 부르는 습관' 한경닷컴, 무단 전재 및 재배포 금지
TOP