4手. 컴퓨터 능력 경계 넘으면 모두 AI- AI가 맞춤법 검사기에 적용되는 날이 올까.언어 분야에선 AI(인공지능)가 이룬 게 거의 없다. 기계 번역이 조금 적용됐을 뿐이다. AI가 할 수 있는 건 아직 퀴즈 문제 푸는 정도다. 법령의 모순 같은 건 찾기 어렵다. 아직 문장 인식도 제대로 못 하는 수준이다. 구글 같은 곳도 아직 기초 단계에 있다.
- AI를 '유사인간' 말고도 자동화, 효율화 기술 정도로 생각할 수도 있겠다.컴퓨터 분야 학생들에게 "AI가 어떤 분야냐"고 자주 묻는다. 국내에선 AI라 하면 너무 '인간다운 지능'으로만 생각한다. 1956년 다트머스 컨퍼런스(dartmouth conference)에서 처음 이야기한 AI의 개념은 '사람은 해결하는데 컴퓨터는 못 해온 일을 할 수 있도록 만드는 기술'이다. 컴퓨터가 해결할 수 있어왔던 문제와 그렇지 않은 문제가 있다. 그 경계에서 연구하는 사람은 모두 인공지능 연구자라고 생각한다. 옛날엔 체스였던 게 지금은 알파고(바둑)까지 온 거다.
그런 의미에서 컴퓨터 분야의 관계형 데이터베이스(relational database), 객체 지향 프로그래밍(object-oriented programming)도 모두 AI의 개념에서 나온 것이라고 볼 수 있다. 컴퓨터가 못 하던 일을 가능하게 만든 개념들이다.
- AI도, 기계 학습도 데이터를 활용해 결과를 조금이라도 낫게 하려는 시도지 않나. 100%는 없다고 했지만 그럼에도 불구하고 최선의, 최적의 데이터는 있지 않을까.동의한다. 예를 들어 영어로 'is' 대신 'id'라고 오타를 냈다고 치자. 'id' 자체가 있는 단어이기 때문에 'he is'를 'he id'로 오타내면 지금은 잡지 못한다.
완벽한 데이터는 없다. 인간도 판단이 항상 완벽하진 않다. 브라운 코퍼스(brown corpus)라고 전 세계에서 가장 정확하다는 말뭉치가 있다. 1TB(테라바이트) 분량의 구글 데이터를 브라운 코퍼스로 확인했지만 'he id'를 찾지 못했다. 반면 우리 연구실은 그 데이터의 10% 내에서만 12개를 찾았다. 1TB에 달하는 구글 데이터에도 오류가 엄청 많다는 뜻이다.
- 대용량 데이터로 맞춤법 검사기를 만든다면 어떨까.1TB 구글 데이터를 활용해 마이크로소프트 워드보다 훨씬 좋은 영어 맞춤법 검사기를 일주일이면 만들 수도 있다. 다만 한계가 있다. 정제된 데이터가 아니기 때문에 덩치가 커진다. 또한 지금 부산대 검사기가 제공하는 '도움말' 같은 서비스도 불가능하다. 인간은 '이런 이유로 잘못됐구나'를 아는데 기계는 전혀 아닐 수 있기 때문이다.
- 기계가 정확도를 높여가더라도 인간만이 줄 수 있는 가치가 있다는 건가.그렇다. 굉장히 복잡하고 어려운 맞춤법은 기계가 현재 기술로 못 하는 부분도 있다. 맞춤법 교정을 위해 좌우 2개 단어 보는 수준이면 괜찮은데 더 많이 봐야 하는 경우도 있다. 이런 부분은 기계가 아직 하기 어렵지 않을까. 물론 그런 경우까지도 극복할지 모른다. 더 잘 만들 사람이 언제든 등장할 수 있다. 영원히 나와 같은 방식으로만 만들리라는 법은 없다.
5手. 장인정신, 영원하진 않을 것- 부산대 맞춤법 검사 기술은 얼마나 유효할까.최소한 내가 아는 방법이 앞으로 10년은 유효하리라 생각한다. 지금 기계 학습으로 맞춤법 검사기 만든다 해도 (부산대 검사기의) '도움말'은 못 나온다. 언젠간 나올 수도 있다. 하지만 사용자마다 틀리는 패턴이 전혀 다르고 시대에 따라 철자 틀리는 유형도 계속 달라진다.
- 어떤 분야에서든 인간의 수작업 같은 게 필요 없어질 수도 있는 걸까딥 뉴럴 네트워크(deep neural network) 등을 이용해 시스템을 잘 만드는 것도 장인정신 아닐까. 장인정신이란 걸 너무 과거에 얽맬 필요는 없다. 시대의 변화에 따라 변해야 한다. 나는 나대로의 신성함을 유지할 뿐이다. 다음 세대는 전혀 다른 세상에서 살게 될 것이다. 현재 40대인 교수들 아이디어도 20년 뒤 정년퇴임할 때쯤이면 다음 세대에겐 이미 고루할지도.
역사적으로 위대한 인물을 존경하는 이유는 그의 삶과 그 시대를 존경하는 것 아닌가. 그 역사가 메시지를 주는 것이지 꼭 그대로 해야만 하는 건 아니다. 나로서는 지난 20여년의 성과가 자랑스럽지만 영원히 존경받아야 한다고는 생각하지 않는다.
- 한 분야를 30년 가까이 해서 국내 최고의 결과를 낸 인물 치곤 겸손한 생각 아닐까.딥 뉴럴 네트워크만 해도 국내에서 잘 하시는 분들은 대부분 5~10년씩 하신 분들이다. 자기만의 노하우가 있다. (연구를) 한 번 시작했으면 10년은 책임지고 해야 한다고 본다. 뉴스래빗도 기사마다 데이터 뽑으며 수많은 노하우를 쌓았으리라 생각한다. 10년 쯤 지나고 나면 (데이터 저널리즘 기사를 만드는) 소프트웨어가 나올 수도 있다. 거기에도 분명 (뉴스래빗이) 미리 쌓아온 노하우가 스며있을 것이다.
- 수작업 경험으로 쌓은 데이터 노하우를 기계나 자본 등에 따라잡히는 날이 온다면.지금까지 해왔던 경험을 가지고 그 시절에 못 했던 새로운 걸 찾을 수 있지 않을까.
일주일 전으로만 돌아가도, 데이터 질은 분명 다를꺼다. 그러다 내년엔 또 다른 노하우가 생긴다. 이를 도와줄 소프트웨어도 점점 늘어날 것이다. 통계값을 구하더라도 이전 부정확성을 아는 만큼 더 정확히 만들 수 있다. 수작업 경험이 쌓일수록 데이터 분석 기술도 발전한다. 더 많은 데이터를 커버할 수 있게 되면 10년, 아니 20년도 가리라 믿는다.
#데도무문? 대도무문(大道無門). 큰 길엔 문이 없다는 사자성어다. 송나라 선승인 무문 혜개(1183~1260)의 수행 이치를 담은 책 '무문관(無門關)'에 쓰여 있다.
'데도무문(데이터+대도무문)'에서 문 없는 큰 길, 데이터 분야에 몸담은 사람을 인터뷰하며 수(手)를 배워본다.
책임= 김민성, 연구= 강종구 한경닷컴 기자
jonggu@hankyung.com뉴스래빗 페이스북 facebook.com/newslabit
기사제보 및 보도자료
newslab@hankyung.com