번역계의 알파고는 언제 나올까: 구글딥마인드와 구글번역

구글딥마인드의 알파고가 이세돌9단을 이긴 사건은 사실, 기술발전속도로 볼 때 충분히 예견할 수 있었던 일이었습니다. 그럼에도 그 역사적인 사건이 지금 – 아니, 벌써 – 일어났다는 것에 많은 분들이 놀라움을 금치 못하고 있는 듯합니다.

나날이 발전하는 인공지능기술은 이제 곧 인간의 많은 활동을 대체할 것입니다. 지난 25년 동안 시기별 기술발전속도를 정확하게 예측해낸 것으로 유명한 인공지능 과학자 레이 커즈와일에 따르면, 앞으로 다가올 미래는 정말 놀랍습니다.

(Ray Kirzweil은 현재 구글!에서 일하고 있습니다. 다시 말해 그의 구상은 구글에서 구체화된 제품으로 나온다는 뜻입니다.)

시기 기술예측
2020년
  • 나노봇을 혈관속에 투여하여 24시간 인간의 몸 속 변화를 감시하게 되면서 인간의 거의 모든 질병을 조기에 발견하고 예방할 수 있게 된다. (카메라, 녹음기, 체온계 등이 탑재된 적혈구 크기의 나노봇이 우리 몸속에 돌아다니면서 건강정보를 컴퓨터로 실시간 전송합니다.)
  • 튜링테스트를 통과하는 컴퓨터가 나오기 시작한다. (튜링테스트를 통과한다는 것은 곧, 내가 대화하는 상대가 인간인지 컴퓨터인지 분간할 수 없다는 뜻입니다. 튜링테스트를 통과한 컴퓨터는 스스로 생각할 수 있는 컴퓨터라고 할 수 있죠.)
  • 자동차는 거의 모두 자율주행을 하고, 고속도로는 자율주행차 이외에는 통행이 금지된다. (키트! 전격제트작전이 현실로)
2030년
  • 가상현실 구현기술이 발전하여 실제현실과 구분할 수 없게 된다. (이제 여행갈 필요가 없어요.)
  • 우리의 마음/의식을 컴퓨터에 업로드하여 백업한다. (내 마음이 구글드라이브에 저장되어 있어요.ㅠ)
2040년
  • AI가 인간의 지능의 10억배 이상 성능을 발휘한다. (10억 인구가 머리를 모아도 컴퓨터 한 대를 이기지 못한다.ㅠ)
  • 분자단위의 물질을 만들어낼 수 있게 되면서 어떤 물질이든 마음대로 만들어낼 수 있다. 허공에서 음식도 만들어낼 수도 있다. (미래의 3D프린터!)
2045년
  • 인간의 뇌(신피질)와 클라우드 컴퓨터를 무선으로 연결할 수 있게 되고 이로써 인간의 지능은 10억배로 발전한다. (이제 나도 IQ 1000억! 참고로, 레이 커즈와일을 기술낙관론자라고 하는 이유가 바로 이러한 예측에 있습니다. 기술의 발달은 인류를 파괴하기보다는 인류의 급속한 진화를 보완하는 기능을 할 것이라고 낙관합니다. 구글만세!)

출처: http://singularityhub.com/2015/01/26/ray-kurzweils-mind-boggling-predictions-for-the-next-25-years/

인공지능의 발전은 번역에도 상당한 영향을 미칠 것입니다. 물론 바둑에 비해 글을 읽고 쓰는 일에는 경우의 수가 훨씬 더 많이 존재하기 때문에 가까운 미래에는 – 그래봤자 10-20년 정도겠지만 – 인공지능이 번역을 대체하지는 못할 것입니다.

그럼에도 구글의 핵심적인 인공지능 제품이라 할 수 있는 ‘구글번역’은 오늘도 어마어마한 양의 언어데이터를 학습하고 있습니다. 어쨌든 구글번역은 머지 않아 인간번역가 수준의 변역결과물을 내놓을 것이 분명합니다. 그 시점이 언제일지 모를 뿐이지요. (물론 커즈와일의 예측에 따르면 그리 멀지 않은 느낌입니다.)

물론 많은 번역가들이 불안을 느낄 수도 있겠지만, 제 생각에 컴퓨터가 인간번역가를 대체하기 이전에 무수한 전문직들이 먼저 실직을 할 것이 분명하기 때문에 – 예컨대 운전기사, 의사, 애널리스트, 법조인 등 – 그리 걱정할 필요는 없다고… 조금이나마 위안을 합니다.

아래 글은 레이 커즈와일이 2012년 작성한 구글번역의 인공지능에 대해 설명하는 글입니다. 물론 현재의 구글번역의 성능은 아래 글의 내용보다 훨씬 향상되었을 것입니다. 참고로, 여기 적용된 기계학습의 원리는 이세돌을 무찌른 딥마인드의 작동원리와 크게 다르지 않을 것입니다.(출처는… 곧 번역되어 나올 책의 일부입니다.)

구글번역Google Translate은 50여 가지 언어를 자유자재로 번역해해준다. 50개의 언어 사이에 발생할 수 있는 번역방향은 2,500(=50X50)개다.

물론 구글번역은 몇몇 언어쌍을 뺀 나머지 언어쌍은 영어를 매개로 중역을 한다. 다시 말해 L1에서 L2로 직접 번역하는 것이 아니라 L1을 영어로 번역한 다음 영어를 L2로 번역한다. 그래서 구글번역이 구사하는 번역방향은 98개까지 줄어든다.

놀라운 사실은 구글번역이 문법규칙을 활용하지 않는다는 것이다. 두 언어 사이의 번역된 문서를 축적해놓은 거대한 ‘로제타스톤’ 코퍼스에 담겨 있는 광대한 데이터베이스를 학습하여 전반적인 번역언어쌍에 적용할 수 있는 패턴을 만들어낸다.

구글번역의 기본 데이터베이스가 되는 자료는 UN이 생산해내는 공식문서다. UN에서는 6가지 언어 – 영어, 스페인어, 프랑스어, 중국어, 아랍어, 러시아어 – 를 공식 언어로 사용하는데, 그에 따라 모든 공식문서는 6가지 언어로 만들어진다. 그래서 구글번역은 이 6가지 언어는 직접 번역을 하며, 이 6가지 언어끼리 번역할 때 가장 뛰어난 결과물을 만들어낸다.

의미있는 데이터베이스를 축적하지 못한 소수언어의 경우에는 관련된 주요언어로 먼저 번역을 하고 이를 다시 영어로 번역한 다음, 이를 다시 중역한다. 예컨대, 벨라루시어를 우르드어로 번역할 때는 다음과 같은 과정을 거쳐 번역이 이루어진다.

벨라루시어 >>> 러시아어 >>> 영어 >>> 힌디어 >>> 우르드어

구글번역의 성능은 매우 놀랍다. 미국 국방성의 방위고등연구계획국(DARPA)은 매년 다양한 언어쌍에 대한 최고의 자동번역시스템 콘테스트를 개최하는데, 몇몇 언어쌍 번역에서 구글번역은 거의 압도적으로 우승한다. 인간언어학자들이 참여하여 문법규칙을 직접 코딩한 시스템에 비해 월등히 뛰어난 성능을 발휘한다.

사람이 문법을 직접 코딩한 번역시스템은 처음에는 뛰어난 성능을 보여주지만 자동학습 측면에서는 구글번역을 따라가지 못한다. 구글번역은 한 언어에서 다른 언어로 번역된 단어의 ‘평평한 (의미 없는) 나열’을 비교하는 것에서 출발했다. 하지만 어마어마한 데이터를 학습하는 과정에서 언어의 본래적인 계층적 속성(grammatical structure)을 스스로 학습해냈다. (인간과 마찬가지로 기계도 학습을 진행할수록 가속도가 붙는다.)

어쨌든 짧은 구문의 경우에는, 인간언어학자가 직접 코딩한 번역기가 훨씬 정확한 번역결과를 만들어내는 경우가 많다. 예컨대 자주 사용되는 짧은 구문의 경우, 규칙에 기반한 [중국어-영어] 번역기가 구글번역보다 더 나은 결과를 보여준다고 DARPA는 평가했다. 하지만 자주 사용되지 않는 구문(이것을 ‘언어의 꼬리the tail of a language’라고 부른다)의 경우, 규칙에 기반한 번역기는 수용하기 어려울 만큼 형편없는 결과를 보여줬다.

자연어를 이해하는 능력에서도, 규칙기반시스템은 통계기반시스템(구글번역)에 비해 처음에는 월등한 성능을 보이지만 머지 않아 정확도는 70퍼센트 수준으로 떨어진다. 이에 비해 통계기반 시스템은 처음에는 낮은 성능을 보이지만 머지 않아 정확도가 90퍼센트까지 치솟는다.

하지만 그리 두려워할 필요는 없습니다. 예컨대 같은 원문을 놓고서도 번역하는 사람에 따라 다른 번역이 나올 수 있다는 것을 생각하면, 인공지능이 실제로 사람이 번역할 수 있는 수준의 결과물을 내놓는다고 하더라도 인간번역가의 손길이 필요한 분야는 여전히 존재할 수밖에 없습니다. 가장 대표적인 분야가 바로 문학이죠.

기계번역을 인간이 활용하는 방법에 대해서는 다음 포스팅에서 다루겠습니다.

기계번역의 핵심데이터: 코퍼스를 활용하자

By |2017-03-14T01:34:37+00:002016년 3월 11일|Categories: 갈등하는 번역|Tags: , , , , |2 Comments

About the Author:

번역가. 영국 버밍엄대학 대학원에서 번역학을 공부했다. 2003년부터 출판기획, 편집, 저술 등 활동을 하면서 40여 권의 책을 번역하였다. 출판번역가를 양성하기 위한 번역강좌를 하고 있으며, 기능주의 번역이론을 바탕으로 번역훈련방법을 설명하는 [갈등하는 번역]을 썼다.

2 Comments

  1. 한승훈 2016년 3월 30일 at 6:35 오후 - Reply

    grammatical structure가 계층적 속성으로 번역된 까닭이 궁금합니다. 보통은 문법 구조라고 읽히지 않나요? 특별한 문맥이 존재하는지.

    • 윤영삼 2016년 4월 1일 at 11:22 오전 - Reply

      syntax tree
      이 그림을 보면 평평한 단어의 나열에서 계층적 단위를 발견해내는 과정을 볼 수 있습니다. 계층적 인식이 곧 문법구조지요.

Leave A Comment