기계번역의 핵심데이터: 코퍼스를 활용하자

This article is published on

This article belongs to the category

,

To read this article you need time

4분

This article received readers’ responses

0

This article consists of keywords

갈등하는 번역 온라인레슨 10

이 레슨은 [갈등하는 번역 3. 궁합이 맞는 어휘들: 한국어의 맛을 내는 콜로케이션]에서 다루는 내용을 설명합니다.

지난 주 구글번역에 대한 글을 올렸는데, 많은 분들이 구글번역으로 인해 번역가라는 직업 자체가 사라지지 않을까 하는 두려움을느끼셨을 것으로 여겨집니다.

하지만 그리 두려워할 필요는 없습니다. 예컨대 같은 원문을 놓고서도 번역하는 사람에 따라 다른 번역이 나올 수 있다는 것을 생각하면, 인공지능이 실제로 사람이 번역할 수 있는 수준의 결과물을 내놓는다고 하더라도 인간번역가의 손길이 필요한 분야는 여전히 존재할 수밖에 없습니다. 가장 대표적인 분야가 바로 문학이죠.

사실, 기계번역이 급속하게 발전할 경우 기계번역은 우선 법률문서, 매뉴얼, 기술실용서 같이 논리적이고 체계적으로 작성된 글에서 먼저 뛰어난 성능을 보일 것입니다. 하지만 여전히 논리라는 잣대로 평가하기 어려운 문헌들 – 인간의 감정과 느낌을 전달하는 것이 주된 목적인 글들 – 은 아마도 영원히 기계번역이 범접하기 어렵겠죠. 아니, 기계번역이 이런 글까지 번역할 수 있는 수준으로 발전한다고 해도 여전히 인간번역가는 기계번역과 경쟁할 수 있을 것입니다.

실제로 오늘날 ‘기술번역’이라고 불리는 번역분야는 이미 기계번역이 상당한 역할을 수행하고 있습니다. 예컨대 EU는 모든 공식문서를 소속된 국가의 모든 언어로 번역을 하여 발간합니다. 이러한 작업을 하기 위해서는 엄청난 번역인력이 필요한데, 이 작업이 자연스럽게 수행되는 것은 상당부분 기계번역에 의존하기 때문입니다. EU 역시 앞서 소개한 구글번역과 동일한 인공지능학습방식을 활용할 것입니다.

기계번역을 활용하여 번역하는 과정을 살펴보면, 먼저 번역가들은 먼저 번역해야 할 문장들(L1)을 기계번역이 쉽게 인식할 수 있는 형태(easy language)로 수정합니다. 이렇게 수정된 글을 기계번역에 넣으면 번역문(L2)가 만들어져 나옵니다. 그러면 번역가들은 번역문이 정확한지 확인하고 다시 수정하는 작업(post-editing)을 통해 최종결과물을 만들어냅니다.

물론 이렇게 작업하는 것은 기계번역이 아직 완벽한 수준에 이르지 못했기 때문입니다. 아마도 기계번역이 더 높은 수준의 번역기술을 습득한다면 인간의 사전작업/사후작업이 아예 필요없게 될 수도 있겠죠.

다소 거추장스러워 보임에도 이처럼 기계번역을 활용하는 이유는 무엇일까요? 바로, 용어나 문체의 일관성을 유지하는 일은 인간이 기계를 따라잡을 수 없기 때문입니다. 인간은 하다못해 하나의 문서 안에서도 용어의 일관성을 맞추지 못하는 경우가 다반사지만, 컴퓨터는 엄청난 양의 문서를 쏟아부어도 그 일관성을 유지해냅니다. 기계의 도움을 받지 않는다면, 결코 불가능한 일이겠지요.

기계번역이 번역결과물을 산출할 수 있는 힘은 바로 ‘코퍼스’에서 나옵니다. 코퍼스corpus는 흔히 ‘말뭉치’라고 번역하기도 하는데, 실제 사람들이 발화된 말이나 발간된 글을 모아놓은 방대한 데이터베이스입니다. 특히 번역을 목적으로 사용하는 코퍼스는 병렬코퍼스parallel corpus라고 합니다.

병렬코퍼스 화면 예

구글번역을 비롯한 통계기반 번역프로그램은 이 코퍼스를 활용하여 스스로 학습합니다. 따라서 코퍼스의 양이 많아질수록 번역의 질은 올라갑니다.

물론 코퍼스는 기계에만 도움을 주는 것이 아닙니다. 코퍼스는 실제로 인간의 언어학습에 상당한 도움을 주고 있습니다. 예컨대 다른 사전들에 비해 뒤늦게 등장하여 영어사전 시장을 거의 장악해버린 ‘코빌드사전’이 바로 버밍엄대학의 Bank of English라는 코퍼스를 기반으로 만든 사전입니다(COBUILD는 COllins Birmingham University International Language Database의 머릿글자입니다.)

이 사전이 단시간에 많은 사랑을 받은 것은 영어를 배우려는 사람들에게 이 사전만큼 유용한 정보를 제공한 사전이 없었기 때문이죠. 이 사전은 다른 사전에 나오지 않는 단어별 활용빈도가 정교하게 매겨져 있으며, 뜻풀이 또한 실제로 사람들이 가장 많이 사용하는 것부터 차례대로 나옵니다. 무엇보다도 각각의 단어를 다른 단어와 어떻게 조합하여 쓰는지(콜로케이션) 보여주는 것은 이전 사전들이 도저히 따라할 수 없는 놀라운 내용이었습니다.

번역가도 역시 초보적이긴 하지만 코퍼스의 도움을 받을 수 있습니다. 물론 일반인이 사용할 수 있는 코퍼스는 많지 않지만, 그래도 몇몇 사이트에서는 이러한 데이터를 온라인을 통해 공개하고 있습니다.

실제로 학생이 제출한 번역문에서 발췌한 문장입니다.

만약 최대수준에서 요구를 했다면 언제든 줄여서 타협해볼 수 있다.

이 문장에서 콜로케이션을 위반하는 표현이 눈에 들어오나요?

네, 그렇습니다. ‘줄이다’라는 표현이 거슬린다는 것을 알 수 있습니다. 한국어에서 ‘요구를 줄이다’라는 표현은 거의 발생하지 않는 어휘조합입니다. 이러한 번역선택들이 하나둘 연속되면서 번역문은 점점 낯설게 느껴지고, 웬지 모르게 이해하기 힘든 글이 되고 맙니다.

처음 번역을 할 때는 이런 것들이 잘 눈에 들어오지 않습니다. 하지만 의식적으로 이런 것들을 찾아내 좀더 자연스러운 한국어의 콜로케이션을 떠올려내야 합니다. 이런 작업이 처음에는 쉽지 않은데, 그럴 때 도움을 받을 수 있는 것이 바로 ‘코퍼스’입니다. 코퍼스는 실제 사람들이 작성한 글에서 어떠한 어휘조합이 몇 퍼센트 발생하는지 정확하게 보여주기 때문에, 막연하게 직관에 의존해 판단하는 것보다 훨씬 생산적인 결과를 제공하기도 합니다.

공개된 한국어 코퍼스 중에서 대표적인 것으로는 카이스트에서 공개하는 KCP가 있습니다. (KCP는 ‘병렬코퍼스’가 아닌 ‘단일어 코퍼스’입니다.)

  1. 맨 위 링크 (KCP: 한국어 용례 색인 : 어절 단위 색인) 클릭
  2. 용례검색의 검색단어란에 “요구”를 입력하고 엔터를 치세요.
  3. 검색결과 화면에서 “요구” 앞 뒤에 어떤 단어가 많이 나오는지 확인합니다.

위 화면을 보면 실제로 사용되는 어휘조합을 확인할 수 있습니다. 이 목록에서 “요구를 줄이다”라는 어휘조합이 얼마나 사용되는지 알 수 있습니다. (‘Ctrl+F’.키를 이용해 ‘줄이’를 검색해보면 더 빠르게 확인할 수 있겠죠.)

물론 코퍼스는 바람직한 언어규범을 보여주는 것이 아니라 실제 언중言衆들이 사용하는 용례를 모아놓은 것이기 때문에, 제대로 활용하기 위해서는 이러한 용례결과를 검토하고 평가할 수 있는 언어적 안목이 필요합니다.

이 글에 대한 당신의 생각을 남겨주세요

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

워드프레스닷컴에서 웹사이트 또는 블로그 만들기

%d 블로거가 이것을 좋아합니다: