• 홈
  • 화살표
  • 국어 배우기
  • 화살표
  • 뭉치가 알려주는 국어 말뭉치
책 그림
  •  
    뭉치가 알려주는 국어 말뭉치
  • 언어의 장벽, 인공 지능이 넘을 수 있을까?

  • 플리토(Flitto) 대표 이정수
  •  
img1

 소설 “은하수를 여행하는 히치하이커를 위한 안내서”에 등장하는 모든 언어를 통역해 주는 ‘바벨 피시’. 영화 ‘스타트렉’의 외계어 통역기 ‘유니버설 트랜슬레이터’, 외계 생명체와 소통하려는 영화 ‘컨택트’까지…. 언어의 장벽(심지어 외계어까지)을 뛰어넘고자 하는 인류의 소망은 우리가 즐겨 보는 책과 영화에서도 꾸준히 마주치게 된다. 그만큼 언어 간 소통은 인류의 오랜 관심사로, 언어의 장벽을 넘기 위한 다양한 노력은 계속되어 왔다.

■ 기계 번역의 역사

 ‘기계 번역’이라고 하면 우리는 자연스럽게 구글 번역기와 같은 온라인상의 자동 번역기들을 떠올릴 것이다. 그러나 ‘기계 번역’이라는 용어는 생각보다 오래전인 1949년, 워렌 위버의 논문에서 처음 언급되었으며 이후 꾸준한 관심을 받아 왔다. 1950년대에 들어서면서 매사추세츠 공과대학(MIT), 워싱턴 대학, 미시간 대학 등 미국의 주요 대학과 러시아, 프랑스 등 여러 나라에서 관심을 두고 적극적으로 기계 번역 연구를 시작하게 되었다. 현재의 기계 번역은 다음과 같은 몇 가지 단계를 거쳐 발전해 온 결과이다.

규칙 기반 기계 번역(Rule-Based Machine Translation, RBMT)

 기계 번역이 처음 나타난 1950년부터 1980년대까지는 ‘규칙 기반 기계 번역’이 연구의 중심이 되었다. 이 방식에서는 사람이 미리 입력해 둔 규칙에 따라 번역이 이루어진다. 따라서 영어, 한국어, 중국어, 프랑스어 등 새로운 언어를 번역할 때마다 매번 다른 언어의 규칙을 컴퓨터에 입력해야 하는 큰 불편함이 있었다. 또, 이와 같은 방식은 개발 과정에서 언어학자들의 역할이 대단히 중요했기 때문에, 다국어 번역 시스템 개발에 드는 시간과 그들을 고용하는 비용이 많이 든다는 문제가 있었다.

말뭉치 기반 기계 번역(Corpus-based Machine Translation)

 기계 번역은 1990년 전후 등장한 말뭉치 기반 기계 번역으로 성능이 크게 발전하게 된다. 말뭉치 기반 기계 번역은 크게 예시 기반 기계 번역(Example-based Machine Translation)과 통계 기반 기계 번역(Statistical Machine Translation)으로 나누어진다.

 예시 기반 기계 번역은 원문과 번역문의 정보를 저장해 두고 추후 같은 문장의 번역 요청이 발생할 시 이미 저장되어있는 정보를 활용하는 방식이다. 이 방식 역시 언어 쌍과 각 언어 쌍에 해당하는 동의어, 반의어의 관계를 모두 입력해야 하는 문제점이 있었다.

 통계 기반 기계 번역의 특징은 번역문에서 원문에 대응될 ‘확률’이 큰 문장을 선택한다는 점이다. 이를 위해서는 ① 원문을 단어나 구절 단위로 분할하여 ② 각각의 단위를 번역하고 ③ 다시 문장으로 합치는 세 단계의 과정을 거치게 된다. 이때, ②번, ③번 단계에서 실제 사용되는 문장에서 어떤 단어가 더 자주 사용되는지, 가능한 조합 중 유사성이 가장 높은 문장은 무엇인지를 수치화하여 더 큰 확률의 선택지를 선택한다. 따라서 통계 기반 번역의 경우 충분한 데이터 축적이 우선시되어야 했다. 통계 기반 기계 번역의 대표적인 예시는 2006년 처음 등장한 구글 번역 서비스이다. 그러나 구글 번역기를 포함한 통계 기반 기계 번역은 두 언어의 어순이 다른 경우에는 문장 순서가 어색하게 배열되거나 문맥에 따라 같은 단어가 다른 의미로 번역되는 경우를 고려하지 못하는 등 분명한 한계가 있었다.

신경망 기계 번역(Neural Machine Translation, NMT)

 통계 기반 번역의 한계는 2000년대 이후, 딥러닝 기술이 도입되면서 많은 부분이 해결되었다. 실제로 구글 번역 서비스 역시 2016년부터 한국어, 영어, 중국어, 프랑스어, 스페인어, 일본어, 터키어 등 8개 언어에 신경망 기반 기계 번역 기술을 도입하여 번역 품질이 대폭 향상되었다. 딥러닝은 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술이다. 딥러닝 기술을 사용하는 신경망 기반 기계 번역은 기존의 통계 기반 기계 번역처럼 단어 하나하나를 번역하는 것이 아니라 원문 속의 단어와 어순, 문법 등을 인공 신경망으로 재구성하여 스스로 학습하고 번역한다. 즉, 통계 기반 기계 번역이 단어나 구문 단위로 쪼개어 번역 결과를 보여 주었다면 신경망 기계 번역은 문장 단위로 전체의 문맥을 파악하고 문장 내의 단어, 순서, 의미 등을 반영한다. 따라서 통계 기반 기계 번역에서 문제가 되었던 문장의 순서나 문맥이 자연스러운 번역 결과를 얻을 수 있다. 예를 들어 기존의 통계 기반 기계 번역의 경우, ‘배’라는 단어를 사람의 신체를 뜻하는 stomach인지, 과일을 뜻하는 pear인지, 선박을 뜻하는 ship인지 구별할 수 없었다. 그러나 신경망 기계 번역은 문맥을 고려하여 적절한 단어를 선택하기 때문에, 보다 정확한 번역이 가능하다. 그러나 인공 신경망 기반 기계 번역 역시 완벽하지 않으며 데이터를 학습시키기 위한 훈련 시간과 자원이 많이 소요된다는 점, 자주 쓰이지 않는 언어의 경우 데이터가 충분하지 않아 번역이 어렵다는 점을 여전히 문제로 가지고 있다.

img1

■ 말뭉치 구축의 방향성

 2020년부터 3차원 가상 세계를 뜻하는 메타버스가 꾸준히 언급되며 이목을 끌고 있다. 회사, 학교, 은행 등 다양한 기관에서 메타버스를 도입하고 있으며 10대, 20대를 중심으로 메타버스에서 여가 시간을 보내는 등 메타버스는 점차 우리 일상으로 깊숙이 들어오고 있다. 이처럼 메타버스가 점차 활성화되면서 말뭉치 구축의 요건과 방법에도 변화가 찾아온다. 메타버스는 ‘나’를 드러내고 전 세계 사용자와 ‘소통’하는 공간이다. 메타버스 내에서 사용자들은 나의 감정과 생각을 공유하고, 나의 성격이 드러나기를 바란다. 그런데 이렇게 나를 드러내기 위해서는 단순히 한 언어에서 다른 언어로의 기능적 번역뿐만 아니라 목소리, 말투와 같은 비언어적 요소들이 매우 중요하다. 따라서 특화 번역, 초개인화 번역 수요가 증가할 것이다.

 실제로 말뭉치 구축의 방향성 역시 특화, 초개인화로 서서히 변화하고 있다. 플리토의 사례를 살펴보면 2020년 전후로 판매되는 학습용 데이터의 차이를 뚜렷하게 볼 수 있다.

img1

  말뭉치의 판매 수량 자체도 7배 가량 증가했으나 더 중요한 것은 다언어 말뭉치, 분야별 특화 말뭉치, 분야별 도메인 특화 말뭉치, 말뭉치의 정보 및 종류가 더욱 세분되고 다양화되었다는 것이다. 이처럼 말뭉치라는 데이터가 점차 구체화되고 성별, 연령 등 개인 정보를 담게 되면서 데이터의 저작권이 중요한 문제로 떠오르게 되었다.

 따라서, 앞으로의 말뭉치 구축은 지금까지와 상당히 다른 방향으로 나아가게 될 것이다.

1. 자연스러운 언어로 구성된 말뭉치 구축 및 수집을 위해 누리 소통 매체(소셜 미디어), 웹 사이트 등 다양한 형태의 플랫폼과의 결합이 활발해질 것이다.
2. 인공 지능 번역기와 말뭉치 수집 및 학습 기능이 유기적으로 연동되어 즉각적인 데이터의 정제와 학습이 이루어질 것이다.
3. 데이터 수집을 전문으로 하는 기업들이 생겨날 것이다.

 언어 빅 데이터와 인공 지능 기술을 보유한 플리토는 말뭉치 수집 및 구축을 위한 노력에 앞장서고 있다. 플리토는 앱과 웹에서 플리토 라이트, 아케이드 등 다양한 언어 관련 서비스를 통해 사용자들의 동의하에 데이터를 수집하고 그에 대한 보상을 한다. 자체 인공 지능 엔진을 보유하고 있어 잘못된 번역 결괏값이 나타날 경우, 실시간으로 데이터를 수집 및 정제하여 학습시키고 있다. 또한 플리토 플랫폼을 에이피아이(API)*로 연동하면 고객사가 원하는 구체적인 데이터를 수집할 수 있다. 수집된 데이터로 하나의 말뭉치가 구축되면, 해당 말뭉치를 시작으로 다양한 데이터를 생산할 수 있게 된다.

* 에이피아이(API): Application Programming Interface의 약자로,
운영체제와 응용프로그램 사이의 통신에 사용되는 언어나 메시지 형식을 말한다.

 기계 번역은 이렇게 규칙 기반 기계 번역에서 말뭉치 기반 기계 번역을 거쳐 신경망 기계 번역까지 발전을 거듭해 왔다. 메타버스라는 새로운 플랫폼 공간이 구축되면서 시간과 공간의 제약을 뛰어넘은 소통이 더욱 활발해질 것으로 예상되며, 이에 따라 언어의 장벽을 넘고자 하는 인간의 열망 역시 더욱 커질 것이다. 결국, 양질의 다국어 빅 데이터와 고도화된 인공 지능 기술이 제약 없는 소통을 위한 자연스럽고 정확한 번역을 위한 중요한 열쇠가 될 것이다.