어색한 번역은 그만! AI 탑재한 신경망 번역 시대 열리다(1)
상태바
어색한 번역은 그만! AI 탑재한 신경망 번역 시대 열리다(1)
  • 이나리 기자
  • 승인 2017.04.25 15:45
  • 댓글 0
이 기사를 공유합니다

인공신경망 번역, 어떻게 자연스러운 언어를 구사할까?

[CCTV뉴스=이나리 기자] 2007년 구글이 웹 기반 자동번역기를 무료로 공개했을 때, 사람들은 클릭 한번으로 여러 문장들이 순식간에 번역되는 기능을 보고 놀라움을 금치 못했었다. 하지만 예전의 번역기는 동음이의어와 다의어를 구별 못하거나 어순과 표현이 많이 어색해 마치 외래어처럼 번역되는 경우가 많았다. 이처럼 번역기는 번역 결과가 만족스럽지 않았음에도 불구하고 모든 문장을 사람이 직접 번역하는 것보다 시간을 절약할 수 있었기 때문에 지금까지 유용하게 사용돼 왔다.

그러나 최근 번역기는 딥러닝과 신경망 기술이 적용된 신경망 기계번역(GNMT, Google’s Neural Machine Translation)으로 발전되면서 변역 결과물이 눈에 띄게 향상됐다. 예전보다 번역의 오류 가능성이 대폭 감소하고, 보다 자연스러운 번역이 가능해졌다.

더 나아가 번역 기술은 텍스트 뿐 아니라 음성 번역, 이미지 번역까지 가능해지면서 음성인식 기술도 함께 급부상하고 있다. 향후 통번역 서비스는 스마트폰, 스마트워치, HMD, 가정용 음성로봇 서비스 등 다양한 디바이스에 접목돼 국제회의, 여행, 교육 등 다양한 산업에서 활용될 것으로 기대된다. 신경망 번역 기술을 지원하기 위해서는 데이터베이스의 확보와 인공지능을 지원하는 알고리즘과 플랫폼 개발 등이 뒷받침돼야 한다.

기계 번역 시장과 국내‧외 기업별 번역기술 현황, 번역기술로 인해 파생되는 산업 전망에 대해 1, 2, 3회에 걸쳐 알아보겠다.

◇ 인공신경망 번역, 어떻게 자연스러운 언어를 구사할까?

자동 통번역 시장은 아직 형성 초기단계라고 볼 수 있다. 시장조사기관 원터그린리서치에 따르면 자동 통번역과 관련된 세계시장은 2019년까지 69억 달러(약 8조 원) 규모로 성장할 것으로 전망된다. 그 중 기계번역(Machine Translation) 시장은 2022년 9억 8320만 달러 규모로 성장하고, 음성인식 관련 시장은 연간 16.2% 성장해서 2017년 1130억 달러 규모에 달할 것으로 예상된다.

그 중에서 전 세계적으로 가장 많이 사용되는 구글 번역기는 현재 전세계 103개 언어로 번역되고 있으며, 전세계 온라인 사용자 중 90% 이상의 점유율을 차지하고 있다. 구글 번역기는 매일 5억 명 이상이 1000억 회의 서비스를 이용하고 있고, 가장 많이 사용되는 언어 조합은 영어-스페인어, 영어-아랍어, 영어-러시아어, 영어-포르투갈어라고 한다.

이는 전세계 공통어인 영어를 기준으로 언어를 사용하는 인구수가 많을수록 번역기를 사용하는 비율이 높다는 것을 알 수 있다. 이에 따라 가장 많이 사용되는 언어인 영어 기반은 그동안 확보된 음성과 텍스트 DB가 다른 언어에 비해 많아 70~80%의 정확성을 기록하고 있다. 반면, 한국어를 비롯해 베트남, 태국어 등 한 국가에서만 사용되는 언어들은 이용률이 낮고 데이터 확보가 쉽지 않아 품질 향상에 어려움을 겪고 있는 실정이다.

자동번역 또는 기계번역이라고 불리는 기술은 크게 규칙기반(RBMT, Rule-Based Machine Translation)과 통계기반(SMT, Statistical Machine Translation), 이를 합한 하이브리드(RBMT+SMT) 기반으로 구분된다.

규칙기반(RBMT)은 어법을 규칙화해서 번역하는 방법으로 기존에 많이 사용된 소프트웨어 방법이다. 문법에 기반을 두고 번역하기 때문에 정확성이 높고 분야별 전문성을 갖고 있다는 장점이 있지만, 문법 규칙이 아닐 경우에는 번역 오류가 상당히 높다. 또 개발이 어렵다는 것이 단점이다. 통계기반(SMT)은 방대한양의 대역코퍼스(Bilingual corpus)를 바탕으로 통계적으로 규칙을 모델링해 번역하는 방법이다. 단어와 구(Phrase) 형식으로 각각 나눠 번역해 조합하는 방식이며, 문장이 매끄럽지 않거나 올바르게 번역되지 않는다는 것이 단점이다.

통계기반은 딥러닝과 빅데이터를 활용하기 때문에 언어 데이터베이스 확보가 중요하고, 예문이 많을 경우 비교적 개발에 용이하다. 이런 이유로 앞에 언급했듯이 많은 DB를 확보한 영어는 다른 언어에 비해 보다 정확한 번역결과를 제공하는 것이다.

전체 기사를 보시려면 로그인 필요

로그인 또는 회원가입을 해주세요. (회원만 열람가능)

로그인 회원가입


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.