"인터넷에 있는 콘텐츠 중 영어는 50%, 전 세계 인구중 기본적인 영어 소통을 할 수 있는 인구는 20%에 불과하다."
구글은 언어장벽을 넘어 누구나 인터넷에 쉽고 편리하게 접근해 정보를 자유롭게 이용할 수 있고, 서로가 가진 추억을 담고 쉽게 공유할 수 있는 환경을 구축하려 한다고 밝혔다.
구글코리아는 29일 서울 강남구 역삼동 본사에서 'AI 혁신의 시대: 구글 포토와 구글 번역'이라는 주제로 기자 간담회를 열고 인간의 사고에 가까운 '신경망 기계번역'(Neural Machine Translation·NMT) 기술을 이용한 구글번역기와 기계학습(Machine Learning)·인공지능(AI)을 활용한 구글포토·포토스캐너 서비스를 소개했다.
구글은 지난 9월 중국어-영어 번역에 신경망 기계번역 기술을 처음 도입한 이후 15일 한국어와 영어, 스페인어, 포루투갈어, 프랑스어 독일어, 터키어 등 모두 8개 언어로 서비스를 확대했다. 이 8개 언어는 전 세계 인구 모국어의 1/3을 커버한다.
이 신경망 기계번역은 기존에 문법이나 구문 등을 단어나 어구로 쪼개서 따로 번역해 오역이나 부자연스러웠던 기계번역을 문장이나 문단을 통째로 이해하는 인간의 언어 사고방식을 모방한 알로리즘을 적용한 기술이다.
기존 기계번역은 인터넷에서 사람이 이미 번역해 놓은 언어를 크롤링하고 검색한 학습결과를 반영하는 구조다.
구글 번역팀의 버락 투로브스키 제품 총괄 담당은 화상전화 연결에서 "신경망 기계번역의 특징은 문맥을 중시하는 번역으로, 전체적인 문맥을 적용해서 가장 관련성 높은 문장을 분석하고 재배열해 실제 사람이 말하는 문장에 가깝게 번역을 하게 된다"고 설명했다.
특히 한국어와 영어, 스페인어 등 신경망 기계번역이 지원하는 8개 언어간 조합을 통해 보다 정확한 번역이 가능해졌다는 점을 강조했다.
일례로 언어간 유사성이 높은 한국어-일어-터키어를 조합해 다중언어를 한 번에 트레이닝시켜 번역 정확성을 높이고, 역시 영어-스페인어-프랑스어와 같은 알파벳이나 언어 유사성이 높은 다중언어간 조합으로 얻어진 학습 결과를 다시 서로 다른 한국어-영어-독일어 조합으로 이루어진 학습에도 적용한다. 이같은 결과를 반복적이고 동시적인 학습으로 번역의 정확성 향상과 생산성을 효율적으로 단순화시킬 수 있다는 것이다.
현재 구글 번역기가 지원하는 103개의 언어를 조합하면 1만개 넘기 때문에 생산성의 효율이 떨어지면서 부정확한 번역 기술을 이 신경망 기계번역 알고리즘을 통해 정확성과 효율성이라는 두 마리 토끼를 잡은 것이다.
실제 신경망 기계번역 시연에서는 올해 치러진 '2017 대학수학능력시험' 외국어영역 영어 문제 중 제시된 문장을 번역해 실제 답을 도출할 수 있을 정도의 정확성을 보여줬다. 또, 한국어를 모국어로 사용하는 사람도 이해가 어려운 철학적인 한국어 문장을 영어로 번역할 때는 간담회 현장의 전문 통역사도 고개를 끄덕일 정도로 수준이 높았다는 평가 받았다.
구글 측은 번역 속도의 경우 기존보다 3~4배 가량 더 빨라졌고, 번역 오류는 55%에서 최대 85%가량 감소했다고 말했다.
출시 10년을 맞은 구글번역기는 매일 10억건 이상의 번역 요청이 이루어지고, 하루 1400억개 이상의 단어를 번역한다. 매월 5억만명 이상이 구글번역기를 사용하고 있지만 사용자의 62%는 미국 이외에서는 사용하는 것으로 나타났다. 현재 구글 번역기가 지원하는 103개 언어는 전 세계 온라인 활동 인구의 99%를 커버할 수 있는 수준이라는 것이 구글의 설명이다.
투로브스키 총괄 담당은 "신경망 기계번역 알고리즘의 개발은 구글 번역기 출시 10년 만의 커다란 혁신"이라며 "궁극적인 목표는 신경망 기계번역이 구글 번역기가 지원하는 103개 언어와 전 세계 모든 지역에서 신경망 기계번역 언어가 사용될 수 있도록 하는 것"이라고 밝혔다.