세계 최대의 검색엔진 구글이 자동번역기의 기능을 크게 개선한 것은 한국 네티즌 덕분인 것으로 밝혀져 화제를 모으고 있다.
뉴욕타임스는 지난 3월 9일 A섹션 1면과 3면에 “2004년 구글 창업주인 세르게이 브린 회장이 임원회의에서 이 회사가 라이센스를 딴 자동번역서비스가 한국 네티즌의 지적을 진지하게 검토한 것이 계기가 되었다”고 소개했다.
이 네티즌은 이메일에서 “구글은 마음에 드는 검색엔진이라는 문장을 번역기로 해봤더니 ‘얇게 자른 생선회, 신발, 그것을 원한다. 구글은 초록의 양파같은 것’이라고 됐다”고 지적했다. 뒤죽박죽으로 말이 안되는 문장이었다.
브린 회장은 당장 개선을 지시했다. 그 결과 6년이 지난 지금 구글은 52개의 언어로 번역서비스를 공짜로 할 수 있는 기능을 갖추게 됐다. 유사한 동종 시스템보다 훨씬 많은 것이었다.
현재 수천만명의 네티즌들이 이같은 번역서비스를 통해 웹페이지와 텍스트를 번역하고 있다. 카네기 멜론대학의 언어기술연구소 앨런 래비 부소장은 “구글의 번역은 특정한 주제에 머물지 않는다는 점에서 예술 수준”이라고 평가했다.
웹 검색을 확장하려는 구글의 노력은 혼재된 성공의 결과물이다. 전자북 프로젝트, 소셜네트웍인 버즈는 프라이버시의 두려움을 제기했다. 때로 비즈니스의 전통과 문화적 집회에 관한 실수도 있었지만 번역 비즈니스에 관한 구글의 신속한 편제는 복잡한 문제들을 컴퓨터의 힘을 빌어서 푸는 ‘억지 기법’의 폭발을 가져왔다.
검색엔진을 위해 만들어진 데이터센터의 네트웍은 세계 최대의 컴퓨터 회사를 요동치게 했다. 구글은 번역기술의 한계점을 밀어냈다. 예를 들면 지난달 번역장치와 사진분석을 결합시키는 것이다. 즉 독일어로 된 휴대폰 사진 설명문을 영어로 즉석에서 번역하도록 돕는 것이다.
전자출판사인 오라일리 미디어의 창업주인 팀 오라일리 CEO는 “번역기능은 구글의 전략적 비전을 보여주는 최상의 사례”라고 지적했다. “모든 사람을 진지하게 만드는 것은 아니지만 구글은 그밖의 누구도 이해하지 않는 것을 이해한다. 시장보다 앞서서 복잡한 문제들을 다루는 투자를 하고 있다”고 덧붙였다.
번역기를 만드는 것은 인공지능에 도전하는 가장 어려운 문제중의 하나였다. 지난 수십년간 컴퓨터 공학자들은 컴퓨터에 두 개 언어의 언어학적 규칙을 대입시켜 사전기능을 하도록 한 ‘규칙에 기초한 접근’법을 시도해왔다.
그러나 90년대 중반 과학자들은 이른바 ‘통계적인 접근’을 선호하게 됐다. 이들은 컴퓨터에 수십억개의 문장을 입력시켜 사람이 번역하는 것과 가장 유사한 뜻으로 번역되는 결과를 도출할 수 있도록 고안한 것이다.
이러한 기술은 방대한 분량의 데이터와 엄청난 컴퓨터의 힘을 필요로 하는 기술이었고 구글에게 꼭 들어맞는 것이었다.
구글의 엔지니어링 부사장인 빅 군도트라 씨는 “우리의 인프라는 이런 기술에 최적화돼 있다”며 “우리는 다른 경쟁자들이 꿈꾸지 못한 것을 시도할 수 있게 됐다”고 자랑했다.
물론 자동번역서비스는 아직 완벽함과는 거리가 있다. 구글의 번역기능이 뛰어나다 한들 전문번역가들을 조만간 실업자로 만들기는 힘들것이다. 전문가들은 컴퓨터가 문장들을 부분적으로 나눠서 다른 언어로 재조립하는 것은 정말 힘든 작업이라고 말한다.
그러나 구글의 번역서비스는 신문의 뉴스의 핵심은 무리없이 전달할 수준이 되고 있다. 이미 수백만명의 네티즌이 이같은 서비스를 이용하고 있다. 기계번역전문가인 필립 레스닉 메릴랜드 컬리지팍 대학 부교수는 “다소 거칠지만 빠른 번역을 원한다면 이용할만 하다”고 평가했다.
마이크로소프트와 IBM같은 라이벌들처럼 구글은 6개국어로 번역하는 유엔이나 23개국어로 번역하는 유럽연합(EU) 회의 자료들을 사람의 힘을 빌리지 않고 하는 방법을 추진하고 있다. 이같은 원본 자료들은 가장 선호도가 높은 언어를 위한 시스템에 맞춘 것이다.
그러나 구글은 책의 스캐닝 프로젝트는 물론, 웹의 텍스트들을 대상으로 시도하고 있다. 좀더 어려운 언어인 경우 사용자들이 해당 텍스트를 번역해 데이터베이스에 추가하도록 하는 ‘도구 상자(Tool Kit)’를 제공하고 있다.
구글의 이같은 서비스는 IBM과 같은 기업들의 번역소프트웨어 판매에 악재가 되고 있다. 그러나 구글의 자동번역기는 아직 큰 돈이 되지 않고 있으며 광고비즈니스의 표준에 의한 것도 아니다. 아직 구글의 노력은 몇가지 방법으로 보상받을 수 있다.
구글의 광고는 유비퀴토스 온라인이기 때문에 사람들이 회사에 도움을 주는 웹을 사용하기 쉽게 만들고 있다. 이 시스템은 새로운 어플리케이션에 대한 흥미를 유발하고 있다. 지난 주 구글은 영어로 된 유튜브 동영상을 50개의 다른 언어로 번역돼 자막처리하는 기술을 시연했다.
구글의 자동번역기술을 연구하는 프란츠 오치 수석과학자는 “이 기술은 언어의 장벽을 날려버렸다”고 단언했다. 독일 출신으로 USC에서 근무했던 그는 번역서비스가 사이드 프로젝트가 되는 것을 우려해 구글에 합류하는 것을 망설였던 인물이다.
그 때 구글 창업자중 하나인 래리 페이지가 그를 잡는데 일조했다. 페이지는 “오치는 이 작업이 구글로서 대단히 중요하게 될 것이라고 주장했다”고 말했다. 오치는 2004년 구글에 합류했고 바로 이 일에 뛰어들었다.
구글 등 자동번역시스템이 수십억개의 단어로 이뤄진 텍스트들을 활용하면서 구글은 더욱 커졌다. 오치는 “텍스트를 다루면 다룰수록 번역기의 성능이 더 우수해졌다”고 말했다.
1년후 보상이 주어졌다. 구글은 복잡한 번역시스템을 대상으로 한 정부 경연대회에서 당당 우승을 차지했다. 구글은 비슷한 시도를 하고 있다. 복잡한 문제들을 다루기 위해 막대한 컴퓨터의 파워와 엄청나게 축적된 정보와 통계 등이다.
2007년에는 800-GOOG-411로 불리는 무료디렉토리 서비스가 제공됐다. 말로 하는 요청을 통역하는 서비스였다. 이를 위해 구글은 사람의 대화를 인지할 수 있도록 수백만명의 사람 목소리를 축적, 입력했다.
지난해 구글은 목소리로 검색하는 시스템을 소개했다. 스트릿 뷰 서비스용으로 촬영한 사진을 포함한 수십억장의 온라인 이미지 DB와 휴대폰 사진을 대조 분석하는 서비스였다.
오치 과학자는 구글의 번역시스템이 아직 부족한 부분이 있다는 사실을 인정한다. 그러나 “현재 질적 개선의 곡선이 아주 가파르게 상승하고 있다”며 빠른 속도로 개선될 것으로 자신하고 있다.
한편 이날 타임스는 생텍쥐페리의 ‘어린 왕자’ 프랑스어판과 가브리엘 마르케즈의 ‘백년동안의 고독’ 스페인어판을 각각 전문번역가가 영역한 문장을 구글의 검색기와 야후의 바벨피시 번역기, 마이크로소프트의 빙 번역기로 각각 시도한 문장과 비교해 시선을 끌었다. 그 결과 구글 번역기는 사람이 번역한 것과 90% 이상 일치했다.
뉴욕=노창현특파원 robin@newsroh.com
<꼬리뉴스>
한국의 서울역과 비슷한 곳이 맨해튼 42가 그랜드센트럴터미널과 34가 펜스테이션이다.
이들 터미널은 당연히 웹사이트 서비스를 하는데 수년전 그랜드센트럴 터미널 사이트를 보다가 배꼽을 잡았다. 자동번역기능이 있어서 한글 서비스를 눌렀더니, '웅대한 중심'이라고 나오는게 아닌가.
처음엔 이게 뭔가 갸우뚱하다가 '그랜드 센트럴'을 직역한 것이라는걸 알 수 있었다. 고유명사를 알 리 없는 기계번역기의 한계였다. 요즘도 우스운 번역문이 많으니 한번 들어가서 테스트해보시길..^^
참고로 뉴욕의 지하철 티켓 자동판매기는 한국어 등 4개 언어서비스를 하는데 뉴욕생활 초창기 한국말을 눌렀다가 더 이해가 안되서 실소를 했다.
'다시 채워넣음'이걸 뭐라고 생각하시는지? 이해가 안가 영어로 돌아갔더니 'Refill'이었다. 말인즉 틀린게 아니었지만 우리식으로 하면 카드 '충전'이라고 하면 금방 알아들을걸 그대로 직역한 것이다.
물론 이것은 사전에 사람이 번역한 것을 그대로 서비스하는것이니 기계 잘못이 아니라 한국말에 서툰 한인 2세의 작품이 아니었을까...