인공지능이 고전을 번역할 수 있을까? (인간 번역 대 기계 번역)

in #kr6 years ago (edited)

번역을 둘러싸고 인간과 기계가 대결을 벌였다는 보도를 둘러싸고 몇 가지 논의가 오갔다. (대표적으로 우석대 박상익 교수의 페이스북 포스팅과 댓글들 참조 1 2 3 ). 핵심 쟁점 중 하나는 '고전'을, 가령 17세기 영어로 쓴 밀턴 작품을 기계가 번역할 수 있느냐 하는 점이다. 이건 원리상의 문제, 곧 철학적 쟁점을 건들고 있기에 중요하다.

기계가 할 수 있는 것과 근본적으로 할 수 없는 것을 구별하는 일은 과학과 기술의 주제일 뿐 아니라 철학적 주제이기도 하다. 기계가 잘 하는 건 분명코 계산이다. 다시 말해 논리적, 합리적, 이성적 작업은 기계에게 적합하다. 가령 바둑은 경우의 수가 아주 많기는 해도 분명 수학적인 게임이다. 그래서 알파고는 이세돌을 이길 수 있었고, 그 업그레이드 버전 마스터 9단은 커제와 박정환을 비롯한 최정상 프로 기사들에게 이길 수 있었다.

그렇다면 언어는 어떠할까? 언어에는 두 차원이 있다. 하나는 일상적인 커뮤니케이션에 특화된 언어로, 의미가 상당히 높은 패턴으로 확정되어 있다. 논리적인 글(학술적인 글, 신문 기사, 분석 보고서 등)은 이 패턴이 상당히 일정하기 때문에 상당히 예외적인 언어이다(즉 수학에 가깝다). 일상 대화에 사용되는 언어의 경우에는 각 언어마다 문장 대 문장 차원의 대응이 존재한다(또는 존재하게 만들 수 있다). 이를 패턴의 대응이라고 부를 수 있는데, 이렇게 되면 수학적으로 처리될 수 있다. 문맥에 따라 같은 진술도 뜻이 달라진다는 이야기를 하는 사람도 많은데, 문맥 역시 패턴화될 수 있기 때문에 꽤 긴 일상 언어도 기계가 잘 번역할 수 있다.

이제부터 하는 말이 중요하다. 그렇다면 각 언어 내에 있는 이 패턴의 언어 대 언어 대응은 어떻게 이해할 수 있을까? 사싱 이건 의미의 문제가 아니다. 중요한 것은 용법과 용례이며, 기계 학습은 빅데이터를 통해 용법과 용례의 대응을 기억하는 작업이다. 구글번역기가 문장을 음소와 어절로 분해한 후 번역을 수행한다는 점은 이를 잘 보여준다. 문장 대 문장 번역이란 시작어의 패턴 대 도착어의 패턴의 대응을 가리킨다. 내가 일상 언어를 강조한 건 여기에 해당하는 패턴화된 데이터가 무진장 많기에 기계 학습이 용이하다는 점을 말하기 위함이다.

그렇다면 패턴화된 데이터가 없을 경우 어떨까? 다시 말해 인간이 번역한 용례가 데이터로 존재하지 않을 때에도 기계는 번역할 수 있을까? 문학 번역이나 고전 번역이 기계에 의해 이루어지기 어렵다(또는 불가능하다)는 결론은 여기에서 도출된다. 인간이 번역할 수 없다면, 또는 인간이 제공해 준 데이터가 없다면, 기계도 번역할 수 없다. 왜냐하면 기계 번역은 의미와 전혀(!) 연관이 없는 작업이기 때문이다.

기계 번역은 존 설이 말한 '중국어 방' 가설도 극복한다. 의미의 문제가 개입하지 않기 때문이다. 대화(언어)를 통해 기계가 지능을 지녔는지 평가하는 튜링 검사도 의미의 문제를 제거했기 때문에 '지능'에 대한 새로운 정의를 제공한 것에 불과하며, 튜링 검사를 통과했다고 해서 인간이 지닌 지능을 기계도 갖고 있다고 결론 내려서는 안 된다. 튜링 검사란 기계가 얼마나 인간 언어를 모사할 수 있느냐에 대한 검사에 불과하다. 기계 번역은 튜링과 설이라는 수학과 철학의 두 대가가 던진 문제를 검토할 수 있는 좋은 사례이다.

방금 한 논의에 대한 나의 결론은 이미 나 있다. 기계 번역은 기계 학습에 기반하고 있으며, 기계 학습은 인간이 이미 생산해 놓은 데이터들 및 이 데이터들의 패턴에 의존한다. 따라서 인간이 준 데이터가 없다면, 그것도 다량의 데이터가 없다면, 컴퓨터가 의미를 이해한다거나 하는 일이 원리상 불가능하기 때문에, 기계 번역은 불가능하다. "아" 다르고 "어" 다른 문제는 일상 언어 속에서는, 패턴 형태로 구별된 데이터가 무수히 존재하기 때문에, 기계 번역의 장애물은 아니다. 그 문제는 문학 번역이나 고전 번역처럼 텍스트의 의미 그 자체에 접근하려 시도하거나 때로는 텍스트의 의미 자체를 생산하는 상황에서 발생한다.

Sort:  

페북에서부터 꾸준히 선생님의 글을 즐겨읽었는데 스팀잇에도 이렇게 지적 자극을 시키는 좋은 글을 계속 써주셔서 감사합니다. 튜링과 언어에 대한 이야기 하니 <이미테이션 게임>에서 튜링의 대사가 생각납니다. "When people talk to each other, they never say what they mean. They say something else and you're expected to just know what they mean." 인간 언어를 컴튜터가 완전하게 번역하기 어려운 점을 생각할 때마다 생각하게 되는 대사입니다.

그런 드립을 친 튜링은 천재입니다.
(제 책에서도 튜링의 혜안을 논했었어요. ^__^)

이 분야 최첨단에서 실질적으로 연구를 하는 사람이 아니라면 이러한 문제에 대하여 답을 내는 것이 가능할까요?! 선생님 저서를 보면서도 느꼈던 점이지만 저는 위의 질문에 대하여 매우 회의적입니다.

사람이 입력한 평균(교집합) 우선 번역을 기계가 하지 않나요?

그렇지요. 그 평균치(패턴)가 없으면 탈이 나는 거죠. 근데 고전은 그런 게 없어든요.

저도 한번쯤 생각해봤던 주제입니다. 번역이라는것은 단순 데이터가 아닌 작가의 의도를 파악하는데 주가된다고 생각합니다. 그런 의미에서 말씀하신대로 학습할 수 없는 번역가의 창의성은 결코 따라오지 못할것이라고 예견합니다.

전 그렇게 생각하지 않습니다. 일단 기계나 인간이나 두가지 언어를 알고 있다고 생각하면 인간들도 본인이 기존의 쌓아놓은 지식이나 경험, 다른 사람의 번역을 참고해서 번역합니다.
실제 사람이 번역해 놓은 번역물을 봐도 해당 행위에 대한 이해도가 없거나 해당 행위에 대한 기존 번역물을 제대로 참고 못한 번역은 그렇지 않은 번역과 확연히 차이가 납니다. 그리고 그건 번역을 잘못한 실패작이죠..
그래서 전 현재의 우리가 보고 있는 번역이 그런 실패들이 쌓이고 쌓여서 나온것이라고 생각하지 인간만이 구사하는 창조력이나 말이해능력이라고 생각하지 않습니다.
처음에는 당연히 인간의 번역결과물보다 형편없겠지만 학습하는 AI라면 인간이 했던 실패들과 마찬가지로 실패하면서 학습하여 결국에는 인간만큼의 번역물을 내놓을것이라고 믿어 의심치않습니다.

와... 이건 진짜 흥미로운 주제네요. 그런데 선생님께 질문을 드리고 싶은게 있습니다! 그 기계라는 것은 인간이 쌓아놓은 데이터를 벗어난 새로운 지식들을 습득할 수는 없는건가요? 구글 인공지능은 Deep Learning이라는 프로그램을 개발해서 자체적으로 습득을 할 수 있는 기계를 만든다고 어디서 본 거 같기도 해서요!

그리고 이건 제 개인적인 질문인데, 만약 기계가 문학을 번역할 수 없다면, 법조계는 어떻게 될 것이라고 보시나요? 변호사나 검사같이 피고인을 변호하거나 기소하거나 법을 기반으로 죄질을 판단하는 직업들은 기계가 대체할 수 있을지요? 고견 부탁드립니다!

아, 보트하고 갑니다. 많이 배우네요 선생님 :)

말씀하신 내용의 앞부분은 제 책에서 많이 다루었기 때문에 답변을 반복하긴 좀 그렇고요(도서관 이용하세요),
뒷부분에 대해서는 차차 포스팅하겠습니다. 다만 소송에서는 '사실' 자체도 미리 존재하지 않는다는 점에 유념하면, 법률 영역은 인공지능이 접근하기 힘들다는 게 현장 법률 전문가의 소견입니다. (관련 세미나에 참석해서 배운 내용이 있습니다.)

오.... 그렇군요. 선생님 책은 반드시 구매해서 읽어봐야겠네요! 깊이있는 댓글 감사합니다!

저는 인공지능에 문외한이라 무식한 소리가 될 것 같지만 요새 인공지능들은 데이터 기반이 아니라 스스로 학습하는 방식이라고 들었습니다. 물론 스스로 학습한다 해도 어느 게 맞는지, 더 나은 것인지를 판단하는 기준이 있어야 할 거 같은데 고전 번역에 있어 그 기준이 어떻게 주어질지는 궁금하군요. 하지만 아무 것도 모르던 인간 학생이 공부를 해서 고전을 이해할 수 있다면 기계도 가능하지 않을까 막연히 생각은 해 봅니다.

그리고 구글은 언어를 번역할 때 A언어를 B로 바로 하지 않고 구글 AI의 모국어(C)를 만들어 A->C, C->B 의 단계로 번역하는 쪽으로 개발 중이라고 들은 것 같아요. 이 방식이 A->B 보다 효율적이고 번역의 품질도 높다고 하더군요. A를 고전이라고 놓으면 AI가 일단 고전을 이해하게만 된다면, 순식간에 여러 개의 언어로 깔끔한 번역을 내놓을 수 있을 것 같습니다.

말씀하신 내용은 제가 쓴 책 <인공지능의 시대, 인간을 다시 묻다>에서 상세히 다루었습니다. 답변을 반복하긴 좀 그렇고요, 도서관에서 읽어 보시기 바랍니다(1장 3절).

오, 찾아 읽어보겠습니다. 1장 3절 그러니까 좀 성경책 느낌이... ㅎㅎ

그렇군요. 미처 생각하지 못했던 ㅎㅎ

반갑습니다 가입한지 2일된 뉴비입니다^^
팔로우,보팅 하고가요 시간되시면 맞팔부탁드립니다 자주뵈요^ㅡ^

네. 맞팔하면서 배우겠습니다^^

저희가 읽는 시도 영어로 번역하면 그저 문장에 불과한 것 처럼 기계가 고전을 번역하는 것 역시 비슷한 느낌인 것 같습니다 물론 먼 미래는 어떻게 될지 모르겟지만요 ㅋㅋㅋ

먼 미래에도 별로 변하는 건 없을 거로 보여요.

기표와 기의의 차이로 이해하면 되지요? 기표는 가능하나 기의는 불가능하다? 즉 작가의 의도는 100%복제가 불가능하다로요.

Coin Marketplace

STEEM 0.19
TRX 0.13
JST 0.030
BTC 62028.87
ETH 3416.72
USDT 1.00
SBD 2.48