[씨세론이야기] 씨세론 번역기 마로의 데이터 학습법 최초공개!!

in #kr-newbie7 years ago

ciceronmain.jpg

안녕하세요 언어 경계없는 커뮤니케이션을 돕는 @ciceron 입니다.
조금 늦었습니다~ 혹시,, 기다리셨나요?? ㅎㅎㅎ 네에~!!!! (자문자답ㅠ)

지난 이야기에서는 드디어 씨세론의 기계번역기 마로의 모습을 공개하고 성능도 테스트 해보았는데요, 많이들 이용해보셨는지 모르겠어요! 사용해보신 분들 머리위로 똥글뱅이~
씨세론의 자체 번역기 마로는 언제나 www.ciceron.me/ai2 에서 이용할 수 있으니 많이 많이 이용해주세요! ^^


최초 공개할게요~ 마로의 데이터 학습법

images.jpeg

지난시간에 말씀드렸듯이, 씨세론의 마로는 현재도 열심히 데이터를 학습하고 있습니다.
오늘은 과연 마로가 어떤 데이터를 학습하기에 분야를 인식하는
똑똑한 번역기가 될 수 있었는지 살펴 보도록 하겠습니다.

전교1등 마로의 공부법, 오늘 최초 공개할게요!


일반적인 번역기들이 학습하는 데이터의 종류는


첫째, 원문과 번역문이 1:1 대응이 되는지
둘째, 데이터의 품질

크게 이 두가지로 구분지을 수 있습니다.

데이터학습-100.jpg

일반적인 번역기는 위의 그림처럼 정제되지 않은 채 입력되는 모든 데이터를 학습하게 됩니다. 따라서 저품질 데이터라고 하더라도 구분없이 모두 저장하여 학습하게 되는 것이죠. 이러한 학습법, 데이터 저장방식은 결과적으로 전체적인 번역기 성능을 떨어트리게 됩니다.


양보다는 질! 마로의 고품질 학습데이터

마로학습-100.jpg

그렇다면 마로는 어떤 데이터를 학습할까요?
데이터를 구분 없이 저장하는 일반적인 번역기와는 다르게 마로는 정제된 데이터만을 학습합니다. 정제된 데이터란, 씨세론의 100여명의 전문번역가와 함께 제공하는 번역서비스를 통해 얻어지는 고품질 데이터를 의미합니다. 이러한 방식으로 데이터를 선별하기 때문에 학습하는 데이터의 양이 상대적으로 많지는 않지만, 타 번역기에 견주어도 손색없는 성능의 번역기가 될 수 있습니다. 1:1 대응되는 원문과 번역문의 문장 쌍. 그리고 전문 번역가들의 손을 거친 번역 데이터를 활용하여 마로를 더욱 더 정확하게 만들 수 있는것이죠!!


1:1 대응의 열쇠

번역기가 학습하는 데이터는 품질과 원문과 번역문의 1:1 대응이 중요하다고 말씀드렸습니다. 씨세론의 전문 번역 서비스를 통한 고품질 데이터를 생산할 수 있다고 해도 1:1 대응은 일일이 분류하여 저장하기가 쉽지 않은 부분입니다.

그래서! 번역 데이터 활용의 두번째 방법, 원문과 번역문의 1:1 대응 데이터를 모을 수 있는 그 열쇠를 씨세론이 개발하게 됩니다. 그 열쇠는 바로바로 다음시간에 공개하도록 하겠습니다!!



기다려주실꺼죠???

Sort:  

아아 여행 번역 ㅠㅠ 링크를 까먹어서 신청 못했던 슬픈 기억이 있네요 ㅠ
데이터 활용법 궁금합니다 ㅎ

Coin Marketplace

STEEM 0.18
TRX 0.16
JST 0.030
BTC 60480.09
ETH 2363.08
USDT 1.00
SBD 2.65