승정원일기를 통해 6개월간 학습한 인공지능(AI) 고전문헌 자동 번역 시스템이 완성됐다. 이번에 개발된 자동 번역 시스템은 초벌 번역으로 완성도가 높다는 평가를 받으며 고전번역에 걸리는 방대한 시간 단축에 도움을 줄 것으로 기대된다.
엘솔루 (구 시스트란 인터내셔널)는 1월22일 과학기술정보통신부(한국정보화진흥원) ‘2017년도 ICT기반 공공서비스 촉진사업’의 과제인 한국고전번역원의 ‘인공지능 기반 고전문헌 자동번역시스템 구축’ 프로젝트에 참여해 성공적으로 과제를 완수했다고 밝혔다. 2017년 6월부터 6개월간 진행된 이번 프로젝트는 승정원일기를 기반으로 한 모델 훈련을 거쳐 완성됐다.
이번 번역 시스템은 고전번역원에서 제공한 승정원일기 영조대 즉위년부터 4년 3월까지의 총 35만 말뭉치 및 엘솔루가 자체보유 말뭉치를 기반으로 30번 이상의 AI 기반 자동번역 모델 훈련을 거쳤다. 이번 번역 시스템에 적용된 신경망 번역기술(NMT)은 원문과 번역문에서 서로 연관성이 있는 고유패턴을 찾아내고, 그 데이터를 기반으로 번역모델을 생성한다. 이 번역모델은 원문과 번역문 간의 대응 관계 정보를 스스로 학습하는데, 이는 실제 번역 과정에서 가장 적합한 대역어 관계를 탐색하고 판단해 최종 번역문을 생성하게 한다.
이와 함께 엘솔루는 AI 번역 엔진이 고전문헌을 더욱 쉽게 인식할 수 있도록 고전 한자를 뜻단위로 분리시켜주는 고전문헌용 토크나이저를 별도 개발해 시스템에 통합시켰다. 또 2018년까지 고전문헌 말뭉치를 추가하고 번역문 기계학습 길이를 300자까지 확장해 장문의 고전문헌 문장도 초벌 번역 작업을 원활하게 할 수 있도록 지원할 예정이다.
이번 자동 번역 시스템은 프로젝트 자문위원으로부터 초벌 번역으로 상당한 완성도를 보인다는 평가를 받았다. 엘솔루는 지속해서 번역 시스템 고도화 사업을 진행할 예정이다. 한국고전종합DB에서 서비스되고 있는 조선왕조실록, 일성록 및 문집류의 원문과 번역문 데이터베이스를 대상으로 고전문헌 자동번역 모델을 확대 적용해 고전 번역자들의 초벌 번역에 도움을 주고, 향후 고전문헌 번역 관계기관 및 관련 학과의 업무 및 연구 과정에 사용할 수 있는 자동번역 서비스를 구현한다는 계획이다.
“시스트란, 인공지능 고전문헌 자동 번역 시스템 구축” – 기사원문:블로터