상세 컨텐츠

본문 제목

AI를 활용한 고문헌 번역과 해독

디지털콘텐츠/이슈리포트

by 디지털콘텐츠기업 성장지원센터 2024. 5. 17. 13:16

본문

 

1. 국내 AI 활용 고문헌 번역 사례 및 기술 소개

출처 : 누리IDT 고문헌한자시스템 (https://ocr.nuriidt.co.kr/)

 

지능형 데이터 전문 기업 누리아이디티는 인공지능을 기반으로 초서체 한자를 자동으로 인식하는 '초서 OCR(광학 문자 인식) 서비스'와 고문헌 원문의 한문을 띄어쓰기해 주는 '자동 표점 서비스'를 출시했다고 이달 발표했다.

 

광학 문자 인식(Optical Character Recognition)

'초서 OCR 서비스'는 흘려 쓴 손 글씨인 초서체 한자를 AI가 인식해 정자로 자동 변환해 주는 서비스다. 기존에는 소수의 초서 전문가들이 일일이 탈초(정자 옮겨쓰기)를 해주어야만 고문헌 연구자들이 판독할 수 있었지만, 초서 OCR 서비스를 이용해 쉽고 간편하게 읽고 디지털 텍스트로 활용할 수 있게 되었다.

 

자연어 처리(Natural Language Processing)

'자동 표점 서비스'에서 표점이란 원문 전체가 하나의 문장처럼 붙여 쓰여 작성된 고전 한문 텍스트를 의미 단위로 띄어쓰기하고 온점과 반점 등 구두점을 찍어 문장을 구분하는 것을 뜻한다. 지금까지는 전문가들이 원문 텍스트 의미 단위마다 일일이 구두점을 찍는 작업을 해 왔다. 자동 표점 서비스는 표점 작업을 최신 자연어 처리(NLP) 모델로 1억 자 이상의 한문 데이터를 학습시킨 자동 표점 AI 모델이 자동으로 처리해 준다. 1,000자 분량의 한문 원문 텍스트를 붙여 넣거나 파일 불러오기로 입력하면 1초 이내에 표점을 처리해 준다. 표점의 정확도는 90% 이상으로서 관련 전공의 석사 수준을 능가한다. 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있게 되었다.

 

2. 외국 AI 활용 고문헌 번역 사례

 

중국 난징농업대학 정보관리학과 교수가 이끄는 연구팀이 자체 개발한 AI 언어모델 쉰즈(荀子)’2023년 공개했다. 쉰즈는 고서용 AI 맞춤형 서비스를 제공해 어려운 고시를 읊거나 해석이 가능한 것으로 전해졌다. 연구팀은 '쉰즈는 중국 최초 고서용 거대 AI 언어모델로 청나라 건륭 황제가 칙선한 중국 최대총서인 사고전서를 포함한 고전 문헌을 학습했고 20억 자가 넘는 대형 언어 데이터베이스도 탑재했으며, 작업 효율을 향상시켜 문화 발굴에 적잖은 도움이 될 것이라고 기대했다.

중국 공업정보화부 산하 CCID 연구소 데이터에 따르면 2023년 중국 대규모 언어모델 시장 규모가 2022년 대비 100% 성장했다. 또한 앞으로의 성장이 기대된다는 게 시장의 중론이다.

 

 

3. 외국 AI 활용 고문헌 해독 사례

출처 : 연합뉴스 (https://www.sedaily.com/NewsView/2D5AZIOZWU)

 

베수비오 챌린지대회에 참가한 대학생팀이 AI를 이용해 돌돌 말려있는 헤르쿨라네움 두루마리에서 2,000개 이상의 그리스 글자를 읽어냈다. ‘헤르쿨라네움 두루마리2,000년 전 베수비오 화산 폭발 당시 화산재에 묻혔던 문서로 1,750년 고대 로마 도시 헤르쿨라네움에서 발굴된 1,000여 개의 파피루스 문서를 말한다. 이 문서들은 베수비오 화산 폭발 당시 화산재 열에 그을린 데다 근 2,000년 동안 추가로 손상을 입어 바스러지기 쉬운 상태였다. 연구자들은 대회 주최 측이 미리 공개한 고해상도의 두루마리 컴퓨터단층촬영(CT) 이미지를 AI 기계학습(머신러닝)을 적용해 두루마리를 가상으로 펴보고, 그 속에 적힌 문자를 추정하고 확정하는 작업을 해 이 같은 성과를 얻었다.

출처 : 베수비오 챌린지 (https://www.sedaily.com/NewsView/2D5AZIOZWU)

 

4. 역사학자도 AI를 알아야 하는 시대

 

AI 기술은 학자들의 연구 결과와 문헌과 어휘들을 학습해 작업의 속도를 크게 높이고 있다. 전문가가 몇 달, 몇 년 걸릴 작업을 1초 만에 번역하고, 바스라질 것 같은 두루마기 문서를 펴보지 않고 내용을 해독함으로 인문학 분야에서 AI의 잠재력을 보여주고 있다. 과학 분야 연구뿐 아니라 인문학 연구에서도 AI 활용 능력의 중요성이 커질 전망이다.

 

 

<출처>

- AI가 조선왕조실록 읽어준다누리IDT, 고문헌 인식 서비스 출시, 한국경제, 2024.05.01.

- 난징농업대학, 고문서 전용 거대 AI언어모델 개발...“시 읊고 번역도 가능해”, 로봇신문사, 2023.12.19.

- AI2천년전 문서 해독했더니'쾌락주의' 철학 담겼는데 내용이, 서울경제, 2024.02.10.

- 도구 아닌 행위자로 부상한 AI다시 다가온 물음 인간이란 무엇인가’, 경향신문, 2023.11.17.

- 이제 역사학자도 AI 알아야 하는 시대, 지디넷코리아, 2023.10.16.

관련글 더보기

댓글 영역