미리보기
미해독 문서는 인류 역사 연구의 중요한 퍼즐 조각이다. 선형 A 문자처럼 해독되지 않은 기록이나 승정원일기 같은 방대한 문서는 연구자들에게 큰 도전이었다. 그러나 AI 기술이 이를 변화시키고 있다. 손상된 문서를 복원하고, 언어 구조를 분석하며, 자동 번역을 수행하는 AI는 역사 연구의 패러다임을 바꾸고 있다. AI를 활용한 문서 해독의 과정과 그로 인해 밝혀질 새로운 역사적 가능성을 조명한다.
한편 샹폴리옹이 알아낸 바에 따르면 이집트 문자는 단순한 표음문자가 아니다. 성각문자는 본래 상형을 통해 만들어진 것으로 상형한 대상을 가리킬 수 있다. 이러한 용법이 지속되면서 이후에는 특정한 음가도 가리킬 수 있게 발달한 것이다. 예를 들어 ‘𓂝’의 경우 ‘팔’을 상형한 것으로 실제로 팔의 의미를 지니는데, 동시에 /ʕ/라는 음가를 가지기도 한다. 전자는 표의문자적 사용이고 후자는 표음문자적 사용에 해당한다. 여기에 더해 특이한 결정자(determinative)가 존재하는데, 이는 개별 문자에 덧붙여 그 의미나 음가를 보완하는 기호라고 할 수 있다. 이렇듯 문자에 대한 규명이 완료된 이후에 여러 언어학적 분석이 이어졌다. 먼저 성각문자는 모음을 표기하지 않고 자음만을 표기하는데, 예를 들면 한글의 ‘가나다’라는 표기를 ‘ㄱㄴㄷ’라고 표기하는 식이라 할 수 있다. 따라서 모음을 추정해 실제 발음을 복원하는 연구가 이루어질 수 있었다.
-01_“문서 해독의 모범: 로제타 스톤” 중에서
한편 언어 모델의 발전은 다양한 응용 분야에서 큰 성과를 보이고 있다. 특히 성능이 뛰어난 모델들은 전이 학습 과정을 통해 특정 과제에 최적화되어 더욱 효과적으로 사용될 수 있다. 이러한 전이 학습을 유형론적으로 비슷한 언어에 적용할 경우 더 높은 정확도를 보인다는 점이 밝혀졌으며, 이러한 특성을 바탕으로 자원이 부족한 언어에도 활용되고 있다. 이러한 점은 고대어 연구에도 적용될 수 있을 것으로 보인다. 대표적인 응용 과제로는 문서 분류, 개체명 인식, 감성 분석이 있으며, 이는 텍스트 데이터에서 저자, 시대적 특성, 장르를 분석하는 텍스트 마이닝 기법과 연결될 수 있다. 또한 기계 번역과 문장 생성은 대규모 문서 번역 및 소실된 문서의 복원에 활용될 수 있다.
-03_“문서 해독의 기반 기술 2” 중에서
2023년 대회에는 탄화된 문서의 3D 이미지를 제공하고 이를 해독한 연구자에게 상금 100만 달러를 수여하는 조건이 걸렸다. 그 결과, 세 명의 학생이 해당 문서에서 약 5% 정도를 해독하는 데 성공했다. 해당 문서는 고대 그리스 철학자인 에피쿠로스 학파와 관련된 내용으로 밝혀졌다. 에피쿠로스 학파의 여러 저작은 대부분 소실된 상태라, 이 문서의 해독은 고대 그리스 철학 연구에 중요한 진전을 가져올 것으로 기대된다. 2024년 대회에서는 문서의 90%를 해독하는 연구팀에게 10만 달러의 상금을 수여할 예정이다.
-06_“AI와 고문서 복원 2” 중에서
이제는 자연어 처리와 머신러닝 기술의 발전으로 텍스트를 다양한 방식으로 임베딩해 문서의 내용, 주제, 또는 문맥적 유사성을 수치로 표현할 수 있다. 대표적인 방식으로는 워드투벡(Word2Vec)이 있다. 워드투벡은 단어를 벡터로 변환하는 모델로, 비슷한 문맥에서 자주 등장하는 단어들이 유사한 벡터 값을 가지도록 학습된다. 이를 응용하면 단어 수준에서 텍스트 간의 유사성을 파악할 수 있으며, 특정 단어들이 여러 문헌에서 어떻게 반복되고 변형되는지 확인할 수 있다. 더 나아가 최근에는 BERT와 같은 딥러닝 기반 모델이 텍스트 연구에 적용되고 있다. 이러한 모델들은 문맥을 반영해 문장 수준의 임베딩을 생성하기 때문에, 단순한 단어 수준의 비교를 넘어 텍스트의 문맥적 관계까지 고려한 정교한 유사성 분석이 가능하다.
-09_“AI와 텍스트 분석” 중에서