미리보기
미리듣기
대통령기록관의 영상·음성 기록을 AI로 해독하고 활용하는 방법을 다룬다. 시청각 기록물은 현장의 목소리와 표정, 분위기를 담지만 직접 재생하지 않으면 찾기 어렵다. 이 책은 컴퓨터 비전, STT, VLM, 오픈소스 소프트웨어를 폐쇄망 환경에 적용한 경험을 통해 보안과 비용, 활용성을 함께 고려한 공공 기록 관리의 새 길을 보여 준다.
다시 돌아와 디지털 시청각 기록물의 접근성에 대해 생각해 보자. 아쉽게도 시청각 기록물이 디지털 형태라고 해서, 우리가 우려한 정보의 장벽이 사라지는 것은 아니다. 이것은 컴퓨터가 읽을 수 있는 파일 형태이거나 그러한 형태로 변환된 것일 뿐이다. 디지털 또는 디지털화된 시청각 기록물은 재생되는 화면 또는 음성 그 자체를 제외하고는 가지고 있는 정보가 없다. 즉, 디지털화한 결과물이 아날로그 시청각 기록물 원본에 비해 재생과 배포의 편의성을 획기적으로 높여줄 수 있는 점은 사실이지만, 그것이 곧 ‘내용에 대한 접근성의 향상’을 의미하는 것은 아니다. 수십만 개의 영상·음성 파일 속에서 단 1초의 결정적 장면을 찾기 위해 여전히 누군가는 엄청난 시간을 소비해야 할 것이다.
-01_“시청각 기록물의 비정형성 ” 중에서
인간은 이러한 차이를 거의 의식하지 않고 이해할 수 있다. 주변의 잡음이 존재하더라도 상대방의 말을 선택적으로 인지할 수 있고, 문맥을 활용하여 잘못 들은 단어를 보완할 수도 있다. 하지만 컴퓨터는 오랫동안 이러한 능력을 갖추지 못했다. 결국 음성 인식 기술의 발전은 단순히 음성을 문자로 바꾸는 기능을 개선하는 과정이 아니라, 다양한 사람과 환경 속에서도 인간과 비슷한 수준으로 언어를 이해하려는 노력의 역사라고 볼 수 있다. 이후 설명할 주요 두 가지 기술은 이러한 문제를 해결하기 위한 중요한 전환점이 되었다.
-03_“음성 인식 기술의 발전사” 중에서
이러한 특성을 고려하여 대통령기록관은 대통령기록관리시스템과 시청각기록관리시스템을 별도로 운영하는 것이다. 시청각기록관리시스템은 단순한 저장 공간의 역할만 하는 것이 아니라, 시청각 기록물 원본 파일의 등록, 보존, 변환, 검색, 활용을 지원하는 전문 관리 시스템이다. 특히 대량의 영상·음성·사진 파일을 통합적으로 관리하고 장기 보존을 지원한다는 점에서 대통령기록관의 핵심 기반 시스템 중 하나라고 할 수 있다. 시청각기록관리시스템은 기록물 원본의 안전한 보존뿐만 아니라 서비스 제공을 위한 다양한 기능도 수행한다. 원본과 보존용 파일은 장기 보존 저장 매체에 저장되고, 대국민 서비스 등 활용을 위한 파일은 시스템에서 간편하게 제공된다. 이를 통해 원본 기록물의 훼손 위험을 최소화하면서도 다양한 수요에 대응할 수 있다.
-06_“대통령 시청각기록관리시스템” 중에서
AI가 인간의 목소리를 텍스트로 변환하는 과정은 수만 개의 음성 파형을 수치화하고, 이를 가장 확률 높은 언어 모델에 대응시키는 고도의 수학적 추론 과정이다. 하지만 사람이 실수하듯, 아무리 최신 AI 모델인 Whisper라 할지라도 오답을 만드는 경우가 발생한다. 우리는 앞서 소개한 대통령 시청각 기록물 음성 및 영상 34개에 대한 오류율을 모두 확인하였고, 추가적인 산출 데이터를 통해 인식률을 떨어뜨리는 세 가지 주요 요인을 분석하였다. 이는 단순히 기술적 결함을 찾는 것을 넘어, 최신 AI 기반 STT의 ‘한계 지점’이 어디인지를 명확히 파악하여 향후 우리가 나아갈 방향을 정하는 시작점이 될 것이다.
-09_“인식 오류의 결정적 요인” 중에서
