미리보기
AI가 한국학 연구 방법과 지식 생산 방식에 미치는 영향을 탐구한다. 챗지피티 등 생성형 AI는 인문학 연구를 효율화하며, 데이터 분석과 프롬프트 엔지니어링을 통해 한국학을 체계화한다. 그러나 AI 언어 모델의 한국 관련 정보 부족 문제와 윤리적 민감도 향상이 필요하다. 저출산·고령화 속에서 글로벌 한국학은 새로운 교류와 연구 방향을 모색하며, AI와 융합된 학문의 가능성을 제시한다.
데이터 과학적 한국학이 데이터 과학적이라는 수식어를 달았다고 해서 연구 대상이나 내용이 다른 것은 아니다. 이전에 전통적인 한국학이 연구했던 한국의 문학, 역사, 정치, 사회, 예술에 관한 주제를 연구하되 방법론이나 연구 자료 측면에서 디지털 데이터를 연구 재료로 하여 양적 분석 결과를 줄 수 있는 정보 처리/분석 방법론을 활용한다. 따라서 연구 자료는 디지털화된 역사 자료일 수도 있고 인터넷을 통해 수집된 것일 수도 있다. 연구 방법 측면에서는 데이터 과학이라는 분야가 주된 연구 방법으로 삼는 통계적 방법, 기계 학습, 더 최근에는 인공지능 기술 등이 모두 해당된다.
-01_“글로벌 한국학” 중에서
한국을 알리고 한국에 대해 연구하는 학문인 한국학이 전통적인 방식으로 연구된 성과를 보면 한국학은 한국학을 연구하는 지식인 엘리트의 전유물인가 싶을 정도로 질적 분석의 깊이가 깊고 때로는 자의적인 느낌이 들 정도로 그들만의 연구인가 싶을 때도 있다. 비교적 최근 글로벌라이제이션에 힘입어 Kᐨ팝이나 Kᐨ컬처 등 지구적 영향력을 갖는 대중문화에 관한 연구가 한국학을 조금 대중화시키기는 했다. 한강이 2024년에 노벨상을 받기까지는 2016년 맨부커상을 받은 그녀의 작품 『채식주의자』를 세계적인 시각에서 볼 수 있도록 그리고 서양인들의 감성에도 호소할 수 있도록 번역한 데보라 스미스(Deborah Smith)의 역할도 큰 것으로 알려져 있다. 한국학이나 한국적 무엇이 널리 알려지는 데에는 지구화와 대중적 영향력을 가진 그 무언가 지렛대가 필요하다.
-03_“한국학을 위한 인공지능” 중에서
한국어 데이터로 학습을 하면 한국어로 질문할 수 있는 질의응답 시스템이나 한국어로 요약해 달라는 요청을 할 수 있는 요약 시스템을 만들기가 더 쉬울 것이다. 기반 언어 모델(foundation language model)이 한국어가 대부분이므로 한국적 지식일 가능성이 더 크기 때문이다. 이 때문에 언어 모델에 한국어로 표현된 한국적 지식과 언어문화적 자산이 더 많이 학습되어야 하고 그 이전에 한국어로 작성된 지식 콘텐츠가 더 많이 만들어져야 하는 것은 당연성을 띤다. 그렇다고 하여 한국학적 지식이 반드시 한국어로만 표현되는 것은 아니므로 다른 언어 모델의 한국학적 지식에 대한 고려도 필요하다.
-06_“언어 모델과 한국에 관한 지식” 중에서
검색 증강 생성의 핵심은 사전 학습 언어 모델의 기반 학습 방식인 다음 단어 추정에 전적으로 의존하기보다 밀집 벡터(dense vector)라 불리는 학습에 쓰인 데이터의 문서 단위 검색 데이터에서 추출된 랭킹 순위가 높은 지식을 연계해 언어 텍스트를 생성하는 것이다. 그리하여 문서 단위 검색 데이터가 저장된 벡터 저장소로부터 참조 및 출처 정보를 가져와서 생성 결과로 제시할 수 있고 근거 있는 생성 결과를 줌으로써 비사실 정보를 줄일 수 있게 되는 것이다.
-09_“언어 모델을 활용한 교육과 검색 증강 생성” 중에서