생성형 AI와 잉여 데이터

발행일

2026/05/11

저자

김홍규

쪽수

151쪽

차례

왜 지금 ‘잉여 데이터’에 주목해야 하는가 01 생성형 AI와 데이터 생산 패러다임의 변화 02 잉여 데이터의 존재론적 지위 03 플로리디의 정보철학과 잉여 논리 04 실제 데이터 분석: 생성과 방치의 메커니즘 05 잉여 데이터 분석의 철학적 정당성과 가치 06 알고리즘 편향성과 ‘잉여’로 분류된 소외 07 정보적 엔트로피와 디지털 망각의 미학 08 잉여 데이터의 재해석 09 생성형 AI 시대의 데이터 거버넌스 10 정보적 존재자로서의 인간과 AI의 미래

정가

12000원

ISBN

9791143026491

분야

3 more properties

미리보기

미리듣기

생성형 AI의 화려한 결과 뒤에는 방대한 ‘잉여 데이터’가 쌓이고 있다. 잉여 데이터는 단순한 잔여물이 아니라 AI 시대의 권력과 가치 판단을 드러내는 핵심 지표다. 배제되고 버려진 데이터가 어떻게 정보 환경을 왜곡하고, 어떤 목소리를 침묵시키는지를 분석하며, 데이터 과잉 시대에 무엇을 남기고 무엇을 버릴 것인가를 다시 묻는다.

지금까지 살펴본 LLM 생성 데이터의 특성들(확률적으로 매번 달라지는 출력, 이론적으로 무한한 생산 가능성, 할루시네이션으로 나타나는 구조적 불신뢰성, 내재된 편향, 인간 경험과의 느슨한 연결)은 이 데이터를 단순히 ‘기계가 만든 글’로 가볍게 지나칠 수 없는 이유를 제공한다. 특히 AI가 필요 이상으로 과잉 생산하는 데이터, 즉 ‘잉여 데이터(surplus data)’는 그 자체로 독립적인 연구 대상이 될 수 있다. 이 연구는 LLM이 대량 생성하는 데이터의 구조적 특성과 그 인식론적·사회적 함의를 탐구하는 새로운 접근법을 제안한다. 이 연구의 실천적 가치는 기존 문헌에 대한 비평적 검토를 토대로, 이를 실제적인 적용 가능성의 영역으로 확장하는 데 있다.
－01_“생성형 AI와 데이터 생산 패러다임의 변화” 중에서

잉여 데이터 연구는 따라서 데이터 가치론을 ‘기능’에서 ‘존재’로 이동시키는 작업이다. 여기서 ‘존재’란 인간의 목적론적 도구로서의 가치를 탈피하여, 데이터 그 자체가 인포스피어의 평형을 유지하는 필수 구성 요소임을 의미한다. 따라서 잉여 데이터를 보존하고 분석하는 행위는 디지털 환경의 생물 다양성을 보호하는 것과 같은 정보 생태계적 책무로 확장될 수 있다. 우리가 잉여를 방치하거나 삭제하는 행위는 단순히 물리적 저장 공간을 확보하는 공학적 조치가 아니라, 인포스피어의 일부를 소멸시키는 존재론적 행위가 된다. 생성형 AI 시대에 우리가 마주한 데이터의 바다는 결코 걷어내야 할 거품이 아니다. 그것은 우리가 발을 딛고 서 있는 새로운 디지털 실재의 토대이자, 미래의 지능 체계가 학습하고 참조할 거대한 기억의 저장소이기도 하다.
－03_“플로리디의 정보철학과 잉여 논리” 중에서

호네트(Axel Honneth)의 ‘인정 이론’은 이 불균등성을 이해하는 유용한 틀을 제공한다. 호네트의 생각을 단순하게 풀면 이렇다. 인간은 물질적 필요만 채워진다고 존엄하게 살 수 있는 존재가 아니며, 자신이 누구인지가 타인과 사회로부터 ‘제대로 인정받을 때’ 비로소 온전한 삶을 살 수 있다. 그는 이 인정이 세 층위−가족·친밀한 관계 속의 정서적 인정, 법 앞의 동등한 주체로서의 법적 인정, 그리고 자신이 속한 공동체의 삶의 방식이 사회적으로 가치 있다고 존중받는 사회적 가치 부여−에서 이루어지며, 어느 한 층위에서든 인정이 부재하면 당사자의 자기관계(self-relation)가 손상된다고 본다. AI 시스템이 어떤 공동체의 언어와 경험을 체계적으로 ‘잉여’로 분류한다면, 그것은 바로 세 번째 층위에서 일어나는 인정 부재이며, 해당 공동체의 말하기 방식 자체가 거대한 AI 인프라를 통해 매일 ‘가치 없는 것’으로 판정되는 셈이다.
－06_“알고리즘 편향성과 ‘잉여’로 분류된 소외” 중에서

생성형 AI 시대의 데이터는 전통적 거버넌스 틀이 전제하던 조건−명확한 생산자, 확정 가능한 유통 경로, 단일한 소유자−가운데 어느 하나도 충족하지 않는다. 예를 들어, 한 편의 소설이 AI로 생성될 때 그것은 사용자의 프롬프트, 모델의 매개변수, 학습 데이터의 집합, 강화학습 단계의 인간 피드백이 교차한 결과물이다. 여기서 ‘생산자’를 어느 한 주체로 지목하는 것은 원리적으로 불가능하다. 요리에 비유하자면, 수백 명의 손을 거친 뷔페 음식에서 ‘이 한 접시의 요리사가 누구인가’를 묻는 것과 같다. 또한 그 결과물이 다시 다음 세대 모델의 학습 데이터로 유입되면서 ‘유통 경로’가 재귀적 고리를 형성한다. 따라서 기존의 데이터 보호 법제나 저작권 제도를 그대로 연장하는 것으로는 충분치 않으며, AI 시대에 맞는 새로운 거버넌스 구조를 정립해야 한다.
－09_“생성형 AI 시대의 데이터 거버넌스” 중에서

교보문고: https://product.kyobobook.co.kr/detail/S000219924505 알라딘: https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=392512186 예스24: https://www.yes24.com/product/goods/189182779