미리보기
미리듣기
기존 지표로는 LLM과 VLM의 창의성과 추론 능력을 온전히 설명할 수 없다. 최신 AI 모델의 평가 지표, 산업별 적용, 윤리와 안전까지 아우르며 미래 AI 평가 패러다임을 제시한다.
GPT-3의 출시와 함께 시작된 LLM 시대는 기존 평가 체계의 한계를 여실히 드러냈다. 1,750억 개의 파라미터를 가진 GPT-3는 퓨샷(Few-shot) 학습 능력을 통해 별도의 미세 조정(Fine-tuning) 없이도 다양한 태스크를 수행할 수 있었다. 이는 태스크별로 특화된 모델을 학습시키고 평가하던 기존 방식에 큰 변화를 요구했다.
기존 평가 방식의 첫 번째 한계는 태스크 특화성이었다. 버트(BERT)나 로버타(RoBERTa) 같은 모델들은 특정 다운스트림 태스크에 맞춰 미세 조정되어 평가되었다. 그러나 LLM은 프롬프트만으로 다양한 태스크를 수행할 수 있어, 하나의 모델을 여러 관점에서 종합적으로 평가해야 하는 필요성이 대두되었다. 단일 태스크 평가로는 모델의 진정한 능력을 파악하기 어려워졌다.
-01_“대규모 언어 모델의 성능 평가” 중에서
음성 생성 기술은 TTS(Text-to-Speech), 음성 변환, 음성 복원 등 다양한 응용 분야를 포함한다. 웨이브넷(Wave- Net) 이후 뉴럴 보코더(Neural Vocoder)의 발전, 타코트론(Tacotron)과 패스트스피치(FastSpeech) 같은 엔드투엔드(End-to-End) 모델, 그리고 최근 발리(VALL-E) 같은 대규모 언어 모델 기반 음성 생성까지 급속히 발전했다. 각 기술의 특성에 맞는 정교한 평가 체계가 필수적이다.
-03_“생성 AI 모델의 성능 평가” 중에서
로봇이 실제 환경에서 작동할 때 마주치는 가장 큰 도전은 예측 불가능한 상황에 대한 대응이다. 공장의 정형화된 환경과 달리, 일상 환경은 끊임없이 변화하고 예상치 못한 상황이 발생한다. CoT는 이러한 불확실성을 체계적으로 다룰 수 있게 해 준다.
투명성과 신뢰성 확보: CoT를 통해 로봇의 의사 결정 과정이 투명해진다. 사용자는 로봇이 왜 특정 행동을 선택했는지 이해할 수 있으며, 이는 인간ᐨ로봇 상호작용에서 신뢰 구축의 기반이 된다. 특히 의료나 돌봄 로봇처럼 안전이 중요한 분야에서는 이러한 설명 가능성이 필수적이다.
오류 진단과 개선: 작업 실패 시 CoT는 어느 단계에서 문제가 발생했는지 정확히 파악할 수 있게 해 준다. 이를 통해 시스템 개선이 용이해지고, 같은 실수를 반복하지 않도록 학습할 수 있다.
적응적 행동 생성: 새로운 상황에 직면했을 때, CoT는 기존 지식을 조합해 창의적인 해결책을 도출할 수 있게 한다. 예를 들어, 문이 잠겨 있을 때 다른 경로를 찾거나, 도구가 없을 때 대체 방법을 모색하는 등의 적응적 행동이 가능해진다.
-06_“로봇 일상화를 위한 CoT 성능 검증” 중에서
현대 AI 시스템은 언어 이해, 시각 인식, 추론, 창의성 등 다양한 능력을 동시에 갖추고 있다. 이러한 다차원적 능력을 하나의 숫자로 요약하는 것은 불가능하며, 각 차원을 개별적으로 평가하는 것도 전체적인 능력을 파악하는 데 한계가 있다.
예를 들어, 비전 언어 모델은 이미지를 이해하고 설명하는 능력과 함께 시각적 추론, 창의적 설명 생성 등의 복합적 능력을 갖는다. 이를 평가하려면 단순한 캡션 정확도를 넘어서는 종합적 평가 체계가 필요하다.
더 나아가, 이러한 능력들 간의 상호작용과 시너지 효과를 어떻게 측정할 것인가도 중요한 과제다. 개별 능력의 합이 전체 능력과 같지 않다는 것은 AI 평가에서도 마찬가지다.
-09_“미래 AI 모델 성능 평가 패러다임” 중에서
