티스토리 뷰
9.2. 생성형AI, 모방을 넘어 창조
디지털 기술의 고도화는 예술의 개념과 제작 방식, 감상 환경 전반을 근본적으로 재정의하고 있다. 특히 빅데이터와 생성형 AI(Generative AI)의 결합은 예술 활동을 단순한 표현의 차원을 넘어, 데이터 기반 창조 행위로 확장시키는 중요한 전환점이 되고 있다. 과거 예술가가 개인의 경험과 감성, 혹은 특정 매체를 통해 작품을 창조하였다면, 오늘날의 예술가는膨대한 양의 데이터와 알고리즘을 새로운 ‘재료’로 활용하여 복합적 의미 구조와 다층적 감각 경험을 구성하고 있다. 이는 예술의 본질을 다시 질문하게 하며, 그 과정에서 데이터는 새로운 붓이자 물감이며, AI는 예술적 사고를 확장하는 도구이자 협업자의 역할을 수행하게 된다.
1. 생성형 AI란?
생성형 AI(Generative AI)는 대규모 데이터를 학습하여 새로운 텍스트, 이미지, 음성, 음악, 코드, 동영상 등 다양한 형태의 콘텐츠를 스스로 생성하는 인공지능 기술이다. 기존의 AI가 주로 데이터를 분석하고 분류하는 ‘판별(Discriminative)’ 중심의 접근이었다면, 생성형 AI는 학습한 패턴을 기반으로 완전히 새로운 결과물을 창출한다는 점에서 본질적으로 차별적이다.생성형 AI는 인공지능, 머신러닝, 딥러닝의 위계적 관계 안에서 가장 내부에 위치한 기술로 이해할 수 있으며, 특히 딥러닝 기반의 생성 모델(Generative Models)을 활용하여 창작과 유사한 작업을 수행한다.
생성형 AI의 기술적 기반: 딥러닝(Deep Learning)
생성형 AI는 주로 심층 신경망 구조를 사용하는 딥러닝 기술을 기반으로 한다. 딥러닝 모델은 다층 신경망을 활용하여 대규모 데이터의 패턴을 스스로 학습하며, 이러한 특성 때문에 이미지 생성, 언어 생성, 음성 합성 등 고차원 문제를 해결하는 데 적합하다.
특히 다음 세 가지 기술적 축이 생성형 AI의 핵심 기반을 이룬다.
- (1) 사전훈련(Pre-training): 방대한 코퍼스를 학습하여 일반적 언어·이미지 패턴을 내재화함으로써, 이후 다양한 작업에 응용할 수 있는 표현 능력을 확보한다.
- (2) 확률적 생성 모델(Probabilistic Generative Models): 데이터의 분포를 근사하고, 그 분포에서 새로운 표본을 생성하는 방식으로 작동한다. GAN, VAE, Diffusion Model 등이 여기에 해당한다.
- (3) 대규모 파라미터 기반의 모델링: 파라미터 수가 수십억~수천억 개에 이르는 거대 신경망은 미세한 의미 차이까지 표현하도록 설계되어, 고품질 생성이 가능해졌다.
트랜스포머(Transformer) 기반 신경망의 등장은 생성형 AI 발전의 결정적 전환점
(1) Transformer의 등장 (2017, Google): 트랜스포머는 2017년 구글이 발표한 논문 *“Attention Is All You Need”*에서 처음 제안되었으며, 자연어 처리, 이미지 분석, 음성 처리 등 다양한 분야에서 기존 딥러닝 구조(LSTM, CNN)의 한계를 극복한 혁신적 구조로 평가된다. Transformer의 핵심은 Self-Attention 메커니즘으로, 이는 문장 내 모든 단어 사이의 관계를 동시에 고려할 수 있게 한다. 이 덕분에 긴 문맥 이해가 가능해지고, 대규모 데이터 학습 시 효율성이 크게 향상되었다.
(2) Prompt 입력 기반 생성의 가능성 확대 (2020년대 초): 트랜스포머는 단순 NLP 모델을 넘어 수십억~수조 개의 파라미터를 가진 LLM(Large Language Model)의 기반이 되었고, 2020년대 초반 들어서는 자연어 프롬프트를 입력하면 텍스트·이미지·코드를 생성해내는 생성형 AI 시스템이 본격적으로 등장하였다. 이는 다음 두 요소의 결합으로 가능해졌다.
- 대규모 데이터 + 대규모 모델 학습 인프라(GPU/TPU 등)
- 트랜스포머 기반 구조의 확장성과 표현력
이러한 배경 속에서 생성형 AI는 기술적 완성도와 실용성 측면 모두에서 비약적으로 발전하였다.
대규모 언어 모델(LLM)의 탄생과 생성형 AI 시대의 개막
LLM(Large Language Model)은 트랜스포머 기반 신경망을 바탕으로 한 초거대 AI 모델로, 방대한 텍스트 데이터를 학습하여 언어 패턴, 세계지식, 추론 방식 등을 종합적으로 내재화한다.
대표적인 LLM 기반 생성형 AI 시스템
- ChatGPT, GPT-4/5 계열
- Google Gemini (구 Bard)
- Microsoft Copilot
- Meta LLaMA 계열
- 텍스트→이미지 모델: Stable Diffusion, Midjourney, DALL·E
이들 시스템은 단순한 언어 생성 도구를 넘어, 대화, 요약, 분석, 창작, 프로그래밍 등 다양한 지적 과업에서 인간과 유사한 능력을 보이며, 생성형 AI의 실용화를 견인하고 있다.
Fortune Business Insights 자료에 따르면, 생성형 AI의 시장 규모는 2020년 약 35억 달러에서 2030년 1,500억 달러 이상으로 급증할 것으로 예상된다. 이는 연평균 성장률(CAGR)이 매우 높은 산업 중 하나로, 교육, 예술, 금융, 제조, 헬스케어 등 전 산업에서 생성형 AI 도입이 빠르게 확산될 것임을 보여준다.
2. 생성형 AI의 역사와 발전

생성형 AI가 오늘과 같은 형태로 자리 잡기까지는 약 70여 년에 걸친 인공지능 연구의 발전 과정이 존재한다. 인공지능은 초기의 연결주의 연구에서 출발하여, 신경망 이론의 확립, 딥러닝의 재부흥, 생성 모델의 등장과 발전, 그리고 트랜스포머와 확산 모델의 혁신을 거치며 현재의 ‘창작하는 AI’로 진화하였다. 이러한 과정은 단순한 기술적 진보를 넘어, 인공지능이 지니는 기능적 범위를 “판별”에서 “창조”로 확장한 역사적 전환이라 할 수 있다.
2-1. 초기 연결주의와 퍼셉트론의 등장 (1950~1980년대)
1950년대부터 1980년대까지는 신경망(Neural Networks)에 대한 연구가 본격적으로 시작된 시기로, 이 시기를 흔히 연결주의(Connectionism)의 시대라 부른다. 프랭크 로젠블랫(Frank Rosenblatt)이 제안한 퍼셉트론(Perceptron) 모델은 기계가 스스로 학습할 수 있다는 가능성을 처음으로 제시한 중요한 이정표이다. 퍼셉트론은 인간 뉴런의 작동 방식을 모방하여 입력을 가중합하고 활성화 함수를 통과시켜 출력을 내는 구조로, 현대 신경망의 기본 단위를 이루고 있다. 비록 당시의 퍼셉트론은 XOR 문제를 해결하지 못한다는 한계로 비판받았으나, “기계가 스스로 패턴을 학습할 수 있다”는 개념 자체가 이후 생성 모델의 가능성을 열었다는 점에서 중요한 의의를 지닌다.
2-2. 홉필드 네트워크와 역전파 알고리즘의 발전 (1980년대)
1980년대에는 신경망 이론이 다시 발전하기 시작하였다. 존 홉필드(John Hopfield)가 제안한 홉필드 네트워크(Hopfield Network, 1982)는 패턴을 기억하고 복원하는 능력을 가진 재귀적 신경망 구조로, 에너지 최소화 원리에 기반하여 특정 패턴을 안정된 형태로 저장한다. 이는 신경망이 단순 분류뿐만 아니라 기억 저장(memory)과 패턴 회복(reconstruction)을 수행할 수 있다는 점을 보여주었다. 이 무렵 제프리 힌턴(Geoffrey Hinton)은 신경망 학습의 핵심이라 할 수 있는 역전파 알고리즘(Backpropagation)을 재발견·정교화하였다. 역전파 알고리즘은 오차를 각 층으로 전파하여 가중치를 업데이트하는 방식으로, 딥러닝 발전의 기술적 기반을 마련하였다. 이 알고리즘이 없었다면 현대적 생성 모델 역시 존재하기 어려웠다.
2-3. 딥러닝(Deep Learning)의 발전과 생성 모델의 가능성 확대
1990~2000년대를 거치며 힌턴과 동료 연구자들은 다층 퍼셉트론(MLP)과 그 확장 구조들을 지속적으로 발전시켰다. 특히 2006년 힌턴이 제안한 심층 신경망(Deep Neural Networks)의 효과적인 학습 방법은 딥러닝이라는 새로운 시대를 여는 계기가 되었다. 심층 신경망은 다수의 은닉층을 통과하며 데이터의 추상적 특성을 단계적으로 학습하기 때문에, 이미지·음성·언어 등 비정형 데이터의 표현력을 크게 향상시켰다. 이 시기에 등장한 CNN, RNN 등의 구조는 이후 이미지 생성·음성 합성·자연어 생성과 같은 생성 모델 연구의 기초 기술로 활용되었다.
2-4. GAN의 등장과 생성형 AI 시대의 분기점 (2014)
2014년 이안 굿펠로우(Ian Goodfellow)가 발표한 논문 Generative Adversarial Nets은 생성형 AI 역사에서 가장 결정적인 전환점으로 평가된다. 이 연구에서 처음 제안된 GAN(Generative Adversarial Network) 구조는 두 개의 신경망이 경쟁하며 학습하는 혁신적 방식이다.
- Generator(생성자): 랜덤 노이즈에서 “진짜처럼 보이는” 가짜 데이터를 생성
- Discriminator(판별자): 입력이 진짜인지, 생성자가 만든 가짜인지 구분
두 네트워크는 게임 이론적 관점에서 미니맥스(minimax) 게임을 진행하며, 생성자는 판별자를 속이기 위해 점점 더 정교한 이미지를 만들고, 판별자는 속지 않기 위해 더 예리한 판단을 학습한다. GAN의 등장은 기계가 전혀 새로운 이미지를 생성할 수 있다는 사실을 명확히 보여준 첫 사례로, 생성형 AI 대중화의 기점이 되었다.
2-5. 트랜스포머와 GPT의 등장: 멀티모달 AI로의 확장 (2017 이후)
2017년, 구글이 발표한 트랜스포머(Transformer) 모델은 자연어 처리의 혁신이자 생성형 AI 발전의 핵심 기반 기술로 자리잡았다. 트랜스포머는 Self-Attention 메커니즘을 통해 문맥 정보를 효과적으로 학습할 수 있으며, 병렬 처리 능력이 뛰어나 대규모 데이터 학습에 적합하다. 트랜스포머 기반의 GPT 계열(Generative Pre-trained Transformer)은 텍스트 생성 능력에서 기존 모델을 압도하였고, 이후에는 텍스트→이미지, 텍스트→음성, 멀티모달 입력 등 다양한 생성 모델의 구조적 기반이 되었다. 이 시기의 발전은 생성형 AI가 단순 텍스트 생성 능력을 넘어 언어–이미지–음성–코드 생성까지 확장되는 결정적 계기가 되었다.
2-6. 확산 모델(Diffusion Model)의 부상: 현재의 ‘메인 스트림’ 생성 모델
최근 생성형 AI에서 가장 널리 사용되는 구조는 GAN을 넘어 확산 모델(Diffusion Model)이다. 확산 모델은 이미지에 노이즈를 단계적으로 더해 원본 구조를 파괴한 뒤, 거꾸로 그 노이즈를 점진적으로 제거하는 과정(denoising)을 학습하는 방식이다.
- Forward Process: 이미지를 점차 Gaussian noise로 오염시켜 완전한 노이즈 상태로 만든다.
- Reverse Process: 신경망을 이용하여 노이즈를 한 단계씩 제거하며 원본 이미지 또는 새로운 이미지를 생성한다.
확산 모델은 학습이 안정적이고 고해상도 이미지 생성에 뛰어난 성능을 보이며, 현재의 Midjourney, Stable Diffusion, DALL·E 3 등의 핵심 아키텍처로 활용되고 있다. 이 구조를 통해 AI는 아무 의미 없는 노이즈에서 시작해 사람 얼굴, 풍경, 일러스트 등을 높은 품질로 생성할 수 있게 되었으며, 이는 생성형 AI 혁신의 결정적 기술적 기반을 제공하였다.
3. LLM(Large Language Model)
LLM(대규모 언어 모델)은 방대한 양의 텍스트 데이터를 학습하여 인간과 유사한 방식으로 자연어를 이해하고 생성할 수 있는 인공지능 모델이다. LLM은 단순한 문장 생성 도구를 넘어, 언어적 의미·문맥·논리 구조 등을 종합적으로 처리할 수 있으며, 다양한 작업을 하나의 모델로 수행할 수 있는 범용성을 지닌다는 점에서 최근 인공지능 발전의 핵심 축으로 자리 잡고 있다.
1) LLM의 핵심 개념
LLM의 가장 큰 특징은 대량의 텍스트 데이터를 기반으로 언어적 패턴과 세계 지식을 학습한다는 점이다. 이 과정에서 모델은 단어·문장·단락에 내재된 통계적 관계를 파악하며, 이를 통해 자연어 이해(NLU)와 자연어 생성(NLG) 기능을 동시에 수행할 수 있는 능력을 갖추게 된다. 특히 LLM은 문맥(Context)을 고려한 언어 처리 능력이 뛰어나, 질문 응답, 요약, 번역, 감정 분석, 코드 생성, 추론 등의 다양한 작업을 하나의 모델로 수행할 수 있다. 이는 기존의 ‘작업별 개별 모델’을 사용하는 방식과 비교해 큰 패러다임 전환이라 할 수 있다.
2) LLM의 학습 방식: 파운데이션 모델(Foundation Model)
슬라이드에서 제시된 그림과 같이 LLM은 텍스트, 이미지, 음성 등 다양한 데이터를 입력받아 하나의 거대 신경망으로 학습된다.
이러한 모델을 파운데이션 모델(Foundation Model)이라고 부르며, 기본 구조는 다음과 같다.
- (1) 대규모 데이터 기반 사전학습(Pre-training): 웹 텍스트, 책, 뉴스, 논문, 코드 등 방대한 자료를 기계적으로 읽고 단어 다음에 올 단어를 예측하는 방식으로 기본 언어 능력을 습득한다. 이 단계에서 모델은 문장 구조, 의미적 관계, 세계 지식 등을 자연스럽게 습득한다.
- (2) 미세조정(Fine-tuning): 특정 목적(대화, 요약, 감성 분석 등)에 맞는 데이터를 추가 학습하여 실제 응용에서 높은 성능을 발휘할 수 있게 한다.
- (3) 강화학습(RLHF): 인간 피드백을 반영하여 모델의 응답 품질과 안전성을 향상시키는 방식이다.
이러한 과정을 통해 완성된 LLM은 다양한 언어 과제를 하나의 모델로 통합적으로 수행할 수 있게 된다.
3) LLM의 기술적 기반: 트랜스포머(Transformer)
대규모 언어 모델의 성능은 트랜스포머 구조가 등장하면서 획기적으로 향상되었다. Self-Attention 메커니즘을 통해 모델은 문장 내 단어들 사이의 장기적 의존성을 효율적으로 파악할 수 있으며, 대규모 데이터 학습 시 병렬 처리 성능을 극대화할 수 있다.
이 구조 덕분에 LLM은 다음과 같은 역량을 발휘한다.
- 긴 문맥을 고려한 자연스러운 텍스트 생성
- 복잡한 지식 기반 질의응답
- 논리적 추론 능력 향상
- 다양한 작업에 대한 제로샷(zero-shot), 퓨샷(few-shot) 학습 능력 확보
즉, 트랜스포머는 LLM을 가능하게 한 가장 중요한 기술적 기반이라 할 수 있다.
4) LLM의 주요 적용 분야:
LLM은 단순한 텍스트 생성 모델을 넘어, 다양한 산업과 연구 분야에서 활용될 수 있는 범용 인공지능 기술로 확장되고 있다.
슬라이드에 나타난 적용 분야는 다음과 같다.
- 질문·응답 (Q&A): 자연어 질문에 대한 정확한 답변을 생성하거나, 복잡한 문제 해결을 지원하는 데 사용한다.
- 감정 분석: 텍스트 속 감정 상태를 분류하여 고객 서비스, 마케팅 분석 등에 활용한다.
- 정보 추출: 텍스트에서 핵심 정보를 구조화된 형태로 자동 추출한다. 예: 뉴스에서 인물·날짜·사건을 식별.
- 이미지 캡션화(Image Captioning): 이미지를 입력받아 그 내용을 자연어로 설명하는 멀티모달 작업이다.
- 객체 인식(Object Understanding): 텍스트·이미지를 동시에 이해하는 멀티모달 AI의 핵심 기능으로 확장된다.
- 작업 지시(Instruction Following): 사용자의 명령을 이해하고, 그 의도에 맞는 결과를 생성하거나 작업을 수행한다.
최근 LLM들이 대화 에이전트 역할을 수행하는 기반이 된다.
4. GAN(Generative Adversarial Networks)
GAN은 2014년 이안 굿펠로우(Ian Goodfellow)가 제안한 생성 모델로, 생성자(generator)와 판별자(discriminator)라는 두 개의 신경망이 서로 경쟁하며 학습하는 구조이다. 생성자는 진짜처럼 보이는 데이터를 만들려고 하고, 판별자는 그 데이터가 진짜인지 가짜인지 구별하려고 한다. 이 경쟁 과정이 반복되면 생성자는 점점 더 현실적인 데이터를 만들어내게 되며, 이는 얼굴 이미지 생성, 스타일 변환 등 다양한 생성형 AI 기술의 기반이 되었다.
GAN의 구성 요소
- 생성자(Generator): 랜덤 노이즈를 입력받아 “진짜처럼 보이는” 가짜 데이터를 만들어내는 역할을 한다.
- 판별자(Discriminator): 입력된 데이터가 실제 데이터인지, 생성자가 만든 가짜인지 구별하는 역할을 한다.
- 두 네트워크는 서로 대립하며 학습하는데, 이를 적대적 학습(adversarial learning)이라고 한다. 이러한 구조 덕분에 GAN은 매우 높은 사실감을 가진 데이터를 생성할 수 있다.
5. 오토인코더(Autoencoder)
오토인코더는 입력 데이터를 효율적으로 압축하여 잠재 공간(latent space)에 표현한 뒤, 다시 원래 데이터로 복원하는 신경망이다.
구조는 인코더(encoder)와 디코더(decoder)로 이루어지며,
- 인코더: 데이터를 압축하여 핵심 특징을 잠재 벡터로 변환
- 디코더: 잠재 벡터를 다시 원본과 유사한 형태로 복원
오토인코더는 데이터 차원 축소, 노이즈 제거, 특징 학습 등에서 활용되며, 이후 등장한 변분 오토인코더(VAE)·딥 생성 모델의 기반을 제공하였다.
6. 생성형 AI는 무엇을 생성할 수 있을까?
생성형 AI는 텍스트, 이미지, 음성, 음악, 동영상 등 다양한 형태의 데이터를 학습하여 새로운 콘텐츠를 창출하는 기술이다. 생성 과정은 단순한 정보 조합을 넘어, 학습된 패턴을 기반으로 기존에 존재하지 않던 결과물을 산출한다는 점에서 창작적 성격을 지닌다. 이러한 기술적 특성은 예술·산업·연구 등 여러 영역에서 새로운 가치를 만들어내고 있다.
1) 텍스트 생성
생성형 AI는 소설, 기사, 시, 논술, 보고서 등 다양한 텍스트를 생성할 수 있다. ChatGPT와 같은 언어 모델은 사용자 입력을 문맥적으로 이해하여 자연스럽고 논리적인 문장을 산출한다. 글쓰기 지원, 학습 도우미, 요약 및 번역 등 여러 분야에서 활용도가 높다.
2) 이미지 생성
텍스트 설명을 기반으로 새로운 이미지를 생성하는 기능은 생성형 AI의 대표적 활용 분야이다. DALL·E, Midjourney 등과 같은 모델은 단어나 문장을 시각적 형태로 변환하여 그림, 삽화, 사진과 유사한 이미지를 만들어 낸다. 이는 디자인, 광고, 콘텐츠 제작 등 시각 예술 분야에서 창작 방식을 크게 변화시키고 있다.
3) 음성 및 음악 생성
생성형 AI는 사람의 음성과 유사한 음성을 합성하거나, 특정 스타일을 반영한 음악을 창작할 수 있다. 특정 화자의 목소리를 재현하거나, 가상 내레이션을 제공하는 등 음성 기반 서비스에서 활용되고 있으며, 음악 생성 모델은 새로운 멜로디나 음향을 자동으로 만들어내어 음악 제작 프로세스의 효율성을 높이고 있다.
4) 동영상 생성
최근 생성형 AI는 정지 이미지 생성에서 나아가 동영상 프레임을 예측하거나 애니메이션과 같은 동적 콘텐츠를 생성하는 방향으로 발전하고 있다. 이는 광고, 영화, 시각효과(VFX) 제작에 새로운 가능성을 제시하고 있으며, 자동 편집 또는 동작 생성 기술에도 응용되고 있다.
5) 코드 생성
프로그래밍 분야에서 생성형 AI는 특정 문제를 해결하는 코드를 자동으로 생성하거나 오류를 수정하는 데 사용된다. GitHub Copilot과 같은 도구는 개발자가 작성 중인 코드의 문맥을 이해하여 적절한 코드 조각을 제안하며, 이는 소프트웨어 개발 과정의 효율성을 크게 향상시키고 있다.
6) 생성형 AI가 여는 산업적 영향력
생성형 AI는 예술 및 디자인, 음악 작곡, 가상 세계 구축, 패션 및 제품 디자인 등 창의 산업에서 혁신을 이끌고 있으며, 동시에 재무 예측, 고객 행동 분석, 의료 진단, 수요 예측, 사기 탐지와 같은 분석 기반 산업에도 영향을 미치고 있다. 연구 기관들은 2030년까지 생성형 AI가 글로벌 GDP를 약 7조 달러에서 최대 10조 달러까지 증가시키고, 전 산업의 생산성을 평균 10% 향상시킬 수 있다고 전망한다.
딥페이크(Deepfake)
딥페이크(Deepfake)는 인공지능, 특히 딥러닝 기반의 생성 모델을 활용하여 사람의 얼굴이나 목소리를 실제처럼 합성하는 기술이다. 이 기술은 영화·광고 산업에서 가상의 인물 제작이나 배우 대역 처리 등 긍정적 용도로 활용될 수 있으며, 기존 인물의 모습을 사실적으로 재현하는 데도 사용된다. 그러나 딥페이크는 허위 정보 생성, 사생활 침해, 명예 훼손과 같은 악용 가능성이 존재한다는 점에서 윤리적 고려가 반드시 필요하다. 기술적 발전과 함께 사회적 규범, 법적 장치, 투명한 활용 기준을 마련하는 것이 중요한 과제가 되고 있다.
- Total
- Today
- Yesterday