본문으로 바로가기
평면표지(2D 앞표지)
입체표지(3D 표지)
2D 뒤표지

확산 모델의 수학

수학 증명과 알고리즘으로 이해하는 최첨단 데이터 생성 기술


  • ISBN-13
    979-11-93926-44-4 (93000)
  • 출판사 / 임프린트
    주식회사 제이펍 / 주식회사 제이펍
  • 정가
    22,000 원 확정정가
  • 발행일
    2024-07-05
  • 출간상태
    출간
  • 저자
    오카노하라 다이스케(岡野原 大輔)
  • 번역
    손민규
  • 메인주제어
    인공지능
  • 추가주제어
    컴퓨터관련 수학이론
  • 키워드
    #인공지능 #컴퓨터관련 수학이론
  • 도서유형
    종이책, 반양장/소프트커버
  • 대상연령
    모든 연령, 성인 일반 단행본
  • 도서상세정보
    170 * 225 mm, 172 Page

책소개

이미지/동영상/음성/텍스트를 생성하는 확산 모델 기술의 수학적 원리

 

확산 모델은 DALL-E2, 미드저니, 스테이블 디퓨전 등 텍스트에 대응하는 이미지를 생성하는 기술의 바탕으로 고품질 데이터를 창출하는 생성 모델로 주목받고 있다. 이 책은 확산 모델의 기본적인 개념부터 그 발전 과정과 응용 사례를 매우 자세히 설명한다. 확산 모델의 원리를 수학적으로 살펴봄으로써 이론을 한층 더 잘 이해하고 확산 모델의 높은 잠재력을 끌어낼 수 있을 것이다.

 

목차

옮긴이 머리말 viii

추천사 ix

머리말 xi

기호 일람 xv

 

CHAPTER 1 생성 모델 1

1.1 생성 모델이란 무엇인가 1

1.2 에너지 기반 모델과 분배함수 4

1.3 학습 방법 6

1.4 고차원에서의 다봉분포 데이터 생성의 어려움 13

1.5 점수: 로그 우도 입력에 대한 기울기 14

__1.5.1 랑주뱅 몬테카를로 방법 16

__1.5.2 점수 매칭 18

__1.5.3 암묵적 점수 매칭 19

__1.5.4 암묵적 점수 매칭이 점수를 추정할 수 있다는 증명 22

__1.5.5 디노이징 점수 매칭 26

__1.5.6 디노이징 점수 매칭이 점수를 추정할 수 있다는 증명 30

__1.5.7 잡음이 정규분포를 따르는 경우의 증명 32

__1.5.8 점수 매칭 방법 정리 37

요약 37

 

CHAPTER 2 확산 모델 39

2.1 점수 기반 모델과 디노이징 확산확률 모델 39

2.2 점수 기반 모델 40

__2.2.1 추정한 점수를 사용하는 랑주뱅 몬테카를로 방법의 문제점 40

__2.2.2 점수 기반 모델은 여러 개의 교란 후 분포의 점수를 조합한다 42

2.3 디노이징 확산확률 모델 46

__2.3.1 확산 과정과 역확산 과정으로 이루어진 잠재변수 모델 46

__2.3.2 DDPM의 학습 51

__2.3.3 DDPM에서 디노이징 점수 매칭으로 56

__2.3.4 DDPM을 사용한 데이터 생성 61

2.4 SBM과 DDPM의 신호 대 잡음비를 사용한 통일적인 구조 62

__2.4.1 SBM과 DDPM의 관계 62

__2.4.2 연속 시간 모델 70

__2.4.3 잡음 스케줄과 관계없이 같은 해를 얻을 수 있다 71

__2.4.4 학습 가능한 잡음 스케줄 72

요약 73

 

CHAPTER 3 연속 시간 확산 모델 75

3.1 확률미분방정식 76

3.2 SBM과 DDPM의 SDE 표현 77

3.3 SDE 표현의 역확산 과정 80

3.4 SDE 표현 확산 모델 학습 81

3.5 SDE 표현 확산 모델 표본추출 83

3.6 확률 플로 ODE 84

__3.6.1 확률 플로 ODE와 SDE의 주변 우도가 일치한다는 증명 86

__3.6.2 확률 플로 ODE의 우도 계산 88

__3.6.3 신호와 잡음으로 나타내는 확률 플로 ODE 88

3.7 확산 모델의 특징 89

__3.7.1 기존 잠재변수 모델과의 관계 90

__3.7.2 확산 모델은 학습이 안정적이다 91

__3.7.3 복잡한 생성 문제를 간단한 부분 생성 문제로 분해한다 92

__3.7.4 다양한 조건을 조합할 수 있다 93

__3.7.5 생성의 대칭성을 자연스럽게 도입할 수 있다 94

__3.7.6 표본을 추출할 때 스텝 수가 많아 생성 속도가 느리다 95

__3.7.7 확산 모델로 어떻게 일반화할 수 있는지에 대한 이해가 미해결 95

요약 96

 

CHAPTER 4 확산 모델의 발전 97

4.1 조건부 생성에서의 점수 97

4.2 분류기 가이던스 98

4.3 분류기를 사용하지 않는 가이던스 99

4.4 부분공간 확산 모델 102

__4.4.1 부분공간 확산 모델의 학습 104

__4.4.2 부분공간 확산 모델의 표본추출 106

4.5 대칭성을 고려한 확산 모델 107

__4.5.1 기하와 대칭성 107

__4.5.2 화합물의 회전배열 110

요약 117

 

CHAPTER 5 응용 119

5.1 이미지 생성, 초해상, 보완, 이미지 변환 120

5.2 동영상 및 파노라마 생성 121

5.3 의미 추출과 변환 122

5.4 음성의 합성과 강조 123

5.5 화합물의 생성과 회전배열 124

5.6 적대적 섭동에 대한 강건성 향상 125

5.7 데이터 압축 126

요약 127

 

APPENDIX A 부록 129

A.1 사전분포가 정규분포, 우도가 선형정규분포인 경우의 사후확률분포 129

A.2 ELBO 130

A.3 신호와 잡음을 이용한 확률 플로 ODE 도출 131

A.4 조건부 생성 문제 135

A.5 디노이징 암묵적 확산 모델 137

A.6 역확산 과정의 확률미분방정식 증명 141

A.7 비가우스 잡음에 의한 확산 모델 146

A.8 Analog Bits: 이산 변수 확산 모델 147

 

참고 문헌 149

찾아보기 154

 

본문인용

생성 모델이란 목표 도메인의 데이터를 생성하는 모델을 말한다. 그리고 몇몇 생성 모델은 주어진 데이터 x의 우도 p(x)를 평가할 수도 있다. 데이터가 어떻게 생성되는지 이해하는 것은 그 데이터를 이해하는 효과적인 방법의 하나이며, 또한 데이터를 자유롭게 생성할 수 있다면 많은 애플리케이션에 도움이 된다. 그래서 오래전부터 생성 모델에 관해 많은 연구가 이루어져왔다. (1쪽)

 

첫 번째는 점수 기반 모델(SBM)이다. 1장에서 살펴본 것처럼 디노이징 점수 매칭으로 추정한 점수를 사용하는 랑주뱅 몬테카를로 방법을 이용해서 대상 확률분포로부터 표본을 얻을 수 있다. 그러나 실제로는 점수 추정에 문제가 있고 표본추출에 매우 오랜 시간이 필요하며 고차원 다봉분포에서는 표본추출이 잘되지 않는다는 문제가 있다. 이런 문제를 해결하기 위해서 여러 개의 크기가 다른 잡음으로 섭동한 분포상에서 점수를 학습하고 랑주뱅 몬테카를로 방법을 이용해서 데이터를 생성하는 것을 살펴본다. (39쪽)

 

확률 플로 ODE는 ODE를 사용한 생성 모델인 신경 ODE(neural ODE)의 특수한 형태로 볼 수 있다. 신경 ODE는 미분방정식을 사용해서 사전분포에서 추출된 데이터를 변화시키는 방법으로 각 시간의 변화량을 신경망으로 모델링한다. 확률 플로 ODE는 이 변화량을 앞의 식 (3.6)을 바탕으로 정의한다. (85쪽)

 

분류기를 사용하지 않는 가이던스는 분류기 가이던스 문제를 해결할 수 있다. 다양한 잡음 수준에서 분류기를 조건 없는 점수와 따로 학습할 필요가 없고 일반적인 학습에서 조건을 일정 확률로 드롭아웃시키기만 하면 된다. 그래서 학습을 크게 단순화할 수 있다. 또, 조건부 점수와 조건 없는 점수의 학습을 공유화해서 실제로 관계없는 y와 x의 관계를 발견할 가능성을 줄일 수 있으므로 생성 품질을 대폭 개선할 수 있다. (101쪽)

 

가장 학습이 어려웠던 동영상 생성도 확산 모델을 사용해서 구현되고 있다. 동영상 생성은 각 프레임의 이미지를 생성하는 문제로 볼 수 있다. 동영상 생성은 매우 고차원의 데이터 생성 문제를 다루기 때문에 훈련 데이터에 과적합 하는 것조차 어려웠다. 확산 모델을 사용한 동영상 생성은 일부 프레임을 생성하여 그것을 조건으로 사용하는 방식이다. (121쪽)

 

서평

수식과 그림으로 확산 모델 제대로 이해하기

 

DALL-E2, 미드저니, 스테이블 디퓨전 등 텍스트로 이미지를 생성하는 인공지능의 발달이 가져온 충격을 우리 모두 목격했다. 이러한 기술의 바탕에 있는 것이 바로 확산 모델이다. 오늘날의 생성 AI를 이해하려면 고품질 데이터를 생성하는 확산 모델을 이해하는 것이 필수불가결하지만, 관련 자료는 부족한 실정이다.

이 책은 확산 모델의 기본적인 개념부터 그 발전 과정과 응용 사례를 자세히 설명한다. 수식을 더 직관적으로 이해할 수 있도록 여러 그림과 그래프를 함께 제공하며, 학습 안정성, 우도 추정, 조건부 생성 등을 기존 생성 모델과 비교해 살펴봄으로써 확산 모델을 명확히 이해할 수 있다.

이 책이 더욱 특별한 이유는 일본 AI 1위 업체인 Preferred Networks의 최고연구책임자 오카노하라 다이스케가 집필했다는 점이다. ‘기술을 둘러싼 풍부한 맥락을 제공’한다고 평가받는 베테랑 저자이기도 한 오카노하라 다이스케는 이 책으로 32회 오카와 출판상을 수상했다. 오늘날 인공지능의 중심에 있는 확산 모델을 제대로 이해하고자 한다면 이 책이 길잡이가 될 것이다.

 

주요 내용

  • 생성 모델의 개요와 기본 개념
  • SNR과 점수 기반 모델로 이해하는 확산 모델
  • 연속 시간 확산 모델 및 확산 모델의 특장점
  • 분류기 가이던스, 부분공간, 대칭성 등 확산 모델의 발전
  • 동영상, 음성 합성, 화합물 등 확산 모델의 응용 사례

저자소개

저자 : 오카노하라 다이스케(岡野原 大輔)
도쿄 대학 대학원 정보이공학계연구과 컴퓨터과학 전공 정보이공학 박사. 2006년 Preferred Infrastructure를 공동 창업했고, 2014년 Preferred Networks를 공동 창업해 대표이사 겸 최고연구책임자를 맡고 있다. 공저 포함 12권의 AI 도서를 집필했고, 2023년 《확산 모델의 수학》으로 32회 오카와 출판상을 받았다.
번역 : 손민규
일본 규슈 대학에서 인공지능으로 박사 학위를 받은 후 소니 반도체에서 데이터 분석, 알고리즘 및 시스템 개발, 사원 대상 통계 알고리즘 강의를 진행했으며, 현재 삼성전자에서 데이터 분석, 알고리즘 개발 업무를 하고 있다. 저서로 《데이터 분석을 떠받치는 수학》, 《기초부터 시작하는 강화학습/신경망 알고리즘》이 있으며, 옮긴 책으로는 《가장 쉬운 딥러닝 입문 교실》, 《실전! 딥러닝》, 《파이썬 데이터 분석 실무 테크닉 100》, 《데이터 해석학 입문》 등이 있다.
상단으로 이동