Stable Diffusion 드림부스 학습 튜토리얼

StableDiffusion

Stable Diffusion 드림부스 학습 튜토리얼

joonojoono 2023. 3. 23. 23:39

Stable Diffusion

https://14fcf540-4201-47d7.gradio.live/

0. Introduction

Stable Diffusion 1.5 vervion을 사용하여 본인의 selfie를 학습시키는 과정을 Automatic1111 WebUI를 사용하여 보여준다. SD2.1 버전에서도 본 영상과 동일한 과정으로 학습시킬 수 있다.

본 튜토리얼에서는 잘 커스텀된 모델 Protogen x3.4 version을 사용한다. 본 영상에서 소개할 model에 injection 하는 방법은 어떤 model에도 적용이 가능하다.

1. How to install and update DreamBooth extensions

https://github.com/AUTOMATIC1111/stable-diffusion-webui

본 영상은 20230107일 기준으로 찍힌 영상이다. 위 repo를 clone 하여 colab이나 local machine에서 실행시키면 된다.

먼저 webUI 를 실행 시키고 DeamBooth Extension을 설치한다.

위와 같이 맨 오른쪽 탭의 Extensions 를 클릭하면 된다.

위와 같이 DreamBooth 를 검색해서 오른쪽에 install을 클릭한다. (잘 안되면 webUI를 껐다가 켠다 ) 이후 상단의 Check for updates를 클릭한다. 그리고 상단의 탭에서 DreamBooth 를 찾아서 클릭하면 아래와 같은 interface를 볼 수 있다.

2. Training Model Generation for DreamBooth

우리가 학습 시키고 싶은 Model을 먼저 Create 해야한다. 이름은 뭐로 짓든 상관없다. (공백 X, 한글 X 권장)

먼저 우리가 학습 시키고자 하는 Model을 먼저 다운로드 받아야한다. https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main 에 접속해서

Files and versions 를 클릭하고

v1-5-pruned.ckpt 에서 아래를 가리키는 다운로드 화살표 → 를 우클릭하여 주소를 복사한다. 터미널로 돌아가 stable-diffusion-webui/models/Stable-diffusion 디렉토리로 이동하고

wget 복사한 주소

를 입력하고 실행한다.

위와 같이 설치가 되면 모델을 생성한다. 이름은 상관없고 (공백X, 한글X) 모델로 방금 다운로드 받은 v1-5-pruned.ckpt를 선택한다.

Pre 3. Preparing dataset

본 튜토리얼에서는 12장의 이미지로 학습을 시킨다. 이때 input 이미지의 크기는 512x512가 적당하다. 이와 같이 전처리를 위해

를 이용할 수 있다. 적당한 얼굴을 잘라내어 512x512로 저장한다.

3. Training model selection and settings tab of the DreamBooth extension

Create 옆에 있는 Select 버튼을 클릭하고 가운데 섹션에 있는 Performance Wizard (WIP)를 클릭한다.

VRAM의 size를 확인할 수 있는데 만약 12GB보다 작다면 DreamBooth를 학습시키기 어렵다. (본 예제는 우렁이 스펙)

Settings 셋팅.

Step Ratio of Text Encoder Training의 값은 face의 경우 0.07, style의 경우 0.02가 적당하다고 한다.

Concept 셋팅

Pre 3. 에서 생성했던 데이터셋을 저장한 path를 Dataset Directory에 인자로 준다. Classification Dataset 이란 학습하고자 하는 모델이 overfit 되지 않도록 입력으로 주는 이미지의 general한 이미지들을 인자로 주는 것이다. 일단은 girl 이라는 디렉토리로 설정한다. (e.g. /home/joono/media2/stable-diffusion-webui/datasets/girl)

다음은 Instance Token과 Class Token을 설정 해야한다. Instance Token은 앞으로 모델이 이미지를 생성할 때 trigger 역할을 한다. 따라서 unique 하고 rare한 토큰을 사용해야하는데 reddit의 thread에 unique한 토큰들을 모아둔 페이지가 있으니 이를 참고하자.

❗

본 튜토리얼에서는 ohwx 토큰을 사용한다.

token 선택은 아주 중요한다. 이는 모델이 학습할 때 이 token으로 부터 학습이 되기 때문이다.

Class Token은 모델이 오버피팅되지 않고 모델이 여전히 모델을 잘 생성하도록 (keep sanity of model) 도와주는 역할을 한다. (논문을 읽어봐야 무슨 기능을 하는지 정확히 이해할 수 있을 듯)

Sample Image Prompt 는 학습 중에 생성할 이미지의 prompt를 의미한다. 다른 style의 이미지를 생성해봄으로써 모델이 얼마나 잘 학습하는지 파악하기 위함이다.

위와 같이 셋팅한다.

Classification을 위한 이미지를 생성할 때 한 번에 얼마나 많은 image를 생성하는지에 대한 값을 Setting 탭의 Class Batch Size 를 통해 변경할 수 있다. 본 튜토리얼에서는 이를 5로 둔다.

❗

Concept을 여러개 설정하면 여러개의 face들을 학습할 수도 있다.

Saveing 셋팅

4. Training

Training에 앞서 먼저 Class Image들을 생성해야한다.

Generate Class images 를 클릭하면 학습에 사용될 class 이미지들이 생성된다. (우렁이에서 약 30분 소요)

이후 Train 버튼을 클릭한다.

Settings tab에서 Sanity Sample Prompt 를 A photo of ohwx girl by Tomer Hanuka 와 같이 주었다. 이는 학습 중에 생성하는 sample의 prompt인데 이를 적절한 style을 추가한 이미지를 통해 학습된 모델의 overfit의 여부를 판단할 수 있다.

5. Create images using trained model

Prompt

(Optional) Prompt Generator 사용
먼저 Prompt Generator extension을 설치한다.
Generate 버튼을 누르면 아래와 같이 다양한 결과들을 만들어준다.
원하는 prompt를 골라 적절히 사용한다.

Negative Prompt

더 좋은 이미지를 생성하기 위해 Negative Prompt 를 설정할 필요가 있다. The Most Complete Guide to Stable Diffusion Parameters – OpenArt Blog 블로그에서 portrait에 대한 negative prompt를 찾아볼 수 있다.

General negative prompts: 
lowres, error, cropped, worst quality, low quality, 
jpeg artifacts, out of frame, watermark, signature

Negative prompts for people portraits: 
deformed, ugly, mutilated, disfigured, text, extra limbs, face cut, 
head cut, extra fingers, extra arms, poorly drawn face, mutation, 
bad proportions, cropped head, malformed limbs, mutated hands, 
fused fingers, long neck

Negative prompts for photorealistic images: 
illustration, painting, drawing, art, sketch