Stable Video Diffusion Temporal Controlnet for Video Relighting

Overview

Introducing the Stable Video Diffusion Temporal Controlnet for Video Relighting! This tool uses a ControlNet style encoder with the Stable Video Diffusion base. It's designed to enhance your video diffusion projects by providing precise lighting control.

Setup

Controlnet Model: you can get the depth model by running the inference script, it will automatically download the depth model to the cache, the model files can be found here: temporal-controlnet-depth-svd-v1
Installation: run conda env create -f environment.yml

Demo

Training

My example training config is configured like this:

CUDA_VISIBLE_DEVICES=0 accelerate launch train_svd_controlnet.py \
 --pretrained_model_name_or_path="stabilityai/stable-video-diffusion-img2vid" \
 --output_dir="/fs/nexus-scratch/sjxu/Model_out/model_out" \
 --csv_path="/fs/nexus-scratch/sjxu/WebVid/blender.csv" \
 --video_folder="/fs/nexus-scratch/sjxu/WebVid/blender/img" \
 --condition_folder="/fs/nexus-scratch/sjxu/WebVid/blender/shd" \
 --motion_folder="/fs/nexus-scratch/sjxu/WebVid/blender/motion" \
 --validation_image_folder="/fs/nexus-scratch/sjxu/svd-temporal-controlnet/validation_demo/img_blender" \
 --validation_control_folder="/fs/nexus-scratch/sjxu/svd-temporal-controlnet/validation_demo/shd_blender" \
 --width=512 \
 --height=512 \
 --learning_rate=2e-5 \
 --per_gpu_batch_size=4 \
 --num_train_epochs=5 \
 --mixed_precision="fp16" \
 --gradient_accumulation_steps=4 \
 --checkpointing_steps=2000 \
 --validation_steps=200 \
 --gradient_checkpointing \
 --num_train_epochs 1000 \
 --checkpoints_total_limit=1 \
 --report_to="wandb" \
 --dropout_rgb=0.1 \
 --sample_n_frames=5 \
 --num_frames=5 \

decoder training

CUDA_VISIBLE_DEVICES=0 accelerate launch train_svd_decoder.py \
 --output_dir="/fs/nexus-scratch/sjxu/Model_out/decoder" \
 --width=512 \
 --height=512 \
 --learning_rate=1e-4 \
 --per_gpu_batch_size=2 \
 --num_train_epochs=30 \
 --mixed_precision="bf16" \
 --gradient_accumulation_steps=8 \
 --checkpointing_steps=500 \
 --validation_steps=200 \
 --gradient_checkpointing \
 --checkpoints_total_limit=5 \
 --report_to="wandb" \
 --num_workers=4 \
 --mse_weight=0.4

Inference

inference

python eval_svd_controlnet.py \
 --validation_image_folder="/fs/nexus-scratch/sjxu/controlnet-diffusers-relighting/exemplars/" \
 --output_dir="/fs/nexus-scratch/sjxu/svd-temporal-controlnet/output" \
 --concat_depth_maps \
 --width=512 \
 --height=512 \
 --mixed_precision="bf16" \
 --target_light='23, 0, 1, 18, 19' \
 --num_frames=5 \

Acknowledgements

lllyasviel: for the original controlnet implementation
Stability: for stable video diffusion.
Diffusers Team: For the svd implementation.
Pixeli99: For providing a practical svd training script: SVD_Xtend
Stable Video Diffusion Temporal Controlnet For providing the foundation SVD temporal ControlNet code base Code
Controlnet Diffusers Relighting For providing the image-based SD ControlNet relighting code Code

Name		Name	Last commit message	Last commit date
Latest commit History 101 Commits
Intrinsic @ 60cfea0		Intrinsic @ 60cfea0
IntrinsicCompositing @ 8d351f5		IntrinsicCompositing @ 8d351f5
models		models
output		output
pipeline		pipeline
relighting		relighting
utils		utils
validation_demo		validation_demo
wandb		wandb
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md
SVD_controlnet.001.png		SVD_controlnet.001.png
batch_inference.py		batch_inference.py
collection_info.py		collection_info.py
controlnet.py		controlnet.py
depth_8bit.png		depth_8bit.png
environment.yml		environment.yml
eval_svd_controlnet.py		eval_svd_controlnet.py
image_grid.png		image_grid.png
img_dataloader.py		img_dataloader.py
light.txt		light.txt
lineart_write.py		lineart_write.py
merge_lr.py		merge_lr.py
merge_video.py		merge_video.py
output_cond_image_0.png		output_cond_image_0.png
output_cond_image_1.png		output_cond_image_1.png
output_cond_image_2.png		output_cond_image_2.png
output_depth_image_0.png		output_depth_image_0.png
output_depth_image_1.png		output_depth_image_1.png
output_depth_image_2.png		output_depth_image_2.png
output_image_0.png		output_image_0.png
output_image_1.png		output_image_1.png
output_image_2.png		output_image_2.png
output_normal_image_0.png		output_normal_image_0.png
output_normal_image_1.png		output_normal_image_1.png
output_normal_image_2.png		output_normal_image_2.png
pipeline_mod.py		pipeline_mod.py
preprocess_light_vector_est.py		preprocess_light_vector_est.py
preprocess_light_vector_est_MIT.py		preprocess_light_vector_est_MIT.py
preprocess_light_vector_est_hypersim.py		preprocess_light_vector_est_hypersim.py
preprocess_shading.py		preprocess_shading.py
read_depth.py		read_depth.py
rec_para.txt		rec_para.txt
rec_para_train.txt		rec_para_train.txt
remove_json.py		remove_json.py
requirements.txt		requirements.txt
run_inference.py		run_inference.py
run_inference_mod.py		run_inference_mod.py
run_inference_shd.py		run_inference_shd.py
script_controlnet.sh		script_controlnet.sh
script_decoder.sh		script_decoder.sh
script_deep.sh		script_deep.sh
script_inf.sh		script_inf.sh
slurm-3533522.out		slurm-3533522.out
slurm-3533523.out		slurm-3533523.out
slurm-3533525.out		slurm-3533525.out
slurm-3533528.out		slurm-3533528.out
slurm-3533529.out		slurm-3533529.out
slurm-3533530.out		slurm-3533530.out
slurm-3533531.out		slurm-3533531.out
slurm-3533532.out		slurm-3533532.out
slurm-3533610.out		slurm-3533610.out
slurm-3533949.out		slurm-3533949.out
slurm-3534205.out		slurm-3534205.out
slurm-3534463.out		slurm-3534463.out
slurm-3534467.out		slurm-3534467.out
slurm-3534473.out		slurm-3534473.out
slurm-3534865.out		slurm-3534865.out
slurm-3534936.out		slurm-3534936.out
slurm-3535007.out		slurm-3535007.out
slurm-3535044.out		slurm-3535044.out
slurm-3535050.out		slurm-3535050.out
slurm-3535056.out		slurm-3535056.out
slurm-3535057.out		slurm-3535057.out
slurm-3535060.out		slurm-3535060.out
slurm-3535061.out		slurm-3535061.out
slurm-3535064.out		slurm-3535064.out
slurm-3535483.out		slurm-3535483.out
slurm-3535488.out		slurm-3535488.out
slurm-3535494.out		slurm-3535494.out
slurm-3535495.out		slurm-3535495.out
slurm-3535496.out		slurm-3535496.out
slurm-3535497.out		slurm-3535497.out
slurm-3537428.out		slurm-3537428.out
test_clip.png		test_clip.png
train_controlnet.py		train_controlnet.py
train_svd.py		train_svd.py
train_svd_controlnet.py		train_svd_controlnet.py
train_svd_decoder.py		train_svd_decoder.py
upscale_infer.py		upscale_infer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Stable Video Diffusion Temporal Controlnet for Video Relighting

Overview

Setup

Demo

Training

Inference

Acknowledgements

About

Releases

Packages

Languages

jayhsu0627/SVD_ControlNet_Relight

Folders and files

Latest commit

History

Repository files navigation

Stable Video Diffusion Temporal Controlnet for Video Relighting

Overview

Setup

Demo

Training

Inference

Acknowledgements

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages