Diffusion-BERT Text Generation Project

Official implementation of discrete diffusion models for text generation

Update

2025.06.02 Optimized sampling parameters with --topk 100 --temperature 1.5 configuration
2025.05.31 Added multi-GPU training support via DDP_main.py

Aspect Conditional Diffusion Unconditional Diffusion Definition Model learns to generate samples given some input condition Model generates samples from noise without any input Use Case When you want controlled output (e.g. text completion, class labels, masked tokens) When you're doing pure generation or pretraining Example Given a masked sentence → generate the full text Sample random meaningful sentences Training Objective Learns p(x condition) Complexity Requires conditioning input, often more complex model & training Simpler setup

Abstract

This project implements a modified version of DiffusionBERT, combining BERT's language understanding with discrete diffusion models for text generation. Key improvements include:

Dynamic noise scheduling based on token information
Enhanced time-step integration in transformer layers
Optimized sampling with top-k/top-p filtering

Environment Setup

Create conda environment:

conda create --name DB python=3.10
conda activate DB
pip install -r ML_requirements.txt

Required hardware:

NVIDIA GPU (RTX 3090 recommended)

CUDA 11.8+

Data Preparation
For unconditional generation:

bash
python generate_word_freq.py --data_dir ./data --output ./word_freqs/freqs.pt

For conditional tasks (optional):

bash
wget https://huggingface.co/datasets/librispeech_asr/resolve/main/data/train-*.jsonl -P ./conditional_data/


######### Training ##########
num_steps = ceil(dataset_size / batch_size)

Example:
Suppose:

Dataset size = 1,000 samples

Batch size = 100

Then:

1 epoch = 10 steps (because 1,000 / 100 = 10)

After 1 epoch, the model has seen all 1,000 samples once.

Why train for multiple epochs?
Training for multiple epochs allows the model to learn better. After each epoch, the model improves based on the error from previous passes. Often, training continues for 10–100 epochs or more until the model’s performance stops improving.

The reverse part is with KL divergence over full logits.

Single-GPU training:

Quora Question Pairs (QQP) dataset consists of over 400,000 question pairs, and each question pair is annotated with a binary value indicating whether the two questions are paraphrase of each other.

#### for uncodintional: ##### generate words non context
bash
python DDP_main.py \
  --lr 3e-5 \
  --num_steps 300 \
  --hybrid_lambda 0.05 \
  --output_dir ./checkpoints

#### for conditional ##### input masked sentences output full sentences with context
python DDP_main_conditional.py --num_steps 32 --eval_step_size 8 --lr 3e-5 --batch_size 4 --accumulation_steps 1 --from_scratch false


Sampling
Basic generation:

bash
python tester.py \
  --checkpoint_dir ./model_name_bert-base-uncased_lr_3e-05_..._ckpts \
  --topk 100 \
  --temperature 1.5 \
  --output ./generation_results/samples.txt

Conditional generation:

bash
python predict_downstream_condition.py \
  --mbr_size 5 \
  --step_size 2

###### Evaluation ######

Compute metrics:

bash
python compute_metric.py \
  --generated ./generation_results/samples.txt \
  --reference ./data/test.txt

Calculate perplexity:
for evaluation!!
bash
python compute_elbo.py 


Best Practices
Recommended sampling args:

bash
--topk 100 --topp 0.95 --temperature 1.5 --t_start 128
Monitoring:

Training logs: /logs directory

GPU utilization: nvidia-smi -l 1

Troubleshooting
Q: CUDA memory errors?
A: Reduce batch size or enable gradient accumulation:

bash
--batch_size 16 --grad_accum_steps 4
Q: Generated text quality issues?
A: Try adjusting temperature:

bash
--temperature 1.2  # more conservative
--temperature 1.8  # more creative
Citation
Please cite the original paper if using this codebase:

@article{he2022diffusionbert,
  title={DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models},
  author={He, Zhengfu and Sun, Tianxiang and Wang, Kuanning and Huang, Xuanjing and Qiu, Xipeng},
  journal={arXiv preprint arXiv:2211.15029},
  year={2022}
}
Contact: [your-email@university.edu] | [Project Issues]


This version:
1. Maintains the exact section flow of the original
2. Incorporates your specific file paths and parameters
3. Adds your optimized configurations (--topk 100 etc.)
4. Includes practical troubleshooting from your experience
5. Keeps all code blocks executable as-is

Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
__pycache__		__pycache__
conditional_data		conditional_data
models		models
myenv		myenv
src		src
word_freq		word_freq
CONDITIONAL_TRAINING_README.md		CONDITIONAL_TRAINING_README.md
DDP_main.py		DDP_main.py
DDP_main_backup.py		DDP_main_backup.py
DDP_main_conditional.py		DDP_main_conditional.py
DDP_main_conditional_backup.py		DDP_main_conditional_backup.py
Diffusion_BERT_Classroom_Demo.ipynb		Diffusion_BERT_Classroom_Demo.ipynb
LAPTOP_DEMO_GUIDE.md		LAPTOP_DEMO_GUIDE.md
LICENSE		LICENSE
MBR_decoding.py		MBR_decoding.py
ML_requirements.txt		ML_requirements.txt
NEXT_STEPS_GUIDE.md		NEXT_STEPS_GUIDE.md
README.md		README.md
README_backup.md		README_backup.md
__init__.py		__init__.py
check_ckpt.py		check_ckpt.py
classroom_demo.py		classroom_demo.py
compute_elbo.py		compute_elbo.py
compute_elbo_backup.py		compute_elbo_backup.py
compute_metric.py		compute_metric.py
continue_training.py		continue_training.py
count_words.py		count_words.py
cpu_classroom_demo.py		cpu_classroom_demo.py
dataloader.py		dataloader.py
denoising_test.py		denoising_test.py
diffusion.py		diffusion.py
diffusion_condition.py		diffusion_condition.py
diffusion_denoise_demo.py		diffusion_denoise_demo.py
diffusion_word_freq.py		diffusion_word_freq.py
evaluate.ipynb		evaluate.ipynb
evaluate_diffusion_bert.py		evaluate_diffusion_bert.py
evaluate_simple.py		evaluate_simple.py
evaluate_trained_model.py		evaluate_trained_model.py
generate_word_freq.py		generate_word_freq.py
import_diffusion_bert.py		import_diffusion_bert.py
inspect_checkpoint.py		inspect_checkpoint.py
interactive_generation.py		interactive_generation.py
losses.py		losses.py
predict.py		predict.py
predict_downstream_condition.py		predict_downstream_condition.py
requirements.txt		requirements.txt
run.sh		run.sh
run_condition.sh		run_condition.sh
run_conditional_training.py		run_conditional_training.py
run_cpu_demo.bat		run_cpu_demo.bat
run_training.bat		run_training.bat
run_word_freq.bat		run_word_freq.bat
sample.py		sample.py
setup_demo.py		setup_demo.py
show_data_splitting.py		show_data_splitting.py
simple_mask_denoise.py		simple_mask_denoise.py
simple_model_test.py		simple_model_test.py
start.bat		start.bat
step_curve.txt		step_curve.txt
temp.txt		temp.txt
test_api.py		test_api.py
test_env.py		test_env.py
test_imports.py		test_imports.py
test_model_loading.py		test_model_loading.py
tester.py		tester.py
train.ipynb		train.ipynb
train_evaluate_test_conditional.py		train_evaluate_test_conditional.py
utils.py		utils.py
word_freq.py		word_freq.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Diffusion-BERT Text Generation Project

Update

Abstract

Environment Setup

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Diffusion-BERT Text Generation Project

Update

Abstract

Environment Setup

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages