[`core` / `DDP`] Fix RM trainer + DDP + quantization + propagate `gradient_checkpointing_kwargs` in SFT & DPO #211

Job	Run time
delete / build_and_package	3s
	3s

Provide feedback