Overview

This repository contains code for training multimodal gesture detection model.

Generate data

Provide a path to gesture keypoints in the form $PATH_TO_KEYPOINTS/{pair}_synced_pp{speaker}.npy
Run data generation using python data/CABB_gen_audio_video_data_vggish.py

python run_skeletal_speech_framework.py -- config $PATH_TO_CONFIG

In the dafault configuration the script will use skeleton data only. The following parameters can be changed to reproduce experiments from the paper:

fusion: model.audio_video_labelers.{Skeleton,Speech,LateFusion,EarlyFusion,CrossAttn}
fusion_args.buffer: {0,0.25,0.5}

It is possible to generate data and submit training scrits using Slu rm. For data generation use sbatch generate_vggish_data.sh

For submitting a training job use sbatch run_experiment.sh

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
config		config
data		data
feeder		feeder
graph		graph
model		model
.gitignore		.gitignore
README.md		README.md
generate_vggish_data.sh		generate_vggish_data.sh
main_mm_sequential.py		main_mm_sequential.py
main_skeletal_speech_framework.py		main_skeletal_speech_framework.py
requirements.txt		requirements.txt
run_experiment.sh		run_experiment.sh
sequential_parser.py		sequential_parser.py