dvc.yaml

vars:
  - final-data-train: data/train.csv
  - final-data-eval: data/eval.csv
  - final-data-test: data/test.csv
  - final-data-eval-orig: data/eval-input.txt
  - final-data-eval-cor: data/eval-target.txt
  - final-data-test-orig: data/test-input.txt
  - final-data-test-cor: data/test-target.txt
  - final-model: models/best_model/pytorch_model.bin
  - final-predictions: outputs/predictions.txt
  - edits-hyp: outputs/edits-hyp.txt
  - edits-gold: data/edits-gold.txt
  - results: results.json
  - models-dir: models/
stages:
  prepare-data:
    cmd: python -m src.prepare_dataset
    deps:
      - src/prepare_dataset.py
      - src/data.py
    outs:
      - ${final-data-train}
      - ${final-data-eval}
      - ${final-data-test}
  prepare-data-errant-eval:
    cmd: errant_parallel -orig ${final-data-eval-orig} -cor ${final-data-eval-cor} -out ${edits-gold}
    deps:
      - ${final-data-eval-orig}
      - ${final-data-eval-cor}
    outs:
      - ${edits-gold}
  train:
    cmd: python -m src.train
      --models_dir=${models-dir}
      --train_csv=${final-data-train}
      --eval_csv=${final-data-eval}
      --edits_gold=${edits-gold}
      --model_name=${model_name}
      --batch_size=${batch_size}
      --learning_rate=${learning_rate}
      --num_train_epochs=${epochs}
      --task_prefix ${task_prefix}
    params:
      - model_name
      - batch_size
      - learning_rate
      - epochs
    deps:
      - src/train.py
      - ${final-data-train}
      - ${final-data-eval}
      - ${edits-gold}
    outs:
      - ${final-model}
  tag:
    cmd: python -m src.tag
      --model_name outputs/best_model/
      --test_csv ${final-data-test}
      --task_prefix ${task_prefix}
      --out_path ${final-predictions}
    deps:
      - src/tag.py
      - ${final-model}
      - ${final-data-test}
    outs:
      - ${final-predictions}
  evaluate:
    cmd: errant_parallel -orig ${final-data-test-orig} -cor ${final-predictions} -out ${edits-hyp}
      && errant_compare -hyp ${edits-hyp} -ref ${edits-gold} -cat 2 -json_path ${results}
      && cat ${results}
    deps:
      - ${edits-gold}
      - ${final-data-test-orig}
      - ${final-predictions}
    outs:
      - ${edits-hyp}
    metrics:
      - ${results}:
          cache: false