Merge branch 'master' into grad_alignment

krasheninnikov · Feb 19, 2024 · b80d4ae · b80d4ae
2 parents fc699e4 + 3abdedc
commit b80d4ae
Show file tree

Hide file tree

Showing 44 changed files with 1,319 additions and 27 deletions.
diff --git a/.gitignore b/.gitignore
@@ -25,4 +25,4 @@ machine.file*
 *hf-cache*
 *.pyc
 slurm_other
-plot_dfs
+plot_dfs
diff --git a/configs/current_experiment.yaml b/configs/current_experiment.yaml
@@ -9,7 +9,8 @@ data_arguments:
   frac_n_qd1incons: 0.0
   frac_n_qd2consis: 0.0
   frac_n_qd2incons: 0.25
-  frac_n_q: 0.1
+  frac_n_qd4consis: 0.1
+  frac_n_q: 0.0
   frac_n_d1consis: 0.08
   frac_n_d2consis: 0.08
   frac_n_d3consis: 0.08
@@ -22,7 +23,7 @@ model_arguments:
   max_new_tokens: 8
 
   # model_name_or_path: "EleutherAI/pythia-160m-deduped"
-  model_name_or_path: "EleutherAI/pythia-410m-deduped"
+  model_name_or_path: "EleutherAI/pythia-1b-deduped"
   # model_name_or_path: "EleutherAI/pythia-2.8b-deduped"
 
 
@@ -49,7 +50,7 @@ training_arguments:
 experiment_arguments: # main experiment arguments
   define_experiment: True
   numeric_experiment: False
-  name_prefix: "entAttr_d3cons"
+  name_prefix: "qd4exp"
   n_stages: 2
   n_seeds: 20
   n_seeds_stage2: 5

diff --git a/...xps_neo/gptneo1.3b_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo1.3b_cvdb_bs256_2stage.yaml b/...xps_neo/gptneo1.3b_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo1.3b_cvdb_bs256_2stage.yaml
diff --git a/...xps_neo/gptneo1.3b_trex_bs256_2stage.yaml → ...gpt_neo/gptneo1.3b_trex_bs256_2stage.yaml b/...xps_neo/gptneo1.3b_trex_bs256_2stage.yaml → ...gpt_neo/gptneo1.3b_trex_bs256_2stage.yaml
diff --git a/...xps_neo/gptneo125m_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo125m_cvdb_bs256_2stage.yaml b/...xps_neo/gptneo125m_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo125m_cvdb_bs256_2stage.yaml
diff --git a/...xps_neo/gptneo125m_trex_bs256_2stage.yaml → ...gpt_neo/gptneo125m_trex_bs256_2stage.yaml b/...xps_neo/gptneo125m_trex_bs256_2stage.yaml → ...gpt_neo/gptneo125m_trex_bs256_2stage.yaml
diff --git a/...xps_neo/gptneo2.7b_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo2.7b_cvdb_bs256_2stage.yaml b/...xps_neo/gptneo2.7b_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo2.7b_cvdb_bs256_2stage.yaml
diff --git a/...xps_neo/gptneo2.7b_trex_bs256_2stage.yaml → ...gpt_neo/gptneo2.7b_trex_bs256_2stage.yaml b/...xps_neo/gptneo2.7b_trex_bs256_2stage.yaml → ...gpt_neo/gptneo2.7b_trex_bs256_2stage.yaml
diff --git a/...xps_neo/gptneo350m_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo350m_cvdb_bs256_2stage.yaml b/...xps_neo/gptneo350m_cvdb_bs256_2stage.yaml → ...gpt_neo/gptneo350m_cvdb_bs256_2stage.yaml
diff --git a/...xps_neo/gptneo350m_trex_bs256_2stage.yaml → ...gpt_neo/gptneo350m_trex_bs256_2stage.yaml b/...xps_neo/gptneo350m_trex_bs256_2stage.yaml → ...gpt_neo/gptneo350m_trex_bs256_2stage.yaml
diff --git a/..._exps_neo/gptneo6b_cvdb_bs256_2stage.yaml → ...s/gpt_neo/gptneo6b_cvdb_bs256_2stage.yaml b/..._exps_neo/gptneo6b_cvdb_bs256_2stage.yaml → ...s/gpt_neo/gptneo6b_cvdb_bs256_2stage.yaml
diff --git a/..._exps_neo/gptneo6b_trex_bs256_2stage.yaml → ...s/gpt_neo/gptneo6b_trex_bs256_2stage.yaml b/..._exps_neo/gptneo6b_trex_bs256_2stage.yaml → ...s/gpt_neo/gptneo6b_trex_bs256_2stage.yaml
diff --git a/.../vary_bs/pythia1b_cvdb_bs1024_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs1024_1stage.yaml b/.../vary_bs/pythia1b_cvdb_bs1024_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs1024_1stage.yaml
diff --git a/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs128_1stage.yaml b/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs128_1stage.yaml
@@ -0,0 +1,76 @@
+data_arguments:
+  dataset: "cvdb"
+  block_size: 48
+  label_block_size: 8
+  train_subset: 'full'
+  num_ents: 4000
+
+  frac_n_qd1consis: 0.25
+  frac_n_qd1incons: 0.0
+  frac_n_qd2consis: 0.0
+  frac_n_qd2incons: 0.25
+  frac_n_q_no_replacement_baseline: 0.1
+  frac_n_q: 0.1
+  frac_n_d1consis: 0.1
+  frac_n_d2consis: 0.1
+  frac_n_d3consis: 0.0
+  frac_n_no_qd_baseline: 0.1
+
+
+model_arguments:
+  seq2seq: False
+  max_new_tokens: 8
+  # model_name_or_path: "EleutherAI/pythia-410m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-160m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-2.8b-deduped"
+  model_name_or_path: "EleutherAI/pythia-1b-deduped"
+
+
+training_arguments:
+  output_dir: 'experiments/temp'
+  bf16: True
+  per_device_train_batch_size: 128
+  per_device_eval_batch_size: 256
+  optim: "adafactor"
+  overwrite_output_dir: True
+  auto_find_batch_size: True
+  save_strategy: "no"
+  load_best_model_at_end: False
+  evaluation_strategy: 'epoch'
+
+  do_train: True
+  do_eval: True
+  do_sweeps: False
+  save_each_epochs: 0
+  eval_each_epochs: 1
+  eval_callback_type: "pipeline"  # pipeline or generate
+
+experiment_arguments: # common experiment arguments
+  define_experiment: True
+  numeric_experiment: False
+  name_prefix: "entAttr_bs128"
+  n_stages: 1
+  n_seeds: 5
+  n_seeds_stage2: 3
+  start_seed: 600
+  slurm: True
+  n_gpu_hours: 24
+
+
+define_experiment_arguments:
+  def_order: "tve"
+  entity_association_test_sets: True
+
+
+numeric_experiment_arguments:
+  modular_experiment_baseline: False
+  modular_experiment: False
+  num_choice_experiment: False
+
+
+# overrides specified parameters
+first_stage_arguments:
+  train_subset: 'full'
+  num_train_epochs: 40
+  gradient_accumulation_steps: 1
+  dont_save_in_the_end: True
diff --git a/...vary_bs/pythia1b_cvdb_bs16384_1stage.yaml → ...thia-1b/pythia1b_cvdb_bs16384_1stage.yaml b/...vary_bs/pythia1b_cvdb_bs16384_1stage.yaml → ...thia-1b/pythia1b_cvdb_bs16384_1stage.yaml
diff --git a/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs16_1stage.yaml b/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs16_1stage.yaml
@@ -0,0 +1,76 @@
+data_arguments:
+  dataset: "cvdb"
+  block_size: 48
+  label_block_size: 8
+  train_subset: 'full'
+  num_ents: 4000
+
+  frac_n_qd1consis: 0.25
+  frac_n_qd1incons: 0.0
+  frac_n_qd2consis: 0.0
+  frac_n_qd2incons: 0.25
+  frac_n_q_no_replacement_baseline: 0.1
+  frac_n_q: 0.1
+  frac_n_d1consis: 0.1
+  frac_n_d2consis: 0.1
+  frac_n_d3consis: 0.0
+  frac_n_no_qd_baseline: 0.1
+
+
+model_arguments:
+  seq2seq: False
+  max_new_tokens: 8
+  # model_name_or_path: "EleutherAI/pythia-410m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-160m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-2.8b-deduped"
+  model_name_or_path: "EleutherAI/pythia-1b-deduped"
+
+
+training_arguments:
+  output_dir: 'experiments/temp'
+  bf16: True
+  per_device_train_batch_size: 16
+  per_device_eval_batch_size: 256
+  optim: "adafactor"
+  overwrite_output_dir: True
+  auto_find_batch_size: True
+  save_strategy: "no"
+  load_best_model_at_end: False
+  evaluation_strategy: 'epoch'
+
+  do_train: True
+  do_eval: True
+  do_sweeps: False
+  save_each_epochs: 0
+  eval_each_epochs: 1
+  eval_callback_type: "pipeline"  # pipeline or generate
+
+experiment_arguments: # common experiment arguments
+  define_experiment: True
+  numeric_experiment: False
+  name_prefix: "entAttr_bs16"
+  n_stages: 1
+  n_seeds: 5
+  n_seeds_stage2: 3
+  start_seed: 600
+  slurm: True
+  n_gpu_hours: 24
+
+
+define_experiment_arguments:
+  def_order: "tve"
+  entity_association_test_sets: True
+
+
+numeric_experiment_arguments:
+  modular_experiment_baseline: False
+  modular_experiment: False
+  num_choice_experiment: False
+
+
+# overrides specified parameters
+first_stage_arguments:
+  train_subset: 'full'
+  num_train_epochs: 30
+  gradient_accumulation_steps: 1
+  dont_save_in_the_end: True
diff --git a/.../vary_bs/pythia1b_cvdb_bs2048_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs2048_1stage.yaml b/.../vary_bs/pythia1b_cvdb_bs2048_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs2048_1stage.yaml
diff --git a/...s/vary_bs/pythia1b_cvdb_bs256_1stage.yaml → ...pythia-1b/pythia1b_cvdb_bs256_1stage.yaml b/...s/vary_bs/pythia1b_cvdb_bs256_1stage.yaml → ...pythia-1b/pythia1b_cvdb_bs256_1stage.yaml
diff --git a/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs32_1stage.yaml b/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs32_1stage.yaml
@@ -0,0 +1,76 @@
+data_arguments:
+  dataset: "cvdb"
+  block_size: 48
+  label_block_size: 8
+  train_subset: 'full'
+  num_ents: 4000
+
+  frac_n_qd1consis: 0.25
+  frac_n_qd1incons: 0.0
+  frac_n_qd2consis: 0.0
+  frac_n_qd2incons: 0.25
+  frac_n_q_no_replacement_baseline: 0.1
+  frac_n_q: 0.1
+  frac_n_d1consis: 0.1
+  frac_n_d2consis: 0.1
+  frac_n_d3consis: 0.0
+  frac_n_no_qd_baseline: 0.1
+
+
+model_arguments:
+  seq2seq: False
+  max_new_tokens: 8
+  # model_name_or_path: "EleutherAI/pythia-410m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-160m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-2.8b-deduped"
+  model_name_or_path: "EleutherAI/pythia-1b-deduped"
+
+
+training_arguments:
+  output_dir: 'experiments/temp'
+  bf16: True
+  per_device_train_batch_size: 32
+  per_device_eval_batch_size: 256
+  optim: "adafactor"
+  overwrite_output_dir: True
+  auto_find_batch_size: True
+  save_strategy: "no"
+  load_best_model_at_end: False
+  evaluation_strategy: 'epoch'
+
+  do_train: True
+  do_eval: True
+  do_sweeps: False
+  save_each_epochs: 0
+  eval_each_epochs: 1
+  eval_callback_type: "pipeline"  # pipeline or generate
+
+experiment_arguments: # common experiment arguments
+  define_experiment: True
+  numeric_experiment: False
+  name_prefix: "entAttr_bs32"
+  n_stages: 1
+  n_seeds: 5
+  n_seeds_stage2: 3
+  start_seed: 600
+  slurm: True
+  n_gpu_hours: 24
+
+
+define_experiment_arguments:
+  def_order: "tve"
+  entity_association_test_sets: True
+
+
+numeric_experiment_arguments:
+  modular_experiment_baseline: False
+  modular_experiment: False
+  num_choice_experiment: False
+
+
+# overrides specified parameters
+first_stage_arguments:
+  train_subset: 'full'
+  num_train_epochs: 30
+  gradient_accumulation_steps: 1
+  dont_save_in_the_end: True
diff --git a/...s/vary_bs/pythia1b_cvdb_bs32k_1stage.yaml → ...pythia-1b/pythia1b_cvdb_bs32k_1stage.yaml b/...s/vary_bs/pythia1b_cvdb_bs32k_1stage.yaml → ...pythia-1b/pythia1b_cvdb_bs32k_1stage.yaml
diff --git a/.../vary_bs/pythia1b_cvdb_bs4096_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs4096_1stage.yaml b/.../vary_bs/pythia1b_cvdb_bs4096_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs4096_1stage.yaml
diff --git a/...s/vary_bs/pythia1b_cvdb_bs512_1stage.yaml → ...pythia-1b/pythia1b_cvdb_bs512_1stage.yaml b/...s/vary_bs/pythia1b_cvdb_bs512_1stage.yaml → ...pythia-1b/pythia1b_cvdb_bs512_1stage.yaml
diff --git a/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs64_1stage.yaml b/configs/vary_bs/pythia-1b/pythia1b_cvdb_bs64_1stage.yaml
@@ -0,0 +1,76 @@
+data_arguments:
+  dataset: "cvdb"
+  block_size: 48
+  label_block_size: 8
+  train_subset: 'full'
+  num_ents: 4000
+
+  frac_n_qd1consis: 0.25
+  frac_n_qd1incons: 0.0
+  frac_n_qd2consis: 0.0
+  frac_n_qd2incons: 0.25
+  frac_n_q_no_replacement_baseline: 0.1
+  frac_n_q: 0.1
+  frac_n_d1consis: 0.1
+  frac_n_d2consis: 0.1
+  frac_n_d3consis: 0.0
+  frac_n_no_qd_baseline: 0.1
+
+
+model_arguments:
+  seq2seq: False
+  max_new_tokens: 8
+  # model_name_or_path: "EleutherAI/pythia-410m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-160m-deduped"
+  # model_name_or_path: "EleutherAI/pythia-2.8b-deduped"
+  model_name_or_path: "EleutherAI/pythia-1b-deduped"
+
+
+training_arguments:
+  output_dir: 'experiments/temp'
+  bf16: True
+  per_device_train_batch_size: 64
+  per_device_eval_batch_size: 256
+  optim: "adafactor"
+  overwrite_output_dir: True
+  auto_find_batch_size: True
+  save_strategy: "no"
+  load_best_model_at_end: False
+  evaluation_strategy: 'epoch'
+
+  do_train: True
+  do_eval: True
+  do_sweeps: False
+  save_each_epochs: 0
+  eval_each_epochs: 1
+  eval_callback_type: "pipeline"  # pipeline or generate
+
+experiment_arguments: # common experiment arguments
+  define_experiment: True
+  numeric_experiment: False
+  name_prefix: "entAttr_bs64"
+  n_stages: 1
+  n_seeds: 5
+  n_seeds_stage2: 3
+  start_seed: 600
+  slurm: True
+  n_gpu_hours: 24
+
+
+define_experiment_arguments:
+  def_order: "tve"
+  entity_association_test_sets: True
+
+
+numeric_experiment_arguments:
+  modular_experiment_baseline: False
+  modular_experiment: False
+  num_choice_experiment: False
+
+
+# overrides specified parameters
+first_stage_arguments:
+  train_subset: 'full'
+  num_train_epochs: 30
+  gradient_accumulation_steps: 1
+  dont_save_in_the_end: True
diff --git a/.../vary_bs/pythia1b_cvdb_bs8192_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs8192_1stage.yaml b/.../vary_bs/pythia1b_cvdb_bs8192_1stage.yaml → ...ythia-1b/pythia1b_cvdb_bs8192_1stage.yaml