address comments

mosaicml · Feb 6, 2024 · 5ba5e30 · 5ba5e30
1 parent 65ee617
commit 5ba5e30
Show file tree

Hide file tree

Showing 3 changed files with 41 additions and 41 deletions.
diff --git a/scripts/eval/yamls/long_context_eval_8k.yaml b/scripts/eval/yamls/long_context_eval_8k.yaml
@@ -8,7 +8,7 @@ models:
   model:
     name: hf_causal_lm
     pretrained_model_name_or_path: EleutherAI/gpt-neo-125m
-    init_device: cpu
+    init_device: mixed
     pretrained: true
   tokenizer:
     name: EleutherAI/gpt-neo-125m

diff --git a/scripts/eval/yamls/long_context_tasks.yaml b/scripts/eval/yamls/long_context_tasks.yaml
@@ -1,7 +1,7 @@
 icl_tasks:
 -
   label: kv_pairs_beginning_2k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -11,7 +11,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_middle_2k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -21,7 +21,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_end_2k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -31,7 +31,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_beginning_4k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -41,7 +41,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_middle_4k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -51,7 +51,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_end_4k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -61,7 +61,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_beginning_8k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -71,7 +71,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_middle_8k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -81,7 +81,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_end_8k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -91,7 +91,7 @@ icl_tasks:
     split: test
 -
   label: wikiqa_2k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -100,7 +100,7 @@ icl_tasks:
     split: test
 -
   label: wikiqa_4k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -109,7 +109,7 @@ icl_tasks:
     split: test
 -
   label: wikiqa_8k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -118,7 +118,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_beginning_2k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -128,7 +128,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_middle_2k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -138,7 +138,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_end_2k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -148,7 +148,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_beginning_4k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -158,7 +158,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_middle_4k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -168,7 +168,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_end_4k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -178,7 +178,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_beginning_8k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -188,7 +188,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_middle_8k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -198,7 +198,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_end_8k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -208,7 +208,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_beginning_16k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -218,7 +218,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_beginning_32k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -228,7 +228,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_beginning_64k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -238,7 +238,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_middle_16k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -248,7 +248,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_middle_32k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -258,7 +258,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_middle_64k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -268,7 +268,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_end_16k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -278,7 +278,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_end_32k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -288,7 +288,7 @@ icl_tasks:
     split: test
 -
   label: hotpotqa_end_64k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -298,7 +298,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_beginning_16k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -308,7 +308,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_beginning_32k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -318,7 +318,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_beginning_64k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -328,7 +328,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_middle_16k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -338,7 +338,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_middle_32k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -348,7 +348,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_middle_64k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -358,7 +358,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_end_16k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -368,7 +368,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_end_32k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:
@@ -378,7 +378,7 @@ icl_tasks:
     split: test
 -
   label: kv_pairs_end_64k
-  dataset_uri: hf://maxisawesome/long_context_eval
+  dataset_uri: hf://mosaicml/long_context_eval
   num_fewshot: [0]
   icl_task_type: question_answering
   hf_loading_vars:

diff --git a/setup.py b/setup.py
@@ -50,7 +50,7 @@
 ]
 
 install_requires = [
-    'mosaicml[libcloud,wandb,oci,gcs]>=0.17.2,<0.19',
+    'mosaicml[libcloud,wandb,oci,gcs]>=0.17.2,<0.18',
     'mlflow>=2.10,<3',
     'accelerate>=0.25,<0.26',  # for HF inference `device_map`
     'transformers>=4.37,<4.38',