Add split_eval_set command #1609

jimmyxu-db · 2024-10-22T21:45:27Z

No description provided.

Signed-off-by: Jimmy Xu <[email protected]>

llmfoundry/command_utils/data_prep/split_eval_set.py

tests/a_scripts/data_prep/test_split_eval_set.py

dakinggg

Looks reasonable, would want to also see a test run on MCT using this script

llmfoundry/command_utils/data_prep/split_eval_set.py

tests/a_scripts/data_prep/test_split_eval_set.py

llmfoundry/command_utils/data_prep/split_eval_set.py

llmfoundry/data/finetuning/tasks.py

Signed-off-by: Jimmy Xu <[email protected]>

dakinggg · 2024-10-28T22:37:33Z

Please also add a PR description (describing the functionality added, not any downstream API needs).

Signed-off-by: Jimmy Xu <[email protected]>

dakinggg · 2024-10-29T16:24:57Z

llmfoundry/command_utils/data_prep/split_eval_set.py

+
+log = logging.getLogger(__name__)
+
+LOCAL_PATH = 'tmp-t'


I don't think you want to hardcode this. Should this not just be a fallback to assume local path?

im not too familiar, is it acceptable to have

if remote object store: remote object store: else: local path

i.e. have it be the defualt?

seems ok? just note that is what it defaults to

llmfoundry/command_utils/data_prep/split_eval_set.py

Signed-off-by: Jimmy Xu <[email protected]>

jimmyxu-db · 2024-11-05T01:40:15Z

closing this PR as we are re-prioritizing the long term workflows solution over pushing out a sweep/eval PuPr asap, which this PR was meant to do

mattyding and others added 6 commits October 21, 2024 15:43

refactor hf download

4cdcda0

split_eval_set skeleton

a1385b4

splitting script

87d7a4c

error handling and testing

b04651f

undo autoformat

cc42fe4

Merge remote-tracking branch 'origin/main' into jimmy/data-split

0d5ef2b

jimmyxu-db requested a review from a team as a code owner October 22, 2024 21:45

jimmyxu-db added 2 commits October 24, 2024 15:47

Merge remote-tracking branch 'origin/main' into jimmy/data-split

aaf8df8

add regex tests

41eeb49

Signed-off-by: Jimmy Xu <[email protected]>

jimmyxu-db changed the title ~~Jimmy/data split~~ Add split_eval_set command Oct 25, 2024

jimmyxu-db commented Oct 25, 2024

View reviewed changes

llmfoundry/command_utils/data_prep/split_eval_set.py Outdated Show resolved Hide resolved

tests/a_scripts/data_prep/test_split_eval_set.py Outdated Show resolved Hide resolved

jimmyxu-db requested review from dakinggg and mattyding October 25, 2024 16:03

dakinggg reviewed Oct 25, 2024

View reviewed changes

mattyding reviewed Oct 25, 2024

View reviewed changes

llmfoundry/command_utils/data_prep/split_eval_set.py Outdated Show resolved Hide resolved

llmfoundry/command_utils/data_prep/split_eval_set.py Outdated Show resolved Hide resolved

llmfoundry/data/finetuning/tasks.py Show resolved Hide resolved

jimmyxu-db added 5 commits October 28, 2024 15:35

Merge remote-tracking branch 'origin/main' into jimmy/data-split

06ccb06

Merge remote-tracking branch 'origin/main' into jimmy/data-split

db0e485

remove hf support

87d0279

Signed-off-by: Jimmy Xu <[email protected]>

fix dataloader test?

81f3b8f

Signed-off-by: Jimmy Xu <[email protected]>

lint

d14fde5

Signed-off-by: Jimmy Xu <[email protected]>

jimmyxu-db added 5 commits October 28, 2024 19:50

lint

e7cca17

Signed-off-by: Jimmy Xu <[email protected]>

some comments

a4327bb

Signed-off-by: Jimmy Xu <[email protected]>

Merge remote-tracking branch 'origin/main' into jimmy/data-split

10b3e62

Merge remote-tracking branch 'origin/main' into jimmy/data-split

988c46c

comments

39676be

Signed-off-by: Jimmy Xu <[email protected]>

dakinggg reviewed Oct 29, 2024

View reviewed changes

jimmyxu-db added 3 commits October 29, 2024 14:20

Merge remote-tracking branch 'origin/main' into jimmy/data-split

f64c1f4

make tmpdir

a35c6d9

Signed-off-by: Jimmy Xu <[email protected]>

default to local

7ec1988

Signed-off-by: Jimmy Xu <[email protected]>

jimmyxu-db added 2 commits October 29, 2024 14:39

remove unknown test

c97fbb5

Signed-off-by: Jimmy Xu <[email protected]>

rename

dd0de09

Signed-off-by: Jimmy Xu <[email protected]>

jimmyxu-db closed this Nov 5, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add split_eval_set command #1609

Add split_eval_set command #1609

jimmyxu-db commented Oct 22, 2024

dakinggg left a comment

dakinggg commented Oct 28, 2024

dakinggg Oct 29, 2024

jimmyxu-db Oct 29, 2024

dakinggg Oct 29, 2024

jimmyxu-db commented Nov 5, 2024


		log = logging.getLogger(__name__)

		LOCAL_PATH = 'tmp-t'

Add split_eval_set command #1609

Add split_eval_set command #1609

Conversation

jimmyxu-db commented Oct 22, 2024

dakinggg left a comment

Choose a reason for hiding this comment

dakinggg commented Oct 28, 2024

dakinggg Oct 29, 2024

Choose a reason for hiding this comment

jimmyxu-db Oct 29, 2024

Choose a reason for hiding this comment

dakinggg Oct 29, 2024

Choose a reason for hiding this comment

jimmyxu-db commented Nov 5, 2024