Run HF dataset processing on local rank 0 first #716

dakinggg · 2023-11-05T09:23:43Z

Adjust the HF dataset processing code to only process the data on local rank 0. Other ranks will use the cached arrow dataset. This is both much faster than processing on all ranks, and seems to resolve various hangs and crashed we have seen for large datasets.

Manual test that this doesn't affect loss curve in anyway

xiaohanzhan-db

Nice! lgtm!

karan6181

pytest runs on a single process so hard to test the functionality using unit test. However, I would recommend adding a unit test to test the functionality either in this PR or the next depending on the criticality of this PR.

llmfoundry/data/finetuning/tasks.py

irenedea

LGTM, couple nits:
(1) update the PR title to "only" => "first"? Or "use cached arrow processing results for non-rank-0" ?
(2) add comment to explain the map/filter/load functions are all cached via arrow

mvpatel2000

LGTM but I would refactor the barrier structure so all ranks enter the same barrier

llmfoundry/data/finetuning/tasks.py

dakinggg · 2023-11-06T21:28:27Z

@karan6181 @mvpatel2000 @xiaohanzhan-db refactored to not have the confusingly placed barriers.

dakinggg · 2023-11-06T21:44:43Z

@karan6181 @irenedea added more explanatory comments

less aggressive

49e6ce1

dakinggg requested a review from irenedea November 5, 2023 09:33

dakinggg marked this pull request as ready for review November 5, 2023 09:33

dakinggg added 4 commits November 5, 2023 13:23

missed one

14aef60

precommit

e183cd6

add desc

79c20d0

fix

1b29b12

dakinggg marked this pull request as draft November 6, 2023 03:30

dakinggg added 6 commits November 5, 2023 23:30

attempt

329bc50

clean up

90ceb6c

add logs

f5cfd9f

less procs

7a2867a

move the barrier

55a4e84

precommit

95f4cf5

dakinggg marked this pull request as ready for review November 6, 2023 08:42

dakinggg requested review from j316chuck, mvpatel2000 and XiaohanZhangCMU November 6, 2023 08:42

dakinggg added 2 commits November 6, 2023 00:51

try again

d0af2b0

precommit

72872d1

xiaohanzhan-db approved these changes Nov 6, 2023

View reviewed changes

karan6181 reviewed Nov 6, 2023

View reviewed changes

llmfoundry/data/finetuning/tasks.py Show resolved Hide resolved

llmfoundry/data/finetuning/tasks.py Outdated Show resolved Hide resolved

llmfoundry/data/finetuning/tasks.py Show resolved Hide resolved

llmfoundry/data/finetuning/tasks.py Outdated Show resolved Hide resolved

xiaohanzhan-db suggested changes Nov 6, 2023

View reviewed changes

llmfoundry/data/finetuning/tasks.py Outdated Show resolved Hide resolved

dakinggg changed the title ~~Less aggressive multiprocessing for map/filter~~ Run multiprocessed HF dataset processing on local rank 0 first Nov 6, 2023

dakinggg changed the title ~~Run multiprocessed HF dataset processing on local rank 0 first~~ Improved map/filter for HF dataset processing Nov 6, 2023

Merge branch 'main' into less-procs

a314e90

irenedea approved these changes Nov 6, 2023

View reviewed changes

dakinggg changed the title ~~Improved map/filter for HF dataset processing~~ Run HF dataset processing on local rank 0 first Nov 6, 2023

mvpatel2000 reviewed Nov 6, 2023

View reviewed changes

llmfoundry/data/finetuning/tasks.py Outdated Show resolved Hide resolved

llmfoundry/data/finetuning/tasks.py Outdated Show resolved Hide resolved

move barrier around

397ba53

Merge branch 'main' into less-procs

c36cbe2

comments

e9ce00f

mvpatel2000 approved these changes Nov 6, 2023

View reviewed changes

dakinggg merged commit c2f5742 into mosaicml:main Nov 6, 2023
12 checks passed

dakinggg deleted the less-procs branch December 11, 2023 23:44

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Run HF dataset processing on local rank 0 first #716

Run HF dataset processing on local rank 0 first #716

dakinggg commented Nov 5, 2023 •

edited

Loading

xiaohanzhan-db left a comment

karan6181 left a comment

irenedea left a comment

mvpatel2000 left a comment

dakinggg commented Nov 6, 2023

dakinggg commented Nov 6, 2023

Run HF dataset processing on local rank 0 first #716

Run HF dataset processing on local rank 0 first #716

Conversation

dakinggg commented Nov 5, 2023 • edited Loading

xiaohanzhan-db left a comment

Choose a reason for hiding this comment

karan6181 left a comment

Choose a reason for hiding this comment

irenedea left a comment

Choose a reason for hiding this comment

mvpatel2000 left a comment

Choose a reason for hiding this comment

dakinggg commented Nov 6, 2023

dakinggg commented Nov 6, 2023

dakinggg commented Nov 5, 2023 •

edited

Loading