Add use_tokenizer_eos option to convert text to mds script #843

irenedea · 2024-01-08T03:24:03Z

Manual Test

(1) Make some test files

import os
os.mkdir('in')
for i in range(5):
    with open(f'in/file{i}.txt', 'w') as f:
        f.write(f' HELLO{i} ' * 250)

(2) Run conversion with --use_tokenizer_eos

`python convert_text_to_mds.py --input_folder in --output_folder out --concat_tokens 2048 --tokenizer mosaicml/mpt-7b --use_tokenizer_eos --processes 1`

(3) Print out 0th sample to see the <|endoftext|> token between text sequences

    tokenizer = AutoTokenizer.from_pretrained('mosaicml/mpt-7b')
    dataset = StreamingDataset(local='out', num_canonical_nodes=1)
    sample = dataset[0]
    tokens = np.frombuffer(sample['tokens'], dtype=int)
    decoded = tokenizer.decode(tokens)
    print(decoded)

scripts/data_prep/convert_text_to_mds.py

Add use_tokenizer_eos option to convert text to mds script

f6228ae

irenedea requested a review from dakinggg January 8, 2024 03:25

dakinggg approved these changes Jan 8, 2024

View reviewed changes

scripts/data_prep/convert_text_to_mds.py Show resolved Hide resolved

scripts/data_prep/convert_text_to_mds.py Outdated Show resolved Hide resolved

Do store_true action for use_tokenizer_eos

5775f0d

irenedea force-pushed the tok2 branch from a45e7f6 to 5775f0d Compare January 8, 2024 21:31

Merge branch 'main' into tok2

3bca64a

irenedea enabled auto-merge (squash) January 8, 2024 21:32

irenedea merged commit c03ca1a into mosaicml:main Jan 8, 2024
10 checks passed

irenedea mentioned this pull request Jan 8, 2024

Add eos_text and bos_text defaults for convert_text_to_mds.py #826

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add use_tokenizer_eos option to convert text to mds script #843

Add use_tokenizer_eos option to convert text to mds script #843

irenedea commented Jan 8, 2024 •

edited

Loading

Add use_tokenizer_eos option to convert text to mds script #843

Add use_tokenizer_eos option to convert text to mds script #843

Conversation

irenedea commented Jan 8, 2024 • edited Loading

Manual Test

irenedea commented Jan 8, 2024 •

edited

Loading