我们发现在现有的已经处理过的数据集(如 Redpajama、The Pile 等)中仍然存在一些“脏”数据样本。所以我们使用我们的 Data-Juicer 来完善这些数据集,并尝试将它们提供给 LLM 以获得更好的性能。
我们使用简单的 3-σ 规则来设置每个数据处理菜谱中的算子的超参数。
数据子集 | 完善前的样本数目 | 完善后的样本数目 | 样本保留率 | 配置链接 | 数据链接 | 来源 |
---|---|---|---|---|---|---|
Alpaca-Cot EN | 136,219,879 | 72,855,345 | 54.48% | alpaca-cot-en-refine.yaml | Aliyun ModelScope HuggingFace |
来自Alpaca-CoT的39个子集 |
Alpaca-Cot ZH | 21,197,246 | 9,873,214 | 46.58% | alpaca-cot-zh-refine.yaml | Aliyun ModelScope HuggingFace |
来自Alpaca-CoT的28个子集 |
数据子集 | 完善前的样本数目 | 完善后的样本数目 | 样本保留率 | 配置链接 | 数据链接 | 来源 |
---|---|---|---|---|---|---|
LLaVA pretrain (LCS-558k) | 558,128 | 500,380 | 89.65% | llava-pretrain-refine.yaml | Aliyun ModelScope HuggingFace |
LLaVA-1.5 |
Data-Juicer-T2V | 1,217,346 | 147,176 | 12.09% | 2_multi_op_pipline.yaml | Aliyun ModelScope HuggingFace |
InternVid (606k) Panda-70M (605k) MSR-VTT (6k) |
- LLaVA pretrain (LCS-558k): 使用完善后的预训练数据集预训练并使用原始的指令数据集微调后的模型在12个评测集上有10个超过了基线模型LLaVA-1.5-13B。
模型 | VQAv2 | GQA | VizWiz | SQA | TextVQA | POPE | MME | MM-Bench | MM-Bench-CN | SEED | LLaVA-Bench-Wild | MM-Vet |
---|---|---|---|---|---|---|---|---|---|---|---|---|
LLaVA-1.5-13B (基线) |
80.0 | 63.3 | 53.6 | 71.6 | 61.3 | 85.9 | 1531.3 | 67.7 | 63.6 | 61.6 | 72.5 | 36.1 |
LLaVA-1.5-13B (完善后的预训练数据集) |
79.94 | 63.5 | 54.09 | 74.20 | 60.82 | 86.67 | 1565.53 | 68.2 | 63.9 | 61.8 | 75.9 | 37.4 |
我们为用户提供了一个视频数据集处理菜谱样例以协助更好地使用视频相关的算子: general-video-refine-example.yaml 。这里我们应用了三种类型的算子:
- 仅文本:根据视频描述提高数据集质量
- 仅视频:根据视频性质提高数据集质量
- 文本-视频:根据文本和视频间的对齐提高数据集质量 用户可以基于这个菜谱开始他们的视频数据集处理流程。