Skip to content

Q&A 常见问题及注意事项

amzxyz edited this page Nov 1, 2024 · 3 revisions

Q1: 分词后的数据量与最终模型构建完成的数据量之间有什么关系,如何去把控结果?

A1: 实践是检验真理的唯一标准,模型的最终数据量可以通过枝剪参数来控制剔除掉低频数据,下面我给出经过多次测试,数据量19.8G分词后的文本,3-gram的情况下得出的可以参照的枝剪参数

0    8     25    470M   写入文本数据约1G
0    15    50    ?
0    20    100   228M
0    20    200   214   写入文本数据约500M
0    60    250   135
0    65    300   130
0    75    300   125
0    100   300   116
0    120   350   110
0    130   400   108
0    160   600   102
0    180   600   100.3
0    185   600   99.8   #刚好能传GitHub

从数据来看,从源数据到二进制大约有一半的压缩率,同事也能看出如果想枝剪掉更多的数据需要放大更大的词频,可见100M是一个高效区的节点,想要再小就要干掉更多的高频数据!