-
Notifications
You must be signed in to change notification settings - Fork 9
Q&A 常见问题及注意事项
amzxyz edited this page Nov 1, 2024
·
3 revisions
Q1: 分词后的数据量与最终模型构建完成的数据量之间有什么关系,如何去把控结果?
A1: 实践是检验真理的唯一标准,模型的最终数据量可以通过枝剪参数来控制剔除掉低频数据,下面我给出经过多次测试,数据量19.8G分词后的文本,3-gram的情况下得出的可以参照的枝剪参数
0 8 25 470M 写入文本数据约1G
0 15 50 ?
0 20 100 228M
0 20 200 214 写入文本数据约500M
0 60 250 135
0 65 300 130
0 75 300 125
0 100 300 116
0 120 350 110
0 130 400 108
0 160 600 102
0 180 600 100.3
0 185 600 99.8 #刚好能传GitHub
从数据来看,从源数据到二进制大约有一半的压缩率,同事也能看出如果想枝剪掉更多的数据需要放大更大的词频,可见100M是一个高效区的节点,想要再小就要干掉更多的高频数据!