2019年CCF BDCI大赛 离散制造过程中典型工件的质量符合率预测
==有用请star==
拿到数据后,发现训练集和测试集特征不一致,直接按照往常的思路去掉多余的特征,而调过参数后效果仍然不理想。回头测了下B特征,原来苦苦寻找了半天的强特征,就是B呀。。。
-
训练集:
- 设备加工参数 A1, A2.。。。 A10
- 工件的质量参数 B1, B2。。。 B10
-
测试集:
- 设备加工参数 A1, A2.。。。 A10
==最初尝试方案:==
舍弃 B参数后, 随机森林,xgboost分类,本地测试能到 0.5左右的准确率。
==对照实验:==
只使用 B参数,随机森林,xgboost分类, 本地测试能到0.99左右的准确率。
==结论== B是最强特征啊。。,下一步想办法预测出来测试集的B特征。
B中10个参数(B1~B10),是否有无效参数?,既然本地测试能到0.99,那直接试试到底B的哪几个参数起到的作用吧。 “-”表示去掉的特征,“+”表示使用的特征
对比实验1:
保留的特征 | acc |
---|---|
+all | 0.99166 |
-B1 | 0.99166 |
-B1,B2 | 0.99166 |
-B1,B2,B3 | 0.99166 |
-B1,B2,B3,B4 | 0.975 |
-B1,B2,B3,B5 | 0.98166 |
-B1,B2,B3,B6 | 0.97277 |
-B1,B2,B3,B7 | 0.936111 |
-B1,B2,B3,B8 | 0.95666 |
-B1,B2,B3,B9 | 0.93722 |
-B1,B2,B3,B10 | 0.965 |
由以上对照实验可以排除掉B1,B2,B3特征,对预测结果影响微乎其微。
对比实验2:
下表默认去掉特征B1,B2,B3
保留的特征 | acc |
---|---|
+all | 0.99166 |
-B4,B5 | 0.83888 |
-B5,B6 | 0.90388 |
-B8,B9 | 0.902777 |
Sklearn模型中预测值的R2_score为负数的问题探讨 https://blog.csdn.net/weixin_42868552/article/details/86683635
R2 出现了负值,找了半天,发现目标值偏差大,取了log好了。。。。。
A -> 离散化的B -> 分类值
花了两天时间,将特征B成功的离散化了,找到了10个特征的分类阈值,具体见代码。之间将b连续数据转换成 0,1,2,3的有序或者无序编码,在本地只使用B特征预测准确率仍然能到0.96.
A -> B 由原来的回归问题,转化为了分类问题,但出现了严重的类别不均衡。。
有兴趣的小伙伴可以调调参,感觉不应该出现这么低的结果啊,提交上去结果很低很低。
发现代码的问题可以联系我Q1552460315,谢谢————