ccf-BDCI-2019-SIEMENS

比赛地址：https://www.datafountain.cn/competitions/351

2019年CCF BDCI大赛离散制造过程中典型工件的质量符合率预测

==有用请star==

9月3日更新

1. 赛题分析

1.1 训练集与验证集特征有差别

拿到数据后，发现训练集和测试集特征不一致，直接按照往常的思路去掉多余的特征，而调过参数后效果仍然不理想。回头测了下B特征，原来苦苦寻找了半天的强特征，就是B呀。。。

训练集：
- 设备加工参数 A1, A2.。。。 A10
- 工件的质量参数 B1, B2。。。 B10
测试集：
- 设备加工参数 A1, A2.。。。 A10

==最初尝试方案：==

舍弃 B参数后，随机森林，xgboost分类，本地测试能到 0.5左右的准确率。

==对照实验：==

只使用 B参数，随机森林，xgboost分类，本地测试能到0.99左右的准确率。

==结论== B是最强特征啊。。，下一步想办法预测出来测试集的B特征。

1.2 去掉B中冗余的参数

B中10个参数(B1~B10)，是否有无效参数？，既然本地测试能到0.99，那直接试试到底B的哪几个参数起到的作用吧。 “-”表示去掉的特征，“+”表示使用的特征

对比实验1：

保留的特征	acc
+all	0.99166
-B1	0.99166
-B1,B2	0.99166
-B1,B2,B3	0.99166
-B1,B2,B3,B4	0.975
-B1,B2,B3,B5	0.98166
-B1,B2,B3,B6	0.97277
-B1,B2,B3,B7	0.936111
-B1,B2,B3,B8	0.95666
-B1,B2,B3,B9	0.93722
-B1,B2,B3,B10	0.965

由以上对照实验可以排除掉B1,B2,B3特征,对预测结果影响微乎其微。

对比实验2：

下表默认去掉特征B1,B2,B3

保留的特征	acc
+all	0.99166
-B4,B5	0.83888
-B5,B6	0.90388
-B8,B9	0.902777

Sklearn模型中预测值的R2_score为负数的问题探讨 https://blog.csdn.net/weixin_42868552/article/details/86683635

R2 出现了负值，找了半天，发现目标值偏差大，取了log好了。。。。。

9月5日更新

A -> 离散化的B -> 分类值

花了两天时间，将特征B成功的离散化了，找到了10个特征的分类阈值，具体见代码。之间将b连续数据转换成 0，1，2，3的有序或者无序编码，在本地只使用B特征预测准确率仍然能到0.96.

A -> B 由原来的回归问题，转化为了分类问题，但出现了严重的类别不均衡。。

有兴趣的小伙伴可以调调参，感觉不应该出现这么低的结果啊，提交上去结果很低很低。

发现代码的问题可以联系我Q1552460315,谢谢————

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

ccf-BDCI-2019-SIEMENS

9月3日更新

1. 赛题分析

1.1 训练集与验证集特征有差别

1.2 去掉B中冗余的参数

9月5日更新

Files

README.md

Latest commit

History

README.md

File metadata and controls

ccf-BDCI-2019-SIEMENS

9月3日更新

1. 赛题分析

1.1 训练集与验证集特征有差别

1.2 去掉B中冗余的参数

9月5日更新