Skip to content

Latest commit

 

History

History
85 lines (54 loc) · 2.57 KB

README.md

File metadata and controls

85 lines (54 loc) · 2.57 KB

ccf-BDCI-2019-SIEMENS

比赛地址:https://www.datafountain.cn/competitions/351

2019年CCF BDCI大赛 离散制造过程中典型工件的质量符合率预测

==有用请star==

9月3日更新

1. 赛题分析

1.1 训练集与验证集特征有差别

拿到数据后,发现训练集和测试集特征不一致,直接按照往常的思路去掉多余的特征,而调过参数后效果仍然不理想。回头测了下B特征,原来苦苦寻找了半天的强特征,就是B呀。。。

  • 训练集:

    • 设备加工参数 A1, A2.。。。 A10
    • 工件的质量参数 B1, B2。。。 B10
  • 测试集:

    • 设备加工参数 A1, A2.。。。 A10

==最初尝试方案:==

舍弃 B参数后, 随机森林,xgboost分类,本地测试能到 0.5左右的准确率。

==对照实验:==

只使用 B参数,随机森林,xgboost分类, 本地测试能到0.99左右的准确率。

==结论== B是最强特征啊。。,下一步想办法预测出来测试集的B特征。

1.2 去掉B中冗余的参数

B中10个参数(B1~B10),是否有无效参数?,既然本地测试能到0.99,那直接试试到底B的哪几个参数起到的作用吧。 “-”表示去掉的特征,“+”表示使用的特征

对比实验1:

保留的特征 acc
+all 0.99166
-B1 0.99166
-B1,B2 0.99166
-B1,B2,B3 0.99166
-B1,B2,B3,B4 0.975
-B1,B2,B3,B5 0.98166
-B1,B2,B3,B6 0.97277
-B1,B2,B3,B7 0.936111
-B1,B2,B3,B8 0.95666
-B1,B2,B3,B9 0.93722
-B1,B2,B3,B10 0.965

由以上对照实验可以排除掉B1,B2,B3特征,对预测结果影响微乎其微。

对比实验2:

下表默认去掉特征B1,B2,B3

保留的特征 acc
+all 0.99166
-B4,B5 0.83888
-B5,B6 0.90388
-B8,B9 0.902777

Sklearn模型中预测值的R2_score为负数的问题探讨 https://blog.csdn.net/weixin_42868552/article/details/86683635

R2 出现了负值,找了半天,发现目标值偏差大,取了log好了。。。。。

9月5日更新

A -> 离散化的B -> 分类值

花了两天时间,将特征B成功的离散化了,找到了10个特征的分类阈值,具体见代码。之间将b连续数据转换成 0,1,2,3的有序或者无序编码,在本地只使用B特征预测准确率仍然能到0.96.

A -> B 由原来的回归问题,转化为了分类问题,但出现了严重的类别不均衡。。

有兴趣的小伙伴可以调调参,感觉不应该出现这么低的结果啊,提交上去结果很低很低。

发现代码的问题可以联系我Q1552460315,谢谢————