We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
计算欧氏距离以及另外一个算法。
包括数据的中心性描述(中位数、众数)和散度(极值、方差、百分位点)。
数据仓库是面向主题的、非易失的、随时间变化的、集成的。
星型模型、雪花模型和事实星座模型。
数据中支持度大于最小支持度的的项集为频繁项集。
题型是从给定事务集合中计算关联规则。
避免过拟合:增加数据量,降低模型复杂度。 决策树通过剪枝来避免过拟合。
属于懒惰学习,没有训练过程。 缺点:对K敏感 优点:无需训练
朴素贝叶斯、SVM、ANN和BP网络。
准确率,召回率,敏感度,精度,F1
k-means的流程。
全局、局部、集体、情景
The text was updated successfully, but these errors were encountered:
No branches or pull requests
数据挖掘期末复习
第一章内容
第二章 认识数据
相似度计算
计算欧氏距离以及另外一个算法。
数据的统计描述
包括数据的中心性描述(中位数、众数)和散度(极值、方差、百分位点)。
数据预处理
数据变换
第三章 数据仓库
什么是数据仓库
数据仓库是面向主题的、非易失的、随时间变化的、集成的。
多维数据模型
星型模型、雪花模型和事实星座模型。
第四章 关联规则
什么是频繁项集,如何从项集中获取关联规则
数据中支持度大于最小支持度的的项集为频繁项集。
Apriori算法(重点必考)
题型是从给定事务集合中计算关联规则。
第五章 分类
决策树(重点)
避免过拟合:增加数据量,降低模型复杂度。
决策树通过剪枝来避免过拟合。
KNN(重点)
属于懒惰学习,没有训练过程。
缺点:对K敏感
优点:无需训练
其他算法
朴素贝叶斯、SVM、ANN和BP网络。
评价指标
准确率,召回率,敏感度,精度,F1
第六章 聚类
什么是聚类
聚类的分类及相应算法
k-means(重点)
k-means的流程。
第七章 异常检测
什么是异常
异常的类型
全局、局部、集体、情景
LOF
The text was updated successfully, but these errors were encountered: