Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据挖掘复习内容 #9

Open
Yidadaa opened this issue Nov 2, 2017 · 0 comments
Open

数据挖掘复习内容 #9

Yidadaa opened this issue Nov 2, 2017 · 0 comments
Milestone

Comments

@Yidadaa
Copy link
Owner

Yidadaa commented Nov 2, 2017

数据挖掘期末复习

第一章内容

  1. 什么是数据挖掘,数据挖掘与其他学科的联系。
  2. 知识发现的流程。数据挖掘是数据发现的核心。
  3. 数据挖掘的主要任务。关联规则挖掘、分类或回归、聚类和异常点检测。

第二章 认识数据

相似度计算

计算欧氏距离以及另外一个算法。

数据的统计描述

包括数据的中心性描述(中位数、众数)和散度(极值、方差、百分位点)。

数据预处理

  1. 数据清洗。噪声检测及缺失值处理。
  2. 数据集成。冗余分析和相关分析(卡方分析)。

数据变换

  1. 最小最大归一化。
  2. (X-期望)/标准差

第三章 数据仓库

什么是数据仓库

数据仓库是面向主题的、非易失的、随时间变化的、集成的。

多维数据模型

星型模型、雪花模型和事实星座模型。

第四章 关联规则

什么是频繁项集,如何从项集中获取关联规则

数据中支持度大于最小支持度的的项集为频繁项集。

Apriori算法(重点必考)

题型是从给定事务集合中计算关联规则。

第五章 分类

  1. 监督学习和非监督学习
  2. 生成模型和判别模型。
  3. 分类和回归的异同。都是监督学习。一个是离散,一个是连续。

决策树(重点)

避免过拟合:增加数据量,降低模型复杂度。
决策树通过剪枝来避免过拟合。

KNN(重点)

属于懒惰学习,没有训练过程。
缺点:对K敏感
优点:无需训练

其他算法

朴素贝叶斯、SVM、ANN和BP网络。

评价指标

准确率,召回率,敏感度,精度,F1

第六章 聚类

什么是聚类

聚类的分类及相应算法

  1. 基于划分的算法。k-means,k中心
  2. 基于密度。DB scan
  3. 基于层次。层次聚类
  4. 基于网格。

k-means(重点)

k-means的流程。

第七章 异常检测

什么是异常

异常的类型

全局、局部、集体、情景

LOF

@Yidadaa Yidadaa added this to the 笔记 milestone Nov 2, 2017
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant