Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

一些润色 #14

Open
wants to merge 18 commits into
base: master
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
Show all changes
18 commits
Select commit Hold shift + click to select a range
410e8c4
Update README.md
drkaen Jun 18, 2022
23f92b2
Update 第一章:第一节数据载入及初步观察-课程.ipynb
drkaen Jun 18, 2022
0f1ba53
Update 第一章:第一节数据载入及初步观察-课程.ipynb
drkaen Jun 18, 2022
6ab886e
Update 第一章:第一节数据载入及初步观察.ipynb
drkaen Jun 18, 2022
2882415
Update 第二章:第一节数据清洗及特征处理-课程.ipynb
drkaen Jun 18, 2022
b447ada
Update 第二章:第一节数据清洗及特征处理.ipynb
drkaen Jun 18, 2022
f047886
Update 第二章:第一节数据清洗及特征处理-课程.ipynb
drkaen Jun 18, 2022
c69e9eb
Update 第二章:第一节数据清洗及特征处理.ipynb
drkaen Jun 18, 2022
af9a928
Update 第二章:第二节数据重构1.ipynb
drkaen Jun 18, 2022
f3ce1b8
Update 第二章:第二节数据重构1-课程.ipynb
drkaen Jun 18, 2022
689fb7e
Update 第二章:第三节数据重构2-课程.ipynb
drkaen Jun 18, 2022
f7228d3
Update 第二章:第二节数据重构1-课程.ipynb
drkaen Jun 18, 2022
12deacd
Update 第二章:第二节数据重构1-课程.ipynb
drkaen Jun 18, 2022
7e3a04c
Update 第二章:第二节数据重构1.ipynb
drkaen Jun 18, 2022
960f273
Update 第二章:第三节数据重构2-课程.ipynb
drkaen Jun 18, 2022
9474b52
Update 第二章:第三节数据重构2-课程.ipynb
drkaen Jun 18, 2022
b73a7e9
Update 第二章:第三节数据重构2.ipynb
drkaen Jun 18, 2022
d8e9727
Update 第二章:第四节数据可视化-课程.ipynb
drkaen Jun 18, 2022
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
4 changes: 2 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,9 @@

## 项目初衷

动手学数据分析是Datawhale关于数据分析方向的开源项目,这个项目始于Datawhale以前的数据分析课程,那时我作为一名学员的以《python for data analysis》这本书为教材教材,通过刷这本教材的代码来学习数据分析,书里对于pandas和numpy操作讲的很细,但是对于数据分析的逻辑的内容,就少了很多。所以很多学习者和我学完之后发现,敲了一堆代码并不知道它们有什么用。“不知道怎么用”这个想法其实很好理解,在学完了比较理论的东西之后,在生活中实际运用方式和从理论中学到的会有不小的鸿沟。如何抹平这个鸿沟,可能就需要自己的尝试以及学习实战的资料。
动手学数据分析是Datawhale关于数据分析方向的开源项目,这个项目始于Datawhale以前的数据分析课程,那时我作为一名学员,以《python for data analysis》这本书为教材,通过刷这本教材的代码来学习数据分析,书里对于pandas和numpy操作讲的很细,但是对于数据分析的内容,就少了很多。所以很多学习者和我学完之后发现,敲了一堆代码并不知道它们有什么用。“不知道怎么用”这个想法其实很好理解,在学完了比较理论的东西之后,在实际数据分析的操作中和从理论中学到的会有不小的鸿沟。如何抹平这个鸿沟,可能就需要自己的尝试以及学习实战的资料。

所以有没有这样一门课,以项目为主线,将知识点孕育其中,通过边学,边做以及边被引导的方式来使学习效果达到更好,学完之后既能掌握pandas等的知识点又能掌握数据分析的大致思路和流程。通过调查发现,市面上关于**数据分析**的项目好像没有可以完全符合这样标准的(失望.jpg)。所以Datawhale的小伙伴一拍即合,一起来做一门这样的开源课程,完成上面所说的那些小目标,让所有使用了我们课程的小伙伴可以更好的开启他的数据分析之路。
所以有没有可能建立这样一门课,以项目为主线,将知识点孕育其中,通过引导的方式进行边学边做来使学习效果达到更好,学完之后既能掌握pandas等的知识点又能掌握数据分析的大致思路和流程。通过调查发现,市面上关于**数据分析**的项目好像没有可以完全符合这样标准的(失望.jpg)。所以Datawhale的小伙伴一拍即合,一起来做一门这样的开源课程,完成上面所说的那些小目标,让所有使用了我们课程的小伙伴可以更好的开启他的数据分析之路。

现在这门课程已经更新到了1.3版本,我们改善了更好的学习流程,以及提供了更好的答案讲解。后期将会逐步推出配套的教材。我们还是希望从基础的数据分析操作和数据分析流程讲起,在每个模块都引入实战的例子。之后会不断加入新的内容(比如数据挖掘的算法之类的)。这是开源项目,我们会不断迭代,大家共同参与,一起努力。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"**复习**:这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上[泰坦尼克的任务](https://www.kaggle.com/c/titanic/overview),实战数据分析全流程。\n",
"**简介**:这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上[泰坦尼克的任务](https://www.kaggle.com/c/titanic/overview),实战数据分析全流程。\n",
"这里有两份资料:\n",
"教材《Python for Data Analysis》和 baidu.com &\n",
"google.com(善用搜索引擎)"
Expand Down Expand Up @@ -250,7 +250,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv"
"#### 任务:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv"
]
},
{
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -9,9 +9,9 @@
"# 动手学数据分析\n",
"\n",
"## 项目初衷\n",
"这件事始于datawhale以前的数据分析课程,那时我作为一名学员的以《python for data analysis》这本书为教材教材,通过刷这本教材的代码来学习数据分析,书里对于pandas和numpy操作讲的很细,但是对于数据分析的逻辑的内容,就少了很多。所以很多学习者和我学完之后发现,敲了一堆代码并不知道它们有什么用。然后我也上过datawhale的另一门课程—数据挖掘实战。这门课程又比较偏模型和实战,直接给你一个任务,让你去完成,上手难度比较大,但是它的实战性可以让你对于什么是数据挖掘,以及数据挖掘的逻辑有很好的把握。所以有没有这样一门课,以项目为主线,将知识点孕育其中,通过边学,边做以及边被引导的方式来使学习效果达到更好,学完之后既能掌握pandas等的知识点又能掌握数据分析的大致思路和流程。通过调查发现,市面上这样的项目好像没有可以完全符合这样的标准(失望.jpg)。所以datawhale的小伙伴一起来做一门这样的开源课程,完成上面所说的那些小目标,让所有使用了我们课程的小伙伴可以更好的开启他的数据分析之路。\n",
"这件事始于datawhale以前的数据分析课程,那时我作为一名学员的以《python for data analysis》这本书为教材,通过刷这本教材的代码来学习数据分析,书里对于pandas和numpy操作讲的很细,但是对于数据分析的内容,就少了很多。所以很多学习者和我学完之后发现,敲了一堆代码并不知道它们有什么用。然后我也上过datawhale的另一门课程—数据挖掘实战。这门课程又比较偏模型和实战,直接给你一个任务,让你去完成,上手难度比较大,但是它的实战性可以让你对于什么是数据挖掘,以及数据挖掘的逻辑有很好的把握。所以有没有这样一门课,以项目为主线,将知识点孕育其中,通过引导的方式来边学边做,来使学习效果达到更好,学完之后既能掌握pandas等的知识点又能掌握数据分析的大致思路和流程。通过调查发现,市面上这样的项目好像没有可以完全符合这样的标准(失望.jpg)。所以datawhale的小伙伴一起来做一门这样的开源课程,完成上面所说的那些小目标,让所有使用了我们课程的小伙伴可以更好的开启他的数据分析之路。\n",
"\n",
"这门课程现在是1.0版本,从基础的数据分析操作和数据分析流程讲起。之后会不断加入新的内容(比如数据挖掘的算法之类的)。这是开源课程,会不断迭代,大家共同参与,一起努力。\n",
"这门课程现在是1.3版本,从基础的数据分析操作和数据分析流程讲起。之后会不断加入新的内容(比如数据挖掘的算法之类的)。这是开源课程,会不断迭代,大家共同参与,一起努力。\n",
"\n",
"既然这是一门诞生于datawhale的课程,学习它的时候搭配datawhale所配备其他资源会更好。我们提供的代码是jupyter形式的,里面有你所要完成的任务,也有我们给你的提示和引导,所以这样的形式再结合datawhale的[组队学习](https://github.com/datawhalechina/team-learning),可以和大家一起讨论,一起补充资料,那么学习效果一定会加倍。还有,datawhale之前开源了一门pandas的教程—[Joyful-Pandas](https://github.com/datawhalechina/joyful-pandas)。里面梳理了Pandas的逻辑以及代码展示,所以在我们数据分析的课程中,关于Pandas的操作,你可以参考*Joyful-Pandas*,可以让你的数据分析学习事半功倍。\n",
"\n",
Expand Down Expand Up @@ -1353,7 +1353,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv"
"#### 任务:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv"
]
},
{
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"【回顾&引言】前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理,让大家了解数据分析的一些操作,主要做了数据的各个角度的观察。那么在这里,我们主要是做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。"
"【回顾&引言】前面一章的内容主要是对基础知识做一个梳理,让大家了解数据分析的一些操作,主要做了数据的各个角度的观察。那么在这里,我们主要是做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。"
]
},
{
Expand Down Expand Up @@ -36,8 +36,8 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"## 2 第二章:数据清洗及特征处理\n",
"我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的亚子。"
"## 2 第二章:第一节数据清洗及特征处理\n",
"我们拿到的数据通常是包含冗余或重复信息的,这些信息通常是无效的、重复的或错误的,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的亚子。"
]
},
{
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -4,14 +4,14 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"【回顾&引言】前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理,让大家了解数据分析的一些操作,主要做了数据的各个角度的观察。那么在这里,我们主要是做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。"
"【回顾&引言】前面一章的内容主要是对基础知识做一个梳理,让大家了解数据分析的一些操作,主要做了数据的各个角度的观察。那么在这里,我们主要是做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 2 第二章:数据清洗及特征处理"
"## 2 第二章:第一节 数据清洗及特征处理"
]
},
{
Expand Down Expand Up @@ -155,7 +155,7 @@
"metadata": {},
"source": [
"### 数据清洗简述\n",
"我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。"
"我们拿到的数据通常是包含冗余或重复信息的,这些信息通常是无效的、重复的或错误的,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。"
]
},
{
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -36,14 +36,14 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2 第二章:数据重构\n"
"# 2 第二章:第二节 数据重构\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 第一部分:数据聚合与运算"
"## 第二部分:数据聚合与运算"
]
},
{
Expand Down Expand Up @@ -73,7 +73,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.2:任务二:计算泰坦尼克号男性与女性的平均票价"
"#### 2.6.2:任务二:计算泰坦尼克号男性与女性的平均票价"
]
},
{
Expand All @@ -98,7 +98,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.3:任务三:统计泰坦尼克号中男女的存活人数"
"#### 2.6.3:任务三:统计泰坦尼克号中男女的存活人数"
]
},
{
Expand All @@ -114,7 +114,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.4:任务四:计算客舱不同等级的存活人数"
"#### 2.6.4:任务四:计算客舱不同等级的存活人数"
]
},
{
Expand Down Expand Up @@ -172,7 +172,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.5:任务五:统计在不同等级的票中的不同年龄的船票花费的平均值"
"#### 2.6.5:任务五:统计在不同等级的票中的不同年龄的船票花费的平均值"
]
},
{
Expand All @@ -188,7 +188,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.6:任务六:将任务二和任务三的数据合并,并保存到sex_fare_survived.csv"
"#### 2.6.6:任务六:将任务二和任务三的数据合并,并保存到sex_fare_survived.csv"
]
},
{
Expand All @@ -204,7 +204,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.7:任务七:得出不同年龄的总的存活人数,然后找出存活人数最多的年龄段,最后计算存活人数最高的存活率(存活人数/总人数)\n"
"#### 2.6.7:任务七:得出不同年龄的总的存活人数,然后找出存活人数最多的年龄段,最后计算存活人数最高的存活率(存活人数/总人数)\n"
]
},
{
Expand Down
12 changes: 6 additions & 6 deletions 第二章项目集合/第二章:第三节数据重构2.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -182,7 +182,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"## 第一部分:数据聚合与运算"
"## 第二部分:数据聚合与运算"
]
},
{
Expand Down Expand Up @@ -221,7 +221,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.2:任务二:计算泰坦尼克号男性与女性的平均票价"
"#### 2.6.2:任务二:计算泰坦尼克号男性与女性的平均票价"
]
},
{
Expand Down Expand Up @@ -255,7 +255,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.3:任务三:统计泰坦尼克号中男女的存活人数"
"#### 2.6.3:任务三:统计泰坦尼克号中男女的存活人数"
]
},
{
Expand Down Expand Up @@ -286,7 +286,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.4:任务四:计算客舱不同等级的存活人数"
"#### 2.6.4:任务四:计算客舱不同等级的存活人数"
]
},
{
Expand Down Expand Up @@ -418,7 +418,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.5:任务五:统计在不同等级的票中的不同年龄的船票花费的平均值"
"#### 2.6.5:任务五:统计在不同等级的票中的不同年龄的船票花费的平均值"
]
},
{
Expand Down Expand Up @@ -451,7 +451,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.4.6:任务六:将任务二和任务三的数据合并,并保存到sex_fare_survived.csv"
"#### 2.6.6:任务六:将任务二和任务三的数据合并,并保存到sex_fare_survived.csv"
]
},
{
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -36,7 +36,14 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2 第二章:数据重构\n"
"# 2 第二章:第二节 数据重构\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 第一部分:数据文件的组合"
]
},
{
Expand Down Expand Up @@ -183,7 +190,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.5.1 任务一:将我们的数据变为Series类型的数据"
"#### 任务:将我们的数据变为Series类型的数据"
]
},
{
Expand Down
11 changes: 9 additions & 2 deletions 第二章项目集合/第二章:第二节数据重构1.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -121,7 +121,14 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2 第二章:数据重构\n"
"# 2 第二章:第二节 数据重构\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 第一部分:数据文件的组合"
]
},
{
Expand Down Expand Up @@ -1253,7 +1260,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 2.5.1 任务一:将我们的数据变为Series类型的数据"
"#### 任务:将我们的数据变为Series类型的数据"
]
},
{
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -11,7 +11,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"# 2 第二章:数据可视化"
"# 2 第二章:第四节 数据可视化"
]
},
{
Expand Down