generated from rstudio/bookdown-demo
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathdata-penguin.Rmd
200 lines (144 loc) · 10.9 KB
/
data-penguin.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
```{r setup, echo = FALSE, message = FALSE}
source("_common.R")
library(tidyverse)
library(patchwork)
library(lubridate)
```
# 준비된 데이터 {#ggplot-datasets}
시각화 작업을 할 때 가장 문제되는 것 중 하나가 원천데이터다. 데이터가 깔끔하게
준비되어 있으면 시각화 업무에 집중하여 놀라운 성과물을 낼 수 있다. 반면에 데이터가
엉망진창인 경우 시각화 범위도 축소되고 시각화 각 단계를 건널 때마다
문제를 해결해 가면서 시각화 작업을 수행하게 되어 노력대비 기대한 산출물을 얻을
가능성은 낮아진다.
데이터 사이언스와 시각화의 예제 데이터로 가장 많이 추천되는 것이
[갭마인더(`gapminder`)](https://github.com/jennybc/gapminder)와 [팔머펭귄(`palmerpenguins`)](https://allisonhorst.github.io/palmerpenguins/) 데이터셋이다.
두 데이터셋 모두 CRAN에 등록된 공식 데이터 패키지다.
## 팔머 펭귄 {#palmer-penguins}
미국에서 "George Floyd"가 경찰에 의해 살해되면서 촉발된 ["Black Lives Matter"](https://ko.wikipedia.org/wiki/Black_Lives_Matter) 운동은 아프리카계 미국인을 향한 폭력과 제도적 인종주의에 반대하는 사회운동이다.
데이터 과학에서도 최근 R.A. Fisher의 과거 저술한 "The genetical theory of natural selection" [@fisher1958genetical] 우생학(Eugenics) 대한 관점이 논란이 되면서 R 데이터 과학의 첫 데이터셋으로 붓꽃 `iris` 데이터를 다른 데이터, 즉 펭귄 데이터로 대체하는 움직임이 활발히 전개되고 있다. [`palmerpenguins`](https://github.com/allisonhorst/palmerpenguins) 데이터셋이 대안으로 많은 호응을 얻고 있다.
### 펭귄 공부 {#penguins-study}
팔머(Palmer) 펭귄은 3종이 있으며 자세한 내용은 다음 링크된 나무위키에서 참조 가능하다.
- [젠투 펭귄(Gentoo Penguin)](https://namu.wiki/w/젠투펭귄): 머리에 모자처럼 둘러져 있는 하얀 털 때문에 알아보기가 쉽다. 암컷이 회색이 뒤에, 흰색이 앞에 있다. 펭귄들 중에 가장 빠른 시속 36km의 수영 실력을 자랑하며, 짝짓기 할 준비가 된 펭귄은 75-90cm까지도 자란다.
- [아델리 펭귄(Adelie Penguin)](https://namu.wiki/w/아델리펭귄): 프랑스 탐험가인 뒤몽 뒤르빌(Dumont D’Urville) 부인의 이름을 따서 ‘아델리’라 불리게 되었다. 각진 머리와 작은 부리 때문에 알아보기 쉽고, 다른 펭귄들과 마찬가지로 암수가 비슷하게 생겼지만 암컷이 조금 더 작다.
- [턱끈 펭귄(Chinstrap Penguin)](https://namu.wiki/w/턱끈펭귄): 언뜻 보면 아델리 펭귄과 매우 비슷하지만, 몸집이 조금 더 작고, 목에서 머리 쪽으로 이어지는 검은 털이 눈에 띈다. 어린 고삐 펭귄들은 회갈색 빛을 띄는 털을 가지고 있으며, 목 아래 부분은 더 하얗다. 무리를 지어 살아가며 일부일처제를 지키기 때문에 짝짓기 이후에도 부부로써 오랫동안 함께 살아간다.
```{r penguins-species, eval = FALSE}
library(webshot)
webshot(url="https://allisonhorst.github.io/palmerpenguins/", selector = "#meet-the-palmer-penguins > p > img", "fig/penguin-species.png")
```
![팔머 펭귄 3종 세트](assets/images/penguin-species.png){width="100%"}
다음으로 `iris` 데이터와 마찬가지로 펭귄 3종을 구분하기 위한 변수로 조류의 부리에 있는 중앙 세로선의 융기를 지칭하는 능선(`culmen`) 길이(culmen length)와 깊이(culmen depth)를 이해하면 된다.
```{r penguins-species-variable, eval = FALSE}
library(webshot)
webshot(url="https://allisonhorst.github.io/palmerpenguins/", selector = "#what-are-culmen-length--depth > p:nth-child(4) > img", "fig/penguin-species-variable.png")
```
![팔머 펭귄 능선 변수](assets/images/penguin-species-variable.png)
### 데이터셋 설치 {#penguin-install-dataset}
CRAN에 등록되어 있어 `install.packages()` 함수로 직접 설치해도 되고,
`remotes` 팩키지 `install_github()` 함수로 GitHub 저장소의 팔머펭귄 데이터를 설치해도 된다.
정식 CRAN에 등록되기 이전에 GitHub에 먼저 등록되어 몇년간 정제과정을 거쳐 초기부터 사용하신 분은
GitHub 저장소 설치가 편할 수 있다. 안정화 되었기 때문에 CRAN 데이터나 GitHub 데이터나 이제 차이는 없다.
```{r install-penguin-dataset, eval = FALSE}
install.packages("palmerpenguins")
# install.packages("remotes")
# remotes::install_github("allisonhorst/palmerpenguins")
```
도서관에서 책을 꺼내 열람실에서 살펴보듯이 설치된 `palmerpenguins` 데이터셋을
`library(palmerpenguins)` 함수로 불러온다. 책에 어떤 내용이 담겼는지 살펴보듯이
`tidyverse`를 구성하는 `dplyr` 패키지 `glimpse()` 함수로 펭귄 데이터를 일별한다.
```{r glimpse-dataset}
library(tidyverse)
library(palmerpenguins)
glimpse(penguins)
```
### 자료구조 일별 {#penguin-EDA-skimr}
[`skimr`](https://cran.r-project.org/web/packages/skimr/) 패키지를 사용해서
`penguins` 데이터프레임 자료구조를 일별한다.
이를 통해서 344개 펭귄 관측값이 있으며, 7개 칼럼으로 구성된 것을 확인할 수 있다.
또한, 범주형 변수가 3개, 숫자형 변수가 4개로 구성되어 있다.
그외 더 자세한 사항은 범주형, 숫자형 변수에 대한 요약 통계량을 참조한다.
```{r penguins-EDA-data-structure}
skimr::skim(penguins)
```
데이터가 크지 않아 인터랙티브 `reactive`, `DT` 패키지를 통해 전체 데이터를 살펴볼 수도 있고,
첫 10개 관측점만 뽑아 일별할 수도 있다.
```{r penguins-DT}
penguins %>%
slice_head(n=10)
```
### 탐색적 데이터 분석 {#penguin-EDA}
`palmerpenguins` 데이터셋 소개에 포함되어 있는 미국 팔머 연구소 (palmer station)
펭귄 물갈퀴(flipper) 길이와 체질량(body mass) 산점도를 그려보자.
그래프 문법에 따라 `x`, `y` 축을 데이터프레임 변수로 매핑하고
산점도의 각 펭귄 물갈퀴 길이(`flipper_length_mm`)와 체질량(`body_mass_g`)은
펭귄 종에 따라 `geom_point()`로 색상과 모양을 달리한다.
```{r mass-flipper, echo = FALSE, out.width='75%', fig.retina=2}
extrafont::loadfonts()
mass_flipper <- penguins %>%
ggplot( aes(x = flipper_length_mm, y = body_mass_g) ) +
geom_point(aes(color = species, shape = species),
size = 3, alpha = 0.8) +
theme_minimal(base_family = "MaruBuri") +
scale_color_manual(values = c("darkorange","purple","cyan4")) +
labs(title = "펭귄 크기",
subtitle = "남극 펭귄 3종 물갈퀴 길이와 체질량 관계",
x = "물갈퀴 길이 (mm)",
y = "체질량 (g)",
color = "펭귄 3종",
shape = "펭귄 3종") +
theme(legend.position = c(0.2, 0.7),
legend.background = element_rect(fill = "white", color = NA))
mass_flipper
```
## 갭마인더 {#gapminder}
'팩트풀니스'(Factfullness)는 '사실충실성'으로 번역되고 팩트(사실)에 근거해 세계를 바라보고 이해하는 태도와 관점을 의미하는 것으로 얼마전 타계한 한스 로슬링의 마지막 저서 "Factfulness"의 책제목으로 더 유명하다. 저자는 세계에 관한 심각한 무지와 싸움을 평생의 사명으로 삼아 다양한 업적을 남겼으며 데이터 시각화를 통해 그동안 보지 못했던 사실을 일반인이면 누구나 쉽게 이해하고 의사결정을 빠른 시간내에 내릴 수 있도록 도움을 주였다. 그가 남긴 업적중의 하나는 데이터로 통상 `gapminder` 로 알려져 있으며 제니 브라이언트 박사가 R 데이터 패키지로 제작하여 쉽게 다가설 수 있게 되었다. `gapminder` 데이터는 시각화는 물론 애니메이션 시각화의 예제로도 많이 사용되고 있다.
갭마인더 데이터셋은 1952년부터 5년 간격으로 2007년까지 142개 국가 인구수, 기대수명(`lifeExp`), 인구수(`pop`),
1인당 국민소득(`gdpPercap`)에 대한 정보를 담고 있어 기대수명과 1인당 국민소득을 통해 1952년부터 국가별 발전사항 다른 관점으로 불평등에 대한 사실을 시각화를 통해 직시할 수 있다.
### 데이터셋 설치 {#gapminder-install-dataset}
CRAN에 등록되어 있어 `install.packages()` 함수로 직접 설치해도 되고,
`remotes` 팩키지 `install_github()` 함수로 GitHub 저장소의 갭마인더 데이터를 설치해도 된다.
팔머 펭귄 데이터와 마찬가지로 안정화 되었기 때문에 CRAN 데이터나 GitHub 데이터나 이제 차이는 없다.
```{r install-gapminder-dataset, eval = FALSE}
install.packages("gapminder")
# install.packages("remotes")
# remotes::install_github("jennybc/gapminder")
```
### 자료구조 일별 {#gapminder-EDA-skimr}
[`skimr`](https://cran.r-project.org/web/packages/skimr/) 패키지를 사용해서
`gapminder` 데이터프레임 자료구조를 일별한다.
이를 통해서 1,704개 펭귄 관측값이 있으며, 6개 칼럼으로 구성된 것을 확인할 수 있다.
또한, 범주형 변수가 2개, 숫자형 변수가 4개로 구성되어 있다.
그외 더 자세한 사항은 범주형, 숫자형 변수에 대한 요약 통계량을 참조한다.
```{r gapminder-EDA-data-structure}
library(gapminder)
skimr::skim(gapminder)
```
데이터가 크지 않아 인터랙티브 `reactive`, `DT` 패키지를 통해 전체 데이터를 살펴볼 수도 있고,
첫 10개 관측점만 뽑아 일별할 수도 있다.
```{r gapminder-DT}
gapminder %>%
slice_head(n=10)
```
### 탐색적 데이터 분석 {#gapminder-EDA}
`gapminder` 데이터셋에서 `dplyr` 패키지 `filter()` 함수를 이용하여 대륙명이 오세아니아를
제외하고 나머지 대륙(아프리카, 아메리카, 아시아, 유럽)에 속한
국가를 색상을 달리하여 각 국가별로 연도별 기대수명의 변화를 시각화한다.
```{r gapminder-lifeExp, echo = FALSE, out.width='75%', fig.retina=2}
library("ggplot2")
gapminder %>%
## 5대양 6대주 중 오세아니아 호주와 뉴질랜드 제외
filter(continent != "Oceania") %>%
mutate(continent = case_when(continent == "Africa" ~ "아프리카",
continent == "Asia" ~ "아시아",
continent == "Europe" ~ "유럽",
continent == "Americas" ~ "아메리카")) %>%
## 연도별 기대수명을 각 대륙별로 추세를 시각화
ggplot( aes(x = year, y = lifeExp, group = country, color = country) ) +
geom_line(lwd = 1, show.legend = FALSE) +
facet_wrap(~ continent) +
scale_color_manual(values = country_colors) +
theme_bw(base_family = "MaruBuri") +
theme(strip.text = element_text(size = rel(1.1))) +
labs(title = "(오세아니아 제외) 대륙 국가별 기대수명 변화 추이",
x = "연도",
y = "기대수명")
```