-
Notifications
You must be signed in to change notification settings - Fork 43
/
section-1.html
424 lines (379 loc) · 29.2 KB
/
section-1.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
<!DOCTYPE html>
<html >
<head>
<meta charset="UTF-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<title></title>
<meta name="description" content="">
<meta name="generator" content="bookdown 0.5 and GitBook 2.6.7">
<meta property="og:title" content="" />
<meta property="og:type" content="book" />
<meta name="twitter:card" content="summary" />
<meta name="twitter:title" content="" />
<meta name="viewport" content="width=device-width, initial-scale=1">
<meta name="apple-mobile-web-app-capable" content="yes">
<meta name="apple-mobile-web-app-status-bar-style" content="black">
<link rel="next" href="section-2.html">
<script src="libs/jquery-2.2.3/jquery.min.js"></script>
<link href="libs/gitbook-2.6.7/css/style.css" rel="stylesheet" />
<link href="libs/gitbook-2.6.7/css/plugin-bookdown.css" rel="stylesheet" />
<link href="libs/gitbook-2.6.7/css/plugin-highlight.css" rel="stylesheet" />
<link href="libs/gitbook-2.6.7/css/plugin-search.css" rel="stylesheet" />
<link href="libs/gitbook-2.6.7/css/plugin-fontsettings.css" rel="stylesheet" />
<style type="text/css">
div.sourceCode { overflow-x: auto; }
table.sourceCode, tr.sourceCode, td.lineNumbers, td.sourceCode {
margin: 0; padding: 0; vertical-align: baseline; border: none; }
table.sourceCode { width: 100%; line-height: 100%; }
td.lineNumbers { text-align: right; padding-right: 4px; padding-left: 4px; color: #aaaaaa; border-right: 1px solid #aaaaaa; }
td.sourceCode { padding-left: 5px; }
code > span.kw { color: #007020; font-weight: bold; } /* Keyword */
code > span.dt { color: #902000; } /* DataType */
code > span.dv { color: #40a070; } /* DecVal */
code > span.bn { color: #40a070; } /* BaseN */
code > span.fl { color: #40a070; } /* Float */
code > span.ch { color: #4070a0; } /* Char */
code > span.st { color: #4070a0; } /* String */
code > span.co { color: #60a0b0; font-style: italic; } /* Comment */
code > span.ot { color: #007020; } /* Other */
code > span.al { color: #ff0000; font-weight: bold; } /* Alert */
code > span.fu { color: #06287e; } /* Function */
code > span.er { color: #ff0000; font-weight: bold; } /* Error */
code > span.wa { color: #60a0b0; font-weight: bold; font-style: italic; } /* Warning */
code > span.cn { color: #880000; } /* Constant */
code > span.sc { color: #4070a0; } /* SpecialChar */
code > span.vs { color: #4070a0; } /* VerbatimString */
code > span.ss { color: #bb6688; } /* SpecialString */
code > span.im { } /* Import */
code > span.va { color: #19177c; } /* Variable */
code > span.cf { color: #007020; font-weight: bold; } /* ControlFlow */
code > span.op { color: #666666; } /* Operator */
code > span.bu { } /* BuiltIn */
code > span.ex { } /* Extension */
code > span.pp { color: #bc7a00; } /* Preprocessor */
code > span.at { color: #7d9029; } /* Attribute */
code > span.do { color: #ba2121; font-style: italic; } /* Documentation */
code > span.an { color: #60a0b0; font-weight: bold; font-style: italic; } /* Annotation */
code > span.cv { color: #60a0b0; font-weight: bold; font-style: italic; } /* CommentVar */
code > span.in { color: #60a0b0; font-weight: bold; font-style: italic; } /* Information */
</style>
<link rel="stylesheet" href="css\style.css" type="text/css" />
</head>
<body>
<div class="book without-animation with-summary font-size-2 font-family-1" data-basepath=".">
<div class="book-summary">
<nav role="navigation">
<ul class="summary">
<li><a href="./">在LSHTM的學習筆記</a></li>
<li class="divider"></li>
<li class="part"><span><b>I 統計分析方法 Analytical Techniques</b></span></li>
<li class="chapter" data-level="1" data-path="section-1.html"><a href="section-1.html"><i class="fa fa-check"></i><b>1</b> 探索數據和簡單描述</a><ul>
<li class="chapter" data-level="1.1" data-path="section-1.html"><a href="section-1.html#section-1.1"><i class="fa fa-check"></i><b>1.1</b> 數據分析的流程</a><ul>
<li class="chapter" data-level="1.1.1" data-path="section-1.html"><a href="section-1.html#section-1.1.1"><i class="fa fa-check"></i><b>1.1.1</b> 研究設計和實施</a></li>
<li class="chapter" data-level="1.1.2" data-path="section-1.html"><a href="section-1.html#section-1.1.2"><i class="fa fa-check"></i><b>1.1.2</b> 數據分析</a></li>
</ul></li>
<li class="chapter" data-level="1.2" data-path="section-1.html"><a href="section-1.html#section-1.2"><i class="fa fa-check"></i><b>1.2</b> 數據類型</a></li>
<li class="chapter" data-level="1.3" data-path="section-1.html"><a href="section-1.html#section-1.3"><i class="fa fa-check"></i><b>1.3</b> 如何總結並展示數據</a><ul>
<li class="chapter" data-level="1.3.1" data-path="section-1.html"><a href="section-1.html#----frequency-table"><i class="fa fa-check"></i><b>1.3.1</b> 離散型分類型數據的描述 - 頻數分佈表 frequency table</a></li>
<li class="chapter" data-level="1.3.2" data-path="section-1.html"><a href="section-1.html#section-1.3.2"><i class="fa fa-check"></i><b>1.3.2</b> 連續型變量</a></li>
</ul></li>
<li class="chapter" data-level="1.4" data-path="section-1.html"><a href="section-1.html#section-1.4"><i class="fa fa-check"></i><b>1.4</b> 數據總結方案:位置,分散,偏度,和峰度</a><ul>
<li class="chapter" data-level="1.4.1" data-path="section-1.html"><a href="section-1.html#section"><i class="fa fa-check"></i><b>1.4.1</b> </a></li>
</ul></li>
</ul></li>
<li class="chapter" data-level="2" data-path="section-2.html"><a href="section-2.html"><i class="fa fa-check"></i><b>2</b> 信賴區間</a></li>
<li class="chapter" data-level="3" data-path="section-3.html"><a href="section-3.html"><i class="fa fa-check"></i><b>3</b> 假設檢驗</a></li>
<li class="chapter" data-level="4" data-path="section-4.html"><a href="section-4.html"><i class="fa fa-check"></i><b>4</b> 相關</a></li>
<li class="chapter" data-level="5" data-path="section-5.html"><a href="section-5.html"><i class="fa fa-check"></i><b>5</b> 比較</a></li>
<li class="chapter" data-level="6" data-path="section-6.html"><a href="section-6.html"><i class="fa fa-check"></i><b>6</b> 假定前提和數據轉換</a></li>
<li class="divider"></li>
<li><a href="https://bookdown.org" target="blank">本书由 bookdown 强力驱动</a></li>
</ul>
</nav>
</div>
<div class="book-body">
<div class="body-inner">
<div class="book-header" role="navigation">
<h1>
<i class="fa fa-circle-o-notch fa-spin"></i><a href="./"></a>
</h1>
</div>
<div class="page-wrapper" tabindex="-1" role="main">
<div class="page-inner">
<section class="normal" id="section-">
<!--bookdown:title:end-->
<!--bookdown:title:start-->
<div id="section-1" class="section level1">
<h1><span class="header-section-number">第 1 章</span> 探索數據和簡單描述</h1>
<div id="section-1.1" class="section level2">
<h2><span class="header-section-number">1.1</span> 數據分析的流程</h2>
<div class="figure" style="text-align: center"><span id="fig:unnamed-chunk-1"></span>
<img src="img/AT1.png" alt="Population, sample and statistical inference" width="70%" />
<p class="caption">
图 1.1: Population, sample and statistical inference
</p>
</div>
<p>統計推斷的目的,是通過從人群中取樣本,經過對樣本特徵的 (描述) 統計分析 (summary statistic),去推斷人群的相應特徵。</p>
<p>所以,無論什麼數據,到手以後我們一定要做的第一件事情,就是對其進行總結和描述,其過程又要盡可能地簡單明了。</p>
<p>在絕大多數的科學研究中數據分析都很重要,然而現實是,它多數情況下只出現在研究的第三部分:</p>
<ol style="list-style-type: decimal">
<li>研究設計</li>
<li>實施研究,收集數據</li>
<li><strong>數據分析</strong></li>
<li>結果報告</li>
</ol>
<div id="section-1.1.1" class="section level3">
<h3><span class="header-section-number">1.1.1</span> 研究設計和實施</h3>
<p>正確的統計推斷需要獲得具有代表性可以值得分析的數據,這必須建立在實驗研究設計良好,實施過程縝密的基礎上。設計糟糕,執行效率低下或者漏洞百出的實驗,給出的實驗數據必然是不可靠的,分析它也沒有意義。但是,不是說設計和實施階段就不需要統計學家的參與了。相反地,統計學家必須在研究實施過程中盡可能早的階段 (實驗設計) 參與進來。因為理解了實驗的目的,統計學家才能真正決定這個實驗要收集怎樣的數據,多大的樣本量,實施怎樣的分析方法。這些決定,注定了一項實驗研究的成敗。</p>
</div>
<div id="section-1.1.2" class="section level3">
<h3><span class="header-section-number">1.1.2</span> 數據分析</h3>
<p>然而現實很殘酷,多數情況下實驗設計階段好像沒有統計學家什麼事,等到了數據分析階段,某些人才拍腦袋想讓統計學家來拯救他們收集的垃圾數據。通常都太晚了 (too late!)。</p>
<p>假設理想狀態下,我們收集到了想要分析的數據,可是接下來的工作流程的第一步,又常常被太多人忽略。許多 “科學家” 興奮地把數據輸入軟件,立刻就開始著手建立數學模型,進行假設檢驗,卻對數據的特徵一無所知!要知道,建立怎樣的模型,做怎樣的推斷,選用什麼樣的分析手段,都必須建立在你對數據內容完全熟悉的前提下,才能正確地實施。</p>
<p>數據分析第一步:<strong>數據清理, data cleaning</strong>。</p>
<p>這一步的目的很簡單,把收集來的粗糙的,充滿了缺失值和數據類型註解等等無法直接分析的數據,整理打扮成可以建模的數據庫。這個過程中,你可能需要對某些變量進行分類,可能兩三個實驗的結果需要被合併協調,可能在這個過程中你會發現數據錄入出現了一些錯誤導致數據庫裡有一些異常值,甚至是重複錄入。所以,各位小伙伴當你拿到一個數據準備分析的第一步,你必須要先了解你的數據。常用的手段包括簡單作圖,對感興趣的變量做概括分析 (summary your data!)。除此之外,由於沒有人能保證實驗中能收集到所有對象的完整數據,我們還需要分析缺失數據的特徵,思考他們為什麼會變成缺失數據。</p>
</div>
</div>
<div id="section-1.2" class="section level2">
<h2><span class="header-section-number">1.2</span> 數據類型</h2>
<p>不同類型的數據,使用的初步描述手段各不相同。因此區分定性數據和定量數據,連續型數據,離散型數據,分類型數據顯得十分必要。</p>
<ol style="list-style-type: decimal">
<li>連續型變量,continuous data <br>連續型數據多來自實驗中對某些特徵的測量,例如身高,體重等,它們本質上是一組連續型的數據。現實生活中接觸到的許多數據也都是連續型的,例如:時間,距離,骨骼密度,藥物濃度等等。所謂連續型變量是由於它理論上可以取某段數值區間內的任何值。當然我們還會被測量尺度的精確度所局限。</li>
<li>離散型變量,discrete data <br>許多數據,是通過計數來收集的。離散型變量的本質上也是屬於數值型數據 (numeric),特徵是這種數值型數據總是<strong>取正整數</strong>或者零。例如,醫院中發生感染的次數,一個家庭中兄弟姐妹的人數,術後患者存活天數等等。</li>
<li>分類型變量,categorical data <br>分類型變量的數據,其每一個觀察值都歸類於一種類別 (或者屬性)。分類型數據和離散型數據最大的不同是,它從本質上說就不屬於數值型數據。例如,頭髮的顏色 (紅色,黃色,黑色),職業類型 (裝修工人,教師,總統)。儘管分類型數據本質上不是數值,分析過程中我們常常會給它們賦予一定的數值以便於計算。
<ol style="list-style-type: decimal">
<li>二分類型數據,binary:十分常見,例如,生存/死亡,有效/無效,成功/失敗;</li>
<li>名義型數據,nominal:數據本身沒有高低順序之分,例如,種族,血型等;</li>
<li>排序型數據,ordinal:每個分類是包函了順序含義的數據,例如,回答某些問卷問題時用的 “十分同意,同意,不同意,十分不同意”,某些癌症使用的分級診斷 “一級,二級,三級,終級”,對一些結果的評價時使用的 “優,良,中,差”。</li>
</ol></li>
</ol>
<p>其實,對於連續型變量我們還常常會將它們轉化成分類型變量,使用一些特定的或者事先定義好的閾值 (cutoff values) 把連續型數據分組,分級,分層等等。最常見的例子就是體重指數 (BMI),它本身是一個連續型的變量,但是又可以根據定義好的閾值把它分類成低體重 (<span class="math inline">\(< 18.5 \; kg/m^2\)</span>),正常體重 (<span class="math inline">\(18.5 - 24.9 \; kg/m^2\)</span>),超重 (<span class="math inline">\(25-29.9 \; kg/m^2\)</span>),肥胖 (<span class="math inline">\(\geqslant 30 \; kg/m^2\)</span>)。另一個例子是血紅蛋白 (haemoglobin, <span class="math inline">\(g/l\)</span>),它本身是一個連續型變量,但是我們利用它的閾值 (女性,<span class="math inline">\(<120 \; g/l\)</span>;男性,<span class="math inline">\(< 130 \; g/l\)</span>),作為診斷是否患有貧血症的依據。</p>
<p>把連續型變量進行分類處理的代價是信息的丟失。如果一個人的體重指數是 <span class="math inline">\(25\)</span>,他/她的數據被和體重指數為 <span class="math inline">\(29.9\)</span> 的人當作相同數值來對待是否合理是我們需要考慮的問題。而且許多情況下閾值的定義並不能達成共識,即使達成共識的閾值又是十分人為且恣意的,它可能導致一些相關關係被“強化”,或者反過來被“弱化”。所以,如果要對連續型數值進行分組,現在的要求是,在實驗設計階段就必須明確分組的閾值之定義,而不能在看到數據以後進行人為地劃分。<strong>更加不推薦的是直接使用四分位或者五分位來對數據分組。</strong></p>
</div>
<div id="section-1.3" class="section level2">
<h2><span class="header-section-number">1.3</span> 如何總結並展示數據</h2>
<p>光觀察原始數據很難真正明白數據的分佈特徵和形式,所以使用表格,或者用散點圖,柱狀圖等形式來描述數據就成為了常用的手段。前一節所描述的數據類型,決定了一組數據該如何被描述。</p>
<div id="----frequency-table" class="section level3">
<h3><span class="header-section-number">1.3.1</span> 離散型分類型數據的描述 - 頻數分佈表 frequency table</h3>
<p>下面的表格就是使用頻數分佈表來描述 <code>cars</code> 這個數據包中不同車速 (mph) 的分佈。汽車車速本身應該是一個連續型變量,但是這是1920年的數據當時的記錄只精確到整數,因此人為地造成了一組離散型變量的情況。下面的第二個表格使用的是繪圖瑞士軍刀包 <code>ggplot2</code> 裡自帶的鑽石數據。其中 <code>cut</code> 是對於鑽石切割水平的評價,所以是一個帶有排序性質的分組型變量。</p>
<div class="sourceCode"><pre class="sourceCode r"><code class="sourceCode r"><span class="kw">data</span>(<span class="st">"cars"</span>)
epiDisplay<span class="op">::</span><span class="kw">tab1</span>(cars<span class="op">$</span>speed, <span class="dt">graph =</span> <span class="ot">FALSE</span>)</code></pre></div>
<pre><code>## cars$speed :
## Frequency Percent Cum. percent
## 4 2 4 4
## 7 2 4 8
## 8 1 2 10
## 9 1 2 12
## 10 3 6 18
## 11 2 4 22
## 12 4 8 30
## 13 4 8 38
## 14 4 8 46
## 15 3 6 52
## 16 2 4 56
## 17 3 6 62
## 18 4 8 70
## 19 3 6 76
## 20 5 10 86
## 22 1 2 88
## 23 1 2 90
## 24 4 8 98
## 25 1 2 100
## Total 50 100 100</code></pre>
<div class="sourceCode"><pre class="sourceCode r"><code class="sourceCode r"><span class="kw">library</span>(ggplot2); <span class="kw">data</span>(<span class="st">"diamonds"</span>)
epiDisplay<span class="op">::</span><span class="kw">tab1</span>(diamonds<span class="op">$</span>cut, <span class="dt">graph =</span> <span class="ot">FALSE</span>)</code></pre></div>
<pre><code>## diamonds$cut :
## Frequency Percent Cum. percent
## Fair 1610 3.0 3.0
## Good 4906 9.1 12.1
## Very Good 12082 22.4 34.5
## Premium 13791 25.6 60.0
## Ideal 21551 40.0 100.0
## Total 53940 100.0 100.0</code></pre>
<p>離散型變量和分類型變量的描述還可以使用柱狀圖的形式來展示如下:</p>
<div class="figure" style="text-align: center"><span id="fig:car-speed"></span>
<img src="03-Analytic-Technique_files/figure-html/car-speed-1.png" alt="Bar chart displaying the speed of cars" width="80%" />
<p class="caption">
图 1.2: Bar chart displaying the speed of cars
</p>
</div>
<div class="figure" style="text-align: center"><span id="fig:diamonds-cut"></span>
<img src="03-Analytic-Technique_files/figure-html/diamonds-cut-1.png" alt="Bar chart displaying distribution of evaluation of diamonds cut" width="80%" />
<p class="caption">
图 1.3: Bar chart displaying distribution of evaluation of diamonds cut
</p>
</div>
<p>上面這兩圖的 y 軸都用的是頻率,當然還可以使用百分比。不同組間分類型變量的分佈比較的話更常使用百分比作為 y 軸。如下面的表格及百分比條形圖所示。</p>
<div class="sourceCode"><pre class="sourceCode r"><code class="sourceCode r"><span class="kw">library</span>(Epi)
diamonds<span class="op">$</span>clarity2g <-<span class="st"> "Good"</span>
diamonds<span class="op">$</span>clarity2g[(diamonds<span class="op">$</span>clarity<span class="op">==</span><span class="st">"I1"</span>)<span class="op">|</span>
<span class="st"> </span>(diamonds<span class="op">$</span>clarity<span class="op">==</span><span class="st">"SI2"</span>)<span class="op">|</span>
<span class="st"> </span>(diamonds<span class="op">$</span>clarity<span class="op">==</span><span class="st">"SI1"</span>)<span class="op">|</span>
<span class="st"> </span>(diamonds<span class="op">$</span>clarity<span class="op">==</span><span class="st">"VS2"</span>)] <-<span class="st"> "Poor"</span>
tab <-<span class="st"> </span><span class="kw">stat.table</span>(<span class="dt">index=</span><span class="kw">list</span>(<span class="dt">Cut=</span>cut,<span class="dt">Clarity=</span>clarity2g),
<span class="dt">contents=</span><span class="kw">list</span>(<span class="kw">count</span>(),<span class="kw">percent</span>(cut)), <span class="dt">data=</span>diamonds, <span class="dt">margins=</span>T)
<span class="kw">print</span>(tab, <span class="dt">digits =</span> <span class="dv">2</span>)</code></pre></div>
<pre><code>## ---------------------------------------
## ----------Clarity-----------
## Cut Good Poor Total
## ---------------------------------------
## Fair 265.00 1345.00 1610.00
## 1.42 3.81 2.98
##
## Good 1191.00 3715.00 4906.00
## 6.38 10.54 9.10
##
## Very Good 4067.00 8015.00 12082.00
## 21.77 22.73 22.40
##
## Premium 3705.00 10086.00 13791.00
## 19.83 28.61 25.57
##
## Ideal 9454.00 12097.00 21551.00
## 50.60 34.31 39.95
##
##
## Total 18682.00 35258.00 53940.00
## 100.00 100.00 100.00
## ---------------------------------------</code></pre>
<div class="figure" style="text-align: center"><span id="fig:diamonds-cut-clarity"></span>
<img src="03-Analytic-Technique_files/figure-html/diamonds-cut-clarity-1.png" alt="Bar chart displaying distribution of evaluation of diamonds cut by clarity" width="80%" />
<p class="caption">
图 1.4: Bar chart displaying distribution of evaluation of diamonds cut by clarity
</p>
</div>
</div>
<div id="section-1.3.2" class="section level3">
<h3><span class="header-section-number">1.3.2</span> 連續型變量</h3>
<p>連續型變量如果做頻數分佈表一般提供的信息量就較小。常用來描述連續型變量的手段是柱狀圖,histogram,和箱形圖,boxplot。柱狀圖應該不必過多解釋。箱形圖,展示的是連續型變量的中位數,四分位,範圍值,以及異常值。一個典型的箱形圖,中間的方形區域包括了該數據的四分位距,interquartile range (即中間 50% 的數據, IQR)。</p>
<div class="figure" style="text-align: center"><span id="fig:diamond-carat-box"></span>
<img src="03-Analytic-Technique_files/figure-html/diamond-carat-box-1.png" alt="Boxplot of the diamond carat data" width="80%" />
<p class="caption">
图 1.5: Boxplot of the diamond carat data
</p>
</div>
<p>R作出的箱形圖如 <a href="section-1.html#fig:diamond-carat-box">1.5</a> 所示,箱子以上的橫線,意為最高值為75%分位值加上1.5倍的IQR;箱子以下橫線,意為最低值為25%分位值減去1.5倍的IQR。其他的觀察值如果不在這個上下限範圍之內的,會用黑點標記出來。這些值被認為是異常值 (outliers)。</p>
</div>
</div>
<div id="section-1.4" class="section level2">
<h2><span class="header-section-number">1.4</span> 數據總結方案:位置,分散,偏度,和峰度</h2>
<div id="section" class="section level3">
<h3><span class="header-section-number">1.4.1</span> </h3>
<p>描述一組連續型變量的位置,location,此處的位置指的是數據分佈的<strong>中心</strong>位置,常用的數值是眾數 (mode),中位數 (median),均值 (mean)。 - 眾數 mode,的定義是,一組數據中出現最多次的數值大小; - 中位數 median,的定義是,一組數據中從小到大/或者從大到小排序後50%位置的數值大小,如果觀察值有偶數個,中位數的定義是中間兩個數值的平均值大小; - 算術平均值 arithmetic mean 的<strong>大小受異常值影響較大</strong>,通常簡略為均值,其定義可以用下面的表達式:<span class="math display">\[\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\]</span> - 幾何平均值 geometrix mean,常用在正偏態分佈數據 (positively skewed data),其定義為: <span class="math display">\[\sqrt[n]{\prod_{i=1}^n X_i}=exp[\frac{1}{n}\sum_{i=1}^n log_e(X_i)]\]</span> - 調和平均值 harmonic mean,是所有觀察值的倒數和的倒數,定義為:<span class="math display">\[\frac{1}{\frac{1}{n}\sum_{i=1}^n\frac{1}{X_i}}\]</span></p>
<ol start="2" style="list-style-type: decimal">
<li>描述一組連續型變量的分散程度</li>
</ol>
<p>數據的分散程度,dispersion,也就是數據的波動大小 variation。同樣均值的數據,他們的分散可能差別很大:</p>
<div class="figure" style="text-align: center"><span id="fig:diff-dispersion"></span>
<img src="03-Analytic-Technique_files/figure-html/diff-dispersion-1.png" alt="Distributions with similar central location but different dispersion" width="80%" />
<p class="caption">
图 1.6: Distributions with similar central location but different dispersion
</p>
</div>
<p>分散程度的描述方法花樣不少,我們這裡先考慮範圍 (range),四分位差 (interquartile range),方差 (variance),標準差 (standard deviation)。</p>
<p>2.1. 範圍 range</p>
<ul>
<li><p>定義:最大值和最小值的差。</p></li>
<li><p>缺點:受樣本量大小,以及異常值影響較大。</p></li>
<li><p>在表格,論文中需要同時報告最大值和最小值。</p></li>
</ul>
<p>2.2. 四分位差 interquartile range (IQR)</p>
<ul>
<li><p>定義:四分位差是包含了數據中間 50% 數值的範圍。即,75%分位數-25%分位數的差值。</p></li>
<li><p>當觀察值數量為奇數個時,計算方法為:去掉中位數,計算大於中位數和小於兩個部分數值的中位數,求其差,例如:<span class="math inline">\(5,10,12,14,16,19,22\)</span> 這組數字,25%分位數為10,75%分位數為19,所以IQR等於9。</p></li>
<li><p>當觀察值數量為偶數個時,計算方法為:計算較小的50%數值的中位數,和較大50%數值的中位數,求其差,例如:<span class="math inline">\(5,10,12,14,16,19,22,38\)</span> 這組數字,上下兩半部分的中位數分別是 <span class="math inline">\(Q_L=\frac{10+12}{2}=11;\;Q_U=\frac{19+22}{2}=20.5\)</span>,所以,其IQR等於9.5.</p></li>
<li><p>在表格,論文中需要同時報告25%,75%分位數兩個數值,例:[11,20.5]。</p></li>
</ul>
<p>2.3. 方差和標準差 variance and standard deviation</p>
<ul>
<li><p>先定義每一個觀察值和均值之間的差為 <span class="math inline">\(D_i = X_i - \bar{X}\)</span>。</p></li>
<li><p>由於,根據定義,<span class="math inline">\(\frac{1}{n}\sum_{i=1}^n D_i=0\)</span>。</p></li>
<li><p>所以,方差 Variance 被定義為 <span class="math inline">\(\frac{1}{n-1}\sum_{i=1}^n D_i^2\)</span>。</p></li>
<li><p>方差的平方根,被定義為標準差 standard deviation,<span class="math inline">\(\text{SD}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n D_i^2}\)</span></p></li>
<li><p>更常見的表達式為:</p></li>
</ul>
<p><span class="math display">\[
\begin{aligned}
\text{Var} &= \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 \\
&= \frac{1}{n-1}[(\sum_{i=1}^nX_i^2)-n\bar{X}^2]
\end{aligned}
\]</span></p>
<p>此處分母為 <span class="math inline">\(n-1\)</span> 而不是 <span class="math inline">\(n\)</span> 的原因,需要參考推斷部分的解釋 (Section <a href="#samplevarbias"><strong>??</strong></a>)。</p>
<ul>
<li>方差標準差受異常值影響較大。例如,下面的數據:</li>
</ul>
<p><span class="math display">\[
5, 9, 12, 14, 14, 15, 16, 19, 22\;\;\; \text{Var}=25.5\\
5, 9, 12, 14, 14, 15, 16, 19, 58\;\; \text{Var}=241.5
\]</span></p>
<p>2.4. 偏度 skewness</p>
<p>使用柱狀圖來描述數據時,如果柱狀圖左右基本對稱 (中位數和均值基本一致),偏度為零,正態分佈數據都是左右對稱的。如果柱狀圖右側的尾巴較長,偏度為正;如果左側的尾巴較長,偏度為負。偏度計算公式為:</p>
<p><span class="math display">\[
\frac{\frac{1}{n}\sum_{i=1}^n D_i^3}{(\frac{1}{n}\sum_{i=1}^n D_i^2)^{\frac{3}{2}}}
\]</span></p>
<div class="figure" style="text-align: center"><span id="fig:skewness"></span>
<img src="03-Analytic-Technique_files/figure-html/skewness-1.png" alt="Relationship between skew and measures of location" width="80%" />
<p class="caption">
图 1.7: Relationship between skew and measures of location
</p>
</div>
</div>
</div>
</div>
</section>
</div>
</div>
</div>
<a href="section-2.html" class="navigation navigation-next navigation-unique" aria-label="Next page"><i class="fa fa-angle-right"></i></a>
</div>
</div>
<script src="libs/gitbook-2.6.7/js/app.min.js"></script>
<script src="libs/gitbook-2.6.7/js/lunr.js"></script>
<script src="libs/gitbook-2.6.7/js/plugin-search.js"></script>
<script src="libs/gitbook-2.6.7/js/plugin-sharing.js"></script>
<script src="libs/gitbook-2.6.7/js/plugin-fontsettings.js"></script>
<script src="libs/gitbook-2.6.7/js/plugin-bookdown.js"></script>
<script src="libs/gitbook-2.6.7/js/jquery.highlight.js"></script>
<script>
gitbook.require(["gitbook"], function(gitbook) {
gitbook.start({
"sharing": {
"github": true,
"facebook": false,
"twitter": true,
"google": false,
"weibo": false,
"instapper": false,
"vk": false,
"all": ["facebook", "google", "twitter", "weibo", "instapaper"]
},
"fontsettings": {
"theme": "white",
"family": "sans",
"size": 2
},
"edit": {
"link": "https://github.com/winterwang/LSHTMlearningnote/edit/master/%s",
"text": "缂栬緫"
},
"download": null,
"toc": {
"collapse": "none"
},
"search": false
});
});
</script>
<!-- dynamically load mathjax for compatibility with self-contained -->
<script>
(function () {
var script = document.createElement("script");
script.type = "text/javascript";
script.src = "https://cdn.bootcss.com/mathjax/2.7.1/MathJax.js?config=TeX-MML-AM_CHTML";
if (location.protocol !== "file:" && /^https?:/.test(script.src))
script.src = script.src.replace(/^https?:/, '');
document.getElementsByTagName("head")[0].appendChild(script);
})();
</script>
</body>
</html>