Skip to content

Commit

Permalink
Agregar notas guía
Browse files Browse the repository at this point in the history
  • Loading branch information
tereom committed Oct 9, 2024
1 parent d358dc8 commit 59b4f02
Showing 1 changed file with 30 additions and 11 deletions.
41 changes: 30 additions & 11 deletions 04-distribucion-muestreo.Rmd
Original file line number Diff line number Diff line change
Expand Up @@ -8,7 +8,7 @@ comma <- function(x) format(x, digits = 2, big.mark = ",")
theme_set(theme_minimal())
```

En esta sección discutiremos cuál el objetivo general del proceso de estimación.
En esta sección discutiremos cuál el objetivo general del proceso de estimación,
y cómo entender y manejar la variabilidad que se produce cuando aleatorizamos
la selección de las muestras que utilizamos para hacer análisis.

Expand Down Expand Up @@ -73,7 +73,7 @@ estimación diferente. Por ejemplo:

```{r}
estimar_total(sample_n(marco_casas, 100), N) |>
mutate(across(where(is.numeric), round, 2))
mutate(across(where(is.numeric), \(x) round(x, 2)))
```

El valor poblacional que buscamos estimar (nótese que en la práctica este no lo conocemos)
Expand Down Expand Up @@ -434,15 +434,16 @@ replicar_muestreo_exp <- function(est = mean, m, n = 150, lambda = 1){
valores_est <- map_dbl(1:m, ~ est(rexp(n, lambda)))
tibble(id_muestra = 1:m, estimacion = valores_est)
}
sim_estimador_1 <- replicar_muestreo_exp(sum, 4000, n = 150)
sim_estimador_1 <- replicar_muestreo_exp(sum, 4000, n = 15)
teorica <- tibble(x = seq(0, 35, 0.001)) |>
mutate(f_dens = dgamma(x, shape = 150, rate = 1))
mutate(f_dens = dgamma(x, shape = 15, rate = 1))
# graficar aprox de distribución de muestreo
ggplot(sim_estimador_1) +
geom_histogram(aes(x = estimacion, y = ..density..), bins = 35) +
geom_line(data = teorica, aes(x = x, y = f_dens), colour = "red", size = 1.2)
geom_histogram(aes(x = estimacion, y = after_stat(density)), bins = 35) +
geom_line(data = teorica, aes(x = x, y = f_dens), colour = "red", linewidth = 1.2)
```


## Teorema central del límite {-}

Si consideramos los ejemplos de arriba donde tratamos con estimadores
Expand Down Expand Up @@ -665,6 +666,16 @@ ggplot(replicaciones_2, aes(sample = est_total_millones)) +
geom_qq(alpha = 0.3) +
geom_qq_line(colour = "red")
```

```{r, echo=FALSE, eval=FALSE}
lineup_normal <- lineup(null_dist("est_total_millones", dist = "normal"), replicaciones_2)
ggplot(lineup_normal, aes(sample = est_total_millones)) +
geom_qq(distribution = stats::qnorm) +
geom_qq_line(colour = "red") +
facet_wrap(~ .sample)
```


Y vemos que en efecto el TCL aplica en este ejemplo, y la aproximación es buena.
Aunque la población original es sesgada, la descripción de la distribución de
muestreo es sorprendemente compacta:
Expand Down Expand Up @@ -722,17 +733,23 @@ aproximar probabilidades en las colas de la distribución:


```{r}
sims_gamma <- map_df(1:2000, ~ tibble(suma = mean(rgamma(30, 0.1, 1))),
sims_gamma <- map_df(1:2000, ~ tibble(suma = sum(rgamma(30, 0.1, 1))),
.id = "n_sim")
ggplot(sims_gamma, aes(x = suma)) + geom_histogram()
```

## Más del Teorema central del límite {-}

- El teorema central del límite aplica a situaciones más generales que
las del enunciado del teorema básico. Por ejemplo, aplica a poblaciones
finitas (como vimos en el ejemplo de las casas) bajo muestreo sin
reemplazo, y aplica también a otras estadísticas como los cuantiles muestrales.
las del enunciado del teorema básico. Por ejemplo,
+ aplica a poblaciones finitas (como vimos en el ejemplo de las casas), en 1960
Jaroslav Hajek demostró una versión del TCL bajo muestreo sin
reemplazo.
+ Mas allá de la media muestral, el TCL se puede utilizar para más estadísticas ya que muchas
pueden verse como promedios, como totales o errores estándar. El TLC se ha generalizado incluso para cuantiles muestrales.

<!-- Loosely speaking, a consequence of the CLT for sample quantiles is that the 100𝑝% sample quantile of a large number of identically distributed random variables, each with probability density function 𝑓 -->
<!-- and 100𝑝% quantile 𝜉(𝑝), has approximately a normal distribution. See, for example, Lehmann (1999) for a precise statement and conditions. -->

- Es importante notar que la calidad de la aproximación del TCL depende de características
de la población y también del tamaño de muestra $n$. Para ver si el TCL aplica, podemos hacer ejercicios de simulación bajo diferentes supuestos acerca de la población.
Expand All @@ -746,8 +763,10 @@ el máximo de un conjunto de uniformes, por ejemplo).
exactas, particularmente en la construcción de intervalos de confianza, por ejemplo. Dependemos menos de **resultados asintóticos**, como el TCL.

- Cuando aproximamos una distribución discreta mediante la distribución normal,
conviene hacer *correcciones de continuidad*, como se explica en [@Chihara], 4.3.2.
conviene hacer *correcciones de continuidad*, como se explica en [@Chihara], 4.3.2.

<!-- Hayek: https://www.kybernetika.cz/content/1995/3/251/paper.pdf -->
<!-- Lehman: https://www.datascienceassn.org/sites/default/files/Elements%20of%20Large-Sample%20Theory%20-%20Lehmann.pdf -->



Expand Down

0 comments on commit 59b4f02

Please sign in to comment.