From 59b4f0245e4e390e4220eb1345a24f152ece355c Mon Sep 17 00:00:00 2001 From: tereom Date: Wed, 9 Oct 2024 10:06:46 -0600 Subject: [PATCH] =?UTF-8?q?Agregar=20notas=20gu=C3=ADa?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 04-distribucion-muestreo.Rmd | 41 ++++++++++++++++++++++++++---------- 1 file changed, 30 insertions(+), 11 deletions(-) diff --git a/04-distribucion-muestreo.Rmd b/04-distribucion-muestreo.Rmd index 906144b..9d25ec4 100644 --- a/04-distribucion-muestreo.Rmd +++ b/04-distribucion-muestreo.Rmd @@ -8,7 +8,7 @@ comma <- function(x) format(x, digits = 2, big.mark = ",") theme_set(theme_minimal()) ``` -En esta sección discutiremos cuál el objetivo general del proceso de estimación. +En esta sección discutiremos cuál el objetivo general del proceso de estimación, y cómo entender y manejar la variabilidad que se produce cuando aleatorizamos la selección de las muestras que utilizamos para hacer análisis. @@ -73,7 +73,7 @@ estimación diferente. Por ejemplo: ```{r} estimar_total(sample_n(marco_casas, 100), N) |> - mutate(across(where(is.numeric), round, 2)) + mutate(across(where(is.numeric), \(x) round(x, 2))) ``` El valor poblacional que buscamos estimar (nótese que en la práctica este no lo conocemos) @@ -434,15 +434,16 @@ replicar_muestreo_exp <- function(est = mean, m, n = 150, lambda = 1){ valores_est <- map_dbl(1:m, ~ est(rexp(n, lambda))) tibble(id_muestra = 1:m, estimacion = valores_est) } -sim_estimador_1 <- replicar_muestreo_exp(sum, 4000, n = 150) +sim_estimador_1 <- replicar_muestreo_exp(sum, 4000, n = 15) teorica <- tibble(x = seq(0, 35, 0.001)) |> - mutate(f_dens = dgamma(x, shape = 150, rate = 1)) + mutate(f_dens = dgamma(x, shape = 15, rate = 1)) # graficar aprox de distribución de muestreo ggplot(sim_estimador_1) + - geom_histogram(aes(x = estimacion, y = ..density..), bins = 35) + - geom_line(data = teorica, aes(x = x, y = f_dens), colour = "red", size = 1.2) + geom_histogram(aes(x = estimacion, y = after_stat(density)), bins = 35) + + geom_line(data = teorica, aes(x = x, y = f_dens), colour = "red", linewidth = 1.2) ``` + ## Teorema central del límite {-} Si consideramos los ejemplos de arriba donde tratamos con estimadores @@ -665,6 +666,16 @@ ggplot(replicaciones_2, aes(sample = est_total_millones)) + geom_qq(alpha = 0.3) + geom_qq_line(colour = "red") ``` + +```{r, echo=FALSE, eval=FALSE} +lineup_normal <- lineup(null_dist("est_total_millones", dist = "normal"), replicaciones_2) +ggplot(lineup_normal, aes(sample = est_total_millones)) + + geom_qq(distribution = stats::qnorm) + + geom_qq_line(colour = "red") + + facet_wrap(~ .sample) +``` + + Y vemos que en efecto el TCL aplica en este ejemplo, y la aproximación es buena. Aunque la población original es sesgada, la descripción de la distribución de muestreo es sorprendemente compacta: @@ -722,7 +733,7 @@ aproximar probabilidades en las colas de la distribución: ```{r} -sims_gamma <- map_df(1:2000, ~ tibble(suma = mean(rgamma(30, 0.1, 1))), +sims_gamma <- map_df(1:2000, ~ tibble(suma = sum(rgamma(30, 0.1, 1))), .id = "n_sim") ggplot(sims_gamma, aes(x = suma)) + geom_histogram() ``` @@ -730,9 +741,15 @@ ggplot(sims_gamma, aes(x = suma)) + geom_histogram() ## Más del Teorema central del límite {-} - El teorema central del límite aplica a situaciones más generales que -las del enunciado del teorema básico. Por ejemplo, aplica a poblaciones -finitas (como vimos en el ejemplo de las casas) bajo muestreo sin -reemplazo, y aplica también a otras estadísticas como los cuantiles muestrales. +las del enunciado del teorema básico. Por ejemplo, + + aplica a poblaciones finitas (como vimos en el ejemplo de las casas), en 1960 + Jaroslav Hajek demostró una versión del TCL bajo muestreo sin +reemplazo. + + Mas allá de la media muestral, el TCL se puede utilizar para más estadísticas ya que muchas + pueden verse como promedios, como totales o errores estándar. El TLC se ha generalizado incluso para cuantiles muestrales. + + + - Es importante notar que la calidad de la aproximación del TCL depende de características de la población y también del tamaño de muestra $n$. Para ver si el TCL aplica, podemos hacer ejercicios de simulación bajo diferentes supuestos acerca de la población. @@ -746,8 +763,10 @@ el máximo de un conjunto de uniformes, por ejemplo). exactas, particularmente en la construcción de intervalos de confianza, por ejemplo. Dependemos menos de **resultados asintóticos**, como el TCL. - Cuando aproximamos una distribución discreta mediante la distribución normal, -conviene hacer *correcciones de continuidad*, como se explica en [@Chihara], 4.3.2. +conviene hacer *correcciones de continuidad*, como se explica en [@Chihara], 4.3.2. + +