diff --git a/05-remuestreo.Rmd b/05-remuestreo.Rmd index df37529..b890501 100644 --- a/05-remuestreo.Rmd +++ b/05-remuestreo.Rmd @@ -302,8 +302,8 @@ muestreo**: - *Si tenemos la población*, podemos *calcular* la distribución de muestreo de nuestro estimador tomando muchas muestras de la *población*. -- Estimamos la *poblacion* con la *muestra* y enchufamos en la frase anterior: -- Podemos *estimar* la distribución de muestreo de nuestro estimador +- Estimamos la *poblacion* con la *muestra* y enchufamos en la frase anterior: +*estimamos* la distribución de muestreo de nuestro estimador tomando muchas muestras de la *muestra*. Nótese que el proceso de muestreo en el último paso **debe ser el mismo** que @@ -436,8 +436,7 @@ entre las observaciones de la remuestra, y cómo serían las remuestras sin reem **Observación 2**. Estos argumentos se pueden escribir con fórmulas usando por ejemplo la función de distribución acumulada $F$ de la población y su estimador, -que es la función empírica $\hat{F}$, como en @Efron. -Si $\theta = t(F)$ es una +que es la función empírica $\hat{F}$. Si $\theta = t(F)$ es una cantidad poblacional que queremos estimar, su estimador plug-in es $\hat{\theta} = t(\hat{F})$. @@ -448,8 +447,8 @@ $\hat{F}$ converge a $F$ cuando el tamaño de muestra $n\to\infty$, lo cual es intuitivamente claro. - ### Ejemplo {-} + En el ejemplo de tomadores de té, podemos estimar la proporción de tomadores de té que prefiere el té negro usando nuestra muestra: @@ -504,6 +503,21 @@ prop_negro_tbl |> ``` + --> + + + + + + + + + + + + + --> + ## Discusión: propiedades de la distribución bootstrap {-} Uasremos la distribución bootstrap principalmente para evaluar la variabilidad @@ -514,8 +528,8 @@ de muestreo, o para "mejorar" la estimación remuestreando. ### Ejemplo {-} -En nuestro ejemplo, podemos ver varias muestras (por ejemplo 20) de tamaño 200, y -vemos cómo se ve la aproximación a la distribución de la población: +En este ejemplo, vemos 20 muestras de tamaño 200, y +evaluamos cómo se ve la aproximación a la distribución de la población (rojo): ```{r, echo = FALSE, message = FALSE, fig.width =4, fig.height = 3, cache = TRUE} set.seed(911) @@ -580,6 +594,7 @@ ggplot(dist_boot, aes(sample = precio_miles, group = interaction(rep))) + geom_qq(data = dist_muestreo, aes(sample = precio_miles), colour = "red", distribution = stats::qunif, alpha = 0.1) + ylim(c(125, 230)) + + geom_hline(yintercept = 183, color = "red") + labs(subtitle = "Estimaciones de distribución \n de muestreo (media)") ``` @@ -760,7 +775,7 @@ que es la desviación estándar de la **distribución bootsrap**. define como la desviación estándar de la distribución bootstrap de $\theta$. El **intervalo de confianza normal bootstrap** al 95\% está dado por -$$[\hat{\theta} - 2\mathsf{ee}(\hat{\theta}), \hat{\theta} + 2\mathsf{ee}(\hat{\theta})].$$ +$$[\hat{\theta} - 2\hat{\mathsf{ee}}_{\textrm{boot}}(\hat{\theta}), \hat{\theta} + 2\hat{\mathsf{ee}}_{\textrm{boot}}(\hat{\theta})].$$ ``` @@ -1380,7 +1395,7 @@ graf_casas <- function(data){ geom_smooth(aes(y = precio_m2_miles), method = "loess", span = 0.7, se = FALSE, method.args = list(degree = 1, family = "symmetric")) } -graf_casas(muestra_casas) +graf_casas(casas_muestra) ``` Podemos hacer bootstrap para juzgar la estabilidad del suavizador: @@ -1963,7 +1978,7 @@ object_size(muestra_computos) object_size(computos_boot) # tamaño por muestra object_size(computos_boot)/nrow(computos_boot) -# el incremento en tamaño es << 100 +# el incremento en tamaño es << 1000 as.numeric(object_size(computos_boot)/object_size(muestra_computos)) ```