Skip to content

Commit

Permalink
Deploying to gh-pages from @ 2f3f03c 🚀
Browse files Browse the repository at this point in the history
  • Loading branch information
tereom committed Oct 9, 2024
1 parent bebd3b7 commit 31bca40
Show file tree
Hide file tree
Showing 21 changed files with 493 additions and 444 deletions.
288 changes: 144 additions & 144 deletions 01-exploratorio.md

Large diffs are not rendered by default.

Binary file modified 01-exploratorio_files/figure-html/unnamed-chunk-11-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01-exploratorio_files/figure-html/unnamed-chunk-30-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01-exploratorio_files/figure-html/unnamed-chunk-31-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01-exploratorio_files/figure-html/unnamed-chunk-33-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 02-tipos-de-estudio_files/figure-html/grafica-pcr-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
37 changes: 25 additions & 12 deletions 04-distribucion-muestreo.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@



En esta sección discutiremos cuál el objetivo general del proceso de estimación.
En esta sección discutiremos cuál el objetivo general del proceso de estimación,
y cómo entender y manejar la variabilidad que se produce cuando aleatorizamos
la selección de las muestras que utilizamos para hacer análisis.

Expand Down Expand Up @@ -96,7 +96,7 @@ estimación diferente. Por ejemplo:

``` r
estimar_total(sample_n(marco_casas, 100), N) |>
mutate(across(where(is.numeric), round, 2))
mutate(across(where(is.numeric), \(x) round(x, 2)))
```

```
Expand Down Expand Up @@ -590,17 +590,18 @@ replicar_muestreo_exp <- function(est = mean, m, n = 150, lambda = 1){
valores_est <- map_dbl(1:m, ~ est(rexp(n, lambda)))
tibble(id_muestra = 1:m, estimacion = valores_est)
}
sim_estimador_1 <- replicar_muestreo_exp(sum, 4000, n = 150)
sim_estimador_1 <- replicar_muestreo_exp(sum, 4000, n = 15)
teorica <- tibble(x = seq(0, 35, 0.001)) |>
mutate(f_dens = dgamma(x, shape = 150, rate = 1))
mutate(f_dens = dgamma(x, shape = 15, rate = 1))
# graficar aprox de distribución de muestreo
ggplot(sim_estimador_1) +
geom_histogram(aes(x = estimacion, y = ..density..), bins = 35) +
geom_line(data = teorica, aes(x = x, y = f_dens), colour = "red", size = 1.2)
geom_histogram(aes(x = estimacion, y = after_stat(density)), bins = 35) +
geom_line(data = teorica, aes(x = x, y = f_dens), colour = "red", linewidth = 1.2)
```

<img src="04-distribucion-muestreo_files/figure-html/unnamed-chunk-26-1.png" width="480" style="display: block; margin: auto;" />


## Teorema central del límite {-}

Si consideramos los ejemplos de arriba donde tratamos con estimadores
Expand Down Expand Up @@ -863,6 +864,10 @@ ggplot(replicaciones_2, aes(sample = est_total_millones)) +
```

<img src="04-distribucion-muestreo_files/figure-html/unnamed-chunk-37-1.png" width="384" style="display: block; margin: auto;" />




Y vemos que en efecto el TCL aplica en este ejemplo, y la aproximación es buena.
Aunque la población original es sesgada, la descripción de la distribución de
muestreo es sorprendemente compacta:
Expand Down Expand Up @@ -941,19 +946,25 @@ aproximar probabilidades en las colas de la distribución:


``` r
sims_gamma <- map_df(1:2000, ~ tibble(suma = mean(rgamma(30, 0.1, 1))),
sims_gamma <- map_df(1:2000, ~ tibble(suma = sum(rgamma(30, 0.1, 1))),
.id = "n_sim")
ggplot(sims_gamma, aes(x = suma)) + geom_histogram()
```

<img src="04-distribucion-muestreo_files/figure-html/unnamed-chunk-42-1.png" width="480" style="display: block; margin: auto;" />
<img src="04-distribucion-muestreo_files/figure-html/unnamed-chunk-43-1.png" width="480" style="display: block; margin: auto;" />

## Más del Teorema central del límite {-}

- El teorema central del límite aplica a situaciones más generales que
las del enunciado del teorema básico. Por ejemplo, aplica a poblaciones
finitas (como vimos en el ejemplo de las casas) bajo muestreo sin
reemplazo, y aplica también a otras estadísticas como los cuantiles muestrales.
las del enunciado del teorema básico. Por ejemplo,
+ aplica a poblaciones finitas (como vimos en el ejemplo de las casas), en 1960
Jaroslav Hajek demostró una versión del TCL bajo muestreo sin
reemplazo.
+ Mas allá de la media muestral, el TCL se puede utilizar para más estadísticas ya que muchas
pueden verse como promedios, como totales o errores estándar. El TLC se ha generalizado incluso para cuantiles muestrales.

<!-- Loosely speaking, a consequence of the CLT for sample quantiles is that the 100𝑝% sample quantile of a large number of identically distributed random variables, each with probability density function 𝑓 -->
<!-- and 100𝑝% quantile 𝜉(𝑝), has approximately a normal distribution. See, for example, Lehmann (1999) for a precise statement and conditions. -->

- Es importante notar que la calidad de la aproximación del TCL depende de características
de la población y también del tamaño de muestra $n$. Para ver si el TCL aplica, podemos hacer ejercicios de simulación bajo diferentes supuestos acerca de la población.
Expand All @@ -967,8 +978,10 @@ el máximo de un conjunto de uniformes, por ejemplo).
exactas, particularmente en la construcción de intervalos de confianza, por ejemplo. Dependemos menos de **resultados asintóticos**, como el TCL.

- Cuando aproximamos una distribución discreta mediante la distribución normal,
conviene hacer *correcciones de continuidad*, como se explica en [@Chihara], 4.3.2.
conviene hacer *correcciones de continuidad*, como se explica en [@Chihara], 4.3.2.

<!-- Hayek: https://www.kybernetika.cz/content/1995/3/251/paper.pdf -->
<!-- Lehman: https://www.datascienceassn.org/sites/default/files/Elements%20of%20Large-Sample%20Theory%20-%20Lehmann.pdf -->



Expand Down
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file not shown.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
34 changes: 24 additions & 10 deletions 05-remuestreo.md
Original file line number Diff line number Diff line change
Expand Up @@ -333,8 +333,8 @@ muestreo**:

- *Si tenemos la población*, podemos *calcular* la distribución de muestreo de
nuestro estimador tomando muchas muestras de la *población*.
- Estimamos la *poblacion* con la *muestra* y enchufamos en la frase anterior:
- Podemos *estimar* la distribución de muestreo de nuestro estimador
- Estimamos la *poblacion* con la *muestra* y enchufamos en la frase anterior:
*estimamos* la distribución de muestreo de nuestro estimador
tomando muchas muestras de la *muestra*.

Nótese que el proceso de muestreo en el último paso **debe ser el mismo** que
Expand Down Expand Up @@ -367,8 +367,7 @@ entre las observaciones de la remuestra, y cómo serían las remuestras sin reem

**Observación 2**. Estos argumentos se pueden escribir con fórmulas usando por
ejemplo la función de distribución acumulada $F$ de la población y su estimador,
que es la función empírica $\hat{F}$, como en @Efron.
Si $\theta = t(F)$ es una
que es la función empírica $\hat{F}$. Si $\theta = t(F)$ es una
cantidad poblacional que queremos estimar, su estimador plug-in es
$\hat{\theta} = t(\hat{F})$.

Expand All @@ -379,8 +378,8 @@ $\hat{F}$ converge a $F$ cuando el tamaño de muestra $n\to\infty$, lo cual es
intuitivamente claro.



### Ejemplo {-}

En el ejemplo de tomadores de té, podemos estimar la proporción de tomadores
de té que prefiere el té negro usando nuestra muestra:

Expand Down Expand Up @@ -457,6 +456,21 @@ prop_negro_tbl |>
```


<!-- <!-- comentar --> -->
<!-- agregar entre cambio de clase -->
<!-- ### Resumen -->

<!-- * La idea detrás del bootstrap (no paramétrico) es que la muestra original es -->
<!-- representativa de la población. Entonces las remuestras de la muestra aproximan lo que obtendríamos si tomáramos muestras de la población. -->

<!-- * Es así que la distribución bootstrap de una estadística, basada en un número grande -->
<!-- de remuestras, aproxima la distribución muestral de la estadística. -->

<!-- * Para un gran número de estadísiticas, la distribuciones bootstrap aproximan la dispersón, -->
<!-- sesgo y forma de la distribución muestral. -->

<!-- <!-- comentar --> -->

## Discusión: propiedades de la distribución bootstrap {-}

Uasremos la distribución bootstrap principalmente para evaluar la variabilidad
Expand All @@ -467,8 +481,8 @@ de muestreo, o para "mejorar" la estimación remuestreando.

### Ejemplo {-}

En nuestro ejemplo, podemos ver varias muestras (por ejemplo 20) de tamaño 200, y
vemos cómo se ve la aproximación a la distribución de la población:
En este ejemplo, vemos 20 muestras de tamaño 200, y
evaluamos cómo se ve la aproximación a la distribución de la población (rojo):

<img src="05-remuestreo_files/figure-html/unnamed-chunk-19-1.png" width="384" style="display: block; margin: auto;" />

Expand Down Expand Up @@ -617,7 +631,7 @@ que es la desviación estándar de la **distribución bootsrap**.
define como la desviación estándar de la distribución bootstrap de $\theta$.

El **intervalo de confianza normal bootstrap** al 95\% está dado por
$$[\hat{\theta} - 2\mathsf{ee}(\hat{\theta}), \hat{\theta} + 2\mathsf{ee}(\hat{\theta})].$$
$$[\hat{\theta} - 2\hat{\mathsf{ee}}_{\textrm{boot}}(\hat{\theta}), \hat{\theta} + 2\hat{\mathsf{ee}}_{\textrm{boot}}(\hat{\theta})].$$
</div>\EndKnitrBlock{mathblock}

Nótese que hay varias cosas qué revisar aquí: que el teorema central del límite aplica y
Expand Down Expand Up @@ -1382,7 +1396,7 @@ graf_casas <- function(data){
geom_smooth(aes(y = precio_m2_miles), method = "loess", span = 0.7,
se = FALSE, method.args = list(degree = 1, family = "symmetric"))
}
graf_casas(muestra_casas)
graf_casas(casas_muestra)
```

<img src="05-remuestreo_files/figure-html/unnamed-chunk-61-1.png" width="480" style="display: block; margin: auto;" />
Expand Down Expand Up @@ -2208,7 +2222,7 @@ object_size(computos_boot)/nrow(computos_boot)
```

``` r
# el incremento en tamaño es << 100
# el incremento en tamaño es << 1000
as.numeric(object_size(computos_boot)/object_size(muestra_computos))
```

Expand Down
Binary file modified 05-remuestreo_files/figure-html/unnamed-chunk-21-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 05-remuestreo_files/figure-html/unnamed-chunk-61-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading

0 comments on commit 31bca40

Please sign in to comment.