Skip to content

Commit

Permalink
Agregar notas distribución de muestreo
Browse files Browse the repository at this point in the history
  • Loading branch information
tereom committed Sep 11, 2024
1 parent 3497857 commit da64ba3
Show file tree
Hide file tree
Showing 4 changed files with 1,192 additions and 27 deletions.
39 changes: 30 additions & 9 deletions 02-tipos-de-estudio.Rmd
Original file line number Diff line number Diff line change
Expand Up @@ -36,6 +36,21 @@ ggplot(bind_rows(pre, post), aes(x = y, color = group)) +
xlab("CPR error") + labs(color = "")
```


<!-- Es común saltar a responder análisis o pruebas estadísiticas sin primero -->
<!-- entender el problema. Sin embargo, recordemos que el objetivo del análisis de datos y la estadística es resolver el problema y no simplemente aplicar técnicas. -->

<!-- Debemos preguntar ¿Qué es el error CPR?, ¿que quiere decir media pre vs post? -->
<!-- ¿Cuántas observaciones hay? ¿cómo se colectaron los datos? -->

<!-- Parte de las responsabilidades del analista de datos es no solo responder lo que se -->
<!-- pregunta sino considerar si las preguntas son adecuadas. -->

<!-- En este caso el cliente preguntó como hacer una comparación de medias, sin embbargo, -->
<!-- hay datos extremos por lo que la comparación de medias no es apropiada -->



</br>

> Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise.
Expand Down Expand Up @@ -84,7 +99,8 @@ ggplot(puntos, aes(x = x, y = y)) +

Ejemplos: Alguien nos pregunta cuáles son las tiendas que mas venden de una
cadena. Podríamos consultar bases de datos, hacer extracciones, definir
periodos, etc. y dar una respuesta que probablemente es poco útil. Nos damos
periodos, etc. y reportar el promedio de ventas en el último mes, esta respuesta
probablemente es poco útil. Nos damos
cuenta, por ejemplo, porque la
peor tienda es una que abrió hace relativamente poco, y la mejor es una de las tiendas
más grandes que está en una zona de tráfico de alto costo. Una pregunta más interesante
Expand Down Expand Up @@ -118,7 +134,8 @@ decimos que puede ocurrir con 10% de probabilidad ocurre efectivamente 1 de cada
10 veces, si decimos 20% entonces ocurre 2 de 20, etc.

Veremos que para muestras dadas naturalmente, a veces es muy difiícil entender a
fondo el proceso generación de la muestra.
fondo el proceso que generó la muestra y por tanto no tenemos las garantías de
eficiencia y calibración.

### Ejemplo: Prevalencia de anemia {-}

Expand Down Expand Up @@ -176,6 +193,10 @@ estimar la prevalencia en la población y tendríamos además las herramientas
para medir la incertidumbre de nuestra estimación (reportar intervalos,
o errores estándar).

El elemento clave, es la aleatorización en la selección de la muestra, la idea
es distribuir los efecros desconcidos o no controlables que pueden introducir
sesgos o variabilidad no conocida en los resultados.

## Pero si no podemos hacer muestreo aleatorio? {-}

En el caso de prevalencia de anemia, discutiendo con médicos e investigadores
Expand Down Expand Up @@ -206,8 +227,6 @@ original. Por ejemplo con modelos de regresión. Sin embargo,
debemos preguntarnos:

- ¿Hay más variables qué nos falta considerar?
- Nuestras estimaciones están bien calibradas?


### Ejemplo: Policías y tráfico {-}

Expand Down Expand Up @@ -244,9 +263,9 @@ trafico_tbl <- tibble(x_inicial = rexp(n, 1 / 5),
include.lowest = TRUE)) |>
mutate(efecto = y_1 - y_0)
muestra_policias <- sample_n(trafico_tbl, 200) |>
select(policia, tiempo_espera_min, categoria)
dplyr::select(policia, tiempo_espera_min, categoria)
muestra <- muestra_policias |> group_by(policia) |> sample_n(5)
muestra |> select(-categoria)
muestra |> dplyr::select(-categoria)
```

Lo que sabemos ahora es que la presencia de un policía es indicador
Expand Down Expand Up @@ -309,7 +328,7 @@ se consideran _Complicados_ según datos históricos. Esto resta credibilidad a
comparación que hicimos inicialmente:

- La comparación del estimador estándar no es de peras con peras: estamos comparando qué efecto tienen los
policías en cruceros difíciles con cruceros no difíciles donde no hay policía.
policías en cruceros difíciles, con cruceros no difíciles donde no hay policía.
- La razón de esto es que el proceso generador de los datos incluye el hecho de que no
se envían policías a lugares donde no hay tráfico.
- ¿Cómo producir contrafactuales para hacer la comparación correcta?
Expand Down Expand Up @@ -356,7 +375,7 @@ de crucero, 3 con policía y 3 sin policía):
```{r, echo = FALSE}
muestra_bloqueada <- trafico_tbl |> group_by(categoria, policia) |>
sample_n(3) |>
select(policia, tiempo_espera_min, categoria)
dplyr::select(policia, tiempo_espera_min, categoria)
knitr::kable(muestra_bloqueada |> count(categoria, policia))
```

Expand Down Expand Up @@ -488,7 +507,9 @@ fundamental para entender las inferencias que podemos hacer en distintos escenar
![Inferencia estadística de acuerdo al tipo del diseño (@ramsey).](images/03_inferencia-estudio.png)

* El cuadro arriba a la izquierda es donde el análisis es más simple y los
resultados son más fáciles de interpretar.
resultados son más fáciles de interpretar. En este escenario don de la aleatorización
es tanto en unidades como en grupos no hacen falta supuestos adicionales para
tener las garantías de métodos de inferencia.

* Es posible hacer análisis fuera de este cuadro, pero el proceso es más
complicado, requieren más supuestos, conocimiento del dominio y habilidades
Expand Down
Loading

0 comments on commit da64ba3

Please sign in to comment.