Skip to content

Commit

Permalink
[PE] Add missing examples and properties; general cleanup (#823)
Browse files Browse the repository at this point in the history
  • Loading branch information
randomicecube authored Nov 13, 2023
1 parent ccf9156 commit 5852f46
Show file tree
Hide file tree
Showing 14 changed files with 304 additions and 44 deletions.
6 changes: 3 additions & 3 deletions content/pe/0001-nocoes-basicas.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,7 +18,7 @@ type: content
```

Começamos por introduzir umas definições essenciais para formalizar o trabalho com probabilidade.
Começamos por introduzir algumas definições essenciais para formalizar o trabalho com probabilidade.
Primeiro, é essencial definir exatamente em que consiste uma [**experiência aleatória**](color:red):

:::tip[Experiência Aleatória (EA)]
Expand All @@ -35,8 +35,8 @@ Damos o nome de [**espaço de resultados**](color:green) ao conjunto de todos os
Costumamos designar o espaço de resultados pela letra grega $\Omega$ (Omega).
Dizemos que o espaço de resultados é:

- **discreto** se $\Omega$ for contável;
- **contínuo** se $\Omega$ não for contável.
- **discreto**, se $\Omega$ for contável;
- **contínuo**, se $\Omega$ não for contável.

:::

Expand Down
23 changes: 15 additions & 8 deletions content/pe/0002-variaveis-aleatorias.md
Original file line number Diff line number Diff line change
Expand Up @@ -88,8 +88,8 @@ Em todos os exemplos, podíamos ter definido qualquer outra VA que nos apetecess
Nos primeiros dois exemplos, não fazia sentido definir qualquer VA que não as que foram definidas - estas são as que nos fazem mais sentido.
De facto, nesses casos, as variáveis aleatórias são tão pouco "originais" que é fácil confundir o input (o evento) com o output (um valor numérico).
No entanto, no terceiro exemplo já é mais notável qual o objetivo da VA.
Na verdade, a VA não passa exatamente de um formalismo que transforma eventos em valores numéricos.
Desta forma, podemos definir qualquer VA desde que consigamos trabalhar com ela.
Na verdade, a VA não passa exatamente de um [**formalismo que transforma eventos em valores numéricos**](color:orange).
Desta forma, podemos definir qualquer VA, desde que consigamos trabalhar com ela.

:::

Expand Down Expand Up @@ -147,7 +147,7 @@ As VA's discretas satisfazem as seguintes propriedades:

- $F_X$ é monótona crescente, contínua à direita e tem $\#\R_X$ pontos de descontinuidade. Consequentemente, o gráfico da fd de uma VA discreta é algo parecido a:

![Gráfico da fd de um VA discreta](./imgs/0002/discrete_fd_graph.png#dark=3)
![Gráfico da fd de uma VA discreta](./assets/0002-discrete-fd-graph.svg#dark=3)

- $F_X(-\infty) = \lim_{x \to -\infty} F_X(x) = 0$;
- $F_X(+\infty) = \lim_{x \to +\infty} F_X(x) = 1$;
Expand Down Expand Up @@ -175,13 +175,13 @@ Dizemos, então, que uma VA $X$ é contínua se e só se:
$$
F_X(x) = \int_{-\infty}^x f_X(t) \, dt
$$
A esta função dá-se o nome de [**função de densidade de probabilidade (fdp)**](color:pink).
A esta função, $f$, dá-se o nome de [**função de densidade de probabilidade (fdp)**](color:pink).

As VA's contínuas têm as seguintes propriedades:

- Um gráfico vagamente semelhante ao representado abaixo, devido à continuidade e monotonia lata:

![Gráfico da fd de um VA contínua](./imgs/0002/continuous_fd_graph.png#dark=3)
![Gráfico da fd de um VA contínua](./assets/0002-continuous-fd-graph.svg#dark=3)

- $f_X(x) = \frac{\delta F_X(x)}{\delta x}$
- $F_X(-\infty) = 0$, $F_X(+\infty) = 1$ e, consequentemente, $0 \leq F_X(x) \leq 1$ para qualquer $x \in \R$;
Expand All @@ -200,7 +200,7 @@ As funções mais que relevantes que nos dão informações sobre VA's são:

$$
\begin{matrix}
\text{Para VA's discretas} & & \text{Para VA's contínuas} \\
\smartcolor{pink}{\text{Para VA's discretas}} & & \smartcolor{green}{\text{Para VA's contínuas}} \\
E(X) = \sum_{x \in \R_X} x P(X = x) & & E(X) = \int_{-\infty}^{\infty} x f_X(x) \, dx \\
\text{se esta série convergir} & & \text{se este integral convergir}
\end{matrix}
Expand All @@ -211,7 +211,7 @@ As funções mais que relevantes que nos dão informações sobre VA's são:
$$
\begin{matrix}
E(h(X)) = \sum_{x \in \R_X} h(x) P(X = x) & & E(h(X)) = \int_{-\infty}^\infty h(x) P(X = x) \\
\text{para } X \text{ discreta} & & \text{Para } X \text{ contínua}
\smartcolor{pink}{\text{para } X \text{ discreta}} & & \smartcolor{green}{\text{Para } X \text{ contínua}}
\end{matrix}
$$

Expand All @@ -221,6 +221,12 @@ As funções mais que relevantes que nos dão informações sobre VA's são:
E(aX+b) = aE(X) + b
$$

Verifica-se ainda que

$$
E(X + Y) = E(X) + E(Y)
$$

Esta função é a medida de centralidade principal de uma VA.

- [**Variância**](color:orange): [**$Var(X)$**](color:orange), [**$V(X)$**](color:orange), [**$\sigma^2$**](color:orange) ou [**$\sigma^2_x$**](color:orange)
Expand All @@ -234,7 +240,8 @@ As funções mais que relevantes que nos dão informações sobre VA's são:

- $V(X) \geq 0$;
- $V(X) = 0 \Leftrightarrow X$ constante;
- $V(aX+b) = a^2V(x)$, para $a,b \in \R$.
- $V(aX+b) = a^2V(x)$, para $a,b \in \R$;
- $V(X^2) = E([X^2]^2) - [E^2(X)]^2 = E(X^4) - E(X)^4$.

Esta função dá-nos uma medida de divergência em relação ao valor esperado (ao centro).

Expand Down
72 changes: 46 additions & 26 deletions content/pe/0003-va-discretas.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,6 +13,23 @@ type: content
```

Vamos, inicialmente, olhar para duas noções que nos vão ser muito importantes aquando do estudo de probabilidades.

:::tip[Prova de Bernoulli]

Damos o nome de **prova de Bernoulli** a qualquer experiência aleatória cujo espaço de resultados tem apenas dois eventos elementares: um evento a que damos o nome de **sucesso**, com probabilidade $p$, e um a que damos nome de **insucesso**, com probabilidade $1-p$.

:::

:::warning[Sucesso pode ser mau!]

Enquanto que estamos habituados a associar sucesso a coisas boas e insucesso a coisas más, neste caso, o sucesso deve ser entendido apenas como **aquilo que queremos modelar**.
Sendo assim, por exemplo, se considerarmos a Experiência $A$ que verifica se o ecrã de um telemóvel se parte no primeiro ano de uso, o sucesso será "o ecrã partiu-se".
Claro que dada uma Prova de Bernoulli $A$, podemos sempre considerar a experiência aleatória contrária $B$, e, nesse caso, o sucesso de $B$ será o insucesso de $A$ e vice-versa.
Podemos aproveitar-nos disto à vontade, desde que tenhamos em atenção que o sucesso da prova de Bernoulli e o que queremos medir com a VA sejam coerentes.

:::

## Distribuição Uniforme Discreta

:::danger[]
Expand All @@ -21,9 +38,9 @@ Esta distribuição não é lecionada no programa de 2021/22, mas pode ser impor

:::

:::tip[]
:::tip[Motivação]

Esta distribuição é normalmente usada em situações em que todos os eventos são equiprováveis.
Esta distribuição é normalmente usada em situações em que [**todos os eventos são equiprováveis**](color:green).

:::

Expand Down Expand Up @@ -84,9 +101,9 @@ $$

## Distribuição Binomial

:::tip[]
:::tip[Motivação]

Esta distribuição é usada para, dada uma prova de Bernoulli que é executada $n$ vezes (independentemente), medir a probabilidade de haver exatamente $x$ sucessos.
Esta distribuição é usada para, dada uma [**prova de Bernoulli**](color:green) que é [**executada $n$ vezes**](color:green) (independentemente), [**medir a probabilidade de haver exatamente $x$ sucessos**](color:green).

:::

Expand Down Expand Up @@ -143,7 +160,7 @@ $$

**Propriedades da [distribuição binomial](color:yellow)**:

- A distribuição binomial **não tem uma função de distribuição** que possa ser escrita em forma fechada (isto é, sem um somatório);
- A distribuição binomial [**não tem uma função de distribuição**](color:red) que possa ser escrita em forma fechada (isto é, sem um somatório);
- Se $X~\sim~\op{binomial}(n,p)$ e $Y$ for a VA que mede o número de insucessos associados a $X$, isto é
$$
Y = n-X~\sim~\op{binomial}(n, 1-p)
Expand All @@ -155,9 +172,9 @@ $$

## Distribuição Geométrica

:::tip[]
:::tip[Motivação]

Esta distribuição é usada para, dada uma prova de Bernoulli, medir a probabilidade de o primeiro sucesso ocorrer ao fim de exatamente $x$ tentativas.
Esta distribuição é usada para, dada uma prova de Bernoulli, medir a probabilidade de o [**primeiro sucesso ocorrer ao fim de exatamente $x$ tentativas**](color:green).

:::

Expand Down Expand Up @@ -213,25 +230,43 @@ $$
**Propriedades da [distribuição geométrica](color:orange)**:

- A distribuição geométrica tem função de distribuição dada por

$$
F_X(x) =
\begin{cases}
0, &x<1 \\
1-(1-p)^{\lfloor x \rfloor}, &x>1
\end{cases}
$$

Isto, claro, dado que

$$
\begin{aligned}
&\sum_{n=1}^{x}{p(1 - p)^{n - 1}}\\
&= p \cdot \frac{1 - (1 - p)^x}{1 - (1 - p)}\\
&= p \cdot \frac{1 - (1 - p)^x}{p}\\
&= 1 - (1 - p)^x
\end{aligned}
$$

- **Propriedade da Falta de Memória**: Dada uma VA com distribuição geométrica $X$, temos que, $\forall_{k, x \in \Z^+}$:

$$
P(X > k+x | X > k) = P(X > x)
$$

Por outras palavras, a VA $Y = X-k | X>k$ é tal que

$$
Y \sim \op{geométrica}(p)
$$

A falta de memória é uma propriedade extremamente útil de algumas distribuições, que nos permite encurtar bastante alguns cálculos.

## Distribuição de Poisson

:::tip[]
:::tip[Motivação]

A [distribuição de Poisson](color:purple) mede o número de ocorrências de uma EA num dado intervalo.
Para que isto seja possível, é necessário assumirmos que:
Expand Down Expand Up @@ -305,27 +340,12 @@ $$

## Distribuição de Bernoulli

:::tip[]
:::tip[Motivação]

Este tipo de distribuição é usado para modular situações em que apenas há dois resultados possíveis.

:::

:::tip[Prova de Bernoulli]

Damos o nome de **prova de Bernoulli** a qualquer experiência aleatória cujo espaço de resultados tem apenas dois eventos elementares: um evento a que damos o nome de **sucesso**, com probabilidade $p$, e um a que damos nome de **insucesso**, com probabilidade $1-p$.

:::

:::warning[Sucesso pode ser mau!]

Enquanto que estamos habituados a associar sucesso a coisas boas e insucesso a coisas más, neste caso, o sucesso deve ser entendido apenas como **aquilo que queremos modelar**.
Sendo assim, por exemplo, se considerarmos a EA que verifica se o ecrã de um telemóvel se parte no primeiro ano de uso, o sucesso será "o ecrã partiu-se".
Claro que dada uma Prova de Bernoulli $A$, podemos sempre considerar a experiência aleatória contrária $B$, e, nesse caso, o sucesso de $B$ será o insucesso de $A$ e vice-versa.
Podemos aproveitar-nos disto à vontade, desde que tenhamos em atenção que o sucesso da prova de Bernoulli e o que queremos medir com a VA sejam coerentes.

:::

Dizemos que uma VA discreta $X$ tem uma [**distribuição de Bernoulli**](color:blue) e representamos $X~\sim~\op{Bernoulli}(p)$ se, dados os **parâmetros**:

- $p = P(\op{Sucesso})$, $p \in [0,1]$
Expand Down Expand Up @@ -383,13 +403,13 @@ $$

## Distribuição Hipergeométrica

:::warning[]
:::danger[]

Esta distribuição não faz parte da matéria lecionada no programa de 2021/22.

:::

:::tip[]
:::tip[Motivação]

Tal como a distribuição binomial, esta distribuição tem a ver com o número de sucessos em $n$ provas de Bernoulli. No entanto, desta vez, as provas não são independentes entre si e podem ser pensadas como seguindo um processo de extração sem repetição.

Expand Down
6 changes: 3 additions & 3 deletions content/pe/0004-va-continuas.md
Original file line number Diff line number Diff line change
Expand Up @@ -93,7 +93,7 @@ $$

:::tip[]

Esta distribuição é normalmente usada para atribuir uma probabilidade ao tempo que um evento demora a acontecer.
Esta distribuição é normalmente usada para atribuir uma probabilidade ao [**tempo que um evento demora a acontecer**](color:yellow).

:::

Expand Down Expand Up @@ -235,7 +235,7 @@ e o seu valor esperado e variância são 1.75m e 0.3m.
- $X \sim \op{normal}(\mu, \sigma^2) \Leftrightarrow aX+b \sim \op{normal}(aX + b, a^2 \sigma^2)$
Consequentemente, $X \sim \op{normal}(\mu, \sigma^2) \Leftrightarrow \frac{X-\mu}{\sigma} \sim \op{normal}(0,1)$.
Desta forma, para qualquer VA $X$ com distribuição normal, é sempre possível fazer uma transformação linear de forma a obter uma VA com distribuição normal centrada em $0$ e com variância $1$.
À distribuição normal centrada em $0$ com variância $1$ dá-se o nome de **distribuição normal padrão**. A sua função de distribuição representa-se por $\Phi(x)$ e é dada por
À distribuição normal centrada em $0$ com variância $1$ dá-se o nome de [**distribuição normal padrão**](color:green). A sua função de distribuição representa-se por $\Phi(x)$ e é dada por
$$
\Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt
$$
Expand All @@ -257,7 +257,7 @@ Temos que $P(X \leq 23.045) = P (\frac{X - 23}{{0.1}} \equiv \frac{X-\mu}{\sigma

Indo ver à tabela, concluímos que $\Phi(0.45) = 0.6736$, pelo que $P(X \leq 23.045) = 0.6736$.

![table](./imgs/0004/table.png#dark=1)
![table](./assets/0004-table.png#dark=1)

Observe-se que a tabela não permite consultar a função $\Phi$ em valores negativos.
Nesse caso, basta aproveitarmo-nos do facto que $\Phi(-x) = 1 - \Phi(x)$ e depois consultar a tabela.
Expand Down
7 changes: 7 additions & 0 deletions content/pe/0006-comb-lineares-de-va.md
Original file line number Diff line number Diff line change
Expand Up @@ -48,6 +48,13 @@ V \left( \sum_{i=1}^n c_i X_i \right) =
\sum_{i=1}^n c_i^2 V(X_i)
$$

Podemos ainda realçar as duas relações mais simples, e afirmar que

$$
V(X + Y) = V(X) + V(Y) + 2 \cdot cov(X, Y)\\
V(X - Y) = V(X) + V(Y) - 2 \cdot cov(X, Y)
$$

:::

Dizemos que duas variáveis $X$ e $Y$ são [**independentes e identicamente distribuídas**](color:green) se $X \indep Y$ e tiverem a mesma distribuição (_com os mesmos parâmetros_).
Expand Down
72 changes: 70 additions & 2 deletions content/pe/0007-estimacao-pontual.md
Original file line number Diff line number Diff line change
Expand Up @@ -46,7 +46,7 @@ Em relação à amostra, já é possível fazer observações (e a partir destas
A partir das observações, é agora importante ser capaz de obter informação sobre a população em geral.
Isto é feito através de uma [inferência estatística](color:pink).

![Amostragem e Inferência Estatística](./imgs/0007/populacao-amostra.svg#dark=2)
![Amostragem e Inferência Estatística](./assets/0007-populacao-amostra.svg#dark=2)

:::details[Exemplo]

Expand Down Expand Up @@ -286,7 +286,7 @@ i.e $x_1 = 0, x_2 = 1, x_3 = 0.5$ ou também ser dito
"_observaram-se 10 eventos em 20 intervalos de tempo unitários_."
Para este tipo de exercícios variam os valores amostrais e as funções de
probabilidade/densidade de probabilidade, logo, convém estar familiarizado com
propriedades de produtórios e logaritmos e saber interpertar as $v.a$ dadas
propriedades de produtórios e logaritmos e saber interpretar as $v.a$ dadas
(caso sejam de Poisson, Binomiais, etc).

:::
Expand All @@ -300,6 +300,74 @@ Os estimadores de MV satisfazem as seguintes propriedades:
- **Suficiência** - As estimativas de MV condensam toda a informação relevante, contida na amostra, sobre o parâmetro;
- **Consistência** - À medida que o tamanho da AA aumenta, o $EMV(\theta)$ dispersa-se cada vez menos do verdadeiro valor de $\theta$.

:::details[Exemplo]

(Exemplo retirado do [Teste 2C de 2016/2017 de PE](https://fenix.tecnico.ulisboa.pt/homepage/ist13114/2o-semestre-2016-17))

Admita que a proporção de zinco no corpo de um jogador da NBA é representada pela
variável aleatória $X$ com função de densidade de probabilidade

$$
f_X(x) = \begin{cases}
\theta x^{\theta - 1}, & 0 < x < 1 \\
0, & \text{caso contrário}
\end{cases}
$$

onde $\theta$ é um parâmetro positivo desconhecido.

Caso queiramos chegar ao estimador de máxima verosimilhança de $\theta$, tendo em conta uma amostra qualquer
amostra aleatória $(X_1, ..., X_n)$ proveniente da população $X$, devemos:

1. [**Chegar ao valor da função de verosimilhança**](color:green).

$$
\begin{aligned}
L(\theta | \underline{x}) &= f_{\underline{x}}(\underline{x})\\
&= \prod_{i=1}^n f_{X_i}(x_i) \\
&= \prod_{i=1}^n f_{X}(x_i) \\
&= \prod_{i=1}^n \biggl[ \theta x_i^{\theta - 1} \biggr] \\
&= \theta^n \biggl[\prod_{i=1}^n x_i \biggr]^{\theta - 1}
\end{aligned}
$$

2. [**Chegar ao valor da função de log-verosimilhança**](color:red).

$$
\ln L(\theta | \underline{x})= n \ln(\theta) + (\theta - 1) \sum_{i=1}^n \ln x_i
$$

(Note-se que é muito mais simpático derivar esta função)

3. [**Maximização**](color:orange).

A estimativa de MV de $\theta$, $\hat{\theta}$, será tal que:

$$
\begin{aligned}
\hat{\theta}: &\begin{cases}
\frac{d}{d\theta} \ln L(\theta | \underline{x}) &= 0 \qquad \text{(ponto de estacioneridade)} \\
\frac{d^2}{d\theta^2} \ln L(\theta | \underline{x}) &< 0 \qquad \text{(ponto de máximo)} \\
\end{cases} \\
&\begin{cases}
\frac{n}{\theta} + \sum_{i=1}^n \ln(x_i) = 0 \\
-\frac{n}{\theta^2} < 0 \\
\end{cases} \\
&\begin{cases}
\hat{\theta} = - \frac{n}{\sum_{i=1}^n \ln(x_i)} \\
- \frac{[\sum_{i=1}^n \ln(x_i)]^2}{n} < 0 \qquad \text{(sempre verdade)}\\
\end{cases}
\end{aligned}
$$

Temos, por fim, que:

$$
EMV(\theta) = \hat{\theta} = - \frac{n}{\sum_{i=1}^n \ln(x_i)}
$$

:::

## Distribuições Amostrais

:::tip[Distribuição Amostral]
Expand Down
Loading

0 comments on commit 5852f46

Please sign in to comment.