A média amostral, \(\bar{X}_n\), tem em geral valores diferentes para diferentes amostras aleatórias obtidas: é uma variável aleatória.
Para obtermos a distribuição da média amostral (empiricamente):
Na prática: iremos coletar somente uma amostra de tamanho \(n\). Não faremos inúmeras vezes esse processo. Com isso, teremos apenas um valor: \(\bar{x}\).
Então como saberemos as propriedades deste estimador? Quão útil ele é?
Resultado (TCL):
Para amostras aleatórias simples \(X_{1},...,X_{n}\) coletadas de uma população com média \(\mu\) e variância \(\sigma^{2}\), a distribuição amostral de \(\bar{X}_{n}\) aproxima-se de uma distribuição Normal: \[ \bar{X}_{n} \sim N\left(\mu, \frac{\sigma^{2}}{n} \right)\]
\[Z=\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\sim \mathcal{N}(0,1)\]
Qual a probabilidade de que o estimador \(\bar{X}_n\) esteja distante do valor verdadeiro, \(\mu\), em no máximo 1 erro-padrão?
\[P\left(\mid \bar{X}_n - \mu \mid \leq \sigma/\sqrt{n}\right)\]
\[ \begin{aligned} P\left(\mid \bar{X}_n - \mu \mid \leq \sigma/\sqrt{n}\right)&= P\left( -\sigma/\sqrt{n}\leq \bar{X}_n-\mu \leq \sigma/\sqrt{n} \right)\\ & = P\left(-1\leq \frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}} \leq 1\right) \\ & = P(-1\leq Z\leq 1)\\ & = 0.68 \end{aligned} \]
Qual a probabilidade de que o estimador \(\bar{X}_n\) esteja distante do valor verdadeiro, \(\mu\), em no máximo 1.96 erro-padrão?
\[P\left(\mid \bar{X}_n - \mu \mid \leq 1.96\,\sigma/\sqrt{n}\right)\]
\[ \begin{aligned} P\left(\mid \bar{X}_n - \mu \mid \leq 1.96\sigma/\sqrt{n}\right)&= P\left( -1.96\,\sigma/\sqrt{n}\leq \bar{X}_n-\mu \leq 1.96\,\sigma/\sqrt{n} \right)\\ & = P\left(-1.96\leq \frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}} \leq 1.96\right) \\ & = P(-1.96\leq Z\leq 1.96)\\ & = 0.95 \end{aligned} \]
Seja \(X_1,\ldots, X_n\) uma a.a. de uma população com média \(\mu\) e variância \(\sigma^2\) conhecida. Então,
\[Z=\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\]
\[P(-z_{\alpha/2}<Z<z_{\alpha/2})=1-\alpha\]
Um Intervalo de \(100(1-\alpha)\%\) de confiança para \(\mu\) é dado por: \[IC(\mu, 1-\alpha) = \left[ \bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\,;\,\bar{x} +z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right]\]
Intervalo de confiança de \(95\%\)
\(IC(\mu, 95\%) = \left[\bar{x} -1.96\,\sigma/\sqrt{n};\bar{x} +1.96\,\sigma/\sqrt{n}\right]\)
Intervalo de confiança de \(90\%\)
\(IC(\mu, 90\%) = \left[\bar{x} -1.64\,\sigma/\sqrt{n};\bar{x} +1.64\,\sigma/\sqrt{n}\right]\)
Intervalo de confiança de \(99\%\)
\(IC(\mu, 99\%) = \left[\bar{x} -2.58\,\sigma/\sqrt{n};\bar{x} +2.58\,\sigma/\sqrt{n}\right]\)
\[P(|Z|\leq z_{\alpha/2})=P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2})=1-\alpha\]
Procure na tabela o valor de \(z\) tal que a probabilidade acumulada até o valor de \(z\), isto é \(P(Z\leq z)=\Phi(z)\), seja \(1-\alpha/2\).
Encontrar \(z_{0.05}\) tal que \(0.90 = P\left(-z_{0.05}\leq Z\leq z_{0.05}\right)\).
Pela tabela, \(z_{0.05} = 1.64.\)
Temos uma amostra aleatoria \(X_1,\ldots,X_n\) e estamos usando a média amostral \(\bar{X}_n\) para estimar \(\mu\), a média populacional.
Quão boa é esta estimativa? Ela tem boa precisão? Qual o grau de confiança?
Em geral: queremos alto grau de confiança, por exemplo, \(1-\alpha=0.95\).
Imagine que seja possível coletar uma amostra de tamanho \(n\) da população várias vezes. Para cada vez, você calcula \(\bar{x}\) e constrói um IC de 95% para \(\mu\). Imagine também que você conhece \(\mu\) e conte quantos dos intervalos contêm \(\mu\). A proporção de intervalos que contêm \(\mu\) será próxima a 0.95.
Uma máquina enche pacotes de café com variância igual a 100\(g^2\). Ela estava regulada para encher os pacotes com uma média de 500g. Mas o fabricante desconfia que a máquina está desregulada e quer então estimar a nova média \(\mu.\)
Uma amostra de 25 pacotes apresentou uma média de 485g. Encontre um \(IC\) de \(95\%\) para a verdadeira média \(\mu.\)
\(\bar x = 485, n=25, \sigma=10, \alpha=0.05, z_{0.025}=1.96\)
\[ \begin{aligned} IC(\mu, 0.95) &= \left[ \bar{x} - z_{0.025} \frac{\sigma}{\sqrt{n}};\,\bar{x} +z_{0.025}\frac{\sigma}{\sqrt{n}}\right] \\ &= \left[485 - 1.96 \frac{10}{5}; 485 + 1.96 \frac{10}{5} \right] \\ &= [485 - 3.92; 485 + 3.92] = [481.08; 488.92] \end{aligned} \]
Exemplo: Por experiência, sabe-se que o peso de um salmão de certo criatório segue uma distribuição normal com uma média que varia a cada estação, mas com desvio padrão sempre igual a 0.3 libras.
Se quisermos estimar o peso médio dos peixes de maneira que nossa estimativa seja diferente da verdadeira média em no máximo 0.1 libras para mais ou para menos com probabilidade igual a 0.9, qual o tamanho amostral necessário?
\[P(\mid\bar{X}-\mu\mid\leq 0.1)=0.9\]
\[P(-0.1 \leq \bar{X}-\mu\leq 0.1)=P\left(- \frac{0.1}{\sigma/\sqrt{n}}\leq \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\leq \frac{0.1}{\sigma/\sqrt{n}}\right)\]
\[=P\left( - \frac{0.1}{\sigma/\sqrt{n}} \leq Z\leq \frac{0.1}{\sigma/\sqrt{n}} \right)=0.9\]
\[ \frac{0.1}{\sigma/\sqrt{n}} =1.645\]
\[ n=\left(\frac{1.645\sigma}{0.1}\right)^2=\left(\frac{1.645\times 0.3}{0.1}\right)^2\approx 25\]
\[IC(\mu, 1-\alpha) = \left[ \bar{x} -z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\,;\, \bar{x} +z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right]\]
Margem de erro: \(z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\)
Margem de erro 0.1, isto é, \[z_{\alpha/2}\frac{\sigma}{\sqrt{n}}=0.1\]
\(\alpha=0.1\) (90% de confiança) e \(z_{0.05}=1.645\).
\[1.645\frac{0.3}{\sqrt{n}}=0.1 \quad \Rightarrow \quad n=24.35\]
Tamanho amostral: 25
Em geral, para uma margem de erro \(m\) e confiança \(100(1-\alpha)\%\):
\[n=\left( \frac{z_{\alpha/2}}{m}\right)^2\sigma^2\]
Seja \(X_1, \ldots, X_n\) uma a.a. de uma população com média \(\mu\), mas com variância \(\sigma^2\) desconhecida
Nesse caso, usaremos a variância amostral (\(s^2\)) como uma estimativa de \(\sigma^2\): \[s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2\]
Como consequência, não temos mais distribuição Normal, mas sim a distribuição \(t\)-student com \(n-1\) graus de liberdade:
\[T=\frac{\bar{X}_n-\mu}{\sqrt{s^2/n}}\sim t_{n-1}\]
\[P(-t_{n-1,\alpha/2}<T<t_{n-1,\alpha/2})=1-\alpha\]
Um intervalo de \(100(1-\alpha)\%\) de confiança para \(\mu\) é dado por: \[IC(\mu, 1-\alpha) = \left[ \bar{x} -t_{n-1,\alpha/2}\frac{s}{\sqrt{n}};\, \bar{x} +t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}\right]\]
\[P(-t_{n-1,\alpha/2} < T < t_{n-1,\alpha/2}) = 1-\alpha\]
Os valores da distribuição \(t\)-student também encontram-se tabelados.
Para \(n\) grande a distribuição \(t\)-student se aproxima da normal padrão \(N(0,1)\).
No exemplo da máquina que enche pacotes de café, suponha agora que a variância é desconhecida.
Lembre-se que uma amostra de \(25\) pacotes apresentou uma média de 485g. Observou-se um desvio padrão na amostra de 7.1g
Encontre um IC de 95% para a verdadeira média \(\mu.\)
\[ \begin{aligned} IC(\mu, 0.95) &= \left[ \bar{x} - t_{24, 0.025} \frac{s}{\sqrt{n}};\,\bar{x} +t_{24, 0.025}\frac{s}{\sqrt{n}}\right] \\ &= \left [485 - 2.06 \frac{7.1}{5}; 485 + 2.06 \frac{7.1}{5} \right] \\ &= [485 - 2.93; 485 + 2.93] \\ &=[482.07; 487.93] \end{aligned} \]
O histograma a seguir apresenta a distribuição do número de horas de TV assistidas por dia entre os participantes de um estudo em que se coletou uma amostra aleatória.
Encontre um IC de \(95\%\) para a média de horas que uma pessoa assiste por dia.
Utilizamos a distribuição Normal e não a distribuição t, pois \(n\) é grande.
\[\begin{aligned} IC(\mu, 0.95) &= \left[\bar{x}-1.96 \frac{s}{\sqrt{n}};\,\bar{x}+1.96\frac{s}{\sqrt{n}} \right] \\ &= [1.52 - 0.06; 1.52 + 0.06] \\ &= [1.46\,;\,1.58] \end{aligned}\]
Com grau de confiança igual a 95%, estimamos que a média populacional de horas de TV está entre 1.46 e 1.58 horas.
O Ministério da Saúde está preocupado com quantidade de um certo componente tóxico no leite materno.
Em uma amostra de 20 mulheres, a quantidade do componente para cada uma foi:
## 16 0 0 2 3 6 8 2 5 0 12 10 5 7 2 3 8 17 9 1
Obtenha um intervalo de confiança de 95% para a quantidade média do componente no leite materno.
Média e desvio padrão da amostra (\(n=20\)): \(\bar{x}=5.8\) e \(s=5.08\).
Pela distribuição t, para \(\alpha= 0.05\): \(t_{19,0.025}= 2.093\)
Portanto, o IC de 95% é dado por: \[IC(\mu, 0.95) = \left[ \bar{x} -t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}\,;\, \bar{x} +t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}\right]\]
\[\begin{aligned} &= [5.8 - 2.39; 5.8 + 2.39] \\ &= [3.41\,;\,8.19] \end{aligned}\]
Com grau de confiança igual a 95%, estimamos que a média da quantidade do componente entre as mulheres está entre 3.41 e 8.19.
O desvio padrão da pontuação em um certo exame é 11.3. Uma amostra aleatória de 81 estudantes que fizeram o exame foi coletada e a nota de cada estudantes foi anotada. A pontuação média entre os estudantes amostrados foi 74.6.
Encontre um intervalo de 90% de confiança para a pontuação média entre todos os estudantes que fizeram o exame.
\(\bar{x}=74.6\), \(\sigma=11.3\), \(n=81\), \(\alpha=0.10\) e \(z_{0.05}=1.645\)
\[ \begin{aligned} IC(\mu, 0.90) &= \left[ 74.6 - 1.645 \frac{11.3}{9};\, 74.6 + 1.645\frac{11.3}{9}\right] \\ &= [74.6 - 2.07;\, 74.6 + 2.07] = [72.53;\, 76.67] \end{aligned} \]
Com grau de confiança igual a 90%, estimamos que a pontuação média entre os estudantes está entre 72.53 e 76.67.
Qual deve ser o tamanho de uma amostra cuja população da qual ela será sorteada possui um desvio padrão igual a 10, para que a diferença da média amostral para a média da população, em valor absoluto, seja menor que 1, com coeficiente de confiança igual a:
Fonte: Morettin & Bussab, Estatística Básica \(5^a\) edição, pág 308.
Pelo TCL: \(\bar{X}_n \sim N(\mu, 10^2/n)\)
Queremos \(P(|\bar{X}-\mu|<1) = 0.95\)
\[P(-1<\bar{X}-\mu<1) = 0.95\]
\[P\left(-\frac{1}{10/\sqrt{n}}<\frac{\bar{X}-\mu}{10/\sqrt{n}}<\frac{1}{10/\sqrt{n}}\right) = 0.95\]
O que é equivalente a \[P \left( -\sqrt{n}/10 < Z < \sqrt{n}/10 \right)=0.95\]
Como \(P(-1.96 < Z < 1.96) = 0.95\), então \[\frac{\sqrt{n}}{10} = 1.96 \quad \Rightarrow \quad n \approx 385\]
De modo análogo, para um grau de confiança de \(99\%\), temos que \[P(-2.58 < Z < 2.58) = 0.99\]
Então, \[\sqrt{n}/10 = 2.58 \quad \Rightarrow \quad n \approx 665\]
Em geral, como já dissemos anteriormente, para uma margem de erro \(m\): \[n=\left(\frac{z_{\alpha/2}}{m}\right)^2 \sigma^2\]
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Larissa Matos
Benilton Carvalho