Lembram do exemplo dos salários de professores de música na Dinamarca e EUA?
A média dos salários são equivalentes.
Então, para comparar, usamos uma medida de dispersão como, por exemplo, o desvio padrão: \[s = \sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1} }\]
Dinamarca: \(\bar x\) = 40.02 e \(s\) = 3.97
EUA: \(\bar x\) = 39.87 e \(s\) = 9.98
Considere dois conjuntos de dados:
\[\begin{align*} & A = \{1, 2, 3\} & \Longrightarrow & \qquad \overline{x}_A = 2, \quad s_A= 1 \\ & B = \{101, 102, 103\} & \Longrightarrow & \qquad \overline{x}_B = 102, \quad s_B= 1 \end{align*}\]
Ambos têm o mesmo desvio padrão.
Se compararmos as escalas de cada conjunto de dados, poderíamos dizer que o segundo conjunto tem menor dispersão.
Veja que:
Considere as notas de 2 provas:
Prova 1: Notas de 0 a 100
Média da turma: \(\bar x_1 = 70\)
Desvio padrão: \(s_1 = 1\)
Prova 2: Notas 0 a 10
Média da turma: \(\bar x_2 = 7\)
Desvio padrão: \(s_2 = 1\)
Neste caso, como as escalas são diferentes, não podemos tirar conclusões usando apenas o desvio padrão.
Coeficiente de variação (CV): razão do desvio padrão \(s\) pela média \(\bar x\), isto é \[CV= \frac{s}{\bar{x}}.\] Exemplo: \[\begin{align*} & A = \{1, 2, 3\} & \Longrightarrow & \qquad \overline{x}_A = 2, \quad s_A= 1 \\ & B = \{101, 102, 103\} & \Longrightarrow & \qquad \overline{x}_B = 102, \quad s_B= 1 \end{align*}\]
Nesse caso, \[CV_A = \frac{s_A}{\overline{x}_A} = 0.5 \qquad \mbox{e} \qquad CV_B = \frac{s_B}{\overline{x}_B} = 0.0098.\]
Exemplos das notas de duas provas:
Prova 1: \(\bar x_1 = 70\) e \(s_1=1\)
Prova 2: \(\bar x_2 = 7\) e \(s_2=1\)
Coeficiente de Variação: é o desvio padrão escalonado pela média dos dados.
Vamos calcular os CVs para esses dois casos: \[CV_1 = \frac{s_1}{\overline{x}_1} = 0.014 \qquad \mbox{e} \qquad CV_2 = \frac{s_2}{\overline{x}_2} \approx 0.14.\]
Média e mediana: medidas de posição central.
Amplitude e desvio padrão: medidas de dispersão.
Há outros tipos de medida de posição para descrever a distribuição dos dados: quartis e percentis.
Quartis dividem os dados em 4 partes iguais: primeiro quartil (\(Q_1\)), segundo quartil (\(Q_2\)) e o terceiro quartil (\(Q_3\)).
O p-ésimo percentil é o valor tal que uma porcentagem p dos dados ficam abaixo dele.
Para obter os quartis:
Ordene os dados em ordem crescente.
Encontre a mediana \(Q_2\).
Considere o subconjunto de dados abaixo da mediana. \(Q_1\) é a mediana deste subconjunto de dados.
Considere o subconjunto de dados acima da mediana. \(Q_3\) é a mediana deste subconjunto de dados.
Considere as quantidades de sódio (mg) em 20 cereais matinais:
0, 70, 125, 125, 140, 150, 170, 170, 180, 200
200, 210, 210, 220, 220, 230, 250, 260, 290, 290Para obter \(Q1\), calcula-se a mediana considerando apenas as 10 primeiras observações ordenadas: 0, 70, 125, 125, \(\underbrace{140, 150}_{Q_1=145}\), 170, 170, 180, 200
Para obter \(Q3\), calcula-se a mediana considerando apenas as 10 últimas observações ordenadas: 200, 210, 210, 220, \(\underbrace{220, 230}_{Q_3=225}\), 250, 260, 290, 290
Vimos na aula passada que as posições da média e mediana fornecem informação sobre o formato da distribuição.
Em geral, se a distribuição é:
- Perfeitamente simétrica: média = mediana.
- Assimétrica à direita: média \(>\) mediana.
- Assimétrico à esquerda: média \(<\) mediana.
Os quartis também fornecem informação sobre o formato da distribuição.
A mediana \(Q_2\) é 14.
A distância entre \(Q_1\) e \(Q_2\) é 3, enquanto que a distância entre \(Q_2\) e \(Q_3\) é 4, indicando que a distribuição é assimétrica à direita.
Para uma distribuição simétrica ou aproximadamente simétrica:
Veja as medidas resumo dos pesos (em libras) de 64 alunas de Educação Física: \(\bar{x}=133\), \(Q_1=119\), \(Q_2=131.5\), e \(Q_3=144\).
Como interpretar os quartis?
Você acredita que a distribuição seja simétrica? \[Q_2-Q_1\approx Q_3-Q_2\quad(?)\]
\[\underbrace{Q_2-Q_1}_{131.5-119=12.5}=\underbrace{Q_3-Q_2}_{144-131.5=12.5}\]
A vantagem do uso de quartis sobre o desvio padrão ou a amplitude, é que os quartis são mais resistentes a dados extremos, ou seja, são mais robustos.
Intervalo interquartílico (IQ) = \(Q_3-Q_1\)
Representa 50% dos dados localizados na parte central da distribuição.
Notação:
\(x_{(1)}\): mínimo
\(x_{(k)}\): \(k\)-ésima observação depois de ordenar os dados
\(x_{(n)}\): máximo
Lembrando que a fórmula da mediana (\(Q_2\)) é dada por: \[
Q_2= \begin{cases}
x_{\left(\frac{n+1}{2}\right)} \,,& \mbox{se $n$ é ímpar} \\
\frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2}\,, & \mbox{se $n$ é par}
\end{cases}
\]
Importante: examinar os dados para verificar se há observações discrepantes.
Média e desvio padrão são muito afetados por observações discrepantes.
Após detectar a observação discrepante, verificar se não é um erro de digitação ou um caso especial da sua amostra.
Com poucos dados, podemos detectar um dados discrepante facilmente, apenas observando a sequência ordenada.
Podemos usar o IQ como um critério mais geral de detecção de dados discrepantes.
Como regra geral, dizemos que uma observação é um potencial outlier se está:
Dizemos potencial outlier, pois se a distribuição tem cauda longa, algumas observações irão cair no critério, apesar de não serem outliers.
Boxplot : representação gráfica do esquema dos 5 números.
Esse gráfico permite resumir visualmente importante características dos dados (posição, dispersão, assimetria) e identificar a presença de outliers.
ATENÇÃO: Prestem atenção no que são os limites inferior e superior!!!
Voltando no exemplo das quantidades de sódio (mg) em 20 cereais matinais:
\[0, 70, 125, 125, 140, 150, 170, 170, 180, 200,\] \[200, 210, 210, 220, 220, 230, 250, 260, 290, 290\]
Já calculamos anteriormente: \(Q_2 = 200, Q_1 = 145 \mbox{ e } Q_3 = 225.\)
Esses valores podem ser representados pelo boxplot a seguir:
Regra para detectar outliers: \(IQ=Q_3-Q_1=225-145=80\) \(Q_1-1.5\times IQ = 25 \quad \mbox{e} \quad Q_3+1.5\times IQ = 345\)
Então, possíveis outliers são observações menores que 25 ou maiores que 345.
Limites Superior e Inferior: as linhas pontilhadas denotam o mínimo/máximo dos dados que estão na região entre 25 e 345.
Limite superior: a observação máxima dos dados, 290, está no intervalo, então a linha superior vai até 290.
Limite inferior: a observação mínima dos dados, 0, está fora do intervalo (outlier=0). Desconsiderando o outlier, o valor mínimo dos dados é 70, que está no intervalo. Portanto, a linha inferior vai até 70.
Assista ao vídeo da Khan Academy sobre como criar um boxplot:
Vejam e pratiquem com o tutorial:
Como resumir dados quantitativos
País | Taxa | País | Taxa |
---|---|---|---|
Bélgica | 8.3 | Luxemburgo | 3.9 |
Dinamarca | 6.0 | Irlanda | 4.6 |
Alemanha | 9.2 | Itália | 8.5 |
Grécia | 9.3 | Finlândia | 8.9 |
Espanha | 11.2 | Áustria | 4.5 |
França | 9.5 | Suécia | 6 |
Portugal | 6.7 | Reino Unido | 4.8 |
Holanda | 4.4 |
Responda:
Qual a amplitude dos dados?
Encontre os valores da mediana e de \(Q_1\) e \(Q_3\)?
Desenhe um boxplot.
Ordenando os dados: \[3.9,\; 4.4,\; 4.5,\; \mathbf{4.6},\; 4.8,\; 6.0,\; 6.0,\; \mathbf{6.7},\; 8.3,\; 8.5,\; 8.9,\; \mathbf{9.2},\; 9.3,\; 9.5,\; 11.2\]
Amplitude: 11.2 - 3.9 = 7.3
Mediana = 6.7
\(Q_1\) = 4.6 e \(Q_3\) = 9.2
\(IQ = Q_3-Q_1\) =4.6
\(Q_1-1.5\times IQ\) = -2.3
\(Q_3 + 1.5\times IQ\) =16.1
O mínimo e o máximo pertencem ao intervalo (-2.3, 16.1), portanto as linhas pontilhadas terminam no máximo (11.2) e no mínimo (3.9).
A tabela abaixo apresenta a população (em 1000 habitantes) dos 26 estados brasileiros e o Distrito Federal.
Temos 27 estados (\(n\) é ímpar).
Portanto, a mediana é \(x_{\left(\frac{n+1}{2}\right)}= x_{\left(\frac{27+1}{2}\right)}=x_{(14)}=3098\) (ES).
A metade inferior dos dados: 13 observações.
A mediana deste subconjunto é \(Q_1=x_{(7)}=2052\) (DF).
A metade superior dos dados: 13 observações.
A mediana deste subconjunto é \(Q_3=x_{(21)}=7919\) (PE).
\(IQ=Q_3-Q_1=7919-2052=5867\)
População (em 1000 habitantes):
\(Q_1-1.5\times IQ=-6748.5\)
\(Q_3+1.5\times IQ=16720\)
Temos outliers?
Boxplot não substitui o histograma e vice-versa.
Por exemplo, se a distribuição é bimodal, não observamos isso pelo boxplot.
Para os dados dos QI’s das 32 crianças, vamos calcular as medidas resumo, fazer o boxplot e histograma.
## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 98.0 105.5 114.5 115.2 123.5 141.0
SleepStudy
Vamos obter as medidas resumo e fazer o boxplot da variável AverageSleep
do SleepStudy
.
## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 4.950 7.430 8.000 7.966 8.590 10.620
Slides produzidos pelos professores: