Muitas vezes, a informação da amostra coletada tem a estrutura de dados categorizados, ou seja, cada membro da população pode assumir um entre \(k\) valores de uma ou mais características estudadas.
Alguns exemplos de características:
Dessa forma, o conjunto de dados consiste em frequências de contagens para essas categorias.
Por exemplo, cor dos olhos de 100 alunos:
Cor | verdes | azuis | castanhos | pretos | total |
---|---|---|---|---|---|
Frequência | 16 | 15 | 51 | 18 | 100 |
Esse tipo de dados ocorre com frequência nas áreas sociais e biomédicas.
O objetivo aqui é estudar dados agrupados em categorias múltiplas e veremos isso através de dois tipos de testes:
Teste de Aderência: considere uma população na qual cada membro assume qualquer um de \(k\) possíveis valores. Iremos verificar quão adequado uma amostra obtida dessa população se ajusta a um modelo de probabilidade proposto.
Teste de Independência: considere uma população na qual cada membro é classificado de acordo com duas características distintas. Com os dados de uma amostra dessa população, iremos verificar se essas duas características podem ser consideradas independentes.
Duas características serão independentes se a classificação de um membro da população de acordo com uma característica não interfere na probabilidade de classificação em relação à segunda característica desse mesmo membro.
Na aula de hoje iremos focar em Testes de Aderência.
Uma conhecida marca de chocolate é vendida em pacotinhos contendo em seis cores diferentes: laranja, vermelho, amarelo, verde, azul e marrom.
Suponha que você esteja curioso sobre a distribuição das cores dos M&M’s no pacote e pergunta: todas as cores aparecem na mesma proporção?
Esse é o tipo de pergunta que pode ser respondida com um teste de aderência!
Suponha que nós temos uma amostra aleatória de 600 M&M’s e as frequências de cada cor estão na tabela abaixo:
Cor | azul | laranja | verde | vermelho | amarelo | marrom | total |
---|---|---|---|---|---|---|---|
Frequência | 212 | 147 | 103 | 50 | 46 | 42 | 600 |
Nosso interesse é testar a hipótese de que as seis cores são igualmente prováveis.
Nesse caso, que modelo de probabilidade representaria a distribuição das cores?
Para acomodar dados como nos exemplos anteriores, precisamos estender o modelo Bernoulli de forma que os resultados possam ser classificados em mais de duas categorias. Esse modelo é chamado de distribuição multinomial.
Modelo Multinomial
O resultado de cada amostra pode ser classificado em uma de \(k\) respostas denotadas por \(1, 2,\ldots, k\).
A probabilidade da amostra assumir o valor \(i\) é \(p_{i}\), \(i=1, 2, \ldots,k\), com \[\sum_{i=1}^{k}p_{i}=1\]
As observações são independentes.
Considere uma amostra de uma população que consiste de elementos em diversas categorias, por exemplo, \(k\) valores possíveis.
Denotaremos por \(n_1, n_2, \ldots , n_k\), com \(\sum_{i=1}^{k}n_{i}=n\) as frequências e \(p_1, p_2, \ldots , p_k\) as probabilidades.
A distribuição conjunta de \(n_1, n_2, \ldots , n_k\) é chamada de distribuição multinomial e tem função de probabilidade dada por:
\[f(n_1, n_2, \ldots , n_k)=\frac{n!}{n_1! \ldots n_k!}p_1^{n_1}p_2^{n_2} \ldots p_k^{n_k}\]
em que \(\displaystyle \sum_{i=1}^{k}n_{i}=n\) e com \(\displaystyle \sum_{i=1}^{k}p_{i}=1\).
Se designarmos a componente \(n_1\) como “sucesso” e juntarmos as demais numa mesma que designamos “fracasso”, a variável aleatória \(n_1\) é o número de sucessos em \(n\) ensaios de Bernoulli, ou seja, \(n_1 \sim Bin(n,p_1)\).
Portanto: \(\qquad \mathbb E(n_1)=np_1 \qquad\) e \(\qquad Var(n_1)=np_1(1-p_1)\).
Analogamente aplicando o mesmo argumento a cada \(n_i\) temos: \[\mathbb E(n_i)=np_i \qquad \mbox{e} \qquad Var(n_i)=np_i(1-p_i)\]
Iremos usar o valor esperado de \(n_i\) nos testes que veremos a seguir.
Objetivo: Testar quão adequado é assumir um modelo probabilístico para descrever um determinado conjunto de dados.
Exemplo: Vocês já devem ter visto em alguma aula de Biologia o seguinte:
3 genótipos (categorias): AA, Aa e aa
Em uma certa população, 100 descendentes foram estudados, fornecendo a tabela a seguir:
Genótipo | AA | Aa | aa | Total |
---|---|---|---|---|
Frequência Observada | 26 | 45 | 29 | 100 |
Objetivo: Verificar se o modelo genético proposto (Equilíbrio de Hardy-Weinberg) é adequado para essa população.
Se o modelo teórico for adequado, a freqüência esperada de descendentes para o genótipo AA, dentre os 100 indivíduos, pode ser calculada por: \[100 \times P(AA) = 100 \times \frac{1}{4} = 25\]
Da mesma forma para o genótipo Aa: \[100 \times P(Aa) = 100 \times \frac{1}{2} = 50\]
E para o genótipo aa: \[100 \times P(aa) = 100 \times \frac{1}{4} = 25\]
Podemos expandir a tabela de frequências dada anteriormente com as frequências esperadas sob o modelo teórico:
Genótipo | AA | Aa | aa | Total |
---|---|---|---|---|
Frequência Observada | 26 | 45 | 29 | 100 |
Frequência Esperada | 25 | 50 | 25 | 100 |
Pergunta: Podemos afirmar que os valores observados estão suficientemente próximos dos valores esperados, de tal forma que o modelo genético teórico é adequado a esta população?
O procedimento que responde esse tipo de pergunta é chamado de teste de bondade de ajuste ou teste de aderência.
Considere uma tabela de freqüências, com \(k \geq 2\) categorias de resultados:
Categorias | 1 | 2 | … | k | Total |
---|---|---|---|---|---|
Frequência Observada | \(O_1\) | \(O_2\) | … | \(O_k\) | \(n\) |
Sendo \(O_i\) o total de indivíduos observados na categoria \(i\), \(i=1,2, \ldots, k\).
Seja \(p_i\) a probabilidade associada à categoria \(i\), \(i=1,2, \ldots, k\).
O objetivo do teste de aderência é testar as hipóteses \[\begin{aligned}
& H_0: p_1=p_{01}, \; \ldots, \; p_k= p_{0k} \\
& H_A: \mbox{existe pelo menos uma diferença}
\end{aligned}\] sendo \(p_{0i}\) a probabilidade da categoria \(i\) sob o modelo teórico e \(\sum_{i=1}^k p_{0i} =1.\)
Se \(E_i\) é o total de indivíduos esperados na categoria \(i\), quando a hipótese nula \(H_0\) é verdadeira, então:
\[E_i = n\times p_{0i}, \quad i=1,2, \ldots, k.\]
Então, expandindo a tabela de freqüências original, temos
Categorias | 1 | 2 | … | k | Total |
---|---|---|---|---|---|
Frequência Observada | \(O_1\) | \(O_2\) | … | \(O_k\) | \(n\) |
Frequência Esperada | \(E_1\) | \(E_2\) | … | \(E_k\) | \(n\) |
Para quantificar quão distante as frequências observadas estão das frequências esperadas, usamos a seguinte estatística:
Estatística do Teste: \[\chi^2=\sum_{i=1}^k \frac{(O_i-E_i)^2}{E_i} = \sum^{k}_{i=1}\frac{(n_i-np_{0i})^2}{np_{0i}}\]
Se \(H_0\) é verdadeira: \(\chi^2 \sim \chi^2_{k-1}\)
Em outras palavras, se \(H_0\) é verdadeira, a v.a. \(\chi^2\) segue uma distribuição aproximadamente Qui-quadrado com \(k-1\) graus de liberdade.
Condição: Este resultado é válido para \(n\) grande e para frequências esperadas maiores ou iguais a 5.
Calcular o valor-de-p ou encontrar o valor crítico.
Valor-de-p: \(P(\chi^2_{k-1} \geq \chi^2_{obs}),\) em que \(\chi^2_{obs}\) é o valor da estatística do teste calculada a partir dos dados.
Valor Crítico: Para um nível de significância \(\alpha\), encontrar o valor crítico \(\chi^2_{crit}\) na tabela Chi-quadrado tal que \(P(\chi^2_{k-1} \geq \chi^2_{crit}) = \alpha.\)
Conclusão: Rejeitamos \(H_0\) se
\[\mbox{valor-de-p} \leq \alpha \quad \mbox{ou} \quad \chi_{obs}^2 \geq \chi^2_{crit}\]
Voltando no exemplo da Genética
Hipóteses: \[\begin{aligned} & H_0: \; \mbox{o modelo proposto é adequado} \\ & H_A: \; \mbox{o modelo proposto não é adequado} \end{aligned}\]
De forma equivalente, podem ser escritas como: \[\begin{aligned}
& H_0: \; p_1=1/4, \; p_2=1/2, \; p_3= 1/4 \\
& H_A: \; \mbox{ao menos umas das desigualdades não verifica}
\end{aligned}\] sendo \(p_1=P(AA), p_2=P(Aa)\) e \(p_3=P(aa)\).
A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente).
Genótipo | AA | Aa | aa | Total |
---|---|---|---|---|
Frequência Observada | 26 | 45 | 29 | 100 |
Frequência Esperada | 25 | 50 | 25 | 100 |
Estatística do Teste: \[\begin{aligned}
\chi^2_{obs} = \sum_{i=1}^3 \frac{(O_i-E_i)^2}{E_i} &= \frac{(26-25)^2}{25} + \frac{(45-50)^2}{50} + \frac{(29-25)^2}{25} \\
&= 0.04 + 0.5 + 0.64 = 1.18
\end{aligned}\]
Sob \(H_0\), a estatística \(\chi^2 \sim \chi^2_2\). Veja que os graus de liberdade é o número de categorias menos 1. Então o valor-de-p é dado por:
\[\mbox{valor-de-p} = P(\chi^2_2 \geq \chi^2_{obs}) = P(\chi^2_2 \geq 1.18) = 0.554\]
Para um nível de significância \(\alpha=0.05\), olhando na Tabela Qui-Quadrado, o valor crítico é: \(\chi^2_{crit} = 5.991\)
Conclusão: Para \(\alpha = 0.05\), como valor-de-p\(= 0.554 > 0.05\), não rejeitamos a hipótese \(H_0\), isto é, essa população segue o modelo genético proposto.
Ou como \(\chi^2_{obs}=1.18 < 5.991 = \chi^2_{crit},\) não rejeitamos a hipótese \(H_0\).
Voltando aos dados das cores dos M&M’s, cujas componentes têm frequências multinomiais, a hipótese nula especifica que as seis cores são igualmente prováveis. Ou seja,
\(\begin{aligned} & H_0: \; p_1 = p_2 = \ldots = p_6= 1/6 \\ & H_A: \; \mbox{existe pelo menos uma diferença} \end{aligned}\)
Como as probabilidades das cores na hipótese nula são todas iguais, as frequências esperadas também serão todas iguais, ou seja, \[E_i = n\times \frac{1}{6} = 600\times \frac{1}{6} = 100, \quad i=1,\ldots,6.\]
Você acha que as cores aparecem na mesma proporção?
Cor | azul | laranja | verde | vermelho | amarelo | marrom | total |
---|---|---|---|---|---|---|---|
Frequência Observada (\(O\)) | 212 | 147 | 103 | 50 | 46 | 42 | 600 |
Frequência Esperada (\(E\)) | 100 | 100 | 100 | 100 | 100 | 100 | 600 |
\(O - E\) | 112 | 47 | 3 | -50 | -54 | -58 | |
\(\displaystyle \frac{(O-E)^2}{E}\) | 125.44 | 22.09 | 0.09 | 25 | 29.16 | 33.64 | 235.42 |
Estatística do Teste: \[\begin{aligned}
\chi^2 = \sum_{i=1}^6 \frac{(O_i-E_i)^2}{E_i} &= 125.44 + 22.09 + 0.09 + 25 + 29.16 + 33.64 = 235.42
\end{aligned}\]
Olhando na tabela Qui-quadrado com 5 graus de liberdade, para \(\alpha=0.05\), o valor crítico é \(\chi^2_{crit} = \chi^2_{5, 0.05} = 11.07\).
Conclusão: Para \(\alpha = 0.05\), como \(\chi^2_{obs}= 235.42 > 11.07 = \chi^2_{crit},\) rejeitamos a hipótese de que as seis cores são igualmente prováveis.
Entre os americanos, 41% tem sangue do tipo A, 9% tem sangue tipo B, 4% tipo AB e 46% tem sangue tipo O.
Em uma amostra aleatória de 200 pacientes americanos com câncer de estômago, 92 pacientes têm sangue do tipo A, 20 do tipo B, 4 do tipo AB e 84 do tipo O.
Tipo | A | B | AB | O | total |
---|---|---|---|---|---|
Frequência Observada | 92 | 20 | 4 | 84 | 200 |
Essas frequências observadas trazem evidência contra a hipótese de que a distribuição do tipo sanguíneo dos pacientes é igual à distribuição dos tipos sanguíneos na população geral americana? Use nível de significância \(\alpha=0.05\).
\[\begin{aligned} & H_0: \; p_1=0.41, p_2=0.09, p_3=0.04 , p_4=0.46 \\ & H_A: \; \mbox{existe pelo menos uma diferença} \end{aligned}\]
Tipo | A | B | AB | O | total |
---|---|---|---|---|---|
Frequência Observada | 92 | 20 | 4 | 84 | 200 |
Frequência Esperada | 82 | 18 | 8 | 92 | 200 |
\(\displaystyle \frac{(O-E)^2}{E}\) | 1.22 | 0.22 | 2 | 0.7 | 4.14 |
Estatística do Teste: \(\displaystyle \qquad \chi^2=\sum_{i=1}^4 \frac{(O_i-E_i)^2}{E_i} = 4.14\)
Conclusão: Como \(\chi^2_{obs} = 4.14 \leq 7.815= \chi^2_{3, 0.05}\), não temos evidência para rejeitar a hipótese nula.
Portanto, concluímos que não há discrepância significativa entre o que foi observado e a distribuição sanguínea da população americana.
Mendel fez o cruzamento de 8023 ervilhas híbridas e o resultado foi 6022 ervilhas amarelas e 2001 ervilhas verdes.
Teoricamente, cada cruzamento deve resultar em ervilha amarela com probabilidade \(3/4\) e verde com probabilidade \(1/4\). \[\begin{aligned}
& H_0: \; p_1=3/4 \; \mbox{ e } \; p_2=1/4 \\
& H_A: \; \mbox{existe pelo menos uma diferença}
\end{aligned}\]
Tipo | Amarela | Verde | Total |
---|---|---|---|
Frequência Observada | 6022 | 2001 | 8023 |
Frequência Esperada | 6017.25 | 2005.75 | 8023 |
\(\displaystyle \frac{(O-E)^2}{E}\) | 0.004 | 0.011 | 0.015 |
Estatística do Teste: \(\displaystyle \;\; \chi^2=\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} = 0.015\)
Conclusão: Como \(\chi^2_{obs} = 0.015 \leq 3.841= \chi^2_{1, 0.05}\), não temos evidência para rejeitar a hipótese nula. Concluímos que não há discrepância significativa entre o que foi observado e a hipótese nula.
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho