Teste de Hipóteses - Introdução

Uma senhora toma chá

R. A. Fisher foi um dos fundadores da Estatística moderna.

Em um de seus famosos experimentos, ele testou a capacidade de uma senhora em distinguir se a xícara estava servida com o leite colocado antes ou depois do chá.

Vídeo

Uma senhora toma chá

Como planejar um experimento para testar a capacidade da pessoa distinguir se o chá foi preparado com leite primeiro ou por último?

  • Como lidar com variações na temperatura do chá, quantidade de açúcar, entre outras?
  • Quantas xícaras devem ser usadas no teste? Qual a ordem de apresentação dessas xícaras?
  • Qual conclusão iremos tirar caso a pessoa erre somente uma vez? Ou duas vezes?

Experimento

  • 12 xícaras: 6 com chá colocado antes do leite e 6 com leite antes do chá.
  • As 12 xícaras foram apresentadas em ordem aleatória para a senhora, mas a informação de que eram 6 de cada tipo foi passada a ela.
  • A senhora deveria provar a bebida das 12 xícaras e escolher as 6 xícaras que acreditava estar com chá primeiro.
  • Verificou-se quantas dentre as 6 xícaras ela escolheu corretamente.
  • Quais os resultados possíveis do experimento?

Resultados possíveis

  • Tarefa da senhora: escolher as 6 xícaras com chá primeiro.
  • São 12 xícaras: 6 com leite primeiro e 6 com chá primeiro.
  • A senhora escolhe 6 dentre 12, sem reposição.
  • De quantas formas ela pode fazer isso, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{12}{6}=924\]

Resultados possíveis

  • É possível que ela escolha as 6 corretamente: 6 com chá primeiro.
  • De quantas formas ela pode escolher 6 corretas?
  • Para escolher 6 corretas, duas coisas devem ocorrer: escolher 6 com chá primeiro (dentre 6 com chá primeiro) e não escolher nenhuma dentre as 6 com leite primeiro.
  • De quantas formas é possível fazer isso, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{6}{6}\binom{6}{0}=1\]

Resultados possíveis

  • É possível que ela escolha 5 corretamente: 5 com chá primeiro e 1 com leite primeiro.
  • De quantas formas ela pode escolher 5 corretas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{6}{5}\binom{6}{1}=36\]

Resultados possíveis

  • É possível que ela escolha 4 corretamente: 4 com chá primeiro e 2 com leite primeiro.
  • De quantas formas ela pode escolher 4 corretas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{6}{4}\binom{6}{2}=225\]

Resultados possíveis

  • É possível que ela escolha 3 corretamente: 3 com chá primeiro e 3 com leite primeiro.
  • De quantas formas ela pode escolher 3 corretas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{6}{3}\binom{6}{3}=400\]

Resultados possíveis

  • É possível que ela escolha 2 corretamente: 2 com chá primeiro e 4 com leite primeiro.
  • De quantas formas ela pode escolher 3 corretas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{6}{2}\binom{6}{4}=225\]

Resultados possíveis

  • É possível que ela escolha 1 corretamente: 1 com chá primeiro e 5 com leite primeiro.
  • De quantas formas ela pode escolher 1 correta, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{6}{1}\binom{6}{5}=36\]

Resultados possíveis

  • É possível que ela erre todas: 0 com chá primeiro e 6 com leite primeiro.
  • De quantas formas ela pode errar todas, caso ela de fato não saiba distinguir e esteja fazendo tudo ao acaso?

\[\binom{6}{0}\binom{6}{6}=1\]

Resultados possíveis

Teste de hipótese

  • \(H_0\): A senhora não consegue distinguir entre chá ou leite primeiro e escolhe ao acaso durante o experimento.
  • \(H_a\): A senhora consegue distinguir.
  • Estatística do teste: Total de acertos (\(X\))
  • Para decidir, precisamos primeiramente da distribuição de probabilidade da estatística do teste quando \(H_0\) é verdadeira.

Distribuição Hipergeométrica

  • População dividida em duas características
  • Extrações casuais sem reposição
  • \(N\) objetos
  • \(r\) têm a característica A
  • \(N-r\) têm a característica B
  • um grupo de \(n\) elementos é escolhido ao acaso, dentre os \(N\) possíveis, sem reposição.

Queremos calcular a probabilidade de que este grupo de \(n\) elementos contenha \(x\) elementos com a característica A.

Distribuição Hipergeométrica

Elemento escolhido Característica \(A\) Característica \(B\) Total
sim \(x\) \(n-x\) \(n\)
não \(N-n\)
Total \(r\) \(N-r\) \(N\)

Seja \(X\) a v.a. que representa o número de elementos com a característica A dentre os \(n\) escolhidos ao acaso.

Então dizemos que \(X\) segue uma distribuição Hipergeométrica com parâmetros \(N,n,r\), ou seja, \(X \sim Hip(N,n,r)\).

A probabilidade de se observar \(x\) é dada por: \[P(X=x)=\frac{\binom{r}{x}\binom{N-r}{n-x}}{\binom{N}{n}}\,,\quad\quad0\leq x \leq min\{r,n\}\]

Teste de hipótese

  • População dividida em duas características: chá primeiro, leite primeiro.
  • Extrações casuais sem reposição
  • \(N\) objetos: 12 xícaras
  • \(r\) têm a característica A: 6 com chá primeiro
  • \(N-r\) têm a característica B: 6 com leite primeiro
  • Um grupo de \(n\) elementos é escolhido ao acaso, dentre os \(N\) possíveis, sem reposição: a senhora escolhe 6 xícaras dentre as 12.

Teste de hipótese

Queremos calcular a probabilidade de que dentre as 6 xícaras escolhidas \(x\) tenham de fato o chá colocado primeiro.

Seja \(X\) a v.a. que representa o número de xícaras com chá primeiro dentre as 6 selecionadas.

Então dizemos que \(X\) segue uma distribuição Hipergeométrica com parâmetros \(N,n,r\), ou seja, \(X \sim Hip(N=12,n=6,r=6)\).

A probabilidade de se observar \(x\) é dada por: \[P(X=x)=\frac{\binom{6}{x}\binom{6}{n-x}}{\binom{12}{6}}, \qquad 0\leq x \leq 6\]

Teste de hipótese

  • \(H_0\): A senhora não consegue distinguir entre chá ou leite primeiro e escolhe ao acaso durante o experimento.

  • Estatística do teste: Total de acertos (\(X\))

  • Distribuição de probabilidade da estatística do teste, quando \(H_0\) é verdadeira.

\[P(X=x)=\frac{\binom{6}{x}\binom{6}{6-x}}{\binom{12}{6}}, \qquad 0\leq x \leq 6\]

Teste de Hipótese

Distribuição da Estatística do Teste sob \(H_0\)

Teste de Hipótese

Como decidir se rejeitamos ou não \(H_0\) de acordo com a estatística do teste observada?

Como decidir se rejeitamos a hipótese de que a senhora não consegue distinguir os chás, sendo que ela acertou, por exemplo, 4? Se ela tivesse acertado todas as 6 xícaras? Seria por pura sorte? Ou ela tem algum conhecimento?

Calculamos a probabilidade, sob \(H_0\), de um valor igual ou mais extremo ao da estatística do teste observada (valor-de-p). Mais extremo: mais evidência contra \(H_0\).

Se o valor-de-p obtido é bem pequeno, por exemplo, 0.05, isto quer dizer que se \(H_0\) é verdadeira, então seria incomum obter uma amostra com os resultados como o observado.

Um valor-de-p muito baixo traz fortes evidências contra \(H_0\).

Conclusão

Se a senhora acertou 5 xícaras:

\[P(X=5) = \frac{\binom{6}{5}\binom{6}{1}}{\binom{12}{6}}=3/77 \]

Calculamos a probabilidade de um valor igual ou mais extremo ao da estatística do teste observada (valor-de-p). Mais extremo: mais evidência contra \(H_0\).

Se a senhora tivesse acertado 6, seria ainda mais evidência contra \(H_0\), de forma que o valor de p é calculado como:

\[P(X=5)+P(X=6)=3/77 + 1/924 = 37/924\]

Se este valor for considerado baixo, temos evidências, baseando-se no experimento realizado, para rejeitar \(H_0\).

Nível de significância - Erro tipo I

Nível de significância \(\alpha\) também conhecido como probabilidade de Erro do Tipo I:

\[P(\mbox{Rejeito }H_0\mid H_0\mbox{ é verdadeira})\] Em um teste de hipóteses, definimos um \(\alpha\), que é o erro que estamos dispostos a cometer rejeitando a \(H_0\) quando ela é verdadeira.

Desta forma, quando meu p-valor é menor do que \(\alpha\), encontramos evidências para rejeitar \(H_0\).

Leituras:

  • David Salsburg - Uma senhora toma chá: Como a estatística revolucionou a ciência no século XX

  • Dama apreciadora de chá

Slides produzidos por:

  • Samara Kiihl