Na última aula, trabalhamos com o conjunto de dados refere às notas do Moodle e da Prova P1 de 453 alunos matriculados em ME414 no 2S2015.
Hoje, focaremos nas observações referentes a 116 alunos que obtiveram, no máximo, 6.25 pontos nas atividades do Moodle.
Nosso objetivo é inferir a respeito da associação das notas (absolutas) das atividades disponibilizadas no Moodle com aquelas da Prova P1.
Moodle | P1 |
---|---|
5.98 | 8.33 |
3.00 | 5.00 |
2.42 | 6.70 |
2.11 | 9.40 |
3.88 | 5.00 |
2.86 | 10.00 |
Denotamos a correlação por \(R\).
Hipóteses:
\[\begin{aligned} R & = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n (Y_i-\bar{Y})^2}} \\ & = \frac{S_{XY}}{\sqrt{S_{XX}^2 S_{YY}^2}} = \frac{S_{XY}}{S_{XX}S_{YY}} \end{aligned}\]
Notem que \(S_{XX}^2\) e \(S_{YY}^2\) são as somas de quadrados de \(X\) e \(Y\) corrigida por suas respectivas médias.
No exemplo das notas da P1 e Moodle:
\[S_{XY} = 157.99, \qquad S_{XX} = 18.45, \qquad S_{XY} = 26.41\]
Portanto, \(R = 0.3243.\)
\[ \begin{aligned} R & = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n (Y_i-\bar{Y})^2}} \\ & = \frac{1}{n-1} \sum_{i=1}^n \left(\frac{X_i - \bar{X}}{s_X} \right) \left(\frac{Y_i - \bar{Y}}{s_Y} \right) = \frac{1}{n-1} \sum_{i=1}^n z_{x_i} z_{y_i} \end{aligned} \]
Notem que \(s_X\) e \(s_Y\) representam os desvios padrão amostrais de \(X\) e \(Y\), respectivamente.
\[\sum_{i=1}^n \left(\frac{X_i - \bar{X}}{s_X} \right) \left(\frac{Y_i - \bar{Y}}{s_Y} \right) = 37.29 \qquad \mbox{e} \qquad n-1 = 115\]
Portanto, \(R = 0.3243.\)
\[\begin{aligned} R & = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n (Y_i-\bar{Y})^2}} \\ & = \frac{1}{n-1} \frac{\sum_{i=1}^n X_i Y_i -n \bar{X}\bar{Y}}{s_X s_Y} \end{aligned}\]
Observem que \(\bar{X}\), \(\bar{Y}\), \(s_X\) e \(s_Y\) representam, respectivamente, as médias amostrais e desvios padrão amostrais de cada uma das variáveis.
\[\begin{aligned} \bar{X} = 4.14 \qquad \bar{Y} = 5.64 \qquad n-1 = 115 \qquad \frac{\sum_{i=1}^n X_i Y_i -n \bar{X}\bar{Y}}{s_X s_Y} = 37.29 \end{aligned}\]
Portanto, \(R = 0.3243\).
Um modelo de regressão possui, pelo menos, duas variáveis:
Para alunos com notas de atividades de no máximo 6.25, como as notas das atividades se associam com a nota da prova P1?
O modelo de regressão usual descreve associação linear entre \(Y\) e \(X\) da seguinte forma: \[Y= \alpha + \beta X + \varepsilon.\]
Neste modelo, os termos adicionais são:
Considerar o erro é necessário, pois associações perfeitas são improváveis.
Modelo de regressão linear assume:
Desta forma, a variável aleatória \(Y\), escrita como \[Y = \alpha + \beta X + \varepsilon,\] possui as seguintes características:
Voltando no exemplo das notas do Moodle e P1 para 116 alunos.
Um modo de determinar a melhor reta é escolhendo os parâmetros de forma que a distância entre os pontos e a reta seja mínimo, ou seja, pelo método conhecido como mínimos quadrados:
\[Y_i = \alpha + \beta X_i + \varepsilon_i\]
A função a ser minimizada é a soma de quadrados dos erros: \[f(\alpha, \beta) = \sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n (Y_i - \alpha - \beta X_i)^2\]
Tomando as derivadas em relação a \(\alpha\) e \(\beta\) e igualando-as a zero temos: \[\frac{\partial f(\alpha, \beta)}{\partial \alpha} = -2 \sum_{i=1}^n (Y_i - \alpha - \beta X_i) \qquad \frac{\partial f(\alpha, \beta)}{\partial \beta} = -2 \sum_{i=1}^n X_i (Y_i - \alpha - \beta X_i)\] \[\hat{\alpha} = \bar{Y} - \hat{\beta} \bar{X} \qquad \mbox{e} \qquad \hat{\beta} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2} = \frac{S_{XY}}{S_{XX}}\]
Para esses dados, calculou-se:
\[\bar X = 4.14, \qquad \bar Y = 5.64, \qquad S_{XY} = 157.99 \qquad \mbox{e} \qquad S_{XX} = 340.33. \]
Então, as estimativas dos coeficientes são: \[\begin{aligned} \hat{\beta} & = \frac{S_{XY}}{S_{XX}} = \frac{157.99}{340.33} = 0.46 \\ \hat{\alpha} & = \bar{Y} - \hat{\beta} \bar{X} \\ &= 5.64 - 0.46 \times 4.14 = 3.72 \end{aligned}\]
E a equação da reta estimada é dada por: \[\mbox{P1} = 3.72 + 0.46 \times \mbox{Moodle}.\]
\[\mbox{P1} = 3.72 + 0.46 \times \mbox{Moodle}\]
\[\mbox{P1} = 3.72 + 0.46 \times \mbox{Moodle}\]
\(\hat{\alpha} = 3.72\) é a nota média na P1 para alunos com nota 0 no Moodle (intercepto).
\(\hat{\beta} = 0.46\) é o aumento médio na nota da P1 para cada ponto extra no Moodle (coeficiente angular).
O gráfico abaixo apresenta o número de divórcios (por 1000 casamentos) no Maine/EUA e o consumo per capita de margarina (em libras) ao longo dos anos.
A correlação entre estas duas variáveis (número de divórcios e consumo de margarina) é 0.9926.
Considere o número de divórcios como variável resposta e o consumo de margarina como variável independente.
Temos o seguinte modelo de regressão linear:
Estimativa | Erro Padrão | valor t | valor-de-p | |
---|---|---|---|---|
(Intercept) | 3.308626 | 0.0480316 | 68.88431 | 0 |
margarina | 0.201386 | 0.0087350 | 23.05495 | 0 |
Ou seja, \[\mbox{divórcios} = 3.30 + 0.20 \times \mbox{margarina}\]
\[\mbox{divórcios} = 3.30 + 0.20 \times \mbox{margarina}\]
Importante: modelos de regressão descrevem associação, não causalidade.
Qual o consumo esperado de margarina em 2016?
Extrapolações não devem ser feitas!!!
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho