Introdução

Por que aprender Estatística?

Jornais, revistas, noticiários da TV estão repletos de informações obtidas através de pesquisas de opinião, pesquisas médicas, estudos econômicos, estudos ambientais, estatísticas sobre uma pandemia.

Números e conclusões tiradas a partir deles são cada vez mais comuns no dia-a-dia.

No meio de tantos dados e informações, o que levar em conta e o que descartar?

Estamos na era da informação e a Estatística trabalha no uso da informação para tomada de decisão.

Alguns exemplos

  • Como predizer o número de casos/óbitos por COVID-19?

  • Como analisar se um tratamento é realmente eficaz para uma certa doença? Exemplo: uso da cloroquina/hidroxicloroquina no combate à COVID-19?

  • Qual sua chance de ganhar na megasena?

  • Há preconceito contra as mulheres para cargos de chefia?

  • Qual a chance de um cliente do banco não pagar um empréstimo?

Big Data

Na era da internet e do “Big Data”, entender Estatística é essencial.

Sistemas de Recomendação

Como o Netflix sabe que tipo de filmes/séries você gosta?


Recomendações personalizadas: serviços de streaming, como o Netflix e Spotify, devem muito do seu sucesso às técnicas dessa área.

Reconhecimento Facial

Reconhecimento Facial: usado para desbloquear dispositivos, organizar fotos, etc.

Pensamento Estatístico

No livro Mankind in the Making, de 1903, H.G. Wells escreveu:

“… e não estamos muito longe do tempo em que se entenderá que, para exercermos a cidadania de maneira eficiente, será tão necessário saber calcular e pensar em médias, máximos e mínimos, quanto é agora necessário saber ler e escrever.”

Estatística

A Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.

Estatística é a arte de aprender através de dados.

Estatística

Três aspectos principais da estatística:

  • Planejamento: planejar como obter os dados para responder às perguntas de interesse.
  • Descrição: resumir os dados obtidos.
  • Inferência: tomar decisões e fazer predições baseando-se nos dados.

Por que usar métodos estatísticos?

Os tópicos de estudo de um certo pesquisador são tão diversos quanto as perguntas de interesse.

Muitas vezes esses estudos podem ser realizados com técnicas simples de amostragem, análise de dados e conceitos fundamentais de inferência estatística.

Com isso, a Estatística pode trabalhar em parceria com qualquer área do conhecimento, planejando experimentos, auxiliando na coleta de amostras representativas, resumindo e analisando seus dados, tirando conclusões a partir de experimentos.

Estatística aplicada nas mais diversas áreas

  • Meio Ambiente
  • Pesquisa de Mercado
  • Big Data
  • Informática/Telecomunicação
  • Agronegócio
  • Hospitais e Pesquisa Médica
  • Mercado Financeiro
  • Indústria
  • Biomedicina/Indústria Farmacêutica
  • Instituições de Ensino e Pesquisa

Estudo de Caso: stents e prevenção de AVC

Problema comum em medicina: como avaliar a eficácia de um procedimento médico?

Estudo: stents são eficazes no tratamento de pacientes com risco de AVC?

Stents são usados para a recuperação de pacientes que já sofreram infarto.


Os pesquisadores do estudo investigaram se havia benefícios também para pacientes com risco de AVC.

Pergunta de interesse: O uso de stent reduz o risco de AVC?

Estudo de Caso: stents e prevenção de AVC

Estudo: Os pesquisadores coletaram dados de 451 pacientes com risco de AVC que se voluntariaram para o estudo.


Cada paciente foi alocado aleatoriamente em um dos grupos:

  • Grupo de Tratamento: paciente recebe stent e medicação.
  • Grupo Controle: paciente recebe a mesma medicação do grupo tratamento, mas não recebe stent.

Estudo de Caso: stents e prevenção de AVC

Cada paciente foi avaliado em duas ocasiões: primeiros 30 dias e após 1 ano.


Avaliar cada paciente individualmente desta planilha de dados é eficaz?

Como poderíamos resumir?

Estudo de Caso: stents e prevenção de AVC

Veja a tabela ao lado com os resultados.

Dentre os 224 pacientes do grupo tratamento:

  • 33 pacientes tiveram AVC durante os primeiros 30 dias.
  • 45 pacientes tiveram AVC durante o primeiro ano.

Qual a proporção de pacientes do grupo tratamento que sofreram AVC durante o primeiro ano?

\[\frac{45}{224} = 0.2 = 20\%\]

Podemos calcular estatísticas sumárias a partir da tabela.

Estudo de Caso: stents e prevenção de AVC

Estatística Sumária: número obtido a partir de informações dos dados coletados para resumí-los.



Proporção de pacientes do grupo tratamento que sofreram AVC: \(\displaystyle \frac{45}{224} = 0.2 = 20\%\)

Proporção de pacientes do grupo controle que sofreram AVC: \(\displaystyle \frac{28}{227} = 0.12 = 12\%\)

No grupo tratamento, temos 8% a mais de pacientes que sofreram AVC.

Estudo de Caso: stents e prevenção de AVC

Relembrando a pergunta de interesse.
Pergunta de interesse: O uso de stent reduz o risco de AVC?

O resultado observado está de acordo com a expectativa dos pesquisadores?

8% é uma diferença considerável?

Uma diferença de 8% poderia acontecer ao acaso, mesmo que os dois tratamentos na verdade oferecessem o mesmo risco de AVC?

Utilizando metodologia estatística, os pesquisadores chegaram à conclusão de que stents não servem para previnir novos AVCs.

Razão médica: o stent só resolve o fluxo sanguíneo naquela artéria específica lesionada, mas o paciente continua sendo de alto risco para AVC, pois a doença está disseminada.

Estudo de Caso: stents e prevenção de AVC



CUIDADO!


Não podemos generalizar os resultados do estudo para todo tipo de paciente e todo tipo de stent.

Análise Descritiva

Análise Descritiva

Análise descritiva se refere a métodos para resumir e descrever os dados.

É o primeiro passo antes de qualquer análise estatística!

Dados aqui refere-se à informação contida na amostra, ou seja, a que foi coletada de um experimento, uma pesquisa, um registro histórico, etc.

Resumo dos dados pode ser feito por meio de:

  • métricas quantitativas: estatísticas sumárias como média, mediana, desvio padrão, proporções.
  • ferramentas visuais: gráficos.

A técnica adequada depende do tipo de variável.

Exemplo: Dados do Censo

Exemplo: spam

Suponha que extraímos informações de 50 emails recebidos e armazemos esses dados numa tabela. Esse é um conjunto de dados.

Primeiras linhas do conjunto de dados
spam characters lineBreaks format number
no 21705 551 1 small
no 7011 183 1 big
yes 631 28 0 none
no 2454 61 0 small
no 41623 1088 1 small
no 57 5 0 small
no 809 17 0 small
no 5229 88 1 small

Exemplo: spam

Cada linha representa um email recebido.

Colunas:

  • spam: yes se spam e no caso contrário.

  • characters: número de caracteres no email.

  • lineBreaks: número de quebras de linha no email.

  • format: 1 se formato é HTML, 0 caso contrário.

  • number: indica se o email não continha nenhum número (none), um número pequeno (small) ou um número grande (big).

Estrutura básica dos dados

Para que possamos resumir os dados, é importante primeiramente entender como eles são organizados e também os diversos tipos de cada variável.

Variável é uma condição ou característica de um elemento de estudo. Pode assumir valores diferentes em diferentes elementos.

Tipos de Variáveis

Exemplos: peso, altura, curso.

Veja que para cada pessoa, os valores não necessariamente são os mesmos.

Tipos de Variável

Qualitativa

  • Nominal: Não existe ordenação.
    Ex: sexo, estado civil, profissão.

  • Ordinal: Existe uma certa ordem.
    Ex: escolaridade, estágio da doença, classe social.


Quantitativa

  • Discreta: os valores possíveis formam um conjunto enumerável (finito ou infinito). Ex: número de filhos, números de ovos de Páscoa que você comeu.

  • Contínua: os valores possíveis estão dentro de um intervalo, aberto ou fechado, dos números reais. Ex: peso, altura, salário.

Tipos de Variável

Suponha que nós aplicamos um questionário entre os alunos de ME414 e coletamos várias informações sobre vocês.

Cada pergunta se refere a uma variável, que pode ter valores diferentes para cada um de vocês.

Dentre outras coisas, perguntamos sobre as seguintes variáveis:

  • Número de irmãos
  • Altura
  • Se já fez algum curso de estatística anteriormente


Qual o tipo de cada variável?

Análise Descritiva Univariada

A análise descritiva univariada consiste basicamente em, para cada uma das variáveis individualmente:

  • classificar a variável quanto a seu tipo: qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua)

  • obter tabela, gráfico e/ou medidas resumo apropriados

A partir destes resultados pode-se montar um resumo geral dos dados.

Na aula de hoje, falaremos sobre tabelas e gráficos apropriados para cada tipo de variável.

Exemplo: SleepStudy

Para ilustrar as diferentes técnicas usadas em análise descritiva, vamos utilizar o conjunto de dados chamado SleepStudy.

Esses dados referem-se a um estudo de padrões de sono para estudantes universitários.

Os dados foram obtidos de uma amostra de 253 alunos universitários que fizeram testes de habilidades para medir função cognitiva.

Todos os participantes completaram uma pesquisa, na qual responderam questões sobre atitudes e hábitos. Eles também mantiveram um diário para registrar o tempo e a qualidade do sono durante um período de duas semanas.

Nesse conjunto de dados encontramos todos os tipos de variáveis.

Exemplo: SleepStudy

Iremos selecionar algumas variáveis de cada tipo:

  • Gênero (Gender): categórica nominal

  • Autodeclaração de uso de álcool (AlcoholUse) e nível de ansiedade (AnxietyStatus): categórica ordinal

  • Número de aulas na semana antes das 9am (NumEarlyClass) e número de bebidas alcoólicas por semana (Drinks): quantitativa discreta

  • Média de horas de sono em todos os dias (AverageSleep) e score de cognição (CognitionZscore): quantitativa contínua

Resumindo Dados Qualitativos

Variável Categórica Nominal

A variável gênero (Gender) é do tipo categórica (qualitativa) nominal.

Para resumir esse tipo de variável começamos por uma tabela de frequências e também podemos representar as frequências num gráfico de barras ou de pizza (setores).

Tabela de frequência: listas todos os valores possíveis e contar quantas vezes cada um aparece.

Tabela de Frequências
Gênero Freq. Absoluta Freq. Relativa
female 151 0.597
male 102 0.403

Gráfico de Barras

Gráfico de barras

  • Técnica visual para resumir dados categóricos.

  • É uma representação gráfica da tabela de frequências absolutas ou frequências relativas.

Exemplo: Doctor Who

Qual ator atuou no maior número de episódios da série Doctor Who?

Tabela de Frequências Absolutas e Relativas
Ator Freq. Absoluta Freq. Relativa
William Hartnell 136 0.157
Patrick Troughton 127 0.147
Jon Pertwee 129 0.149
Tom Baker 173 0.200
Peter Davison 70 0.081
Colin Baker 35 0.041
Sylvester McCoy 42 0.049
Christopher Ecclestone 20 0.023
David Tennant 52 0.060
Matt Smith 51 0.059
Peter Capaldi 29 0.034


Fonte: Informações do site IMDB (1963-1989, 2005-2015)

Exemplo: Doctor Who

Veja o gráfico de barras representando a tabela de frequências absolutas.

Exemplo: Doctor Who

Veja o gráfico de barras representando a tabela de frequências relativas.

Variável Categórica Ordinal

A variável AnxietyStatus é uma variável categórica (qualitativa) ordinal, ou seja, são categorias cuja ordem é relevante.

Assim como na variável categórica nominal, podemos utilizar as frequências absolutas e relativas para resumir os dados. Visualmente, representamos essa variável com um gráfico de barras.

Tabela de Frequências
Anxiety Status Freq. Absoluta Freq. Relativa
normal 181 0.715
moderate 56 0.221
severe 16 0.063

Resumindo Dados Quantitativos

Variável Quantitativa Discreta

Quantitativa Discreta: conjunto enumerável (finito ou infinito) de valores possíveis.

Exemplo: Nos dados SleepStudy, a variável NumEarlyClass representa o número de aulas por semana antes das 9am, sendo então quantitativa discreta.

Nesse caso, assim como nas variáveis categóricas, podemos apresentar uma tabela de frequências absolutas e/ou relativas.

Número de Aulas Freq. Absoluta Freq. Relativa
0 85 0.336
1 14 0.055
2 88 0.348
3 35 0.138
4 11 0.043
5 20 0.079

Variável Quantitativa Discreta

As frequências absolutas ou relativas podem ser apresentadas num gráfico de barras.

É comum esses universitários terem aulas antes das 9h da manhã?

Variável Quantitativa Discreta

Exemplo: Nos dados SleepStudy, outra variável quantitativa discreta é Drinks (número de bebidas alcoólicas por semana).

Poderíamos também aqui apresentar uma tabela de frequências absolutas e/ou relativas.

## 
##  0  1  2  3  4  5  6  7  8  9 10 12 13 14 15 18 20 24 
## 33  9 16 30 18 31 23 22 14 11 26  9  3  1  3  1  2  1

Porém, nesse caso, veja que são muitos valores possíveis e apresentá-los numa tabela não é a melhor alternativa.

Variável Quantitativa Discreta

Esse gráfico pode ser feito também usando frequências relativas.

Variáveis Quantitativas Contínuas

Quantitativa Contínua: os valores possíveis estão dentro de um intervalo dos números reais.

Faz sentido estudar a distribuição de frequências de uma variável contínua?

No exemplo do SleepStudy, a variável AverageSleep representa a média de horas de sono para todos os dias, sendo então quantitativa contínua.

Podemos listar todos os valores possíveis e contar quantas vezes cada valor ocorre? Isso seria eficiente?

Existem diferentes tipos de gráficos para esse tipo de variável, mas aqui vamos estudar dois muito usados:

  • Histograma
  • Boxplot (próxima aula)

Histograma

Histograma é uma representação gráfica de uma variável contínua.

Pode-se dizer que é semelhante a um gráfico de frequências para variáveis discretas. Porém, aqui os dados contínuos são agrupados em classes disjuntas e o histograma representa a frequência de dados em cada classe.

Exemplo: Suponha que a variável seja a idade de um grupo de 100 pessoas.

Em vez de calcular as frequências de cada idade individualmente, calculamos as frequências por faixas etárias: (30, 35], (35, 40], …, (80, 85], (85, 90].

Construção de um Histograma

Assista ao vídeo da Khan Academy sobre como criar um histogram:

https://youtu.be/gSEYtAjuZ-Y


Passo-a-passo:

  1. Ordene os dados do menor para o maior.
  2. Escolha intervalos disjuntos, ou seja, de maneira que cada observação possa ser incluída em exatamente um deles.
  3. Neste curso os intervalos são abertos à esquerda e fechados à direita (a,b].
  4. Construa uma tabela de frequências
  5. Desenhe o gráfico: a altura corresponde à frequência do intervalo.

Exemplo: QI

Os dados a seguir representam o QI de 32 crianças de 12 anos de idade:

114, 122, 103, 118, 99, 105, 134, 125, 117, 106, 109, 104, 111, 127, 133, 111,
117, 103, 120, 98, 100, 130, 141, 119, 128, 106, 109, 115, 113, 121, 100, 130

Dados ordenados:

98, 99, 100, 100, 103, 103, 104, 105, 106, 106, 109, 109, 111, 111, 113, 114,
115, 117, 117, 118, 119, 120, 121, 122, 125, 127, 128, 130, 130, 133, 134, 141

Intervalos:
(95, 100]: 4 \(\qquad\) (120, 125]: 3
(100, 105]: 4 \(\qquad\) (125, 130]: 4
(105, 110]: 4 \(\qquad\) (130, 135]: 2
(110, 115]: 5 \(\qquad\) (135, 140]: 0
(115, 120]: 5 \(\qquad\) (140, 145]: 1

Exemplo: QI

Intervalos:
(95, 100]: 4 \(\quad\) (120, 125]: 3
(100, 105]: 4 \(\quad\) (125, 130]: 4
(105, 110]: 4 \(\quad\) (130, 135]: 2
(110, 115]: 5 \(\quad\) (135, 140]: 0
(115, 120]: 5 \(\quad\) (140, 145]: 1







Se apenas esse histograma dos QI’s fosse apresentado a você, que conclusões você tira?

Histograma

Histograma

Vamos fazer o histograma da variável AverageSleep do SleepStudy.

Como você analisa esse gráfico?

Ramo-e-folhas

Ramo-e-folhas: representa graficamente os dados sem perder nenhuma informação.

O gráfico de ramo-e-folhas (stem-and-leaf plot em inglês) é, basicamente, uma tabela num formato especial usada para representar dados quantitativos.

Veja um exemplo:

Cada observação (valor) é separado em duas partes: o ramo (colocado à esquerda) e as folhas (colocadas à direita).

Exemplo: Notas dos Alunos

Um professor apresenta à classe as notas do exame usando um gráfico de ramo-e-folhas.

Analisando esse gráfico, responda:

  • Qual o total de alunos?

  • Qual a menor nota?

  • Qual a maior nota?

  • Você conseguiria listar todas as notas?

Ramo-e-Folhas x Histograma

Vamos voltar nos dados de QI (ordenados):
98, 99, 100, 100, 103, 103, 104, 105, 106, 106, 109, 109, 111, 111, 113, 114,
115, 117, 117, 118, 119, 120, 121, 122, 125, 127, 128, 130, 130, 133, 134, 141

Gráfico ramo-e-folhas (à esquerda) e histograma (à direita):


Qual o tipo de informação você obtém através de um gráfico de ramo-e-folhas mas não não através de um histograma?

Dados sobre vacinas nos EUA

Leitura