13  A Ideia Fundamental da Análise de Variância: Comparando Variações

Como vimos, a Análise de Variância (ANOVA) é a ferramenta que usamos para comparar as médias de três ou mais grupos simultaneamente. Mas como ela determina se as diferenças que vemos nas médias das nossas amostras são “reais” (estatisticamente significativas) ou apenas variações casuais?

A chave está no nome: a ANOVA funciona analisando e comparando diferentes fontes de variância nos dados. Especificamente, ela compara:

  1. Variação Entre Grupos: Mede o quão dispersas estão as médias de cada grupo em relação à média geral de todos os dados. Uma grande variação entre grupos sugere que os grupos têm médias diferentes.
  2. Variação Dentro dos Grupos: Mede a dispersão dos dados individuais em torno da média do seu próprio grupo. Isso representa a variabilidade natural ou aleatória (erro experimental) dentro de cada tratamento ou condição.

A lógica é: se a variação entre as médias dos grupos for significativamente maior do que a variação natural dentro dos grupos, então concluímos que as diferenças observadas entre as médias não são meramente casuais, mas provavelmente representam diferenças reais nas populações de onde as amostras vieram.

Para tornar essa ideia concreta, vamos revisitar o exemplo do reflorestamento de Mogno Africano (sec-mogno).

Exemplo 13.1 (Ideia da Anova) Vamos estudar dois cenários para entender como a Análise de Variância fuciona:

Cenário 1: Amostras da Mesma População (H0 Verdadeira)

Primeiro, imagine que retiramos 5 amostras aleatórias (Amostra 1 a 5), cada uma com 8 elementos, da população de Mogno Africano, que contém as medidas do Diâmetro à Altura do Peito (DAP) de cada árvore. Como todas as amostras vêm da mesma população de árvores, esperamos que o DAP médio seja semelhante entre as 5 amostras, exceto por flutuações aleatórias.

Os dados estão disponiveis no arquivo mogno5.csv e na tabela abaixo:

am1 am2 am3 am4 am5
14,69 15,31 12,91 12,88 10,98
11,96 11,78 9,86 14,57 11,46
11,13 14,55 12,64 14,80 12,49
11,05 14,97 12,79 14,14 15,60
14,24 13,77 13,80 11,80 10,84
16,19 15,64 15,57 12,52 10,96
12,75 7,92 13,88 12,50 13,48
14,15 13,09 16,71 12,09 12,60
média 13,27 13,38 13,52 13,16 12,30

Executamos a ANOVA para testar a hipótese nula de igualdade das médias:

  • \(H_0: \mu_1 = \mu_2 = \mu_3 = \mu_4 = \mu_5\)
  • \(H_1:\) Nem todas as médias \(\mu\) são iguais.

O código em R para executar a Anova está abaixo:

mogno5 <- readr::read_csv("mogno5.csv") # importar o arquivo
aov_mogno5 <- lm(dap ~ amostra, data = mogno5)
anova(aov_mogno5)

O resultado é mostrado abaixo:

Df Sum Sq Mean Sq F value Pr(>F)
amostra 4 7,3712 1,8428 0,5075 0,730
Residuals 35 127,0913 3,6312 - -

Interpretação (Cenário 1):

O Quadrado Médio para amostra (Mean Sqamostra = 1,8428) estima a variância entre as médias das amostras. O Quadrado Médio para Residuals (Mean SqResiduals = 3,6312) estima a variância dentro das amostras, ou seja, a variabilidade natural do DAP. O valor F é a razão entre essas duas estimativas:

\(F = \frac{1,8428}{3,6312} = 0,5075\)

Como F é pequeno (menor que 1, neste caso), ele indica que a variação entre as médias das amostras não é maior que a variação natural dentro delas. O p-valor (Pr(>F): p=0,730), sendo grande (> 0,05), confirma que essa pequena diferença entre as médias das amostras é totalmente compatível com o acaso. Não rejeitamos H0, ou seja, os dados não fornecem evidência estatística suficiente para concluir que as médias do DAP das amostras sejam diferentes entre si.

Cenário 2: Simulando Diferenças Reais (H0 Falsa)

Agora, com as mesmas amostras retiradas da população de Mogno Africano, vamos introduzir artificialmente um efeito diferente em cada amostra, como se elas tivessem vindo de populações com médias de DAP distintas:

  • Amostra 1: DAP +0
  • Amostra 2: DAP +5
  • Amostra 3: DAP -5
  • Amostra 4: DAP +8
  • Amostra 5: DAP +2

Os dados resultantes estão disponiveis no arquivo mogno5_plus.csv e na tabela abaixo:

am1 am2 am3 am4 am5
14,69 20,31 7,91 20,88 12,98
11,96 16,78 4,86 22,57 13,46
11,13 19,55 7,64 22,80 14,49
11,05 19,97 7,79 22,14 17,60
14,24 18,77 8,80 19,80 12,84
16,19 20,64 10,57 20,52 12,96
12,75 12,92 8,88 20,50 15,48
14,15 18,09 11,71 20,09 14,60
média 13,27 18,38 8,52 21,16 14,30

Executamos a ANOVA novamente com estes dados modificados:

Df Sum Sq Mean Sq F value Pr(>F)
amostra 4 758,2712 189,5678 52,2056 2,83e-14
Residuals 35 127,0913 3,6312 - -

Interpretação (Cenário 2):

Os efeitos adicionados aumentaram muito a diferença entre as médias das amostras. Isso se reflete no Quadrado Médio de amostra (Mean Sqamostra = 189,5678), que agora estima uma variância entre grupos muito maior. Note que o Quadrado Médio dos Residuals (Mean SqResiduals = 3,6312) permaneceu o mesmo, pois adicionar constantes não altera a variância dentro de cada grupo.

Agora, a razão F é um valor grande:

\(F = \frac{189,5678}{3,6312} = 52,2056\)

Isso indica que a variância entre grupos é muito maior que a variância dentro dos grupos. O p-valor (Pr(>F): p<0,001) é extremamente pequeno (< 0,05).

Concluímos que é altamente improvável observar diferenças tão grandes entre as médias das amostras apenas por acaso. Rejeitamos H0, confirmando que há evidência de que as médias de DAP (com os efeitos simulados) são diferentes entre os grupos.

Em resumo, a ANOVA avalia a significância das diferenças entre as médias dos grupos comparando a variância entre eles com a variância residual (dentro deles). Um valor F alto e um p-valor baixo indicam que a variabilidade entre os grupos excede a variabilidade aleatória, sugerindo que o fator em estudo tem um efeito real sobre a variável resposta.