14  Análise de Variância para 1 fator (One-Way ANOVA)

Após entendermos a lógica fundamental da ANOVA na seção anterior, vamos agora focar em sua aplicação mais direta e frequente: a Análise de Variância para um fator, também conhecida como One-Way ANOVA.

Este tipo de ANOVA é a ferramenta estatística que utilizamos quando queremos comparar as médias de uma variável resposta quantitativa entre os níveis (ou grupos) definidos por um único fator categórico. Pense neste fator como a principal variável independente que você está investigando.

Em ambos os casos, a pergunta central da One-Way ANOVA é:

“A média da variável resposta difere significativamente entre os diferentes níveis deste fator?”

Exemplo 14.1 (ANOVA para um fator - Impacto da Cobertura Vegetal na Infiltração de Água) Considere o experimento descrito na sec-infiltra, cujos dados estão no arquivo cobertura.csv.

A questão científica central é: O tipo de cobertura do solo (ou a sua ausência) influencia a taxa média de infiltração de água nesse solo?

Para responder a isso com a ANOVA, testamos a hipótese nula de que não há diferença na taxa média de infiltração entre os três tipos de manejo:

\(H_0: \mu_{GN} = \mu_{LC} = \mu_{SD}\)

Contra a hipótese alternativa de que pelo menos uma das médias populacionais da taxa de infiltração é diferente das outras:

\(H_1:\) Nem todas as médias \(\mu_{GN}, \mu_{LC}, \mu_{SD}\) são iguais.

Análise Exploratória Inicial:

Começamos explorando os dados para ter uma ideia das distribuições e das médias de cada grupo.

cobertura <- readr::read_csv("cobertura.csv") # importar os dados

Calcular estatísticas descritivas por grupo:

cobertura |>
  group_by(manejo) |>
  summarise(
    n = n(),
    media = mean(infiltracao),
    desvpad = sd(infiltracao),
    var = var(infiltracao)
  )
# A tibble: 3 × 5
  manejo     n media desvpad   var
  <chr>  <int> <dbl>   <dbl> <dbl>
1 GN         8 14.9     1.44  2.08
2 LC         8 18.1     2.51  6.31
3 SD         8  2.72    3.06  9.34

Boxplot comparativo entre os grupos

cobertura |>
  ggplot(aes(x = manejo, y = infiltracao)) +
  geom_boxplot() +
  labs(
    x = "Tipo de Cobertura do Solo",
    y = "Taxa de Infiltração (mm/hora)"
  ) +
  theme_classic()

A análise exploratória inicial (tabela e boxplot) sugere fortemente que a taxa de infiltração é bem menor no solo descoberto (SD) em comparação com as áreas com cobertura vegetal (GN e LC). A cobertura com leguminosa consorciada (LC) parece apresentar a maior taxa média de infiltração. A ANOVA verificará se essas diferenças observadas nas amostras são estatisticamente significativas.

Executando a Análise de Variância (ANOVA):

Procedemos com o teste F da ANOVA:

aov_cobertura <- lm(infiltracao ~ manejo, data = cobertura)
anova(aov_cobertura)
Df Sum Sq Mean Sq F value Pr(>F)
manejo 2 1.051,3885 525,6943 88,9206 5,61e-11
Residuals 21 124,1510 5,9120 - -

Conclusão da ANOVA:

O p-valor (Pr(>F)) obtido na tabela da ANOVA é p<0,001. Este valor é extremamente pequeno, muito inferior ao nível de significância comumente adotado de 0,05.

Com base nisso, rejeitamos a hipótese nula (H0).

A conclusão é que existem evidências estatísticas muito fortes para afirmar que o tipo de manejo da cobertura do solo tem um efeito significativo sobre a taxa média de infiltração de água nas condições estudadas. Em outras palavras, as taxas médias de infiltração para Solo Descoberto, Gramínea Nativa e Leguminosa Consorciada não são todas iguais.

14.1 Condições para a ANOVA de 1 fator

Como discutido na introdução (sec-condicoes-anova), a validade das conclusões da ANOVA depende da satisfação de três pressupostos principais: independência das observações, Normalidade dos resíduos e homogeneidade das variâncias entre os grupos. A independência é majoritariamente garantida pelo delineamento experimental. Agora, vamos verificar os pressupostos de Normalidade e homogeneidade de variâncias analisando os resíduos do modelo ajustado.

Exemplo 14.2 Continuando com o Exemplo exm-anova1, vamos avaliar os resíduos, que representam a parte da variabilidade da taxa de infiltração que não foi explicada pelo tipo de manejo da cobertura do solo. Os resíduos podem ser visualizados pelo seguinte comando:

aov_cobertura |> residuals()
       1        2        3        4        5        6        7        8 
 1.86000  2.94625  0.70500 -2.01000 -1.22375 -4.03500 -0.15000  1.51625 
       9       10       11       12       13       14       15       16 
-3.60500  0.39000  3.47625  3.91500 -0.07000 -3.87375  0.66500 -1.09000 
      17       18       19       20       21       22       23       24 
-1.65375 -2.28500  2.14000 -1.36375  0.93500 -1.07000  0.17625  3.70500 

Verificação da Normalidade dos Resíduos

Gráfico Q-Q

Histograma, índices e teste de Shapiro-Wilk

Interpretação (Normalidade)

Análise gráfica para Normalidade: Avaliando o gráfico Q-Q Normal, observamos que os pontos azuis (representando os resíduos) seguem muito de perto a linha de referência vermelha tracejada ao longo de toda a sua extensão. Não há desvios sistemáticos ou acentuados, nem no centro nem nas caudas da distribuição. O histograma dos resíduos mostra uma distribuição que parece razoavelmente simétrica. A forma geral, incluindo a curva de densidade sobreposta, aproxima-se visualmente de uma forma de sino, característica da distribuição normal.

Índices Descritivos para Normalidade: A assimetria de -0,0087 é extremamente próxima de 0, indicando um alto grau de simetria na distribuição dos resíduos, o que é totalmente consistente com a expectativa para uma distribuição normal e com a aparência do histograma. A curtose de 2,18 difere do valor esperado de 3 para a distribuição Normal, sugerindo uma distribuição ligeiramente platicúrtica (mais achatada que a normal).

Testes Formais para Normalidade: O teste de Shapiro-Wilk resultou em 0,615. Como o p-valor é maior que o nível de significância comum de 0,05, nós não rejeitamos H0, ou seja, não há evidências estatística para duvidar da normalidade dos resíduos.

Conclusão: Com base nesta análise abrangente, podemos concluir com segurança que o pressuposto de normalidade dos resíduos é satisfatório para este modelo. Não há motivos para preocupação quanto à violação desta condição da ANOVA.

Verificação da Homogeneidade das Variâncias (Homoscedasticidade)

Gráfico resíduos vs. ajustados

Boxplot dos resíduos por grupo

Razão maior/menor desvio-padrão

# A tibble: 3 × 3
  manejo desvpad razao
  <chr>    <dbl> <dbl>
1 GN        1.44  2.12
2 LC        2.51  1.22
3 SD        3.06  1   

Teste de Levene

Warning in leveneTest.default(y = y, group = group, ...): group coerced to
factor.
Levene's Test for Homogeneity of Variance (center = median)
      Df F value Pr(>F)
group  2  1.5579  0.234
      21               
      6      12      14      24       9      11 
4.03500 3.91500 3.87375 3.70500 3.60500 3.47625 

Interpretação (Homogeneidade):

Análise Gráfica dos Resíduos: No gráfico dos resíduos vs. ajustados, Procuramos uma nuvem de pontos distribuída aleatoriamente em torno da linha horizontal (y=0), com dispersão vertical constante. Não há um padrão óbvio de funil ou cone, e a dispersão vertical dos resíduos parece relativamente constante ao longo da faixa de valores ajustados. Já no boxplots dos resíduos por grupo, observamos que as “caixas” (representando o intervalo interquartil) parecem ter alturas (dispersões) relativamente similares, apenas a caixa para SD parece ser um pouco mais alta, sugerindo uma variabilidade ligeiramente maior nos resíduos. A análise visual sugere que as variâncias podem não ser perfeitamente iguais, mas não parece haver uma violação extrema da homogeneidade. O gráfico de resíduos vs. ajustados, em particular, não mostra um padrão problemático claro.

Regra Prática dos Desvios-Padrão Amostrais: A razão entre o maior e o menor desvio-padrão é de 2,12, ligeiramente acima do limiar mais estrito (< 2), mas bem abaixo do limiar mais liberal (< 3). Considerando que o delineamento é balanceado (n=8 para todos os grupos ), essa razão não é, por si só, alarmante e sugere que a potencial diferença nas variâncias pode não comprometer severamente a robustez da ANOVA

Testes Formais para Homoscedasticidade: O teste de Levene apresentou um p-valor de 0,234. Como o p-valor é maior que o nível de significância usual (0,05), nós não rejeitamos a hipótese nula de que as variâncias são iguais entre os grupos. O teste de Levene não encontrou evidência estatística significativa de heteroscedasticidade.

Conclusão: com base na análise conjunta e considerando a robustez da ANOVA neste caso, podemos concluir que o pressuposto de homogeneidade de variâncias é considerado razoavelmente satisfeito para este modelo. Não parece haver uma violação suficientemente grave que invalide as conclusões do teste F da ANOVA.

Todas as análises apresentadas aqui podem ser executadas usando o script oneway_anova.Rmd