14 Análise de Variância para 1 fator (One-Way ANOVA)

Após entendermos a lógica fundamental da ANOVA na seção anterior, vamos agora focar em sua aplicação mais direta e frequente: a Análise de Variância para um fator, também conhecida como One-Way ANOVA.

Este tipo de ANOVA é a ferramenta estatística que utilizamos quando queremos comparar as médias de uma variável resposta quantitativa entre os níveis (ou grupos) definidos por um único fator categórico. Pense neste fator como a principal variável independente que você está investigando.

Em experimentos: O fator geralmente representa os diferentes tratamentos aplicados, como tipos de fertilizantes, variedades de culturas, métodos de controle de pragas, dietas para animais, etc.
Em estudos observacionais: O fator pode representar grupos naturais ou categorias existentes, como diferentes tipos de solo, habitats, classes de manejo de terra, zonas de uma paisagem, etc.

Em ambos os casos, a pergunta central da One-Way ANOVA é:

“A média da variável resposta difere significativamente entre os diferentes níveis deste fator?”

Exemplo 14.1 (ANOVA para um fator - Impacto da Cobertura Vegetal na Infiltração de Água) Considere o experimento descrito na Seção A.8, cujos dados estão no arquivo cobertura.csv.

A questão científica central é: O tipo de cobertura do solo (ou a sua ausência) influencia a taxa média de infiltração de água nesse solo?

Para responder a isso com a ANOVA, testamos a hipótese nula de que não há diferença na taxa média de infiltração entre os três tipos de manejo:

\(H_0: \mu_{GN} = \mu_{LC} = \mu_{SD}\)

Contra a hipótese alternativa de que pelo menos uma das médias populacionais da taxa de infiltração é diferente das outras:

\(H_1:\) Nem todas as médias \(\mu_{GN}, \mu_{LC}, \mu_{SD}\) são iguais.

Análise Exploratória Inicial:

Começamos explorando os dados para ter uma ideia das distribuições e das médias de cada grupo.

cobertura <- readr::read_csv("cobertura.csv") # importar os dados

Calcular estatísticas descritivas por grupo:

cobertura |>
  group_by(manejo) |>
  summarise(
    n = n(),
    media = mean(infiltracao),
    desvpad = sd(infiltracao),
    var = var(infiltracao)
  )

# A tibble: 3 × 5
  manejo     n media desvpad   var
  <chr>  <int> <dbl>   <dbl> <dbl>
1 GN         8 14.7     1.09  1.18
2 LC         8 17.8     1.88  3.55
3 SD         8  5.04    2.29  5.25

Boxplot comparativo entre os grupos

cobertura |>
  ggplot(aes(x = manejo, y = infiltracao)) +
  geom_boxplot() +
  labs(
    x = "Tipo de Cobertura do Solo",
    y = "Taxa de Infiltração (mm/hora)"
  ) +
  theme_classic()

A análise exploratória inicial (tabela e boxplot) sugere fortemente que a taxa de infiltração é bem menor no solo descoberto (SD) em comparação com as áreas com cobertura vegetal (GN e LC). A cobertura com leguminosa consorciada (LC) parece apresentar a maior taxa média de infiltração. A ANOVA verificará se essas diferenças observadas nas amostras são estatisticamente significativas.

Executando a Análise de Variância (ANOVA):

Procedemos com o teste F da ANOVA:

aov_cobertura <- lm(infiltracao ~ manejo, data = cobertura)
anova(aov_cobertura)

term	df	sumsq	meansq	statistic	p.value
manejo	2	708.87	354.43	106.63	<0.001 *
Residuals	21	69.80	3.32
*Estatisticamente significativo (nível de 5%)

Conclusão da ANOVA:

O p-valor (Pr(>F)) obtido na tabela da ANOVA é p<0,001. Este valor é extremamente pequeno, muito inferior ao nível de significância comumente adotado de 0,05.

Com base nisso, rejeitamos a hipótese nula (H₀).

A conclusão é que existem evidências estatísticas muito fortes para afirmar que o tipo de manejo da cobertura do solo tem um efeito significativo sobre a taxa média de infiltração de água nas condições estudadas. Em outras palavras, as taxas médias de infiltração para Solo Descoberto, Gramínea Nativa e Leguminosa Consorciada não são todas iguais.

14.1 Condições para a ANOVA de 1 fator

Como discutido na introdução (Seção 1), a validade das conclusões da ANOVA depende da satisfação de três pressupostos principais: independência das observações, Normalidade dos resíduos e homogeneidade das variâncias entre os grupos. A independência é majoritariamente garantida pelo delineamento experimental. Agora, vamos verificar os pressupostos de Normalidade e homogeneidade de variâncias analisando os resíduos do modelo ajustado.

Exemplo 14.2 Continuando com o Exemplo 14.1, vamos avaliar os resíduos, que representam a parte da variabilidade da taxa de infiltração que não foi explicada pelo tipo de manejo da cobertura do solo. Os resíduos podem ser visualizados pelo seguinte comando:

aov_cobertura |> residuals()

      1       2       3       4       5       6       7       8       9      10 
 1,4000  2,2075  0,5275 -1,5100 -0,9125 -3,0225 -0,1200  1,1375 -2,7025  0,2900 
     11      12      13      14      15      16      17      18      19      20 
 2,6075  2,9375 -0,0500 -2,9025  0,4975 -0,8200 -1,2425 -1,7125  1,6100 -1,0225 
     21      22      23      24 
 0,6975 -0,8000  0,1275  2,7775

Verificação da Normalidade dos Resíduos

Gráfico Q-Q

Histograma, índices e teste de Shapiro-Wilk

Interpretação (Normalidade)

Análise gráfica para Normalidade: Avaliando o gráfico Q-Q Normal, observamos que os pontos azuis (representando os resíduos) seguem muito de perto a linha de referência vermelha tracejada ao longo de toda a sua extensão. Não há desvios sistemáticos ou acentuados, nem no centro nem nas caudas da distribuição. O histograma dos resíduos mostra uma distribuição que parece razoavelmente simétrica. A forma geral, incluindo a curva de densidade sobreposta, aproxima-se visualmente de uma forma de sino, característica da distribuição normal.

Índices Descritivos para Normalidade: A assimetria de -0,0067 é extremamente próxima de 0, indicando um alto grau de simetria na distribuição dos resíduos, o que é totalmente consistente com a expectativa para uma distribuição normal e com a aparência do histograma. A curtose de 2,18 difere do valor esperado de 3 para a distribuição Normal, sugerindo uma distribuição ligeiramente platicúrtica (mais achatada que a normal).

Testes Formais para Normalidade: O teste de Shapiro-Wilk resultou em 0,616. Como o p-valor é maior que o nível de significância comum de 0,05, nós não rejeitamos H₀, ou seja, não há evidências estatística para duvidar da normalidade dos resíduos.

Conclusão: Com base nesta análise abrangente, podemos concluir com segurança que o pressuposto de normalidade dos resíduos é satisfatório para este modelo. Não há motivos para preocupação quanto à violação desta condição da ANOVA.

Verificação da Homogeneidade das Variâncias (Homoscedasticidade)

Gráfico resíduos vs. ajustados

Boxplot dos resíduos por grupo

Razão maior/menor desvio-padrão

# A tibble: 3 × 3
  manejo desvpad razao
  <chr>    <dbl> <dbl>
1 GN        1.09  2.11
2 LC        1.88  1.22
3 SD        2.29  1

Teste de Levene

Warning in leveneTest.default(y = y, group = group, ...): group coerced to
factor.

Levene's Test for Homogeneity of Variance (center = median)
      Df F value Pr(>F)
group  2  1,5441 0,2368
      21

     6     12     14     24      9     11 
3,0225 2,9375 2,9025 2,7775 2,7025 2,6075

Interpretação (Homogeneidade):

Análise Gráfica dos Resíduos: No gráfico dos resíduos vs. ajustados, Procuramos uma nuvem de pontos distribuída aleatoriamente em torno da linha horizontal (y=0), com dispersão vertical constante. Não há um padrão óbvio de funil ou cone, e a dispersão vertical dos resíduos parece relativamente constante ao longo da faixa de valores ajustados. Já no boxplots dos resíduos por grupo, observamos que as “caixas” (representando o intervalo interquartil) parecem ter alturas (dispersões) relativamente similares, apenas a caixa para SD parece ser um pouco mais alta, sugerindo uma variabilidade ligeiramente maior nos resíduos. A análise visual sugere que as variâncias podem não ser perfeitamente iguais, mas não parece haver uma violação extrema da homogeneidade. O gráfico de resíduos vs. ajustados, em particular, não mostra um padrão problemático claro.

Regra Prática dos Desvios-Padrão Amostrais: A razão entre o maior e o menor desvio-padrão é de 2,12, ligeiramente acima do limiar mais estrito (< 2), mas bem abaixo do limiar mais liberal (< 3). Considerando que o delineamento é balanceado (n=8 para todos os grupos ), essa razão não é, por si só, alarmante e sugere que a potencial diferença nas variâncias pode não comprometer severamente a robustez da ANOVA

Testes Formais para Homoscedasticidade: O teste de Levene apresentou um p-valor de 0,237. Como o p-valor é maior que o nível de significância usual (0,05), nós não rejeitamos a hipótese nula de que as variâncias são iguais entre os grupos. O teste de Levene não encontrou evidência estatística significativa de heteroscedasticidade.

Conclusão: com base na análise conjunta e considerando a robustez da ANOVA neste caso, podemos concluir que o pressuposto de homogeneidade de variâncias é considerado razoavelmente satisfeito para este modelo. Não parece haver uma violação suficientemente grave que invalide as conclusões do teste F da ANOVA.

Todas as análises apresentadas aqui podem ser executadas usando o script anova_oneway.Rmd