14Análise de Variância para 1 fator (One-Way ANOVA)
Após entendermos a lógica fundamental da ANOVA na seção anterior, vamos agora focar em sua aplicação mais direta e frequente: a Análise de Variância para um fator, também conhecida como One-Way ANOVA.
Este tipo de ANOVA é a ferramenta estatística que utilizamos quando queremos comparar as médias de uma variável resposta quantitativa entre os níveis (ou grupos) definidos por um único fator categórico. Pense neste fator como a principal variável independente que você está investigando.
Em experimentos: O fator geralmente representa os diferentes tratamentos aplicados, como tipos de fertilizantes, variedades de culturas, métodos de controle de pragas, dietas para animais, etc.
Em estudos observacionais: O fator pode representar grupos naturais ou categorias existentes, como diferentes tipos de solo, habitats, classes de manejo de terra, zonas de uma paisagem, etc.
Em ambos os casos, a pergunta central da One-Way ANOVA é:
“A média da variável resposta difere significativamente entre os diferentes níveis deste fator?”
Exemplo 14.1 (ANOVA para um fator - Impacto da Cobertura Vegetal na Infiltração de Água) Considere o experimento descrito na sec-infiltra, cujos dados estão no arquivo cobertura.csv.
A questão científica central é: O tipo de cobertura do solo (ou a sua ausência) influencia a taxa média de infiltração de água nesse solo?
Para responder a isso com a ANOVA, testamos a hipótese nula de que não há diferença na taxa média de infiltração entre os três tipos de manejo:
\(H_0: \mu_{GN} = \mu_{LC} = \mu_{SD}\)
Contra a hipótese alternativa de que pelo menos uma das médias populacionais da taxa de infiltração é diferente das outras:
\(H_1:\) Nem todas as médias \(\mu_{GN}, \mu_{LC}, \mu_{SD}\) são iguais.
Análise Exploratória Inicial:
Começamos explorando os dados para ter uma ideia das distribuições e das médias de cada grupo.
cobertura <- readr::read_csv("cobertura.csv") # importar os dados
# A tibble: 3 × 5
manejo n media desvpad var
<chr> <int> <dbl> <dbl> <dbl>
1 GN 8 14.9 1.44 2.08
2 LC 8 18.1 2.51 6.31
3 SD 8 2.72 3.06 9.34
Boxplot comparativo entre os grupos
cobertura |>ggplot(aes(x = manejo, y = infiltracao)) +geom_boxplot() +labs(x ="Tipo de Cobertura do Solo",y ="Taxa de Infiltração (mm/hora)" ) +theme_classic()
A análise exploratória inicial (tabela e boxplot) sugere fortemente que a taxa de infiltração é bem menor no solo descoberto (SD) em comparação com as áreas com cobertura vegetal (GN e LC). A cobertura com leguminosa consorciada (LC) parece apresentar a maior taxa média de infiltração. A ANOVA verificará se essas diferenças observadas nas amostras são estatisticamente significativas.
Executando a Análise de Variância (ANOVA):
Procedemos com o teste F da ANOVA:
aov_cobertura <-lm(infiltracao ~ manejo, data = cobertura)anova(aov_cobertura)
Df
Sum Sq
Mean Sq
F value
Pr(>F)
manejo
2
1.051,3885
525,6943
88,9206
5,61e-11
Residuals
21
124,1510
5,9120
-
-
Conclusão da ANOVA:
O p-valor (Pr(>F)) obtido na tabela da ANOVA é p<0,001. Este valor é extremamente pequeno, muito inferior ao nível de significância comumente adotado de 0,05.
Com base nisso, rejeitamos a hipótese nula (H0).
A conclusão é que existem evidências estatísticas muito fortes para afirmar que o tipo de manejo da cobertura do solo tem um efeito significativo sobre a taxa média de infiltração de água nas condições estudadas. Em outras palavras, as taxas médias de infiltração para Solo Descoberto, Gramínea Nativa e Leguminosa Consorciada não são todas iguais.
14.1 Condições para a ANOVA de 1 fator
Como discutido na introdução (sec-condicoes-anova), a validade das conclusões da ANOVA depende da satisfação de três pressupostos principais: independência das observações, Normalidade dos resíduos e homogeneidade das variâncias entre os grupos. A independência é majoritariamente garantida pelo delineamento experimental. Agora, vamos verificar os pressupostos de Normalidade e homogeneidade de variâncias analisando os resíduos do modelo ajustado.
Exemplo 14.2 Continuando com o Exemplo exm-anova1, vamos avaliar os resíduos, que representam a parte da variabilidade da taxa de infiltração que não foi explicada pelo tipo de manejo da cobertura do solo. Os resíduos podem ser visualizados pelo seguinte comando:
Análise gráfica para Normalidade: Avaliando o gráfico Q-Q Normal, observamos que os pontos azuis (representando os resíduos) seguem muito de perto a linha de referência vermelha tracejada ao longo de toda a sua extensão. Não há desvios sistemáticos ou acentuados, nem no centro nem nas caudas da distribuição. O histograma dos resíduos mostra uma distribuição que parece razoavelmente simétrica. A forma geral, incluindo a curva de densidade sobreposta, aproxima-se visualmente de uma forma de sino, característica da distribuição normal.
Índices Descritivos para Normalidade: A assimetria de -0,0087 é extremamente próxima de 0, indicando um alto grau de simetria na distribuição dos resíduos, o que é totalmente consistente com a expectativa para uma distribuição normal e com a aparência do histograma. A curtose de 2,18 difere do valor esperado de 3 para a distribuição Normal, sugerindo uma distribuição ligeiramente platicúrtica (mais achatada que a normal).
Testes Formais para Normalidade: O teste de Shapiro-Wilk resultou em 0,615. Como o p-valor é maior que o nível de significância comum de 0,05, nós não rejeitamos H0, ou seja, não há evidências estatística para duvidar da normalidade dos resíduos.
Conclusão: Com base nesta análise abrangente, podemos concluir com segurança que o pressuposto de normalidade dos resíduos é satisfatório para este modelo. Não há motivos para preocupação quanto à violação desta condição da ANOVA.
Verificação da Homogeneidade das Variâncias (Homoscedasticidade)
Análise Gráfica dos Resíduos: No gráfico dos resíduos vs. ajustados, Procuramos uma nuvem de pontos distribuída aleatoriamente em torno da linha horizontal (y=0), com dispersão vertical constante. Não há um padrão óbvio de funil ou cone, e a dispersão vertical dos resíduos parece relativamente constante ao longo da faixa de valores ajustados. Já no boxplots dos resíduos por grupo, observamos que as “caixas” (representando o intervalo interquartil) parecem ter alturas (dispersões) relativamente similares, apenas a caixa para SD parece ser um pouco mais alta, sugerindo uma variabilidade ligeiramente maior nos resíduos. A análise visual sugere que as variâncias podem não ser perfeitamente iguais, mas não parece haver uma violação extrema da homogeneidade. O gráfico de resíduos vs. ajustados, em particular, não mostra um padrão problemático claro.
Regra Prática dos Desvios-Padrão Amostrais: A razão entre o maior e o menor desvio-padrão é de 2,12, ligeiramente acima do limiar mais estrito (< 2), mas bem abaixo do limiar mais liberal (< 3). Considerando que o delineamento é balanceado (n=8 para todos os grupos ), essa razão não é, por si só, alarmante e sugere que a potencial diferença nas variâncias pode não comprometer severamente a robustez da ANOVA
Testes Formais para Homoscedasticidade: O teste de Levene apresentou um p-valor de 0,234. Como o p-valor é maior que o nível de significância usual (0,05), nós não rejeitamos a hipótese nula de que as variâncias são iguais entre os grupos. O teste de Levene não encontrou evidência estatística significativa de heteroscedasticidade.
Conclusão: com base na análise conjunta e considerando a robustez da ANOVA neste caso, podemos concluir que o pressuposto de homogeneidade de variâncias é considerado razoavelmente satisfeito para este modelo. Não parece haver uma violação suficientemente grave que invalide as conclusões do teste F da ANOVA.
Todas as análises apresentadas aqui podem ser executadas usando o script oneway_anova.Rmd