Muitos dos dados que coletamos não são expressos por números contínuos, mas sim por qualidades ou classificações. Pense em variáveis como o tipo de solo em uma parcela experimental, a espécie de uma planta em um levantamento de campo, o status de uma lavoura (sadia, infectada por fungo, atacada por praga) ou a presença ou ausência de uma espécie invasora. Essas são variáveis categóricas, e elas formam a espinha dorsal de inúmeras investigações ecológicas e agronômicas.
As variáveis categóricas se apresentam de duas formas principais:
Categóricas por natureza: São aquelas cujos valores são intrinsecamente rótulos ou grupos. Exemplos incluem o sexo de um animal, a cor de uma flor ou o método de polinização (eólica, por insetos, etc.). Elas podem ser nominais, quando não há uma ordem inerente (ex: tipo de habitat), ou ordinais, quando as categorias seguem uma progressão lógica (ex: estágio de desenvolvimento de uma praga - ovo, larva, pupa, adulto).
Criadas a partir de dados quantitativos: Frequentemente, é útil ou necessário converter uma variável numérica em categorias. Um ecólogo pode transformar medições de temperatura em classes como “abaixo de 0°C”, “0-20°C” e “acima de 20°C”, ou um agrônomo pode agrupar a produtividade (kg/ha) em “baixa”, “média” e “alta”. Essa discretização pode simplificar modelos e revelar padrões que não são facilmente observados nos dados brutos.
Para investigar como essas variáveis se relacionam, nosso ponto de partida é a contagem. Quantos indivíduos, parcelas ou amostras se enquadram em cada combinação de categorias? Organizamos essas contagens em uma ferramenta visual e analítica fundamental: a Tabela de Dupla Entrada, também conhecida como Tabela de Contingência. Esta tabela funciona como um mapa, exibindo a distribuição conjunta das frequências e permitindo uma primeira avaliação da associação entre as variáveis.
Neste capítulo, iremos além da simples descrição de contagens e percentuais. Mergulharemos nos métodos estatísticos que nos permitem fazer inferências rigorosas sobre essas relações. Utilizaremos o teste qui-quadrado para avaliar a força dessas associações e, crucialmente, exploraremos como a presença de variáveis ocultas pode distorcer nossas conclusões, levando a inversões de resultados conhecidas como o Paradoxo de Simpson. Dominar a análise de dados categóricos é, portanto, essencial para interpretar corretamente os complexos padrões do mundo natural.
Exemplo 20.1 (Tabela de dupla entrada - teste qui-quadrado) É um fenômeno conhecido na jardinagem que a cor das flores de hortênsias (Hydrangea macrophylla) pode variar dependendo da acidez do solo. Um pesquisador decide quantificar essa observação em uma população de plantas. Ele coleta dados de arbustos de hortênsia, classificando o solo como ácido, neutro ou alcalino e a cor predominante das flores como azul/violeta ou rosa/vermelha.
As duas variáveis, acidez do solo e cor da flor, são categóricas. O objetivo é testar estatisticamente se a frequência das cores observadas está associada ao nível de acidez do solo, utilizando as contagens de plantas.
Variável explanatória (linha): Nível de Acidez do Solo
Variável resposta (coluna): Cor da Flor
O primeiro passo é criar a tabela de contingência com as funções tibble::tribble e tidyr::pivot_wider :
# Digitar os valoreshortensia <- tibble::tribble(~solo, ~cor, ~frequencia,"ácido", "azul_violeta", 68,"ácido", "rosa_vermelha", 10,"neutro", "azul_violeta", 37,"neutro", "rosa_vermelha", 40,"alcalino", "azul_violeta", 8,"alcalino", "rosa_vermelha", 60)# Tabela de Contingência: Contagem de Hortênsias por Acidez do Solo e Cor da Flortabela_contingencia <- hortensia %>% tidyr::pivot_wider(names_from = cor, values_from = frequencia) %>% tibble::column_to_rownames(var ="solo")tabela_contingencia
Em seguida, executamos o teste qui-quadrado para a tabela de contingência. A hipótese nula (H0) para o teste qui-quadrado é que não há associação entre a acidez do solo e a cor da flor. Ou seja, a proporção de flores azuis e rosas seria a mesma, independentemente do pH do solo.
# Teste qui-quadradochisq.test(tabela_contingencia)
O p-valor resultante (<0,001) é extremamene baixo, indicando que é praticamente impossível observar uma associação tão forte por mero acaso. Com isso, rejeitamos a hipótese nula.
Há uma evidência estatística muito forte de que a cor das flores de hortênsia está associada à acidez do solo.
Podemos inspecionar os valores esperados para cada categoria, os resíduos e a contribuição de cada célula para o valor do qui-quadrado.
# Valores esperados (se H0 for verdadeira)teste_qui2$expected
Na análise de dados, uma das lições mais importantes é que as conclusões iniciais podem ser enganosas. As relações entre variáveis, especialmente em sistemas complexos como os agrícolas e naturais, nem sempre são o que parecem ser. Existe um fenômeno estatístico particularmente contraintuitivo que serve como um forte alerta para o analista de dados desavisado: o Paradoxo de Simpson.
O paradoxo ocorre quando uma associação ou comparação que é válida para diferentes grupos de dados se inverte quando esses grupos são combinados em um único conjunto. Essa inversão é causada pelos efeitos de uma variável oculta (também chamada de variável de confusão), que, ao não ser considerada na análise inicial, pode mascarar ou até mesmo reverter a verdadeira relação entre as duas variáveis de interesse.
Exemplo 20.2 (O programa de papacitação que piorou os agricultores) Uma agência de desenvolvimento rural criou um programa de capacitação voluntário para ensinar uma nova técnica de manejo de solo sustentável. O objetivo é aumentar a adoção dessa prática entre os agricultores de uma região. Após um ano, uma avaliação foi conduzida para medir o sucesso do programa, comparando os agricultores que participaram do curso com os que não participaram.
Os resultados agregados foram surpreendentes e preocupantes.
À primeira vista, os dados sugerem que o programa de capacitação foi um fracasso. A taxa de adoção entre os agricultores que participaram do curso (30%) foi muito inferior à daqueles que não participaram (50%). A conclusão imediata seria que o programa é ineficaz ou até mesmo prejudicial, e deveria ser cancelado.
A Variável Oculta: O Nível de Experiência
Ao analisar o perfil dos participantes, observou-se que o nível de experiência dos agricultores influenciou na taxa de adoção:
Os agricultores iniciantes, sentindo-se menos seguros, são os que mais se inscreveram no curso para aprender.
Os agricultores experientes, muitos dos quais já utilizavam práticas sustentáveis semelhantes, não sentiram necessidade de participar.
Esta autoseleção dos participantes é um fator de confusão clássico. Para avaliar o real impacto do curso, é preciso analisar os grupos separadamente.
Entre os agricultores iniciantes, o curso também teve um impacto positivo claro, dobrando a taxa de adoção de 10% para 20%.
Conclusão do Paradoxo
O Paradoxo de Simpson se revela: o programa de capacitação foi benéfico para ambos os grupos, experientes e iniciantes. A aparente ineficácia na análise agregada foi uma ilusão estatística criada pelo fato de que o grupo de participantes era majoritariamente composto por iniciantes, que já partiam de uma base de adoção muito mais baixa.
Se a decisão de cancelar o programa fosse tomada com base na primeira tabela, uma iniciativa valiosa, que de fato ajuda os agricultores (especialmente os novatos), seria perdida. Este exemplo mostra a importância de entender “quem” compõe os grupos de dados em estudos de intervenção social e educacional em contextos rurais.