10 Amostragem
Um aspecto fundamental no planejamento científico é a seleção da amostra: o grupo específico retirado da população que será efetivamente medido e analisado. A forma como essa amostra é selecionada impacta diretamente a validade e a capacidade de generalização dos resultados. Infelizmente, abordagens mais fáceis nem sempre são as melhores. Nesta seção, começaremos por examinar alguns planejamentos amostrais ruins, como as amostras de conveniência e de resposta voluntária, que frequentemente introduzem vieses e levam a conclusões equivocadas. Em seguida, abordaremos as técnicas de amostragem aleatória, que são fundamentais para garantir a representatividade.
10.1 Planejamentos amostrais ruins
Ao planejar a coleta de dados, a tentação de seguir pelo caminho mais fácil ou rápido pode ser grande, mas frequentemente leva a métodos de amostragem inadequados que comprometem seriamente os resultados de uma pesquisa. Esses métodos introduzem vieses, ou seja, erros sistemáticos que fazem com que a amostra não represente adequadamente a população de interesse. Dois dos planejamentos amostrais ruins mais comuns são a amostragem por conveniência e a amostragem por resposta voluntária.
10.1.1 Amostra de Conveniência
Este é talvez o método mais simples, pois consiste em selecionar os indivíduos ou unidades da população que estão mais acessíveis ou fáceis de alcançar para o pesquisador. Exemplos incluem coletar dados apenas na parte da frente de uma lavoura, analisar amostras de água somente perto de uma ponte de fácil acesso, ou entrevistar os primeiros agricultores que aparecem em um dia de campo.
Exemplo 10.1 Suponha que um agrônomo deseje estimar a incidência (percentual de plantas afetadas) de uma determinada doença fúngica nas folhas de uma grande lavoura de soja, com centenas de hectares. Para economizar tempo e esforço, ele decide coletar sua amostra inspecionando apenas as plantas de soja localizadas nos primeiros 10 metros a partir da estrada principal que corta a fazenda. Ele caminha ao longo dessa faixa e avalia 100 plantas que estão “à mão”.
Por que este é um planejamento ruim?
Efeito de Borda: As condições na borda da lavoura podem ser muito diferentes das do interior. Pode haver mais poeira da estrada, diferentes níveis de umidade, maior exposição ao vento, ou até mesmo uma aplicação diferente de defensivos agrícolas (por exemplo, o trator pode manobrar de forma diferente nas bordas). Esses fatores podem influenciar a incidência da doença fúngica, fazendo com que as plantas da borda não sejam representativas do restante da lavoura.
Falta de Representatividade: A doença pode ter uma distribuição irregular pela lavoura, talvez começando em uma reboleira (mancha) no interior ou sendo mais severa em áreas com má drenagem, que não estão perto da estrada. Ao amostrar apenas a área de fácil acesso, o agrônomo corre um risco altíssimo de subestimar ou superestimar a real incidência da doença na lavoura como um todo.
Viés Sistemático: Se o agrônomo repetir esse mesmo procedimento em outras lavouras ou em outros anos, ele provavelmente continuará obtendo uma estimativa viesada da incidência da doença, pois o erro não é aleatório (fruto do acaso), mas sim uma consequência direta do método de amostragem escolhido.
A conveniência raramente produz uma amostra representativa. Os locais ou indivíduos mais fáceis de acessar podem ter características particulares que diferem do restante da população. A amostra coletada dessa forma tende a gerar uma estimativa viesada (super ou subestimada) da real situação. Esse erro não é fruto do acaso, mas sim uma falha do planejamento amostral.
10.1.2 Amostra de Resposta Voluntária
Neste caso, a amostra é formada por indivíduos que escolhem participar do estudo por iniciativa própria, em resposta a um convite geral. Exemplos típicos são enquetes online abertas ao público, pesquisas enviadas por email para grandes listas onde a pessoa decide se responde ou não, ou formulários distribuídos em eventos para preenchimento voluntário.
O principal viés aqui é a auto-seleção. Pessoas que se voluntariam para participar de uma pesquisa geralmente são aquelas com opiniões mais fortes (positivas ou negativas) sobre o assunto, ou com um interesse particular no tema, ou simplesmente com mais tempo disponível. Dificilmente esse grupo será representativo de toda a população-alvo (por exemplo, todos os produtores rurais de uma região, todos os visitantes de um parque, etc.). As conclusões baseadas em amostras de resposta voluntária refletem as opiniões desse grupo específico que se dispôs a responder, e não necessariamente da população mais ampla.
Exemplo 10.2 Imagine que uma secretaria de agricultura ou uma cooperativa deseje entender qual a porcentagem de produtores rurais em uma determinada região já adotou técnicas de plantio direto na palha, uma prática conservacionista importante. Para coletar os dados rapidamente, eles decidem enviar um email para toda a sua lista de contatos de agricultores cadastrados, contendo um link para uma pesquisa online curta sobre o tema. Eles também divulgam o link em suas redes sociais e pedem que os agricultores respondam voluntariamente.
Por que este é um planejamento ruim?
Auto-seleção: A participação depende inteiramente da iniciativa de cada agricultor. Aqueles que escolherão clicar no link e responder à pesquisa provavelmente não são representativos de todos os agricultores da região.
Viés Tecnológico: Agricultores que utilizam email regularmente e são ativos em redes sociais podem ter perfis diferentes (talvez mais tecnificados, maior escolaridade, propriedades maiores) daqueles que não usam essas ferramentas.
Viés de Interesse/Opinião: Agricultores que já adotam o plantio direto e estão satisfeitos podem sentir-se mais motivados a responder para “mostrar serviço”. Por outro lado, aqueles que tiveram experiências muito negativas ou são fortemente contra a técnica por algum motivo também podem querer expressar sua opinião. Agricultores com opiniões neutras, ou que simplesmente não priorizam responder pesquisas, tendem a ficar de fora.
Viés de Cadastro: A lista de emails da secretaria ou cooperativa pode não incluir todos os agricultores da região, talvez excluindo os menores, os não associados, ou os de áreas mais remotas.
Não Representatividade: A amostra resultante será composta por um grupo auto-selecionado de agricultores (aqueles digitalmente conectados, com tempo/interesse e possivelmente com opiniões mais definidas sobre o plantio direto). A porcentagem de adoção calculada a partir dessa amostra voluntária provavelmente não refletirá a verdadeira taxa de adoção entre todos os produtores da região, podendo estar superestimada ou subestimada.
Apesar de suas sérias limitações e do alto risco de gerar conclusões distorcidas, as amostras de conveniência e de resposta voluntária ainda são utilizadas, muitas vezes pela facilidade e baixo custo. É fundamental, no entanto, reconhecer seus problemas intrínsecos e evitá-las sempre que o objetivo for obter uma compreensão acurada e generalizável sobre uma população em ecossistemas agrícolas ou naturais. Para isso, métodos de amostragem aleatória, que discutiremos a seguir, são essenciais.
10.2 Amostragem aleatória
Para obter amostras que realmente reflitam as características da população de interesse, recorremos à amostragem aleatória. A ideia central é usar o acaso, de forma impessoal e objetiva, para selecionar os indivíduos ou unidades que farão parte da amostra.
Isso evita tanto o favoritismo do pesquisador na escolha dos elementos quanto a auto-seleção por parte dos participantes. Ao garantir que cada elemento da população tenha uma chance conhecida (frequentemente, igual) de ser selecionado, a amostragem aleatória é a principal ferramenta para obter amostras representativas e minimizar o viés de seleção. Existem diferentes formas de implementar a aleatoriedade na seleção da amostra.
10.2.1 Amostra aleatória simples - AAS
Este é o método fundamental de amostragem probabilística. Numa AAS, cada indivíduo da população tem a mesma chance de ser escolhido, e mais importante, cada combinação possível de n indivíduos tem a mesma chance de formar a amostra.
Para se obter uma AAS, cada indivíduo da população deve receber um nome ou um número de identificação, e devem ser sorteados aleatoriamente. Na prática, o sorteio pode ser feito usando tabelas de números aleatórios ou algoritmos computacionais.
Por exemplo, para estimar a produtividade média de milho em um talhão experimental com 200 parcelas idênticas, poderíamos numerar cada parcela de 1 a 200 e usar um programa de computador para sortear aleatoriamente, digamos, 15 números nesse intervalo. As 15 parcelas sorteadas constituiriam a AAS.
10.2.2 Amostra Aleatória Estratificada
Frequentemente, a população que queremos estudar não é homogênea. Ela pode ser dividida em subgrupos ou estratos que são mais homogêneos internamente com relação à variável de interesse. Por exemplo, um estudo sobre plantas em uma montanha pode ter estratos baseados em faixas de altitude (baixa, média, alta), pois a vegetação varia com a altitude. A amostragem estratificada utiliza essa informação.
Para se obter uma Amostra Aleatória Estratificada, a população é dividida em estratos mutuamente exclusivos (cada indivíduo pertence a apenas um estrato). Uma Amostra Aleatória Simples (AAS) é retirada de dentro de cada estrato e as amostras de cada estrato são combinadas para formar a amostra final.
A vantagem desse método está na garantia de que todos os estratos importantes estejam representados na amostra, o que pode não acontecer com uma AAS simples (por puro acaso, poderíamos sortear poucos ou nenhum indivíduo de um estrato pequeno). Permite também calcular estimativas separadas para cada estrato. A amostragem dentro dos estratos pode ser proporcional ao tamanho do estrato na população.
Por exemplo, para estudar a densidade de uma espécie de árvore em uma reserva florestal que possui áreas com diferentes tipos de solo (argiloso, arenoso, orgânico), poderíamos tratar cada tipo de solo como um estrato. Mapeia-se a reserva, identifica-se as áreas de cada tipo de solo e sorteiam-se aleatoriamente pontos de amostragem (parcelas) dentro de cada tipo de solo.
10.2.3 Amostra Aleatória de Múltiplos Estágios
Quando a população é muito grande e geograficamente dispersa (por exemplo, todos os rebanhos leiteiros de Santa Catarina, ou todas as árvores de um grande parque nacional), obter uma lista completa para uma AAS ou mesmo para estratificação pode ser impossível ou muito caro. A amostragem de múltiplos estágios é uma alternativa prática.
Neste caso, a amostragem é feita em etapas (estágios). Em cada etapa, seleciona-se aleatoriamente unidades maiores, e na etapa seguinte, selecionam-se aleatoriamente subunidades apenas dentro das unidades selecionadas na etapa anterior.
Por exemplo,
Para fazer um levantamento sobre a ocorrência de uma praga em lavouras de soja no estado de Santa Catarina, podemos proceder da seguinte maneira:
- Estágio 1: Sortear aleatoriamente alguns municípios produtores de soja no estado (Unidades Primárias de Amostragem).
- Estágio 2: Dentro de cada município sorteado, sortear aleatoriamente algumas propriedades rurais que cultivam soja (Unidades Secundárias de Amostragem).
- Estágio 3: Dentro de cada propriedade sorteada, sortear aleatoriamente alguns talhões de soja (Unidades Terciárias de Amostragem).
- Estágio 4: Dentro de cada talhão sorteado, sortear aleatoriamente alguns pontos ou plantas para verificar a presença da praga.
Essa metodologia reduz drasticamente os custos e a logística, pois concentra o trabalho de campo em conglomerados (municípios e propriedades sorteados). A desvantagem é que a análise estatística pode ser mais complexa e a precisão pode ser um pouco menor que uma AAS de mesmo tamanho total.
A escolha do método de amostragem aleatória mais adequado dependerá do objetivo do estudo, das características da população, da disponibilidade de um sistema de referência (lista) e dos recursos disponíveis. O importante é que a seleção seja baseada no acaso para permitir inferências estatísticas válidas sobre a população.