Paradoxo de Simpson
Paradoxo de Simpson e a amostragem – Será que a forma em que coletamos os dados de um processo, pode influenciar nossas conclusões?
Uma das questões que consideramos mais importantes quando se trabalha em melhoria de processos é a Estratégia de Amostragem (ver ilustração do método científico na Figura 1). Nos nossos cursos mostramos como escolher um plano de amostragem adequado conforme a situação. Se o plano foi bem selecionado, a análise dos dados será usualmente simples e a tomada de decisões não terá riscos grandes de erros.
Neste pequeno resumo mostramos que quando utilizamos dados históricos agregados a partir de distintos estratos de forma desbalanceada, as conclusões extraídas podem ser errôneas, devido entre outros motivos, ao paradoxo de Simpson.
Figura 1 – Plano de amostragem no método científico
Ilustremos o problema com dados tipo atributo relacionados com a porcentagem de refugo de dois produtos. Suponha que em dois meses foram produzidas 11.000 unidades do produto A e 55.000 unidades do produto B. O Controle de Qualidade (CQ) inspecionou 10% da produção, ou seja, 1100 unidades de A e 5500 unidades de B. Destes totais, o CQ encontra as seguintes quantidades de produtos defeituosos:
Produto | Inspecionados | Refugo | % Refugo |
A | 1100 | 110 | 10,0% |
B | 5500 | 1003 | 18,2% |
O pessoal do Controle de Qualidade conclui que a porcentagem de refugo é maior para o produto B do que para o A! Está certa esta conclusão? Talvez sim, talvez não! Inspecionemos os números com mais detalhes. Consideremos por exemplo o que aconteceu nos meses 1 e 2 com o refugo:
Mês | Produto | Inspecionados | Refugo | % Refugo |
1 | A | 1000 | 80 | 8,0% |
1 | B | 500 | 3 | 0,6% |
2 | A | 100 | 30 | 30,0% |
2 | B | 5000 | 1000 | 20,0% |
Conclusões e sugestões:
O paradoxo de Simpson é gerado pela combinação de amostras de tamanhos distintos provenientes de vários estratos. Isto pode conduzir a conclusões erradas. Para não cometer este tipo de erros há vários caminhos:
- A forma mais simples, e óbvia, é somente combinar conjuntos de dados contendo o mesmo número de observações para cada estrato (dados balanceados). Às vezes isto não é possível quando se trabalha com dados históricos.
- Ao estudar dados que podem estar influenciados por diferentes fatores (departamentos, turnos, máquinas, produtos, operadores, etc.), controle de forma adequada estes fatores quando faça análise dos dados.
Carlos Domenech