Ciência dos Dados e Navalha de Ockham
A Navalha de Ockham afirma que a explicação mais simples é preferível à explicação mais complexa. Isso porque teorias simples são mais fáceis de verificar e processos descomplicados são mais fáceis de executar. A metodologia Lean é um caso excelente da navalha de Ockham; procura sempre um caminho mais simples de executar um processo pela eliminação de desperdícios. Já comentamos em outro artigo (“Musk, o índice de idiotice, estilo Startup e Lean” https://www.linkedin.com/pulse/musk-o-%C3%ADndice-de-idiotice-estilo-startup-e-lean-midomenech-kfwkf/) como se pode usar o pensamento dos princípios básicos para obter processos muito enxutos. Um livro interessante sobre o assunto é “Elegant Solutions, May (2007)”.
Mostramos neste artigo a importância desse conceito ao lidar com análise de dados no Six Sigma. A navalha de Ockham está relacionada com a lei da parcimônia, que procura usar o menor número possível de fatores para explicar um fenômeno.
Para mostrar a utilização do princípio da Navalha de Ockham, utilizamos um conjunto de dados de um artigo publicado por Jim Frost (Guide to Stepwise Regression and Best Subsets Regression, https://statisticsbyjim.com/regression/guide-stepwise-best-subsets-regression/#google_vignette). O conjunto de dados utilizado pelo autor está em https://statisticsbyjim.com/wp-content/uploads/2017/05/ProductStrength.csv. O exemplo está relacionado com a construção de um modelo de um processo de fabricação. Deseja-se avaliar como diversas variáveis de processo (Temperatura, Pressão, Taxa, Concentração e Tempo) estão relacionadas à resistência de um produto.
Antecipando a conclusão:
- Jim Frost utiliza o método stepwise (passo a passo) e chega em um modelo com quatro variáveis significantes (Temperatura, Pressão, Taxa e Concentração) e com R2 ajustado = 87%.
- Mostramos neste artigo como a exploração adequada dos dados permite chegar a um modelo mais parcimonioso com somente uma variável de processo (Tempo) e com R2 ajustado = 93%.
Roteiro para Análise dos Dados
Um roteiro interessante de análise é representado na Figura 1.
Modelagem sem Exploração de dados
Consideremos que os passos 1) e 2) já foram realizados. Frost pula a etapa 3) e vai direto para a construção de um modelo de regressão usando a metodologia Stepwise. Essa análise no Minitab essa análise pode ser feita em Estat\ Regressão\Ajuste de Modelo de Regressão, ativando o método Stepwise no botão “Stepwise”. O modelo resultante manteve as variáveis Temperatura, Pressão, Taxa e Concentração e eliminou a variável Tempo do modelo; o valor de R2 ajustado é 87%, indicando um modelo bastante adequado, como se pode ver no gráfico de valores ajustados versus Resistência (Figura 2). O gráfico de resíduos não mostrou nada anormal no ajuste.
Modelagem com Exploração de dados
Mudamos agora a análise incluindo a etapa 3 de Exploração de dados. Como neste caso estamos preocupados com a correlação entre variáveis, um gráfico adequado pode ser o gráfico de dispersão. Utilizamos no Minitab o gráfico Matriz de Dispersão em Gráfico\Matriz de Dispersão\Simples. Adicionamos todas as variáveis incluindo a resposta Resistência. Obtemos o gráfico da Figura 3. Pelo gráfico fica muito evidente que Resistência está fortemente correlacionada com Tempo, de forma quadrática.
Agora sim podemos passar para a etapa 4) de Modelagem dos dados. Utilizamos o mesmo procedimento anterior Estat\Regressão\Regressão\Ajuste de Modelo de Regressão, preenchendo o menu como na Figura 4. No botão Stepwise desativamos o Método Stepwise (Método = Nenhum).
O modelo resultante tem somente a variável Tempo (e Tempo^2) como significativas. O gráfico da Figura 5 mostra a importância e efeito de todas as variáveis (significantes e não significantes). Claramente, quando o Tempo permanece no modelo, a importância das outras variáveis sobre a Resistência fica desprezível.
Deixando somente a variável Tempo e Tempo^2 no modelo e refazendo a análise se chega a um modelo muito mais parcimonioso (a navalha de Ockham em ação!) e um R^2 ajustado = 93%, melhor que o modelo anterior que tinha 4 variáveis independentes e um R^2 ajustado = 87%.
Recomenda-se diminuir os valores de VIF através da codificação das variáveis (veja figura abaixo), mas esse é um assunto de outro artigo!
Conclusão
A análise adequada dos dados, utilizando primeiramente métodos gráficos de exploração permite – muitas vezes – chegar a modelos mais parcimoniosos com menor número de fatores e de interpretação mais simples. Nem sempre a saída vai ser o uso de gráficos. Há situações em que a transformação adequada da variável resposta ou de alguma variável independente, permite eliminar interações complexas ou comportamentos não lineares (ver https://www.midomenech.com.br/transformacao-de-dados-na-regressao-linear/).
Referência
- Matthew May (2007). The Elegant Solution: Toyota’s Formula for Mastering Innovation. Em português: Toyota, a Fórmula da Inovação.
Leia Mais!
Mudança Cultural e Melhoria Contínua
Uma afirmação comum sobre mudança cultural é que leva tempo. As vezes se menciona que se precisa de pelo menos 10 anos para que a
A Jornada Lean Six Sigma: Do White ao Master Black Belt
No mundo da gestão de processos e melhoria contínua, o Lean Six Sigma se destaca como uma metodologia poderosa para eliminar desperdícios, aumentar a
Ciência dos Dados e Navalha de Ockham
A Navalha de Ockham afirma que a explicação mais simples é preferível à explicação mais complexa. Isso porque teorias simples são mais fáceis de
Design For Lean Six Sigma Estilo Startup
Você já passou por alguma/s destas situações? Desenvolve-se um programa (silo de ideias, inovação, motivação dos empregados, melhoria, liderança, …) e o tal programa não