Saber Profundo – Dicas para criar modelos
- Apresentam-se aspectos importantes na construção de um DOE: número de níveis, números de medições e repetições, largura do domínio experimental e correlação entre os xs.
- A análise inclui erro da medição e transformação de modelos não lineares
Dicas para criar modelos – O “Histo DOE” é um Master Black Belt que gosta muito do Lean Seis Sigma, do pensamento crítico, do pensamento estatístico e do estabelecimento de metas “BHAGs” (Big, Hairy, Audacious Goals, metas grandes, cabeludas e audaciosas) na notação de James Collins (Feitas para durar, 2007).
Desta vez está trabalhando com um pessoal de uma cooperativa agroindustrial em um projeto para reduzir a evolução do índice de acidez de grãos de soja. Quanto maior a acidez, maior a quantidade de soda que deve ser usada para neutralização e maior a perda de óleo. O pessoal fez um piloto para determinar o efeito dos fatores da Figura 1.
Figura 1 – Fatores que influenciam o aumento de acidez do grão de soja armazenado
Pretende-se neste trabalho mostrar diversos aspectos que podem enriquecer o planejamento e análise de um DOE (Design Of Experiment). Histo DOE utilizou o mapa mental da Figura 2.
Figura 2 – Mapa mental para planejamento e análise correto do DOE
Fatores que afetam a eficiência de um DOE
A experimentação através de DOE é uma arte, mais do que um roteiro com comandos do Minitab. Pelo menos é a experiência da MID depois de mais de 15 anos aplicando os conceitos em diversos processos. Nesta seção mostramos a estratégia de Histo DOE para aumentar a eficiência do plano experimental. O plano inicial tinha 5 níveis para os fatores x1 e x2 e 2 níveis para fator x3 (sem ventilação e com ventilação) com um total de 50 ensaios (5 x 5 x 2). Logo no início o pessoal percebeu que ia ser muito trabalhoso manter o fator x3 no experimento e então se decidiu retirá-lo do experimento. Para quem se lembra de modelos de regressão, o processo da Figura 1, com os fatores x1 e x2, poderia ser representado pelo modelo linear:
y = b0 + b1 x1 + b2 x2 + b12 x1 x2 + b11 x12 + b22 x22 (1)
Histo DOE tem duas premissas básicas quando trabalha com modelos:
- Devem ser o mais simples possível (parcimoniosos ou com menor número de coeficientes!)
- O erro dos coeficientes (variância dos coeficientes) deve ser menor possível, o que garante uma maior precisão e previsibilidade do modelo.
Para fazer um plano adequado, Histo DOE analisou a influência dos seguintes fatores na variabilidade dos coeficientes do modelo de regressão (Domenech, 2000):
- Variabilidade total do processo (representada por S2)
- Largura do domínio experimental (faixa de variação dos fatores xs, ou D)
- Número de repetições verdadeiras dos ensaios (r), ou seja, número de execuções do mesmo ensaio e não repetição da análise na mesma amostra
- Número de níveis dos fatores (p), ou seja, número de valores que utilizo para cada fator (umidade do grão e temperatura).
Considera-se que um plano experimental é mais “eficiente” que outro se fornece coeficientes (os bi que estimam os coeficientes i da equação em (1)) com variância menor. A variância dos coeficientes do modelo linear considerado acima é igual a:
Expressando a variância desta forma pode-se ponderar a influência de diversos fatores do DOE! Simplificando a expressão acima, pode-se inferir que a variância do coeficiente, V(bi), é proporcional a:
onde:
V(bi) | ® | Representa a variância do coeficiente bi. Quanto menor, melhor |
R2i,(1,2,…) | ® | Representa o coeficiente de determinação múltiplo entre cada variável independente xi e as outras variáveis independentes. O coeficiente de determinação é igual ao coeficiente de correlação ao quadrado |
VIF = | ® | Fator de inflação: mede o aumento da variância do coeficiente devido à correlação entre as variáveis independentes |
S2 = S2Total | ® | Representa a variância total do processo (processo puro e variabilidade da análise): S2Total = S2Processo+S2Medição |
r | ® | Número de vezes que os ensaios são repetidos |
D | ® | Largura do domínio para a variável xi. Domínio é a faixa de valores de cada fator, do mínimo ao máximo valor. |
p | ® | Número de níveis da variável xi. Quantidade de valores dentro do domínio que serão utilizados no plano experimental. |
A Figura 3 ilustra os fatores , R2, D, r e p.
Figura 3 – Ilustração de fatores que influenciam a variância do coeficiente b
Para estudar a contribuição dos fatores que influenciam a variância do coeficiente na equação (1) foi feito o gráfico de sensibilidade da Figura 4. Neste gráfico não foi incluída a variabilidade da medição. Ela é desprezível quando a %RR (= SMedição/STotal x 100) é menor que 30%. Nesta situação, o aumento do número de medições no mesmo ensaio, quase não contribui com a diminuição da variabilidade total e desse modo não se recomenda essa estratégia. Nesta simulação manteve-se S2Total = 1.
Ao variar um fator, os outros foram mantidos na média dos valores utilizados para esses fatores. Exemplo: ao variar R2 entre 0 e 0,9, manteve-se r = 2,5, p = 6 e D = 1,9. Na Figura 4 quanto menor a variância do coeficiente, melhor.
Figura 4 – Gráfico de sensibilidade do efeito de R2, r, p e D sobre a variância do coeficiente da regressão V(bi)
Da Figura 4, Histo DOE extraiu conclusões importantes (Figura 5). Deve-se:
- Fazer um ensaio em que os xs sejam não correlacionados (caso A da Figura 3). O aumento da correlação entre os xs (VIF alto) faz com que a variância dos coeficientes aumente!
- Aumentar ao máximo a largura do domínio experimental: o aumento de D tem efeito grande na diminuição da variância.
- Reduzir o número de níveis ao mínimo necessário (ao invés de fazer um plano com 5 níveis para x1 e x2 faremos um plano com 3 níveis pela conveniência prática), ao contrário do que o “bom senso” das pessoas diz. O aumento do número de níveis (p) quase não tem influência na variância.
Figura 5 – Recomendações para um DOE eficiente
Os resultados obtidos no DOE estão na Tabela 1. Os níveis escolhidos para x1 foram 8%, 12% e 16% e para x2 foram 15 C, 30 C e 45 C. Na Tabela estão as condições reais que foram utilizadas para x1 e x2 (muito próximas do planejado). O tempo de incubação dos grãos de soja foi de 42 dias. No momento zero a acidez dos grãos foi 0,195%. O ganho de acidez foi calculado como a diferença entre a acidez de cada ensaio menos a acidez no momento zero.
Tabela 1 – Resultados do DOE
Data da Análise | Ensaio | Repetição da medida | Umidade (%) | Temperatura (ºC) | Acidez (%) | Ganho acidez (%) |
08/11/2012 | 1 | 1 | 7,9 | 30 | 0,30 | 0,10 |
08/11/2012 | 1 | 2 | 7,9 | 30 | 0,31 | 0,11 |
08/11/2012 | 2 | 1 | 12,7 | 45 | 1,01 | 0,82 |
08/11/2012 | 2 | 2 | 12,7 | 45 | 1,00 | 0,80 |
08/11/2012 | 3 | 1 | 8,2 | 45 | 0,32 | 0,13 |
08/11/2012 | 3 | 2 | 8,2 | 45 | 0,32 | 0,13 |
08/11/2012 | 4 | 1 | 16,5 | 45 | 1,76 | 1,56 |
08/11/2012 | 4 | 2 | 16,5 | 45 | 1,81 | 1,61 |
08/11/2012 | 5 | 1 | 11,6 | 30 | 0,40 | 0,20 |
08/11/2012 | 5 | 2 | 11,6 | 30 | 0,40 | 0,21 |
08/11/2012 | 6 | 1 | 16 | 30 | 0,55 | 0,36 |
08/11/2012 | 6 | 2 | 16 | 30 | 0,57 | 0,37 |
08/11/2012 | 7 | 1 | 16 | 15 | 0,46 | 0,26 |
08/11/2012 | 7 | 2 | 16 | 15 | 0,46 | 0,26 |
08/11/2012 | 8 | 1 | 11,2 | 15 | 0,28 | 0,09 |
08/11/2012 | 8 | 2 | 11,2 | 15 | 0,26 | 0,06 |
08/11/2012 | 9 | 1 | 8 | 15 | 0,22 | 0,02 |
08/11/2012 | 9 | 2 | 8 | 15 | 0,26 | 0,06 |
Análise dos dados – Repetição da medição
A Figura 6 ilustra a variabilidade dos dados para cada ensaio. A medição varia muito pouco em relação à variação dos ensaios (a distância entre os pontos para cada ensaio é pequena em relação à diferença entre os resultados dos ensaios). Isso é muito bom! Significa que a %RR deve ser baixa. O desvio padrão da medição foi calculado usando, por exemplo, o procedimento Minitab, Estat\ ANOVA\ ANOVA Completamente Aninhada, entrando com a coluna “Ganho de acidez” na janela “Respostas:” e Ensaio na janela “Fatores:”. Os resultados da tabela abaixo mostram um valor baixo para a %RR (< 30%). Isto é ótimo!
Desvio padrão da medição | 0,017% |
Desvio padrão total | 0,504% |
%RR | 3,4% |
Figura 6 – Variabilidade das análises (duplicata) para cada ensaio
A análise dos dados não pode ser feita com os valores das amostras em duplicata porque o erro experimental usado para os testes de hipóteses será subavaliado (isso é um erro crasso comumente cometido: a variabilidade das duplicatas usualmente será muito pequena e os testes de hipóteses mostrarão fatores significantes quando na verdade o teste foi feito usando um desvio padrão muito pequeno). Por este motivo se trabalhou com a média de cada ensaio. Os dados médios estão na Tabela 2.
Tabela 2 – Resultados médios do DOE
Ensaio | Umidade (%) | Temperatura (ºC) | Ganho acidez (%) |
1 | 7,9 | 30 | 0,106 |
2 | 12,7 | 45 | 0,810 |
3 | 8,2 | 45 | 0,125 |
4 | 16,5 | 45 | 1,587 |
5 | 11,6 | 30 | 0,206 |
6 | 16 | 30 | 0,364 |
7 | 16 | 15 | 0,262 |
8 | 11,2 | 15 | 0,077 |
9 | 8 | 15 | 0,043 |
Análise dos dados – Transformação da resposta
Para visualizar o efeito dos fatores x1 e x2 foi feito o gráfico da Figura 7. Para fazer este gráfico os valores de Umidade foram aproximados a 8, 12 e 16. Este gráfico foi feito em Estat\ ANOVA\ Gráfico de Interação. Há interação evidente dos fatores Umidade e Temperatura. Para umidade baixa, o processo mostra-se robusto à variação da temperatura de armazenagem; mas não para umidade elevada. Histo DOE começou a gostar das conclusões práticas.
Figura 7 – Gráfico de Umidade x Temperatura
A análise dos dados foi feita em Estat\ DOE\ Superfície de Resposta\ Análise de Experimento de Superfície de Resposta. Esta plataforma permite somente trabalhar com modelos lineares. Neste caso parece adequado um modelo com comportamento não linear (veja que quando a umidade é alta (16%) a diminuição da temperatura faz diminuir o ganho de acidez, mas não de forma quadrática). Outra dica para saber quando pode ser adequado um modelo não linear é quinteração ando o quociente entre o valor máximo da resposta e o valor mínimo é maior que 3 ou 4 (Box and Draper, 1987). Neste caso o quociente máximo/mínimo foi aproximadamente 37 (= 1,587/0,043). Usamos o Minitab para avaliar se a transformação Box-Cox nos fornece uma métrica mais interessante para o ajuste do modelo. Usualmente se usa a transformação Box-Cox para fazer com que uma distribuição tenha distribuição normal, mas Histo DOE sabe que pode ser útil, além disto, para:
- Obter grupos com variâncias iguais.
- Obter um modelo de regressão mais simples.
A transformação é realizada na plataforma Estat\ Cartas de Controle\ Transformações de Box-Cox (Figura 8). O valor lambda = 0 significa que a transformação adequada é logaritmo (neperiano ou natural). Trabalharemos então com y = ln(acidez). Veja que agora o gráfico da Figura 9 fica sem interação evidente (curvas mais paralelas) na variável transformada!
Figura 8 – Transformação log sugerida para a variável “Ganho de acidez”
Figura 9 – Gráfico de interação Umidade x Temperatura para a variável “ln Ganho de acidez”
Análise dos dados – Ajuste do modelo
A análise dos dados está abaixo. Neste caso nem os efeitos quadráticos nem a interação Umidade x Temperatura foram significativos (p > 0,10). O modelo ajusta muito bem os dados (R2 ajustado próximo a 90%).
Regressão
Sumário
S 0,387374 95,73%
Coeficientes EP de Termo Coef Coef Constante -1,440 0,291 UmidadeR 0,987 0,167 TemperaturaR 0,794 0,159 UmidadeR*UmidadeR -0,147 0,311 TemperaturaR*TemperaturaR 0,056 UmidadeR*TemperaturaR 0,184 |
O modelo final (após eliminar termos quadráticos e interação) em escala não transformada ficou:
Regressão de Superfície de Resposta: Ln Ganho R versus UmidadeR; TemperaturaR
Sumário do Modelo
S R2 R2(aj) R2(pred) 0,318296 94,23% 92,30% 85,74%
Coeficientes Codificados
EP de Termo Coef Coef Valor-T Valor-P VIF Constante -1,480 0,106 -13,93 0,000 UmidadeR 0,996 0,137 7,28 0,000 1,01 TemperaturaR 0,787 0,130 6,03 0,001 1,01
Equação de Regressão em Unidades Não codificadas
Ln Ganho R = -5,880 + 0,2316 UmidadeR + 0,05245 TemperaturaR |
O gráfico de resíduos padronizados da Figura 10 (com limites de controle em -3 e +3) mostra que o modelo é adequado.
Figura 10 – Gráfico de resíduos padronizados com limites de controle
A partir desta equação foram gerados valores para fazer o gráfico de interação da Figura 11. Veja que o modelo reflete bem o comportamento observado na Figura 7. Neste gráfico foram simulados valores intermediários de Umidade e Temperatura. Este gráfico é útil para decidir sobre a melhor condição de umidade para o controle do processo, ou seja, umidade em torno de 11% para temperaturas de armazenagem entre 30-35 oC. Quanto menor a umidade melhor, mas a secagem do grão implica em custo.
Conclusões:
Um plano de ensaio eficiente com domínio largo para os xs, junto com a confirmação de uma medição adequada (%RR < 30%) e a transformação da resposta usando Box-Cox, permitiu chegar a um modelo simples com somente 3 coeficientes que representou muito bem os dados.
Figura 11 – Gráfico de interação com o modelo ajustado
Referência:
- Collins, James C. e Porras, Jerry I. (2007) Feitas para Durar. Ed. Rocco. ISBN: 9788532522122.
- Domenech, Carlos H. (2000). Carlos H. Domenech (2000). Fatores que contribuem para a eficiência de um plano experimental. 14o Simpósio Nacional de Probabilidade e Estatística – Caxambu – MG.
- George E. P. Box and Norman R. Draper (1987). Empirical Model-Building and Response Surfaces. Ed. Wiley. ISBN: 0471810339
Carlos Domenech, Gerusa de Oliveira, Rusti Federli
Em 50 palavras ou menos