Transformação de dados na Regressão Linear
Regressão Linear é uma técnica estatística muito útil, mas que exige paciência e perseverança de que a utiliza. Veja o exemplo abaixo, há uma variável de saída (y) e quatro variáveis de entrada (x1, x2, x3 e x4). O modelo de regressão realizado no Minitab (Estat\Regressão\Regressão\Ajuste de Modelo de Regressão) mais simples é:
y = -621,6 + 33,16 x1 + 4,272 x2 + 4,126 x3 + 14,1 x4
O coeficiente de determinação (R2 ajustado) é 82,34%. Que maravilha! Calma! Não comemore ainda. Os gráficos dos resíduos mostram que o modelo não é bom. Note que os pontos no gráfico superior direito formam uma curva, indicando que o modelo não é o correto.
A primeira solução nesse caso é incluir termos quadráticos (por exemplo, x12) e termos de interação (x1*x2). Depois de retirar os termos não significativos, temos o seguinte modelo:
Y = 1036 -65,5 x1 -16,64 x2 -14,34 x3 +0,0803 x22 +0,04786 x32 +0,544 x1.x2 +0,795 x1.x3 +0,10246 x2.x3
O coeficiente de determinação aumenta para 96,7% e os gráficos de resíduos melhoram um pouco. Mas o modelo ficou complicado, não? Equação comprida, com x ao quadrado, x1 multiplicando x2. A melhor solução é seguir a dica de Box e Draper: “quando o quociente entre o valor máximo e mínimo da variável resposta for maior do que 4-5, pense em transformar a resposta para obter um modelo mais simples (parcimonioso)”. Neste caso o quociente entre o máximo (830) e o mínimo (34) é 24 (= 830/24). Pode-se aplicar a transformação de Box-Cox aos valores de y no Minitab (Estat\Cartas de Controle\ Transformações de Box-Cox). A transformação escolhida tem l igual a zero e o modelo de regressão fica:
ln(y) = 1,1136 + 0,15940 x1 + 0,021402 x2 + 0,021928 x3
O coeficiente de determinação agora é 97% e os resíduos estão bem comportados.
Não é uma equação linear, mas é uma equação muito mais simples. Portanto, não tenha pressa ao aplicar a técnica de Regressão Linear e não acredite cegamente no valor de R2. Respire fundo e explore outros modelos.
Referência:
George E. P. Box and Norman R. Draper (1987). Empirical Model-Building and Response Surfaces Ed. Wiley. ISBN-10: 0471810339.
Manoel Telhada – MBB
Se tiver comentários sobre o artigo nos escreva!