Saber profundo – Regressão com autocorrelação
- Quando os dados são coletados a intervalos muito curtos (cada 1 hora ou a cada 10 minutos), os dados tendem a ser autocorrelacionados
- A regressão com dados autocorrelacionados pode indicar relações estatísticas falsas, mas usando uma dica do Student, pode-se checar se a relação é verdadeira ou não.
Regressão com autocorrelação – O “Histo DOE” é um Master Black Belt que gosta muito do Lean Seis Sigma, do pensamento crítico, do pensamento estatístico e do estabelecimento de metas “BHAGs” (Big, Hairy, Audacious Goals, metas grandes, cabeludas e audaciosas) na notação de James Collins (Feitas para durar, 2007). Ele procura o Saber Profundo do Dr. Deming.
Já alertamos em vários artigos que o uso de modelos de regressão com dados históricos deve ser feito com muito cuidado porque se não pode ser muito frustrante. Histo DOE já mostrou que sempre que possível deveríamos usar dados experimentais planejados estatisticamente.
Histo DOE quer mostrar neste trabalho que há outra situação complicada nos dados históricos que pode aparecer com certa freqüência nos dias atuais pela disponibilidade de sistemas de aquisição de dados (do tipo SDCD) em que o intervalo entre medidas consecutivas é muito curto. Usualmente neste caso a variável apresentará autocorrelação. O que é isso? Alerta de Histo DOE: não fique muito assustado. Não é nenhuma prática esotérica ou estudo psicológico!
Para entender o conceito de autocorrelação, lembre daquela brincadeira do telefone sem fio. Forma-se um círculo de pessoas. Uma cochicha no ouvido da pessoa mais próxima uma frase, quem tenta repetir a frase para a seguinte e assim sucessivamente. Responda à pergunta seguinte: “haverá mais concordância entre as frases de duas pessoas próximas ou entre as frases de duas pessoas mais afastadas?”.
Você pode extrapolar este conceito para dados de processo: se o intervalo entre amostras for pequeno, poderá existir correlação entre o valor e o seguinte. Podemos dizer que é a memória de curto prazo do processo. Quando esta correlação (autocorrelação) é grande, isso atrapalha um bocado na análise dos dados.
A Figura 1 tem um exemplo de uma variável denominada “queima de sólidos”. Observa-se que dados próximos são muito semelhantes. A Figura 2 tem um gráfico feito entre esta variável e esta variável defasada em 1 unidade de tempo: a correlação entre uma observação e a observação do lado é quase perfeita. Finalmente na Figura 3 encontra-se a função de autocorrelação mostrando a correlação para distintas defasagens da variável (ou lag).
Figura 1 – Queima de sólidos. Série com autocorrelação positiva
Figura 2 – Diagrama de dispersão entre queima de sólidos e queima de sólidos com defasagem de uma unidade
Figura 3 – Função de autocorrelação da variável queima de sólidos
Neste artigo da série “Saber Profundo” estuda-se o seguinte problema. Imagine o processo da Figura 4 com destaque a 3 variáveis de entrada e 1 de saída. Suponha que todas as medidas foram coletadas com um espaçamento pequeno entre elas, por exemplo, a cada 10 minutos ou mesmo a cada hora. Mostraremos que embora existir correlação significativa entre y com cada um dos xs, a correlação entre alguns destes xs com y é simplesmente uma “miragem” causada pela autocorrelação. É como se as séries apresentassem a mesma tendência, mas somente por uma simples coincidência. Mostramos no artigo como, as vezes, pode-se reconhecer estas falsas correlações de y versus x devido à autocorrelação e como solucionar o problema. Em um próximo artigo mostraremos como usar a informação da autocorrelação para diminuir a freqüência de amostragem sem perda de informação (aumentando o espaçamento entre amostras sucessivas).
Figura 4 – Processo em estudo com 3 variáveis xs e 1 variável y
Na Tabela 1 há dados das variáveis da Figura 4.
Tabela 1 – Dados de variáveis autocorrelacionadas
Podemos explorar estes dados usando gráficos de tendência (Gráfico\ Gráfico de Séries Temporais\ Simples) no Minitab (Figura 5) e gráficos de dispersão (Gráfico\ Matriz de Dispersão\ Simples, Figura 6). Pelos gráficos parece existir correlação entre todos os xs e y. Confirmamos isto determinando a correlação simples entre cada x versus y (Estat\ Estatísticas Básicas\ Correlação, Figura 7). A correlação entre x3 e y é a mais forte, mas a correlação entre y = f(x1) e y = f(x2) não é desprezível.
Figura 5 – Gráficos de tendência de y, x1, x2 e x3
Figura 6 – Gráficos de dispersão de y, x1, x2 e x3
Figura 7 – Correlações simples entre as variáveis y, x1, x2 e x3
Aqui usaremos uma ideia muito boa do nosso amigo Student (1914) mencionada no artigo de Bisgaard, Søren and Kulahci, Murat (2006). Ele usava o pseudônimo Student, era químico e trabalhava na cervejaria Guinness. Entre uma cerveja e outra ele teve a seguinte ideia: se uma variável y está relacionada com outra no tempo t conforme o modelo:
yt = b0 + b1 xt (1)
então ela estará correlacionada também no momento t-1 (com o mesmo modelo anterior):
yt-1 = b0 + b1 xt-1 (2)
Se fizermos a diferença entre os dois membros das equações (1) e (2) veremos que o modelo se mantém para as diferenças (yt – yt-1):
(yt-yt-1) = b1 (xt-xt-1) (3)
Daqui encontramos uma forma de checar se a correlação y = f(x) é realmente significante. O coeficiente angular da equação em (1) deveria ser próximo do coeficiente em (3) e também o coeficiente em (3) deve ser estatisticamente significante. Vejamos o que acontece com as variáveis do nosso problema. A Figura 8 mostra que as variáveis x1 e x2 têm relação significante com y, mas a primeira diferença para x1 ou x2 não estão correlacionadas com a primeira diferença de y. Logo, x1 e x2 não têm correlação significativa com y. A correlação que vemos é uma miragem. A primeira diferença de x3 sim está correlacionada com a primeira diferença de y e o coeficiente angular é quase idêntico. Logo, x3 tem correlação significativa com y.
Figura 8 – Regressões ajustadas entre y versus x1, x2 e x3 e entre as primeiras diferenças de y com as primeiras diferenças de x1, x2 e x3
Conclusões:
- Se você tem dados de processos autocorrelacionados tenha cuidado com os modelos construídos a partir destes dados. Você nunca obteve relações boas, fez mudanças no processo esperando uma grande melhoria e nada (ou quase nada) aconteceu?
- Uma forma de evitar a autocorrelação é aumentar o intervalo entre medidas sucessivas.
Referência:
- Bisgaard, Søren and Kulahci, Murat (2006). Quality Quandaries: Studying Input- Output Relationships, Part II. Quality Engineering , 18, p. 405–410.
- “Student” (1914). The elimination of spurious correlation due to position in Time or Space. Biometrika, 10(1): 79–180.