Aplicando estatística no caso do Covid-19 no Brasil
No meio dessa pandemia de Covid-19 a Ciência é uma arma importante para avaliar e compreender o processo de disseminação do vírus, o aumento do uso das UTIs e as mortes que ele traz.
Compreendendo esses mecanismos é possível fazer previsões do comportamento, antecipando os possíveis resultados e conseguindo também avaliar se alguma ação adotada está ou não fazendo efeito, mudando o comportamento da dinâmica “natural”
Trabalhamos com o histórico de casos de covid-19 no Brasil (fonte UOL) para mostrar como podemos fazer algumas inferências com dados reais com auxílio da estatística. A tabela com dados variando entre 27/2/2020 e 9/4/2020 está a seguir.
Explorando os dados graficamente
Observa-se um crescimento exponencial tanto de número de infectados, quanto de mortes.
Podemos extrair uma informação adicional plotando a proporção de mortes em relação aos infectados. Será que permanece constante? O gráfico mostra que há um aumento claro da proporção de mortes entre o início do problema até o último dia da série. De 17/março (1ª morte) até 9/abril houve um aumento da porcentagem de mortes de 5%, saindo de 2% e chegando a 7%.
Trabalhando com modelos estatísticos
Ajuste da porcentagem de mortes ao longo do tempo
Como a relação é aproximadamente linear, se pode construir uma equação de regressão simples para avaliar o aumento da porcentagem de mortes ao longo do tempo. A equação de regressão simples tem a forma: y = a + b x. O ajuste pode ser feito no software Minitab (Estat\Regressão\Gráfico de linha ajustada). O resultado da figura mostra que a cada dia a porcentagem aumenta em 0,24% (= 0,00244*100). Em outras palavras, a cada 4 dias aproximadamente há um aumento médio de 1% na proporção de mortes. Essa relação é estatisticamente significativa e a qualidade do ajuste é razoável (coeficiente de determinação R2 próximo a 75%). Note que esta conclusão é valida para o período em que o estudo foi feito. A extrapolação deve ser feita somente nas proximidades do período considerado porque o fenômeno pode mudar.
Ajuste do número de casos infectados ao longo do tempo
Como o comportamento dos casos infectados e do número de mortes segue uma tendência exponencial, devemos usar um modelo apropriado. A transformação Box-Cox do Minitab (Estat\Cartas de Controle\Transformações de Box-Cox) nos ajuda neste trabalho. O software sugere as seguintes transformações para linearizar a relação de infectados e de mortes ao longo do tempo:
· Para linearizar número de infectados à use transformação (infectados0,10)
· Para linearizar número de mortes à use transformação (mortes0,30)
Com isso veja que as duas séries transformadas tem um comportamento bem retilíneo. Agora fica bem mais fácil ajustar um modelo usando novamente regressão simples.
Os gráficos obtidos estão a seguir. O único problema das equações obtidas é que não estão na escala original, mas numa outra transformada.
As equações podem ser representadas abaixo:
· (Infectados acumulados)0,10 = 0,915 + 0,0428 x Tempo
· (Mortes acumuladas)0,30 = -4,439 + 0,2789 x Tempo
Como expressar agora as equações em função de número de infectados e de mortes? Temos que voltar na escala original (“destransformar” os dados). Para isso podemos aplicar logaritmo nos dois membros de cada equação. Lembrando das propriedades de logaritmo:
Log(xa) = a log(x)
Nos casos das equações acima (usaremos logaritmo neperiano):
· 0,10 Ln(Infectados acumulados) = Ln(0,915 + 0,0428 x Tempo)
· Ln(Infectados acumulados) = Ln(0,915 + 0,0428 x Tempo)/0,10
· Infectados acumulados = exp(Ln(0,915 + 0,0428 x Tempo) x 10) (1)
Da mesma forma:
· Mortes acumuladas = exp(Ln(-4,439 + 0,2789 x Tempo)/0,3) (2)
Os gráficos com valores observados e ajustados pelas equações (1) e (2) estão nas figuras. A equação prevê muito bem as mortes. No fim do período há um ponto em que a previsão é bastante menor do que a realidade (100 mortes a menos). Com a equação (2) se pode confirmar que em aproximadamente 1 semana, o número de mortes se duplicará.
Para o número de infectados faremos uma nova equação. Usaremos os dados a partir do 30/março, data na qual se percebe mudança na tendência da curva.
Com esses novos dados se chega na equação:
· Infectados acumulados = exp(Ln(-137,2+6,250 x Tempo)/0,5) (3)
A equação não representa bem o início do fenômeno, mas representa bem melhor a parte final dos dados. Com esta equação também se prevê que em aproximadamente se duplicarão os casos de infectados em 1 semana.
Com essas equações temos as seguintes previsões até fim de abril.
Esperamos que as ideias apresentadas possam ser úteis para aplicar em fenômenos do seu dia a dia. Caso tenha dúvidas ou queira manifestar sua opinião sobre o artigo, deixe seu comentário abaixo.