Glossary
AutoRegressive Integrated Moving Average (ARIMA)

Média Móvel Integrada Autoregressiva (ARIMA)

AutoRegressive Integrated Moving Average (ARIMA)

Média Móvel Integrada Autoregressiva (ARIMA)

Você já se perguntou como as empresas preveem com precisão a demanda por produtos para as próximas temporadas e otimizam seus lançamentos? É aí que a ARIMA entra em cena. ARIMA é um modelo estatístico que prevê valores futuros de séries temporais analisando padrões passados.

Vamos discutir a importância, os benefícios e os desafios da ARIMA analisando como ela funciona.

O que é ARIMA?

Média Móvel Integrada Autoregressiva (ARIMA) é um modelo estatístico popular para previsão de séries temporais. Ele usa dados históricos para entender padrões do conjunto de dados e prever valores futuros. O modelo usa três componentes para prever valores futuros: Autoregressão (AR), Diferenciação (I) e Média Móvel (MA). Cada componente molda as previsões do modelo ao delinear uma relação entre os valores passados e futuros.

Veja o que cada componente faz:

Autoregressão (p): AR assume que o valor futuro depende do valor passado. A ordem AR refere-se ao número de valores passados que o modelo usa para prever o valor atual. Por exemplo, se a ordem AR for 3, o modelo prevê o valor atual com base nos três valores passados mais recentes.
Diferenciação/ Integração (d): Isso determina o grau de diferenciação necessário para tornar uma série temporal estacionária. Em séries temporais não estacionárias, nas quais propriedades estatísticas como média e variância mudam ao longo do tempo, aplicar diferenciação ajuda a estabilizar a série.
Média Móvel (q): MA captura a relação entre o valor atual de uma série temporal e erros de previsão passados. A ordem MA reflete a relação entre o valor atual da série temporal e os erros de previsão passados. Por exemplo, MA(2) ou MA de ordem 2 calcula a média ponderada dos dois erros passados para prever o valor atual.

Matematicamente, o modelo ARIMA é representado como ARIMA (p, d, q) e expresso como:

y′t=I+α1y′t−1+α2y′t−2+⋯+αpy′t−p+et+θ1et−1+θ2et−2+⋯+θqet−q

Onde:

Yt: O valor atual da série temporal
c: Termo constante
φ₁, φ₂, ..., φp: Coeficientes autoregressivos
θ₁, θ₂, ..., θq: Coeficientes de média móvel
εt: Termo de erro de ruído
p: A ordem da autoregressão
q: A ordem da média móvel
d: A ordem da diferenciação/ integração

Isso representa que o valor atual da série temporal diferenciada (y′t) é uma combinação linear de seus valores passados (y′t-₁, y′t-₂, ..., y′t-p) e termos de erro passados (et-₁, et-₂, ..., et-q).

Como a ARIMA funciona?

Autocorrelação e médias móveis são componentes essenciais dos modelos ARIMA. A autocorrelação ajuda a identificar as relações diretas entre valores passados e atuais, enquanto as médias móveis ajudam a considerar os efeitos indiretos de erros de previsão passados.

Aqui está uma explicação passo a passo de como elas funcionam juntas:

Estacionariedade

O primeiro passo na previsão de séries temporais com modelos ARIMA é garantir que a série temporal seja estacionária. Como dados não estacionários podem levar a previsões imprecisas e resultados de modelo enviesados, a ARIMA baseia-se na suposição de estacionariedade. Se os dados da série temporal não forem estacionários, a ARIMA aplica diferenciação para torná-los estacionários. Isso envolve subtrair o valor anterior do valor atual. A ordem de diferenciação (d) determina o número de vezes que esse processo é repetido.

Figura- Dados não estacionários vs estacionários .png

Figura: Dados não estacionários vs estacionários

Identificação do Modelo

A identificação do modelo determina os valores apropriados para os componentes autoregressivo (p) e de média móvel (q). A função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF) são ferramentas essenciais para esse processo:

Função de Autocorrelação

A função de autocorrelação identifica a ordem do componente autorregressivo (AR) (p). Se ela mostra uma correlação na defasagem k, isso sugere que o valor atual está relacionado ao valor de k períodos atrás, onde k representa o número de defasagens (etapas de tempo) entre o valor atual e um valor anterior na série temporal.

Função de Autocorrelação Parcial

A função de autocorrelação parcial (PACF) identifica a ordem do componente de média móvel (MA) (q). Se ela mostra uma correlação significativa na defasagem k, isso indica que o valor atual está relacionado ao erro de previsão que ocorreu k períodos atrás.

Figure- Lag-1 autocorrelation.png

Figura: Autocorrelação de defasagem 1

Estimação do Modelo

Após determinar as ordens autorregressivas (AR) e os componentes de média móvel (MA), o ARIMA estima os parâmetros do modelo. Os parâmetros do modelo quantificam a força das relações entre o valor atual e seus valores passados (AR) e entre o valor atual e os erros passados (MA).

A estimação por máxima verossimilhança (MLE) é o método mais comum para estimação de parâmetros em modelos ARIMA. A MLE estima os parâmetros do modelo encontrando os valores que maximizam a probabilidade de observar os dados fornecidos. Para modelos ARIMA, a função de verossimilhança normalmente se baseia na suposição de que os erros são normalmente distribuídos. Mínimos quadrados e métodos bayesianos são outras abordagens para estimação de parâmetros em modelos ARIMA.

Previsão do Modelo

O modelo ARIMA estimado finalmente prevê valores futuros com base em dados históricos. Se necessário, o modelo também pode ser refinado ajustando as ordens dos componentes AR e MA ou considerando outros fatores, como sazonalidade.

Figure- ARIMA forecasts.png

Figura: Previsões ARIMA

Comparação com Conceitos Semelhantes

O ARIMA é frequentemente comparado a outros conceitos semelhantes no contexto de análise de dados e previsão. Aqui está uma comparação para desfazer mal-entendidos comuns:

ARIMA vs. SARIMA: SARIMA (ARIMA Sazonal) é uma extensão do ARIMA que incorpora especificamente a sazonalidade na análise de dados de séries temporais. ARIMA é um modelo estatístico para dados de séries temporais sem um padrão sazonal claro.
ARIMA vs. Suavização Exponencial: ARIMA e suavização exponencial são métodos para previsão de séries temporais. O ARIMA usa técnicas estatísticas para modelar os padrões subjacentes, incluindo tendências, sazonalidade e autocorrelação. A suavização exponencial, por outro lado, aplica um método mais simples de média ponderada, em que observações recentes recebem mais peso do que as mais antigas. Enquanto o ARIMA é mais adequado para dados com padrões intrincados, a suavização exponencial funciona bem para séries temporais com uma tendência relativamente estável e sazonalidade mínima, tornando-a menos adaptável a dados complexos.
ARIMA vs. Autorregressão Vetorial (VAR): VAR é adequado para previsão de séries temporais multivariadas, nas quais várias variáveis influenciam umas às outras. ARIMA é adequado para séries temporais univariadas e requer a diferenciação da série para alcançar a estacionariedade.

Benefícios e Desafios do ARIMA

O ARIMA oferece vários benefícios, tornando-o um dos modelos de previsão de séries temporais mais amplamente utilizados. No entanto, ele também apresenta certos desafios, que exigem considerar as propriedades da sua análise e seus objetivos específicos antes de aplicar o ARIMA.

Benefícios

Os benefícios de usar modelos ARIMA para previsão de séries temporais incluem:

Flexibilidade: O ARIMA pode lidar com uma ampla variedade de dados de séries temporais, incluindo tendências lineares e não lineares, padrões sazonais, volatilidade e autocorrelação. Isso permite que ele aborde características comuns de séries temporais do mundo real, como indicadores econômicos e padrões não lineares em preços de ações.

Simplicidade: Os modelos ARIMA são fáceis de entender devido ao seu funcionamento simples e às suas suposições transparentes. Eles podem lidar com séries temporais longas com um número relativamente grande de observações.

Precisão: A precisão dos modelos ARIMA depende da qualidade dos dados. Portanto, considerar as suposições e escolher modelos apropriados leva a resultados precisos.

Interpretabilidade: Os parâmetros do modelo ARIMA têm interpretações claras, incluindo coeficientes autorregressivos e de média móvel. Esses coeficientes oferecem insights sobre como valores passados e erros afetam valores futuros.

Ampla Aplicabilidade: Os modelos ARIMA são amplamente usados em vários setores para aplicações de previsão, como modelagem financeira, previsão de demanda e previsão de carga. Portanto, eles estão incorporados em muitas linguagens de programação e têm uma ampla comunidade de apoiadores.

Base para Outros Modelos: Os modelos ARIMA são uma base para modelos de séries temporais mais complexos, como SARIMA e ARIMAX. Ao considerar fatores adicionais, eles ajudam a melhorar a precisão das previsões além dos valores históricos da série temporal.

Desafios

Os desafios dos modelos ARIMA incluem:

Suposição de Estacionariedade: O modelo ****ARIMA assume que a série temporal é estacionária; se não for, ele transforma os dados para alcançar a estacionariedade. No entanto, muitos conjuntos de dados do mundo real não são estacionários, e pré-processá-los pode complicar o processo de modelagem.

Relações Lineares: ARIMA é um modelo linear e não consegue capturar relações não lineares complexas nos dados. Portanto, ele pode não capturar com precisão mudanças repentinas nos dados causadas por crises econômicas, choques externos etc.

Identificação do Modelo: O desempenho do modelo ARIMA depende da seleção dos parâmetros apropriados (p, d, q). No entanto, isso frequentemente exige tentativa e erro ou métodos de busca em grade e pode levar a sobreajuste ou subajuste.

Sensibilidade a Outliers: Os modelos ARIMA podem ser sensíveis a outliers, o que pode impactar seu desempenho. Portanto, é necessário um pré-processamento cuidadoso dos dados para alcançar os resultados desejados.

Previsão de Longo Prazo: ARIMA não é muito adequado para previsões de longo prazo. Isso ocorre porque os modelos ARIMA são baseados em padrões passados e podem não capturar adequadamente eventos imprevistos ou mudanças estruturais no processo gerador dos dados.

Casos de Uso, Ferramentas e Provedores de ARIMA

Os modelos ARIMA são amplamente aplicados para previsão e análise de séries temporais em vários campos. Isso inclui economia e finanças, previsão de demanda, planejamento de produção e capacidade, saúde etc.

Por exemplo, modelos ARIMA foram usados para prever a disseminação de casos de COVID-19 na Índia. Os pesquisadores treinaram os modelos ARIMA usando dados diários de casos de COVID-19 de 14 de março a 3 de maio de 2020, o que gerou uma precisão satisfatória.

Muitas linguagens de programação e pacotes estatísticos fornecem ferramentas para implementar modelos ARIMA. Eles incluem:

R

R possui amplas capacidades de análise de séries temporais, incluindo modelagem ARIMA. Várias bibliotecas, incluindo stats, forecast e tseries, oferecem funções para implementar o modelo ARIMA em R.

Python

Python também oferece amplas bibliotecas estatísticas para implementar ARIMA. Algumas delas incluem Statsmodels, Numpy e Pandas.

MATLAB

MATLAB é um software comercial de computação matemática com funções integradas para modelagem ARIMA. Ele também permite integração com outras ferramentas de software e linguagens de programação para combinar a modelagem ARIMA com outros fluxos de trabalho.

Perguntas Frequentes sobre ARIMA

Para que ARIMA é usado?

AutoRegressive Integrated Moving Average (ARIMA) é um modelo estatístico usado para análise e previsão de séries temporais. É um método popular para prever valores futuros de uma série temporal com base em seus valores passados.

Como ARIMA difere de outros modelos de previsão de séries temporais?

ARIMA difere de outros modelos de previsão de séries temporais devido à sua flexibilidade, interpretabilidade e ampla aplicabilidade. ARIMA pode capturar uma ampla variedade de padrões em dados de séries temporais, incluindo tendências, sazonalidade e autocorrelação. Os parâmetros em um modelo ARIMA têm interpretações claras, e eles podem servir como uma linha de base para comparação com modelos mais complexos.

Como interpretar previsões ARIMA?

As previsões ARIMA são normalmente interpretadas como estimativas pontuais dos valores futuros esperados da série temporal. Várias métricas, como erro quadrático médio (MSE), erro absoluto médio (MAE) e raiz do erro quadrático médio (RMSE), podem ser usadas para avaliar a precisão da previsão.

Quais são as suposições do modelo ARIMA?

Abaixo estão as suposições do modelo ARIMA:

Estacionariedade: As propriedades estatísticas da série temporal (média, variância, autocorrelação) devem permanecer constantes ao longo do tempo.
Linearidade: ARIMA assume uma relação linear entre o valor atual e seus valores e erros passados.
Normalidade: Assume-se que os erros são normalmente distribuídos.
Sem autocorrelação nos erros: Assume-se que os erros não são correlacionados.

Recursos relacionados

Leia mais sobre armazenamento e pré-processamento de dados de séries temporais:

Conteúdo

Comece grátis, escale facilmente

Experimente o banco de dados totalmente gerenciado, construído para seus aplicativos GenAI.

Experimente o Zilliz Cloud grátis

Compartilhar este artigo

Recursos relacionados

Avaliação de desempenho Milvus 2023

Neste tutorial, ficará a saber mais sobre dados não estruturados baseados em texto.

Introdução à pesquisa de similaridade de vectores

Como partes semanticamente semelhantes de dados não estruturados estão "próximas" e "distantes" umas das outras.

O que é uma base de dados vetorial?

Uma base de dados vetorial é uma solução totalmente gerida e simples para armazenar, indexar e pesquisar num conjunto de dados maciço de dados não estruturados que tira partido do poder dos embeddings dos modelos de aprendizagem automática.