Glossary
AutoRegressive Integrated Moving Average (ARIMA)

Media Móvil Integrada Autoregresiva (ARIMA)

AutoRegressive Integrated Moving Average (ARIMA)

Media Móvil Integrada Autoregresiva (ARIMA)

¿Alguna vez te has preguntado cómo las empresas predicen con precisión la demanda de productos para las próximas temporadas y optimizan sus lanzamientos? Ahí es donde entra en juego ARIMA. ARIMA es un modelo estadístico que pronostica valores futuros de series temporales analizando patrones pasados.

Analicemos la importancia, los beneficios y los desafíos de ARIMA repasando cómo funciona.

¿Qué es ARIMA?

La Media Móvil Integrada Autoregresiva (ARIMA) es un modelo estadístico popular para la previsión de series temporales. Utiliza datos históricos para comprender los patrones del conjunto de datos y pronosticar valores futuros. El modelo utiliza tres componentes para predecir valores futuros: Autoregresión (AR), Diferenciación (I) y Media Móvil (MA). Cada componente da forma a las predicciones del modelo al delinear una relación entre los valores pasados y futuros.

Esto es lo que hace cada componente:

Autoregresión (p): AR asume que el valor futuro depende del valor pasado. El orden AR se refiere al número de valores pasados que el modelo utiliza para predecir el valor actual. Por ejemplo, si el orden AR es 3, el modelo predice el valor actual basándose en los tres valores pasados más recientes.
Diferenciación/ Integración (d): Esto determina el grado de diferenciación necesario para hacer que una serie temporal sea estacionaria. En series temporales no estacionarias, donde las propiedades estadísticas como la media y la varianza cambian con el tiempo, aplicar diferenciación ayuda a estabilizar la serie.
Media Móvil (q): MA captura la relación entre el valor actual de una serie temporal y los errores de pronóstico pasados. El orden MA refleja la relación entre el valor actual de la serie temporal y los errores de pronóstico pasados. Por ejemplo, MA(2) o MA de orden 2 calcula el promedio ponderado de los dos errores pasados para predecir el valor actual.

Matemáticamente, el modelo ARIMA se representa como ARIMA (p, d, q) y se expresa como:

y′t=I+α1y′t−1+α2y′t−2+⋯+αpy′t−p+et+θ1et−1+θ2et−2+⋯+θqet−q

Donde:

Yt: El valor actual de la serie temporal
c: Término constante
φ₁, φ₂, ..., φp: Coeficientes autoregresivos
θ₁, θ₂, ..., θq: Coeficientes de media móvil
εt: Término de error de ruido
p: El orden de la autoregresión
q: El orden de la media móvil
d: El orden de diferenciación/ integración

Esto representa que el valor actual de la serie temporal diferenciada (y′t) es una combinación lineal de sus valores pasados (y′t-₁, y′t-₂, ..., y′t-p) y términos de error pasados (et-₁, et-₂, ..., et-q).

¿Cómo funciona ARIMA?

La autocorrelación y las medias móviles son componentes esenciales de los modelos ARIMA. La autocorrelación ayuda a identificar las relaciones directas entre los valores pasados y actuales, mientras que las medias móviles ayudan a tener en cuenta los efectos indirectos de los errores de pronóstico pasados.

Aquí tienes un desglose paso a paso de cómo funcionan juntos:

Estacionariedad

El primer paso en la previsión de series temporales con modelos ARIMA es garantizar que la serie temporal sea estacionaria. Dado que los datos no estacionarios pueden generar pronósticos inexactos y resultados de modelo sesgados, ARIMA se basa en el supuesto de estacionariedad. Si los datos de la serie temporal no son estacionarios, ARIMA aplica diferenciación para hacerlos estacionarios. Esto implica restar el valor anterior del valor actual. El orden de diferenciación (d) determina el número de veces que se repite este proceso.

Figura- Datos no estacionarios vs estacionarios .png

Figura: Datos no estacionarios vs estacionarios

Identificación del modelo

La identificación del modelo determina los valores apropiados para los componentes autoregresivo (p) y de media móvil (q). La función de autocorrelación (ACF) y la función de autocorrelación parcial (PACF) son herramientas esenciales para este proceso:

Función de autocorrelación

La función de autocorrelación identifica el orden del componente autorregresivo (AR) (p). Si muestra una correlación en el rezago k, sugiere que el valor actual está relacionado con el valor de hace k períodos, donde k representa el número de rezagos (pasos de tiempo) entre el valor actual y un valor anterior en la serie temporal.

Función de autocorrelación parcial

La función de autocorrelación parcial (PACF) identifica el orden del componente de media móvil (MA) (q). Si muestra una correlación significativa en el rezago k, indica que el valor actual está relacionado con el error de pronóstico que ocurrió hace k períodos.

Figure- Lag-1 autocorrelation.png

Figura: autocorrelación de rezago 1

Estimación del modelo

Después de determinar los órdenes autorregresivos (AR) y los componentes de media móvil (MA), ARIMA estima los parámetros del modelo. Los parámetros del modelo cuantifican la fuerza de las relaciones entre el valor actual y sus valores pasados (AR) y entre el valor actual y los errores pasados (MA).

La estimación por máxima verosimilitud (MLE) es el método más común para la estimación de parámetros en los modelos ARIMA. MLE estima los parámetros del modelo encontrando los valores que maximizan la probabilidad de observar los datos dados. Para los modelos ARIMA, la función de verosimilitud suele basarse en la suposición de que los errores se distribuyen normalmente. Los mínimos cuadrados y los métodos bayesianos son otros enfoques para la estimación de parámetros en los modelos ARIMA.

Pronóstico del modelo

El modelo ARIMA estimado finalmente predice valores futuros basándose en datos históricos. Si es necesario, el modelo también puede refinarse ajustando los órdenes de los componentes AR y MA o considerando otros factores como la estacionalidad.

Figure- ARIMA forecasts.png

Figura: pronósticos ARIMA

Comparación con conceptos similares

ARIMA se compara a menudo con otros conceptos similares en el contexto del análisis de datos y el pronóstico. Aquí hay una comparación para deshacer malentendidos comunes:

ARIMA vs. SARIMA: SARIMA (ARIMA estacional) es una extensión de ARIMA que incorpora específicamente la estacionalidad en el análisis de datos de series temporales. ARIMA es un modelo estadístico para datos de series temporales sin un patrón estacional claro.
ARIMA vs. suavización exponencial: ARIMA y la suavización exponencial son métodos para el pronóstico de series temporales. ARIMA utiliza técnicas estadísticas para modelar los patrones subyacentes, incluidas las tendencias, la estacionalidad y la autocorrelación. La suavización exponencial, por otro lado, aplica un método más simple de promedio ponderado, donde las observaciones recientes reciben más peso que las antiguas. Si bien ARIMA es más adecuado para datos con patrones intrincados, la suavización exponencial funciona bien para series temporales con una tendencia relativamente estable y una estacionalidad mínima, lo que la hace menos adaptable a datos complejos.
ARIMA vs. autorregresión vectorial (VAR): VAR es adecuado para el pronóstico de series temporales multivariantes donde varias variables se influyen entre sí. ARIMA es adecuado para series temporales univariantes y requiere diferenciar la serie para lograr la estacionariedad.

Beneficios y desafíos de ARIMA

ARIMA ofrece varios beneficios, lo que lo convierte en uno de los modelos de pronóstico de series temporales más utilizados. Sin embargo, también conlleva ciertos desafíos, que requieren considerar las propiedades y los objetivos específicos de tu análisis antes de aplicar ARIMA.

Beneficios

Los beneficios de usar modelos ARIMA para el pronóstico de series temporales incluyen:

Flexibilidad: ARIMA puede manejar una amplia gama de datos de series temporales, incluidas tendencias lineales y no lineales, patrones estacionales, volatilidad y autocorrelación. Esto le permite abordar características comunes de las series temporales del mundo real, como indicadores económicos y patrones no lineales en los precios de las acciones.

Simplicidad: Los modelos ARIMA son fáciles de entender debido a su funcionamiento simple y a sus supuestos transparentes. Pueden manejar series temporales largas con un número relativamente grande de observaciones.

Precisión: La precisión de los modelos ARIMA depende de la calidad de los datos. Por lo tanto, considerar los supuestos y elegir modelos apropiados conduce a resultados precisos.

Interpretabilidad: Los parámetros del modelo ARIMA tienen interpretaciones claras, incluidos los coeficientes autorregresivos y de media móvil. Estos coeficientes ofrecen información sobre cómo los valores y errores pasados afectan a los valores futuros.

Amplia aplicabilidad: Los modelos ARIMA se utilizan ampliamente en diferentes industrias para aplicaciones de pronóstico como el modelado financiero, la previsión de la demanda y la previsión de carga. Por lo tanto, están integrados en muchos lenguajes de programación y cuentan con una amplia comunidad de seguidores.

Base para otros modelos: Los modelos ARIMA son una base para modelos de series temporales más complejos como SARIMA y ARIMAX. Al tener en cuenta factores adicionales, ayudan a mejorar la precisión de los pronósticos más allá de los valores históricos de la serie temporal.

Desafíos

Los desafíos de los modelos ARIMA incluyen:

Supuesto de estacionariedad: El ****modelo ARIMA supone que la serie temporal es estacionaria; si no lo es, transforma los datos para lograr la estacionariedad. Sin embargo, muchos conjuntos de datos del mundo real no son estacionarios, y preprocesarlos puede complicar el proceso de modelado.

Relaciones lineales: ARIMA es un modelo lineal y no puede capturar relaciones no lineales complejas en los datos. Por lo tanto, podría no capturar con precisión cambios repentinos en los datos causados por crisis económicas, shocks externos, etc.

Identificación del modelo: El rendimiento del modelo ARIMA depende de seleccionar los parámetros adecuados (p, d, q). Sin embargo, a menudo requiere métodos de prueba y error o de búsqueda en cuadrícula, y puede conducir al sobreajuste o al subajuste.

Sensibilidad a valores atípicos: Los modelos ARIMA pueden ser sensibles a los valores atípicos, lo que puede afectar su rendimiento. Por lo tanto, se requiere un preprocesamiento cuidadoso de los datos para lograr los resultados deseados.

Pronóstico a largo plazo: ARIMA no es muy adecuado para el pronóstico a largo plazo. Esto se debe a que los modelos ARIMA se basan en patrones pasados y pueden no capturar adecuadamente eventos imprevistos o cambios estructurales en el proceso generador de datos.

Casos de uso, herramientas y proveedores de ARIMA

Los modelos ARIMA se aplican ampliamente para el pronóstico y análisis de series temporales en diversos campos. Esto incluye economía y finanzas, previsión de la demanda, planificación de producción y capacidad, atención médica, etc.

Por ejemplo, los modelos ARIMA se utilizaron para pronosticar la propagación de casos de COVID-19 en India. Los investigadores entrenaron los modelos ARIMA utilizando datos diarios de casos de COVID-19 del 14 de marzo al 3 de mayo de 2020, lo que produjo una precisión satisfactoria.

Muchos lenguajes de programación y paquetes estadísticos proporcionan herramientas para implementar modelos ARIMA. Incluyen:

R

R tiene amplias capacidades de análisis de series temporales, incluido el modelado ARIMA. Varias bibliotecas, incluidas stats, forecast y tseries, ofrecen funciones para implementar el modelo ARIMA en R.

Python

Python también ofrece amplias bibliotecas estadísticas para implementar ARIMA. Algunas de estas incluyen Statsmodels, Numpy y Pandas.

MATLAB

MATLAB es un software comercial de computación matemática con funciones integradas para el modelado ARIMA. También permite la integración con otras herramientas de software y lenguajes de programación para combinar el modelado ARIMA con otros flujos de trabajo.

Preguntas frecuentes sobre ARIMA

¿Para qué se utiliza ARIMA?

AutoRegressive Integrated Moving Average (ARIMA) es un modelo estadístico utilizado para el análisis y pronóstico de series temporales. Es un método popular para predecir valores futuros de una serie temporal basándose en sus valores pasados.

¿En qué se diferencia ARIMA de otros modelos de pronóstico de series temporales?

ARIMA se diferencia de otros modelos de pronóstico de series temporales por su flexibilidad, interpretabilidad y amplia aplicabilidad. ARIMA puede capturar una amplia variedad de patrones en datos de series temporales, incluidas tendencias, estacionalidad y autocorrelación. Los parámetros de un modelo ARIMA tienen interpretaciones claras, y pueden servir como referencia para la comparación con modelos más complejos.

¿Cómo interpretar los pronósticos de ARIMA?

Los pronósticos de ARIMA suelen interpretarse como estimaciones puntuales de los valores futuros esperados de la serie temporal. Se pueden usar varias métricas, como el error cuadrático medio (MSE), el error absoluto medio (MAE) y la raíz del error cuadrático medio (RMSE), para evaluar la precisión del pronóstico.

¿Cuáles son los supuestos del modelo ARIMA?

A continuación se presentan los supuestos del modelo ARIMA:

Estacionariedad: Las propiedades estadísticas de la serie temporal (media, varianza, autocorrelación) deben permanecer constantes a lo largo del tiempo.
Linealidad: ARIMA supone una relación lineal entre el valor actual y sus valores y errores pasados.
Normalidad: Se supone que los errores se distribuyen normalmente.
Sin autocorrelación en los errores: Se supone que los errores no están correlacionados.

Recursos relacionados

Lee más sobre el almacenamiento y preprocesamiento de datos de series temporales:

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

Evaluación del rendimiento de Milvus 2023

En este tutorial aprenderá sobre los datos no estructurados basados en texto.

Introducción a la búsqueda de similitud vectorial

Cómo las piezas semánticamente similares de datos no estructurados están "cerca" y "lejos" unas de otras.

¿Qué es una base de datos vectorial?

Una base de datos vectorial es una solución sencilla y totalmente gestionada para almacenar, indexar y buscar en un conjunto masivo de datos no estructurados que aprovecha la potencia de las incrustaciones de los modelos de aprendizaje automático.