Glossary
Gaussian Processes

Procesos gaussianos: Una guía completa para el modelado probabilístico

Procesos gaussianos: Una guía completa para el modelado probabilístico

Los modelos de machine learning tradicionalmente producen predicciones puntuales, que representan el resultado más probable según los datos de entrada. Las situaciones de la vida real no siguen este patrón simple. Predecir resultados futuros en los sectores financiero, sanitario y de robótica requiere comprender los resultados de la predicción y sus niveles de incertidumbre asociados.

Figura 1 - Ilustración de procesos gaussianos

Figura 1: Ilustración de procesos gaussianos

Los procesos gaussianos (GPs) sirven como solución a estos desafíos. Los GPs proporcionan predicciones probabilísticas que entregan un valor estimado y una medida de confianza, representando el nivel de incertidumbre de la predicción. Los GPs son valiosos para el modelado probabilístico, ya que ofrecen una sólida evaluación cuantitativa de la incertidumbre.

Los procesos gaussianos (GPs) difieren de muchos modelos de machine learning al definir una distribución sobre funciones en lugar de depender de parámetros fijos. Esto les permite adaptarse de manera flexible a los datos y proporcionar una cuantificación explícita de la incertidumbre en las predicciones.

Una de sus mayores fortalezas es que funcionan bien con conjuntos de datos pequeños mientras evitan el sobreajuste. También se adaptan dinámicamente al incorporar nueva información, lo que los hace ideales para situaciones en las que los datos son limitados o cambian constantemente.

Esta guía explica los procesos gaussianos presentando sus conceptos fundamentales, mecanismos operativos y aplicaciones prácticas. También veremos las herramientas que puedes usar para implementar estos procesos.

¿Qué es el proceso gaussiano?

El proceso gaussiano es un modelo de machine learning flexible y no paramétrico que infiere funciones continuas. Modela las relaciones de los datos definiendo una distribución sobre funciones en lugar de depender de parámetros fijos. El proceso gaussiano difiere de las funciones paramétricas porque ajusta su comportamiento según los datos observados.

Los GPs son particularmente útiles en el modelado probabilístico porque proporcionan tanto predicciones como estimaciones de incertidumbre. Esto es posible mediante la inferencia bayesiana, que ayuda a los GPs a refinar sus predicciones a medida que hay nuevos datos disponibles.

Los GPs mantienen la flexibilidad mediante su estructura adaptable, que les permite manejar estructuras de datos complejas sin patrones matemáticos predefinidos. Son valiosos en modelos de regresión, problemas de optimización y escenarios de pronóstico que necesitan estimación de incertidumbre.

Los métodos de aproximación permiten la utilización práctica de estos modelos a pesar de su complejidad computacional. La capacidad de aprendizaje de datos de los GPs los hace valiosos para muchas aplicaciones contemporáneas de machine learning, particularmente aquellas que requieren cuantificación de la incertidumbre.

Cómo funciona

Ahora que hemos establecido los conceptos fundamentales de los procesos gaussianos, analicemos cómo modelan los datos, definen relaciones y realizan predicciones con confianza.

Distribución normal multivariante

Los GPs dependen de la distribución normal multivariante como su componente fundamental, combinada con funciones de covarianza (kernels) para modelar relaciones y capturar la incertidumbre en los datos. La distribución amplía la distribución gaussiana fundamental para analizar múltiples variables mediante un único marco probabilístico. Los GPs utilizan esta capacidad para construir relaciones de datos complejas mientras preservan la consistencia predictiva.

La distribución normal multivariante modela eficazmente las dependencias entre variables, lo cual es su principal ventaja operativa. La matriz de covarianza funciona como el componente central que establece el grado de influencia entre dos variables a medida que cambian.

El principio permite a los GP definir distribuciones que representan todas las funciones posibles adecuadas para los datos observados. Los puntos de entrenamiento llevan a un GP a crear un modelo probabilístico que incluye datos observados y puntos desconocidos. Los valores conocidos en los datos permiten que el modelo actualice su predicción para nuevos puntos mientras mantiene una interpolación probabilística y continua.

Kernels (Funciones de covarianza)

El Proceso Gaussiano define las relaciones entre puntos de datos mediante kernels, que también se conocen como funciones de covarianza. El kernel controla la transmisión de información entre puntos, determinando patrones de salida funcionales. La elección del kernel determina los tipos de patrones que el modelo detecta, incluidos patrones periódicos junto con cambios suaves y abruptos. Las funciones kernel populares incluyen:

Kernel exponencial cuadrático: Crea patrones suaves y continuos, lo que lo hace adecuado para la mayoría de las aplicaciones de regresión. El modelo predice que los puntos más cercanos entre sí demuestran niveles más altos de correlación.
Kernel Matérn: El kernel permite a los usuarios especificar el nivel de suavidad de la función, lo que lo hace aplicable a conjuntos de datos que presentan patrones irregulares y cambios abruptos.
Kernel periódico: Reconoce patrones de datos repetitivos y efectos estacionales, lo que lo hace adecuado para pronosticar datos de series temporales y detectar patrones cíclicos.
Kernel lineal: Es un modelo eficaz para detectar relaciones lineales, lo que ayuda a descubrir dependencias lineales en los datos.

Los GP logran una mayor precisión e interpretabilidad cuando los usuarios seleccionan kernels adecuados para diferentes conjuntos de datos.

Modelos no paramétricos

Los procesos gaussianos funcionan como métodos no paramétricos porque evitan hacer suposiciones sobre descripciones de ecuaciones fijas para los datos. El modelo extrae patrones de los puntos observados sin imponer ninguna ecuación fija.

Los GP mantienen la flexibilidad porque pueden manejar funciones complejas y evolutivas mediante nuevas entradas de datos. Los GP expanden su complejidad mediante la recopilación de datos porque no utilizan estructuras matemáticas fijas como los modelos paramétricos. Tales aplicaciones se benefician enormemente del uso de GP debido a su capacidad para adaptarse a funciones desconocidas o cambiantes.

Probabilidad conjunta y condicional

El proceso predictivo de los GP depende del uso de distribuciones de probabilidad conjunta y condicional. Un GP crea una estructura de distribución gaussiana conjunta para los puntos de datos observados. Cada nuevo punto lleva al modelo a condicionar sus predicciones en función de los datos observados previamente.

El proceso de estimación se vuelve posible mediante la inferencia bayesiana porque los nuevos datos ayudan a mejorar las predicciones de la función sin perder el conocimiento adquirido previamente. El modelo produce tanto valores predictivos como medidas de incertidumbre que se convierten en intervalos de confianza. Esta característica hace que las estimaciones sean confiables para aplicaciones esenciales, incluidas la robótica, las finanzas y la atención médica.

Hiperparámetros y su influencia

El modelo GP opera bajo el control de hiperparámetros, que define las acciones del kernel y la adaptabilidad del modelo. Los hiperparámetros clave incluyen:

Escala de longitud: El parámetro de escala de longitud controla la velocidad a la que disminuyen las correlaciones, determinando la suavidad de las funciones resultantes. La escala de longitud del modelo controla la velocidad del cambio y la detección de patrones detallados, pero también afecta el establecimiento de tendencias de datos más amplias.
Varianza: El parámetro de varianza controla directamente cuánto se dispersan los valores de la función en todo el dominio, lo que afecta las predicciones de incertidumbre. Una varianza más alta aumenta la capacidad del modelo para detectar cambios significativos en los valores de la función, pero una varianza más baja produce predicciones más adversas al riesgo.
Nivel de ruido: El parámetro de nivel de ruido en los procesos gaussianos distingue las señales de datos reales del ruido aleatorio al tener en cuenta la variabilidad de los datos. Regula la incertidumbre de medición para evitar el sobreajuste de observaciones ruidosas, pero permite que las mediciones fiables pasen.

Figura 2 - Nivel de ruido a lo largo del tiempo

Figura 2: Nivel de ruido a lo largo del tiempo

Las predicciones precisas requieren ajustar estos hiperparámetros. Las técnicas de optimización, como la estimación de máxima verosimilitud y la optimización bayesiana, descubren valores de parámetros óptimos para conjuntos de datos específicos.

Conexiones con otros modelos

Los procesos gaussianos operan de forma independiente, pero comparten principios clave con múltiples modelos de aprendizaje automático. Las relaciones entre los GP y otros métodos ayudan a explicar sus fortalezas y aplicaciones adecuadas.

Máquinas de vectores de relevancia (RVMs)

Los GP demuestran una funcionalidad paralela con las Máquinas de vectores de relevancia (RVMs) porque ambos emplean modelos de predicción probabilísticos. Las RVM operan con un conjunto limitado de funciones base, lo que da como resultado un mejor rendimiento computacional. Los GP proporcionan distribuciones de funciones continuas que generan predicciones de incertidumbre más detalladas que otros modelos.

La inferencia bayesiana de las RVM depende de supuestos de escasez de datos, pero los GP modelan la incertidumbre mediante funciones kernel sin estas restricciones. Los GP son mejores para situaciones que requieren cálculos precisos de intervalos de confianza y capacidades adaptables de estimación de funciones.

Filtrado de Kalman

Las capacidades de modelado probabilístico de los procesos gaussianos coinciden con las de los filtros de Kalman a través de su capacidad compartida para manejar la incertidumbre. Los filtros de Kalman destacan en sistemas dinámicos lineales mediante técnicas de estimación recursiva, lo que les permite funcionar eficazmente en sistemas de seguimiento y control en tiempo real.

Los GP ofrecen un sistema de modelado generalizado que maneja diversas estructuras de datos mediante funciones no lineales. Las dependencias de estado markovianas forman la base de los filtros de Kalman, pero los GP establecen sus relaciones mediante estructuras de covarianza, que admiten aproximaciones de funciones flexibles y suaves.

Comparación con otros modelos de aprendizaje automático

Los GP presentan beneficios distintivos, pero requieren comparación con modelos estándar de aprendizaje automático para determinar aplicaciones y limitaciones adecuadas.


Aspecto	Procesos Gaussianos (GPs)	Redes Neuronales (NNs)	Máquinas de Vectores de Soporte (SVMs)
Tipo de modelo	No paramétrico, probabilístico	Paramétrico, basado en aprendizaje profundo	Paramétrico, basado en margen
Cuantificación de la incertidumbre	Proporciona intervalos de confianza	Limitada, excepto para NNs bayesianas	Requiere métodos adicionales
Escalabilidad	Complejidad O(N³), menos adecuado para grandes conjuntos de datos	Escala bien con grandes conjuntos de datos	Eficiente para conjuntos de datos más pequeños
Flexibilidad	La elección del kernel determina la adaptabilidad	Puede modelar funciones muy complejas	Flexibilidad dependiente del kernel
Interpretabilidad	Moderada; los kernels proporcionan información	Baja; a menudo se considera una "caja negra"	Moderada; límite de decisión explícito
Requisitos de datos de entrenamiento	Funciona bien con conjuntos de datos pequeños	Requiere grandes conjuntos de datos	Efectivo con conjuntos de datos de tamaño medio
Aplicaciones	Regresión, pronóstico, optimización bayesiana	Imagen, reconocimiento de voz, NLP	Clasificación, bioinformática

Beneficios y desafíos

Los GPs son enfoques de aprendizaje automático que ofrecen beneficios sustanciales y restricciones técnicas. Comprender tanto las ventajas como las limitaciones ayuda a determinar los escenarios de uso adecuados para los GPs.

Beneficios

Marco probabilístico: Los GPs definen distribuciones de funciones para resultados predictivos y estimaciones de confianza. Estos modelos destacan en sistemas de diagnóstico y evaluaciones de riesgo que necesitan cálculos precisos de incertidumbre.
Naturaleza no paramétrica: La estructura del modelo de los GPs permanece independiente de cualquier forma de función predeterminada. Esto demuestra capacidades dinámicas de adaptación a patrones porque se ajustan a estructuras de datos complejas.
Incorporación de conocimiento previo: Las funciones de media y covarianza permiten que los GPs incorporen conocimiento específico del dominio en su proceso de modelado. La adición de datos históricos o conocimientos de expertos mejora la precisión del modelo mediante los GPs.
Versatilidad en distintos dominios: Los GPs sirven eficazmente a la geoestadística, el pronóstico de series temporales y la optimización bayesiana, demostrando ser útiles para el modelado adaptable de funciones.
Inferencia en forma cerrada: Los Procesos Gaussianos ofrecen soluciones posteriores exactas para la regresión con ruido gaussiano, lo que permite una inferencia eficiente sin aproximaciones numéricas extensas.

Desafíos

Escalabilidad computacional: Los GPs necesitan operaciones O(N³) (complejidad temporal cúbica en el número de puntos de datos, N) para funcionar, lo que resulta en altos costos computacionales para grandes conjuntos de datos. Los métodos de aproximación conocidos como GPs dispersos ofrecen mayor eficiencia, pero introducen nuevas limitaciones al modelo.
Sensibilidad a la selección del kernel: La selección de la función kernel sigue siendo un factor crítico para determinar con qué precisión los GPs modelan los datos. Usar una selección de kernel inapropiada genera problemas de generalización que requieren pasos exhaustivos de ajuste y validación.
Capacidad limitada de extrapolación: La generalización más allá de las áreas conocidas sigue siendo un desafío para los GPs, que funcionan mejor con interpolación que con extrapolación. El modelo depende de los datos observados, lo que conduce a predicciones poco fiables fuera de estas áreas.
Optimización de hiperparámetros: Encontrar hiperparámetros adecuados, incluida la escala de longitud y la varianza, es difícil. La optimización bayesiana es un sistema automatizado que mejora la eficiencia de los ajustes de parámetros.
Complejidad de implementación: Implementar GPs requiere matemáticas avanzadas, como la inferencia bayesiana y el análisis de funciones de covarianza. La implementación y el ajuste exitosos requieren una comprensión completa de estos conceptos.

Casos de uso

Los GPs se utilizan ampliamente en diversas aplicaciones del mundo real debido a su flexibilidad y capacidad para cuantificar la incertidumbre. Algunos de los casos de uso clave incluyen:

Pronóstico de series temporales: Los GPs destacan en el pronóstico de puntos de datos futuros mientras producen mediciones precisas de incertidumbre. Los mercados financieros, el modelado climático y la previsión de la demanda utilizan los GPs como sus herramientas estándar porque ofrecen predicciones precisas con intervalos de confianza.
Análisis de datos espaciales: Los GPs son herramientas robustas de análisis de datos espaciales. Extraen relaciones espaciales de datos de monitoreo ambiental, información sobre uso del suelo y observaciones meteorológicas. Las aplicaciones de geoestadística utilizan principalmente estos modelos para operaciones de kriging.
Optimización de hiperparámetros: Los GPs son vitales en la optimización bayesiana, optimizando parámetros de aprendizaje automático, estructuras de aprendizaje profundo y diseños experimentales que implican evaluaciones de funciones costosas.
Detección de anomalías: Los GPs destacan en la detección de anomalías, lo que resulta esencial para detectar fraudes y mantener sistemas de equipos predictivos y diagnósticos médicos.
Aprendizaje por refuerzo: Los GPs respaldan los sistemas de toma de decisiones mediante el aprendizaje por refuerzo, especialmente cuando el modelado de la incertidumbre sigue siendo esencial en robótica, sistemas autónomos y juegos.

Herramientas y bibliotecas

Las herramientas especializadas son necesarias para una implementación eficiente de GP porque simplifican las tareas de entrenamiento, inferencia y optimización de modelos. Diferentes bibliotecas ofrecen marcos integrales que permiten a los profesionales utilizar GPs para aplicaciones prácticas. Algunas de las herramientas incluyen:

GPy: Una biblioteca fácil de usar para realizar modelado de procesos gaussianos. Proporciona una interfaz sencilla para la definición de kernels, el ajuste de modelos y las tareas de predicción.
GPflow: Una biblioteca de procesos gaussianos a gran escala creada sobre TensorFlow. Admite enfoques modernos de optimización, incluida la inferencia variacional, lo que la hace ideal para aplicaciones escalables.
Scikit-learn: Ofrece una implementación sencilla de regresión y clasificación con GP, lo que permite a principiantes y profesionales trabajar con ella.
GPyTorch: Una biblioteca de procesos gaussianos construida sobre PyTorch permite inferencia escalable y admite la integración del aprendizaje de kernels profundos.
Stan: Un lenguaje de programación probabilística que implementa el modelado de GP mediante aplicaciones de inferencia bayesiana.
Emukit: Un kit de herramientas para optimización bayesiana y herramientas de modelado probabilístico que ayudan a implementar GPs para necesidades de toma de decisiones.

Preguntas frecuentes

¿Para qué se utilizan los procesos gaussianos?

Los GPs se utilizan para regresión, clasificación y optimización bayesiana, proporcionando predicciones probabilísticas con estimaciones de incertidumbre. Se utilizan en ML, geoestadística y pronóstico de series temporales.

¿Cómo manejan la incertidumbre los procesos gaussianos?

Los GPs gestionan la incertidumbre definiendo distribuciones de probabilidad sobre todas las funciones que coinciden con los puntos de datos observados. Esto permite predicciones con medias calculadas e intervalos de confianza cuantificados.

¿Qué es un kernel en el contexto de los procesos gaussianos?

Los GPs utilizan kernels como funciones de covarianza para identificar similitudes entre puntos de datos definiendo estructuras de covarianza del proceso. El kernel elegido influye en la suavidad del modelo.

¿Se pueden utilizar los procesos gaussianos para conjuntos de datos grandes?

Los GPs tradicionales enfrentan desafíos computacionales con conjuntos de datos grandes debido a su complejidad temporal cúbica, pero la escalabilidad ha mejorado con aproximaciones dispersas como los GPs dispersos.

¿Cómo se comparan los procesos gaussianos con las redes neuronales?

Los GP ofrecen predicciones que incluyen mediciones precisas de incertidumbre. Las redes neuronales proporcionan resultados deterministas, pero necesitan conjuntos de datos extensos para igualar los resultados de rendimiento.

Recursos relacionados

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

Evaluación del rendimiento de Milvus 2023

En este tutorial aprenderá sobre los datos no estructurados basados en texto.

Introducción a la búsqueda de similitud vectorial

Cómo las piezas semánticamente similares de datos no estructurados están "cerca" y "lejos" unas de otras.

¿Qué es una base de datos vectorial?

Una base de datos vectorial es una solución sencilla y totalmente gestionada para almacenar, indexar y buscar en un conjunto masivo de datos no estructurados que aprovecha la potencia de las incrustaciones de los modelos de aprendizaje automático.

Procesos gaussianos: Una guía completa para el modelado probabilístico

¿Qué es el proceso gaussiano?

Cómo funciona

Distribución normal multivariante

Kernels (Funciones de covarianza)

Modelos no paramétricos

Probabilidad conjunta y condicional

Hiperparámetros y su influencia

Conexiones con otros modelos

Máquinas de vectores de relevancia (RVMs)

Filtrado de Kalman

Comparación con otros modelos de aprendizaje automático

Beneficios y desafíos

Beneficios

Desafíos

Casos de uso

Herramientas y bibliotecas

Preguntas frecuentes

¿Para qué se utilizan los procesos gaussianos?

¿Cómo manejan la incertidumbre los procesos gaussianos?

¿Qué es un kernel en el contexto de los procesos gaussianos?

¿Se pueden utilizar los procesos gaussianos para conjuntos de datos grandes?

¿Cómo se comparan los procesos gaussianos con las redes neuronales?

Recursos relacionados

Contenido

Comienza Gratis, Escala Fácilmente

Comparte este artículo

Recursos relacionados

Evaluación del rendimiento de Milvus 2023

Introducción a la búsqueda de similitud vectorial

¿Qué es una base de datos vectorial?