Glossary
Overfitting and Underfitting

Sobreajuste y subajuste: alcanzar el punto óptimo para la IA

Sobreajuste y subajuste: alcanzar el punto óptimo para la IA

Figura 1- Lograr el equilibrio- Visualización del subajuste y el sobreajuste

Figura 1: Lograr el equilibrio: visualización del subajuste y el sobreajuste

La consistencia y la fiabilidad siempre han sido importantes en la inteligencia artificial y el aprendizaje automático. Muchos modelos de IA logran un rendimiento notable durante el entrenamiento y son precisos y eficientes. Sin embargo, su rendimiento disminuye cuando se implementan en entornos del mundo real. El sobreajuste y el subajuste son dos problemas importantes que afectan las diferencias entre el entrenamiento y la aplicabilidad en el mundo real. Estos constituyen un desafío significativo durante el desarrollo de modelos.

Superar estos desafíos es clave para crear modelos potentes y fiables que generalicen bien a diversos conjuntos de datos. Este artículo revelará las señales y causas del sobreajuste y el subajuste, junto con sus implicaciones y usos prácticos.

¿Qué son el sobreajuste y el subajuste?

Entendamos qué son el sobreajuste y el subajuste.

Sobreajuste

El sobreajuste se refiere a la situación en la que el modelo "memoriza" en lugar de "entender" los patrones subyacentes entre las variables de entrada y salida. Esto ocurre cuando un modelo se vuelve demasiado complejo e intenta ajustarse a cada detalle menor y fluctuación en los datos de entrenamiento. El modelo aprende patrones significativos, tendencias, ruido irrelevante, anomalías y variaciones aleatorias específicas del conjunto de datos de entrenamiento.

Por ejemplo, el sobreajuste en el conjunto de datos de comportamientos de compra de clientes puede hacer que el modelo vincule alguna combinación única de hora y tipo de producto con la compra, ya que ocurrió en los datos de entrenamiento. Aun así, este patrón no se generaliza a conjuntos de datos nuevos y no vistos.

El impacto del sobreajuste se vuelve más evidente cuando el modelo se evalúa con datos de validación o prueba. Aunque el modelo logra puntuaciones casi perfectas en el conjunto de datos de entrenamiento, su rendimiento en datos nuevos a menudo disminuye significativamente.

Subajuste

El subajuste ocurre cuando un modelo es demasiado simple para aprender los patrones subyacentes en los datos, lo que conduce a un bajo rendimiento. El modelo no puede identificar la relación entre las características de entrada y las variables objetivo, lo que provoca predicciones incorrectas en los datos de entrenamiento y en datos no vistos.

Esto significa que el modelo no ha aprendido del problema que intenta resolver. Esto se debe a diversos factores, como la simplicidad del modelo, un entrenamiento deficiente o la falta de características. Por ejemplo, considere un modelo de predicción de precios de viviendas que utiliza solo una característica, el tamaño de la casa, para predecir el precio.

El modelo puede asumir que las casas más grandes son más caras, pero no logra incorporar otros factores críticos que impactan los precios. Estos factores incluyen la ubicación, el estado y las tendencias del mercado. Esta sobresimplificación puede llevar a predicciones poco fiables e inexactas.

Sobreajuste y subajuste en el entrenamiento de modelos

Ahora, veamos las principales causas del sobreajuste y el subajuste y cómo detectarlos.

Señales de sobreajuste

Rendimiento errático en los conjuntos de validación: Cuando el modelo se prueba en diferentes conjuntos de validación, puede resultar en métricas de precisión o pérdida fluctuantes, lo que revela su incapacidad para generalizar.
Falta de adaptabilidad a nuevas situaciones: Los modelos sobreajustados generalmente no logran predecir cuando se exponen a entradas ligeramente variadas o no vistas. Esto limita su utilidad práctica.
Alta sensibilidad: Los modelos sobreajustados son demasiado sensibles y pueden dar resultados diferentes cuando se entrenan con datos ligeramente distintos. Esto se debe a que memorizan detalles en lugar de aprender patrones.

Causas del sobreajuste

Modelos excesivamente complicados: Las arquitecturas complejas tienen más probabilidades de memorizar el ruido en los datos de entrenamiento en lugar de aprender los patrones subyacentes. La falta de datos de entrenamiento obliga al modelo a prestar una atención excesiva a las pocas muestras disponibles. Por lo tanto, el modelo puede interpretar el ruido o los valores atípicos como patrones importantes, reduciendo su capacidad de generalización.
Épocas de entrenamiento: Cuando hay demasiadas épocas de entrenamiento sin una regularización adecuada, el modelo se ajusta finamente a las peculiaridades de los datos de entrenamiento. Esto aumenta el riesgo de sobreajuste mientras el modelo minimiza el error de entrenamiento a expensas de la generalización.
Falta de técnicas de preprocesamiento de datos: No aplicar técnicas de preprocesamiento de datos como el escalado de características o la normalización puede aumentar el riesgo de sobreajuste. Sin este proceso, el modelo puede no aprender adecuadamente, especialmente si algunas características están en una escala diferente. Los mecanismos de validación inadecuados durante el entrenamiento pueden no detectar la tendencia al sobreajuste, que puede pasar desapercibida de esta manera. El problema se revela entonces en el momento de la prueba, cuando el modelo generaliza a datos no vistos.

Señales de subajuste

Falta de mejora en la precisión: A pesar de añadir más datos al modelo, su arquitectura no extrae información significativa.
Convergencia lenta del entrenamiento: Esto ocurre cuando un modelo entrena durante demasiado tiempo para minimizar la pérdida. Sugiere que el modelo carece de capacidad suficiente para aprender los patrones subyacentes.
Predicciones uniformes en una amplia variedad de datos de entrada: Cuando un modelo produce salidas similares o idénticas para una amplia gama de entradas, esto indica subajuste. Muestra que el modelo no está capturando las distinciones presentes en los datos.

Causas del subajuste

Selección del modelo: La selección de modelos simples, como la regresión lineal, puede hacer predicciones inexactas. Esto ocurre porque el modelo de regresión lineal asume una relación lineal. Esta suposición puede violarse significativamente cuando los datos contienen patrones complejos y no lineales.
Épocas de entrenamiento: No contar con suficientes épocas de entrenamiento puede impedir que el modelo aprenda completamente los patrones de los datos, lo que resulta en predicciones inexactas.
Calidad de los datos: Los conjuntos de datos de baja calidad con características faltantes o irrelevantes pueden empeorar el subajuste. Esto se debe a que el modelo tiene información insuficiente para hacer predicciones.
Simplicidad: Aunque la simplicidad ayuda a evitar el sobreajuste, demasiada simplificación podría dejar patrones críticos sin modelar y degradar la eficacia de un modelo.

Figura 2- Ilustración de herramientas de IA

Figura 2: Ilustración de herramientas de IA

Cómo prevenir el sobreajuste y el subajuste

Evitar el sobreajuste y el subajuste es clave para mantener tus modelos funcionando sin problemas en aplicaciones en tiempo real. Por eso es importante conocer las mejores formas de prevenirlos. Veamos:

Prevención del sobreajuste

Usa regularización L1 o L2 para penalizar modelos excesivamente complejos. La regularización evita que el modelo sobreajuste los datos de entrenamiento al añadir un término de penalización a la función de pérdida, lo que favorece modelos más simples.
Introduce dropout para crear aleatoriedad en las redes neuronales y ayudar a prevenir la coadaptación. Dado que una fracción de neuronas se desactiva aleatoriamente cada vez durante el entrenamiento, esto obliga al modelo a aprender características más robustas y generalizadas.
Usa aumento de datos para incrementar artificialmente la diversidad de un conjunto de datos de entrenamiento. Esto incluye técnicas como volteo, rotación y adición de ruido en las muestras de datos. Permite que el modelo aprenda de patrones más generales, mejorando su capacidad de generalización.
Monitorea el progreso del entrenamiento usando datos de validación y detente temprano cuando esté claro que el modelo no está mejorando. Este enfoque, llamado parada temprana, ayuda a prevenir el sobreajuste evitando entrenamiento innecesario.
Usa técnicas de validación cruzada para probar el rendimiento del modelo en múltiples subconjuntos de datos. Esto ayudará a que los modelos generalicen bien a diferentes distribuciones de datos.

Prevención del subajuste

Aumenta la complejidad del modelo a medida que el patrón se vuelve más sutil. Por ejemplo, si tus datos muestran una relación no lineal, usa un modelo de red neuronal en lugar de un modelo basado en regresión lineal.
Asegura suficientes épocas de entrenamiento para la convergencia. La mayoría de los modelos requieren tiempo suficiente para aprender patrones significativos. Por lo tanto, la detención temprana puede provocar subajuste.
Usa algoritmos o arquitecturas avanzadas. Los árboles de decisión o los métodos de ensamble, como los bosques aleatorios, aumentan el poder predictivo del modelo en conjuntos de datos complejos.
Preprocesa los datos para que se filtre el ruido y solo aparezcan patrones prominentes. Esto incluye escalado, normalización, imputación y técnicas más exhaustivas que preparan los datos de entrada lo suficientemente bien para que los modelos aprendan de ellos.

Comparación de sobreajuste y subajuste

El sobreajuste y el subajuste son desafíos comunes para los modelos de IA, pero difieren en sus características. Comparemos sus características clave para entender cómo impactan el rendimiento del modelo.

Aspecto	Sobreajuste	Subajuste
Complejidad del modelo	Demasiado alta	Demasiado baja
Rendimiento de los datos de entrenamiento	Excelente	Deficiente
Rendimiento en datos de prueba	Deficiente	Deficiente
Causas comunes	Complejidad excesiva del modelo, aprendizaje del ruido	Modelos simples, entrenamiento insuficiente
Comportamiento de aprendizaje	Memoriza detalles, incluido el ruido	No logra aprender patrones críticos
Aplicación en el mundo real	Predicciones poco fiables	Resultados ineficaces, excesivamente simplistas
Medida correctiva	Regularización, más datos, modelos más simples	Mayor complejidad, más características
Dependencia de los datos	Depende en gran medida de un conjunto de datos específico	Tiene dificultades incluso con datos abundantes
Flexibilidad	Excesivamente adaptado a los datos de entrenamiento	Demasiado rígido para adaptarse a las variaciones de los datos

Beneficios y desafíos del sobreajuste y el subajuste

Un equilibrio entre el sobreajuste y el subajuste es importante para desarrollar modelos que funcionen bien con datos nuevos. Sin embargo, pueden surgir desafíos al lograr este equilibrio. A continuación se presentan los principales beneficios y desafíos de lograr este equilibrio.

Beneficios

Modelos equilibrados: Lograr un equilibrio entre el sobreajuste y el subajuste es clave para alcanzar un buen rendimiento en conjuntos de datos diversos. Esto ayuda a los modelos a manejar datos no vistos de manera efectiva al evitar el sobreajuste al ruido o la sobresimplificación de patrones, lo que da como resultado resultados fiables y consistentes en aplicaciones del mundo real.
Generalización mejorada: Evitar el sobreajuste conduce a modelos que generalizan bien a datos no vistos. La generalización permite que un modelo aplique los patrones que aprendió durante el entrenamiento para hacer predicciones precisas en escenarios del mundo real. Por lo tanto, esto amplifica la utilidad y la efectividad de tu modelo.
Eficiencia en el uso de recursos: Un modelo equilibrado no necesita reentrenamientos masivos ni cambios. Por lo tanto, el consumo de recursos computacionales y humanos es mínimo.
Mejor poder predictivo: Los modelos que no presentan ni sobreajuste ni subajuste son buenos para identificar patrones y relaciones significativos en los datos. Esto conduce a predicciones mejores y más accionables.
Escalabilidad: Los modelos complejos están mejor equipados para manejar conjuntos de datos más grandes, lo que los hace adecuados para diversas aplicaciones. Sin embargo, la escalabilidad también depende de factores como los recursos computacionales y la calidad de los datos.

Desafíos

Regularización: La selección y el ajuste fino de los métodos de regularización, como L1 o L2, siguen estando entre los más desafiantes. La intensidad de la regularización debe optimizarse para que el modelo siga siendo efectivo y no esté excesivamente restringido.
Calidad de los datos: La mala calidad de los datos, por ejemplo, ruido, valores faltantes o características irrelevantes, aviva el fuego al fortalecer ambos problemas: el subajuste y el sobreajuste. Garantizar datos de alta calidad y bien preprocesados constituye la base misma de un modelado exitoso.
Ajuste de hiperparámetros: Parámetros como la tasa de aprendizaje, el tamaño del lote y el número de épocas implican una gran experimentación y suelen requerir mucho tiempo.
Métricas de evaluación: La selección de métricas para la evaluación del rendimiento del modelo debe ser adecuada. Las métricas deben capturar tanto la precisión como la capacidad de generalización para evitar evaluaciones engañosas del éxito del modelo.
Entornos dinámicos: En campos en evolución, los modelos deben adaptarse rápida y eficazmente. Equilibrar la estabilidad y la capacidad de respuesta a nuevos datos introduce otra capa de complejidad en el desarrollo de modelos.

Herramientas de gestión del sobreajuste y el subajuste

Existen múltiples herramientas disponibles para prevenir el sobreajuste y el subajuste. Estas incluyen:

TensorFlow y PyTorch son los dos frameworks más populares. Proporcionan bibliotecas bien desarrolladas para regularización, capas de dropout y aumento de datos, que ayudan a probar rápidamente modelos complejos para detectar sobreajuste y subajuste.
Scikit-learn es una biblioteca versátil que proporciona herramientas para probar múltiples modelos, selección de características y validación cruzada. Ofrece un mejor manejo del subajuste y el sobreajuste al probar diferentes algoritmos o hiperparámetros.

PREGUNTAS FRECUENTES

¿Cómo puedo saber si mi modelo de IA está sobreajustándose?

Debe supervisarse el rendimiento tanto en los conjuntos de entrenamiento como de validación. Si funciona mejor con los datos de entrenamiento que con los de validación, entonces está sobreajustándose. Diferentes métodos de regularización, como L2 o dropout, pueden ayudar a prevenir este problema.

¿Cuáles son algunas formas habituales de evitar el subajuste?

La complejidad del modelo debe estar en consonancia con los datos. Para aprender más patrones, utilice modelos más expresivos y aumente las épocas de entrenamiento. Agregar más características al conjunto de datos también puede evitar esta situación.

¿Es útil la validación cruzada para combatir el sobreajuste?

La validación cruzada implica dividir los datos en múltiples subconjuntos para evaluar de manera consistente el rendimiento del modelo. Garantiza que su modelo generalice bien con datos no vistos, y entrenar y probar en diferentes divisiones identifica señales tempranas de sobreajuste.

¿Ayuda el aumento de datos con el sobreajuste?

Sí, el aumento de datos incrementa la diversidad dentro del conjunto de entrenamiento mediante rotaciones, volteos o la adición de ruido. Esto ayuda a generalizar al simular la variabilidad del mundo real, reduciendo la dependencia de patrones específicos en los datos.

¿Cómo contribuye Milvus a resolver estos problemas?

Milvus es una base de datos vectorial de código abierto que puede procesar grandes volúmenes de datos de manera eficiente y admite búsquedas rápidas de similitud y agrupamiento. Con soporte para búsqueda de texto completo y compresión vectorial, el framework preprocesa eficientemente los datos para garantizar datos de alta calidad para el entrenamiento. Esto reduce el riesgo de sobreajuste y subajuste.

Recursos relacionados

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

DiskANN: una solución ANNS basada en disco

con alta recuperación y alto QPS en un conjunto de datos a escala de miles de millones.

Búsqueda por similitud vectorial con Milvus

Aprenda a crear un motor de búsqueda de similitud semántica

Cómo obtener las incrustaciones vectoriales adecuadas

Una introducción completa a las incrustaciones vectoriales y cómo generarlas con modelos populares de código abierto.