Glossary
Neural Networks

¿Qué es una red neuronal? Guía para desarrolladores

¿Qué es una red neuronal? Guía para desarrolladores

¿Qué son las redes neuronales?

Las redes neuronales son modelos computacionales inspirados en la estructura del cerebro humano. Están formadas por neuronas organizadas en capas. Las neuronas son funciones de datos de entrada, x, y variables tensoriales aprendibles (pesos y sesgos). Piense en una red neuronal como una gran F(x) o modelo. Es decir, una función compleja y no lineal entrenada para ajustarse a los datos de entrada. Esta tecnología que cambia paradigmas permite a las máquinas comprender patrones y resolver problemas complejos.

Arquitectura de las redes neuronales

Una red neuronal se organiza en capas: entrada, oculta y salida.

Capa de entrada: Aquí es donde se introducen los datos en la red.
Capas ocultas: Estas capas intermedias procesan los datos a través de múltiples transformaciones secuenciales. Cada capa oculta extrae características cada vez más abstractas y complejas de los datos de entrada.
Capa de salida: La capa final produce el resultado basado en la información procesada de las capas ocultas.

Importancia de las redes neuronales

Las redes neuronales son vitales por varias razones.

Reconocimiento de patrones: Las redes neuronales destacan en el reconocimiento de patrones intrincados en los datos, lo que las hace muy eficaces en tareas como el reconocimiento de imágenes y del habla.

Adaptabilidad: Al entrenarse con grandes conjuntos de datos, las redes neuronales pueden adaptarse y mejorar su rendimiento con el tiempo.
No linealidad: Las redes neuronales pueden modelar relaciones complejas entre entradas y salidas, incluidas las relaciones no lineales.
Procesamiento paralelo: Las redes neuronales pueden procesar datos en paralelo, lo que acelera el cálculo en tareas a gran escala.

Principio de funcionamiento de las redes neuronales

Las redes neuronales pueden utilizarse en dos modos: entrenamiento e inferencia. Durante el entrenamiento, la red ajusta sus pesos de conexión procesando los datos de entrada y comparando sus predicciones con los resultados esperados. Este proceso minimiza las diferencias entre las predicciones y los resultados reales mediante algoritmos de optimización como el descenso de gradiente. Una vez entrenada, la red está lista para hacer predicciones con datos nuevos que no se han visto. Utilizar una red neuronal entrenada de este modo se denomina inferencia.

Tipos de redes neuronales

Redes neuronales artificiales (RNA)

Las redes neuronales artificiales (RNA), también conocidas como redes neuronales feedforward, son un tipo fundacional de la tecnología de redes neuronales. Están formadas por neuronas de entrada, ocultas y de salida, que reflejan la estructura interconectada del cerebro humano. Las RNA destacan en el reconocimiento de patrones mediante el ajuste de pesos entre neuronas.

Cuando una RNA incorpora varias capas ocultas, se denomina DNN (red neuronal profunda). Estas redes destacan en el aprendizaje de jerarquías complejas de características a partir de extensos conjuntos de datos.

Cómo funcionan las redes neuronales artificiales

Las RNA utilizan el procesamiento feedforward y la retropropagación. Constan de neuronas interconectadas con pesos y sesgos inicializados, utilizando métodos como inicialización cero o constante, inicialización aleatoria, inicialización Xavier o Glorot. Los datos de entrada se introducen en la capa de entrada y pasan a las capas ocultas a través de los bordes. Las neuronas de las capas ocultas aplican funciones de activación, introduciendo no linealidad, y la capa de salida genera predicciones o resultados basados en los datos procesados.

Estas predicciones se comparan con los resultados reales para calcular el error. Durante el entrenamiento, las señales de error se propagan hacia atrás, ajustando los pesos mediante algoritmos de optimización para minimizar las diferencias entre las predicciones y los resultados reales.

Para saber más, puedes consultar este blog sobre RNA.

Aplicaciones

Las RNA desempeñan un papel importante en diversas tareas de regresión y clasificación, como el análisis de opiniones, la predicción del precio de las acciones, la evaluación del riesgo crediticio, la detección del fraude, el comercio algorítmico, la detección de anomalías, el mantenimiento predictivo, etc. Además, las RNA son la base de otras redes neuronales como las CNN y las RNN.

Redes neuronales convolucionales (CNN)

Las RNA tradicionales tienen capas totalmente conectadas que tratan cada unidad de entrada de forma independiente. Esta arquitectura no resulta adecuada para manejar datos de tipo reticular, como las imágenes. Las redes neuronales convolucionales (CNN) están especializadas en el procesamiento de datos de tipo cuadriculado, principalmente imágenes y vídeos, ya que están diseñadas para aprovechar la estructura espacial de las imágenes. Utilizan conectividad local, parámetros compartidos, aprendizaje de características jerárquicas, capas convolucionales y capas de agrupación para extraer automáticamente características jerárquicas de los datos de entrada.

Arquitectura y funcionamiento

Capa de entrada: La entrada de datos de imagen.
Capas convolucionales: Estas capas detectan características espaciales, creando patrones estructurados dentro de las imágenes. Para identificar las distintas características, se aplica un conjunto de filtros aprendibles (kernels) a las imágenes de entrada. Una CNN suele constar de varias capas convolucionales superpuestas. Las capas más profundas aprenden aspectos más abstractos y complicados, mientras que las capas anteriores captan información sencilla como bordes y texturas. Los resultados producidos por las capas de convolución se denominan mapas de características.
Capas de agrupación: Estas capas realizan pasos de reducción en los que se disminuyen las dimensiones de los datos conservando la información esencial. Aunque se pueden reducir las dimensiones de los datos controlando el paso de la convolución, una forma eficaz de hacerlo es utilizar las capas de agrupamiento. Las operaciones de agrupación más comunes son la agrupación máxima y la agrupación media.
Capas totalmente conectadas**: Una vez obtenidas las características esenciales de las imágenes, las capas totalmente conectadas se encargan de realizar la predicción final. Cada capa FC está densamente conectada con su capa anterior e inmediata y suele utilizarse para producir las puntuaciones y probabilidades de la tarea de clasificación.

Para saber más, puedes consultar esta guía completa sobre CNN.

Aplicaciones

Las CNN revolucionan la clasificación de imágenes, el reconocimiento de imágenes, la detección de objetos, la segmentación de imágenes, el análisis de imágenes médicas, el reconocimiento de escritura a mano, etc. Todas estas tareas implican datos de imagen en los que las CNN destacan. Pero eso no es todo. Debido a su capacidad para procesar datos de tipo cuadriculado, las CNN también se aplican en multitud de tareas relacionadas con el habla, como el reconocimiento del habla, la traducción, etc.

Redes neuronales recurrentes (RNN)

Aunque las RNA y las CNN son buenas para muchas tareas, no lo son para manejar dependencias temporales y secuencias de datos. Las redes neuronales recurrentes (RNN) sobresalen en el análisis de datos secuenciales, lo que es vital para tareas que implican datos de series temporales y procesamiento del lenguaje. Las RNN mantienen la memoria mediante bucles de retroalimentación. Las RNN funcionan con un esquema de memoria inherente que les permite procesar la entrada actual mientras recuerdan la anterior. Esta memoria se consigue mediante un estado oculto que evoluciona a medida que la red procesa cada elemento de la secuencia.

En ocasiones, las RNN pueden sufrir un problema denominado gradiente evanescente, que limita su capacidad para capturar dependencias de largo alcance. Por este motivo, se propusieron algunas variaciones de la arquitectura RNN que dieron lugar a las arquitecturas LSTM y GRU, las cuales, al mantener y actualizar selectivamente la información en contextos amplios, proporcionan capacidades mejoradas para modelar secuencias complicadas.

Arquitectura y funcionamiento

Capa de entrada: Esta capa recibe datos secuenciales como entrada, que pueden ser una secuencia de palabras en una frase, datos de series temporales, etc. Cada punto de estos datos secuenciales se representa mediante un vector a menudo conocido como vector de entrada.
Capa recurrente: Esta capa procesa y recuerda los datos secuenciales. En cada paso temporal (t), esta capa procesa el vector de entrada actual y el estado oculto previo (salida) del paso temporal anterior (t-1) para producir un nuevo estado o la salida para el estado actual.
Capa de salida**: Esta capa produce los resultados del análisis secuencial. La arquitectura de esta capa de salida depende de la tarea específica. Por ejemplo, en tareas de secuencia a secuencia (p. ej., traducción de idiomas), se puede utilizar otra RNN o una red neuronal feedforward para la capa de salida.

Para obtener más información, puede consultar este blog sobre RNNs.

Aplicaciones

Las RNN permiten realizar tareas en las que la secuencia o la dependencia temporal son importantes, como la traducción de idiomas, la generación de voz, el reconocimiento de voz, la generación de música, la predicción meteorológica, la predicción de tendencias financieras, etc.

Transformadores

Las RNN son propensas al problema del gradiente evanescente, que limita su capacidad para aprender y propagar información en secuencias largas. Además, son incapaces de comprender el orden de la secuencia. Aquí es donde ayuda una arquitectura de transformadores. Los transformadores emplean mecanismos de autoatención que les permiten sopesar la importancia de las distintas partes de la secuencia de entrada.

Este mecanismo es capaz de captar las dependencias entre los elementos de una secuencia independientemente de su posición, lo que lo hace muy eficaz para tareas como la traducción de idiomas, el análisis de sentimientos y la generación de textos. También ofrece capacidades de procesamiento en paralelo, lo que significa que puede procesar los datos en paralelo para gestionar secuencias largas y grandes conjuntos de datos de forma eficiente.

Arquitectura y funcionamiento

Incrustación de entrada: La secuencia de entrada, por ejemplo una secuencia de texto, se convierte en incrustaciones. Estas incrustaciones son la representación vectorial numérica del texto, que puede generarse utilizando un modelo preentrenado como Word2vec o GloVe.

Codificación posicional: Los modelos transformadores no comprenden intrínsecamente el orden de los elementos en una secuencia. Por lo tanto, se añade una codificación posicional a las incrustaciones de entrada que proporciona información sobre la posición de cada elemento en la secuencia, lo que se hace con la ayuda de una combinación de funciones trigonométricas.

Capas codificadoras y decodificadoras: Las capas codificadora y decodificadora son los bloques de construcción de los transformadores, que se repiten varias veces en la red. Cada una consta de tres componentes principales:
- Atención multicabezal: Calcula las puntuaciones de atención para cada par de posiciones en la secuencia de entrada. Capta las dependencias entre elementos independientemente de sus posiciones. El resultado de la autoatención multicabezal es un conjunto de representaciones contextuales para cada posición de entrada. Red directa: Las representaciones obtenidas de la atención multicabezal se pasan a una red feedforward que aplica una serie de transformaciones lineales y funciones de activación no lineales a cada posición de forma independiente.
- Conexiones residuales y normalización de capas: Se añaden conexiones residuales (conexiones de salto) alrededor de las capas de autoatención multicabezal y de avance, seguidas de normalización de capas. Estos componentes ayudan a estabilizar el entrenamiento y permiten que el gradiente fluya de forma más eficaz.
Capa de salida: La parte superior del decodificador es una salida posterior que genera predicciones o clasificaciones.

Para saber más, echa un vistazo a este blog sobre Transformer Model.

Aplicaciones

Las redes neuronales, en particular los transformadores, han mejorado drásticamente el procesamiento del lenguaje, permitiendo traducciones precisas, resúmenes y análisis de sentimientos.

Conclusión

Después de leer este artículo, ya conoces las redes neuronales, su arquitectura y su funcionamiento. Has visto diferentes tipos de redes neuronales y por qué son la elección correcta para un caso de uso específico. Este artículo era sólo un punto de partida, así que no dude en explorar cada tipo en detalle para una mejor comprensión.

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

Cómo obtener las incrustaciones vectoriales adecuadas

Una introducción completa a las incrustaciones vectoriales y cómo generarlas con modelos populares de código abierto.

¿Qué es una base de datos vectorial?

Una base de datos vectorial es una solución sencilla y totalmente gestionada para almacenar, indexar y buscar en un conjunto masivo de datos no estructurados que aprovecha la potencia de las incrustaciones de los modelos de aprendizaje automático.

Evaluación del rendimiento de Milvus 2023

En este tutorial aprenderá sobre los datos no estructurados basados en texto.

Qué es GPTCache

GPTCache es una herramienta de código abierto diseñada para mejorar la eficiencia y velocidad de las aplicaciones basadas en GPT.