Qué es ImageNet y por qué es importante para la visión por computadora

Cuando usas herramientas avanzadas de IA generativa para crear imágenes para tu artículo de investigación o viajas en uno de los taxis autónomos de San Francisco, quizá no te des cuenta de que estas tecnologías deben su progreso a un conjunto de datos meticulosamente curado, ImageNet.

ImageNet es una base de datos de imágenes a gran escala, disponible públicamente, diseñada para impulsar la investigación en el reconocimiento visual de objetos. Comprende más de 14 millones de imágenes, cada una anotada con etiquetas de conjuntos de sinónimos de WordNet. Estas anotaciones detalladas son importantes para garantizar la identificación y clasificación precisas de imágenes, lo que convierte a ImageNet en un recurso invaluable para entrenar y evaluar modelos de aprendizaje profundo en diversas tareas de visión por computadora.

Aunque ImageNet no posee las imágenes que cataloga, proporciona URLs y miniaturas, facilitando el acceso a estas imágenes con fines de investigación. Este conjunto de datos extenso y bien organizado se ha convertido en una herramienta fundamental para desarrollar sistemas de reconocimiento visual más precisos y efectivos, contribuyendo significativamente a los avances en la visión por computadora.

un Synsets de ImageNet con 15 muestras de imágenes (una imagen de cada categoría). b conjunto de datos Corel-1000 que muestra 15 imágenes de muestra de 10 categorías.

Fuente

¿Qué es ImageNet?

ImageNet es una base de datos de imágenes a gran escala, integral y disponible públicamente, desarrollada meticulosamente para apoyar diversas tareas de visión por computadora. Iniciada por la investigadora en IA Fei-Fei Li, incluye más de 14 millones de imágenes, cada una anotada según las etiquetas de validación de la jerarquía de WordNet. Este sistema de etiquetado estructurado es crucial para identificar objetos con precisión, lo que convierte a ImageNet en un recurso fundamental para entrenar algoritmos avanzados de reconocimiento visual.

El conjunto de datos emplea crowdsourcing para su proceso de anotación. Las anotaciones a nivel de imagen indican si una clase de objeto está presente o ausente, mientras que las anotaciones a nivel de objeto proporcionan cuadros delimitadores alrededor de las partes visibles de los objetos. ImageNet utiliza una variante del esquema de WordNet para la categorización e incluye 120 categorías de razas de perros para una clasificación de grano fino. Para 2012, era el mayor usuario académico de Mechanical Turk, con trabajadores que identificaban un promedio de 50 imágenes por minuto.

Más allá de las etiquetas básicas, más de un millón de imágenes incluyen cuadros delimitadores detallados, lo que mejora la utilidad del conjunto de datos para desarrollar algoritmos capaces de identificar y localizar objetos con precisión. Desde su introducción, ImageNet ha impulsado significativamente la clasificación de imágenes y la detección de objetos, impactando la investigación académica y las aplicaciones prácticas en industrias como los vehículos autónomos, la imagenología médica y los sistemas de seguridad. Sigue siendo un punto de referencia crítico para evaluar tecnologías de reconocimiento visual.

La necesidad de conjuntos de datos de entrenamiento de imágenes

Entrenar algoritmos de clasificación de imágenes es una tarea de gran importancia, que requiere acceso a conjuntos de datos de imágenes extensos y bien seleccionados. Estos conjuntos de datos, que deben imitar estrechamente los tipos de datos que el algoritmo encontrará en aplicaciones del mundo real, desempeñan un papel crucial en el éxito del algoritmo. Deben contener una amplia variedad de imágenes que representen las diferentes categorías que se espera que el algoritmo reconozca y clasifique. En el aprendizaje supervisado, los conjuntos de datos etiquetados son esenciales, ya que cada imagen viene con etiquetas específicas que proporcionan la guía necesaria para que el algoritmo aprenda de los datos. Estas etiquetas podrían incluir información sobre los objetos presentes en la imagen, sus ubicaciones e incluso sus relaciones con otros objetos dentro de la escena. Por lo general, el conjunto de datos se divide en dos subconjuntos principales: un conjunto de entrenamiento y un conjunto de prueba. El conjunto de datos de entrenamiento, que suele comprender alrededor del 70% del conjunto de datos total, se utiliza para enseñar al algoritmo cómo reconocer patrones y hacer predicciones. El 30% restante del conjunto de datos se reserva para pruebas, lo que permite a los investigadores evaluar el rendimiento del algoritmo en imágenes no vistas previamente. Este proceso garantiza que el algoritmo generalice bien a nuevos datos y funcione con precisión en escenarios del mundo real.

Además de su uso en el entrenamiento de algoritmos, los conjuntos de datos de imágenes desempeñan un papel como puntos de referencia para evaluar y comparar diferentes algoritmos de visión por computadora. Los investigadores pueden evaluar objetivamente su rendimiento en tareas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes aplicando varios algoritmos al mismo conjunto de datos. Este proceso de evaluación comparativa es crucial para avanzar en el campo, ya que destaca las fortalezas y debilidades de diferentes enfoques e impulsa la innovación en el diseño de algoritmos. Por ejemplo, en imágenes médicas, los conjuntos de datos de referencia se utilizan para evaluar algoritmos que detectan enfermedades en exploraciones, como imágenes de TC o RM, garantizando que estos algoritmos cumplan con los altos estándares requeridos para el uso clínico. Del mismo modo, en los vehículos autónomos, los conjuntos de datos de imágenes se utilizan para entrenar y probar sistemas que reconocen y responden a objetos como peatones, otros automóviles y señales de tráfico, contribuyendo al desarrollo de una tecnología de conducción autónoma más segura y fiable.

Descarga y preprocesamiento del conjunto de datos ImageNet

Descargar el conjunto de datos ImageNet es un proceso intensivo en recursos que exige un espacio sustancial en disco y puede tardar varios días en completarse. Dado el tamaño y la complejidad del conjunto de datos, es aconsejable utilizar una instancia potente con abundante almacenamiento adicional para gestionar la descarga y la extracción de manera eficiente.

Para comenzar el proceso, debes registrarte en el sitio web de ImageNet y aceptar los términos y condiciones. Una vez registrado, puedes acceder a los enlaces de descarga. Sin embargo, debido al tamaño del conjunto de datos, que se divide en varios archivos grandes, un método estándar de "guardar como" no será suficiente. En su lugar, se necesita un script de descarga especializado. TensorFlow proporciona un script de este tipo en su repositorio, simplificando el proceso al automatizar la descarga y organización de los archivos del conjunto de datos. Este script garantiza que todas las partes del conjunto de datos se descarguen correctamente y se almacenen de manera organizada, listas para su posterior procesamiento y uso en el entrenamiento de modelos.

Clasificación de imágenes con redes neuronales convolucionales profundas

La clasificación de imágenes es una técnica fundamental en la visión por computadora, que permite la identificación y categorización de objetos principales dentro de fotos o videos. Este proceso depende en gran medida de modelos de aprendizaje profundo basados en IA diseñados para analizar imágenes y realizar con precisión tareas de reconocimiento de imágenes.

Las redes neuronales convolucionales (CNN) profundas son la columna vertebral de la clasificación de imágenes moderna. Sobresalen en el manejo de la complejidad del reconocimiento de objetos a pesar de los desafíos planteados por las variaciones en la apariencia de los objetos, la iluminación y el fondo. Aunque incluso grandes conjuntos de datos como ImageNet proporcionan amplios datos de entrenamiento, el problema de la clasificación de imágenes sigue siendo inherentemente complejo debido a la gran diversidad de datos visuales.

Las CNN, sin embargo, son particularmente adecuadas para esta tarea porque hacen suposiciones precisas sobre la naturaleza de las imágenes. Operan sobre los principios de estacionariedad de las estadísticas y localidad de las dependencias de píxeles, lo que significa que capturan eficazmente las jerarquías espaciales y los patrones locales dentro de las imágenes. Esta capacidad permite que las CNN generalicen bien entre diferentes tipos de imágenes, lo que las convierte en una herramienta poderosa para la clasificación de imágenes en diversas aplicaciones.

Aplicaciones de ImageNet en visión por computadora

El conjunto de datos ImageNet es un recurso para el desarrollo y la prueba de modelos de aprendizaje automático en diversas tareas de CV, incluida la clasificación de imágenes, la detección de objetos, el procesamiento de imágenes y la localización de objetos. Su vasta y diversa colección de imágenes anotadas es fundamental para entrenar modelos que puedan reconocer y categorizar con precisión objetos dentro de las imágenes.

Varias arquitecturas revolucionarias de aprendizaje profundo, como ResNet, AlexNet y VGG, deben su éxito en parte a la extensa evaluación comparativa y el desarrollo realizados utilizando el conjunto de datos ImageNet. Estos modelos, que han establecido nuevos estándares en la clasificación de imágenes, fueron entrenados en ImageNet y desde entonces se han convertido en la base de numerosas aplicaciones de CV, desde el reconocimiento facial hasta los vehículos autónomos.

La influencia de ImageNet se extiende mucho más allá de los primeros días del aprendizaje profundo, ya que continúa dando forma al campo de la CV. Su impacto es evidente en la evolución de las tareas de comprensión y clasificación de imágenes, donde sigue siendo un conjunto de datos clave para evaluar el rendimiento de nuevos modelos y algoritmos. A medida que la investigación y las aplicaciones contemporáneas de IA continúan avanzando, el legado de ImageNet como piedra angular de la investigación en visión por computadora perdura, impulsando la innovación y mejorando la precisión y eficacia de los sistemas de reconocimiento visual.

Mejores prácticas para trabajar con ImageNet

Al trabajar con el conjunto de datos ImageNet, es esencial seguir las mejores prácticas para garantizar la eficiencia y la seguridad de los datos. Un paso crítico es hacer una copia de seguridad del conjunto de datos para prevenir una posible pérdida de datos. Esto puede lograrse fácilmente utilizando AWS para almacenar el conjunto de datos en Amazon S3, proporcionando una solución de copia de seguridad fiable y escalable.

Implementar el conjunto de datos en nuevas instancias es sencillo, lo que facilita la configuración de entornos para entrenar y probar en diversas instancias. Para proyectos a gran escala, puedes utilizar técnicas de scripting y escalado para implementar el conjunto de datos en múltiples instancias, permitiendo el procesamiento paralelo y un entrenamiento de modelos más rápido.

Conclusión

ImageNet es un recurso crucial para la visión por computadora, que ofrece una gran colección de más de 14 millones de imágenes, cada una anotada utilizando la jerarquía de WordNet. Creado por Fei-Fei Li y su equipo, el conjunto de datos incluye anotaciones tanto a nivel de imagen como a nivel de objeto, lo que lo hace esencial para entrenar y probar modelos de aprendizaje profundo. Las anotaciones detalladas ayudan a mejorar el reconocimiento de imágenes y la localización en imágenes.

El impacto de ImageNet se extiende más allá de la investigación. Se utiliza ampliamente en aplicaciones prácticas como vehículos autónomos e imágenes médicas para evaluar y mejorar las tecnologías de reconocimiento visual. Al proporcionar un conjunto de datos diverso y bien estructurado, ImageNet continúa siendo una herramienta clave para avanzar en la precisión y eficacia de los sistemas de CV.

Referencias

Deng, J., Dong, W., Socher, R., Li-Jia, L., Li, K., & Fei-Fei, L. (2009). ImageNet: Una base de datos jerárquica a gran escala de imágenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Fellbaum, Christiane. "WordNet y Wordnets." En Enciclopedia de Lenguaje y Lingüística, editado por Keith Brown et al., 2.ª ed., 665-670. Oxford: Elsevier, 2005. https://wordnet.princeton.edu/.

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

Del texto a la imagen: Fundamentos del CLIP

Cómo recuperar imágenes a partir de textos, o servicios de texto a imagen.

¿Qué es una base de datos vectorial?

Una base de datos vectorial es una solución sencilla y totalmente gestionada para almacenar, indexar y buscar en un conjunto masivo de datos no estructurados que aprovecha la potencia de las incrustaciones de los modelos de aprendizaje automático.

Cómo obtener las incrustaciones vectoriales adecuadas

Una introducción completa a las incrustaciones vectoriales y cómo generarlas con modelos populares de código abierto.