Qu’est-ce qu’ImageNet et pourquoi c’est important pour la vision par ordinateur

Lorsque vous utilisez des outils avancés d’IA générative pour créer des images destinées à votre article de recherche ou que vous montez dans l’un des taxis autonomes de San Francisco, vous ne réalisez peut-être pas que ces technologies doivent leurs progrès à un jeu de données méticuleusement organisé, ImageNet.

ImageNet est une base de données d’images à grande échelle, accessible au public, conçue pour faire progresser la recherche en reconnaissance visuelle d’objets. Elle comprend plus de 14 millions d’images, chacune annotée avec des étiquettes provenant des ensembles de synonymes de WordNet. Ces annotations détaillées sont importantes pour garantir l’identification et la classification précises des images, ce qui fait d’ImageNet une ressource inestimable pour l’entraînement et l’évaluation de modèles d’apprentissage profond dans diverses tâches de vision par ordinateur.

Bien qu’ImageNet ne possède pas les images qu’il catalogue, il fournit des URL et des vignettes, facilitant l’accès à ces images à des fins de recherche. Ce jeu de données vaste et bien organisé est devenu un outil fondamental dans le développement de systèmes de reconnaissance visuelle plus précis et plus efficaces, contribuant de manière significative aux avancées de la vision par ordinateur.

un ImageNet Synsets avec 15 échantillons d’images (une image de chaque catégorie). b Jeu de données Corel-1000 montrant 15 images d’exemple issues de 10 catégories.

Source

Qu’est-ce qu’ImageNet ?

ImageNet est une base de données d’images complète, à grande échelle et accessible au public, développée avec soin pour soutenir diverses tâches de vision par ordinateur. Lancée par la chercheuse en IA Fei-Fei Li, elle comprend plus de 14 millions d’images, chacune annotée selon les étiquettes de validation de la hiérarchie WordNet. Ce système d’étiquetage structuré est crucial pour identifier les objets avec précision, faisant d’ImageNet une ressource fondamentale pour l’entraînement d’algorithmes avancés de reconnaissance visuelle.

Le jeu de données utilise le crowdsourcing pour son processus d’annotation. Les annotations au niveau de l’image indiquent si une classe d’objets est présente ou absente, tandis que les annotations au niveau de l’objet fournissent des boîtes englobantes autour des parties visibles des objets. ImageNet utilise une variante du schéma WordNet pour la catégorisation et inclut 120 catégories de races de chiens pour une classification fine. En 2012, il était le plus grand utilisateur académique de Mechanical Turk, avec des travailleurs identifiant en moyenne 50 images par minute.

Au-delà des étiquettes de base, plus d’un million d’images incluent des boîtes englobantes détaillées, renforçant l’utilité du jeu de données pour développer des algorithmes capables d’identifier et de localiser précisément les objets. Depuis son introduction, ImageNet a considérablement fait progresser la classification d’images et la détection d’objets, influençant la recherche académique et les applications pratiques dans des secteurs tels que les véhicules autonomes, l’imagerie médicale et les systèmes de sécurité. Il demeure une référence essentielle pour évaluer les technologies de reconnaissance visuelle.

Le besoin de jeux de données d’entraînement d’images

L’entraînement des algorithmes de classification d’images est une tâche d’une grande importance, nécessitant l’accès à des jeux de données d’images vastes et bien organisés. Ces jeux de données, qui doivent imiter étroitement les types de données que l’algorithme rencontrera dans des applications réelles, jouent un rôle crucial dans la réussite de l’algorithme. Ils doivent contenir une grande variété d’images représentant les différentes catégories que l’algorithme est censé reconnaître et classer. Dans l’apprentissage supervisé, les jeux de données étiquetés sont essentiels, car chaque image est accompagnée d’étiquettes spécifiques qui fournissent les indications nécessaires pour que l’algorithme apprenne à partir des données. Ces étiquettes peuvent inclure des informations sur les objets présents dans l’image, leurs emplacements, et même leurs relations avec d’autres objets au sein de la scène. En général, le jeu de données est divisé en deux sous-ensembles principaux : un ensemble d’entraînement et un ensemble de test. Le jeu de données d’entraînement, qui comprend généralement environ 70 % du jeu de données total, est utilisé pour enseigner à l’algorithme comment reconnaître des motifs et faire des prédictions. Les 30 % restants du jeu de données sont réservés aux tests, permettant aux chercheurs d’évaluer les performances de l’algorithme sur des images jamais vues auparavant. Ce processus garantit que l’algorithme se généralise bien à de nouvelles données et fonctionne avec précision dans des scénarios réels.

En plus de leur utilisation dans l’entraînement des algorithmes, les jeux de données d’images jouent un rôle de références pour évaluer et comparer différents algorithmes de vision par ordinateur. Les chercheurs peuvent évaluer objectivement leurs performances dans des tâches telles que la classification d’images, la détection d’objets et la segmentation d’images en appliquant divers algorithmes au même jeu de données. Ce processus d’évaluation comparative est crucial pour faire progresser le domaine, car il met en évidence les forces et les faiblesses des différentes approches et stimule l’innovation dans la conception d’algorithmes. Par exemple, en imagerie médicale, des jeux de données de référence sont utilisés pour évaluer des algorithmes qui détectent des maladies dans des examens, tels que des images de scanner ou d’IRM, afin de s’assurer que ces algorithmes répondent aux normes élevées requises pour une utilisation clinique. De même, dans les véhicules autonomes, les jeux de données d’images sont utilisés pour entraîner et tester des systèmes qui reconnaissent et répondent à des objets tels que les piétons, les autres voitures et les panneaux de signalisation, contribuant au développement d’une technologie de conduite autonome plus sûre et plus fiable.

Téléchargement et prétraitement du jeu de données ImageNet

Le téléchargement du jeu de données ImageNet est un processus exigeant en ressources, qui nécessite un espace disque important et peut prendre plusieurs jours. Étant donné la taille et la complexité du jeu de données, il est conseillé d’utiliser une instance puissante dotée d’un espace de stockage supplémentaire suffisant pour gérer efficacement le téléchargement et l’extraction.

Pour commencer le processus, vous devez vous inscrire sur le site web d’ImageNet et accepter les conditions générales. Une fois inscrit, vous pouvez accéder aux liens de téléchargement. Cependant, en raison de la taille du jeu de données, qui est divisé en plusieurs fichiers volumineux, une méthode standard « enregistrer sous » ne suffit pas. À la place, un script de téléchargement spécialisé est nécessaire. TensorFlow fournit un tel script dans son référentiel, simplifiant le processus en automatisant le téléchargement et l’organisation des fichiers du jeu de données. Ce script garantit que toutes les parties du jeu de données sont correctement téléchargées et stockées de manière organisée, prêtes pour un traitement ultérieur et une utilisation dans l’entraînement de modèles.

Classification d’images avec des réseaux neuronaux convolutifs profonds

La classification d’images est une technique fondamentale en vision par ordinateur, permettant l’identification et la catégorisation des objets principaux dans des photos ou des vidéos. Ce processus repose fortement sur des modèles d’apprentissage profond basés sur l’IA, conçus pour analyser les images et effectuer avec précision des tâches de reconnaissance d’images.

Les réseaux neuronaux convolutifs profonds (CNN) sont l’épine dorsale de la classification d’images moderne. Ils excellent dans la gestion de la complexité de la reconnaissance d’objets malgré les défis posés par l’apparence des objets, l’éclairage et les variations d’arrière-plan. Bien que même de grands jeux de données comme ImageNet fournissent de vastes données d’entraînement, le problème de la classification d’images reste intrinsèquement complexe en raison de l’immense diversité des données visuelles.

Les CNN, cependant, sont particulièrement bien adaptés à cette tâche, car ils formulent des hypothèses précises sur la nature des images. Ils fonctionnent selon les principes de stationnarité des statistiques et de localité des dépendances entre pixels, ce qui signifie qu’ils capturent efficacement les hiérarchies spatiales et les motifs locaux au sein des images. Cette capacité permet aux CNN de bien généraliser à différents types d’images, ce qui en fait un outil puissant pour la classification d’images dans diverses applications.

Applications d’ImageNet en vision par ordinateur

Le jeu de données ImageNet est une ressource pour le développement et les tests de modèles d’apprentissage automatique dans diverses tâches de CV, notamment la classification d’images, la détection d’objets, le traitement d’images et la localisation d’objets. Sa collection vaste et diversifiée d’images annotées est essentielle pour entraîner des modèles capables de reconnaître et de catégoriser avec précision les objets dans les images.

Plusieurs architectures révolutionnaires d’apprentissage profond, telles que ResNet, AlexNet et VGG, doivent en partie leur succès aux évaluations comparatives et au développement approfondis réalisés à l’aide du jeu de données ImageNet. Ces modèles, qui ont établi de nouvelles normes en matière de classification d’images, ont été entraînés sur ImageNet et sont depuis devenus la base de nombreuses applications de CV, de la reconnaissance faciale aux véhicules autonomes.

L’influence d’ImageNet s’étend bien au-delà des débuts de l’apprentissage profond, car il continue de façonner le domaine de la CV. Son impact est évident dans l’évolution des tâches de compréhension et de classification d’images, où il demeure un jeu de données clé pour évaluer les performances de nouveaux modèles et algorithmes. Alors que la recherche et les applications contemporaines en IA continuent de progresser, l’héritage d’ImageNet en tant que pierre angulaire de la recherche en vision par ordinateur perdure, stimulant l’innovation et améliorant la précision et l’efficacité des systèmes de reconnaissance visuelle.

Bonnes pratiques pour travailler avec ImageNet

Lorsque vous travaillez avec le jeu de données ImageNet, il est essentiel de suivre les bonnes pratiques afin de garantir l’efficacité et la sécurité des données. Une étape critique consiste à sauvegarder le jeu de données afin d’éviter une éventuelle perte de données. Cela peut être facilement réalisé en utilisant AWS pour stocker le jeu de données dans Amazon S3, offrant ainsi une solution de sauvegarde fiable et évolutive.

Le déploiement du jeu de données sur de nouvelles instances est simple, ce qui facilite la configuration d’environnements pour l’entraînement et les tests sur diverses instances. Pour les projets à grande échelle, vous pouvez utiliser des techniques de scripting et de mise à l’échelle afin de déployer le jeu de données sur plusieurs instances, permettant un traitement parallèle et un entraînement des modèles plus rapide.

Conclusion

ImageNet est une ressource essentielle pour la vision par ordinateur, offrant une vaste collection de plus de 14 millions d’images, chacune annotée à l’aide de la hiérarchie WordNet. Créé par Fei-Fei Li et son équipe, le jeu de données comprend des annotations à la fois au niveau de l’image et au niveau de l’objet, ce qui le rend essentiel pour l’entraînement et les tests de modèles d’apprentissage profond. Les annotations détaillées aident à améliorer la reconnaissance et la localisation d’images dans les images.

L’impact d’ImageNet dépasse la recherche. Il est largement utilisé dans des applications pratiques telles que les véhicules autonomes et l’imagerie médicale pour évaluer et améliorer les technologies de reconnaissance visuelle. En fournissant un jeu de données diversifié et bien structuré, ImageNet continue d’être un outil clé pour faire progresser la précision et l’efficacité des systèmes de CV.

Références

Deng, J., Dong, W., Socher, R., Li-Jia, L., Li, K., & Fei-Fei, L. (2009). ImageNet : une base de données d’images hiérarchique à grande échelle. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR).
Fellbaum, Christiane. « WordNet et les wordnets. » Dans Encyclopédie du langage et de la linguistique, sous la direction de Keith Brown et al., 2e éd., 665-670. Oxford : Elsevier, 2005. https://wordnet.princeton.edu/.

Contenu

Commencez gratuitement, évoluez facilement

Essayez la base de données vectorielle entièrement managée conçue pour vos applications GenAI.

Essayer Zilliz Cloud gratuitement

Partager cet article

Ressources connexes

Du texte à l'image : Principes de base de CLIP

Comment récupérer des images à partir de textes, ou des services de conversion de texte en image.

Qu'est-ce qu'une base de données vectorielle ?

Une base de données vectorielle est une solution entièrement gérée et sans fioritures pour le stockage, l'indexation et la recherche dans un ensemble massif de données non structurées qui exploite la puissance des encastrements des modèles d'apprentissage automatique.

Comment obtenir les bons Vector Embeddings ?

Une introduction complète aux encastrements vectoriels et à la manière de les générer avec des modèles open source populaires.