Che cos'è ImageNet e perché è importante per la Computer Vision

Quando utilizzi strumenti avanzati di IA generativa per creare immagini per il tuo articolo di ricerca o sali su uno dei taxi autonomi di San Francisco, potresti non renderti conto che queste tecnologie devono i loro progressi a un dataset meticolosamente curato, ImageNet.

ImageNet è un database di immagini su larga scala, disponibile pubblicamente, progettato per far progredire la ricerca nel riconoscimento visivo degli oggetti. Comprende oltre 14 milioni di immagini, ciascuna annotata con etichette tratte dai set di sinonimi di WordNet. Queste annotazioni dettagliate sono importanti per garantire un'identificazione e una classificazione accurate delle immagini, rendendo ImageNet una risorsa inestimabile per l'addestramento e la valutazione di modelli di deep learning in vari compiti di computer vision.

Sebbene ImageNet non possieda le immagini che cataloga, fornisce URL e miniature, facilitando l'accesso a queste immagini per scopi di ricerca. Questo dataset esteso e ben organizzato è diventato uno strumento fondamentale nello sviluppo di sistemi di riconoscimento visivo più precisi ed efficaci, contribuendo in modo significativo ai progressi nella computer vision.

un ImageNet Synsets con 15 campioni di immagini (un'immagine per ciascuna categoria). b dataset Corel-1000 che mostra 15 immagini campione da 10 categorie.

Fonte

Che cos'è ImageNet?

ImageNet è un database di immagini completo, disponibile pubblicamente e su larga scala, sviluppato meticolosamente per supportare vari compiti di computer vision. Avviato dalla ricercatrice di IA Fei-Fei Li, include oltre 14 milioni di immagini, ciascuna annotata secondo le etichette di validazione della gerarchia WordNet. Questo sistema di etichettatura strutturato è fondamentale per identificare accuratamente gli oggetti, rendendo ImageNet una risorsa fondante per l'addestramento di algoritmi avanzati di riconoscimento visivo.

Il dataset impiega il crowdsourcing per il suo processo di annotazione. Le annotazioni a livello di immagine indicano se una classe di oggetti è presente o assente, mentre le annotazioni a livello di oggetto forniscono riquadri di delimitazione attorno alle parti visibili degli oggetti. ImageNet utilizza una variante dello schema WordNet per la categorizzazione e include 120 categorie di razze canine per la classificazione a grana fine. Nel 2012 era il più grande utente accademico di Mechanical Turk, con lavoratori che identificavano in media 50 immagini al minuto.

Oltre alle etichette di base, più di un milione di immagini include riquadri di delimitazione dettagliati, aumentando l'utilità del dataset per lo sviluppo di algoritmi in grado di identificare e localizzare accuratamente gli oggetti. Dalla sua introduzione, ImageNet ha fatto progredire in modo significativo la classificazione delle immagini e il rilevamento degli oggetti, influenzando la ricerca accademica e le applicazioni pratiche in settori come i veicoli autonomi, l'imaging medico e i sistemi di sicurezza. Rimane un benchmark fondamentale per la valutazione delle tecnologie di riconoscimento visivo.

La necessità di dataset di addestramento per le immagini

Addestrare algoritmi di classificazione delle immagini è un compito di grande importanza, che richiede l’accesso a dataset di immagini estesi e ben curati. Questi dataset, che devono imitare da vicino i tipi di dati che l’algoritmo incontrerà nelle applicazioni del mondo reale, svolgono un ruolo cruciale nel successo dell’algoritmo. Devono contenere un’ampia varietà di immagini che rappresentino le diverse categorie che l’algoritmo dovrebbe riconoscere e classificare. Nell’apprendimento supervisionato, i dataset etichettati sono essenziali, poiché ogni immagine è accompagnata da etichette specifiche che forniscono la guida necessaria affinché l’algoritmo apprenda dai dati. Queste etichette potrebbero includere informazioni sugli oggetti presenti nell’immagine, sulle loro posizioni e persino sulle loro relazioni con altri oggetti all’interno della scena. In genere, il dataset è suddiviso in due sottoinsiemi principali: un set di addestramento e un set di test. Il set di dati di addestramento, che di solito comprende circa il 70% del dataset totale, viene utilizzato per insegnare all’algoritmo come riconoscere schemi e formulare previsioni. Il restante 30% del dataset è riservato al test, consentendo ai ricercatori di valutare le prestazioni dell’algoritmo su immagini mai viste in precedenza. Questo processo garantisce che l’algoritmo generalizzi bene a nuovi dati e funzioni accuratamente in scenari del mondo reale.

Oltre al loro utilizzo nell’addestramento degli algoritmi, i dataset di immagini svolgono un ruolo come benchmark per valutare e confrontare diversi algoritmi di visione artificiale. I ricercatori possono valutare oggettivamente le loro prestazioni in attività come la classificazione delle immagini, il rilevamento di oggetti e la segmentazione delle immagini applicando vari algoritmi allo stesso dataset. Questo processo di benchmarking è cruciale per far progredire il settore, poiché evidenzia i punti di forza e di debolezza dei diversi approcci e promuove l’innovazione nella progettazione degli algoritmi. Ad esempio, nell’imaging medico, i dataset di benchmark vengono utilizzati per valutare algoritmi che rilevano malattie nelle scansioni, come immagini TC o MRI, garantendo che questi algoritmi soddisfino gli elevati standard richiesti per l’uso clinico. Analogamente, nei veicoli autonomi, i dataset di immagini vengono utilizzati per addestrare e testare sistemi che riconoscono e rispondono a oggetti come pedoni, altre auto e segnali stradali, contribuendo allo sviluppo di una tecnologia di guida autonoma più sicura e affidabile.

Download e pre-elaborazione del dataset ImageNet

Scaricare il dataset ImageNet è un processo ad alta intensità di risorse che richiede molto spazio su disco e può richiedere diversi giorni per essere completato. Data la dimensione e la complessità del dataset, è consigliabile utilizzare un’istanza potente con ampio spazio di archiviazione aggiuntivo per gestire il download e l’estrazione in modo efficiente.

Per iniziare il processo, devi registrarti sul sito web di ImageNet e accettare i termini e le condizioni. Una volta registrato, puoi accedere ai link per il download. Tuttavia, a causa delle dimensioni del dataset, che è suddiviso in diversi file di grandi dimensioni, un metodo standard "salva con nome" non sarà sufficiente. È invece necessario uno script di download specializzato. TensorFlow fornisce uno script di questo tipo nel suo repository, semplificando il processo automatizzando il download e l’organizzazione dei file del dataset. Questo script garantisce che tutte le parti del dataset vengano scaricate correttamente e archiviate in modo organizzato, pronte per ulteriori elaborazioni e per l’utilizzo nell’addestramento dei modelli.

Classificazione delle immagini con reti neurali convoluzionali profonde

La classificazione delle immagini è una tecnica fondamentale nella visione artificiale, che consente l’identificazione e la categorizzazione degli oggetti principali all’interno di foto o video. Questo processo si basa fortemente su modelli di deep learning basati sull’AI progettati per analizzare immagini ed eseguire accuratamente compiti di riconoscimento delle immagini.

Le reti neurali convoluzionali (CNN) profonde sono la spina dorsale della moderna classificazione delle immagini. Eccellono nel gestire la complessità del riconoscimento degli oggetti nonostante le sfide poste dall’aspetto degli oggetti, dall’illuminazione e dalle variazioni dello sfondo. Sebbene anche grandi dataset come ImageNet forniscano ampi dati di addestramento, il problema della classificazione delle immagini rimane intrinsecamente complesso a causa dell’enorme diversità dei dati visivi.

Le CNN, tuttavia, sono particolarmente adatte a questo compito perché fanno ipotesi accurate sulla natura delle immagini. Operano sui principi di stazionarietà delle statistiche e località delle dipendenze dei pixel, il che significa che catturano efficacemente le gerarchie spaziali e i pattern locali all’interno delle immagini. Questa capacità consente alle CNN di generalizzare bene su diversi tipi di immagini, rendendole uno strumento potente per la classificazione delle immagini in varie applicazioni.

Applicazioni di ImageNet nella visione artificiale

Il dataset ImageNet è una risorsa per lo sviluppo e il testing di modelli di machine learning in vari compiti di CV, tra cui classificazione delle immagini, rilevamento degli oggetti, elaborazione delle immagini e localizzazione degli oggetti. La sua vasta e diversificata raccolta di immagini annotate è determinante nell’addestramento di modelli in grado di riconoscere e categorizzare accuratamente gli oggetti all’interno delle immagini.

Diverse architetture rivoluzionarie di deep learning, come ResNet, AlexNet e VGG, devono il loro successo in parte all’ampio benchmarking e sviluppo condotti utilizzando il dataset ImageNet. Questi modelli, che hanno stabilito nuovi standard nella classificazione delle immagini, sono stati addestrati su ImageNet e da allora sono diventati la base per numerose applicazioni di CV, dal riconoscimento facciale ai veicoli autonomi.

L’influenza di ImageNet si estende ben oltre i primi giorni del deep learning, poiché continua a plasmare il campo della CV. Il suo impatto è evidente nell’evoluzione dei compiti di comprensione e classificazione delle immagini, dove rimane un dataset chiave per valutare le prestazioni di nuovi modelli e algoritmi. Man mano che la ricerca e le applicazioni contemporanee dell’IA continuano ad avanzare, l’eredità di ImageNet come pietra miliare della ricerca sulla visione artificiale perdura, guidando l’innovazione e migliorando l’accuratezza e l’efficacia dei sistemi di riconoscimento visivo.

Best practice per lavorare con ImageNet

Quando si lavora con il dataset ImageNet, è essenziale seguire le best practice per garantire efficienza e sicurezza dei dati. Un passaggio critico è eseguire il backup del dataset per prevenire potenziali perdite di dati. Ciò può essere facilmente ottenuto utilizzando AWS per archiviare il dataset in Amazon S3, fornendo una soluzione di backup affidabile e scalabile.

Distribuire il dataset su nuove istanze è semplice, rendendo facile la configurazione di ambienti per l’addestramento e il testing su varie istanze. Per progetti su larga scala, puoi utilizzare tecniche di scripting e scalabilità per distribuire il dataset su più istanze, consentendo l’elaborazione parallela e un addestramento più rapido dei modelli.

Conclusione

ImageNet è una risorsa cruciale per la visione artificiale, offrendo un’ampia raccolta di oltre 14 milioni di immagini, ciascuna annotata utilizzando la gerarchia WordNet. Creato da Fei-Fei Li e dal suo team, il dataset include annotazioni sia a livello di immagine sia a livello di oggetto, rendendolo essenziale per l’addestramento e il testing di modelli di deep learning. Le annotazioni dettagliate aiutano a migliorare il riconoscimento delle immagini e la localizzazione nelle immagini.

L’impatto di ImageNet si estende oltre la ricerca. È ampiamente utilizzato in applicazioni pratiche come veicoli autonomi e imaging medico per valutare e migliorare le tecnologie di riconoscimento visivo. Fornendo un dataset diversificato e ben strutturato, ImageNet continua a essere uno strumento chiave per far progredire l’accuratezza e l’efficacia dei sistemi di CV.

Riferimenti

Deng, J., Dong, W., Socher, R., Li-Jia, L., Li, K., & Fei-Fei, L. (2009). ImageNet: un database gerarchico su larga scala di immagini. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Fellbaum, Christiane. "WordNet e Wordnet." In Enciclopedia del linguaggio e della linguistica, a cura di Keith Brown et al., 2ª ed., 665-670. Oxford: Elsevier, 2005. https://wordnet.princeton.edu/.

Contenuto

Inizia gratis, scala facilmente

Prova il database vettoriale completamente gestito progettato per le tue applicazioni GenAI.

Prova Zilliz Cloud gratuitamente

Condividi questo articolo

Risorse correlate

Dal testo all'immagine: Fondamenti di CLIP

Come recuperare immagini basate su testi, o servizi text-to-image.

Che cos'è un database vettoriale?

Un database vettoriale è una soluzione completamente gestita e priva di fronzoli per l'archiviazione, l'indicizzazione e la ricerca in un insieme massiccio di dati non strutturati che sfrutta la potenza delle incorporazioni dei modelli di apprendimento automatico.

Come ottenere le giuste incorporazioni vettoriali

Un'introduzione completa alle incorporazioni vettoriali e a come generarle con i più diffusi modelli open source.