O que é ImageNet e por que ele é importante para a Visão Computacional

Quando você usa ferramentas avançadas de IA generativa para criar imagens para seu artigo de pesquisa ou anda em um dos táxis autônomos de San Francisco, talvez não perceba que essas tecnologias devem seu progresso a um conjunto de dados meticulosamente curado, ImageNet.

ImageNet é um banco de dados de imagens em larga escala, disponível publicamente, projetado para avançar a pesquisa em reconhecimento visual de objetos. Ele compreende mais de 14 milhões de imagens, cada uma anotada com rótulos de conjuntos de sinônimos do WordNet. Essas anotações detalhadas são importantes para garantir a identificação e classificação precisas de imagens, tornando o ImageNet um recurso inestimável para treinar e avaliar modelos de aprendizado profundo em várias tarefas de visão computacional.

Embora o ImageNet não possua as imagens que cataloga, ele fornece URLs e miniaturas, facilitando o acesso a essas imagens para fins de pesquisa. Esse conjunto de dados extenso e bem organizado tornou-se uma ferramenta fundamental no desenvolvimento de sistemas de reconhecimento visual mais precisos e eficazes, contribuindo significativamente para avanços na visão computacional.

um ImageNet Synsets com 15 amostras de imagens (uma imagem de cada categoria). b conjunto de dados Corel-1000 mostrando 15 imagens de amostra de 10 categorias.

Fonte

O que é ImageNet?

ImageNet é um banco de dados de imagens abrangente, em larga escala e disponível publicamente, meticulosamente desenvolvido para apoiar várias tarefas de visão computacional. Iniciado pela pesquisadora de IA Fei-Fei Li, ele inclui mais de 14 milhões de imagens, cada uma anotada de acordo com os rótulos de validação da hierarquia do WordNet. Esse sistema estruturado de rotulagem é crucial para identificar objetos com precisão, tornando o ImageNet um recurso fundamental para treinar algoritmos avançados de reconhecimento visual.

O conjunto de dados emprega crowdsourcing para seu processo de anotação. Anotações em nível de imagem indicam se uma classe de objeto está presente ou ausente, enquanto anotações em nível de objeto fornecem caixas delimitadoras ao redor das partes visíveis dos objetos. O ImageNet utiliza uma variante do esquema WordNet para categorização e inclui 120 categorias de raças de cães para classificação refinada. Em 2012, era o maior usuário acadêmico do Mechanical Turk, com trabalhadores identificando uma média de 50 imagens por minuto.

Além dos rótulos básicos, mais de um milhão de imagens incluem caixas delimitadoras detalhadas, aumentando a utilidade do conjunto de dados para desenvolver algoritmos capazes de identificar e localizar objetos com precisão. Desde sua introdução, o ImageNet avançou significativamente a classificação de imagens e a detecção de objetos, impactando a pesquisa acadêmica e aplicações práticas em setores como veículos autônomos, imagem médica e sistemas de segurança. Ele continua sendo um benchmark crítico para avaliar tecnologias de reconhecimento visual.

A necessidade de conjuntos de dados de treinamento de imagens

Treinar algoritmos de classificação de imagens é uma tarefa de grande importância, que exige acesso a conjuntos de dados de imagens extensos e bem-curados. Esses conjuntos de dados, que devem imitar de perto os tipos de dados que o algoritmo encontrará em aplicações do mundo real, desempenham um papel crucial no sucesso do algoritmo. Eles devem conter uma ampla variedade de imagens que representem as diferentes categorias que se espera que o algoritmo reconheça e classifique. No aprendizado supervisionado, conjuntos de dados rotulados são essenciais, pois cada imagem vem com rótulos específicos que fornecem a orientação necessária para que o algoritmo aprenda a partir dos dados. Esses rótulos podem incluir informações sobre os objetos presentes na imagem, suas localizações e até mesmo suas relações com outros objetos dentro da cena. Normalmente, o conjunto de dados é dividido em dois subconjuntos principais: um conjunto de treinamento e um conjunto de teste. O conjunto de dados de treinamento, que geralmente compreende cerca de 70% do conjunto de dados total, é usado para ensinar o algoritmo a reconhecer padrões e fazer previsões. Os 30% restantes do conjunto de dados são reservados para testes, permitindo que os pesquisadores avaliem o desempenho do algoritmo em imagens nunca vistas anteriormente. Esse processo garante que o algoritmo generalize bem para novos dados e tenha desempenho preciso em cenários do mundo real.

Além de seu uso no treinamento de algoritmos, os conjuntos de dados de imagens desempenham um papel como benchmarks para avaliar e comparar diferentes algoritmos de visão computacional. Os pesquisadores podem avaliar objetivamente seu desempenho em tarefas como classificação de imagens, detecção de objetos e segmentação de imagens aplicando vários algoritmos ao mesmo conjunto de dados. Esse processo de benchmarking é crucial para o avanço da área, pois destaca os pontos fortes e fracos de diferentes abordagens e impulsiona a inovação no design de algoritmos. Por exemplo, em imagens médicas, conjuntos de dados de benchmark são usados para avaliar algoritmos que detectam doenças em exames, como imagens de CT ou MRI, garantindo que esses algoritmos atendam aos altos padrões exigidos para uso clínico. Da mesma forma, em veículos autônomos, conjuntos de dados de imagens são usados para treinar e testar sistemas que reconhecem e respondem a objetos como pedestres, outros carros e placas de trânsito, contribuindo para o desenvolvimento de uma tecnologia de direção autônoma mais segura e confiável.

Baixando e Pré-Processando o Conjunto de Dados ImageNet

Baixar o conjunto de dados ImageNet é um processo intensivo em recursos que exige espaço substancial em disco e pode levar vários dias para ser concluído. Dado o tamanho e a complexidade do conjunto de dados, é aconselhável usar uma instância poderosa com amplo armazenamento adicional para lidar com o download e a extração de forma eficiente.

Para iniciar o processo, você deve se registrar no site da ImageNet e aceitar os termos e condições. Depois de registrado, você pode acessar os links de download. No entanto, devido ao tamanho do conjunto de dados, que é dividido em vários arquivos grandes, um método padrão de "salvar como" não será suficiente. Em vez disso, é necessário um script de download especializado. O TensorFlow fornece esse script em seu repositório, simplificando o processo ao automatizar o download e a organização dos arquivos do conjunto de dados. Esse script garante que todas as partes do conjunto de dados sejam baixadas corretamente e armazenadas de maneira organizada, prontas para processamento posterior e uso no treinamento de modelos.

Classificação de Imagens com Redes Neurais Convolucionais Profundas

A classificação de imagens é uma técnica fundamental em visão computacional, permitindo a identificação e categorização de objetos primários em fotos ou vídeos. Esse processo depende fortemente de modelos de aprendizado profundo baseados em IA, projetados para analisar imagens e executar tarefas de reconhecimento de imagens com precisão.

Redes Neurais Convolucionais Profundas (CNNs) são a espinha dorsal da classificação moderna de imagens. Elas se destacam em lidar com a complexidade do reconhecimento de objetos, apesar dos desafios impostos por variações na aparência dos objetos, na iluminação e no fundo. Embora até mesmo grandes conjuntos de dados como o ImageNet forneçam dados de treinamento extensos, o problema da classificação de imagens permanece inerentemente complexo devido à vasta diversidade dos dados visuais.

As CNNs, no entanto, são particularmente adequadas para essa tarefa porque fazem suposições precisas sobre a natureza das imagens. Elas operam com base nos princípios de estacionariedade das estatísticas e localidade das dependências de pixels, o que significa que capturam efetivamente as hierarquias espaciais e os padrões locais dentro das imagens. Essa capacidade permite que as CNNs generalizem bem entre diferentes tipos de imagens, tornando-as uma ferramenta poderosa para a classificação de imagens em várias aplicações.

Aplicações do ImageNet em Visão Computacional

O conjunto de dados ImageNet é um recurso para o desenvolvimento e teste de modelos de aprendizado de máquina em várias tarefas de CV, incluindo classificação de imagens, detecção de objetos, processamento de imagens e localização de objetos. Sua vasta e diversa coleção de imagens anotadas é fundamental para treinar modelos que possam reconhecer e categorizar objetos com precisão dentro de imagens.

Várias arquiteturas inovadoras de deep learning, como ResNet, AlexNet e VGG, devem seu sucesso em parte ao amplo benchmarking e desenvolvimento realizados usando o conjunto de dados ImageNet. Esses modelos, que estabeleceram novos padrões na classificação de imagens, foram treinados no ImageNet e desde então se tornaram a base para inúmeras aplicações de CV, desde reconhecimento facial até veículos autônomos.

A influência do ImageNet se estende muito além dos primeiros dias do deep learning, pois continua a moldar o campo da CV. Seu impacto é evidente na evolução das tarefas de compreensão e classificação de imagens, nas quais permanece um conjunto de dados fundamental para avaliar o desempenho de novos modelos e algoritmos. À medida que a pesquisa e as aplicações contemporâneas de IA continuam avançando, o legado do ImageNet como uma pedra angular da pesquisa em visão computacional perdura, impulsionando a inovação e melhorando a precisão e a eficácia dos sistemas de reconhecimento visual.

Melhores práticas para trabalhar com o ImageNet

Ao trabalhar com o conjunto de dados ImageNet, seguir as melhores práticas para garantir eficiência e segurança dos dados é essencial. Uma etapa crítica é fazer backup do conjunto de dados para evitar uma possível perda de dados. Isso pode ser facilmente realizado usando a AWS para armazenar o conjunto de dados no Amazon S3, fornecendo uma solução de backup confiável e escalável.

Implantar o conjunto de dados em novas instâncias é simples, tornando fácil configurar ambientes para treinamento e teste em várias instâncias. Para projetos em larga escala, você pode usar técnicas de scripting e escalonamento para implantar o conjunto de dados em várias instâncias, possibilitando processamento paralelo e treinamento de modelos mais rápido.

Conclusão

O ImageNet é um recurso crucial para a visão computacional, oferecendo uma grande coleção de mais de 14 milhões de imagens, cada uma anotada usando a hierarquia WordNet. Criado por Fei-Fei Li e sua equipe, o conjunto de dados inclui anotações tanto em nível de imagem quanto em nível de objeto, tornando-o essencial para treinar e testar modelos de deep learning. As anotações detalhadas ajudam a melhorar o reconhecimento e a localização de imagens em imagens.

O impacto do ImageNet vai além da pesquisa. Ele é amplamente usado em aplicações práticas como veículos autônomos e imagens médicas para avaliar e aprimorar tecnologias de reconhecimento visual. Ao fornecer um conjunto de dados diverso e bem estruturado, o ImageNet continua sendo uma ferramenta fundamental para avançar a precisão e a eficácia dos sistemas de CV.

Referências

Deng, J., Dong, W., Socher, R., Li-Jia, L., Li, K., & Fei-Fei, L. (2009). ImageNet: Um Banco de Dados de Imagens Hierárquico em Grande Escala. Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões (CVPR).
Fellbaum, Christiane. "WordNet e Wordnets." Em Enciclopédia de Linguagem e Linguística, editado por Keith Brown et al., 2ª ed., 665-670. Oxford: Elsevier, 2005. https://wordnet.princeton.edu/.

Conteúdo

Comece grátis, escale facilmente

Experimente o banco de dados totalmente gerenciado, construído para seus aplicativos GenAI.

Experimente o Zilliz Cloud grátis

Compartilhar este artigo

Recursos relacionados

Do texto à imagem: Fundamentos do CLIP

Como recuperar imagens com base em textos, ou serviços de texto para imagem.

O que é uma base de dados vetorial?

Uma base de dados vetorial é uma solução totalmente gerida e simples para armazenar, indexar e pesquisar num conjunto de dados maciço de dados não estruturados que tira partido do poder dos embeddings dos modelos de aprendizagem automática.

Como obter os Embeddings Vectoriais corretos

Uma introdução abrangente aos embeddings vectoriais e à forma de os gerar com modelos populares de código aberto.