Что такое ImageNet и почему он важен для компьютерного зрения

Когда вы используете продвинутые инструменты генеративного ИИ для создания изображений для своей научной статьи или едете в одном из автономных такси Сан-Франциско, вы можете не осознавать, что эти технологии обязаны своим прогрессом тщательно подготовленному набору данных ImageNet.

ImageNet — это крупномасштабная общедоступная база данных изображений, созданная для продвижения исследований в области визуального распознавания объектов. Она включает более 14 миллионов изображений, каждое из которых размечено метками из наборов синонимов WordNet. Эти подробные аннотации важны для обеспечения точной идентификации и классификации изображений, что делает ImageNet бесценным ресурсом для обучения и оценки моделей глубокого обучения в различных задачах компьютерного зрения.

Хотя ImageNet не владеет изображениями, которые каталогизирует, он предоставляет URL-адреса и миниатюры, облегчая доступ к этим изображениям для исследовательских целей. Этот обширный и хорошо организованный набор данных стал фундаментальным инструментом в разработке более точных и эффективных систем визуального распознавания, значительно способствуя достижениям в компьютерном зрении.

синсеты ImageNet с 15 образцами изображений (по одному изображению из каждой категории). b набор данных Corel-1000, показывающий 15 примеров изображений из 10 категорий.

Источник

Что такое ImageNet?

ImageNet — это комплексная, общедоступная крупномасштабная база данных изображений, тщательно разработанная для поддержки различных задач компьютерного зрения. Инициированная исследовательницей ИИ Fei-Fei Li, она включает более 14 миллионов изображений, каждое из которых размечено в соответствии с метками валидации иерархии WordNet. Эта структурированная система разметки имеет решающее значение для точной идентификации объектов, делая ImageNet фундаментальным ресурсом для обучения продвинутых алгоритмов визуального распознавания.

Набор данных использует краудсорсинг для процесса аннотирования. Аннотации на уровне изображения указывают, присутствует ли класс объекта или отсутствует, тогда как аннотации на уровне объекта предоставляют ограничивающие рамки вокруг видимых частей объектов. ImageNet использует вариант схемы WordNet для категоризации и включает 120 категорий пород собак для тонкозернистой классификации. К 2012 году он был крупнейшим академическим пользователем Mechanical Turk, где работники идентифицировали в среднем 50 изображений в минуту.

Помимо базовых меток, более одного миллиона изображений включают подробные ограничивающие рамки, повышая полезность набора данных для разработки алгоритмов, способных точно идентифицировать и локализовать объекты. С момента своего появления ImageNet значительно продвинул классификацию изображений и обнаружение объектов, повлияв на академические исследования и практические применения в таких отраслях, как автономные транспортные средства, медицинская визуализация и системы безопасности. Он остается критически важным эталоном для оценки технологий визуального распознавания.

Необходимость наборов данных для обучения изображений

Обучение алгоритмов классификации изображений — задача большой значимости, требующая доступа к обширным и тщательно подготовленным наборам данных изображений. Эти наборы данных, которые должны максимально точно имитировать типы данных, с которыми алгоритм столкнется в реальных приложениях, играют ключевую роль в успехе алгоритма. Они должны содержать широкий спектр изображений, представляющих различные категории, которые алгоритм должен распознавать и классифицировать. В обучении с учителем размеченные наборы данных необходимы, поскольку каждое изображение сопровождается определенными метками, которые предоставляют алгоритму необходимые ориентиры для обучения на данных. Эти метки могут включать информацию об объектах, присутствующих на изображении, их местоположении и даже их взаимосвязях с другими объектами в сцене. Обычно набор данных делится на два основных поднабора: обучающий набор и тестовый набор. Обучающий набор данных, который обычно составляет около 70% от общего набора данных, используется для того, чтобы научить алгоритм распознавать закономерности и делать прогнозы. Оставшиеся 30% набора данных резервируются для тестирования, что позволяет исследователям оценить производительность алгоритма на ранее не встречавшихся изображениях. Этот процесс гарантирует, что алгоритм хорошо обобщается на новые данные и точно работает в реальных сценариях.

Помимо использования для обучения алгоритмов, наборы данных изображений играют роль эталонов для оценки и сравнения различных алгоритмов компьютерного зрения. Исследователи могут объективно оценивать их производительность в таких задачах, как классификация изображений, обнаружение объектов и сегментация изображений, применяя различные алгоритмы к одному и тому же набору данных. Этот процесс бенчмаркинга крайне важен для развития области, поскольку он выявляет сильные и слабые стороны различных подходов и стимулирует инновации в проектировании алгоритмов. Например, в медицинской визуализации эталонные наборы данных используются для оценки алгоритмов, которые обнаруживают заболевания на сканах, таких как изображения CT или MRI, обеспечивая соответствие этих алгоритмов высоким стандартам, необходимым для клинического применения. Аналогичным образом, в автономных транспортных средствах наборы данных изображений используются для обучения и тестирования систем, которые распознают объекты, такие как пешеходы, другие автомобили и дорожные знаки, и реагируют на них, способствуя разработке более безопасной и надежной технологии беспилотного вождения.

Загрузка и предварительная обработка набора данных ImageNet

Загрузка набора данных ImageNet — ресурсоемкий процесс, требующий значительного дискового пространства и способный занять несколько дней. Учитывая размер и сложность набора данных, рекомендуется использовать мощный экземпляр с достаточным дополнительным хранилищем, чтобы эффективно выполнить загрузку и извлечение.

Чтобы начать процесс, необходимо зарегистрироваться на веб-сайте ImageNet и принять условия использования. После регистрации вы сможете получить доступ к ссылкам для загрузки. Однако из-за размера набора данных, который разделен на несколько крупных файлов, стандартного метода "сохранить как" будет недостаточно. Вместо этого необходим специализированный скрипт загрузки. TensorFlow предоставляет такой скрипт в своем репозитории, упрощая процесс за счет автоматизации загрузки и организации файлов набора данных. Этот скрипт гарантирует, что все части набора данных будут загружены корректно и сохранены в организованном виде, готовом для дальнейшей обработки и использования при обучении моделей.

Классификация изображений с помощью глубоких сверточных нейронных сетей

Классификация изображений — это фундаментальная техника в компьютерном зрении, позволяющая выявлять и категоризировать основные объекты на фотографиях или видео. Этот процесс в значительной степени опирается на модели глубокого обучения на основе ИИ, предназначенные для анализа изображений и точного выполнения задач распознавания изображений.

Глубокие свёрточные нейронные сети (CNN) являются основой современной классификации изображений. Они превосходно справляются со сложностью распознавания объектов, несмотря на трудности, связанные с внешним видом объектов, освещением и вариациями фона. Хотя даже крупные наборы данных, такие как ImageNet, предоставляют обширные данные для обучения, задача классификации изображений остаётся по своей природе сложной из-за огромного разнообразия визуальных данных.

Однако CNN особенно хорошо подходят для этой задачи, поскольку они делают точные предположения о природе изображений. Они работают на принципах стационарности статистик и локальности зависимостей пикселей, что означает, что они эффективно улавливают пространственные иерархии и локальные шаблоны внутри изображений. Эта способность позволяет CNN хорошо обобщать знания на разные типы изображений, делая их мощным инструментом для классификации изображений в различных приложениях.

Применения ImageNet в компьютерном зрении

Набор данных ImageNet является ресурсом для разработки и тестирования моделей машинного обучения в различных задачах CV, включая классификацию изображений, обнаружение объектов, обработку изображений и локализацию объектов. Его обширная и разнообразная коллекция аннотированных изображений играет важную роль в обучении моделей, способных точно распознавать и категоризировать объекты на изображениях.

Несколько революционных архитектур глубокого обучения, таких как ResNet, AlexNet и VGG, отчасти обязаны своим успехом обширному бенчмаркингу и разработке, проведённым с использованием набора данных ImageNet. Эти модели, установившие новые стандарты в классификации изображений, были обучены на ImageNet и с тех пор стали основой для многочисленных приложений CV — от распознавания лиц до автономных транспортных средств.

Влияние ImageNet простирается далеко за пределы ранних дней глубокого обучения, поскольку он продолжает формировать область CV. Его воздействие очевидно в эволюции задач понимания и классификации изображений, где он остаётся ключевым набором данных для оценки производительности новых моделей и алгоритмов. По мере дальнейшего развития современных исследований и приложений AI наследие ImageNet как краеугольного камня исследований компьютерного зрения сохраняется, стимулируя инновации и повышая точность и эффективность систем визуального распознавания.

Лучшие практики работы с ImageNet

При работе с набором данных ImageNet важно следовать лучшим практикам, чтобы обеспечить эффективность и безопасность данных. Один критически важный шаг — создать резервную копию набора данных, чтобы предотвратить потенциальную потерю данных. Это можно легко сделать с помощью AWS, сохранив набор данных в Amazon S3, что обеспечивает надёжное и масштабируемое решение для резервного копирования.

Развёртывание набора данных на новых экземплярах выполняется просто, что облегчает настройку сред для обучения и тестирования на различных экземплярах. Для крупномасштабных проектов можно использовать сценарии и методы масштабирования, чтобы развернуть набор данных на нескольких экземплярах, обеспечивая параллельную обработку и более быстрое обучение моделей.

Заключение

ImageNet — важнейший ресурс для компьютерного зрения, предлагающий большую коллекцию из более чем 14 миллионов изображений, каждое из которых аннотировано с использованием иерархии WordNet. Созданный Фэй-Фэй Ли и её командой, этот набор данных включает аннотации как на уровне изображения, так и на уровне объекта, что делает его необходимым для обучения и тестирования моделей глубокого обучения. Подробные аннотации помогают улучшать распознавание изображений и локализацию на изображениях.

Влияние ImageNet выходит за рамки исследований. Он широко используется в практических приложениях, таких как автономные транспортные средства и медицинская визуализация, для оценки и улучшения технологий визуального распознавания. Предоставляя разнообразный и хорошо структурированный набор данных, ImageNet продолжает оставаться ключевым инструментом для повышения точности и эффективности систем CV.

Ссылки

Deng, J., Dong, W., Socher, R., Li-Jia, L., Li, K., & Fei-Fei, L. (2009). ImageNet: крупномасштабная иерархическая база данных изображений. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR).
Fellbaum, Christiane. "WordNet и Wordnets." В Энциклопедии языка и лингвистики, под редакцией Keith Brown и др., 2-е изд., 665-670. Oxford: Elsevier, 2005. https://wordnet.princeton.edu/.

Контент

Начните бесплатно, масштабируйтесь легко

Попробуйте полностью управляемую векторную базу данных, созданную для ваших GenAI приложений.

Попробуйте Zilliz Cloud бесплатно

Поделиться этой статьей

Связанные ресурсы

От текста к изображению: Основы CLIP

Как получать изображения на основе текстов, или сервисы преобразования текстов в изображения.

Что такое векторная база данных?

Векторная база данных - это полностью управляемое решение для хранения, индексирования и поиска по огромным массивам неструктурированных данных, использующее возможности вкраплений из моделей машинного обучения.

Как получить правильные векторные вкрапления

Всестороннее введение в векторные вкрапления и способы их генерации с помощью популярных моделей с открытым исходным кодом.