HumanSignal предлагает ускоренный поиск и маркировку данных с помощью Milvus и AWS

Супернизкая задержка
в семантическом поиске
Улучшенная масштабируемость
при хранении векторных данных
Быстрее и надежнее
в индексировании изображений
Лучший пользовательский опыт
с оптимизированным процессом работы
О компании HumanSignal
Компания HumanSignal, ранее называвшаяся Heartex, способствует развитию машинного обучения и искусственного интеллекта с помощью своей флагманской платформы маркировки данных с открытым исходным кодом Label Studio. С момента своего основания в 2019 году командой ученых и инженеров, занимающихся изучением данных, HumanSignal решает важнейшую проблему точности моделей, возникающую из-за некачественных обучающих данных. Label Studio была создана для того, чтобы дать возможность экспертам по доменам в организациях эффективно аннотировать и управлять обучающими данными. Платформа ориентирована на удобные интерфейсы, адаптивность и процессы совместной работы, что позволяет расширить внутренние возможности маркировки данных и тем самым значительно повысить точность моделей. Будучи самой популярной платформой для маркировки данных на GitHub, Label Studio помогла более чем 200 000 пользователей маркировать до 250 миллионов элементов данных, являясь ключевым инструментом в производственных стратегиях ML/AI таких ведущих предприятий, как Bombora, Geberit, Outreach, Trivago, Wyze, Zendesk и других.
Задачи: Создание нового способа навигации и маркировки озер данных
Основная проблема маркировки данных связана с выбором правильных фрагментов данных для маркировки. Во многих проектах по созданию искусственного интеллекта используются массивные озера данных, полные неструктурированных данных, и бывает непросто отсортировать множество элементов в озере данных, чтобы выбрать наиболее релевантные и важные для включения в обучающий или базовый набор данных. Традиционные методы, такие как базовая эвристика и SQL-запросы, требуют много времени и ручного труда и обычно не позволяют выявить наиболее значимые элементы, необходимые для создания высококачественных обучающих наборов.
Поэтому многие команды специалистов по науке о данных прибегают к использованию небольших, менее репрезентативных образцов данных, что снижает точность и эффективность моделей ML/AI. Кроме того, такие ограничения замедляют процесс разработки моделей, препятствуя прогрессу и возможности внедрения передовых решений ИИ в конкурентную, быстро развивающуюся технологическую среду.
В связи с этими проблемами компания HumanSignal начала работу над новой важной функцией Label Studio Enterprise, призванной решить многие из этих проблем, - Data Discovery.
Решения: Улучшение обнаружения данных с помощью Milvus и AWS
В процессе создания новой функции Data Discovery компания HumanSignal обратилась к Milvus, предлагаемому компанией Zilliz с открытым исходным кодом, благодаря его уникальной способности поддерживать широкий спектр алгоритмов индексирования - функция, которую обычно не предлагают другие поставщики векторных баз данных. Такая гибкость позволила HumanSignal значительно расширить функциональность семантического поиска в рамках инструмента Data Discovery, переходя от одного алгоритма индексирования к другому - от Hierarchical Navigable Small World (HNSW) для первоначальной эффективности к DiskANN для оптимизации использования памяти и, наконец, к IVF_SQ8 для повышения производительности.
Развертывание Milvus на Amazon Web Services (AWS) с помощью службы Elastic Kubernetes Service (EKS) еще больше усилило эффективность этого решения. Используя рулевую диаграмму Milvus, компания HumanSignal легко интегрировала эту надежную векторную базу данных в свою облачную инфраструктуру, используя масштабируемость и надежность AWS для поддержки своих масштабных потребностей в обработке данных. Эта стратегическая комбинация упростила процесс развертывания и обеспечила эффективное управление и обработку огромных объемов данных для пользователей Label Studio с помощью инструмента Data Discovery.
Результаты: Оптимизированная маркировка данных и усовершенствованная разработка моделей
Интеграция Milvus в функцию обнаружения данных HumanSignal сыграла решающую роль в достижении сверхнизкой задержки в операциях семантического поиска. Это улучшение позволило HumanSignal предложить пользователям новый оптимизированный процесс определения релевантных подмножеств данных для маркировки, что значительно ускорило процесс по сравнению с традиционными методами поиска. Кроме того, Milvus повысил скорость и надежность индексирования изображений - важной области, которая ранее была сопряжена с трудностями. Это означает, что пользователи Data Discovery теперь могут быстрее и надежнее обрабатывать изображения, что значительно повысило качество и точность обучающих наборов, непосредственно влияя на производительность моделей ML/AI.
Стек Zilliz Milvus и AWS сыграл решающую роль для HumanSignal, обеспечив масштабируемую и надежную платформу для хранения векторных данных. Он позволил решить насущные проблемы, с которыми они столкнулись при создании функции Data Discovery, и обеспечил компании HumanSignal возможность дальнейшего инновационного развития и роста в области ИИ и ОД, подчеркнув преобразующую силу сочетания передовых технологий в области ИИ и облачных вычислений.