Bosch réalise une réduction des coûts de 80 % et optimise l’efficacité de la recherche avec Milvus

80 %
Réduction des coûts de collecte des données
~1,4 M$
Réduction des coûts annuels de stockage
À l’échelle de la milliseconde
Récupération de milliards de points de données avec une architecture évolutive
When we identify a need for specific data, we can often find the required data in our database the same day using text or image search with Milvus. This greatly improves our data processing efficiency and has a positive effect on our business operations.
Mr. Zhang
À propos de BOSCH
Basé en Allemagne, BOSCH est un leader mondial des technologies et composants automobiles, reconnu pour ses innovations pionnières et son expertise de longue date dans la conduite autonome. Ils fournissent des solutions de conduite autonome de pointe, notamment des systèmes avancés d’aide à la conduite (ADAS) tels que le régulateur de vitesse adaptatif, l’assistance au maintien de voie et les systèmes de stationnement automatisé, auxquels font confiance les principaux constructeurs automobiles du monde entier.
Le défi : acquérir des jeux de données d’images pour les cas limites
Dans la conduite autonome, les « cas limites » désignent des situations rares, inattendues ou extrêmes, telles qu’un brouillard dense soudain, de fortes pluies, des tempêtes de neige ou des obstacles inattendus comme des piétons, des animaux ou des véhicules non conventionnels. Ces situations posent des défis importants aux systèmes de perception des véhicules autonomes, notamment le radar, les caméras et le LiDAR.
Les ingénieurs automobiles doivent s’assurer que les systèmes de conduite autonome peuvent naviguer de manière sûre et fiable dans ces cas limites. Cependant, l’acquisition de jeux de données d’images représentant avec précision ces situations complexes est problématique, car de tels cas ne se produisent pas fréquemment et nécessitent souvent des conditions ou des environnements spécialisés pour être reproduits. La collecte de ce jeu de données d’images de « cas limites » avec des méthodes traditionnelles de collecte de données est à la fois chronophage et coûteuse, ce qui constitue un obstacle important pour les développeurs souhaitant améliorer la sécurité et la fiabilité des véhicules autonomes.
L’équipe Intelligent Drive Control de BOSCH a rencontré exactement ce défi. Elle devait trouver un moyen de rassembler efficacement et à moindre coût des jeux de données d’images capables de représenter avec précision ces situations difficiles. Sans de telles données, il serait impossible de tester et d’affiner de manière approfondie les systèmes autonomes afin qu’ils fonctionnent en toute sécurité dans toutes les conditions.
Explorer les solutions d’IA : intégration des LLM et des bases de données vectorielles
Pour relever ses défis, l’équipe Intelligent Drive Control de BOSCH a exploré diverses stratégies au fil des ans.
Au départ, l’équipe collectait manuellement des données pour les cas limites. Cette approche nécessitait une grande flotte de véhicules et une main-d’œuvre importante pour attendre ces scénarios rares et collecter les données. Elle était chronophage, inefficace et dépendante de rencontres fortuites avec les conditions souhaitées, ce qui entraînait de longs délais de projet.
Ensuite, l’équipe s’est tournée vers les graphes de connaissances (KG) pour étiqueter les points de données avec des attributs ou des classifications spécifiques. Bien que cette approche ait facilité l’organisation, la récupération et l’analyse des données, la grande variété des cas limites rendait l’étiquetage unique de chacun d’eux extrêmement complexe.
Les deux méthodes présentaient des inconvénients, notamment des coûts élevés, une faible efficacité et une couverture limitée.
Avec les avancées des technologies d’IA, en particulier les grands modèles de langage (LLM) comme ChatGPT, les bases de données vectorielles et la génération augmentée par récupération (RAG), BOSCH a commencé à explorer des solutions plus efficaces pour relever ses défis. Ils ont exploité de grands modèles de vision (LVM) et de grands modèles multimodaux (LMM) pour convertir les images collectées en plongements vectoriels. En utilisant une base de données vectorielle, ils pouvaient effectuer des recherches texte-image ou image-image très efficaces.
L’équipe a rapidement identifié des modèles LMM et LVM adaptés à l’intégration d’images. Cependant, le véritable défi était le passage à l’échelle de la recherche de similarité vectorielle, faisant des bases de données vectorielles un composant crucial de cette solution innovante.
Le parcours vers le choix de Milvus comme solution de recherche de similarité
BOSCH s’appuie sur des modèles d’IA pré-entraînés comptant des milliards de paramètres et des dimensions de caractéristiques dépassant 1 000. Par exemple, avec un vecteur de caractéristiques à 1 024 dimensions, chaque valeur à virgule flottante (4 octets) nécessite environ 4 Ko de mémoire. Lorsqu’on traite des ensembles de données massifs, cette exigence de stockage peut entraîner une consommation énorme de ressources, augmentant à la fois les coûts de stockage et de calcul.
Le volume de données d’images de BOSCH est immense—il se chiffre actuellement en dizaines de milliards et continue de croître. Après le clustering et la déduplication, les données nécessaires à la recherche par similarité dans une base de données vectorielle se comptent encore en milliards.
Pour relever ce défi, BOSCH a mis en œuvre des technologies d’indexation par quantification et de sharding afin de minimiser l’utilisation des ressources et d’améliorer l’efficacité du traitement des données. L’indexation par quantification est idéale pour stocker efficacement des données à grande échelle et indexer des caractéristiques de haute dimension. Le sharding gère l’augmentation des volumes de données, rendant possible la recherche en temps réel à grande échelle et optimisant l’utilisation des ressources de calcul. L’équipe a exploré plusieurs approches :
Indexation par graphe HNSW (Hierarchical Navigable Small Worlds) : De nombreux systèmes de questions-réponses utilisent l’indexation par graphe HNSW pour les tâches de traitement du langage naturel (NLP). Bien qu’il s’agisse d’une méthode populaire et simple, HNSW nécessite de stocker les caractéristiques de haute dimension directement dans la bibliothèque de l’algorithme, ce qui entraîne une forte consommation de ressources et des coûts élevés.
Plugins de recherche vectorielle au-dessus des bases de données traditionnelles : L’ajout de champs ****vectoriels aux bases de données relationnelles traditionnelles est l’une des solutions de recherche vectorielle disponibles. Cependant, pour les algorithmes d’indexation par quantification, les mises à jour de sharding nécessitent de réentraîner les dictionnaires de codes, ce qui ajoute de la complexité. Par conséquent, les bases de données traditionnelles dotées d’une fonctionnalité de recherche vectorielle ne prennent généralement en charge que l’indexation HNSW, qui ne répond pas aux besoins de BOSCH en matière de traitement et de recherche de données vectorielles à grande échelle.
L’ingénieur Zhang, ingénieur logiciel principal de BOSCH, a expliqué : « Nous avons besoin d’une technologie d’indexation capable de gérer des exigences de recherche complexes et des modèles génératifs, de réduire les coûts d’entraînement, d’améliorer l’efficacité des mises à jour et de s’adapter avec flexibilité à l’évolution des données et des besoins de requête. »
Une base de données vectorielle spécialisée s’est imposée comme la meilleure solution pour les besoins de BOSCH. Après avoir évalué différentes options, BOSCH a choisi Milvus comme solution de recherche vectorielle.
Les résultats : réduction des coûts de 80 % et efficacité de recherche optimisée
Milvus est une base de données vectorielle open source capable de stocker, d’indexer et de récupérer des milliards de vecteurs en quelques millisecondes. Même avec les volumes de données vastes et en expansion de BOSCH, Milvus maintient des performances extrêmement élevées. Plus important encore, la technologie d’indexation par quantification de Milvus réduit considérablement la consommation de ressources de stockage et de calcul, ce qui permet à BOSCH de gérer plus facilement des ensembles de données à grande échelle.
Réduction de 80 % des coûts de collecte de données
Les capacités efficaces de recherche par similarité de Milvus permettent à BOSCH de récupérer 70 % à 80 % des données de cas limites nécessaires à partir des bases de données existantes, réduisant ainsi le besoin de collecter de nouvelles données. De plus, Milvus permet une récupération quasi instantanée si les données requises se trouvent déjà dans la base de données, améliorant considérablement l’efficacité de l’exploration des données.
Zhang a expliqué : « Lorsque nous identifions un besoin de données spécifiques de cas limites, nous pouvons souvent trouver les données requises dans notre base de données le jour même en utilisant la recherche textuelle ou d’images avec Milvus. Cela améliore grandement l’efficacité de notre traitement des données et a un effet positif sur nos opérations commerciales. »
Réduction de près de 1,4 M$ des coûts annuels de stockage
La réduction du besoin de collecte de données externes a également considérablement diminué les coûts de stockage. Zhang a ajouté : « S’appuyer uniquement sur la collecte de données externes pourrait coûter près de 1,4 million de dollars par an. »
Efficacité de recherche optimisée
La technologie d’indexation par quantification de Milvus réduit considérablement la consommation de ressources de stockage et de calcul. BOSCH peut désormais traiter les données de manière plus flexible et plus efficace, en surmontant les limites de performance des bases de données traditionnelles. Milvus propose également des méthodes de recherche segmentées et partitionnées, améliorant l’efficacité et répondant aux défis actuels liés aux données à grande échelle et de haute dimension.
Récupération au niveau de la milliseconde pour des milliards de points de données avec une architecture évolutive
L’activité de conduite autonome de BOSCH est basée sur le cloud. L’architecture cloud-native de Milvus simplifie son déploiement et sa mise à l’échelle. Elle offre une excellente évolutivité, ce qui est crucial pour les opérations de données au niveau du milliard de BOSCH. Lorsque son jeu de données s’agrandit, l’équipe n’a besoin que d’un clic pour mettre à l’échelle les ressources nécessaires. Zhang a mentionné : « Même avec de nombreuses recherches simultanées, nous n’avons constaté aucun ralentissement de la vitesse de recherche. »
Support actif de la communauté
Milvus est l’une des bases de données vectorielles open source les plus populaires, à l’évolution rapide et matures, avec une vaste communauté d’utilisateurs et de développeurs active dans le monde entier. Zhang a commenté : « La communauté Milvus est très active. Chaque fois que nous avons rencontré des problèmes, nous avons obtenu des réponses rapides de la communauté. »
Plans futurs : Explorer la capacité de recherche hybride de Milvus
Pour garantir la diversité des données, des milliers d’images d’exemple sont nécessaires. Actuellement, BOSCH privilégie les recherches texte-vers-image, en recourant aux recherches image-vers-image lorsque les résultats textuels ne sont pas suffisamment bons. La prise en charge par Milvus des colonnes multi-vecteurs et des recherches hybrides rend les recherches image-vers-image à la demande plus réalisables. Par exemple, combiner des images météorologiques avec des images de cônes aide à rechercher diverses conditions météorologiques impliquant des cônes, ou superposer des panneaux routiers triangulaires avec du texte descriptif permet de rechercher différentes fonctions d’avertissement. C’est une direction que BOSCH et Milvus continueront d’explorer ensemble.
Libérer tout le potentiel de Milvus dans la conduite autonome
Milvus n’est pas seulement un outil : c’est un allié stratégique pour BOSCH dans le domaine de la conduite autonome. Avec Milvus, BOSCH peut approfondir l’exploration des données et en exploiter la puissance, ce qui lui donne un avantage crucial dans la quête d’une conduite plus intelligente et plus sûre. L’adoption de Milvus a transformé la façon dont BOSCH gère les données, rendant chaque étape — de la collecte au traitement puis à l’application — plus efficace et plus précise.
Alors que BOSCH se tourne vers l’avenir, l’entreprise est impatiente d’explorer davantage les capacités de pointe de Milvus, afin de faire progresser la prochaine génération d’expériences de conduite plus sûres, plus intelligentes et plus pratiques.
- À propos de BOSCH
- Le défi : acquérir des jeux de données d’images pour les cas limites
- Explorer les solutions d’IA : intégration des LLM et des bases de données vectorielles
- Le parcours vers le choix de Milvus comme solution de recherche de similarité
- Les résultats : réduction des coûts de 80 % et efficacité de recherche optimisée
- Plans futurs : Explorer la capacité de recherche hybride de Milvus
- Libérer tout le potentiel de Milvus dans la conduite autonome
Contenu
Secteur d'activité
Automobile
Even with numerous concurrent searches, we didn’t notice any slowdown in search speed with Milvus.
Mr. Zhang


