ボッシュ、Milvusで80%のコスト削減と検索効率の最適化を達成

80%
データ収集コストの削減
~$1.4M
年間保管コストの削減
ミリ秒レベル
スケーラブルなアーキテクチャによる数十億のデータポイントの検索
When we identify a need for specific data, we can often find the required data in our database the same day using text or image search with Milvus. This greatly improves our data processing efficiency and has a positive effect on our business operations.
Mr. Zhang
ボッシュについて
ドイツに本社を置くBOSCHは、自動車技術とコンポーネントのグローバルリーダーであり、自律走行における先駆的なイノベーションと長年にわたる専門知識で知られている。アダプティブ・クルーズ・コントロール、レーンキーピング・アシスタンス、自動駐車システムなどの先進運転支援システム(ADAS)を含む最先端の自律走行ソリューションを提供し、世界中の大手自動車メーカーから信頼を得ています。
課題コーナーケースの画像データセット取得
自律走行において「コーナーケース」とは、突然の濃霧、大雨、吹雪、歩行者、動物、型破りな車両などの予期せぬ障害物など、稀な、予期せぬ、または極端な状況を指す。このような状況は、レーダー、カメラ、LiDARを含む自律走行車の知覚システムに大きな課題をもたらします。
自動車エンジニアは、自律走行システムがこれらのエッジケースを安全かつ確実にナビゲートできるようにしなければなりません。しかし、このような複雑な状況を正確に表現する画像データセットを取得することは、このようなケースが頻繁に発生するわけではなく、再現するために特殊な条件や環境を必要とすることが多いため、問題があります。従来のデータ収集方法でこの「コーナーケース」画像データセットを収集するのは、時間もコストもかかるため、自律走行車の安全性と信頼性の向上を目指す開発者にとって大きな障害となっている。
BOSCHのインテリジェント・ドライブ・コントロール・チームは、まさにこの課題に直面した。彼らは、このような困難な状況を正確に描写できる画像データセットを効率的かつコスト効率よく収集する方法を見つける必要がありました。このようなデータがなければ、自律走行システムを徹底的にテストし、あらゆる条件下で安全に動作するように改良することは不可能である。
AIソリューションの探求:LLMとベクトルデータベースの統合
課題に取り組むため、BOSCHのインテリジェント・ドライブ・コントロール・チームは長年にわたってさまざまな戦略を模索してきた。
当初、チームはコーナーケースのデータを手作業で収集していた。このアプローチでは、こうした稀なシナリオを待機してデータを収集するために、大規模な車両群と多大な人手が必要だった。時間がかかり、非効率的で、希望する条件との偶然の出会いに依存していたため、プロジェクトのタイムラインが長くなっていました。
次にチームは、データポイントに特定の属性や分類のラベルを付けるナレッジグラフ(KG)に着目した。このアプローチにより、データの整理、検索、分析は容易になったが、コーナーケースの種類が非常に多いため、それぞれに独自のラベルを付けるのは膨大な作業となった。
どちらの方法にも、コストが高い、効率が悪い、対象範囲が狭いなどの欠点があった。
AI技術、特にChatGPTのような大規模言語モデル(LLM)、ベクトル・データベース、検索拡張世代(RAG)の進歩に伴い、BOSCHは課題に取り組むためのより効率的なソリューションを模索し始めた。彼らは、収集した画像をベクトル埋め込みに変換するために、ラージビジョンモデル(LVM)とラージマルチモーダルモデル(LMM)を活用した。ベクトル・データベースを使用することで、テキストから画像、画像から画像の検索を非常に効率的に実行できるようになった。
研究チームは、画像埋め込みに適したLMMとLVMモデルをすぐに特定した。しかし、真の課題はスケーリング ベクトル類似検索であり、ベクトルデータベースはこの革新的なソリューションの重要な構成要素となっている。
類似検索ソリューションとしてMilvusを選択するまでの道のり
BOSCHは、数十億のパラメータと1,000を超える特徴次元を持つ、事前に訓練されたAIモデルに依存している。例えば、1,024次元の特徴ベクトルでは、各浮動小数点値(4バイト)は約4KBのメモリを必要とします。膨大なデータセットを扱う場合、このストレージ要件は膨大なリソース消費につながり、ストレージコストと計算コストの両方を押し上げることになる。
BOSCHの画像データ量は膨大で、現在数百億に達しており、まだ増え続けている。クラスタリングと重複排除を行った後でも、ベクトルデータベースの類似検索に必要なデータは数十億にのぼる。
この課題に対処するため、BOSCHは量子化インデックスとシャーディング技術を実装し、リソースの使用を最小限に抑え、データ処理効率を向上させました。量子化インデクシングは、大規模データの効率的な保存や高次元特徴のインデクシングに最適です。シャーディングは、増大するデータ量に対応し、大規模なリアルタイム検索を可能にし、計算リソースの使用を最適化する。チームはいくつかのアプローチを検討した:
HNSW (Hierarchical Navigable Small Worlds) グラフインデックス**:多くの質問応答システムは、自然言語処理(NLP)タスクにHNSWグラフ索引付けを使用している。HNSWは一般的で簡単な方法であるが、高次元の特徴を直接アルゴリズムのライブラリに格納する必要があり、リソースの消費とコストが高くなる。
ベクトル検索プラグイン](https://zilliz.com/learn/comparing-vector-database-vector-search-library-and-vector-search-plugin) 従来のデータベースの上に:従来のリレーショナルデータベースに*ベクトルフィールドを追加することは、利用可能なベクトル検索ソリューションの1つである。しかし、量子化インデックスアルゴリズムでは、シャーディングの更新はコードブックの再トレーニングを必要とし、複雑さを増す。その結果、ベクトル検索機能を持つ従来のデータベースは、通常HNSWインデックス作成しかサポートしておらず、BOSCHの大規模なベクトルデータ処理と検索のニーズを満たしていない。
BOSCHの主席ソフトウェアエンジニアであるZhangエンジニアは、「複雑な検索要件と生成モデルを扱い、学習コストを削減し、更新効率を向上させ、進化するデータとクエリのニーズに柔軟に対応できるインデックス作成技術が必要です」と説明する。
BOSCHのニーズに最適なソリューションとして浮上したのが、specialized vector databaseであった。様々な選択肢を評価した結果、BOSCHはベクトル検索ソリューションとしてMilvusを選択した。
その結果80%のコスト削減と検索効率の最適化
Milvus**はオープンソースのベクトルデータベースであり、数十億のベクトルをミリ秒単位で保存、索引付け、検索することができる。BOSCHの膨大で拡大するデータ量にもかかわらず、Milvusは超高性能を維持しています。最も重要なことは、Milvusの量子化インデックス技術により、ストレージと計算リソースの消費量が大幅に削減され、BOSCHの大規模データセット管理が容易になったことである。
データ収集コストの80%削減
Milvusの効率的な類似検索機能により、BOSCHは必要なコーナーケースデータの70%~80%を既存のデータベースから取得し、新たなデータ収集の必要性を削減することができる。さらに、Milvusは、必要なデータがすでにデータベース内にある場合、ほぼ瞬時に検索を可能にし、データマイニングの効率を大幅に向上させます。
Milvusのテキスト検索や画像検索を使えば、その日のうちにデータベースから必要なデータを探し出すことができます。これにより、データ処理効率が大幅に向上し、当社の事業運営にプラスの効果をもたらしています」。
年間ストレージコストを140万ドル削減
外部データ収集の必要性を減らすことで、ストレージ・コストも大幅に削減された。外部データ収集だけに頼っていると、年間140万ドル近いコストがかかる」_張氏は付け加えた。
検索効率の最適化
Milvusの量子化インデックス技術は、ストレージと計算リソースの消費を大幅に削減します。BOSCHは従来のデータベースの性能限界を克服し、より柔軟かつ効率的にデータを処理できるようになりました。Milvusはまた、セグメント化およびシャード化された検索方法を提供し、効率を高め、大規模かつ高次元のデータに関する現在の課題に対処します。
スケーラブルなアーキテクチャで数十億のデータポイントをミリ秒レベルで検索
BOSCHの自律走行ビジネスはクラウドベースである。Milvusのクラウドネイティブアーキテクチャは、その展開とスケーリングを簡素化する。Milvusは優れたスケーラビリティを提供し、これはBOSCHの10億レベルのデータ運用に不可欠である。データセットが拡大しても、チームはワンクリックで必要なリソースを拡張できる。張氏は、「多数の同時検索を行っても、検索速度の低下は感じられませんでした」と述べている。
活発なコミュニティ・サポート
Milvusは、最も人気があり、急速に進化し、成熟したオープンソースのベクトルデータベースの1つで、世界中に大規模で活発なユーザーと開発者コミュニティがあります。Zhang氏は、「Milvusのコミュニティは非常に活発です。私たちが問題を抱えたときはいつでも、コミュニティから迅速な回答を得ることができました。"
今後の計画Milvusのハイブリッド検索機能の探求
データの多様性を確保するためには、何千ものサンプル画像が必要である。現在、BOSCHはテキストから画像への検索を優先し、テキストの検索結果が十分でない場合は画像から画像への検索に頼っている。Milvusのマルチベクトル列とハイブリッド検索のサポートにより、オンデマンドの画像間検索がより実現可能になる。例えば、天気画像とコーン画像を組み合わせることで、コーンを含む様々な天候を検索したり、三角形の道路標識と説明テキストを重ね合わせることで、様々な警告機能を検索したりすることができる。これはBOSCHとMilvusが共に探求し続ける方向性である。
自律走行におけるMilvusの可能性を最大限に引き出す
Milvusは単なるツールではなく、自律走行分野におけるBOSCHの戦略的な味方です。Milvusによって、BOSCHはデータをより深く掘り下げ、その力を活用することができ、よりスマートで安全な運転の追求において決定的な優位性を得ることができる。Milvusの採用により、BOSCHのデータ処理方法は一変し、収集から処理、適用に至るまで、すべてのステップがより効率的かつ正確になりました。
BOSCHは将来を見据え、Milvusの最先端機能をさらに追求し、より安全で、よりスマートで、より便利な次世代の運転体験を推進したいと考えている。
Even with numerous concurrent searches, we didn’t notice any slowdown in search speed with Milvus.
Mr. Zhang