コンピュータ・ビジョン・データをより良く理解するためのベクトル探索の利用

悪いデータはAIにどれだけ悪影響を及ぼすのか? 自分の目で確かめてください:
データ品質の問題](https://assets.zilliz.com/1_3e791976ab.png)
悪いデータは、AIを搭載したアプリケーションやワークフローを妨害する可能性があり、単にユーザーを苛立たせるだけでなく、深刻な影響を与えるが、これは驚くことではない。
私たちの多くは、マルチモーダル大規模言語モデル(LLMs)の利便性と汎用性を活用して、画像や動画に含まれる豊富な情報を活用することを思い描いています。驚異を作り、それを次のレベルに引き上げる。コンピュータ・ビジョンは、そのような無限の機会を提供し、より充実した新しいサービスを提供します。しかし、その道のりには課題もある。
重要なのは、より良い結果を得るために、より良いデータをいかにして適切なモデルにキュレートするかということだ。モデルの複雑さとデータの高次元のため、多くの微調整や総当たり的な試行錯誤が闇雲に行われており、イノベーションからリソースを奪っている。
もし、ビジュアルAIワークフローに透明性と明瞭性をもたらし、それを高速化し、さらに楽しくすることができるとしたらどうだろう? Voxel51はそれを使命とし、実現しました!
Voxel51](https://zilliz.com/product/integrations/FiftyOne)の機械学習エンジニアであり開発者エバンジェリストであるジェイコブ・マークスが SF Unstructured Data Meetup. で実演したように。
ビジュアルAIを実現する
ジェネレーティブAIと機械学習による新しいアプリやサービスの爆発的な普及は、非構造化データを活用することの重要性と、ゲームチェンジャーとしてのベクトルデータベースの役割を明らかにした。Jacob Marks氏はプレゼンテーションの中で、ベクトルデータベースとVoxel51やそのFiftyOneオープンソースプロジェクトのようなツールの統合が、AIを活用したアプリケーションをより効率的かつ確実に構築するために、ビジュアルデータの探索、視覚化、キュレーションにどのような革命をもたらしているかを示した。ロバストで正確な結果を保証するために必要な正確なデータセットを与えることで、モデルをテストし評価することができます。
すべてはデータ品質から始まる
なぜか?より良いデータはより良いモデルにつながり、成功への道を加速させるからだ。
「質の低いデータほど、機械学習システムの成功を妨げるものはありません」とジェイコブは言う。データを準備し、適切なモデルを見つけるには、適切なツールがなければ時間がかかり非効率的です。熟練したMLエンジニアであっても、高品質のデータセットとモデルを構築するためには優れたツールが必要なのだ。
FiftyOneはビジュアルなデータ処理を簡素化し、操作、調整、結果の理解をより簡単かつ迅速にします。
複雑なラベルの視覚化、モデルの評価、関心のあるシナリオの探索、故障モードの特定、アノテーションの間違いの発見などの作業を行うことができます。これは、バックグラウンドで実行されるLLMチェーン、エンベッディングの生成、ベクトルデータベースへのクエリによって実現されます。
さて、本題に入ろう!
RAG から富へ:ベクトルサーチの威力
RAGはベクターデータベースを普及させた理由の一つです。
Retrieval-Augmented Generation (RAG)は、大規模な言語モデルの精度を高めることで、ベクトル検索を普及させた。検索ベースと生成モデルを組み合わせ、生成されたテキストの品質と関連性を向上させる。
この技術は、LLMを使用して、ユーザープロンプトを埋め込みに変換し、ベクトル埋め込みと比較することで、意味的類似性検索を可能にし、より正確で文脈に富んだ応答を実現する。
RAG](https://assets.zilliz.com/2_b3fedd122e.png)
データ入力に対する類似性について、複数のベクトルを比較することができます。つまり、2つのテキスト入力をベクトル化して埋め込めば、使用するmetrics、ユークリッド距離、余弦類似度、ドット積に関係なく、それらの近さを見ることができます。
ベクトル類似度](https://assets.zilliz.com/3_da59bdde4b.png)
また、テキスト、画像、動画など、異なるタイプのデータを空間のタイプで一緒に扱うマルチモーダル埋め込みも可能です。
ベクトル埋め込み](https://assets.zilliz.com/4_daad3d943d.png)
コンピュータビジョンのためのベクトル探索
Voxel51はMilvusとZilliz Cloudを統合し、ビジュアルデータセットのベクトル検索機能を解放しました。いくつかの強力な使用例を紹介します:
画像の類似性:類似画像検索は一般的なユースケースですが、Voxel51を使えばさらに簡単になります。
データセットから興味のある画像を選択するだけで、類似画像を検索することができます。埋め込みとクエリのステップはすべて後方で行われます。非常に直感的でクリックしやすいビジュアル体験を維持します。 例えば、メトリックやk値などの属性をGUIで選択して定義することができます。
画像類似検索](https://assets.zilliz.com/5_e4eff710b3.png)
外部画像を使った逆引き検索も簡単にできます。
例えば、あなたのビジュアル・データセットにケーン・コルソ犬がいるかどうかを調べたいとしよう。画像のURIを指定するだけで、その画像は自動的にベクトル化され、ベクトル空間におけるビジュアルデータセットとの類似性を検索します。
逆画像検索](https://assets.zilliz.com/6_68575730d9.png)
オブジェクト検索:画像全体だけでなく、ベクトルデータベースはオブジェクト検出パッチを扱うことができ、部分画像内のより正確な検索を可能にする。これは、顔認識や大規模なデータセット内のオブジェクトの識別のようなタスクに役立ちます。
オブジェクト類似検索](https://assets.zilliz.com/7_fc8df1bcb8.png)
検索対象のオブジェクトは画像全体ではない可能性が高いので、画像全体の埋め込みを計算することは、オブジェクトの埋め込みと常に類似しているとは限らないため、あまり効果的ではないかもしれません。
OCR検索:もう一つのユースケースは、インタラクティブな光学式文字認識(OCR)文書です。テキスト埋め込みを視覚的に操作することができます。文書内の各ページのどこからこれらの結果が来たかを見ることができます。
ロバストなOCR文書検索](https://assets.zilliz.com/9_742f781d61.png)
クロスモーダル検索:OpenAIのCLIPやMetaのImageBindのようなツールは、テキストと画像の埋め込みを組み合わせることができる。これにより、クロスモーダル検索が可能になり、ユーザーは、テキスト記述の埋め込みや音声の埋め込みなどを使って画像を検索したり、その逆を行うことができる。彼の例では、列車の音声クリップが埋め込まれ、データセット内の列車を見つけるためにすべての画像と比較された。
クロスモーダル検索](https://assets.zilliz.com/10_de057a2747.png)
知覚的類似性:知覚的類似性は、ベクトル空間におけるモデル表現を比較することで、異なるモデルがどのように世界を認識しているかを理解することを可能にする。あるモデルは非常に意味的であり、高レベルの詳細や概念を捉えるが、下の写真のようにピクセルレベルでの画像のパレットは捉えない:
知覚的類似性の調査](https://assets.zilliz.com/12_ca920d0659.png)
計算ニューラルネットワークで実装された、より伝統的なコンピュータ・ビジョンは、すべてのピクセルとパッチを捉えますが、下の画像にあるように、意味を正しく捉えることはできません。
知覚の類似性を探る-2](https://assets.zilliz.com/14_72e2b6d456.png)
ベクトル空間における結果の分布を見ることで、ベクトル空間におけるモデル表現を比較することができます。モデルによっては、結果がまとまっているものもあれば、そうでないものもあります。モデルによって世界の見方は異なり、このような異なる視点をいつ適用するかを理解することは、AIの質の基本です。
##ビジュアル・ベクトル検索にはさらなる革新がある
概念補間:概念補間は、2つのテキスト概念を取り込み、それらの間に所見を補間する。この例では、ハスキーとチワワの初期埋め込みが与えられ、その間に収まるもの(猫を含む)を検索します!
概念補間](https://assets.zilliz.com/15_ea6ed003a0.png)
概念空間トラバーサル:概念空間トラバーサルでは、ユーザは、埋め込み可能な空間内の属性を調整するために、埋め込みを組み合わせたり操作したりすることができます。
概念空間トラバーサル](https://assets.zilliz.com/17_2e598445b4.png)
検索空間をよりダイナミックに探索できるように、テキスト、画像、その他のモダリティのエンベッディングを適切なレベルで組み合わせて検索するために、背面では多くのことが行われています。とても簡単だ!
結論
ベクトルデータベースはコンピュータビジョンにおいて不可欠であり、データ探索、モデル評価、マルチモーダル埋め込み、概念補間、トラバーサルを用いた革新的な探索のためのビジュアルデータセットツールに強力なエンジンを提供する。AIが進化し続ける中、ベクトルデータベースの統合は、非構造化データ駆動技術の未来を形作る上で重要な役割を果たすだろう。
ジェイコブが言うように、空には限りがある。この便利なチュートリアルで、ベクターデータベースを利用したビジュアルAIを体験し、楽しんでください。
もっと学びたい、あるいはコンピュータ・ビジョンのプロジェクトを始めたいという方は、私たちのDiscordチャンネルにご参加ください。私たちは、豊富なリソースと協力的なコミュニティを提供しています。
読み続けて

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
Explore DeepSeek-VL2, the open-source MoE vision-language model. Discover its architecture, efficient training pipeline, and top-tier performance.

Why DeepSeek V3 is Taking the AI World by Storm: A Developer’s Perspective
Explore how DeepSeek V3 achieves GPT-4 level performance at fraction of the cost. Learn about MLA, MoE, and MTP innovations driving this open-source breakthrough.

Empowering Innovation: Highlights from the Women in AI RAG Hackathon
Over the course of the day, teams built working RAG-powered applications using the Milvus vector database—many of them solving real-world problems in healthcare, legal access, sustainability, and more—all within just a few hours.
