ベクターデータベースの次の停車駅:2023年への8つの予測
2022年はベクターデータベースにとって重要な年となった。特筆すべきは、MilvusコミュニティがクラウドネイティブなベクトルデータベースMilvus 2.0をリリースしたことである。Vald、Weaviate、Qdrant、Vespa、Vearch、AquilaDB、Marqoなど10以上のオープンソースのベクトルデータベース製品がGitHubに登場した。Elastic](https://zilliz.com/learn/elasticsearch-cloud-vs-zilliz)やRedisといったデータベース・メーカーもこの争いに加わり、ベクトル検索機能を導入した。クラウドの分野では、Milvusコミュニティを運営するZillizがフルマネージドDBaaSサービス「Zilliz Cloud」を立ち上げ、PineconeやGoogle Vertex AIといった企業と競合している。
資本市場も同様に活気に満ちており、複数のベクター・データベース企業が多額の資金を確保し、さらなる成長の舞台を整えた。2022年におけるベクターデータベースへの資本流入と関心は、2023年の私の予測に道を開くものである。
| 会社名|資金調達|日付 | -------- | -------------------- | -------- | | Zilliz|6,000万ドル(B+ラウンド)|2022年8月 | Pinecone|2,800万ドル(Aラウンド)|2022年|3月 | Weaviate|1,600万ドル(Aラウンド)|2022年2月|Qdrant|200万ユーロ(B+ラウンド | Qdrant|200万ユーロ(プレ・シード・ラウンド)|2022年1月||Qdrant
ベクターデータベース企業の2022年資金調達状況
2023年 ベクターデータベース予測
予測その1:ベクターデータベースの差別化と専門化
2023年、ベクターデータベースは、資本の流入とユースケースの急速な発展により、差別化と専門化をもたらし、独自の進化を遂げる:
オンライン処理とオフライン処理:従来のベクターデータベースは、より小規模なデータスケールのオンラインリアルタイム需要向けに設計されていたが、今後は画像処理やNLPのような分野からの巨大なデータセットを扱うようになり、強化されたバッチ処理とオフライン機能が必要になる。
論理インスタンスと物理インスタンス: この分野では、使いやすさとシンプルなデプロイメントを重視する論理インスタンスと、柔軟なストレージと効率的な検索ソリューションを提供するMilvusのような物理インスタンスに分かれるだろう。この分岐は、単純なベクトル処理から複雑なベクトル生成まで、さまざまなニーズに対応する。
スタンドアロン型と分散型のクラウドネイティブシステム: スタンドアロン型と分散型のクラウドネイティブシステムの選択は非常に重要である。スタンドアロン・システムが安定性を提供する一方で、Milvus 2.0のような分散型クラウドネイティブ・デザインは、スケーラビリティとクラウドベースの効率性を備えている。
様々なインデックスの実装: インデックスの手法は多様化している。GoogleのScaNNテクノロジーのような新たな開発により、ベクターデータベースは特定のユースケースや効率性の要件に合わせて、パフォーマンスや機能が進化している。
これらのトレンドは、多様なアプリケーションやデータスケールの特定のニーズに合わせて、よりカスタマイズされ、特化されたベクターデータベースへの移行を示しています。
予測その2:統一されたクエリー・インターフェースへの移行
現在、ベクターデータベースには統一されたクエリーインターフェースがなく、主にカスタムPython SDKやRestful APIを使用している。しかし、Google Next 2022におけるBig QueryのBigLakeのような開発は、SQLを非構造化データとベクトル処理の主要言語として進化させ、大きな転換を示唆している。SQLの伝統的なユーザー層はディープラーニングの開発者とは異なり、機械学習での成功もまちまちであるにもかかわらず、ベクトルデータベース用のクエリ言語としての可能性は注目に値する。
SQL以外にも、GraphQLベースのクエリ言語やカスタムDSLの実験が行われている。どのインターフェイスがより広く受け入れられるようになるかにかかわらず、2023年の予測としては、ベクトルデータベース領域における事実上の標準インターフェイスが出現し、複数の製品が同様のアプローチを採用して実装されることになるだろう。
予測その3:ベクターデータベースと従来のデータベースとのさらなる統合
ベクターデータベースは、FAISSの単純なラッパーとしての初期段階を超え、過去2年間で大きく進化した。現在では、スカラーフィールドのフィルタリングやインデックス付け、ストリーミングデータのCRUD操作の管理といった機能を日常的に備えており、パーサー、オプティマイザー、メモリ、並行性管理といった要素を従来のデータベースから統合している。多くのOLAPデータベースやNoSQLデータベースはベクトル検索機能を組み込んでおり、この分野の重要なプレーヤーとなっている。
従来のデータベースは、人的およびアーキテクチャ的な制約からベクトル検索で苦戦しており、「1つのサイズがすべてに適合するわけではない」という考えにもかかわらず、2023年には、その可能性に惹かれてベクトル検索の分野に参入する従来のデータベース・メーカーが増えるだろう。一方、ベクトル・データベースは、従来のデータベース領域からますます学びを深め、その中核をAIインフラからよりデータベース指向の機能へと移行しつつある。この変化は、より汎用的で安定したベクトル検索ソリューションの必要性によってもたらされている。その結果、2023年には、従来のデータベースのバックグラウンド(トランザクション処理、アプリケーション処理、検索、キャッシュを含む)を持つ人材がベクトルデータベース分野に流入すると予想される。
予測その4:ベクトル・データベースの大幅なコスト削減
2023年、ベクトル・データベースは3~5倍のコスト削減を経験すると予測される。ベクター検索が従来のキーワード検索を凌駕するには、コストとパフォーマンスが大きな障壁となってきたため、この変化は極めて重要である。現在、ほとんどのベクターデータベースはメモリのみに依存している。数百億のベクトルデータを保存するには、数百テラバイトのメモリ容量が必要だ。
このコスト削減にはいくつかの要因がある:
クラウドにおけるARMアーキテクチャーの普及: ARMの単純な計算性能は、X86の2~3倍のコスト効率を提供する。
ヘテロジニアスハードウェアの成長: これらのシステムは、GPUのメモリ/ストレージと帯域幅の能力を凌駕している。
**特にベクトル検索における4ビット量子化の適用。
ディスクアンスインデックス研究への注力: 研究の主流方向として台頭しつつある。
**AIOやIO_URINGのような技術を活用し、100万レベルのIOPを達成。
**ベクター・データベースの深い理解: **従来のデータベースと同様のメタデータとプルーニング技術を活用し、毎回すべてのシャードをクエリする必要性を低減。
機械学習ベースのインデックスとモデル・パラメータ選択: このアプローチは、本番環境で初めて実装される。
ベクトル・データの温度特性: 従来のスカラー・データと同様に、ベクトル・データは高温と低温の特性を示す。
これらの開発は、ベクトル・データベースがより費用対効果に優れ、効率的なものとなる有望な年であることを示している。
予測その5:初のサーバーレス・ベクター・データベースの出現
2023年、初のサーバーレス・ベクター・データベースの登場が予想される。サーバーレスアーキテクチャは柔軟性とオンデマンド課金を提供し、特にクラウドホスティングのベクターデータベースサービスにとって魅力的である。このテクノロジーは、オフラインとオンラインのプロセスを含み、マルチテナント環境で負荷が変動することが多いベクター検索の複雑な性質に適しています。サーバーレスは、ユーザーの容量評価とビジネス分離を簡素化します。
サーバーレス・ベクター・データベースはまだ進化中であり、成熟に至るまでにはまだ道のりがあるが、AWS Auroraのコンテナベースで動的にスケーラブルなスタンドアロン・システムと同様の初期開発の可能性はある。しかし、真に分散したサーバーレス・ベクター・データベースの完全な実現は、まだ先のことかもしれない。
予測その6:ベクターデータベース用オープンソースツールの台頭
2023年には、ベクターデータベースに特化したオープンソースツールの台頭が予想される。ベクトルデータのユニークな特性から、従来のデータ表現方法を超える革新的なツールの開発が求められている。これらのツールは、ベクターデータの分布やクエリ経路を含め、より直感的で視覚的な表示方法を提供するでしょう。
データ転送ツールの開発も重要な焦点となる。これらのツールは、データのバックアップ、移行、インポート機能を強化し、多様化するベクターデータベースに対応する。これらのツールは、異なるデータタイプをリンクし、Spark、PyTorch、TensorFlowなどのプラットフォームから生成された大規模なベクトルデータのフローを管理し、さまざまなクラウドやデータセンター間でのシームレスな統合を促進する上で重要な役割を果たす。
予測その7:ベクターデータベースにおけるAI for Database(AI4DB)の早期採用
2023年、ベクトル・データベースがAI for Database(AI4DB)テクノロジーの実用化をリードするだろう。AI4DBはデータベース分野では何年も前から構想されてきたが、その普及は困難だった。主な障害は、リレーショナル・データベースが要求する高い精度と説明可能性であり、ほんの数パーセントの不正確さでも、実世界のユースケースにおけるAIアプリケーションの妨げになりかねない。
しかし、ベクトル・データベースは本質的に確率的最適化で動作し、絶対的な正確さよりも想起率に重点を置く。この特性により、パラメータの自動調整、クエリ文の書き換え、学習済みインデックスの使用など、AI4DBのより積極的な応用が可能になる。テストでは、クエリパラメータにモデル予測を使用することで、大規模データセットにおいて2倍以上のパフォーマンスが得られることが示されています。データセットと少数のクエリセットに基づいてインデックスとクエリパラメータを最適化することで、さらに大幅な改善が期待できます。
予測#8:オープンソースのMilvusから2つ目の商業企業が生まれる
2023年には、オープンソースのMilvusベクトルデータベースを活用した新たな商業ベンチャーの立ち上げが期待できる。Milvusは、世界でも有数の先進的なクラウドネイティブ・ベクターデータベースである。Hadoop、Presto、Clickhouseのような成功したオープンソースプロジェクトのように、Milvusは、その基盤に貢献し、その基盤の上に構築する営利事業体を鼓舞するだろう。ベクターデータベースのプロジェクトをゼロから始めることはますます難しくなっているが、MilvusのようなベクターデータベースをベースにしたSaaS(Software as a Service)を開発する可能性は依然として大きい。より多くの貢献者がオープンソースコミュニティに参加し、Milvusプロジェクトに協力し、商業的な機会を模索することで、この傾向は続くだろう。
おわりに
近年、GPUや特殊なハードウェアを含む計算能力の進歩に大いに助けられ、ベクトルデータベースの機能とユースケースが大幅に拡大している。2023年を展望すると、業界とオープンソースコミュニティにとって非常に期待される年になりそうだ。継続的なイノベーション、成長、そしてコラボレーションの時代となることが約束されている。
この一連の予測は、短いものではありますが、ベクター・データベースの未来を垣間見ることで、地平線上にあるエキサイティングな発展と機会を浮き彫りにすることを目的としています。2023年に向けて、この分野の展望は有望であり、テクノロジーのダイナミックで進化する性質を示している。来年、ベクターデータベースが私たちに何をもたらしてくれるのか、楽しみにしましょう。それでは2023年にお会いしましょう!
読み続けて

Our Journey to 35K+ GitHub Stars: The Real Story of Building Milvus from Scratch
Join us in celebrating Milvus, the vector database that hit 35.5K stars on GitHub. Discover our story and how we’re making AI solutions easier for developers.

Build for the Boom: Why AI Agent Startups Should Build Scalable Infrastructure Early
Explore strategies for developing AI agents that can handle rapid growth. Don't let inadequate systems undermine your success during critical breakthrough moments.

Empowering Innovation: Highlights from the Women in AI RAG Hackathon
On January 25, 2025, the inaugural Women in AI RAG Hackathon brought together a diverse group of women technologists at Stanford University



