35K以上のGitHubスターへの道のり:Milvusをゼロから構築した本当の物語
ここ数年、私たちは1つのことに集中してきました。それは、AI時代に対応したエンタープライズ向けベクトルデータベースを構築することです。難しいのは、単なるデータベースを作ることではありません。スケーラブルで、使いやすく、本番環境で現実の問題を実際に解決できるものを作ることです。
この6月、私たちは新たなマイルストーンに到達しました。MilvusがGitHubで35,000スターを獲得したのです(執筆時点では35.5K+スターになっています)。私たちは、これを単なる数字のひとつだと装うつもりはありません。これは私たちにとって非常に大きな意味を持ちます。
1つひとつのスターは、私たちが作ったものを見るために時間を割き、ブックマークするだけの価値があると感じ、多くの場合、それを使うことを決めてくれた開発者を表しています。さらに先へ進んでくれた方々もいます。Issueを立て、コードをコントリビュートし、フォーラムで質問に答え、他の開発者が行き詰まったときに手助けしてくれました。
私たちは少し時間を取って、自分たちの物語を共有したいと思いました。厄介な部分もすべて含めた、本当の物語です。
他に機能するものがなかったから、私たちはMilvusを作り始めました
2017年当時、私たちはシンプルな問いから始めました。AIアプリケーションが登場し始め、非構造化データが爆発的に増加する中で、セマンティックな理解を支えるベクトル埋め込みを、どのように効率的に保存し検索すればよいのか?
従来のデータベースは、この用途のために作られていませんでした。行と列に最適化されており、高次元ベクトルには最適化されていません。既存の技術やツールは、私たちが必要としていたことに対して不可能だったり、耐えがたいほど遅かったりしました。
利用可能なものはすべて試しました。Elasticsearchでつぎはぎのソリューションを作りました。MySQLの上にカスタムインデックスを構築しました。FAISSも試しましたが、それは研究用ライブラリとして設計されたものであり、本番データベースインフラではありませんでした。エンタープライズAIワークロードのために私たちが思い描いていた完全なソリューションを提供するものはありませんでした。
だから私たちは自分たちで作り始めました。 それが簡単だと思ったからではありません。データベースを正しく作るのは悪名高いほど難しいものです。しかし、AIがどこへ向かっているのかが見えており、そこへ到達するには専用に設計されたインフラが必要だと分かっていたからです。
2018年までには、私たちは後にMilvusとなるものの開発に深く取り組んでいました。「ベクトルデータベース」という言葉すら、まだ存在していませんでした。私たちは実質的に、インフラソフトウェアの新しいカテゴリーを作っていたのです。それは刺激的であると同時に、恐ろしくもありました。
Milvusのオープンソース化: 公開の場で作る
2019年11月、私たちはMilvusバージョン0.10をオープンソース化することを決めました。
オープンソース化とは、自分たちのあらゆる欠点を世界にさらすことを意味します。すべてのハック、すべてのTODOコメント、完全には確信を持てていないすべての設計判断。ですが、ベクトルデータベースがAIにとって重要なインフラになるのであれば、それはオープンで、誰もがアクセスできるものであるべきだと私たちは信じていました。
反響は圧倒的でした。開発者たちはMilvusを使っただけではありません。改善してくれました。私たちが見逃していたバグを見つけ、私たちが考えていなかった機能を提案し、私たちの設計上の選択についてより深く考えさせる質問を投げかけてくれました。
2020年、私たちはLF AI & Data Foundationに参加しました。これは単に信頼性のためだけではありませんでした。持続可能なオープンソースプロジェクトを維持する方法を教えてくれたのです。ガバナンス、後方互換性、そして数か月ではなく何年も続くソフトウェアを構築する方法です。
2021年までに、私たちはMilvus 1.0をリリースし、LF AI & Data Foundationを卒業しました。同じ年、私たちは10億規模のベクトル検索を対象としたBigANNグローバルチャレンジで優勝しました。その勝利は嬉しいものでしたが、より重要なのは、私たちが現実の問題を正しい方法で解決していることを証明してくれた点です。
最も難しかった決断: やり直すこと
ここから話は複雑になります。2021年までに、Milvus 1.0は多くのユースケースでうまく機能していましたが、エンタープライズ顧客は同じことを求め続けていました。より優れたクラウドネイティブアーキテクチャ、より簡単な水平スケーリング、より高い運用のシンプルさです。
私たちには選択肢がありました。パッチを当てながら前に進むか、ゼロから作り直すか。私たちは作り直すことを選びました。
Milvus 2.0は本質的に完全な書き直しでした。私たちは、動的なスケーラビリティを備えた、完全に分離されたストレージ・コンピュートアーキテクチャを導入しました。それには2年かかり、正直なところ、当社の歴史の中でも最もストレスの大きい時期の一つでした。私たちは、何千人もの人々が使っていた稼働中のシステムを捨て、実証されていないものを構築しようとしていたのです。
しかし、2022年にMilvus 2.0をリリースしたとき、それはMilvusを強力なベクトルデータベースから、エンタープライズのワークロードにスケールできる本番環境対応のインフラへと変革しました。 同じ年に、私たちはSeries B+の資金調達ラウンドも完了しました。それは資金を浪費するためではなく、製品品質とグローバル顧客へのサポートをさらに強化するためでした。この道には時間がかかることは分かっていましたが、すべてのステップは堅固な基盤の上に構築されなければなりませんでした。
AIですべてが加速したとき
2023年はRAG(検索拡張生成)の年でした。突然、セマンティック検索は、興味深いAI技術から、チャットボット、ドキュメントQ&Aシステム、AIエージェントに不可欠なインフラへと変わりました。
MilvusのGitHubスターは急増しました。サポートリクエストは倍増しました。ベクトルデータベースを聞いたこともなかった開発者たちが、突然、インデックス戦略やクエリ最適化について高度な質問をするようになりました。
この成長は刺激的でしたが、同時に圧倒されるものでもありました。私たちは、スケールさせる必要があるのは技術だけではなく、コミュニティサポートへのアプローチ全体であることに気づきました。より多くのデベロッパーアドボケイトを採用し、ドキュメントを完全に書き直し、ベクトルデータベースを初めて扱う開発者向けの教育コンテンツの作成を始めました。
私たちはまた、Milvusのフルマネージド版であるZilliz Cloudをローンチしました。なぜオープンソースプロジェクトを「商業化」するのかと尋ねる人もいました。率直な答えは、エンタープライズグレードのインフラを維持することは高価で複雑だからです。Zilliz Cloudにより、コアプロジェクトを完全にオープンソースのまま保ちながら、Milvusの開発を持続し加速させることができます。
そして2024年が来ました。Forresterは私たちをリーダーに選出しました ベクトルデータベースカテゴリーにおいて。 MilvusはGitHubスター3万を突破しました。そして私たちは気づきました。7年間舗装してきた道が、ついに高速道路になったのだと。 より多くの企業がベクトルデータベースを重要インフラとして採用するにつれ、当社の事業成長は急速に加速しました。それは、私たちが築いた基盤が技術的にも商業的にもスケールできることを実証するものでした。
Milvusを支えるチーム:Zilliz
興味深いことがあります。Milvusを知っていてもZillizを知らない人は多くいます。私たちは実際、それで構いません。Zilliz はMilvusを支えるチームです。私たちがそれを構築し、維持し、サポートしています。
私たちが最も重視しているのは、派手ではないものの、クールなデモと本番環境対応インフラの違いを生むものです。パフォーマンス最適化、セキュリティパッチ、初心者に本当に役立つドキュメント、そしてGitHub issueへの丁寧な対応です。
私たちは米国、ヨーロッパ、アジアにまたがる24時間365日のグローバルサポートチームを構築しました。なぜなら、開発者が助けを必要とするのは、私たちのタイムゾーンではなく、彼ら自身のタイムゾーンだからです。私たちには「Milvus Ambassadors」と呼ぶコミュニティ貢献者がいて、イベントを開催し、フォーラムの質問に答え、しばしば私たちよりも上手に概念を説明してくれます。
私たちはまた、AWS、GCP、その他のクラウドプロバイダーとの統合も歓迎してきました。たとえ彼らが独自のMilvusマネージド版を提供している場合でもです。デプロイメントの選択肢が増えることはユーザーにとって良いことです。ただし、チームが複雑な技術的課題に直面したとき、最終的には私たちに直接連絡してくることが多いと気づいています。なぜなら、私たちはそのシステムを最も深いレベルで理解しているからです。
多くの人はオープンソースを単なる「ツールボックス」だと考えていますが、実際には「進化のプロセス」です。それを愛し、信じる無数の人々による集合的な取り組みなのです。アーキテクチャを真に理解している人だけが、バグ修正、パフォーマンスのボトルネック分析、データシステム統合、アーキテクチャ調整の背後にある「なぜ」を提供できます。
ですから、オープンソースのMilvusを使用している場合、またはベクトルデータベースをAIシステムの中核コンポーネントとして検討している場合は、最も専門的でタイムリーなサポートを受けるために、ぜひ直接お問い合わせください。
本番環境における実際のインパクト:ユーザーからの信頼
Milvusのユースケースは、当初私たちが想像していた範囲を超えて成長しています。私たちは、あらゆる業界にわたる世界で最も要求の厳しい企業の一部に対して、AIインフラストラクチャを支えています。
Boschは、自動車技術のグローバルリーダーであり自動運転のパイオニアとして、Milvusによってデータ分析を革新し、重要なエッジケースを見つけるために数十億件の運転シナリオをミリ秒単位で検索しながら、データ収集コストを80%削減し、年間140万ドルの削減を実現しました。
Read AIは、月間アクティブユーザー数が数百万人に上る、最も急成長している生産性AI企業の1つであり、Milvusを使用して数十億件のレコード全体で20〜50ms未満の検索レイテンシを実現し、エージェント型検索を5倍高速化しています。同社のCTOは、「Milvusは中央リポジトリとして機能し、数十億件のレコードにわたる情報検索を支えています」と述べています。
A global fintech leaderは、200か国以上、25以上の通貨にわたって数百億件の取引を処理する世界最大級のデジタル決済プラットフォームの1つであり、競合他社よりも5〜10倍高速なバッチ取り込みを実現するためにMilvusを選択し、他社では8時間以上かかっていたジョブを1時間未満で完了しました。
Filevineは、米国全土の数千の法律事務所から信頼されている主要なリーガルワークプラットフォームであり、数百万件の法的文書にわたって30億のベクトルを管理し、弁護士の文書分析時間を60〜80%削減し、法務案件管理における「データの真の意識」を実現しています。
私たちはまた、ほぼすべての業界で NVIDIA、OpenAI、Microsoft、Salesforce、Walmart、 など多くの企業を支援しています。10,000を超える組織が、MilvusまたはZilliz Cloudを自社のベクトルデータベースとして選択しています。
これらは単なる技術的な成功事例ではありません。ベクトルデータベースが、人々が日々利用するAIアプリケーションを支える重要なインフラへと静かに変わりつつあることを示す例です。
Zilliz Cloudを構築した理由:サービスとしてのエンタープライズグレードのベクトルデータベース
Milvusはオープンソースであり、無料で使用できます。しかし、エンタープライズ規模でMilvusを適切に運用するには、深い専門知識と多大なリソースが必要です。インデックスの選択、メモリ管理、スケーリング戦略、セキュリティ設定――これらは些細な判断ではありません。多くのチームは、運用の複雑さを抱えずに、かつエンタープライズサポートやSLA保証などを備えた形で、Milvusの力を活用したいと考えています。
だからこそ私たちは、Zilliz Cloudを構築しました。これは、AWS、GCP、Azureを含む5つの主要クラウドと25のグローバルリージョンに展開された、Milvusのフルマネージド版であり、パフォーマンス、セキュリティ、信頼性を求めるエンタープライズ規模のAIワークロード向けに特別に設計されています。
Zilliz Cloudを差別化している点は次のとおりです。
高性能を備えた大規模スケール: 当社独自のAI搭載AutoIndexエンジンは、オープンソースのMilvusよりも3〜5倍高速なクエリ速度を実現し、インデックスのチューニングは不要です。クラウドネイティブアーキテクチャは、サブ秒の応答時間を維持しながら、数十億のベクトルと数万件の同時クエリをサポートします。
組み込みのセキュリティとコンプライアンス: 保存時および転送時の暗号化、きめ細かなRBAC、包括的な監査ログ、SAML/OAuth2.0統合、そしてBYOC(bring your own cloud)デプロイ。企業が実際に必要とするGDPR、HIPAA、その他のグローバル標準に準拠しています。
コスト効率に最適化: 階層化されたホット/コールドデータストレージ、実際のワークロードに応じて反応するエラスティックスケーリング、従量課金制の料金により、セルフマネージド型デプロイと比較して総所有コストを50%以上削減できます。
ベンダーロックインのない真のクラウド非依存: ベンダーロックインなしで、AWS、Azure、GCP、Alibaba Cloud、Tencent Cloudにデプロイできます。どこで実行しても、グローバルな一貫性とスケーラビリティを確保します。
これらの機能は派手には聞こえないかもしれませんが、企業チームが大規模にAIアプリケーションを構築する際に直面する、現実の日々の問題を解決します。そして最も重要なのは、内部では今もMilvusであるため、独自仕様によるロックインや互換性の問題がないということです。
次に来るもの: Vector Data Lake
私たちは「vector database」という用語を作り、それを最初に構築しましたが、そこで止まるつもりはありません。現在、次の進化形であるVector Data Lakeを構築しています。
私たちが解決している問題はこれです: すべてのベクトル検索にミリ秒単位のレイテンシが必要なわけではありません。 多くの企業は、履歴文書分析、バッチ類似度計算、長期トレンド分析など、たまにクエリされる大規模データセットを抱えています。こうしたユースケースでは、従来のリアルタイムベクトルデータベースは過剰であり、コストも高くなります。
Vector Data Lakeは、大規模でアクセス頻度の低いベクトルに特化して最適化されたストレージとコンピュートを分離したアーキテクチャを採用し、リアルタイムシステムよりもコストを大幅に低く抑えます。
主な機能は次のとおりです:
統合データスタック: 一貫したフォーマットと効率的なストレージでオンラインとオフラインのデータレイヤーをシームレスに接続するため、再フォーマットや複雑な移行なしに、ホットティアとコールドティアの間でデータを移動できます。
互換性のあるコンピュートエコシステム: SparkやRayのようなフレームワークとネイティブに連携し、ベクトル検索から従来のETLや分析まであらゆる用途をサポートします。つまり、既存のデータチームは、すでに知っているツールを使ってベクトルデータを扱えます。
コスト最適化アーキテクチャ: ホットデータは高速アクセスのためにSSDまたはNVMeに保持され、コールドデータはS3のようなオブジェクトストレージへ自動的に移動します。スマートなインデックス作成とストレージ戦略により、必要なときにはI/Oを高速に保ちながら、ストレージコストを予測可能で手頃なものにします。
これはベクトルデータベースを置き換えるためのものではありません。企業に各ワークロードに適したツールを提供するためのものです。ユーザー向けアプリケーションにはリアルタイム検索を、分析や履歴処理にはコスト効率の高いベクトルデータレイクを。
私たちは今も、ムーアの法則とジェボンズのパラドックスの背後にあるロジックを信じています。コンピューティングの単位コストが下がると、普及が拡大するということです。同じことがベクトルインフラにも当てはまります。
インデックス、ストレージ構造、キャッシュ、デプロイモデルを日々改善することで、AIインフラをすべての人にとってよりアクセスしやすく、手頃なものにし、非構造化データをAIネイティブな未来へと導く手助けをしたいと考えています。
皆さんに心から感謝します!
35K+のスターは、私たちが心から誇りに思うものを表しています。Milvusを推薦し、貢献する価値があるほど有用だと感じてくれている開発者コミュニティです。
しかし、私たちはまだ終わっていません。Milvusには修正すべきバグ、実施すべきパフォーマンス改善、そしてコミュニティから求められている機能があります。私たちのロードマップは公開されており、何を優先すべきかについて皆さんの意見を本当に求めています。
数字そのものが重要なのではありません。そのスターが表す信頼こそが重要です。オープンに構築し続け、フィードバックに耳を傾け続け、Milvusをより良くし続けるという信頼です。
コントリビューターの皆さんへ: 皆さんのPR、バグ報告、ドキュメント改善が、Milvusを日々より良くしています。本当にありがとうございます。
ユーザーの皆さまへ: 本番ワークロードを私たちに信頼してお任せいただき、また私たちが誠実であり続けるためのフィードバックをお寄せいただき、ありがとうございます。
コミュニティの皆さまへ: 質問への回答、イベントの企画、そして新しく参加された方々のスタートを支援してくださり、ありがとうございます。
ベクトルデータベースが初めての方は、ぜひ導入をお手伝いさせてください。すでに Milvus や Zilliz Cloud をご利用中の方は、ぜひご利用体験をお聞かせください。そして、私たちが何を構築しているのかに少しでも興味がある方へ、私たちのコミュニティチャンネルはいつでも開かれています。
AI アプリケーションを可能にするインフラストラクチャを、これからも一緒に構築していきましょう。
こちらで私たちを見つけてください: Milvus on GitHub | Zilliz Cloud | Discord | LinkedIn | X | YouTube
読み続けて

Announcing VDBBench 1.0: Open-Source VectorDB Benchmarking with Your Real-World Production Workloads
Discover VDBBench 1.0, an open-source tool for benchmarking vector databases with real-world production data, streaming ingestion, and concurrent workloads.

8 Latest RAG Advancements Every Developer Should Know
Explore eight advanced RAG variants that can solve real problems you might be facing: slow retrieval, poor context understanding, multimodal data handling, and resource optimization.

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
Explore DeepSeek-VL2, the open-source MoE vision-language model. Discover its architecture, efficient training pipeline, and top-tier performance.



