Zilliz CloudにおけるFunctionsとモデル推論の紹介:ホスト型モデルによる自動埋め込みとリランキング
ベクトルデータベース 上に構築された AI 検索パイプラインでは通常、自分で埋め込みを生成し、類似性検索のためにそれらをベクトルデータベースに挿入し、すべてのクエリを同じ方法で埋め込み、より高い結果品質が必要な場合は別個のリランキングサービスを後付けする必要があります。これは機能しますが、より多くのグルーコードと、ずれが生じる可能性のある箇所が増えることを意味します。
本日、Zilliz Cloud 上の Functions and Inference Services を発表します。サードパーティモデル向けには Public Preview、Zilliz Hosted Models 向けには Private Preview として提供されます。生のテキストを挿入し、自然言語で検索できます。その後、Zilliz Cloud が埋め込み生成、ベクトルストレージ、結果のリランキングを自動的に処理します。
Zilliz Cloud の Functions and Inference Services とは?
A Function は、Zilliz Cloud にデータの処理方法を指示する、コレクションに紐づけられた宣言的な操作です。ベクトルを送信する代わりに、今では生のテキストを送信するだけで済みます。クライアント側でクエリを埋め込む代わりに、テキストクエリを直接送信します。その後は Zilliz Cloud が残りを処理します。
Functions は 2 つのカテゴリに分かれます。
- Pre-search Functions は取り込み時とクエリ時に実行され、テキストを検索可能な表現に変換します。これには、全文キーワード検索のための BM25(モデル不要)や、セマンティック検索向けの密ベクトル埋め込みを生成するモデルベースのアプローチが含まれます。
- Post-search Functions は検索後に実行され、結果を精緻化し、並べ替えます。これには、複数の結果セットを統合するハイブリッドランカー、ビジネスロジック向けのルールベースランカー、クエリとドキュメント間の関連性をスコアリングするモデルベースランカーが含まれます。
次の図は、検索ワークフローにおける Functions の動作を抽象化して示しています。
Inference Services は、モデルベースの Functions を支えます。Function が埋め込みの生成やクエリとドキュメントのペアのスコアリングを必要とする場合、次の 2 つのソースのいずれかからモデルを呼び出します。
| ソース | 仕組み |
|---|---|
| サードパーティプロバイダー(OpenAI、Voyage AI、Cohere) | API キーを持ち込みます。Zilliz Cloud が統合を管理します。 |
| Zilliz Hosted Models | Zilliz の GPU インフラストラクチャ上の完全マネージド型モデルインスタンス。データがプラットフォームの外に出ることはありません。 |
最も簡単な違いは、Functions はデータに対して 何が 起こるかを定義します。Inference Services は どのモデルが 作業を行うかを定義します。
なぜ埋め込みとリランキングを Zilliz Cloud に移すのか?
今日、埋め込み API を呼び出してベクトルを Zilliz Cloud に挿入しているなら、それはすでに機能しています。しかし、アプリケーションがスケールするにつれて、いくつかの摩擦点が現れます。
モデルの一貫性があなたの問題になる
取り込みパスとクエリパスは、まったく同じモデルを使用する必要があります。もしそれらがずれると(たとえば、デプロイによって一方だけが更新され、もう一方は更新されない場合)、検索品質は気づかないうちに低下します。Functions では、コレクションがモデル設定を保持します。取り込みとクエリが一致することが保証されます。
摩擦が大きすぎるためリランキングが省略される
モデルベースのリランキングは、特にハイブリッド検索において、結果品質を大きく向上させます。しかし、すべてのクエリの後に別のサービス呼び出しを追加し、それに伴う API キー、レイテンシ予算、障害処理を管理することは、多くのチームがリランキングなしで出荷するほどの摩擦になります。リランキングが組み込みの Function になると、その摩擦はなくなります。
認証情報がサービス全体に散在する
データを書き込む、または検索するすべてのサービスには、埋め込みプロバイダーの API キーが必要です。Functions では、認証情報は Zilliz Cloud の Model Provider Integration に保存されます — 管理する場所は 1 つ、キーをローテーションする場所も 1 つ、アプリケーションコードにシークレットは不要です。
推論呼び出しのたびにデータがネットワークを離れる
プライバシーやコンプライアンス要件のあるチームにとって、挿入やクエリのたびに生のテキストを外部 API に送信することは現実的な懸念事項です。Hosted Models は、データ、推論、ストレージ、検索のすべてを Zilliz のプライベートネットワーク内に保持します。
パブリックプレビューで利用可能なもの
モデルベースの埋め込み Functions
コレクションに 埋め込みモデル をアタッチします。その時点以降は、次のようになります。
- Insert、Upsert、または Import 経由で 生のテキストを挿入 — Zilliz Cloud が高密度ベクトル埋め込みを自動的に生成して保存します。
- テキストで検索 — システムが同じモデルでクエリを埋め込み、ANN search を実行します。
クライアント側の埋め込みコードは不要です。モデルの一貫性を心配する必要もありません。アプリケーションはテキストを扱うだけで機能します。
モデルベースのリランキング Functions
リランキングモデルを選択し、組み込みの検索後ステップとして適用します。これは、セマンティック検索とキーワード検索 を 1 つの結果セットに組み合わせるハイブリッド検索で特に強力です。
モデルベースのリランカーは ベクトル類似度 を超えています — 各候補の内容を読み取り、それが実際にクエリにどれほど適切に答えているかを評価します。これは、「これらのベクトルは近くにある」と「このドキュメントは質問に答えている」の違いです。
サポートされているプロバイダー
| プロバイダー | 埋め込み | リランキング |
|---|---|---|
| OpenAI | はい | -- |
| Voyage AI | はい | はい |
| Cohere | はい | はい |
Model Provider Integration
サードパーティ API 認証情報を、Model Provider Integration を通じて Zilliz Cloud コンソールに一度登録します。コレクションは ID でそのインテグレーションを参照します — コードにキーは不要です。認証情報は 1 か所でローテーションでき、そのインテグレーションを使用するすべてのコレクションに変更が自動的に反映されます。
プライベートプレビューの内容: Hosted Models
レイテンシ、コスト、またはデータレジデンシーを優先するチーム向けに、Hosted Models は Zilliz の GPU インフラストラクチャ上でフルマネージドのモデルインスタンスを実行します。アーキテクチャ上の違いは、データを外部 API に送信するのではなく、モデルがデータのすぐ隣で実行されることです。
次の図は、ホスト型モデルを使用する手順を示しています。
| メリット | 意味 |
|---|---|
| データ転送料ゼロ | 推論は Zilliz ネットワーク内で行われます |
| 低レイテンシ | 埋め込みやリランキングのための外部往復がありません |
| プライバシーの強化 | 生のテキストが Zilliz 環境を離れることはありません |
| 専用リソース | ノイジーネイバーによるパフォーマンス問題がありません |
利用可能なモデル
| カテゴリ | モデル |
|---|---|
| Embedding | Qwen3-Embedding (0.6B, 4B, 8B), BAAI BGE series (small, base, large — EN & ZH) |
| Reranking | Qwen3-Reranker (0.6B, 4B, 8B), BAAI BGE Reranker (base, large) |
| Semantic Highlighter | zilliz/semantic-highlight-bilingual-v1 — 結果内の関連テキストセグメントをハイライトします |
Hosted Models はリクエストに応じて利用可能です。Zilliz チームにお問い合わせ いただき、アクセス権を取得してください。
Function と推論機能の概要
検索前 Functions
| 機能 | 説明 | ステータス |
|---|---|---|
| BM25 | 全文キーワード検索向けのSparse embeddings — モデル不要 | GA |
| Model-Based Embedding (3rd-party) | OpenAI、Voyage AI、Cohere 経由のDense embeddings | Public Preview |
| Model-Based Embedding (Hosted) | Zilliz ホスト型 Qwen3、BGE 経由の Dense embeddings | Private Preview |
検索後の機能
| 機能 | 説明 | ステータス |
|---|---|---|
| Hybrid Rankers | 複数の検索戦略(例:セマンティック + キーワード)の結果を統合 | GA |
| Rule-Based Rankers | ビジネスロジック(新しさ、人気度、カスタムスコア)を適用 | GA |
| Model-Based Rankers (3rd-party) | Voyage AI、Cohere 経由のSemantic reranking | Public Preview |
| Model-Based Rankers (Hosted) | Zilliz ホスト型 Qwen3、BGE 経由の Semantic reranking | Private Preview |
BM25、hybrid rankers、rule-based rankers はすでに一般提供されています。本日のリリースでは、embedding と ranking の両方にモデル駆動のインテリジェンスが追加され、さらにそれらのモデルをサードパーティ API 経由または Zilliz Cloud 上で直接実行するためのインフラストラクチャも追加されます。
Zilliz Cloud Functions の始め方
Public Preview(現在利用可能):
- Zilliz Cloud にサインアップまたはサインイン — 勤務先メールアドレスで登録した新規アカウントには $100 の無料クレジットが付与されます
- コンソールで Model Provider Integration を設定する
- embedding function を使用してコレクションを作成する
- 生テキストを挿入し、テキストで検索する — これだけです
Private Preview(リクエスト制):
専用推論で Hosted Models を試すには、お問い合わせください。
完全なドキュメント:Function and Model Inference Guide
よくある質問
ベクトル検索における embedding、reranking、マネージド推論についてよく寄せられる質問をいくつか紹介します:
ベクトルデータベースは embeddings を自動生成できますか?
はい。Zilliz Cloud Functions では、embedding モデルをコレクションに紐付けて生テキストを挿入すると、データベースがユーザーに代わって dense vector embeddings を生成して保存します。クエリも同じように機能します。テキストクエリを送信すると、システムは ANN 検索を実行する前に同じモデルでそれを embedding します。これにより、クライアント側の embedding コードが不要になり、取り込みと検索の間でモデルの一貫性が保証されます。
model-based reranking とは何で、ベクトル検索をどのように改善しますか?
Model-based reranking は、検索後のステップであり、ベクトル類似度スコアだけに依存するのではなく、言語モデルが各候補ドキュメントが実際にクエリにどれだけよく答えているかを評価します。キーワード検索とセマンティック検索を組み合わせたハイブリッド検索パイプラインで特に効果的です。Zilliz Cloud では、Voyage AI や Cohere などのプロバイダーを使用した組み込み Function として、または Zilliz Hosted Models 経由で、model-based reranking を適用できます。
hosted embedding models と third-party embedding models の違いは何ですか?
サードパーティモデル(OpenAI、Voyage AI、Cohere)はプロバイダーのインフラストラクチャ上で実行されます。API キーを提供し、呼び出しごとに料金を支払います。Hosted Models は Zilliz 管理の GPU インフラストラクチャ上で実行されるため、データがプラットフォーム外に出ることはありません。Hosted Models は、より低いレイテンシ、データ転送料ゼロ、ノイジーネイバー問題のない専用コンピュートを提供します。トレードオフとして、低ボリュームではサードパーティの従量課金が安い場合がありますが、ホスト型インスタンスは大規模になるほどコスト効率が高くなります。
1 つのクエリでキーワード検索とセマンティック検索をどのように組み合わせますか?
Zilliz Cloud では、同じコレクションに BM25 Function(スパース埋め込みによるキーワード検索用)とモデルベースの埋め込み Function(デンス埋め込みによるセマンティック検索用)の両方をアタッチできます。クエリ時には、ハイブリッドランカーまたはモデルベースのリランカーが結果を単一のランキング済みリストにマージします。コレクションはスパース埋め込み、デンス埋め込み、リランキングをまとめて処理します — 外部のオーケストレーションは不要です。
読み続けて

Introducing Zilliz Cloud Global Cluster: Region-Level Resilience for Mission-Critical AI
Zilliz Cloud Global Cluster delivers multi-region resilience, automatic failover, and fast global AI search with built-in security and compliance.

Zilliz Cloud Introduces Advanced BYOC-I Solution for Ultimate Enterprise Data Sovereignty
Explore Zilliz Cloud BYOC-I, the solution that balances AI innovation with data control, enabling secure deployments in finance, healthcare, and education sectors.

The Great AI Agent Protocol Race: Function Calling vs. MCP vs. A2A
Compare Function Calling, MCP, and A2A protocols for AI agents. Learn which standard best fits your development needs and future-proof your applications.



