ブログ
Zilliz CloudにおけるFunctionsとモデル推論の紹介：ホスト型モデルによる自動埋め込みとリランキング

Zilliz CloudにおけるFunctionsとモデル推論の紹介：ホスト型モデルによる自動埋め込みとリランキング

Mar 31, 20267 min read

ベクトルデータベース上に構築された AI 検索パイプラインでは通常、自分で埋め込みを生成し、類似性検索のためにそれらをベクトルデータベースに挿入し、すべてのクエリを同じ方法で埋め込み、より高い結果品質が必要な場合は別個のリランキングサービスを後付けする必要があります。これは機能しますが、より多くのグルーコードと、ずれが生じる可能性のある箇所が増えることを意味します。

本日、Zilliz Cloud 上の Functions and Inference Services を発表します。サードパーティモデル向けには Public Preview、Zilliz Hosted Models 向けには Private Preview として提供されます。生のテキストを挿入し、自然言語で検索できます。その後、Zilliz Cloud が埋め込み生成、ベクトルストレージ、結果のリランキングを自動的に処理します。

Zilliz Cloud の Functions and Inference Services とは？

A Function は、Zilliz Cloud にデータの処理方法を指示する、コレクションに紐づけられた宣言的な操作です。ベクトルを送信する代わりに、今では生のテキストを送信するだけで済みます。クライアント側でクエリを埋め込む代わりに、テキストクエリを直接送信します。その後は Zilliz Cloud が残りを処理します。

Functions は 2 つのカテゴリに分かれます。

Pre-search Functions は取り込み時とクエリ時に実行され、テキストを検索可能な表現に変換します。これには、全文キーワード検索のための BM25（モデル不要）や、セマンティック検索向けの密ベクトル埋め込みを生成するモデルベースのアプローチが含まれます。
Post-search Functions は検索後に実行され、結果を精緻化し、並べ替えます。これには、複数の結果セットを統合するハイブリッドランカー、ビジネスロジック向けのルールベースランカー、クエリとドキュメント間の関連性をスコアリングするモデルベースランカーが含まれます。

次の図は、検索ワークフローにおける Functions の動作を抽象化して示しています。

Inference Services は、モデルベースの Functions を支えます。Function が埋め込みの生成やクエリとドキュメントのペアのスコアリングを必要とする場合、次の 2 つのソースのいずれかからモデルを呼び出します。

ソース	仕組み
サードパーティプロバイダー（OpenAI、Voyage AI、Cohere）	API キーを持ち込みます。Zilliz Cloud が統合を管理します。
Zilliz Hosted Models	Zilliz の GPU インフラストラクチャ上の完全マネージド型モデルインスタンス。データがプラットフォームの外に出ることはありません。

最も簡単な違いは、Functions はデータに対して 何が 起こるかを定義します。Inference Services は どのモデルが 作業を行うかを定義します。

なぜ埋め込みとリランキングを Zilliz Cloud に移すのか？

今日、埋め込み API を呼び出してベクトルを Zilliz Cloud に挿入しているなら、それはすでに機能しています。しかし、アプリケーションがスケールするにつれて、いくつかの摩擦点が現れます。

モデルの一貫性があなたの問題になる

取り込みパスとクエリパスは、まったく同じモデルを使用する必要があります。もしそれらがずれると（たとえば、デプロイによって一方だけが更新され、もう一方は更新されない場合）、検索品質は気づかないうちに低下します。Functions では、コレクションがモデル設定を保持します。取り込みとクエリが一致することが保証されます。

摩擦が大きすぎるためリランキングが省略される

モデルベースのリランキングは、特にハイブリッド検索において、結果品質を大きく向上させます。しかし、すべてのクエリの後に別のサービス呼び出しを追加し、それに伴う API キー、レイテンシ予算、障害処理を管理することは、多くのチームがリランキングなしで出荷するほどの摩擦になります。リランキングが組み込みの Function になると、その摩擦はなくなります。

認証情報がサービス全体に散在する

データを書き込む、または検索するすべてのサービスには、埋め込みプロバイダーの API キーが必要です。Functions では、認証情報は Zilliz Cloud の Model Provider Integration に保存されます — 管理する場所は 1 つ、キーをローテーションする場所も 1 つ、アプリケーションコードにシークレットは不要です。

推論呼び出しのたびにデータがネットワークを離れる

プライバシーやコンプライアンス要件のあるチームにとって、挿入やクエリのたびに生のテキストを外部 API に送信することは現実的な懸念事項です。Hosted Models は、データ、推論、ストレージ、検索のすべてを Zilliz のプライベートネットワーク内に保持します。

パブリックプレビューで利用可能なもの

モデルベースの埋め込み Functions

コレクションに埋め込みモデルをアタッチします。その時点以降は、次のようになります。

Insert、Upsert、または Import 経由で 生のテキストを挿入 — Zilliz Cloud が高密度ベクトル埋め込みを自動的に生成して保存します。
テキストで検索 — システムが同じモデルでクエリを埋め込み、ANN search を実行します。

クライアント側の埋め込みコードは不要です。モデルの一貫性を心配する必要もありません。アプリケーションはテキストを扱うだけで機能します。

モデルベースのリランキング Functions

リランキングモデルを選択し、組み込みの検索後ステップとして適用します。これは、セマンティック検索とキーワード検索を 1 つの結果セットに組み合わせるハイブリッド検索で特に強力です。

モデルベースのリランカーはベクトル類似度を超えています — 各候補の内容を読み取り、それが実際にクエリにどれほど適切に答えているかを評価します。これは、「これらのベクトルは近くにある」と「このドキュメントは質問に答えている」の違いです。

サポートされているプロバイダー

プロバイダー	埋め込み	リランキング
OpenAI	はい	--
Voyage AI	はい	はい
Cohere	はい	はい

Model Provider Integration

サードパーティ API 認証情報を、Model Provider Integration を通じて Zilliz Cloud コンソールに一度登録します。コレクションは ID でそのインテグレーションを参照します — コードにキーは不要です。認証情報は 1 か所でローテーションでき、そのインテグレーションを使用するすべてのコレクションに変更が自動的に反映されます。

プライベートプレビューの内容: Hosted Models

レイテンシ、コスト、またはデータレジデンシーを優先するチーム向けに、Hosted Models は Zilliz の GPU インフラストラクチャ上でフルマネージドのモデルインスタンスを実行します。アーキテクチャ上の違いは、データを外部 API に送信するのではなく、モデルがデータのすぐ隣で実行されることです。

次の図は、ホスト型モデルを使用する手順を示しています。

メリット	意味
データ転送料ゼロ	推論は Zilliz ネットワーク内で行われます
低レイテンシ	埋め込みやリランキングのための外部往復がありません
プライバシーの強化	生のテキストが Zilliz 環境を離れることはありません
専用リソース	ノイジーネイバーによるパフォーマンス問題がありません

利用可能なモデル

カテゴリ	モデル
Embedding	Qwen3-Embedding (0.6B, 4B, 8B), BAAI BGE series (small, base, large — EN & ZH)
Reranking	Qwen3-Reranker (0.6B, 4B, 8B), BAAI BGE Reranker (base, large)
Semantic Highlighter	zilliz/semantic-highlight-bilingual-v1 — 結果内の関連テキストセグメントをハイライトします

Hosted Models はリクエストに応じて利用可能です。Zilliz チームにお問い合わせいただき、アクセス権を取得してください。

Function と推論機能の概要

検索前 Functions

機能	説明	ステータス
BM25	全文キーワード検索向けのSparse embeddings — モデル不要	GA
Model-Based Embedding (3rd-party)	OpenAI、Voyage AI、Cohere 経由のDense embeddings	Public Preview
Model-Based Embedding (Hosted)	Zilliz ホスト型 Qwen3、BGE 経由の Dense embeddings	Private Preview

検索後の機能

機能	説明	ステータス
Hybrid Rankers	複数の検索戦略（例：セマンティック + キーワード）の結果を統合	GA
Rule-Based Rankers	ビジネスロジック（新しさ、人気度、カスタムスコア）を適用	GA
Model-Based Rankers (3rd-party)	Voyage AI、Cohere 経由のSemantic reranking	Public Preview
Model-Based Rankers (Hosted)	Zilliz ホスト型 Qwen3、BGE 経由の Semantic reranking	Private Preview

BM25、hybrid rankers、rule-based rankers はすでに一般提供されています。本日のリリースでは、embedding と ranking の両方にモデル駆動のインテリジェンスが追加され、さらにそれらのモデルをサードパーティ API 経由または Zilliz Cloud 上で直接実行するためのインフラストラクチャも追加されます。

Zilliz Cloud Functions の始め方

Public Preview（現在利用可能）：

Zilliz Cloud にサインアップまたはサインイン — 勤務先メールアドレスで登録した新規アカウントには $100 の無料クレジットが付与されます
コンソールで Model Provider Integration を設定する
embedding function を使用してコレクションを作成する
生テキストを挿入し、テキストで検索する — これだけです

Private Preview（リクエスト制）：

専用推論で Hosted Models を試すには、お問い合わせください。

完全なドキュメント：Function and Model Inference Guide

よくある質問

ベクトル検索における embedding、reranking、マネージド推論についてよく寄せられる質問をいくつか紹介します：

ベクトルデータベースは embeddings を自動生成できますか？

はい。Zilliz Cloud Functions では、embedding モデルをコレクションに紐付けて生テキストを挿入すると、データベースがユーザーに代わって dense vector embeddings を生成して保存します。クエリも同じように機能します。テキストクエリを送信すると、システムは ANN 検索を実行する前に同じモデルでそれを embedding します。これにより、クライアント側の embedding コードが不要になり、取り込みと検索の間でモデルの一貫性が保証されます。

model-based reranking とは何で、ベクトル検索をどのように改善しますか？

Model-based reranking は、検索後のステップであり、ベクトル類似度スコアだけに依存するのではなく、言語モデルが各候補ドキュメントが実際にクエリにどれだけよく答えているかを評価します。キーワード検索とセマンティック検索を組み合わせたハイブリッド検索パイプラインで特に効果的です。Zilliz Cloud では、Voyage AI や Cohere などのプロバイダーを使用した組み込み Function として、または Zilliz Hosted Models 経由で、model-based reranking を適用できます。

hosted embedding models と third-party embedding models の違いは何ですか？

サードパーティモデル（OpenAI、Voyage AI、Cohere）はプロバイダーのインフラストラクチャ上で実行されます。API キーを提供し、呼び出しごとに料金を支払います。Hosted Models は Zilliz 管理の GPU インフラストラクチャ上で実行されるため、データがプラットフォーム外に出ることはありません。Hosted Models は、より低いレイテンシ、データ転送料ゼロ、ノイジーネイバー問題のない専用コンピュートを提供します。トレードオフとして、低ボリュームではサードパーティの従量課金が安い場合がありますが、ホスト型インスタンスは大規模になるほどコスト効率が高くなります。

1 つのクエリでキーワード検索とセマンティック検索をどのように組み合わせますか？

Zilliz Cloud では、同じコレクションに BM25 Function（スパース埋め込みによるキーワード検索用）とモデルベースの埋め込み Function（デンス埋め込みによるセマンティック検索用）の両方をアタッチできます。クエリ時には、ハイブリッドランカーまたはモデルベースのリランカーが結果を単一のランキング済みリストにマージします。コレクションはスパース埋め込み、デンス埋め込み、リランキングをまとめて処理します — 外部のオーケストレーションは不要です。

Updated on Aug 02, 2026

Fendy Feng
Fendy Feng is the Technical Marketing Writer at Zilliz. She has extensive experience developing and enhancing the impact of open-source projects in various global markets by producing high-quality, tailored content. Before joining Zilliz, Fendy worked as a Content Strategist at PingCAP, a fast-growing E-Series startup renowned for its open-source distributed SQL database.

読み続けて

Zilliz Cloud Now Available in AWS Asia Pacific (Seoul)

Zilliz Cloud is now available in AWS Seoul — low-latency vector search, in-country data residency, and one-step migration for Korean AI teams. 31 regions across 5 clouds.

Why and How to Migrate from Self-Hosted Milvus to Zilliz Cloud

A simple, step-by-step guide to migrating from Milvus to Zilliz Cloud. Learn both endpoint and backup methods for a smooth, scalable vector database migration.

Optimizing Embedding Model Selection with TDA Clustering: A Strategic Guide for Vector Databases

Discover how Topological Data Analysis (TDA) reveals hidden embedding model weaknesses and helps optimize vector database performance.