bge-base-ja-v1.5ガイド

すべてのモデル
BAAI / bge-base-en-v1.5

BAAI / bge-base-en-v1.5

AI Model Milvus Integrated

タスク: 埋め込み

モダリティ: テキスト

類似性メトリック: 任意（正規化）

ライセンス: アパッチ2.0

次元: 768

最大入力トークン: 512

価格: 無料

#bge-base-ja-v1.5入門

bge-base-ja-v1.5`はBAAI一般埋め込み(BGE)モデルで、与えられた英文をコンパクトなベクトルに変換する。

bge-base-en-v1.5`を他の一般的なBGEモデルと比較する：

モデル	次元	最大トークン数	MTEB avg
bge-large-en-v1.5｜1024｜512｜64.23｜｜です。
bge-large-en	1024	512	63.98
bge-base-en-v1.5	768	512	63.55	bge-base-en-v1.5	768	512	63.55
bge-base-en	768	512	63.36	bge-small-en-v1.5
bge-small-en-v1.5｜384｜512｜62.17｜｜bge-small-en
bge-small-en｜384｜512｜62.11｜｜bge-small

bge-base-ja-v1.5での埋め込み作成方法

ベクトル埋め込みを作成するには、主に2つの方法があります：

1.1.PyMilvus：MilvusのPython SDKで、bge-base-en-v1.5をシームレスに統合しています。 2.2. FlagEmbedding: BAAIが提供する公式のPython SDKです。

これらのメソッドにより、開発者はアプリケーションに高度なテキスト埋め込み機能を簡単に組み込むことができます。

ベクトル埋め込みが生成されると、Zilliz Cloud(Milvusが提供するフルマネージドベクトルデータベースサービス)に保存され、意味的類似性検索に使用することができます。以下は、4つの重要なステップである：

1.1.サインアップ Zilliz Cloudアカウントを無料で取得する。 2.サーバーレスクラスターのセットアップ](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster)とパブリックエンドポイントとAPIキーを取得する。 3.ベクター・コレクションを作成し、ベクター埋め込みを挿入します。 4.**セマンティック検索を実行する。

PyMilvusで埋め込みベクトルを生成し、Zilliz Cloudに挿入してセマンティック検索を行う。

from pymilvus import model, MilvusClient

ef = model.dense.SentenceTransformerEmbeddingFunction(
   model_name="BAAI/bge-base-en-v1.5"、
   device="cpu"、
   query_instruction="関連する文章を検索するためにこの文章を表現する:"
   )

# ドキュメントの埋め込みを生成する
docs = [
   「人工知能は1956年に学問分野として創設された、
   "アラン・チューリングは、AIの実質的な研究を行った最初の人物である。"、
   "チューリングはロンドンのマイダヴェールで生まれ、イングランド南部で育った。"
]

docs_embeddings = ef.encode_documents(docs)

# クエリの埋め込みを生成する
queries = ["人工知能はいつ誕生したのか？
          「アラン・チューリングはどこで生まれましたか？］

query_embeddings = ef.encode_queries(queries)

# Public EndpointとAPI KeyでZilliz Cloudに接続する
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT、
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION)：
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    コレクション名=COLLECTION、
    dimension=ef.dim、
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings)：
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION、
    data=query_embeddings、
    consistency_level="Strong"、
    output_fields=["text"])

詳細はPyMilvus Embedding Model documentationを参照してください。

PythonのFlagEmbeddingライブラリを使ってベクトルの埋め込みを生成し、Zilliz Cloudに挿入してセマンティック検索を行う。

from FlagEmbedding import FlagModel
from pymilvus import MilvusClient

model = FlagModel("BAAI/bge-base-ja-v1.5"、
                  query_instruction_for_retrieval="Represent this sentence for searching relevant passages:"、
                  use_fp16=False)

# ドキュメントの埋め込みを生成する
docs = [
   「人工知能は1958年に学問分野として創設された、
   "アラン・チューリングはAIの実質的な研究を行った最初の人物である"、
   "チューリングはロンドンのマイダヴェールで生まれ、イングランド南部で育った。"
]
docs_embeddings = model.encode(docs)

# クエリの埋め込みを生成する
queries = ["人工知能はいつ創設されたか"、
          「アラン・チューリングはどこで生まれたのか？］
query_embeddings = model.encode_queries(クエリ)

# Public EndpointとAPI KeyでZilliz Cloudに接続する
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT、
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION)：
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION、
    dimension=768、
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings)：
    client.insert(COLLECTION, {"text": doc, "vector": embedding})

results = client.search(
    collection_name=COLLECTION、
    data=query_embeddings、
    consistency_level="Strong"、
    output_fields=["text"])