embed-english-light-v3.0ガイド

すべてのモデル
コヒーレ / embed-english-light-v3.0

コヒーレ / embed-english-light-v3.0

AI Model Milvus Integrated

タスク: 埋め込み

モダリティ: テキスト

類似性メトリック: 任意（正規化）

ライセンス: 専有

次元: 384

最大入力トークン: 512

価格: 0.10ドル/1Mトークン

Introduction to embed-english-light-v3.0

embed-english-light-v3.0は、embed-english-v3.0`より小さく高速なバージョンです。ほぼ同等の機能ですが、より高速です。英語テキスト用に調整されている。

Embed V3モデルシリーズのすべての埋め込みモデルを比較しています。

モデル名**	寸法	MTEB性能 (高い方が良い)	BEIR性能 (高い方が良い)
embed-english-v3.0	1024	64.5	55.9
	embed-english-light-3.0	384	62.0	52.0
embed-multilingual-v3.0	1024	64.0	54.6	｜.
embed-multilingual-light-v3.0｜384｜60.1｜50.9｜｜です。
	768｜58.5｜47.1｜｜埋め込み多言語-v2.0

MTEB：検索、分類、クラスタリングを評価するための幅広いデータセット（56データセット）。
BEIR: 領域外検索に特化したデータセット（14データセット）。

embed-english-light-v3.0によるベクトル埋め込み作成方法

ベクトル埋め込みを生成するには、主に2つの方法があります：

1.PyMilvus: MilvusのPython SDKで、embed-english-light-v3.0モデルをシームレスに統合しています。 2.Cohere Python SDK: Cohereが提供するPython SDKです。

ベクトル埋め込みが生成されると、Zilliz Cloud (Milvusによって提供される完全に管理されたベクトルデータベースサービス)に保存され、意味的類似性検索に使用することができます。以下は、4つの重要なステップである：

1.1.サインアップ Zilliz Cloudアカウントを無料で取得する。 2.サーバーレスクラスターのセットアップ](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster)とパブリックエンドポイントとAPIキーを取得する。 3.ベクター・コレクションを作成し、ベクター埋め込みを挿入する。 4.**セマンティック検索を実行する。

PyMilvusで埋め込みベクトルを生成し、Zilliz Cloudに挿入して類似度検索を行う。

from pymilvus.model.dense import CohereEmbeddingFunction
from pymilvus import MilvusClient

COHERE_API_KEY = "your-cohere-api-key"。

ef = CohereEmbeddingFunction("embed-english-light-v3.0", api_key=COHERE_API_KEY)

ドキュメント = [
   「人工知能は1956年に学問分野として創設された、
   「アラン・チューリングは、人工知能の実質的な研究を行った最初の人物である、
   「チューリングはロンドンのマイダ・ベイルで生まれ、イングランド南部で育った。
]
# ドキュメントの埋め込みを生成する
docs_embeddings = ef.encode_documents(docs)

queries = ["人工知能はいつ創設されたか"、
          「アラン・チューリングはどこで生まれたのか？］
# クエリの埋め込みを生成
query_embeddings = ef.encode_queries(queries)

# Public EndpointとAPI KeyでZilliz Cloudに接続する
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT、
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION)：
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    コレクション名=COLLECTION、
    dimension=ef.dim、
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings)：
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(collection_name=COLLECTION、
    data=query_embeddings、
    consistency_level="Strong"、
    output_fields=["text"])

ステップバイステップのガイドはPyMilvus Embedding Model documentationを参照してください。

Cohere python SDKを使用してベクトル埋め込みを生成し、類似検索のためにZilliz Cloudに挿入します。

インポート cohere
from pymilvus import MilvusClient

COHERE_API_KEY = "あなたのcohere-api-key"
co = cohere.Client(COHERE_API_KEY)

docs = [ドキュメント
   「人工知能は1956年に学問分野として設立された、
   "アラン・チューリングはAIの実質的な研究を行った最初の人物である"、
   「チューリングはロンドンのマイダ・ベイルで生まれ、イングランド南部で育った。
]

docs_embeddings = co.embed(
    texts=docs, model="embed-english-light-v3.0", input_type="search_document"
).embeddings

queries = ["人工知能はいつ誕生したのか？
          「アラン・チューリングはどこで生まれましたか？］

query_embeddings = co.embed(
    texts=docs, model="embed-english-light-v3.0", input_type="search_query"
).embeddings

# Public EndpointとAPI KeyでZilliz Cloudに接続する
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT、
    token=ZILLIZ_API_KEY)

COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION)：
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    コレクション名=COLLECTION、
    dimension=384、
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings)：
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION、
    data=query_embeddings、
    consistency_level="Strong"、
    output_fields=["text"])