ジーナAI / jina-embeddings-v2-base-de
Milvus Integrated
タスク: 埋め込み
モダリティ: テキスト
類似性メトリック: 任意(正規化)
ライセンス: アパッチ2.0
次元: 768
最大入力トークン: 8192
価格: 無料
Jina Embedding v2 モデルの紹介
Jina エンベッディング v2モデルは、最大入力サイズが8,192トークンに拡張され、長い文書を扱うように設計されています。2024年10月現在、Jina AIエンベッディングV2には以下のバリエーションがあり、それぞれ異なるエンベッディングのニーズに対応しています。
#jina-embeddings-v2-base-deとは?
jina-embeddings-v2-base-de`は、1シーケンスあたり最大8192トークンを処理できるバイリンガル(ドイツ語/英語)テキスト埋め込みツールです。JinaBERTと呼ばれる特殊なBERTアーキテクチャ上に構築されており、ドイツ語と英語が混在した入力でも偏りなく処理することができます。
jina-embeddings-v2-base-de`と他のJina埋め込みモデルの比較。
| モデル|パラメータサイズ|埋め込み次元|テキスト | ---------------------------- | -------------- | --------------------------------------- | ----------------------------------------------------------- | | jina-embeddings-v3 | 570M | 柔軟な埋め込みサイズ (デフォルト: 1024) | 多言語テキスト埋め込み; 合計94言語をサポート | | jina-embeddings-v2-small-en](https://zilliz.com/ai-models/jina-embeddings-v2-small-en)|33M|512|英語モノリンガル埋め込み|jina-embeddings-v2-small-en](https://zilliz.com/ai-models/jina-embeddings-v2-small-en)|512|英語モノリンガル埋め込み | jina-embeddings-v2-base-ja | 137M | 768 | 英語モノリンガル埋め込み || jina-embeddings-v2-base-ja | 137M | 768 | 英語モノリンガル埋め込み | jina-embeddings-v2-base-zh | 161M | 768 | 中英二ヶ国語エンベッディング |... | jina-embeddings-v2-base-de](https://zilliz.com/ai-models/jina-embeddings-v2-base-de) | 161M | 768 | ドイツ語-英語対訳エンベッディング | jina-embeddings-v2-base-de | jina-embeddings-v2-base-code](https://zilliz.com/ai-models/jina-embeddings-v2-base-code) | 161M | 768|英語とプログラミング言語|の対訳エンベッディング。
jina-embeddings-v2-base-deを使って埋め込みを作成する方法
ベクトルの埋め込みを生成するには、主に2つの方法があります:
1.1.PyMilvus:MilvusのPython SDKで、jina-embeddings-v2-base-deモデルをシームレスに統合しています。
2.SentenceTransformer library: Pythonライブラリ sentence-transformer.
ベクトル埋め込みが作成されると、Zilliz Cloud (Milvusによるフルマネージドベクトルデータベース)のようなベクトルデータベースに格納され、意味的類似度検索に使用することができる。
以下は4つの重要なステップである:
- Zilliz Cloudアカウントに無料でサインアップ](https://cloud.zilliz.com/signup)。
- サーバーレスクラスターをセットアップ](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster)し、パブリックエンドポイントとAPIキーを取得する。
- ベクトルコレクションを作成し、ベクトル埋め込みを挿入する。
- 格納された埋め込みに対してセマンティック検索を実行する。
PyMilvusで埋め込みを作成し、Zilliz Cloudに挿入してセマンティック検索を行う。
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v2-base-de", trust_remote_code=True)
docs = [
"Die Künstliche Intelligenz wurde 1956 al akademische Disziplin gegründet."、
"Alan Turing was the first person, die wesentliche Forschung im Bereich der Künstlichen Intelligenz."、
"ロンドンのマイダ・ベイルで生まれ、チューリングは英国に渡った。", "Alan Turing was the erste Person die die wesentlicheorschung der Künstlichen Intelligenz betrieb.
]
# ドキュメントの埋め込みを生成する
docs_embeddings = ef(docs)
queries = ["Wann wurde die Künstliche Intelligenz gegründet?
「アラン・チューリングはどこで生まれたのか?]
# クエリの埋め込みを生成する
query_embeddings = ef(queries)
# Public EndpointとAPI KeyでZilliz Cloudに接続する
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT、
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
コレクション名=COLLECTION、
dimension=ef.dim、
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
collection_name=COLLECTION、
data=query_embeddings、
consistency_level="Strong"、
output_fields=["text"])
詳細はPyMilvus Embedding Model documentationを参照してください。
SentenceTransformer ライブラリで埋め込みを作成し、Zilliz Cloud に挿入して意味検索を行う。
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v2-base-de", trust_remote_code=True)
docs = [
"Die Künstliche Intelligenz wurde 1956 al akademische Disziplin gegründet."、
"Alan Turing was the first person, die wesentliche Forschung im Bereich der Künstlichen Intelligenz."、
"ロンドンのマイダ・ベイルで生まれ、チューリングは英国に渡った。", "Alan Turing was the erste Person die die wesentlicheorschung der Künstlichen Intelligenz betrieb.
]
# ドキュメントの埋め込みを生成する
docs_embeddings = model.encode(docs, normalize_embeddings=True)
queries = ["Wann wurde die Künstliche Intelligenz gegründet?
「アラン・チューリングはどこで生まれましたか?]
# クエリの埋め込みを生成する
query_embeddings = model.encode(クエリ, normalize_embeddings=True)
# Public EndpointとAPI KeyでZilliz Cloudに接続する。
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT、
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
collection_name=COLLECTION、
dimension=768、
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
collection_name=COLLECTION、
data=query_embeddings、
consistency_level="Strong"、
output_fields=["text"])
シームレス AI ワークフロー
埋め込みからスケーラブルな AI 検索まで、 Zilliz Cloud は、埋め込みを比類のないスピードと効率で保存、インデックス、検索できます。
Zilliz Cloudを無料で試す

