香港大学NLP / instructor-large
タスク: 埋め込み
モダリティ: テキスト
類似性メトリック: コサイン
ライセンス: アパッチ2.0
次元: 768
最大入力トークン: 512
価格: 無料
インストラクター・モデル・ファミリーの紹介
NKU NLPのInstructorモデルは、指示によって微調整されたテキスト埋め込みモデルです。タスクの指示を与えるだけで、様々なドメイン(科学や金融など)のタスクに特化した埋め込み(分類、検索、クラスタリング、テキスト評価など)を作成します。70の埋め込みタスクで最先端の結果を出しています!
図 インストラクターモデルの仕組み](https://assets.zilliz.com/Figure_How_the_Instructor_Model_works_2b174dc8aa.png)
図:インストラクターモデルの仕組み(画像:NKU NLP)
インストラクターモデルには3つのバリエーションがあります:インストラクター・ベース](instructor-base)、 インストラクター-xl、 インストラクター-ラージです。 それぞれのバージョンは、様々なエンベッディングのニーズに合わせて、異なるレベルのパフォーマンスとスケーラビリティを提供します。
instructor-large の紹介
instructor-largeは、Instructorモデルファミリーの中型のテキスト埋め込みモデルです。タスクに特化した、ドメインに合わせたテキスト埋め込みを生成することができます。あらゆるタスク(分類、検索、クラスタリング、テキスト評価など)やドメイン(科学、金融など)に最適です。instructor-largeはMTEBベンチマークの70の多様な埋め込みタスクでSOTAを達成しています。
instructor-baseよりは良いが、instructor-xlよりは悪い。
instructor-base、instructor-xl、instructor-largeの比較:
| 特徴|instructor-base|instructor-large|instructor-xl|。 | ------------------- | --------------- | ---------------- | ------------- | | パラメータ・サイズ|8600万|3億3500万|15億
| 平均MTEBスコアMTEBスコア
インストラクターラージモデルでベクトル埋め込みを作成する方法
ベクトル埋め込みを作成するには InstructorEmbedding ライブラリを使用することをお勧めします。
一旦ベクトル埋め込みが生成されると、Zilliz Cloud (Milvusが提供するフルマネージドベクトルデータベースサービス)に保存され、意味類似度検索に利用することができます。以下は、4つの重要なステップである:
1.1.サインアップ Zilliz Cloudアカウントを無料で取得する。 2.サーバーレスクラスターのセットアップ](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster)とパブリックエンドポイントとAPIキーを取得する。 3.ベクター・コレクションを作成し、ベクター埋め込みを挿入する。 4.**セマンティック検索を実行する。
InstructorEmbeddingライブラリを介してベクトル埋め込みを生成し、意味検索のためにZilliz Cloudに挿入します。
from InstructorEmbedding import INSTRUCTOR
from pymilvus import MilvusClient
model = INSTRUCTOR('hkunlp/instructor-large')
docs = [["検索のためにウィキペディアの文書を表す:", "人工知能は1956年に学問分野として設立されました。"]、
["ウィキペディアの文書を検索用に表現する:", "アラン・チューリングはAIの実質的な研究を行った最初の人物である"]]、
[ウィキペディアの文書を検索する:", "チューリングはロンドンのマイダベールで生まれ、イングランド南部で育った。"]]。
# ドキュメントの埋め込みを生成する
docs_embeddings = model.encode(docs, normalize_embeddings=True)
queries = [["ウィキペディアの質問を表現する:", "人工知能が創設されたのはいつか"]、
["ウィキペディアの質問を表現する:", "アラン・チューリングはどこで生まれたか?"]].
# クエリの埋め込みを生成する
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Public EndpointとAPI Keyを使ってZilliz Cloudに接続する。
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT、
token=ZILLIZ_API_KEY)
COLLECTION = "documents"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
collection_name=COLLECTION、
dimension=768、
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vector": embedding})
results = client.search(
collection_name=COLLECTION、
data=query_embeddings、
consistency_level="Strong"、
output_fields=["text"])
シームレス AI ワークフロー
埋め込みからスケーラブルな AI 検索まで、 Zilliz Cloud は、埋め込みを比類のないスピードと効率で保存、インデックス、検索できます。
Zilliz Cloudを無料で試す

