OpenAI / clip-vit-base-patch32
Zilliz Cloud Integrated
Aufgabe: Einbettung
Modalität: Multimodal
Ähnlichkeitsmetrik: Beliebig (normalisiert)
Lizenz: Apache 2.0
Dimensionen: 1536
Maximale Eingabe-Tokens: 77
Preis: Kostenlos
Einführung in clip-vit-base-patch32
Das von OpenAI entwickelte CLIP-Modell zielt darauf ab, die Robustheit von Computer-Vision-Aufgaben zu verstehen und die Fähigkeit von Modellen zu testen, sich ohne vorheriges Training auf neue Bildklassifikationsaufgaben zu verallgemeinern. Die Variante "CLIP-vit-base-patch32" verwendet eine ViT-B/32-Transformer-Architektur für die Bildkodierung und einen maskierten Self-Attention-Transformer für die Textkodierung. Durch Training dieser Kodierer zur Maximierung der Ähnlichkeit von (Bild-, Text-) Paaren durch kontrastiven Verlust lernt das Modell, Bilder mit entsprechenden Textbeschreibungen zu assoziieren.
Wie man multimodale Einbettungen mit clip-vit-base-patch32 erstellt
Es gibt zwei primäre Möglichkeiten, Vektoreinbettungen zu erzeugen:
- Zilliz Cloud Pipelines: eine eingebaute Funktion in Zilliz Cloud (das verwaltete Milvus), die das Modell "clip-vit-base-patch32" nahtlos integriert. Es bietet eine sofort einsatzbereite Lösung, die das Erstellen und Abrufen von Text- oder Bildvektoreinbettungen vereinfacht.
- SentenceTransformers: die Python-Bibliothek für
Sentence_transformers.
Sobald die Vektoreinbettungen generiert sind, können sie in der Zilliz Cloud (ein vollständig verwalteter Vektordatenbankdienst, der von Milvus betrieben wird) gespeichert und für die semantische Ähnlichkeitssuche verwendet werden. Dies sind die vier wichtigsten Schritte:
- Registrieren Sie sich für ein kostenloses Zilliz Cloud-Konto.
- Richten Sie einen serverlosen Cluster ein und erhalten Sie den Public Endpoint and API Key.
- Erstellen Sie eine Vektorsammlung und fügen Sie Ihre Vektoreinbettungen ein.
- Lassen Sie eine semantische Suche auf den gespeicherten Einbettungen laufen.
Generieren Sie Vektoreinbettungen über Zilliz Cloud Pipelines und führen Sie eine Ähnlichkeitssuche durch.
In den folgenden Ressourcen finden Sie schrittweise Anleitungen.
Generieren von Vektoreinbettungen mittels SentenceTransformer und Einfügen in Zilliz Cloud für die Ähnlichkeitssuche
from PIL importiere Bild
from sentence_transformers import SentenceTransformer
von pymilvus importieren MilvusClient
importiere Anfragen
#CLIP-Modell laden
model = SentenceTransformer('clip-ViT-B-32')
# Bildeinbettungen generieren
image_urls = [
"https://raw.githubusercontent.com/milvus-io/milvus-docs/v2.4.x/assets/milvus_logo.png",
]
images = [Image.open(requests.get(url, stream=True).raw) for url in image_urls]
image_embeddings = model.encode(images)
# Texteinbettungen generieren
abfragen = ["blaues Logo"]
query_embeddings = model.encode(queries)
# Verbindung zur Zilliz Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
client.drop_collection(collection_name=COLLECTION)
client.create_collection(
collection_name=COLLECTION,
dimension=512,
auto_id=True)
for image_url, embedding in zip(image_urls, image_embeddings):
client.insert(COLLECTION, {"url": image_url, "vector": embedding})
results = client.search(
collection_name=COLLECTION,
data=query_embeddings,
consistency_level="Stark",
output_fields=["text"])
Weitere Informationen finden Sie auf der Modellseite zu HuggingFace.
- Einführung in clip-vit-base-patch32
- Wie man multimodale Einbettungen mit clip-vit-base-patch32 erstellt
Inhalte
Nahtlose KI-Workflows
Von Embeddings bis hin zu skalierbarer KI-Suche – Zilliz Cloud ermöglicht es Ihnen, Embeddings mit beispielloser Geschwindigkeit und Effizienz zu speichern, zu indizieren und abzurufen.
Zilliz Cloud kostenlos ausprobieren

