Jina AI / jina-embeddings-v3
Milvus Integrated
Tarea: Inserción
Modalidad: Texto
Métrica de Similitud: Cualquiera (Normalizado)
Licencia: CC BY-NC 4.0
Dimensiones: 1024
Tokens de Entrada Máximos: 8192
Precio:
jina-embeddings-v3 Resumen
El modelo jina-embeddings-v3 es la nueva herramienta de incrustación de texto multilingüe de JinaAI, con 570 millones de parámetros y una longitud máxima de entrada de 8192 tokens. Puede procesar datos multilingües y realizar tareas de recuperación de textos largos, con un rendimiento de vanguardia (SOTA) en 94 idiomas. Este modelo crea incrustaciones adecuadas para diversas tareas, como la recuperación de documentos consultados, la agrupación, la clasificación y la comparación de textos.
Jina-embeddings-v3 también es compatible con Matryoshka Embeddings**, que permite personalizar el tamaño de la incrustación de salida en función de las necesidades. Aunque la dimensión de salida predeterminada es 1024, puede reducirla a 32, 64, 128, 256, 512 o 768 sin perder demasiado rendimiento, lo que la hace adaptable a diversas aplicaciones.
Compara jina-embeddings-v3 con los modelos Jina v2:
| Modelo | Tamaño de parámetro | Dimensión de incrustación | Texto | ||||
|---|---|---|---|---|---|---|---|
| jina-embeddings-v3 | 570M | tamaño de incrustación flexible (Predeterminado: 1024) | incrustación de texto multilingüe; soporta 94 idiomas en total | ||||
| jina-embeddings-v2-small-es | 33M | 512 | incrustaciones monolingües en inglés | jina-embeddings-v2-small-es | 33M | 512 | incrustaciones monolingües en inglés |
| jina-embeddings-v2-base-es](https://zilliz.com/ai-models/jina-embeddings-v2-base-en) 137M | 768 | Inclusiones monolingües en inglés | |||||
| jina-embeddings-v2-base-zh | 161M | 768 | Chino-Inglés Bilingüe embeddings | ||||
| jina-embeddings-v2-base-de | 161M | 768 | Integraciones bilingües alemán-inglés | jina-embeddings-v2-base-de | 161M | 768 | Integraciones bilingües alemán-inglés |
| jina-embeddings-v2-base-code | 161M | 768 | Inglés y lenguajes de programación |
Cómo crear incrustaciones con jina-embeddings-v3
Hay dos formas principales de generar incrustaciones vectoriales:
- PyMilvus](https://github.com/milvus-io/pymilvus): el SDK de Python para Milvus que integra perfectamente el modelo
jina-embeddings-v3. - SentenceTransformer library: la biblioteca de Python
sentence-transformer.
Una vez generadas las incrustaciones vectoriales, pueden almacenarse en Zilliz Cloud (un servicio de base de datos vectorial totalmente gestionado por Milvus) y utilizarse para la búsqueda de similitud semántica. He aquí cuatro pasos clave:
- Regístrate](https://cloud.zilliz.com/signup) para obtener una cuenta gratuita de Zilliz Cloud.
- Configurar un clúster sin servidor](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster) y obtener el Public Endpoint and API Key.
- Crea una colección de vectores e inserta tus incrustaciones vectoriales.
- Ejecuta una búsqueda semántica en las incrustaciones almacenadas.
Crear incrustaciones a través de PyMilvus e insertarlas en Zilliz Cloud para la búsqueda semántica.
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"La inteligencia artificial se fundó como disciplina académica en 1956",
"Alan Turing fue la primera persona en realizar una investigación sustancial en IA",
"Nacido en Maida Vale, Londres, Turing se crió en el sur de Inglaterra".
]
# Generar incrustaciones para documentos
docs_embeddings = ef(docs)
queries = ["¿Cuándo se fundó la inteligencia artificial?
"¿Dónde nació Alan Turing?"]
# Generar incrustaciones para consultas
incrustaciones_consulta = ef(consultas)
# Conectarse a Zilliz Cloud con el punto final público y la clave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLECCIÓN = "documentos"
if client.has_collection(nombre_coleccion=COLECCION):
client.drop_collection(nombre_coleccion=COLECCION)
client.create_collection(
nombre_colección=COLECCIÓN,
dimensión=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"texto": doc, "vector": incrustación})
resultados = client.search(
nombre_colección=COLECCIÓN,
datos=consulta_incrustaciones,
consistency_level="Strong",
output_fields=["text"])
Para más detalles, consulta esta página de documentación de Jina AI.
Crear incrustaciones mediante Sentence Transformer e insertarlas en Zilliz Cloud para la búsqueda semántica.
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("jinaai/jina-embeddings-v3", trust_remote_code=True)
docs = [
"La inteligencia artificial se fundó como disciplina académica en 1956",
"Alan Turing fue la primera persona en llevar a cabo una investigación sustancial en IA",
"Nacido en Maida Vale, Londres, Turing se crió en el sur de Inglaterra".
]
# Generar incrustaciones para documentos
docs_embeddings = model.encode(docs, normalize_embeddings=True)
queries = ["query: ¿Cuándo se fundó la inteligencia artificial?
"query: Wo wurde Alan Turing geboren?" ]
# Generar incrustaciones para las consultas
query_embeddings = model.encode(queries, normalize_embeddings=True)
# Conectarse a Zilliz Cloud con el punto final público y la clave API
client = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLECCIÓN = "documentos"
if client.has_collection(nombre_coleccion=COLECCION):
client.drop_collection(nombre_coleccion=COLECCION)
client.create_collection(
nombre_colección=COLECCIÓN,
dimensión=512,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"texto": doc, "vector": incrustación})
resultados = client.search(
nombre_colección=COLECCIÓN,
datos=consulta_incrustaciones,
consistency_level="Strong",
output_fields=["text"])
Lectura adicional
- Training Text Embeddings with Jina AI](https://zilliz.com/blog/training-text-embeddings-with-jina-ai)
- Aprendizaje general de representaciones texto-imagen para búsquedas y GAR multimodal](https://zilliz.com/blog/clip-to-jinaclip-general-text-image-search-multimodal-rag)
- Cómo elegir el modelo de incrustación adecuado para sus datos](https://zilliz.com/blog/choosing-the-right-embedding-model-for-your-data)
- Evaluación del modelo de incrustación](https://zilliz.com/learn/evaluating-your-embedding-model)
- Entrenamiento de su propio modelo de incrustación de texto](https://zilliz.com/learn/training-your-own-text-embedding-model)
- Guía para principiantes sobre fragmentación e incrustación de sitios web para sus aplicaciones RAG](https://zilliz.com/learn/beginner-guide-to-website-chunking-and-embedding-for-your-genai-applications)
- ¿Qué es el GAR?](https://zilliz.com/learn/Retrieval-Augmented-Generation)
- jina-embeddings-v3 Resumen
- Cómo crear incrustaciones con jina-embeddings-v3
- Crear incrustaciones mediante Sentence Transformer e insertarlas en Zilliz Cloud para la búsqueda semántica.
- Lectura adicional
Contenido
Flujos de trabajo de IA sin interrupciones
Desde incrustaciones hasta búsqueda de IA escalable—Zilliz Cloud te permite almacenar, indexar y recuperar incrustaciones con una velocidad y eficiencia inigualables.
Prueba Zilliz Cloud Gratis

