Blog
Apresentando Funções e Inferência de Modelos no Zilliz Cloud: Incorporação Automática e Reclassificação com Modelos Hospedados

Apresentando Funções e Inferência de Modelos no Zilliz Cloud: Incorporação Automática e Reclassificação com Modelos Hospedados

Mar 31, 20267 min read

Pipelines de busca com IA criados sobre bancos de dados vetoriais geralmente exigem que você gere embeddings por conta própria, insira-os no banco de dados vetorial para recuperação por similaridade, incorpore cada consulta da mesma forma e acople um serviço de reranking separado se quiser melhor qualidade de resultados. Funciona, mas isso significa mais código de integração e mais lugares onde as coisas podem divergir.

Hoje, estamos anunciando Functions and Inference Services no Zilliz Cloud — agora em Public Preview para modelos de terceiros e Private Preview para Zilliz Hosted Models. Você pode inserir texto bruto e pesquisar com linguagem natural. Então, o Zilliz Cloud lida automaticamente com a geração de embeddings, o armazenamento vetorial e o reranking de resultados.

O que são Functions and Inference Services no Zilliz Cloud?

Uma Function é uma operação declarativa anexada a uma coleção que informa ao Zilliz Cloud como processar seus dados. Em vez de enviar vetores, agora você só precisa enviar texto bruto. Em vez de incorporar consultas no lado do cliente, você envia consultas de texto diretamente. Então, o Zilliz Cloud cuida do resto.

As Functions se enquadram em duas categorias:

Pre-search Functions são executadas no momento da ingestão e da consulta, convertendo texto em representações pesquisáveis. Isso inclui BM25 para busca por palavra-chave em texto completo (nenhum modelo necessário) e abordagens baseadas em modelos que produzem embeddings densos para busca semântica.
Post-search Functions são executadas após a recuperação, refinando e reordenando os resultados. Isso inclui rankers híbridos que mesclam vários conjuntos de resultados, rankers baseados em regras para lógica de negócios e rankers baseados em modelos que pontuam a relevância entre consultas e documentos.

O diagrama a seguir fornece uma abstração de como as Functions funcionam no fluxo de trabalho de busca.

Os Inference Services impulsionam as Functions baseadas em modelos. Quando uma Function precisa gerar um embedding ou pontuar um par consulta-documento, ela chama um modelo de uma de duas fontes:

Fonte	Como funciona
Provedores de terceiros (OpenAI, Voyage AI, Cohere)	Você traz sua chave de API. O Zilliz Cloud gerencia a integração.
Zilliz Hosted Models	Instâncias de modelo totalmente gerenciadas na infraestrutura de GPU da Zilliz. Seus dados nunca saem da plataforma.

A distinção mais simples: Functions definem o que acontece com seus dados. Inference Services definem qual modelo faz o trabalho.

Por que mover embeddings e reranking para o Zilliz Cloud?

Se hoje você está chamando uma API de embeddings e inserindo vetores no Zilliz Cloud, isso já funciona. Mas, à medida que as aplicações escalam, surgem vários pontos de atrito.

A consistência do modelo se torna seu problema

Seu caminho de ingestão e seu caminho de consulta devem usar exatamente o mesmo modelo. Se eles divergirem — digamos, uma implantação atualiza um lado, mas não o outro — a qualidade da busca se degrada silenciosamente. Com Functions, a coleção possui a configuração do modelo. Ingestão e consulta têm correspondência garantida.

O reranking é ignorado porque há atrito demais

O reranking baseado em modelos melhora significativamente a qualidade dos resultados, especialmente para busca híbrida. Mas adicionar outra chamada de serviço após cada consulta — com sua própria chave de API, orçamento de latência e tratamento de falhas — é atrito suficiente para que muitas equipes lancem sem isso. Quando o reranking é uma Function integrada, esse atrito desaparece.

As credenciais se espalham pelos serviços

Todo serviço que grava ou pesquisa dados precisa da chave de API do seu provedor de embeddings. Com Functions, as credenciais ficam na Integração com Provedor de Modelos da Zilliz Cloud — um único lugar para gerenciar, um único lugar para rotacionar chaves, sem segredos no código da aplicação.

Os Dados Saem da Sua Rede em Cada Chamada de Inferência

Para equipes com requisitos de privacidade ou conformidade, enviar texto bruto para uma API externa a cada inserção e consulta é uma preocupação real. Os Modelos Hospedados mantêm tudo — dados, inferência, armazenamento, pesquisa — dentro da rede privada da Zilliz.

O Que Está Disponível em Prévia Pública

Funções de Embedding Baseadas em Modelo

Anexe um modelo de embedding a uma coleção. A partir desse momento:

Insira texto bruto via Insert, Upsert ou Import — a Zilliz Cloud gera e armazena embeddings vetoriais densos automaticamente.
Pesquise com texto — o sistema incorpora sua consulta com o mesmo modelo e executa busca ANN.

Sem código de embedding no lado do cliente. Sem preocupações com consistência de modelo. Sua aplicação simplesmente trabalha com texto.

Funções de Reranking Baseadas em Modelo

Selecione um modelo de reranking e aplique-o como uma etapa pós-pesquisa integrada. Isso é especialmente poderoso para busca híbrida, em que você combina recuperação semântica e por palavras-chave em um único conjunto de resultados.

Rerankers baseados em modelo vão além da similaridade vetorial — eles leem o conteúdo de cada candidato e avaliam o quão bem ele realmente responde à consulta. É a diferença entre "estes vetores estão próximos" e "este documento responde à pergunta."

Provedores Compatíveis

Provedor	Embedding	Reranking
OpenAI	Sim	--
Voyage AI	Sim	Sim
Cohere	Sim	Sim

Integração com Provedor de Modelos

Registre suas credenciais de API de terceiros uma vez no console da Zilliz Cloud por meio da Integração com Provedor de Modelos. As coleções referenciam a integração por ID — sem chaves no código. Rotacione credenciais em um único lugar; toda coleção que usa essa integração recebe a alteração automaticamente.

O Que Está em Prévia Privada: Modelos Hospedados

Para equipes em que latência, custo ou residência de dados é prioridade, os Modelos Hospedados executam instâncias de modelo totalmente gerenciadas na infraestrutura de GPU da Zilliz. A diferença arquitetônica: em vez de enviar dados para uma API externa, o modelo é executado bem ao lado dos seus dados.

O diagrama a seguir mostra os procedimentos para usar modelos hospedados.

Benefício	O Que Isso Significa
Zero taxas de transferência de dados	A inferência acontece dentro da rede da Zilliz
Menor latência	Sem ida e volta externa para embedding ou reranking
Privacidade aprimorada	O texto bruto nunca sai do ambiente da Zilliz
Recursos dedicados	Sem problemas de desempenho de vizinho barulhento

Modelos Disponíveis

Categoria	Modelos
Embedding	Qwen3-Embedding (0.6B, 4B, 8B), série BAAI BGE (small, base, large — EN & ZH)
Reranking	Qwen3-Reranker (0.6B, 4B, 8B), BAAI BGE Reranker (base, large)
Semantic Highlighter	zilliz/semantic-highlight-bilingual-v1 — destaca segmentos de texto relevantes nos resultados

Os Modelos Hospedados estão disponíveis mediante solicitação. Entre em contato com a equipe da Zilliz para obter acesso.

Visão Geral das Capacidades Completas de Funções e Inferência

Funções de Pré-Pesquisa

Função	Descrição	Status
BM25	Embeddings esparsos para busca de palavras-chave em texto completo — nenhum modelo necessário	GA
Model-Based Embedding (3rd-party)	Embeddings densos via OpenAI, Voyage AI, Cohere	Public Preview
Model-Based Embedding (Hosted)	Embeddings densos via Qwen3, BGE hospedados pela Zilliz	Private Preview

Funções Pós-Busca

Função	Descrição	Status
Hybrid Rankers	Mesclam resultados de várias estratégias de recuperação (por exemplo, semântica + palavra-chave)	GA
Rule-Based Rankers	Aplicam lógica de negócios — recência, popularidade, pontuações personalizadas	GA
Model-Based Rankers (3rd-party)	Reranqueamento semântico via Voyage AI, Cohere	Public Preview
Model-Based Rankers (Hosted)	Reranqueamento semântico via Qwen3, BGE hospedados pela Zilliz	Private Preview

BM25, hybrid rankers e rule-based rankers estão geralmente disponíveis. O lançamento de hoje adiciona inteligência baseada em modelos tanto para embeddings quanto para ranqueamento — além da infraestrutura para executar esses modelos por meio de APIs de terceiros ou diretamente na Zilliz Cloud.

Como Começar com Zilliz Cloud Functions

Public Preview (disponível agora):

Cadastre-se ou entre na Zilliz Cloud — novas contas registradas com um email corporativo recebem US$ 100 em créditos gratuitos
Configure uma Model Provider Integration no console
Crie uma coleção com uma função de embedding
Insira texto bruto e pesquise com texto — é só isso

Private Preview (mediante solicitação):

Entre em contato conosco para experimentar Hosted Models com inferência dedicada.

Documentação completa: Guia de Inferência de Funções e Modelos

Perguntas Frequentes

Algumas perguntas que surgem sobre embeddings, reranqueamento e inferência gerenciada para busca vetorial:

Um banco de dados vetorial pode gerar embeddings automaticamente?

Sim. Com Zilliz Cloud Functions, você anexa um modelo de embedding a uma coleção e insere texto bruto — o banco de dados gera e armazena embeddings vetoriais densos em seu nome. As consultas funcionam da mesma forma: envie uma consulta de texto, e o sistema a transforma em embedding com o mesmo modelo antes de executar a busca ANN. Isso elimina código de embedding no lado do cliente e garante consistência do modelo entre ingestão e busca.

O que é reranqueamento baseado em modelos, e como ele melhora a busca vetorial?

Reranqueamento baseado em modelos é uma etapa pós-recuperação em que um modelo de linguagem avalia quão bem cada documento candidato realmente responde à consulta — em vez de depender apenas das pontuações de similaridade vetorial. É especialmente eficaz para pipelines de busca híbrida que combinam recuperação por palavras-chave e semântica. Na Zilliz Cloud, você pode aplicar reranqueamento baseado em modelos como uma Function integrada usando provedores como Voyage AI ou Cohere, ou por meio dos Zilliz Hosted Models.

Qual é a diferença entre modelos de embedding hospedados e de terceiros?

Modelos de terceiros (OpenAI, Voyage AI, Cohere) são executados na infraestrutura do provedor — você fornece uma chave de API e paga por chamada. Hosted Models são executados na infraestrutura de GPU gerenciada pela Zilliz, portanto seus dados nunca saem da plataforma. Hosted Models oferecem menor latência, zero taxas de transferência de dados e computação dedicada sem problemas de vizinhos barulhentos. A compensação: pagamento por chamada de terceiros pode ser mais barato em baixo volume, enquanto instâncias hospedadas são mais econômicas em escala.

Como combinar busca por palavras-chave e busca semântica em uma única consulta?

Na Zilliz Cloud, você pode anexar tanto uma Função BM25 (para busca por palavras-chave via embeddings esparsos) quanto uma Função de embedding baseada em modelo (para busca semântica via embeddings densos) à mesma coleção. No momento da consulta, um ranqueador híbrido ou reranqueador baseado em modelo mescla os resultados em uma única lista ranqueada. A coleção lida com embeddings esparsos, embeddings densos e reranqueamento em conjunto — sem necessidade de orquestração externa.

Atualizado em Jul 28, 2026

Fendy Feng
Fendy Feng is the Technical Marketing Writer at Zilliz. She has extensive experience developing and enhancing the impact of open-source projects in various global markets by producing high-quality, tailored content. Before joining Zilliz, Fendy worked as a Content Strategist at PingCAP, a fast-growing E-Series startup renowned for its open-source distributed SQL database.

Continue lendo

Introducing Zilliz CLI and Agent Skills for Zilliz Cloud

Manage your vector database from your terminal or AI coding agent. Zilliz CLI and Agent Skills work with Claude Code, Cursor, Codex, and Copilot.

Announcing the General Availability of Zilliz Cloud BYOC on Google Cloud Platform

Zilliz Cloud BYOC on GCP offers enterprise vector search with full data sovereignty and seamless integration.

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

Explore DeepSeek-VL2, the open-source MoE vision-language model. Discover its architecture, efficient training pipeline, and top-tier performance.