Sohu Eleva as Recomendações Personalizadas de Notícias com Milvus

10x mais rápido
na velocidade de recuperação vetorial
> 95%
na precisão da classificação de notícias
Menor consumo de memória
para respostas mais rápidas e custo reduzido
Experiências de usuário elevadas
com recomendações personalizadas
Milvus has not only streamlined but also remarkably expedited the retrieval of millions of semantic vectors, showcasing a nearly tenfold improvement compared to our previous experience with other vector similarity search engines.
Tingting Wang
Sobre a Sohu News
A Sohu, uma empresa de serviços de internet listada na NASDAQ, é reconhecida por suas diversas ofertas online, incluindo serviços de publicidade, mídia e busca. A Sohu News, um braço principal da Sohu, destaca-se como uma empresa de mídia líder, fornecendo amplos serviços de notícias e informação. Em resposta às necessidades em evolução dos usuários, a Sohu News emprega algoritmos e tecnologias avançados de IA, como busca semântica baseada em vetores, para personalizar recomendações de conteúdo com base nos interesses e preferências dos usuários. A Sohu News, comprometida com a inovação e a entrega de notícias em tempo real, posiciona-se como pioneira, moldando ativamente o cenário dinâmico da indústria de internet da China.
Os Desafios: Recuperação Vetorial Lenta e Imprecisa e Classificação Incorreta de Notícias de Texto Curto
À medida que as tecnologias de Internet e móveis avançam, a demanda dos usuários por acesso à informação evoluiu da recepção passiva para a busca ativa de notícias alinhadas com seus interesses. Para atender a essa necessidade em mudança, a Sohu News criou um sistema de recomendação capaz de recomendar as notícias mais recentes aos usuários com base em seus interesses e preferências, aumentando, em última análise, as taxas de cliques em notícias e a duração da leitura.
No entanto, surgiram desafios com sua pilha anterior de busca vetorial. Ela precisava ser mais rápida ao recuperar grandes conjuntos de dados e fornecia recomendações imprecisas que não se alinhavam aos interesses dos usuários. A pilha também consumia memória excessiva ao realizar buscas semânticas e, para piorar, tornava as respostas ainda mais lentas. A Sohu News precisava urgentemente de uma tecnologia de busca vetorial de alto desempenho e eficiente em termos de memória para lidar com quantidades massivas e cada vez maiores de dados não estruturados e dar suporte ao seu sistema de recomendação para recomendações de notícias rápidas e personalizadas.
Outro desafio era a classificação de notícias de texto curto. A classificação precisa de cada artigo de notícia antes da busca vetorial é crucial para fornecer recomendações de conteúdo úteis. Artigos de notícias curtos, no entanto, têm menos características do que notícias de texto longo, apresentando dificuldades na categorização precisa. Portanto, a Sohu News exigia um mecanismo de busca vetorial robusto que pudesse ajudar a categorizar com precisão artigos de notícias curtos e identificar aqueles classificados incorretamente anteriormente.
A Solução: Escolher o Milvus para Criar um Mecanismo de Busca Vetorial Poderoso
Após uma consideração cuidadosa, a equipe da Sohu News selecionou o Milvus para criar o mecanismo de busca vetorial para seu sistema de recomendação de notícias. O Milvus, um banco de dados vetorial de código aberto, pode lidar com bilhões de pontos vetoriais, oferecendo desempenho ultrarrápido com uma alta taxa de recall. Ele também oferece suporte a 11 índices convencionais, como FLAT, HNSW e ScaNN, oferecendo mais flexibilidade para encontrar o equilíbrio entre precisão, desempenho e custo.
Como o Sistema de Recomendação de Notícias Funciona e Como o Milvus o Apoia
O sistema de recomendação emprega uma estrutura de torre dupla dentro de seu mecanismo de busca vetorial, em que cada torre representa os vetores semânticos das preferências dos usuários e das notícias, respectivamente.
A equipe da Sohu News optou pelo modelo de embedding BERT-as-service para transformar artigos de notícias existentes em vetores semânticos e armazenou esses vetores no banco de dados vetorial Milvus. Quando se trata de artigos de notícias recém-gerados, eles são transmitidos pelo Kafka e, em seguida, passam por uma conversão semelhante em vetores semânticos. Esses vetores são posteriormente inseridos no banco de dados vetorial Milvus.
Os perfis e preferências dos usuários incluem o histórico de navegação de notícias dos usuários e palavras-chave de tags rotuladas com base nos interesses dos usuários. Essas palavras-chave e dados de navegação também são transformados em vetores semânticos usando o modelo de embedding BERT-as-service e, em seguida, enviados ao Milvus para uma busca de similaridade semântica.
O Milvus compara a similaridade de cosseno dos dois tipos de vetores semânticos, retorna os resultados Top-K com a maior similaridade de cosseno (o que significa que esses resultados são mais semelhantes aos interesses e preferências do usuário) e os coloca em um pool de candidatos de notícias recomendadas. Posteriormente, o sistema estima e classifica a taxa de cliques das notícias nesse pool, entregando aos usuários as notícias com a maior taxa de cliques prevista.
Como o Milvus aprimora a classificação de notícias de texto curto
A classificação precisa de cada artigo de notícia antes da busca vetorial é fundamental para entregar recomendações de conteúdo valiosas. Notícias curtas, que frequentemente contêm informações limitadas, apresentam uma situação desafiadora em que classificações incorretas tendem a ocorrer. Reconhecendo as complexidades da classificação de notícias de texto curto, o Sohu News aproveita o Milvus para aprimorar significativamente a precisão da classificação de notícias.
A equipe emprega o modelo BERT-as-service para transformar artigos de notícias longos em vetores semânticos, ingerindo esses vetores no Milvus de forma integrada. Simultaneamente, artigos de notícias curtos são convertidos em vetores semânticos e enviados ao Milvus para recuperar os 20 principais artigos de notícias longos com a maior similaridade de cosseno.
A equipe então analisa as categorias desses 20 artigos de notícias longos mais semanticamente semelhantes à notícia curta consultada. Suponha que mais de 18 desses artigos compartilhem uma categoria consistente, mas se desviem da categoria atribuída à notícia curta consultada. Nesse caso, isso sinaliza um possível erro na classificação da categoria da notícia curta. Nesses casos, a equipe corrige prontamente esses erros. A taxa de precisão da classificação ultrapassa 95% ao incorporar o Milvus a esse processo.
Essa abordagem inovadora, em sinergia com os recursos do Milvus, não apenas aborda de forma eficaz os desafios da classificação de notícias de texto curto, mas também contribui para o desenvolvimento de um corpus valioso para treinar futuros classificadores de texto curto.
Os resultados: respostas mais rápidas, maior precisão de recomendação e melhor experiência do usuário
A colaboração da Sohu com o Milvus transformou significativamente seu sistema de recomendação de notícias, oferecendo aos usuários uma experiência mais personalizada e envolvente. Com o Milvus, o sistema de recomendação do Sohu News alcançou uma velocidade de recuperação vetorial 10x mais rápida e melhorou notavelmente a precisão das recomendações. Em particular, o Milvus elevou a taxa de precisão da classificação de notícias curtas para mais de 95%.
O Milvus oferece suporte a índices convencionais e garante alta revocação em conjuntos de dados massivos, oferecendo mais flexibilidade para equilibrar precisão, desempenho e custo. Sua eficiência no consumo de memória e capacidade de lidar com volumes substanciais de dados alinham-se perfeitamente às necessidades operacionais da Sohu.
Este estudo de caso foi inicialmente escrito por Tingting Wang, engenheira de algoritmos de NLP na Sohu, e foi editado e publicado aqui com permissão.
- Sobre a Sohu News
- Os Desafios: Recuperação Vetorial Lenta e Imprecisa e Classificação Incorreta de Notícias de Texto Curto
- A Solução: Escolher o Milvus para Criar um Mecanismo de Busca Vetorial Poderoso
- Os resultados: respostas mais rápidas, maior precisão de recomendação e melhor experiência do usuário
Conteúdo
Indústria
Media


