Sohu eleva las recomendaciones personalizadas de noticias con Milvus

10 veces más rápido
en la velocidad de recuperación vectorial
> 95 %
en la precisión de clasificación de noticias
Menor consumo de memoria
para obtener respuestas más rápidas y reducir costos
Experiencias de usuario elevadas
con recomendaciones personalizadas
Milvus has not only streamlined but also remarkably expedited the retrieval of millions of semantic vectors, showcasing a nearly tenfold improvement compared to our previous experience with other vector similarity search engines.
Tingting Wang
Acerca de Sohu News
Sohu, una empresa de servicios de Internet que cotiza en NASDAQ, es reconocida por su diversa oferta en línea, que incluye servicios de publicidad, medios y búsqueda. Sohu News, una división principal de Sohu, se destaca como un negocio de medios líder, proporcionando amplios servicios de noticias e información. En respuesta a las necesidades cambiantes de los usuarios, Sohu News emplea algoritmos y tecnologías avanzadas de IA, como la búsqueda semántica basada en vectores, para personalizar las recomendaciones de contenido según los intereses y preferencias de los usuarios. Sohu News, comprometida con la innovación y la entrega de noticias en tiempo real, se posiciona como pionera, dando forma activamente al dinámico panorama de la industria de Internet de China.
Los desafíos: recuperación vectorial lenta e imprecisa y clasificación errónea de noticias de texto corto
A medida que avanzan las tecnologías de Internet y móviles, la demanda de los usuarios para acceder a la información ha evolucionado desde la recepción pasiva hasta la búsqueda activa de noticias alineadas con sus intereses. Para satisfacer esta necesidad cambiante, Sohu News creó un sistema de recomendación capaz de recomendar las noticias más recientes a los usuarios en función de sus intereses y preferencias, mejorando en última instancia las tasas de clics en las noticias y la duración de la lectura.
Sin embargo, surgieron desafíos con su pila anterior de búsqueda vectorial. Necesitaba ser más rápida al recuperar grandes conjuntos de datos y ofrecía recomendaciones imprecisas que no se alineaban con los intereses de los usuarios. La pila también consumía memoria excesiva al realizar búsquedas semánticas y, para empeorar las cosas, hacía que las respuestas fueran aún más lentas. Sohu News necesitaba urgentemente una tecnología de búsqueda vectorial de alto rendimiento y eficiente en memoria para manejar cantidades masivas y en constante aumento de datos no estructurados y respaldar su sistema de recomendación para recomendaciones de noticias rápidas y personalizadas.
Otro desafío era la clasificación de noticias de texto corto. La clasificación precisa de cada artículo de noticias antes de la búsqueda vectorial es crucial para proporcionar recomendaciones de contenido útiles. Sin embargo, los artículos de noticias breves tienen menos características que las noticias de texto largo, lo que plantea dificultades para una categorización precisa. Por lo tanto, Sohu News requería un motor de búsqueda vectorial robusto que pudiera ayudar a categorizar con precisión los artículos de noticias breves e identificar aquellos que habían sido clasificados erróneamente anteriormente.
La solución: elegir Milvus para crear un potente motor de búsqueda vectorial
Tras una cuidadosa consideración, el equipo de Sohu News seleccionó Milvus para crear el motor de búsqueda vectorial para su sistema de recomendación de noticias. Milvus, una base de datos vectorial de código abierto, puede manejar miles de millones de puntos vectoriales, ofreciendo un rendimiento ultrarrápido con una alta tasa de recuperación. También admite 11 índices convencionales como FLAT, HNSW y ScaNN, ofreciendo más flexibilidad para encontrar el equilibrio entre precisión, rendimiento y costo.
Cómo funciona el sistema de recomendación de noticias y cómo Milvus lo respalda
El sistema de recomendación emplea una estructura de doble torre dentro de su motor de búsqueda vectorial, donde cada torre representa los vectores semánticos de las preferencias de los usuarios y de las noticias, respectivamente.
El equipo de Sohu News optó por el modelo de incrustación BERT-as-service para transformar los artículos de noticias existentes en vectores semánticos y almacenó estos vectores en la base de datos vectorial Milvus. En cuanto a los artículos de noticias recién generados, se transmiten a través de Kafka y luego pasan por una conversión similar a vectores semánticos. Posteriormente, estos vectores se insertan en la base de datos vectorial Milvus.
Los perfiles y preferencias de los usuarios incluyen el historial de navegación de noticias de los usuarios y palabras clave de etiquetas etiquetadas según los intereses de los usuarios. Estas palabras clave y datos de navegación también se transforman en vectores semánticos utilizando el modelo de incrustación BERT-as-service y luego se envían a Milvus para una búsqueda de similitud semántica.
Milvus compara la similitud del coseno de los dos tipos de vectores semánticos, devuelve los resultados Top-K con la mayor similitud del coseno (lo que significa que estos resultados son los más similares a los intereses y preferencias del usuario) y los coloca en un grupo de candidatos de noticias recomendadas. Posteriormente, el sistema estima y clasifica la tasa de clics de las noticias en este grupo, entregando a los usuarios las noticias con la tasa de clics prevista más alta.
Cómo Milvus Mejora la Clasificación de Noticias de Texto Corto
La clasificación precisa de cada artículo de noticias antes de la búsqueda vectorial es fundamental para ofrecer recomendaciones de contenido valiosas. Las noticias breves, que a menudo contienen información limitada, presentan una situación desafiante en la que es probable que ocurran clasificaciones erróneas. Reconociendo las complejidades de la clasificación de noticias de texto corto, Sohu News aprovecha Milvus para mejorar significativamente la precisión de la clasificación de noticias.
El equipo emplea el modelo BERT-as-service para transformar artículos de noticias largos en vectores semánticos, incorporando sin problemas estos vectores en Milvus. Simultáneamente, los artículos de noticias cortos se convierten en vectores semánticos y se envían a Milvus para recuperar los 20 artículos de noticias largos con la mayor similitud del coseno.
Luego, el equipo analiza las categorías de estos 20 artículos de noticias largos más semánticamente similares a la noticia corta consultada. Supongamos que más de 18 de estos artículos comparten una categoría coherente pero se desvían de la categoría asignada a la noticia corta consultada. En ese caso, esto señala un posible error en la clasificación de la categoría de la noticia corta. En tales casos, el equipo corrige rápidamente estos errores. La tasa de precisión de la clasificación supera el 95% al incorporar Milvus en este proceso.
Este enfoque innovador, en sinergia con las capacidades de Milvus, no solo aborda eficazmente los desafíos de la clasificación de noticias de texto corto, sino que también contribuye al desarrollo de un corpus valioso para entrenar futuros clasificadores de texto corto.
Los Resultados: Respuestas Más Rápidas, Mayor Precisión de Recomendación y Mejor Experiencia de Usuario
La colaboración de Sohu con Milvus transformó significativamente su sistema de recomendación de noticias, ofreciendo a los usuarios una experiencia más personalizada y atractiva. Con Milvus, el sistema de recomendación de Sohu News ha logrado una velocidad de recuperación vectorial 10 veces más rápida y ha mejorado notablemente la precisión de las recomendaciones. En particular, Milvus ha elevado la tasa de precisión de clasificación de noticias breves a más del 95%.
Milvus admite índices convencionales y garantiza una alta exhaustividad en conjuntos de datos masivos, ofreciendo más flexibilidad para equilibrar precisión, rendimiento y coste. Su eficiencia en el consumo de memoria y su capacidad para gestionar volúmenes sustanciales de datos se alinean perfectamente con las necesidades operativas de Sohu.
Este estudio de caso fue escrito inicialmente por Tingting Wang, la ingeniera de algoritmos de PLN en Sohu, y se edita y publica aquí con permiso.
- Acerca de Sohu News
- Los desafíos: recuperación vectorial lenta e imprecisa y clasificación errónea de noticias de texto corto
- La solución: elegir Milvus para crear un potente motor de búsqueda vectorial
- Los Resultados: Respuestas Más Rápidas, Mayor Precisión de Recomendación y Mejor Experiencia de Usuario
Contenido
Industria
Medios de comunicación


