Artículo
· 28 mayo, 2024 Lectura de 1 min

Uso de la búsqueda vectorial para comparar la similitud entre artículos

Principio: Tras dividir el artículo cargado por el usuario en frases mediante Python, se obtiene el valor incrustado y se almacena en la base de datos Iris. A continuación, la similitud entre las frases se compara a través de la búsqueda vectorial Iris, y finalmente se muestra en la página front-end.

Los pasos de instalación pueden consultarse en el archivo README o Léame. Debe tenerse en cuenta que el modelo BERT utilizado en el ejemplo tiene algunos requisitos de memoria. Si se produce una situación de atasco a largo plazo durante el proceso de prueba, se pueden considerar otros modelos como MiniLM (que se utiliza en la demo online). Tened en cuenta que si utilizáis otros modelos, es necesario modificar Article Similarity SentenceVector y ArticleSimilarity El LEN y MiniLM para la incrustación en vector son 384.

Actualmente, la aplicación muestra por defecto frases con una similitud de 0,7 o superior, que puede encontrarse en Article Similarity Modified en el método GetSenSimiEmbedding de GetSimilarityBussinessOperation (actualmente se muestra como 0,5 en la demo online).

Comentarios (0)1
Inicie sesión o regístrese para continuar