Artículo
Dani Fibla · Nov 4 Lectura de 2 min

Enriquece tus proyectos de analítica con PLN (Procesamiento de Lenguaje Natural)

Según la consultora IDC, el 80% de todos los datos producidos son NoSQL. Mira:

Hay documentos digitales y escaneados, textos online y offline, contenido BLOB (objeto binario grande) en SQL, imágenes, vídeos y audio. ¿Te imaginas una iniciativa de Analítica Corporativa sin todos estos datos para analizar y apoyar las decisiones?

En todo el mundo, muchos proyectos están utilizando tecnologías para transformar estos datos NoSQL en contenido de texto, para poder analizarlo. Fíjate:

  1. Imágenes escaneadas e imágenes con texto extraído usando OCR (Google Tesseract es una buena opción);
  2. Vídeos analizados con Visual Computing soportado por Machine Learning (OpenCV es una buena opción) y transformando los resultados en conjuntos de datos JSON o XML;
  3. Contenido externo de Internet y Scraping en Redes Sociales usando Python y almacenando los resultados en contenido de texto.

Todo este contenido extraído se guarda como texto y podría ser analizado con motores de PLN, como InterSystems IRIS Text Analytics (iKnow).

Hay varias opciones para hacerlo:

1. Guardar en una tabla los datos de texto extraídos y crear un Dominio NLP (PLN en inglés) para esa tabla, mira:

2. Usar una API NLP para enviar en tiempo real a NLP el texto extraído, así:

$SYSTEM.iKnow.IndexString("OcrNLP"pRequest.FileNamepRequest.Text, , 0, .src)


3. Guardar el texto extraído en archivos de texto y configurar la localización de los datos en una carpeta de archivos.

4. Crear un canal RSS para que NLP consuma el texto extraído.

Ahora, con tu NLP configurado puedes analizar los resultados:

Sin esfuerzo, IRIS realizó el ranking de conceptos, agrupó entidades similares (cosas, hechos, nombres, sustantivos) y creó las relaciones entre entidades (conceptos), el CRC - Conceptos/Relaciones/Conceptos. Fue posible analizar la ruta para llegar a un concepto y se pueden usar colores para conocer características como sentimientos, negaciones y otras, incluyendo características modeladas en un diccionaria customizado.

Para aprender y perfeccionar los resultados, IRIS NLP utiliza diccionarios, como: https://github.com/intersystems-community/irisdemo-demo-twittersentiment...

Finalmente, el análisis se puede consumir usando la API nativa de IRIS con Java, .NET, Python y Node.js. También se puede consumir como una API REST , mira: https://docs.intersystems.com/irislatest/csp/docbook/Doc.View.cls?KEY=GI... 

Para ver todos los detalles de estos proyectos:

1. https://openexchange.intersystems.com/package/Twitter-Sentiment-Analysis...

2. https://openexchange.intersystems.com/package/COVID-19-iKnow-Content-Nav...

3.https://openexchange.intersystems.com/package/OCR-Service 

1
1 11
Debate (0)2
Inicie sesión o regístrese para continuar