Artículo
· 31 oct, 2023 Lectura de 2 min

Ghost / Fantasma de LangChain en el PDF

Planteé una pregunta durante el 3er Gran Premio de Programación.

Quería compartir una observación sobre el uso de PDFs con LangChain.

Al cargar el texto de un PDF, me di cuenta de que había un espacio en algunas de las palabras extraídas.

Por ejemplo (marcado en rojo):

Adapti ve Analytics is an optional e xtension that pro vides a b usiness-oriented, virtual data model layer\nbetween InterSystems IRIS and popular Business Intelligence (BI) and Artificial Intelligence (AI) client tools. It includes\nan intuiti ve user interf ace for de veloping a data model in the form of virtual cubes  where data can be or ganized, calculated\nmeasures consistently defined, and data fields clearly named. By ha ving a centralized common data model, enterprises\nsolve the problem of dif fering definitions and calculations to pro vide their end users with one consistent vie w of b usiness\nmetrics and data characterization.


Me preocupaba que esto afectara a:

1) La calidad de la búsqueda de documentos para contenido relacionado.
2) La capacidad del modelo de OpenAI de generar respuestas.

¿Qué podría ser necesario para volver a juntar esas palabras y mejorar las cosas?

¿Podría utilizarse un diccionario?

¿Cuál sería el riesgo de unir dos palabras separadas?

Avanzando, el resultado no esperado fue:

  • No afectó ni a la búsqueda documental ni a la habilidad de generar respuestas.

Sospecho que esto se debe a la forma en que funcionan la codificación y el tokenizing de OpenAI.
El número de tokens siempre es mayor que el número de palabras.
Por lo que los tokens son ya como palabras "parciales" donde los tokens siguen uno tras otro.
Así, los espacios en medio de las palabras no afectaron la respuesta.

Compartid por favor vuestras experiencias de fantasmas / efectos curiosos al usar LangChain con IRIS.

Comentarios (0)1
Inicie sesión o regístrese para continuar