Escrito por

Sales Engineer at InterSystems Corporation

STAFF

Artículo Alberto Fuentes · jun 26, 2025 4m read

Innovando para una elegancia generativa

#InterSystems IRIS #Artificial Intelligence (AI) #Generative AI (GenAI) #Machine Learning (ML) #Natural Language Processing

Público

Aquellos interesados en explorar nuevos casos de uso de GenerativeAI.

Comparte ideas y razones al entrenar inteligencia artificial generativa para el reconocimiento de patrones.

Desafío 1 – Simple pero no más simple

Un desarrollador aspira a concebir una solución elegante para ciertos requerimientos.
Los patrones de coincidencia (como las expresiones regulares) pueden resolverse de muchas maneras. ¿Cuál es la mejor solución en código?
¿Puede una IA postular una solución elegante de coincidencia de patrones para un rango de ejemplos que van de simples a complejos?

Consideremos los tres valores de cadena:

"AA"
"BB"
"CC"

La expresión: "2 caracteres alfabéticos" coincide con todos estos valores y otros valores similares de manera intuitiva y flexible.

Alternativamente, la expresión: "AA" o "BB" o "CC" sería una forma muy específica de coincidir únicamente con estos valores:

Otra forma de resolverlo sería: "A" o "B" o "C", repetido dos veces.

Desafío 2 – Muestra incompleta

Los problemas de patrones rara vez tienen todos los ejemplos especificados.
Una IA efectiva necesita aceptar una muestra limitada e incompleta de filas de datos y postular una expresión de coincidencia de patrón razonable.
Un objetivo tipo Turing sería igualar la inferencia humana para un patrón basado en datos representativos pero incompletos.

Una mejor calidad en el procesamiento de muestras tiene mayor prioridad que ampliar la ventana de tokens para muestras de mayor tamaño.

Desafío 3 - Aprovechar secuencias que se repiten

Extendiendo el ejemplo anterior, para incluir también valores de un solo carácter:

Esto parece más elegante que especificar TODOS los valores posibles de forma explícita.

if test?1(1"A",1"B",1"C",1"AA",1"BB",1"CC")

Desafío 4 – Sesgo en datos delimitados

Una necesidad común más allá de los patrones generalizados es resolver datos delimitados. Por ejemplo, un formato aleatorio de número de teléfono.

213-5729-57986

Podría resolverse con la expresión:
3 números, guion, 4 números, guion, 4 números

if test?3N1"-"4N1"-"4N

Esto se puede normalizar con una secuencia repetida a:

if test?3N2(1"-"4)

Esto significa básicamente tener preferencia por especificar explícitamente un delimitador, por ejemplo "-", en lugar de generalizar los delimitadores como caracteres de puntuación. Por lo tanto, la salida generada debería evitar la sobre-generalización, por ejemplo:

if test?3N1P4N1P4N

Desafío 5 – Secuencias repetidas

Considerad números formateados con códigos de prefijo comunes.

El modelo de IA detecta tres secuencias comunes entre los valores y orienta la solución para reflejar un interés en esta característica:

En esta ocasión, la IA decidió generar una coincidencia de cadena superflua con "13".

Sin embargo, como indica la herramienta, el patrón coincidirá con todos los valores proporcionados.

El patrón puede ajustarse fácilmente en la descripción de texto libre y regenerarse.

Velocidad de inferencia

La asistencia de IA en el Workbench con éxito parcial cualificado puede acelerar la implementación.
Por encima de un umbral de complejidad, un asistente de IA puede deducir propuestas más rápido que el análisis manual.
Considerad el siguiente intento de inferencia de IA con éxito parcial cualificado:

El asistente de IA utiliza tantas filas de datos como puede acomodar en su ventana de contexto de tokens para el procesamiento, omitiendo las filas de datos excedentes.
El número de filas se cuantifica en la salida generada, mostrando cómo se truncaron los datos para la inferencia.
Esto puede ser útil para volver a incluir filas de datos preferidas en la ventana de contexto para un reprocesamiento más refinado.

Esfuerzo de entrenamiento

Dirigido a GPU Nvidia Cuda A10 en Huggingface.
Entrenamiento supervisado del modelo.

Etapa	Entrenamiento GPU continuo
Conjunto de datos base para prototipo	4 días
Conjunto de datos principal	13 días
Segundo conjunto de datos refinado	2 días

Conclusión

La inferencia generativa de un solo disparo (on-shot) con tamaño de token limitado puede acercarse de manera útil a la elegancia de una solución discreta en código, incluso sin procesamiento de cadena de pensamiento, al incorporar el sesgo de expertos en la materia dentro de los datos base de entrenamiento.
Los asistentes de IA pueden participar en flujos de trabajo iterativos para la solución.

Explora más

Poned manos a la obra y explorad la demostración tecnológica que actualmente se encuentra alojada en Huggingface.
El icono de engranaje en los botones de la demo indica dónde se está empleando la generación de IA.

La demo está diseñada para audiencias en inglés, francés y español.

Comentarios (1)2

Inicie sesión o regístrese para continuar

Añade la respuesta

Comments

Marco Bahamondes · jun 28, 2025

buenisimo el articulo lo voy a probar!

0 0