Artículo
· 6 hr atrás Lectura de 8 min

¡InterSystems Data Fabric Studio a su servicio!

Seguramente os hayais encontrado durante los últimos 10 - 15 años los términos Data Lake, Data Warehouse, Data Fabric hasta en la sopa, todo se arregla y soluciona con alguna de estas 3 cosas o con alguna combinación de las mismas (aquí y aquí tenéis un par de artículos de nuestra página oficial por si tenéis alguna duda de a qué corresponde cada uno de los términos). Si tenemos que resumir de forma visual cual es el objetivo de todos esos términos podríamos decir que se intenta solucionar con todos ellos situaciones como esta:

Why is my room always messy? Tips & Tricks — Junk Brothers

Nuestras organizaciones son como esa habitación, multitud de cajones con datos por doquier de los que somos incapaces de encontrar nada de lo que necesitamos, llegando a desconocer por completo que es lo que tenemos.

Pues bien, en InterSystems no podíamos ser menos y aprovechando las capacidades de InterSystems IRIS hemos creado una solución Data Fabric denominada InterSystems Data Fabric Studio (¿somos o no somos originales?) .

Data Fabric

Antes de nada vamos a ver con un poco más detalle las funcionalidades que caracterizan a un Data Fabric y qué mejor forma de hacerlo que preguntarle directamente a nuestro querido ChatGPT:

Un Data Fabric es una arquitectura moderna que busca simplificar y optimizar el acceso, la gestión y el uso de datos a lo largo de múltiples entornos, facilitando una visión unificada y consistente de los mismos. Sus funcionalidades más características incluyen:

  1. Acceso unificado y transparente
    • Integración sin fisuras de datos estructurados, semiestructurados y no estructurados.
    • Acceso transparente independientemente de la ubicación física o tecnológica.
  2. Gestión centralizada de metadatos
    • Catálogos avanzados de datos que proporcionan información sobre origen, calidad y uso.
    • Capacidad de búsqueda y descubrimiento automático de datos.
  3. Virtualización y abstracción de datos
    • Eliminación de la necesidad de mover o replicar datos constantemente.
    • Creación dinámica de vistas virtuales que permiten consultas distribuidas en tiempo real.
  4. Gobierno y seguridad integrados
    • Aplicación consistente de políticas de seguridad, privacidad y compliance en todos los entornos.
    • Protección integrada de datos sensibles mediante cifrado, enmascaramiento y controles granulares.
  5. Automatización impulsada por IA
    • Automatización del descubrimiento de datos, preparación, integración y optimización mediante inteligencia artificial.
    • Aplicación automática de técnicas avanzadas para mejorar la calidad y rendimiento.
  6. Capacidades analíticas avanzadas
    • Soporte integrado para análisis predictivo, aprendizaje automático y procesamiento de datos en tiempo real.

InterSystems Data Fabric Studio

InterSystems Data Fabric Studio o IDFS a partir de ahora, es una solución SaaS basada en el Cloud (de momento) cuyo objetivo es cumplir con las funcionalidades que se demandan a un Data Fabric.

Los que tengáis más experiencia desarrollando con InterSystems IRIS habréis podido ver claramente que muchas de las funcionalidades de los Data Fabric son facilmente implementables sobre IRIS, pues exactamente eso fue lo que pensamos en InterSystems. ¿Por qué no aprovechar nuestra tecnología proporcionando a nuestros clientes una solución?

Interfaz moderna y amigable.

Esto es una auténtica novedad en InterSystems, una interfaz web simple, moderna y funcional basada en las últimas versiones de tecnologías como Angular.

Con acceso transparente a tus datos de origen.

El primer paso para la explotación eficiente de tus datos empieza conectándote a los mismos, diferentes orígenes de datos requieren distintos tipos de conexión como JDBC, API REST o ficheros CSV.

IDFS dispone de conectores para una gran diversidad de orígenes de datos, entre ellos conexiones a diferentes bases de datos mediante JDBC haciendo uso de las librerías de conexión pre-instaladas.

Analiza tus fuentes de datos y define tu propio catálogo.

Todo Data Fabric debe permitir a los usuarios analizar la información disponible en sus orígenes de datos mostrando todos los metadatos asociados a los mismos que permitan decidir si son o no relevantes para su posterior explotación.

Mediante IDFS, una vez definida las conexiones a tus diferentes bases de datos podrás comenzar las tareas de descubrimiento y catalogación de los mismos haciendo uso de funcionalidades como las de la importación de esquemas definidos en la base de datos.

En la siguiente imagen podéis ver el ejemplo de esta fase de descubrimiento en la que a partir de una conexión establecida con una base de datos Oracle podemos acceder a todos los esquemas presentes en la misma así como a todas las tablas definidas dentro de cada esquema.

Esta funcionalidad no se limita a las estructuras rígidas definidas por las bases de datos externas, IDFS mediante consultas SQL entre múltiples tablas del origen de datos permite generar catálogos con única y exclusivamente la información que resulte más relevante para el usuario.

A continuación podéis ver un ejemplo de consulta sobre múltiples tablas de la misma base de datos y una visualización de los datos recuperados.

Una vez definido nuestro catálogo, IDFS se encargará de almacenar los metadatos de la configuración, no siendo necesario en ningún momento la importación de los datos reales, disponiendo de esta forma de una virtualización de los mismos.

Consulta y gestiona tu catálogo de datos.

El conjunto de datos presentes en cualquier organización puede ser de dimensiones considerables, por ello es necesario una gestión de los catálogos que hemos creado sobre los mismos que sea ágil y sencilla.

En todo momento IDFS nos permite consultar todo nuestro catálogo de datos, pudiendo reconocer de un sólo vistazo a qué datos tenemos acceso.

Como véis, con las funcionalidades ya explicadas cubrimos perfectamente los dos primeros puntos que ChatGPT nos indicaba como necesarios para una herramienta de Data Fabric, veamos ahora como IDFS cubre los restantes puntos.

Una de las ventajas de IDFS es que, dado que está construido sobre InterSystems IRIS, hace uso de sus capacidades de búsqueda vectorial, las cuales permiten hacer búsquedas semánticas sobre el catálogo de datos, permitiendo obtener todos los catálogos relacionados con una determinada búsqueda.

Prepara tus datos para su posterior uso.

De nada nos sirve identificar y catalogar nuestros datos si no podemos hacerlos disponibles a terceros de la forma que lo necesiten. Este paso es clave ya que proporcionar datos en los formatos requeridos facilitarán su uso simplificando los procesos de análisis y desarrollo de nuevas soluciones.

IDFS facilita este proceso mediante la creación de "Recetas" o Recipes, un nombre que le viene que ni pintado ya que lo que vamos a hacer es "cocinar" nuestros datos.

Como en toda buena receta, nuestros ingredientes (los datos) pasarán por varios pasos que nos permitirán finalmente preparar el plato a nuestro gusto.

Prepara tus datos (Staging)

El primer paso de toda receta será la de conseguir todos los ingredientes necesarios, para ello tenemos el paso de preparación o Staging. Este paso te permitirá elegir de entre todo tu catálogo el que contenga los datos requeridos.

Transforma tus datos (Transformation)

Todo Data Fabric que se precie de serlo debe permitir transformar los orígenes de datos y debe disponer de la capacidad de hacerlo de una forma rápida y efectiva.

IDFS permite acondicionar los datos mediante las transformaciones necesarias para que el cliente de los mismos pueda comprenderlos.

Estas transformaciones pueden ser de varios tipos: reemplazo de cadenas de caracteres, redondeo de valores, expresiones de SQL que transformen los datos, etc. Todas estas transformaciones sobre los datos serán persistidas directamente sobre la base de datos de IRIS sin afectar en ningún momento al origen de datos del mismo.

Tras este paso tendríamos nuestros datos adaptados a los requisitos del sistema cliente que hará uso de los mismos.

Validación de los datos (Validation)

En un Data Fabric no basta con transformar los datos, es necesario asegurar que los datos que se van a proporcionar a terceros sean correctos.

IDFS cuenta con un paso de validación sobre los datos que nos va a permitir filtrar qué datos proporcionamos a nuestros clientes. Aquellos datos que no cumplan con la validación generarán avisos o alertas para ser gestionados por la persona responsable.

Un punto importante de esta fase de validación en IDFS es que también se puede aplicar sobre los campos que hemos transformado en el paso anterior.

Reconciliación de los datos (Reconciliation)

Es muy habitual que sea necesario validar nuestros datos con una fuente externa que garantice que los datos presentes en nuestro Data Fabric son coherentes con la información disponible en otras tablas de nuestro origen de datos.

IDFS dispone de un proceso de reconciliación que permite hacer una comparación entre nuestros datos validados y esta fuente externa de datos, de tal forma que se garantice la validez de los mismos.

Promoción de los datos (Data Promotion)

Todo Data Fabric debe ser capaz de remitir toda la información que ha pasado por él a terceros sistemas, para ello deberá disponer de procesos que exporten estos datos transformados y validados.

IDFS permite la promoción de los datos que han pasado por todos los pasos anteriores a un origen de datos que hayamos definido previamente. Esta promoción se realiza mediante un sencillo proceso en el que definimos lo siguiente:

  1. El origen de dato al que enviaremos la información.
  2. El esquema de destino (relacionado con una tabla del origen de datos).
  3. El mapeo entre nuestros datos transformados y validados y la tabla de destino.

Una vez concluida la configuración anterior nuestra receta está lista para entrar en acción cuando deseemos y para ello sólo necesitaremos dar un último paso, programar la ejecución de nuestra receta.

Programador de negocio

Hagamos un breve repaso antes de continuar de lo que hemos hecho:

  1. Definir nuestros orígenes de datos.
  2. Importar los catálogos relevantes.
  3. Crear una receta para cocinar nuestros datos.
  4. Configurar la importación, transformación, validación y promoción nuestros datos a una base de datos externa.

Como véis, sólo nos queda definir cuando queremos que se ejecute nuestra receta. ¡Vamos a ello!

De una forma muy sencilla podemos indicar cuando queremos que se ejecuten los pasos definidos en nuestra receta, bien de una forma programada, al concluir una ejecución previa, de forma manual, etc...

Estas capacidades de programación de las ejecuciones nos van a permitir poder encadenar ejecuciones de recetas sin ningún problema, pudiendo por lo tanto racionalizar la ejecución de las mismas teniendo un control más detallado sobre qué está pasando con nuestros datos.

Cada ejecución de nuestras recetas van a dejar un registro que posteriormente vamos a poder consultar para conocer el estado de dicha ejecución:

Cada ejecución generará a su vez una serie de informes que son consultables y fácilmente descargables. Cada informe nos mostrará el resultado de cada uno de los pasos definidos en nuestra receta:

Conclusiones

Llegamos al final del artículo, espero que os haya ayudado a comprender mejor el concepto de Data Fabric y que os haya parecido interesante nuestra nueva solución InterSystems Data Fabric Studio.

¡Gracias por vuestro tiempo!

Comentarios (0)1
Inicie sesión o regístrese para continuar