Artículo
· 5 jul, 2024 Lectura de 5 min

Catalogo de Unity para Cargas de Trabajo IRIS - Teoría de Colisión Confirmada

Teoría de Colisión Confirmada

La innovación ocurre cuando dos o más tecnologías colisionan para crear algo nuevo. Las mejores colisiones pueden CAMBIAR vidas, eliminar DESPERDICIOS, DIFERENCIARSE en el mercado o simplemente darme otro proyecto para el que no tengo tiempo, pero que realmente, realmente importaría.

Asisto a conferencias y hackathons buscando ese algo que me haga salir de una conferencia principal felizmente distraído y agarrar uno de esos (raros) bancos vacíos junto a un enchufe y consumir bases de código. Esto ocurrió en el InterSystems Global Summit 2024, pero no fue evidente hasta que se disparó un tiro a 2900 millas de distancia en DAIS 2024, al mismo tiempo en que Unity Catalog se hizo Open Source.

No soy alguien que pueda ver a través de o involucrarme en una metáfora textil para articular lo que se necesita para las cargas de trabajo de datos en momentos ridículamente extraños/rápidos para servir en mi industria. Necesito software que lo respalde, y prácticamente de inmediato. Esta es la diferencia entre resolver una brecha y curar una idea innovadora, supongo, así que se fomenta la solución, y el software de código abierto está en el caso.

Aparte del posible mal uso de "Teoría de Colisión" para una publicación, aquí hay una colisión, o al menos una eminente, que reflexioné en un viaje en Uber hace un miércoles y que aún mantiene cerca del anillo cero en mi sistema operativo basado en carbono.

La colisión

Vectores

No necesitáis profundizar demasiado para emocionaros con la posibilidad inmediata de las Estructuras de Datos Vectoriales junto con todas las demás desde una perspectiva SQL. "Ya Listo" o "Already ready" es una realidad y está a una columna y a un ELT/ETL de distancia sin mover ningún dato en absoluto.

La demostración de GrandHack MIT de @Alvin Ryanputra es agradable a la vista para resaltar esta combinación de datos impulsada por embeddings/vectores:

SELECT TOP 3 * FROM scotch_reviews 
WHERE price < 100 // SQL STUFF
ORDER BY VECTOR_DOT_PRODUCT(description_vector, TO_VECTOR(:search_vector)) DESC // VECTOR SORCERY

Vuestro SQL mezclado con mis Vectores podría ser un anuncio moderno de Reese's, y el hecho de que podáis tomar una columna de texto ya existente y transformarla en embeddings perpetuos y persistirla debería encender algunas bombillas en algún lugar.

Python

Unity Catalog está en primer plano en el adelanto de este post, pero Python es la estrella del espectáculo. El trabajo incansable, la evangelización y la solución que @Guillaume Rongier y el equipo de Python en InterSystems han realizado han demostrado ser más importantes que nunca para seguir el ritmo de nuestra industria.

Por qué?

Python es una plataforma de interoperabilidad en la nube.

Y adivina qué...

Se integró con éxito y Object Script se hizo accesible en sentido inverso, y probablemente no con la ayuda de un solo JIRA al principio para avanzar, y el verdadero ticket para hacer "Cloud". Ya no se necesitan construir más "adaptadores" (aunque son bienvenidos y valiosos), ya están "Already Ready" o "Ya Listos" en la cadena de suministro como módulos de Python.

Si no estáis de acuerdo con la declaración anterior sobre Python Cloud, pasemos a las "Tablas No Gestionadas" en Unity Catalog OSS y discutámoslo allí.

Catálogo Unity OSS

En 2021, Databricks respondió a los clientes que pedían a gritos aplicar una capa de cordura a las cargas de trabajo para la Gobernanza de Datos, Seguridad y todas esas cosas mencionadas durante tres días seguidos en el Global Summit en el contexto de la adopción de IA. En 2024, se abrió para que cualquier plataforma de datos pudiera usarlo, y desde ese momento ha sido fascinante suscribirse a solicitudes de extracción, sin duda.

Así que pongámoslo a su propósito original, y transformemos el Naranja en Verde azulado y el Marino en Púrpura (expresión inglesa que significa cambiar por completo) y apliquémoslo en toda su gloria de soluciones a InterSystems IRIS.

Unity Catalog es muchas cosas, muchas cosas buenas que marcan muchas casillas en la era moderna de los datos. Fuera de todas esas casillas está el registro de "conexiones" a datos externos para que nuestros poderes de Python los consuman. Esto, en esencia, es un "adaptador" que resulta en un conjunto de datos para el consumo de la Plataforma de Datos IRIS, interoperabilidad instantánea en la nube, si se quiere, con un giro empresarial, y autorización delimitada a nivel del Metastore.

[] = iriscatalog.cloudfiles("bucket")

Si consumís información como yo, es probable que ya haya perdido vuestra atención SEO a otro sitio para profundizar en Unity Catalog. Por lo tanto, resumiré mi conclusión en la colisión con algunas modificaciones en MS Paint como una superposición a la funcionalidad de Unity Catalog.

Este planteamiento es un poco aventurado y probablemente donde la solución improvisada se desmorona, pero ¿qué pasaría si nuestras "Tablas Gestionadas" fueran objetos de datos de InterSystems, y las "No Gestionadas" fueran compatibilidad instantánea de formato de datos?

Clave:

⛅ Interoperabilidad instantánea en la nube
🚀 Compartición de datos orientada hacia el futuro
✅ Ya disponible / Already ready

Estamos en una comunidad de desarrolladores y una captura de pantalla dulce del terminal es obligatoria con un escenario de hipótesis en contexto. Si queréis empezar rápidamente en la vorágine de desarrollo, sugiero que simplemente uséis este contenedor en esta solicitud de extracción (https://github.com/unitycatalog/unitycatalog/pull/42/files).

¿Qué pasaría si, ya sea por magia de cpf o mediante una devolución de llamada, la creación de un namespace se registrara automáticamente en Unity Catalog?

Hola, soy Ron y este es mi artículo para ser tokenizado y convertido en embeddings, incluido en un LLM (Modelo de Lenguaje Grande) que aún no tiene nombre en el futuro.

¿Qué os parece una asociación (https://www.unitycatalog.io/#partner-ecosystem) con Unity Catalog ISC?

Definitivamente estaré encantado de ayudar en todo lo que pueda.

Comentarios (0)1
Inicie sesión o regístrese para continuar