Artículo
Ricardo Paiva · Sep 22 Lectura de 5 min

¿Cómo encontrar el conjunto de datos que necesitas?

¡Hola Comunidad!

Durante años he trabajado en muchos proyectos diferentes y he podido encontrar muchos datos interesantes.

Pero la mayoría de las veces el conjunto de datos con el que trabajaba era de los clientes. Cuando hace un par de años empecé a participar en los Concursos de Programación de InterSystems, comencé a buscar conjuntos de datos web específicos.

Yo mismo he ido seleccionando algunos datos, pero he pensado: "¿Este conjunto de datos es suficiente para ayudar a otras personas?"

Y discutiendo estas ideas con @José Roberto Pereira, decidimos enfocar este tema usando una perspectiva diferente.

Pensamos en ofrecer una variedad de conjuntos de datos que provengan de dos famosas fuentes de datos. De este modo, podemos facilitar que los usuarios encuentren e instalen el conjunto de datos que quieran, de forma rápida y sencilla.

Socrata

La API de datos abiertos de Socrata permite acceder mediante programación a una gran cantidad de recursos de datos abiertos de gobiernos, organizaciones sin ánimo de lucro y ONGs de todo el mundo.

Para esta versión inicial, utilizamos las API de Socrata para buscar y descargar un conjunto de datos específicos.

Abre la herramienta de la API de tu preferencia, como Postman, Hoppscotch

GET> https://api.us.socrata.com/api/catalog/v1?only=dataset&q=healthcare

Este EndPoint devolverá todos los conjuntos de datos relacionados con la atención sanitaria, como en la siguiente imagen: Conjunto de datos de devolución de Socrata

Ahora, consigue el ID. En este caso el ID es: "n9tp-i3k3"

Ve al terminal

IRISAPP>set api = ##class(dc.dataset.importer.service.socrata.SocrataApi).%New()

IRISAPP>do api.InstallDataset({"datasetId": "n9tp-i3k3", "verbose":true})

Compilation started on 01/07/2022 01:01:28 with qualifiers 'cuk'
Compiling class dc.dataset.imported.DsCommunityHealthcareCenters
Compiling table dc_dataset_imported.DsCommunityHealthcareCenters
Compiling routine dc.dataset.imported.DsCommunityHealthcareCenters.1
Compilation finished successfully in 0.108s.

Class name: dc.dataset.imported.DsCommunityHealthcareCenters
Header: Name VARCHAR(250),Description VARCHAR(250),Location VARCHAR(250),Phone_Number VARCHAR(250),geom VARCHAR(250)
Records imported: 26

Después del comando anterior, tu conjunto de datos estará listo para utilizarse!

Conjunto de datos de devolución de Socrata

Kaggle

Kaggle, una filial de Google LLC, es una comunidad en línea de científicos de datos y profesionales del Machine Learning. Kaggle permite que los usuarios encuentren y publiquen conjuntos de datos, exploren y construyan modelos en un entorno de ciencia de datos basados en la web, trabajen con otros científicos de datos e ingenieros de Machine Learning y participen en competiciones para resolver retos de la ciencia de datos.

En junio de 2017 Kaggle anunció que había superado el millón de usuarios registrados, o Kagglers, y desde 2021 cuenta con más de 8 millones de usuarios registrados. La comunidad abarca 194 países. Se trata de una comunidad diversa, que va desde los que acaban de empezar hasta muchos de los investigadores más conocidos del mundo.

Esto es lo que yo llamo una gran comunidad, ¡¿cierto?!

Para utilizar los conjuntos de datos de Kaggle, hay que registrarse en su página web. Después, hay que crear un token de API para utilizar la API de Kaggle.

Creación de tokens de Kaggle

Ahora, igual que con Socrata, puedes utilizar la API para buscar y descargar el conjunto de datos.

GET> https://www.kaggle.com/api/v1/datasets/list?search=appointments

Conjunto de datos de devolución de Kaggle

Ahora, obtén el valor de la referencia. En este caso, la referencia es: "joniarroba/noshowappointments"

Los parámetros de abajo "your-username" y "your-password" son los parámetros que proporciona Kaggle cuando creas el token de API.

IRISAPP>Set crendtials = ##class(dc.dataset.importer.service.CredentialsService).%New()

IRISAPP>Do crendtials.SaveCredentials("kaggle", "<your-username>", "<your-password>")

IRISAPP>Set api = ##class(dc.dataset.importer.service.kaggle.KaggleApi).%New()

IRISAPP>Do api.InstallDataset({"datasetId":"joniarroba/noshowappointments", "credentials":"kaggle", "verbose":true})

Class name: dc.dataset.imported.DsNoshowappointments
Header: PatientId INTEGER,AppointmentID INTEGER,Gender VARCHAR(250),ScheduledDay DATE,AppointmentDay DATE,Age INTEGER,Neighbourhood VARCHAR(250),Scholarship INTEGER,Hipertension INTEGER,Diabetes INTEGER,Alcoholism INTEGER,Handcap INTEGER,SMS_received INTEGER,No-show VARCHAR(250)
Records imported: 259

Después del comando anterior, tu conjunto de datos estará listo para utilizarse!

Selección de Kaggle

Interfaz gráfica de usuario

Para facilitar las cosas, ofrecemos una Interfaz gráfica de usuario para instalar el conjunto de datos. Pero esto es algo que nos gustaría discutir en nuestro próximo artículo. Mientras tanto, a continuación puedes ver un adelanto mientras pulimos algunas cosas antes del lanzamiento oficial:

Lista de conjuntos de datos de Socrata

Conjunto de datos de devolución de Socrata

Video de demostración

¿Cómo es el funcionamiento para descargar un conjunto de datos más grande? +¡¿Más de 400,000 registros no son suficientes?! ¡¿Qué tal 1 MILLÓN DE REGISTROS?! ¡Vamos a verlo!

Voting

1
1 30
Debate (0)2
Inicie sesión o regístrese para continuar