Los Datos Abiertos: los famosos OPEN DATA

Los Datos Abiertos se pueden definir como una filosofía o práctica que tiene como objetivo principal la puesta a disposición de determinados datos, exentos de restricciones y mecanismos de control. Una filosofía que nace con objetivos similares a otros movimientos: el software libre, código abierto (OPEN SOURCE) o el acceso libre (OPEN ACCESS).

El uso de datos en abierto es una de las principales iniciativas de innovación por la que apuestan organizaciones de todo tipo, como forma de mejorar y obtener beneficios (económicos y sociales), mediante la explotación de uno de sus principales activos: la información.

De esta forma frente al dato, como registro simbólico de algo que vemos en la realidad a través de números o palabras, nos encontramos con la información, donde el contexto es el que proporciona la relevancia y la utilidad, generando conocimiento. Por ello podemos señalar que se deben de cumplir requisitos para que podamos hablar de datos abiertos: integridad de los datos, el carácter primario, que sean datos oportunos, permanentes en el tiempo y, sobre todo que sean legibles por máquina, lo que va a marcar las posibilidades de reutilización de la información.

El proceso de publicación de datos

Siguiendo los tutoriales de Datos Abiertos publicados por la Secretaría de Hacienda y Crédito Público de México, se pueden establecer las siguientes fases o pasos a la hora de publicar datos abiertos por las organizaciones:

  • Analizar la demanda de información.
  • Identificar la fuente y los formatos en que se encuentra los datos.
  • Depuración y limpieza.
  • El estudio y análisis de estándares nacionales o internacionales de referencia.
  • La sostenibilidad de los datos.
  • El uso de licencias para la publicación de los datos.
  • Promover el uso de información.

La presentación de los datos: la importancia del formato

La diferencia entre datos estructurados o no estructurados establece las posibilidades de uso que vendrán determinadas por la forma o formato en que se presenten los datos:

  • Datos no estructurados: información no organizada que se caracteriza porque su contenido no puede ser utilizada de forma automatizada lo que conllevara su transformación a formatos digitales o reutilizables: documentos impresos, formatos que imitan o hace una analogía con el documento en papel (PDF), como los que no cuentan con los metadatos suficientes para su tratamiento automatizado (contenido ALTO/XML); o los que son creados por procesadores de texto (DOCX, PPTX).
  • Datos estructurados: legibles por máquina y por los humanos, como los ficheros tabulares (CSV) que permiten su ágil tratamiento; o los formatos que permiten la jerarquización en estructuras de árbol, como (JSON o XML).

Si se identifican los datos que se quieren publicar y se encuentra en formato estructurado puede agilizarse el proceso de apertura.

 Automatizando los datos con XML y JSON: las APIs

Las APIs (Interfaces de Programación de Aplicaciones) podemos definirlas como “acuerdos” entre aplicaciones mediante el uso del protocolo HTTP y el uso de estructuras complejas de datos para poder enviar y recibir datos utilizando los formatos XML o JSON. Una API que ofrece un servicio de datos establecerá las “reglas” que se deben de seguir para acceder a la información: cómo hay que conectarse al servicio o el formato en el que se devolverán los datos. Es una forma de crear un conjunto de servicios que permiten que las aplicaciones se conecten, comuniquen y compartan información que, en el caso de los datos abiertos, podemos considerar la forma más automatizada de presentar la información.

El caso concreto de los datos tabulares: el formato CSV

Los forma tabular de los datos es las más habitual en las transferencias e intercambio de información, y tal y como se señala en la Guía práctica para la publicación de datos tabulares en archivos CSV, publicada en el Portal de Datos Abiertos del Gobierno de España, la mayoría de los recursos disponibles se encuentran en formato CSV, un formato fácil de interpretar tanto por máquinas como por humanos, adecuado para la mayoría de las estructuras naturales en que se nos presentan los datos. No requiere de ningún software para su lectura y manipulación, ya que se trata de un fichero de texto plano, modificable por cualquier editor de texto.

La fortaleza del CSV es la simplicidad, pero esta característica también hace que no cuente con mecanismos para indicar el tipo de datos que presenta o el separador que se debe utilizar para cada campo. Podemos decir que es un formato muy propenso a la aparición de errores, debido a la propia mezcla de diferentes valores dentro de una columna o la aparición de valores nulos.

Estos problemas se pueden evitar mediante la puesta en práctica de un conjunto de buenas prácticas que permitan la calidad de los datos y la vinculación del fichero con esquemas que expresen los modelos de datos: Diccionario de datos o Esquema de Metadatos (en formatos procesables por máquina como JSON o JSON_LD).

Manejo y publicación de datos en CSV´s: describiendo, validando los datos para publicación

Data Curator es una herramienta desarrollada por el Open Data Institute (ODI) que nos permite crear un esquema de metadatos y documentar la procedencia de los mismos. Mediante la creación de esquemas, podemos corregir los problemas comunes que encontremos en nuestros archivos y validarlos de forma automática.

La herramienta permite crear nuestro esquema CSV desde cero o a partir de uno ya existente, en diferentes formatos de ficheros en texto separados por tabuladores o comas o, bien directamente desde una hoja de cálculo en Excel. Para ello solo tenemos que cargar el fichero, para proceder a describir la procedencia del conjunto de datos (dataset), con toda aquella información que nos ayude a documentar y entender la procedencia del conjunto de datos y su configuración.

Tras la documentación de la procedencia crearemos nuestro esquema de metadatos que definirá las propiedades del conjunto de datos y posibles restricciones, comenzando por la definición de nuestra tabla: nombre, título, descripción, licencias de utilización de los datos, etc. Tras este proceso de descripción podremos validarlo conforme a lo dispuesto en nuestro esquema.

El resultado final será un paquete (ZIP) (de acuerdo a la especificación Data Package) para nuestro conjunto de datos, descrito y validado, que integrará nuestro conjunto de datos en un CSV, los datos descriptivos y el esquema de metadatos en formato JSON, que podrá ser publicado directamente en un portal de Datos abiertos.

CKAN aplicación web de código abierto para la distribución de datos, que es sostenida por la Open Knowledge Foundation, organización sin ánimo de lucro que apoya la difusión del conocimiento abierto y, en la que podrán ser publicado nuestro dataset.

Un caso práctico: la experiencia de Abana con los datos (datos de gestión e información cultural)

Nuestra experiencia, en estos años, ha sido rica y variada en el manejo de datos. Podríamos decir que Abana en estas tres décadas, como empresa especializada en el tratamiento de la información, ha crecido al albur de los datos, afrontando los retos que nos marcaban nuestros clientes y colaboradores, contando siempre como objetivo principal: el que supieran sacar el mayor rendimiento a sus activos de información. Siempre con el estricto manejo de los estándares de calidad y de profesionalidad necesarios para hacer que se cumplieran sus expectativas y de que sus datos fueran accesibles de la manera más óptima y de la forma más legal y ética posible, cumpliendo con la gestión,  la rendición de cuentas o los fines sociales, a los que cada proyecto que hemos desarrollado estaba llamado.

Trabajamos y hemos trabajado en el ámbito en el ámbito de las GLAM (Galerías, Bibliotecas, Archivos y Museos), desarrollando proyectos relacionados con el acceso a la información y haciendo que la ricas colecciones fueran accesibles para todos, de acuerdo a los estándares que nos marcaban y, solucionando la no siempre fácil tarea de hacer que nuestros procesos fueran competitivos en el marco del trabajo y del río revuelto de la información, sabiendo que es necesario muchos recursos de tiempo y personal para posibilitar la apertura de los datos.

Así hemos desarrollado diferentes proyectos de apertura de datos, en los que nos hemos curtido y, donde el grado de apertura de los mismos venía determinado por unos objetivos concretos:

  • Mediante los datos abiertos (OPEN DATA): poniendo y haciendo accesible los metadatos.
  • Mediante el acceso a las colecciones y archivos digitales (OPEN CONTENT): poniendo las colecciones en abierto mediante la digitalización de las mismas.
  • Mediante la posibilidad de uso de los datos enlazados (LINKED OPEN DATA): para hacer más interconectados e interoperables los datos, en un largo y holístico proceso que conlleva identificar y seleccionar los recursos a digitalizar y buscar la mejor manera de que sean accesibles mediante el trabajo de descripción y catalogación (valoración de la información, selección mediante la gestión y normalización documental), digitalización y desarrollo de plataformas que pudieran proveer un acceso en abierto (siguiendo los protocolos de acceso abierto OAI-PMH, EUROPEANA, etc.), a través desarrollo de catálogos en línea (OPACS) para archivos, museos y bibliotecas digitales.

En Abana hemos crecido y nos hemos desarrollado en el ámbito de la información cultural en estas tres décadas, y hemos presenciado como el sector cultural integraba cada salto en el mundo de los datos como algo del que se podía obtener un plácet donde innovar. Este marco de innovación y vanguardia nos ha permitido y permite atender otras peticiones de colaboradores y clientes, en el marco de la innovación de los datos abiertos, y del uso de la información de gestión, mediante el manejo y creación de sistemas de información que posibilitan las tareas diarias, haciendo que la información se convirtiera, de verdad, en un valor y activo para todos.



Autor: Diego Ruiz
Técnico Área de Archivos

Deja una respuesta