Resumen Sobre Datos Abiertos

RESUMEN SOBRE DATOS ABIERTOS
Cada día, los gobiernos y las agencias gubernamentales publican más

datos en internet. Compartir estos datos permite una mayor transparencia; ofrece
servicios públicos más eficientes; y fomenta un mayor uso público y comercial y la
reutilización de la información gubernamental. Algunos gobiernos incluso han
creado catálogos o portales para facilitar que el público encuentre esos datos.
Para iniciar la comparación entre información y datos, es primeramente

necesario definir estos términos:
 Dato: es una representación simbólica que describe hechos, condiciones,

valores o situaciones, recabada y dispuesta de manera adecuada para
cumplir el objetivo de la institución que lo gestiona.
 Información: es un conjunto organizado de datos procesados y relacionados
de manera que nos permitan comunicar o adquirir conocimientos.
Esta información puede ser accedida en forma libre por los ciudadanos, sin
importar:
a. El origen de la información, esto es, quien produce o publica la información.

b. El soporte de la información, por ejemplo: papel, medios de difusión
masivos como ser radio, televisión, soporte digital como ser archivos de
computadores.
c. El formato de la información, por ejemplo, una tabla para ser abierta con un
software como Acrobat Reader (.pdf), Microsoft Excel (.xlsx) y/o cualquier
procesador de texto (.csv).
Como respuesta a esta necesidad de estándares surgen los datos abiertos.
Los datos abiertos son componentes básicos del conocimiento abierto. El

conocimiento abierto es en lo que se convierten los datos abiertos cuando son
útiles, usables y utilizados.
Para ser considerados “abiertos”, los datos deben ser reutilizables, lo que
significa que se pueden descargar en formatos abiertos y leer mediante software
(gratuito), y los usuarios tienen el derecho legal de reutilizarlos. Los beneficios
pueden ser significativos cuando los datos están ampliamente disponibles y fáciles
de usar, pueden ayudar a optimizar los servicios gubernamentales, estimular las
oportunidades económicas, fomentar la innovación, mejorar la seguridad pública y
reducir la pobreza.
La siguiente tabla muestra las diferencias entre información y datos

abiertos:
Datos Abiertos Información Pública
Medio de publicación Para facilitar el acceso a los Puede ser publicado por
datos, los mismos deben estar cualquier medio, en radio,
publicados en Internet. televisión, prensa escrita,
internet, etc.
Soporte Para fomentar el uso, re-uso y Puede estar en soporte papel,
redistribución, el soporte debe voz o digital.
ser digital
Formato Formato estándar, Cualquier formato.
preferentemente abierto (que
no requiera de la compra de un
Software para su
procesamiento).
Licencia A lo sumo, que requiera No es necesaria liberar la
atribución y redistribución con la propiedad intelectual. Pueden
misma licencia. Se requiere existir restricciones de uso, re-
que, en la medida de lo posible, uso y redistribución.
que el usuario pueda hacer uso,
re-uso y redistribución.
A medida que los beneficios de los datos abiertos impactan en poblaciones

más amplias y se descubren opciones útiles adicionales, los gobiernos y las
instituciones de todo el mundo están ansiosos por lanzar nuevos programas de
datos abiertos o expandir los existentes. Tomará un tiempo comprender la
complejidad y el amplio potencial de los datos abiertos, que se derivan del entorno
“abierto” de concesión de licencias. Dado que Open Data aún se encuentra en sus
primeras etapas, las mejores prácticas y comunidades apenas comienzan a surgir.
¿Qué está abierto? - El conocimiento “abierto” es cualquier

contenido, información o datos que las personas pueden usar, reutilizar y
redistribuir libremente, sin ninguna restricción legal, tecnológica o social.
Los datos abiertos son los componentes básicos del conocimiento abierto.
El conocimiento abierto es en lo que se convierten los datos abiertos cuando son
útiles, usables y utilizados.
Las características claves de la apertura de datos son:
 Disponibilidad y acceso: los datos deben estar disponibles en su

totalidad y a un costo de reproducción no mayor que el razonable,
preferentemente mediante descarga a través de internet. Los datos también
deben estar disponibles en una forma conveniente y modificable.
 Reutilización y redistribución: los datos deben proporcionarse en
condiciones que permitan la reutilización y redistribución, incluida la
combinación con otros conjuntos de datos. Los datos deben ser legibles por
maquinas.
 Participación universal: todos deben poder usar, reutilizar y
redistribuir; no debe haber discriminación por campos de actividad ni por
personas o grupos. Por ejemplo, no se permiten las restricciones “no
comerciales” que impedirían el uso “comercial” o las restricciones de uso
para determinados fines.
¿Qué son los conjuntos de datos?
Un conjunto de datos es una colección de registros organizados de datos

en donde cada elemento tiene la misma estructura, ordenados para su
procesamiento por un ordenador. Por ejemplo, un conjunto de datos puede ser el
listado de los establecimientos escolares del Paraguay, el listado de todos los
contratos del Estado Paraguayo para todas sus instituciones, o el Presupuesto
General de la Nación.
El mismo conjunto de datos puede tener varias distribuciones (o recursos)

que pueden variar en dos dimensiones:
1. Temporal: en este caso el mismo conjunto de datos tiene registros

asociados a un tiempo dato. Por ejemplo, el Presupuesto General de la Nación
tiene una versión diferente cada año, al igual que la lista de contratos del Estado
Paraguayo.
2. Formato: cada conjunto de datos puede ser representado en varios
formatos. Por ejemplo, si consideramos que la lista de contratos del Estado
Paraguayo puede ser representada en una tabla, la misma puede estar
digitalizada para ser abierta con Acrobat Reader (en formado .pdf), o Microsoft
Excel (.xls), por cualquier procesador de texto (.csv) o para ser procesado por
sistemas automatizados (.json), entre otros.
¿Qué son los metadatos?
Los Metadatos son datos o descripciones estructuradas que describen las

características de otros datos o informaciones. La importancia de los metadatos
radica en que proveen contexto para interpretar los datos o las informaciones a
que acompañan.
Los metadatos pueden aplicarse a los datos, y a los conjuntos de datos:
a. Metadatos de datos: Estos describen la estructura de los datos y proveen

información de cómo interpretarlos, por ejemplo, la lista de las columnas, las
descripciones de los valores de cada columna, el formato (en el caso de fecha si
esta se encuentra en dd/mm/aaaa o mm/dd/aaaa) o en el caso de montos la
moneda en que están representados los mismos, entre otros.
b. Metadatos de conjuntos de datos: Describen al conjunto de datos en sí. Por

ejemplo, qué institución los produjo, la persona de referencia en caso que se
necesite realizar consultas, la fecha en que se creó el conjunto de datos y la
validez temporal de los mismos. Los metadatos son también presentados como
los diccionarios de datos
La ODC (Open Data Charter o Carta Internacional de los Datos Abiertos)

expuso en el 2.015, seis principios desarrollados por gobiernos, sociedad civil y
expertos de todo el mundo para representar un conjunto de normas aspiracionales
acordadas a nivel mundial sobre como publicar datos. A continuación se muestran
una breve explicación de los principios:
1. Abrir por defecto: esto representa un cambio real en la forma en que opera
el gobierno y como interactúa con los ciudadanos. Por el momento, a menudo
tenemos que pedir a los funcionarios la información específica que queremos.
Open by default le da la vuelta a esto y dice que debería haber una presunción de
la publicación para todos. Los gobiernos deben justificar los datos que se
mantienen cerrados por ejemplo, por razones de seguridad o protección de datos.
Para que esto funcione, los ciudadanos también deben sentirse seguro de que los
datos abiertos no comprometerán su derecho a la privacidad.
2. Oportuno y completo: los datos abiertos solo son valiosos si siguen siendo
relevantes. Lograr que la información se publique de manera rápida y completa es
fundamental para su potencial de éxito. En la medida de lo posible, los gobiernos
deberían proporcionar datos en su forma original y sin modificar.
3. Accesible y utilizable: garantizar que los datos sean legibles por máquina y
fáciles de encontrar hará que los datos lleguen más lejos. Los portales son una
forma de lograr esto. Pero también es importante pensar en la experiencia de
usuario de quienes acceden a los datos, incluidos los formatos de archivo en los
que se proporciona la información. Los datos deben ser gratuitos, bajo una licencia
abierta, por ejemplo, las desarrolladas por Creative Commons.
4. Comparables e interoperables: los datos tienen un efecto multiplicador,
cuantos más conjuntos de datos de calidad tenga acceso y más fácil les resulte
comunicarse entre sí, más valor potencial podrá obtener de ellos. Los estándares
de datos comúnmente acordados juegan un papel crucial para que esto suceda.
5. Para mejorar la gobernanza y la participación ciudadana: los datos abiertos
tienen la capacidad de permitir que los ciudadanos (y otros en el gobierno) tengan
una mejor idea de lo que están haciendo los funcionarios y políticos. Esta
transparencia puede mejorar los servicios públicos y ayudar a que los gobiernos
rindan cuentas.
6. Por el desarrollo inclusivo y la innovación: finalmente, los datos abiertos
pueden ayudar a impulsar el desarrollo económico inclusivo. Por ejemplo, un
mayor acceso a los datos puede hacer que la agricultura sea más eficiente o
puede usarse para abordar el cambio climático. Por último, a menudo pensamos
en los datos abiertos solo para mejorar el desempeño del gobierno, pero existe
todo un universo de empresarios que ganan dinero gracias a los datos abiertos.
Para ayudar a los gobiernos a abrir y compartir sus datos, el grupo de

interés eGov del W3C (World Wide Web Consortium – Consorcio Mundial de la
Red), ha desarrollado las siguientes pautas. Estos sencillos pasos enfatizan
estándares y metodologías para fomentar la publicación de datos
gubernamentales, lo que permite al público utilizar estos datos de formas nuevas e
innovadoras.
Pasos sencillos para publicar datos gubernamentales:
Paso 1: La forma más rápida y sencilla de hacer que los datos estén
disponibles en internet es publicar los datos en su forma original (por ejemplo, un
archivo XML de datos de encuestas de elecciones pasadas). Sin embargo, los
datos deben estar bien estructurados. La estructura permite que otros hagan un
uso automatizado de los datos con éxito. Los formatos o estructuras bien
conocidos incluyen XML, RDF, y CSV. Nota: Los formatos que solo permiten ver
los datos, en lugar de extraerlos (por ejemplo, imágenes de los datos), no son
útiles y deben evitarse.
Paso 2: Cree un catálogo en línea de los datos sin procesar (completo con
documentación) para que las personas puedan descubrir lo que se ha publicado.
Estos conjuntos de datos sin procesar deben estar estructurados y

documentados de manera confiable; de lo contrario, su utilidad es insignificante.
La publicación de datos sin procesar, con un catálogo en línea, es un

excelente punto de partida y refleja el siguiente paso en la evolución de internet:
“sitio web como servidor de archivos”.
Paso 3: Haga que los datos sean legibles tanto por humanos como por
maquinas:
 Enriquecer sus recursos (X) HTML existentes con semántica,

metadatos e identificadores.
 Codifique los datos usando estándares abiertos y de la industria,
especialmente XML, o cree sus propios estándares basados en su
vocabulario.
 Hacer que los datos sean legibles por humanos ya sea convirtiéndolos
a (X) HTML o usando transformaciones en tiempo real a través de CSS
o XSLT.
 Utilizar “Cool URI1” (Identificador de Recursos Uniforme) con patrones
permanentes y/o detectables.
 Permitir citas electrónicas en forma de hipervínculos estandarizados
(enlaces ancla/id o XLINK/XPointers).
Estos pasos ayudaran al público a encontrar, usar, citar y comprender

fácilmente los datos. El catálogo de datos debe explicar cualquier regla o
regulación que deba seguirse en el uso del conjunto de datos. Además, el
catálogo de datos en sí mismo se considera “datos” y debe publicarse como datos
estructurados, para que terceros puedan extraer datos sobre los conjunto de
datos.
Documentar minuciosamente las partes de la página web, utilizando

XHTML valido, y elija direcciones URL (Localizador Uniforme de Recursos)
detectables y modeladas fácilmente para las páginas.
También distribuir los datos para el catalogo (utilizando formatos como

RSS) para anunciar rápida y fácilmente nuevos conjuntos de datos tras su
publicación.
Los datos abiertos dan poder real a las personas y deben ser legibles por
humanos y por máquinas.
a. Identificable: La capacidad de identificar cosas por URI/URL es la base de

internet. Las mejores prácticas para los “datos abiertos del gobierno” dependen de
la aplicación de la arquitectura descrita. Si proporciona URI/URL permanentes,
con patrones detectables a sus datos, los procesos y las personas podrán
encontrarlos y usarlos más fácilmente. Los URI/URL se pueden usar en bases de
datos y metadatos como identificadores únicos y universales.
Use identificaciones internas para identificar datos específicos para la
reutilización de la máquina. Mediante el uso de URI y la incorporación de enlaces
internos dentro de archivos o documentos de gran tamaño, las personas pueden
citar con autoridad la información en sus propios sitios web.
1
Ejemplo: http://www.ine.gov.py/ Página inicio INE
Juan es funcionario del INE, entonces su URI sería: http://www.ine.gov.py/personas/juan
La página mencionada es un documento web. Cada documento web tiene su propia URI. Y un documento
web, no es lo mismo a un archivo.
b. Documento: Sin documentación, los datos no son muy útiles. Cuando sea
posible, debe usar estándares de la industria como los basados en XML 2/RDF3, ya
que tienden a autodocumentarse.
Cree una página web con una descripción en lenguaje sencillo del conjunto de
datos para ayudar a los motores de búsqueda a encontrar los datos, para que las
personas puedan usarlos. La descripción debe explicar cómo encontrar las
páginas y/o los archivos, y describir el contenido de los archivos. Como mínimo
documente el título, la descripción, la fecha de publicación y la fuente autorizada
de los datos. Use un lenguaje claro y enlace la información relacionada para
ayudar a poner los datos en contexto.
Cuando sea posible, también documente completamente la descripción de

cada dato y el estándar de datos y/o la validación de los datos (Ej.: si el dato es
una temperatura, explique también el estándar relacionado como Celsius,
Fahrenheit o Kelvin). A medida que surgen estándares para describir los conjuntos
de datos, aprovecharlos. Herramientas de búsqueda de documentos y métodos
ResTful4.
c. Enlace: el siguiente paso más allá de los datos sin procesar son los datos
totalmente vinculados. En otras palabras, los datos sin procesar solo se pueden
vincular, no hay vínculos de regreso, pero los datos vinculados contienen vínculos
a otros datos y documentación. Existe un espectro desde datos sin procesar hasta
datos completamente vinculados, y estándares como RDF que pueden ayudarlo a
vincular sus datos.
Hay cuatro expectativas para la web de datos enlazados:
1. Los URI son nombres para cosas.

2. Los URI HTTP ayudan a las personas a encontrar esas cosas.
3. Cuando alguien busca un URI, debería encontrar información útil.
4. Los enlaces dentro de sus datos a otros URI ayudan a las personas a
descubrir más cosas relacionadas.
El uso de URI como se describe proporciona una red de datos rica y fácilmente
conectada que es más fácil de buscar y usar para el público. Sin embargo,
muchas bases de datos no crear URI, sino que utilizan identificadores únicos
derivados internamente. Para vincular estos datos a la web más grande,
2 eXtensible Markup Language

3 Resource Description Framework
4 Los servicios ResTful se basan en la manipulación de recursos, los recursos pueden contener datos
actualizados de forma estática o dinámica.
necesitamos usar sistemas que puedan anticipar o construir los URI antes de
publicar los datos.
d. Preservar: preservar los datos publicados es una de las principales

preocupaciones de los gobiernos, para mantener el historial de un conjunto de
datos, piense en cómo integrar nuevos URI para conjuntos de datos nuevos y
actualizados, y estructure sus URI en consecuencia. Utilice el control de versiones
de los conjuntos de datos para que las personas puedan citar y vincular versiones
actuales y pasadas.
Los conjuntos de datos nuevos y actualizados pueden hacer referencia a

los conjunto de datos originales. Si es necesario, proporcionar herramientas para
traducir datos más antiguos. Documente cuidadosamente los cambios entre
versiones e incruste el numero/indicador de versión dentro de los datos si es
posible y opte por estándares abiertos que no sean específicos del software.
e. Exponer interfaces: existen algunos estándares W3C útiles si desea ayudar

a las personas a descubrir y explorar los datos que está publicando. Es posible
hacer que los datos sean legibles por humanos usando XSLT 5 para formatos
basados en XML y RDF. Hacer que las páginas web sean legibles por maquina
incorporando información semántica en el HTML, utilizando RDF a y/o
microformatos. (Tener en cuenta que los motores de búsqueda pueden
aprovechar la información semántica incrustada, lo que ayuda a más personas a
encontrar sus datos).
No comprometer la integridad de los datos para crear interfaces llamativas.
Si se debe crear una interfaz, publique los datos por separado de la interfaz y
asegúrese de que las partes externas tengan acceso directo a los datos sin
procesar, para que puedan crear sus propias interfaces si lo desean.
f. Crear nombres/URI estándar para todos los objetos gubernamentales:
Tener un identificador único para cada empresa o escuela registrada

(objeto) es tan importante como tener información sobre esas empresas o
escuelas. Además de utilizar estándares abiertos de la industria, se debe hacer un
esfuerzo para catalogar todas las entidades, funcionarios y objetos
gubernamentales referenciables. Los URI se pueden usar en todos los datos. Esto
ayuda a la detección, mejora los metadatos y garantiza la autenticidad.
5
eXtensible Stylesheet Language
Al realizar la publicación de un dato se debe tener en cuenta la audiencia a
quien va dirigida el dato o la información, éstas pueden ser:
a. Personas: Las personas deben entender y poder visualizar la información

presentada de una manera amigable. Normalmente las formas (o formatos) de
presentar la información a las personas son por medio de:
 Páginas HTML en Internet en los sitios web institucionales.

 Documentos con gráficos y tablas que pueden ser representados en
PDF o planillas electrónicas como Excel o Libre Office.
b. Máquinas: Cuando la información o dato está orientada hacia las máquinas

la misma debe poder ser procesada de la manera automática. Esto implica que
deben estar bien definidas:
 La sintaxis: la estructura de los datos debe ser conocida para poder

trabajar con los elementos del mismo. Ejemplos: HTML, JSON, CSV, XML.
Idealmente esta estructura debe estar definida por un estándar de libre
acceso, que no requiere la adquisición de software o programas costosos.
 La semántica: permite que aparte de poder trabajar con cada

elemento del dato, el mismo pueda ser interpretado sin ambigüedades por
las máquinas. El valor agregado de que las máquinas pueden interpretar los
datos de manera estándar radica en que se puede llegar a un grado de
interoperabilidad en donde las máquinas son las que pueden agregar los
datos y derivar informaciones de manera más proactiva. Esto permite que
las personas puedan dedicar su tiempo a analizar los resultados de estas
informaciones, y no en tratar de buscar y lidiar con diferentes formatos y
fuentes de información. Para ello se requiere de un mayor grado de
formalización en el significado de cada elemento de información. Ejemplos
de tecnologías habilitantes son:
• HTML: Microdata, Microformats

• JSON: JSON-LD
Estándares a 5 estrellas:
El enfoque técnico de la apertura de datos propuesto está basado en el

esquema de cinco estrellas definido por Tim Berners-Lee.
Este esquema propone una escala incremental de niveles de apertura de

datos, donde cada nivel supone avances en términos de los objetivos de los datos
abiertos: libertad de uso, re-uso y redistribución de los datos.
Los niveles definidos son:
 1 Estrella: los datos están disponibles en internet bajo una licencia abierta
(open license). Aunque los datos sean de acceso público, en este nivel los
mismos no se encuentran en un formato estructurado, lo que dificulta su
uso, y, en particular, su procesamiento.
Estas publicaciones pueden ser imprimidas, almacenadas, modificadas y
los datos se pueden compartir de acuerdo a los términos de la licencia.
 2 Estrellas: los datos están disponibles en un formato estructurado. Un
documento Excel es un ejemplo de conjunto de dato a este nivel. Aunque
los datos se encuentren publicados en un formato estructurado, la
dependencia fuerte de un formato propietario supone un obstáculo para su
uso.
Estas publicaciones son posibles de procesar los datos utilizando el
software propietario así como también exportarlos a otros formatos
estructurados.
 3 Estrellas: los datos están disponibles en formatos no propietarios. Las
ventajas de los datos a este nivel van aumentando, ya que los datos son
posible procesarlas sin las limitaciones impuestas por el software
propietario.
Aunque la publicación sigue siendo relativamente simple, puede requerirse
el uso de plugins para la exportación a formatos abiertos.
 4 Estrellas: los datos a este nivel están publicados en URI específicas, lo
cual permite hacer referencia a los mismos. Los datos pueden
referenciarse y guardarse como marcadores del navegador, y también
combinarse con otras fuentes, incluso utilizando herramientas ya
implementadas.
 5 Estrellas: los datos a este nivel hacen referencia a datos pertenecientes
a otros conjuntos de datos a través de sus respectivas URI, brindando de
este modo contexto al conjunto de dato original. Con este nuevo nivel, es
posible aprender e incluso descubrir nuevos datos mediante la
combinación de conjunto de datos, los atributos y relaciones pueden
validarse automáticamente mediante la definición del esquema.
El descubrimiento de los datos es más simple, y los datos ganan valor
agregado al combinarse con otras fuentes.
Una forma de entender las iniciativas de Datos Abiertos es verlas como

tipos de economías, donde los datos representan mercancías; los usuarios de
datos, o “consumidores”, proporcionan la demanda de datos; y las agencias
gubernamentales y otras fuentes proporcionan el suministro de datos. Esta
filosofía se incorpora al Toolkit y su enfoque para estructurar la iniciativa de Datos
Abiertos.
Plataformas de datos abiertos de uso común:
1. CKAN: (del Inglés, Comprehensive Knowledge Archive Network), es la

plataforma de portal de datos de código abierto líder en el mundo, es un catálogo
de datos de código abierto respaldado formalmente por Open Knowledge
Foundation y se puede instalar en cualquier servidor Linux, incluidas las
configuraciones alojadas en la nube. La Open Knowledge Foundation también
ofrece servicios de hospedaje por una tarifa mensual. CKAN está escrito en el
lenguaje de programación Python y diseñado para publicar y administrar datos a
través de una interfaz de usuario o una API.
CKAN tiene una arquitectura modular a través de la cual se pueden agregar
funciones adicionales o personalizadas. Por ejemplo, la extensión DDI Importer
(patrocinada por el Banco Mundial) que brinda soporte para el estándar de
metadatos DDI, incluida la recopilación de metadatos de catálogos de microdatos.
El backend de CKAN está desarrollado íntegramente en Python, con un frontal
propio en JavaScript, y permite desplegar una capa de servicios gestionable desde
una API, y utilizar plugins base o extensiones que aportan funcionalidades
adicionales a la plataforma. CKAN se apoya en una base de datos PostgreSQL,
donde se almacenan los conjuntos de datos que alberga, sus recursos y demás
metadatos necesarios para el funcionamiento de la plataforma, y hace uso
de Solr, un motor de búsqueda que ayuda a agilizar la localización y disponibilidad
de los conjuntos de datos.
Además de explicar esta arquitectura, el documento aborda las funcionalidades
y extensiones utilizadas en la instancia de CKAN personalizada, y cómo el
conjunto de componentes integrados en la plataforma: Angular, NodeJS,
PostgreSQL y Solr conviven para disponer conjuntos de datos que son la base
para el desarrollo de servicios y soluciones de datos abiertos.
2. DKAN: está diseñado para tener “características compatibles” con CKAN.

Esto significa que su API subyacente es idéntica, por lo que los sistemas
diseñados con la API de CKAN, también funcionan con la DKAN.
DKAN también es de código abierto, pero se basa en Drupal, un popular
sistema de administración de contenido escrito en PHP en lugar de Python. Esto
es más atractivo para las organizaciones que ya han invertido en sitios web
basados en Drupal. – Drupal tiene su propia arquitectura modular con miles de
módulos disponibles para descargar, y también tiene una opción para personalizar
módulos y una gran comunidad de desarrolladores.
Entre algunas de las características de DKAN, se pueden mencionar las
siguientes:
 Cumple con los requisitos de Open Data de EE.UU. y es compatible
con su portal de datos abiertos data.gov.
 Permite publicar fácilmente conjuntos de datos en formatos legibles
por maquina incluyendo JSON, XML, RDF y otros.
 Se pueden añadir conjuntos de datos de manera manual o importarlos
mediante una API desde otras aplicaciones.
 Gestión de usuarios, roles y privilegios a diferentes niveles.
 Permite gestionar la importación de grandes conjuntos de datos.
 Incluye herramientas de visualización de datos de manera gráfica y
cartográfica.
 Personalización de los conjuntos de datos mediante la creación y
gestión de propios metadatos.
 Los usuarios finales pueden participar, comentar, calificar, compartir o
solicitar un conjunto de datos.
 Fácil de personalizar la apariencia de la página web, colores, logotipos
o temas.
En última instancia, DKAN es una oferta complementaria a CKAN en un

esfuerzo por hacer que los datos sean más abiertos y accesibles.
3. Junar: es una plataforma de datos abiertos SaaS6 basada en la nube. Por

lo que los datos generalmente se administran dentro de la infraestructura de Junar
(el modelo “todo en uno”). Junar puede proporcionar un catálogo de datos
completo o datos a través de una API a un catálogo de usuarios separado.
4. OpenDataSoft: OpenDataSoft es una plataforma SaaS basada en la nube

que ofrece un conjunto integral de herramientas de visualización y datos
abiertos. El front-end es completamente de código abierto . La plataforma admite
formatos comunes de datos abiertos como CSV, JSON y XML, junto con formatos
geoespaciales como KML, OSM y SHP. La función de búsqueda es fácil de usar y
la plataforma está disponible en varios idiomas.
5. Semantic MediaWiki (Wiki de medios Semanticos): la aplicación wiki

mejor conocida por impulsar Wikipedia . Mientras que los wikis tradicionales
contienen solo texto, Semantic MediaWiki agrega anotaciones semánticas que
permiten que un wiki funcione como una base de datos colaborativa y un catálogo
de datos. Semantic MediaWiki es una implementación de RDF , lo que significa
que tanto los datos como los metadatos se almacenan como datos vinculados y se
puede acceder a ellos a través de interfaces de datos vinculados como SPARQL.
6. Socrata: es una plataforma de catálogo SaaS Open Data basada en la

nube que proporciona API, catálogo y herramientas de manipulación de
datos. Una característica distintiva de Socrata es que permite a los usuarios crear
vistas y visualizaciones basadas en datos publicados y guardarlas para que otros
las usen. Además, Socrata ofrece una versión de código abierto de su API,
destinada a facilitar las transiciones para los clientes que deciden migrar fuera del
modelo SaaS.
Socrata ofrece una cuenta gratuita para visualizar conjuntos de datos en
formato de valores separados por comas (formato CSV). A su vez, los usuarios
pueden descargar un conjunto de datos o acceder a datasets vía API. Socrata
está dirigido a un público más técnico.
6
SaaS: Software as a Service (Software como Servicio)
7. Swirrl (Remolino): es una plataforma de datos abiertos SaaS basada en la
nube construida sobre tecnologías de datos vinculados (como RDF y SPARQL )
diseñada para lograr el 100 % de cumplimiento con el modelo de datos abiertos de
5 estrellas . Swirrl, sin embargo, también hace que los datos estén disponibles a
través de estructuras más convencionales como CSV.
Plataformas de datos Geoespaciales
1. ArcGIS Open Data: es una plataforma SaaS basada en la nube donde los
usuarios pueden explorar datos espaciales y no espaciales en una interfaz
coherente, lo que permite la extracción de características específicas y la
descarga en múltiples formatos abiertos y API. Se incluye de forma gratuita con
ArcGIS Online, aprovecha los servicios de ArcGIS y se integra con cientos de
aplicaciones de código abierto para dispositivos móviles, web y de
escritorio. ArcGIS Open Data utiliza Koop , un motor ETL de código abierto que
transforma automáticamente los servicios web en formatos accesibles.
2. GeoNodo: es una plataforma de código abierto para desarrollar sistemas

de información geoespacial (SIG) y para implementar infraestructuras de datos
espaciales. Está diseñado para ser ampliado y modificado, y puede integrarse en
plataformas existentes.
Plataformas: Características
 Se puede instalar en cualquier servidor Linux.
 Escrito en Python y JavaScript.
 Diseñado para publicar y administrar datos.
 Posee arquitectura modular.
CKAN
 Componentes integrados como: Angular, NodeJS,
PostgreSQL, Solr.
 Posee una valoración de los datos según el tipo de archivo y
publicación de la misma.
 Está diseñada para ser compatible con características del
CKAN.
 Sistema de administración basado en Drupal, escrito en PHP
en lugar de Python.
 Drupal tiene su propia arquitectura modular.
DKAN
 Posee módulos disponibles para descargar y también para
personalizarlas.
 Existe una gran cantidad y comunidad de desarrolladores.
 Cumple los requisitos de Open Data EE.UU.
 Permite publicar formatos legibles por maquina incluyendo
JSON, XML, RDF y otros.
 Gestión de usuarios, roles y privilegios a diferentes niveles.
 Permite la importación de grandes conjunto de datos.
 Incluye herramientas de visualización de datos de manera
gráfica y cartográfica.
 Los usuarios finales pueden participar, comentar, calificar,
compartir o solicitar un conjunto de datos.
 Fácil de personalizar la apariencia de la página web, colores,
estilos, logotipos, etc.
 Se puede instalar en cualquier servidor Linux o Windows.
 Sistema de catalogación de microdatos de código abierto
escrito en PHP.
 Cumple los estándares de DDI y Dublin Core.
 Presenta una interfaz más amigable al momento de registrar
los diccionarios en comparación a los anteriores, el ANDA
tiene la opción de cargar el diccionario sin necesidad de
realizar un alta o de refrescar la página con cada carga.
 También puede importar grandes cantidades de conjunto de
ANDA
datos.
 Se utiliza con el motor de Base de Datos MySQL.
 Permite gestionar los usuarios, roles, privilegios y permisos
en diferentes niveles.
 Permite publicar archivos de todo tipo legibles por maquina.
 A diferencia de la CKAN, ésta no posee una valoración de
ningún tipo a los tipos de datos publicados.
 Tampoco posee una visualización previa de los datos
publicados.

Resumen Sobre Datos Abiertos

Cargado por

Copyright:

Formatos disponibles

Resumen Sobre Datos Abiertos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen Sobre Datos Abiertos

Cargado por

Copyright:

Formatos disponibles

RESUMEN SOBRE DATOS ABIERTOS

Cada día, los gobiernos y las agencias gubernamentales publican más

Para iniciar la comparación entre información y datos, es primeramente

 Dato: es una representación simbólica que describe hechos, condiciones,

a. El origen de la información, esto es, quien produce o publica la información.

Como respuesta a esta necesidad de estándares surgen los datos abiertos.

Los datos abiertos son componentes básicos del conocimiento abierto. El

La siguiente tabla muestra las diferencias entre información y datos

A medida que los beneficios de los datos abiertos impactan en poblaciones

¿Qué está abierto? - El conocimiento “abierto” es cualquier

Las características claves de la apertura de datos son:

 Disponibilidad y acceso: los datos deben estar disponibles en su

¿Qué son los conjuntos de datos?

Un conjunto de datos es una colección de registros organizados de datos

El mismo conjunto de datos puede tener varias distribuciones (o recursos)

1. Temporal: en este caso el mismo conjunto de datos tiene registros

¿Qué son los metadatos?

Los Metadatos son datos o descripciones estructuradas que describen las

Los metadatos pueden aplicarse a los datos, y a los conjuntos de datos:

a. Metadatos de datos: Estos describen la estructura de los datos y proveen

b. Metadatos de conjuntos de datos: Describen al conjunto de datos en sí. Por

La ODC (Open Data Charter o Carta Internacional de los Datos Abiertos)

Para ayudar a los gobiernos a abrir y compartir sus datos, el grupo de

Pasos sencillos para publicar datos gubernamentales:

Estos conjuntos de datos sin procesar deben estar estructurados y

La publicación de datos sin procesar, con un catálogo en línea, es un

 Enriquecer sus recursos (X) HTML existentes con semántica,

Estos pasos ayudaran al público a encontrar, usar, citar y comprender

Documentar minuciosamente las partes de la página web, utilizando

También distribuir los datos para el catalogo (utilizando formatos como

a. Identificable: La capacidad de identificar cosas por URI/URL es la base de

Cuando sea posible, también documente completamente la descripción de

Hay cuatro expectativas para la web de datos enlazados:

1. Los URI son nombres para cosas.

2 eXtensible Markup Language

d. Preservar: preservar los datos publicados es una de las principales

Los conjuntos de datos nuevos y actualizados pueden hacer referencia a

e. Exponer interfaces: existen algunos estándares W3C útiles si desea ayudar

Tener un identificador único para cada empresa o escuela registrada

a. Personas: Las personas deben entender y poder visualizar la información

 Páginas HTML en Internet en los sitios web institucionales.

b. Máquinas: Cuando la información o dato está orientada hacia las máquinas

 La sintaxis: la estructura de los datos debe ser conocida para poder

 La semántica: permite que aparte de poder trabajar con cada

• HTML: Microdata, Microformats

El enfoque técnico de la apertura de datos propuesto está basado en el

Este esquema propone una escala incremental de niveles de apertura de

Los niveles definidos son:

Una forma de entender las iniciativas de Datos Abiertos es verlas como

Plataformas de datos abiertos de uso común:

1. CKAN: (del Inglés, Comprehensive Knowledge Archive Network), es la

2. DKAN: está diseñado para tener “características compatibles” con CKAN.

En última instancia, DKAN es una oferta complementaria a CKAN en un

3. Junar: es una plataforma de datos abiertos SaaS6 basada en la nube. Por

4. OpenDataSoft: OpenDataSoft es una plataforma SaaS basada en la nube

5. Semantic MediaWiki (Wiki de medios Semanticos): la aplicación wiki

6. Socrata: es una plataforma de catálogo SaaS Open Data basada en la

Plataformas de datos Geoespaciales