LMSGI04 Definición de Esquemas y Vocabularios en XML

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 49

Definición de esquemas y vocabularios en

XML

Caso práctico
María había salido a dar un paseo por el
puerto, como todos los domingos por la
mañana iba acompañada de su marido José
Ramón y su hijo.

Mientras les veía jugar, estaba pensando que


al día siguiente tenía que hablar con Juan, el
técnico que se encargaba de resolver los
Nate Steiner - Flickr.com (CC BY)
problemas de informática de la empresa de la
cual es socia. Había estado pensando si
existiría algún modo de poder garantizar que
la estructura de datos de cada uno de los documentos XML que comparte
con Félix, su socio, es la que tiene que ser y no otra, además de asegurar
que todos los documentos del mismo tipo mantienen la misma estructura.

Ministerio de Educación y Formación Profesional. (Dominio público)

Materiales formativos de FP Online propiedad del Ministerio de


Educación y Formación Profesional.
Aviso Legal
1.- Documento XML. Estructura y sintaxis

Caso práctico
Al día siguiente, cuando habla con Juan, sus dudas quedan disipadas.
Resulta que hay varias posibilidades para asegurar una normalización en
el formato de los documentos XML.Juan comienza por describir la
estructura de un documento XML y Félix y María descubren que puede ser un
poco más compleja que la que habían estado usando hasta entonces para
generar sus documentos.

Hasta ahora hemos trabajado con documentos básicos de XML. En la primera unidad vimos
que un documento XML básico estaba formado por un prólogo y un ejemplar. Recordamos
que cada una de esas partes tiene el siguiente cometido:

Prólogo: Informa al intérprete encargado de procesar el documento de todos aquellos


datos que necesita para realizar su trabajo. Consta de dos partes:
Definición de XML: Donde se indica la versión de XML que se utiliza, el código
de los datos a procesar y la autonomía del documento. Este último dato hasta
ahora siempre ha sido "yes" ya que los documentos generados eran
independientes.
Declaración del tipo de documento: Hasta el momento solo hemos dicho que
es el nombre del ejemplar precedido de la cadena <!DOCTYPE y separado de
ésta por, al menos un espacio.
Ejemplar: Contiene los datos del documento que se quiere procesar. Es el elemento
raíz del documento y ha de ser único. Está compuesto de elementos estructurados
según una estructura de árbol en la que el elemento raíz es el ejemplar y las hojas los
elementos terminales, es decir, aquellos que no contienen elementos. Los elementos
pueden estar a su vez formados por atributos.

Estos documentos básicos están incompletos, ya que solo hemos declarado el tipo de
documento que va a ser (qué ejemplar vamos a definir), pero no hemos definido qué
cualidades tiene ese ejemplar.

Para completarlos y definir en profundidad las cualidades del ejemplar, usaremos o bien
DTDs o bien XML Schemas.

Autoevaluación
Marcar los componentes de un documento XML:

Prólogo.
Ejemplar.

Definición de codificación del documento.

Cabecera.

Mostrar retroalimentación

Solución

1. Correcto
2. Correcto
3. Correcto
4. Incorrecto
1.1.- Declaración de tipo de documento

Ya habíamos visto que permite al autor definir restricciones


y características en el documento, aunque no habíamos
profundizado en las partes que la forman:

La declaración del tipo de documento propiamente dicha.


Comienza con el texto que indica el nombre del tipo,
precedido por la cadena " " separado del nombre del tipo por,
al menos, un espacio. El nombre del tipo ha de ser idéntico al
Petra Gregorová - www.flickr.com (CC BY-ND)
del ejemplar del documento XML en el que se está
trabajando.
La definición del tipo de documento. Permite asociar al
documento una definición de tipo DTD , la cual se encarga de definir las cualidades
del tipo. Es decir, define los tipos de los elementos, atributos y notaciones que se
pueden utilizar en el documento así como las restricciones del documento, valores por
defecto, etc. Para formalizar todo esto, XML está provisto de ciertas estructuras
llamadas declaraciones de marcado, las cuales pueden ser internas o externas.
Normalmente un documento XML se compone de una mezcla de declaraciones de
marcado internas y externas. En este último caso debe expresarse en el documento
dónde encontrar las declaraciones, así como indicar en la declaración de XML que el
documento no es autónomo. Las diferencias entre estos tipos de declaraciones de
marcado dan lugar a dos subconjuntos el interno y el externo, conviene saber que
primero se procesa el subconjunto interno y después el externo, lo que permite
sobrescribir declaraciones externas compartidas entre varios documentos y ajustar el
DTD a un documento específico.
Subconjunto interno: Contiene las declaraciones que pertenecen
exclusivamente a un documento y no es posible compartirlas. Se localizan
dentro de unos corchetes que siguen a la declaración de tipo del documento.
Subconjunto externo: Están localizadas en un documento con
extensión dtd que puede situarse en el mismo directorio que el documento XML.
Habitualmente son declaraciones que pueden ser compartidas entre múltiples
documentos XML que pertenecen al mismo tipo. En este caso la declaración de
documento autónomo ha de ser negativa, ya que es necesario el fichero del
subconjunto externo para la correcta interpretación del documento. Con ello el
procesado del documento será más lento, ya que antes de procesar el
documento el procesador ha de obtener todas las entidades.

<!DOCTYPE nombre_ejemplar SYSTEM "URI">


En este caso, se especifica un URI donde pueden localizarse las
declaraciones.

<!DOCTYPE nombre_ejemplar PUBLIC "id_publico" "URI">


En este caso también se especifica un identificador, que puede ser
utilizado por el procesador XML para intentar generar un URI alternativo,
posiblemente basado en alguna tabla. Como se puede observar también
es necesario incluir algún URI.

Autoevaluación
La definición de tipo de documento ha de ser:

Interna o externa al documento XML al que está referida.

Interna al documento XML que le refiere.

Externa al documento XML que le refiere.

Única.

Muy bien. Has captado la idea. Correcta.

Incorrecta, porque puede ser externa.

No es la respuesta correcta porque puede definirse en el documento.

No es correcta ya que un documento puede tener una definición DTD


interna u otra externa definidas simultáneamente.

Solución

1. Opción correcta
2. Incorrecto
3. Incorrecto
4. Incorrecto
1.2.- Definición de la sintaxis de
documentos XML
Recordamos que en estos documentos las etiquetas de
marcado describen la estructura del documento.

Un elemento es un grupo formado por una etiqueta de


apertura, otra de cierre y el contenido que hay entre
ambas.
En los documentos de lenguajes de marcas, la distribución
de los elementos está jerarquizada según una estructura de
árbol, lo que implica que es posible anidarlos pero no
Quinn.annya - www.flickr.com (CC BY-SA)
entrelazarlos.

Hemos visto que en los elementos el orden es importante,


¿lo es también para los atributos? En este caso el orden no es significativo. Lo que hay que
tener presente es que no puede haber dos atributos con el mismo nombre.

Sabemos que los atributos no pueden tener nodos que dependan de ellos, por tanto solo
pueden corresponder con hojas de la estructura de árbol que jerarquiza los datos.
¿Significa esto que todas las hojas van a ser atributos? Pues no, es cierto que los atributos
son hojas, pero las hojas pueden ser atributos o elementos.

En ese caso, ¿qué criterios podemos utilizar para decidir si un dato del documento que se
pretende estructurar ha de representarse mediante un elemento o un atributo? Aunque no
siempre se respetan, podemos usar los siguientes criterios:

El dato será un elemento si cumple alguna de las siguientes condiciones:


Contiene subestructuras.
Es de un tamaño considerable.
Su valor cambia frecuentemente.
Su valor va a ser mostrado a un usuario o aplicación.

Los casos en los que el dato será un atributo son:


El dato es de pequeño tamaño y su valor raramente cambia, aunque hay
situaciones en las que este caso puede ser un elemento.
El dato solo puede tener unos cuantos valores fijos.
El dato guía el procesamiento XML pero no se va a mostrar.

Los espacios de nombres, o namespaces, ¿qué nos permiten?

Diferenciar entre los elementos y atributos de distintos vocabularios con diferentes


significados que comparten nombre.
Agrupar todos los elementos y atributos relacionados de una aplicación XML para que
el software pueda reconocerlos con facilidad.

¿Cómo se declaran?

xmnls:"URI_namespace"

¿Y si se usa un prefijo que nos informe sobre cuál es el vocabulario al que está asociada
esa definición?

xmnls:prefijo="URI_namespace"
En ambos casos URI_namespace es la localización del conjunto del vocabulario del
espacio de nombres al que se hace referencia.

Autoevaluación
Marcar las afirmaciones válidas que hacen referencia a un espacio de
nombres.

Facilitan que el software localice el vocabulario de la aplicación.

Define los atributos que forman parte de un documento.

Permiten tener varios elementos homónimos con diferentes significados.

Determinan los elementos que forman parte de un documento XML.

Mostrar retroalimentación

Solución

1. Correcto
2. Incorrecto
3. Correcto
4. Incorrecto
2.- Definiciones de tipo de documento,
DTD.

Caso práctico
Según Juan el método más sencillo para intentar normalizar los
documentos con los que trabajan, consiste en definir unos vocabularios
que han de cumplir los documentos que generan, estos se llaman Definición
de Tipo de Documento. Además, aunque no es un lenguaje XML, tiene una
sintaxis sencilla y fácil para que ella y Félix puedan comprenderla y utilizarla.

Están formadas por una relación precisa de qué elementos pueden aparecer en un
documento y dónde, así como el contenido y los atributos del mismo. Garantizan que
los datos del documento XML cumplen las restricciones que se les haya impuesto en
el DTD, ya que estas últimas permiten:

Especificar la estructura del documento.


Reflejar una restricción de integridad referencial mínima utilizando (ID e IDREF).
Utilizar unos pequeños mecanismos de abstracción comparables a las macros,
que son las entidades.
Incluir documentos externos.

¿Cuáles son los inconvenientes de los DTD?


Los principales son:

Su sintaxis no es XML.
No soportan espacios de nombres.
No definen tipos para los datos. Solo hay un tipo de elementos terminales, que son los
datos textuales.
No permite las secuencias no ordenadas.
No es posible formar claves a partir de varios atributos o elementos.
Una vez que se define un DTD no es posible añadir nuevos vocabularios.

Cuando están definidas dentro del documento XML se ubican entre corchetes después del
nombre del ejemplar en el elemento <!DOCTYPE> pero, cuando está definido en un fichero
externo ¿a qué tipo de fichero corresponde? Definimos el DTD externo en un fichero de
texto plano con extensión dtd.

Autoevaluación
Marcar las afirmaciones referidas a un DTD:
Permite la formación de identificadores compuestos por varios atributos.

Para construirlas no se usa un lenguaje basado en XML.

Permite incluir ficheros binarios en el documento.

Definen distintos tipos para los datos.

Mostrar retroalimentación

Solución

1. Incorrecto
2. Correcto
3. Correcto
4. Incorrecto
2.1.- Declaraciones de tipos de elementos
terminales
Los tipos terminales son aquellos elementos que se
corresponden con hojas de la estructura de árbol formada por los
datos del documento XML asociado al DTD. La declaración de
tipos de elementos está formada por la cadena <!ELEMENT>
separada por, al menos un espacio del nombre del elemento XML
que se declara, y seguido de la declaración del contenido que
puede tener dicho elemento.

quapan - www.flickr.com (CC BY)

En el caso de elementos terminales, es decir, aquellos que no contienen más elementos,


esta declaración de contenido es dada por uno de los siguientes valores:

EMPTY: Indica que el elemento no es contenedor. Por ejemplo, la siguiente definición


muestra un elemento A que no contiene nada:

<!ELEMENT A EMPTY>

ANY: Permite que el contenido del elemento sea cualquier cosa. Un ejemplo de
definición de un elemento de este tipo es:

<!ELEMENT A ANY>

(#PCDATA): Indica que los datos son analizados en busca de etiquetas, resultando
que el elemento no puede contener elementos, es decir solo puede contener datos de
tipo carácter exceptuando los siguientes: <, &, ]], >. Si es de este tipo, el elemento A
tendrá una definición como:

<!ELEMENT A (#PCDATA)>

EJEMPLO

Si se tiene la siguiente estructura en un documento XML

<alumno>Olga Velarde Cobo</alumno>

Un DTD que podría ajustarse sería:


<!ELEMENT alumno (#PCDATA)>

Autoevaluación
Los elementos terminales de tipo ANY son aquellos que están:

Formados por cadenas de texto exclusivamente.

Vacíos

Formados por cualquier cosa.

Estará formada por otros elementos.

No es correcta porque pueden estar formados por cualquier cosa.

Incorrecta, porque también pueden ser otra cosa.

Ánimo, sigue así. ¡Correcta!

No es correcta, los elementos terminales son aquellos que no están


formados por otros elementos.

Solución

1. Incorrecto
2. Incorrecto
3. Opción correcta
4. Incorrecto
2.2.- Declaraciones de tipos de elementos
no terminales

Una vez que sabemos el modo de definir las hojas de un árbol de


datos veamos cómo definir sus ramas, es decir los elementos que
están formados por otros elementos.

Para definirlos utilizamos referencias a los grupos que los


componen tal y como muestra el ejemplo:

<!ELEMENT A (B, C)>

Bill Barber - www.flickr.com (CC


BY-NC)

En este caso se ha definido un elemento A que está formado por un


elemento B seguido de un elemento C.

¿Y qué sucede cuando un elemento puede aparecer en el documento varias veces, hay
que indicarlo de algún modo? Pues sí, también hay que indicar cuando un elemento puede
no aparecer. Para ello usamos los siguientes operadores, que nos permiten definir la
cardinalidad de un elemento:

Operador opción, ?. Indica que el elemento no es obligatorio. En el siguiente ejemplo


el subelemento trabajo es opcional.

<!ELEMENT telefono (trabajo?, casa )>

Operador uno-o-más, +. Define un componente presente al menos una vez. En el


ejemplo definimos un elemento formado por el nombre de una provincia y otro grupo,
que puede aparecer una o varias veces.

<!ELEMENT provincia (nombre, (cp, ciudad)+ )>

Operador cero-o-mas, *. Define un componente presente cero, una o varias veces. En


el ejemplo el grupo (cp, ciudad) puede no aparecer o hacerlo varias veces.

<!ELEMENT provincia (nombre, (cp, ciudad)* )>

Operador de elección, |. Cuando se utiliza sustituyendo las comas en la declaración


de grupos indica que para formar el documento XML hay que elegir entre los
elementos separados por este operador. En el ejemplo siguiente, el documento XML
tendrá elementos provincia que estarán formados por el elemento nombre y el cp
(código postal), o por el elemento nombre y la ciudad.

<!ELEMENT provincia (nombre, (cp | ciudad) )>

EJEMPLO

Si se tiene la siguiente estructura en un documento XML

1 <alumno>
2 <nombre>Olga</nombre>
3 <dirección>El Percebe 13</dirección>
4 </alumno>

Un DTD que podría ajustarse sería:

1 <!ELEMENT alumno (nombre, apellidos, direccion)>


2 <!ELEMENT nombre (#PCDATA)>
3 <!ELEMENT dirección (#PCDATA))>

Autoevaluación
La diferencia entre el operador ? y el + es que el primero permite que el
elemento sobre el que se aplica esté presente una vez, como máximo,
mientras que el operador + no limita el número máximo de veces que
está presente el elemento en el documento XML.

Verdadero.

Falso.

Muy bien, correcto.

Incorrecto, el operador ? es el que determina que un elemento es


opcional mientras que + determina que un elemento aparecerá una o
más veces.

Solución

1. Opción correcta
2. Incorrecto
2.3.- Declaraciones de listas de atributos
para los tipos de elementos
Ya sabemos cómo declarar elementos, ahora veamos el
modo de declarar los atributos asociados a un elemento.
Para ello utilizamos la cadena <!ATTLIST seguida del
nombre del elemento asociado al atributo que se declara,
luego el nombre de éste último seguido del tipo de atributo
y del modificador. Este elemento puede usarse para
declarar una lista de atributos asociada a un elemento, o
repetirse el número de veces necesario para asociar a
dicho elemento esa lista de atributos, pero
individualmente.

Al igual que los elementos no todos los atributos son del


mismo tipo, los más destacados son:

Enumeración, es decir, el atributo solo puede tomar


uno de los valores determinados dentro de un
paréntesis y separados por el operador |.
<!ATTLIST fecha dia_semana frvelizfadic - www.flickr.com (CC BY-NC-ND)

(lunes|martes|miércoles|jueves|viernes|sábado|domingo)
#REQUIRED>

CDATA, se utiliza cuando el atributo es una cadena de texto.


ID, permite declarar un atributo identificador en un elemento. Hay que recordar que
este valor ha de ser único en el documento. Además hay que tener en cuenta que los
números no son nombres válidos en XML, por tanto no son un identificador legal de
XML. Para resolverlo suele incluirse un prefijo en los valores y separarlo con un guión
o una letra.
IDREF, permite hacer referencias a identificadores. En este caso el valor del atributo
ha de corresponder con el de un identificador de un elemento existente en el
documento.
NMTOKEN, permite determinar que el valor de un atributo ha de ser una sola palabra
compuesta por los caracteres permitidos por XML.

¿También hemos de declarar si el valor de un atributo es obligatorio o no? Si, para ello se
usan los siguientes modificadores:

#IMPLIED, determina que el atributo sobre el que se aplica es opcional.


#REQUIRED, determina que el atributo tiene carácter obligatorio.
#FIXED, permite definir un valor fijo para un atributo independientemente de que ese
atributo se defina explícitamente en una instancia del elemento en el documento XML.
Literal, asigna a un atributo el valor dado por una cadena entre comillas.

EJEMPLO

Si se tiene la siguiente estructura en un documento XML


1 <alumno edad=15>
2 <nombre>Olga</nombre>
3 <apellidos>Velarde Cobo</apellidos>
4 <dirección>El Percebe 13</dirección>
5 </alumno>

Un DTD que podría ajustarse sería:

1 <!ELEMENT alumno (nombre, apellidos, direccion)>


2 <!ATTLIST alumno edad CDATA #REQUIRED>
3 <!ELEMENT nombre (#PCDATA)>
4 <!ELEMENT apellidos (#PCDATA)>
5 <!ELEMENT dirección (#PCDATA)>

Autoevaluación
¿Cuál de los siguientes atributos permite añadir a los datos una
restricción de integridad referencial?

MTOKEN.

ID.

IDREF.

CDATA.

Incorrecto, los datos de este tipo garantizan que tienen un nombre que
cumple las normas de XML.

No es correcto. Este atributo impone la restricción que ese valor debe


ser único para ese atributo dentro de un documento XML.

Genial, es correcto.
No está bien. Este tipo de datos se usa para cadenas de texto.

Solución

1. Incorrecto
2. Incorrecto
3. Opción correcta
4. Incorrecto
2.4.- Declaraciones de entidades
¿Qué sucede si queremos declarar valores
constantes dentro de los documentos?
¿podemos?
Las entidades nos permiten definir
constantes en un documento XML. Cuando
se usan dentro del documento XML se
limitan por "&" y ";", por ejemplo &entidad;

¿Cómo trabaja el intérprete con ellos? Al


procesar el documento XML, el intérprete
sustituye la entidad por el valor que se le ha
asociado en el DTD.
No admiten recursividad, es decir, una
entidad no puede hacer referencia a ella
misma.
Axel Hecth - www.flickr.com (CC BY-ND)

Para definir una entidad en un DTD se usa el elemento <!ENTITY>

Las entidades pueden ser de cuatro tipos:

Internas: Existen cinco entidades predefinidas en el lenguaje, son:


&lt;: Se corresponde con el signo menor que, <.
&gt;: Hace referencia al signo mayor que, >.
&quot;: Son las comillas rectas dobles, ''.
&apos;: Es el apóstrofe o comilla simple, '.
&amp;: Es el et o ampersand, &.

¿Se puede definir una entidad diferente? ¿Cómo? Utilizando la siguiente sintaxis:
<!ENTITY nombre_entidad "valor de la entidad"> Por ejemplo,

<!ENTITY dtd "Definiciones de Tipo de Documento">

Externas: Permiten establecer una relación entre el documento XML y otro documento
a través de la URL de éste último. Un ejemplo de declaración de una entidad externa
es:

<!ENTITY nombre_entidad SYSTEM "http://localhost/docsxml/fichero_entidad.xml">

En este caso el contenido de los ficheros es analizado, por lo que deben seguir la
sintaxis XML.

Cuando es necesario incluir ficheros con formatos binarios, es decir ficheros que no se
analicen, se utiliza la palabra reservada NDATA en la definición de la entidad y habrá
que asociar a dicha entidad una declaración de notación, tal y como muestra el ejemplo
del apartado siguiente.
De parámetro: Permite dar nombres a partes de un DTD y hacer referencia a ellas a lo
largo del mismo. Son especialmente útiles cuando varios elementos del
DTD comparten listas de atributos o especificaciones de contenidos. Se denotan por
%entidad;

1 <!ENTITY %direccion "calle, numero?, ciudad, cp">


2 <!ENTITY alumno (dni, %direccion;)>
3 <!ENTITY ies (nombre, %direccion;)>

De parámetro externas: Permite incluir en un DTD elementos externos, lo que se


aplica en dividir la definición DTD en varios documentos.

<!ENTITY persona SYSTEM "persona.dtd">

Autoevaluación
Las entidades permiten definir elementos cuyo valor es constante
dentro de un DTD.

Verdadero.

Falso.

Entre otras cosas permiten definir valores constantes.

Genial, es correcto.

Solución

1. Incorrecto
2. Opción correcta
2.5.- Declaraciones de notación
Cuando se incluyen ficheros binarios en un fichero, ¿cómo le
decimos qué aplicación ha de hacerse cargo de ellos? La
respuesta es utilizando notaciones. La sintaxis para declarar
notaciones es:

<!NOTATION nombre SYSTEM aplicacion>

MattieTK - www.flickr.com (CC BY-NC-SA)

Por ejemplo, una notación llamada gif donde se indica que se hace referencia a un editor
de formatos gif para visualizar imágenes será:

<!NOTATION gif SYSTEM "gifEditor.exe">

Para asociar una entidad externa no analizada a esta notación basta declarar dicha entidad
del siguiente modo:

<!ENTITY dibujo SYSTEM "imagen.gif" NDATA gif>

Autoevaluación
Las notaciones permiten:

Establecer el modo en el que se ha de estructurar un fichero XML.

Determinar cuál es la aplicación que ha de procesar un fichero binario


asociado a un fichero XML.

Asociar un fichero binario a un fichero XML.

Definir las etiquetas válidas en un fichero XML.


No es correcta pues sirve para determinar la aplicación que ha de tratar
un fichero binario.

Estupendo, continúa como hasta ahora.

No es la respuesta correcta porque eso es lo que hace una entidad.

Incorrecto, esa es la labor del DTD.

Solución

1. Incorrecto
2. Opción correcta
3. Incorrecto
4. Incorrecto
2.6.- Secciones condicionales
Permiten incluir
o ignorar partes
de la declaración
de un DTD. Para
ello se usan dos
tokens:

INCLUDE,
permite
que se vea
esa parte
de la
declaración
del DTD.
Su sintaxis
es:

<![INCLUDE [Dec

Geek&Poke - www.flickr.com (CC BY-ND)

Por ejemplo:

<![INCLUDE [ <!ELEMENT nombre (#PCDATA)>] ] >

IGNORE, permite ocultar esa sección de declaraciones dentro del DTD. La forma de
uso es:

<![IGNORE [Declaraciones ocultas] ] >

Por ejemplo:

<![IGNORE [<!ELEMENT clave (#PCDATA)>] ] >

Autoevaluación
Las sentencias condicionales permiten definir unos elementos u otros
dentro del fichero XML en función de una determinada condición.

Verdadero.

Falso.

Será mejor que leas de nuevo el apartado.

Muy bien. Has captado la idea...

Solución

1. Incorrecto
2. Opción correcta
3.- XML Schema

Caso práctico
Félix, quien considera que la normalización de los documentos XML que
manejan en la empresa va a ser un duro trabajo para María, él y otros
trabajadores inexpertos, plantea la posibilidad de que se encargue de ello
algún trabajador de la consultoría informática que dirige Juan.

Al final se va a encargar de ello Marina. Les explica que, en lugar de trabajar


con DTD's le parece mejor hacerlo con un lenguaje XML llamado XML
Schema, el cual tiene, entre otras, la ventaja de permitir definir el tipo de
datos de cada uno de los componentes de cada documento.

Los DTD permiten


diseñar un
vocabulario para
ficheros XML, pero,
¿qué sucede
cuando los valores
de los elementos y
atributos de esos
ficheros han de
corresponder a
datos de un tipo
determinado, o
cumplir
determinadas
restricciones que
no pueden
reflejarse en los
DTD? Para ello se
definen XML
Schemas.
psd - www.flickr.com (CC BY)
¿También se
definen en ficheros
planos? Si, ya que son documentos XML, pero en este caso la extensión de los archivos es
xsd, motivo por el cual también se les denomina documentos XSD.

Los elementos XML que se utilizan para generar un esquema han de pertenecer al espacio
de nombre XML Schema, que es: http://www.w3.org/2001/XMLSchema.

El ejemplar de estos ficheros es <xs:schema>, contiene declaraciones para todos los


elementos y atributos que puedan aparecer en un documento XML asociado válido. Los
elementos hijos inmediatos de este ejemplar son <xs:element> que nos permiten crear
globalmente un elemento. Esto significa que el elemento creado puede ser el ejemplar del
documento XML asociado.
EJEMPLO

Vamos a crear un esquema correspondiente al siguiente documento XML:

1 <?xml version="1.0" encoding="UTF-8" standalone="yes?>


2 <!DOCTYPE alumno>
3 <alumno edad="22">Olga Velarde Cobo</alumno>

Un XML Schema que podría ajustarse sería:

1 < ?xml version="1.0" encoding="UTF-8" standalone="yes"?>


2 <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
3 <xs:element name="alumno" type="xs:string"/>
4 </xs:schema>

Debes conocer
En este primer enlace encontrarás los fundamentos del estándar XML
Schema.

XML Schema Fundamentos


3.1.- Tipos de datos

Son los distintos valores que puede tomar el atributo type


cuando se declara un elemento o un atributo y representan
el tipo de dato que tendrá el elemento o atributo asociado a
ese type en el documento XML.

Algunos de estos valores predefinidos son:


floresyplantas.net (CC BY-NC-SA)

string, se corresponde con una cadena de


caracteres UNICODE.
boolean, representa valores lógicos, es decir que solo pueden tomar dos valores,
true o false.
integer, número entero positivo o negativo.
positiveInteger, número entero positivo.
negativeInteger, número entero negativo.
decimal, número decimal, por ejemplo, 8,97.
dateTime, representa una fecha y hora absolutas.
duration, representa una duración de tiempo expresado en años, meses, días,
horas, minutos segundos. El formato utilizado es: PnYnMnDTnHnMnS. Por ejemplo
para representar una duración de 2 años, 4meses, 3 días, 5 horas, 6 minutos y 10
segundos habría que poner: P2Y4M3DT5H6M7S. Se pueden omitir los valores nulos,
luego una duración de 2 años será P2Y. Para indicar una duración negativa se pone
un signo – precediendo a la P.
time, hora en el formato hh:mm:ss.
date, fecha en formato CCYY-MM-DD.
gYearMonth, representa un mes de un año determinado mediante el formato CCYY-
MM.
gYear, indica un año gregoriano, el formato usado es CCYY.
gMothDay, representa un día de un mes mediante el formato –MM-DD.
gDay, indica el ordinal del día del mes mediante el formato –DD, es decir el 4º día del
mes será –04.
gMonth, representa el mes mediante el formato –MM. Por ejemplo, febrero es –02.
anyURI, representa una URI.
language, representa los identificadores de lenguaje, sus valores están definidos en
RFC 1766.
ID, IDREF, ENTITY, NOTATION, MTOKEN. Representan lo mismo que en los
DTD

Debes conocer
En este enlace encontrarás los tipos de datos admitidos por el estándar.

https://www.w3.org/TR/xmlschema-2/
Autoevaluación
¿Cuál de los siguientes tipos no hace referencia a un dato de tiempo?

dateTime.

duration.

gDayMonth.

gMonthDay.

Incorrecta, porque la duración es una medida de tiempo.

Incorrecta, porque la duración es una medida de tiempo.

Correcta, muy bien.

No es correcta ya que este tipo corresponde a un día de un mes de un


año cualquiera.

Solución

1. Incorrecto
2. Incorrecto
3. Opción correcta
4. Incorrecto
3.1.1.- Facetas de los tipos de datos
¿Cuáles son las restricciones que podemos aplicar sobre los valores de los datos de un
elemento o atributo?
Están definidos por las facetas, que solo pueden aplicarse sobre tipos simples utilizando el
elemento xs:restriction. Se expresan como un elemento dentro de una restricción y se
pueden combinar para lograr restringir más el valor del elemento. Son, entre otros:

length, minlength, maxlentgh: Longitud del tipo de datos.


enumeration: Restringe a un determinado conjunto de valores.
whitespace: Define el tratamiento de espacios (preserve/replace, collapse).
(max/min)(In/Ex)clusive: Límites superiores/inferiores del tipo de datos.
Cuando son Inclusive el valor que se determine es parte del conjunto de valores
válidos para el dato, mientras que cuando se utiliza Exclusive, el valor dado no
pertenece al conjunto de valores válidos.
totalDigits, fractionDigits: número de dígitos totales y decimales de un
número decimal.
pattern: Permite construir máscaras que han de cumplir los datos de un elemento.
La siguiente tabla muestra algunos de los caracteres que tienen un significado
especial para la generación de las máscaras.

Elementos para hacer patrones.

Patrón Significado

[A-Z a-z] Letra.

[A-Z] Letra mayúscula.

[a-z] Letra minúscula.

[0-9] Dígitos decimales.

\D Cualquier carácter excepto un dígito decimal.

(A) Cadena que coincide con A.

A | B Cadena que es igual a la cadena A o a la B.

Cadena que es la concatenación de las cadenas A y


AB
B.

A? Cero o una vez la cadena A.

A+ Una o más veces la cadena A.

A* Cero o más veces la cadena A.

[abcd] Alguno de los caracteres que están entre corchetes.

[^abcd] Cualquier carácter que no esté entre corchetes.


\t Tabulación.
3.1.2.- Facetas: ejercicios

1.- Creación de una cadena de texto con una longitud máxima de 9 caracteres y dos
valores posibles.
2.- Creación de un elemento en el que se respetan los espacios tal y como se han
introducido.
3.- Creación de un elemento calificaciones de dos dígitos cuyo valor es un número
entero comprendido entre 1 y 10, ambos inclusive.
4.- Creación de la máscara de un DNI mediante pattern.
3.1.3.- Facetas: soluciones a los ejercicios

Ejercicio Resuelto 1
1.- Creación de una cadena de texto con una longitud máxima de 9
caracteres y dos valores posibles.

Mostrar retroalimentación

1 <xs:simpleType name="estado">
2 <xs:restriction base="xs:string">
3 <xs:maxLength value="9"/>
4 <xs:enumeration value="conectado"/>
5 <xs:enumeration value="ocupado"/>
6 </xs:restriction>
7 </xs:simpleType>

Ejercicio Resuelto

Ejercicio Resuelto 2
2.- Creación de un elemento en el que se respetan los espacios tal y
como se han introducido.0

Mostrar retroalimentación

1 <xs:simpleType name="nombre">
2 <xs:restriction base="xs:string">
3 <xs:whitespace value="preserve"/>
4 </xs:restriction>
5 </xs:simpleType>

Ejercicio Resuelto 3
3.- Creación de un elemento calificaciones de dos dígitos cuyo valor es
un número entero comprendido entre 1 y 10, ambos inclusive.

Mostrar retroalimentación

1 <xs:simpleType name="calificaciones">
2 <xs:restriction base="xs:integer">
3 <xs:totalDigits value="2"/>
4 <xs:minExclusive value="0"/>
5 <xs:maxInclusive value="10"/>
6 </xs:restriction>
7 </xs:simpleType>

Ejercicio Resuelto 4
4.- Creación de la máscara de un DNI mediante pattern.

Mostrar retroalimentación

1 <xs:simpleType name="dni">
2 <xs:restriction base="xs:string">
3 <xs:pattern value="[0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0
4 </xs:restriction>
5 </xs:simpleType>
3.2.- Elementos del lenguaje
A continuación se listan los más usados:

Esquema, xs:schema, contiene la definición del esquema.


Tipos complejos, xs:complexType, define tipos complejos.
Tipos simples, xs:simpleType, permite definir un tipo simple restringiendo sus
valores.
Restricciones, xs:restriction, permite establecer una restricción sobre un
elemento de tipo base.
Agrupaciones, xs:group, permite nombrar agrupaciones de elementos y de atributos
para hacer referencia a ellas.
Secuencias, xs:secuence, permite construir elementos complejos mediante la
enumeración de los que les forman.
Alternativa, xs:choice, representa alternativas, hay que tener en cuenta que es una
o-exclusiva.
Contenido mixto, definido dando valor true al atributo mixed del
elemento xs:complexType, permite mezclar texto con elementos.
Secuencias no ordenadas, xs:all, representa a todos los elementos en cualquier
orden.

Autoevaluación
Para hacer un elemento complejo formado por un listado de elementos
en los que importa el orden hay que usar el elemento:

<xs:choice>.

<xs:group>.

<xs:all>.

<xs:secuence>.

No es correcta porque este elemento permite elegir entre elementos.

Incorrecta, porque este elemento permite hacer agrupaciones de


elementos y atributos para hacer referencia a ellos dentro del esquema.

No es la respuesta correcta porque no respeta el orden de los


elementos.

¡Genial! Ánimo, que está muy bien.


Solución

1. Incorrecto
2. Incorrecto
3. Incorrecto
4. Opción correcta

Debes conocer
Este enlace te permitirá consultar las estructuras del estándar XML Schema.

XML Schema Estructuras


3.2.1.- Ejemplo de esquema

Ejercicio Resuelto
Define un esquema correspondiente a un documento XML para estructurar la
información personal sobre los alumnos de un centro educativo.

Mostrar retroalimentación

1 <?xml version="1.0" encoding="ISO-8859-1"?>


2 <xs:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
3 <!-- elemento raíz -->
4 <xs:element name="alumnos" type="datosAlum"/>
5 <!-- Definicion del tipo datosAlum -->
6 <xs:complexType name="datosAlum">
7 <xs:sequence>
8 <xs:element name="alumno" type="datos" minOccurs="1" max
9 </xs:sequence>
10 </xs:complexType>
11
12 <!-- Definicion del tipo datos -->
13 <xs:complexType name="datos">
14 <xs:sequence>
15 <xs:element name="nombre" type="xs:string" minOccurs="1
16 <xs:element name="apellidos" type="xs:string" minOccurs=
17 <xs:element name="direccion" type="datosDireccion" minOc
18 <xs:element name="contactar" type="datosContactar" minOc
19 </xs:sequence>
20 <!-- Atributos del elemento usuario -->
21 <xs:attribute name="id" type="xs:string"/>
22 </xs:complexType>
23 <xs:complexType name="datosDireccion">
24 <xs:sequence>
25 <xs:element name="domicilio" type="xs:string" minOccurs=
26 <xs:element name="codigo_postal" minOccurs="0" maxOccurs
27 <xs:complexType>
28 <xs:attribute name="cp" type="xsd:string"/>
29 </xs:complexType>
30 </xs:element>
31 <xs:element name="localidad" type="xs:string" minOccurs=
32 <xs:element name="provincia" type="xs:string" minOccurs=
33 </xs:sequence>
34 </xs:complexType>
35 <xs:complexType name="datosContactar">
36 <xs:sequence>
37 <xs:element name="telf_casa" type="xs:string" minOccurs=
38 <xs:element name="telf_movil" type="xs:string" minOccurs
39 <xs:element name="telf_trabajo" type="xs:string" minOccu
40 <xs:element name="email" minOccurs="0" maxOccurs="unboun
41 <xs:complexType>
42 <xs:attribute name="href" type="xs:string"/>
43 </xs:complexType>
44 </xs:element>
45 </xs:sequence>
46 </xs:complexType>
47 </xs:schema>
3.3.- Definición de tipos de datos XML
Schema
En los DTD se diferencia entre los elementos terminales y
los no terminales ¿en este caso también?
Si, este lenguaje permite trabajar tanto con datos simples
como con estructuras de datos complejos, es decir,
compuestos por el anidamiento de otros datos simples o
compuestos.

Tipos de datos simples. Estos datos se suelen


definir para hacer una restricción sobre un tipo de
datos XSD ya definido y establece el rango de Ministerio de Educación (Uso Educativo-nc)
valores que puede tomar. También se pueden crear
tipos de datos simples basados en listas de valores
utilizando el atributo derivedBy de simpleType.
Tipos de datos compuestos. El elemento xsd:complexType permite definir
estructuras complejas de datos. Su contenido son las declaraciones de elementos y
atributos, o referencias a elementos y atributos declarados de forma global. Para
determinar el orden en que estos elementos aparecen en el documento XML se utiliza
el propio elemento.
3.3.1.- Definición de tipos de datos:
ejercicios

1.- Creación de un elemento simple de nombre edad que representa la edad de


un alumno de la ESO, por tanto su rango está entre los 12 y los 18 años.
2.- Creación de una lista con los días de la semana en letras.
3.- Creación de un elemento compuesto de nombre alumno, formado por los
elementos nombre, apellidos, web personal.
3.3.2.- Definición de tipos de datos:
soluciones

Ejercicio Resuelto 1
1.- Creación de un elemento simple de nombre edad que representa la edad
de un alumno de la ESO, por tanto su rango está entre los 12 y los 18 años.

Mostrar retroalimentación

1 <xs:element name="edad">
2 <xs:simpleType>
3 <xs:restriction base="xs:positiveInteger">
4 <xs:minInclusive value="12"/>
5 <xs:maxInclusive value="18"/>
6 </xs:restriction>
7 </xs:simpleType>
8 </xs:element>

Ejercicio Resuelto 2
2.- Creación de una lista con los días de la semana en letras.

Mostrar retroalimentación

1 <xs:simpleType name="dia_semana" base="xs:string" derivedBy="list"/>


2 <dia_semana>Lunes Martes Miercoles Jueves Viernes Sabado Domingo
3 </xs:simpleType>
Ejercicio Resuelto 3
3. Creación de un elemento compuesto de nombre alumno, formado por
los elementos nombre, apellidos, web personal.

Mostrar retroalimentación

1 <xs:complexType name="alumno">
2 <xs:secuence>
3 <xs:element name="nombre" type="xs:string" minOccurs="1" max
4 <xs:element name="apellidos" type="xs:string" minOccurs="1"
5 <xs:element name="web" type="xs:string" minOccurs="0" maxOcc
6 <xs:complexType>
7 <xs:attribute name="href" type="xs:string"/>
8 </xs:complexType>
9 </xs:element>
10 <xs:secuence>
11 </xs:complexType>
3.4.- Asociación con documentos XML
Una vez que tenemos creado el fichero XSD ¿cómo lo asociamos a un fichero XML?

El modo de asociar un esquema a un documento XML es un espacio de nombres al


ejemplar del documento, donde se indica la ruta de localización de los ficheros esquema
mediante su URI, precedida del prefijo " xsi:".

Ejercicio Resuelto
Dado el ejemplo de esquema de la sección 3.2.1. construye un documento
XML que cumpla las especificaciones definidas en el archivo XML Schema.

Mostrar retroalimentación

1 <?xml version="1.0" encoding="ISO-8859-1"? >


2 <alumnos xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:S
3 <alumno>
4 <nombre>Jose Ramón</nombre>
5 <apellidos>García González</apellidos>
6 <direccion>
7 <domicilio>El Pez, 12</domicilio>
8 <codigo_postal>85620</código_postal>
9 <localidad>Suances</localidad>
10 <provincia>Cantabria</provincia>
11 </direccion>
12 <contactar>
13 <telf._casa>985623165</telf._casa>
14 <telf._movil>611233544</telf._movil>
15 <telf._trabajo>965847536</telf._trabajo>
16 <email>[email protected]</email>
17 </contactar>
18 </alumno>
19 <alumno>
20 <nombre>Carlos</nombre>
21 <apellidos>López Pérez</apellidos>
22 <direccion>
23 <domicilio>El Cangrejo, 25</domicilio>
24 <codigo_postal>86290</código_postal>
25 <localidad>Santillana</localidad>
26 <provincia>Cantabria</provincia>
27 </direccion>
28 <contactar>
29 <telf._casa>931132565</telf._casa>
30 <telf._movil>623863544</telf._movil>
31 <telf._trabajo>984657536</telf._trabajo>
32 <email>[email protected]</email>
33 </contactar>
34 </alumno>
35 </alumnos>

Autoevaluación
La asociación de un documento XML a un esquema se hace en:

El prólogo del documento XML.

La definición de tipo de datos.

El ejemplar.

En una sección llamada declaración del esquema que se sitúa entre el


prólogo y el ejemplar.

No es correcta porque el prólogo de un documento XML define la


versión, el código y la independencia del documento para su
interpretación.

Incorrecta, porque este apartado sirve para incorporar los DTD.

Muy bien, correcto.

Incorrecto, este apartado no existe.

Solución

1. Incorrecto
2. Incorrecto
3. Opción correcta
4. Incorrecto
3.5.- Documentación del esquema
Una vez que hemos visto como crear un esquema vamos a ver el
modo de incorporar cierta documentación (quién es el autor,
limitaciones de derechos de autor, utilidad del esquema, etc.) al
mismo.

Podemos pensar que un método para añadir esta información es


utilizar comentarios. El problema es que los analizadores no
garantizan que los comentarios no se modifiquen al procesar los
documentos y por tanto, que los datos añadidos no se pierdan en
algún proceso de transformación del documento.

En lugar de usar los comentarios, XML Schema tiene definido un soyignatius - www.flickr.com (CC
elemento xs:annotation que permite guardar información BY-NC-ND)

adicional. Este elemento a su vez puede contener una


combinación de otros dos que son:

xs:documentation, además de contener elementos de esquema puede contener


elementos XML bien estructurados.
También permite determinar el idioma del documento mediante el atributo xml:lang.
xs:appinfo, se diferencia muy poco del elemento anterior, aunque lo que se
pretendió inicialmente era que xs:documentation fuese legible para los usuarios y
que xs:appinfo guardase información para los programas de software.
También es usado para generar una ayuda contextual para cada elemento declarado
en el esquema.

EJEMPLO

Ejemplo de documentación de un esquema.

1 <xs:schema xmlns:xsi=http://www.w3.org/2001/XMLSchema>
2 <xs:annotation>
3 <xs:documentation xml:lang ="es-es">
4 Materiales para formación e-Learning
5 <modulo>Lenguajes de marcas y sistemas de gestión de información.<modulo>
6 <fecha_creación> 2011<fecha_creacion>
7 <autor> Nuky La Bruji</autor>
8 </xs:documentation>
9 </xs:annotation>
10 <xs:element name="lmsgi" type=xs:string>
11 <xs:annotation>
12 <xs:appinfo>
13 <texto_de_ayuda>Se debe de introducir el nombre completo del tema</texto
14 <xs:appinfo>
15 </xs:annotation>
16 </xs:element>
17 </xs:schema>
Autoevaluación
La mejor solución para documentar un esquema es usar los
comentarios:

Verdadero.

Falso.

No es correcta. Aunque pueden usarse, no es la mejor opción porque no


se puede garantizar que no se pierdan en alguna transformación del
fichero.

Genial, correcto.

Solución

1. Incorrecto
2. Opción correcta
4.- Herramientas de creación y validación

Caso práctico
Antes de comenzar a trabajar con la normalización de los documentos que
utiliza la empresa de María y Félix. Marina le presenta a Juan un informe
sobre las diferentes herramientas que pueden facilitarles el trabajo de edición
y validación de los documentos XSD y XML.

Juan hará un estudio de costes y escogerá alguna de ellas para realizar el


trabajo.

Igual que hasta ahora, para crear y validar los documentos XML y
los esquemas basta con un editor de texto plano y un navegador.
¿Pero no hay ninguna herramienta que nos facilite el trabajo? Pues
sí, existen aplicaciones que permiten al usuario visualizar, validar y
editar documentos en el lenguaje XML. Algunos de estos productos
son:

Editix XML Editor (Versiones open source y comercial).


Microsoft Core XML Services (MSXML) (Gratuito).
XMLFox (freeware).
Altova XML Spy Edición Estándar (comercial).
Editor XML xmlBlueprint. (comercial) xornalcerto - www.flickr.com (CC
Stylus Studio 2001 (comercial). BY)

Oxygen XML Editor (comercial).


Exchanger XML Editor (comercial)
XML copy editor (open source).
5.- Para saber más

Para saber más


Información adicional:

Fundamentos de XML Schema


Estructuras de XML Schema
w3schools - Tutorial XML Schema
w3schools - Tutorial DTD
Google Sites - Todo XML (teoría y ejercicios resueltos)
Abrirllave.com Tutorial de XML Schema

También podría gustarte