Inforsid 2008
Inforsid 2008
Inforsid 2008
net/publication/290526032
CITATIONS READS
0 68
2 authors, including:
Eric A. Leclercq
University of Burgundy
122 PUBLICATIONS 444 CITATIONS
SEE PROFILE
All content following this page was uploaded by Eric A. Leclercq on 13 June 2016.
RÉSUMÉ. Dans cet article, nous développons une approche sémantique pour permettre les ac-
cès à des sources de données réparties, autonomes et hétérogènes. L’approche des dataspaces
introduite récemment permet de proposer une abstraction de différentes sources. Nous propo-
sons d’utiliser les principes développés dans le cadre du web social et du web sémantique à
travers une sémantique multiniveaux afin de permettre un partage simple des données dans un
dataspace. Les niveaux de coopération reposent sur les notions de communauté d’usage et de
sémantique de domaine. Un exemple dans le domaine médical est développé.
ABSTRACT. In this paper, we develop an semantic approach to the abstractions on the data
sources distributed (data integration system). Introduced recently, approach of dataspaces
makes it possible to propose an abstraction on these different sources. We suggest to use prin-
ciples developed into semantic web and social web through a multilevel semantics in order to
allow a sharing of data in a dataspace. Levels are based on community of use and Semantic
Domain. An medical example is developed.
MOTS-CLÉS : dataspaces, gestion de données, environnement distribué, sémantique multiniveaux,
web socio-sémantique
KEYWORDS: dataspaces, data management, distributed environment, multilevel semantics, social
web, semantic web
1. Introduction
Dans cette section nous développons un panorama des méthodes d’accès au don-
nées distribuées selon deux axes : le premier concerne les évolutions des architectures
d’intégration, le second présente les aspects accès aux données dans le cadre des ap-
proches web sémantique et web social.
Le web sémantique et le web social sont deux visions du web qui se distinguent
sur les connaissances exploitées : les unes sont issues d’une communauté d’expert
(domaine métier spécifique) et les autres sont issues d’une communauté d’usage (les
utilisateurs). Le web social met l’utilisateur au centre du processus de publication et
d’échange d’informations et utilise le tagging pour annoter le contenu. Au contraire,
le web sémantique repose sur une sémantique délivrée par des métadonnées et des
ontologies.
Le web sémantique se base sur l’instauration de marqueurs sémantiques sur les
ressources du web qui serviront à expliciter le contenu de ses ressources. Les ontolo-
gies serviront à définir le vocabulaire de ces marqueurs. Une ontologie possède donc
une taxinomie et un ensemble de règles d’inférence conceptualisant un domaine de
connaissances particulier. Les ontologies sont souvent conçues dans une optique parti-
culière et sont souvent appréhendables que par leurs géniteurs (Mikroyannidis, 2007).
De plus, les ontologies requièrent des mises à jour constantes afin de correspondre
au mieux aux entités qu’elles représentent. De nombreuses ontologies relativement
massives ont été élaborées et sont disponibles pour une grande variété de domaines,
leurs exploitations requièrent souvent une connaissance très précise du domaine. Le
principal obstacle des ontologies réside dans le fait qu’elles représentent un point de
vue particulier d’experts sur un domaine et que leur utilisation est trop restrictive pour
un utilisateur quelconque. L’intéropérabilité dans les ontologies semble un enjeu cru-
cial et des travaux vont dans ce sens comme le mapping inter-ontologies ou encore la
fusion d’ontologies.
Le web social est initié avec l’arrivée des nouvelles applications du web et qui
permet d’accroître les moyens expressifs des utilisateurs, notamment grâce aux outils
collaboratifs. Le web social a pour but d’augmenter la richesse sémantique du web
actuel sans la complexité de mise en œuvre du web sémantique, mais cette approche
reste très limitée. L’apparition récente des folksonomies (Mathes, 2004) offre la pos-
sibilité aux utilisateurs d’indexer du contenu sur le web, librement, à l’inverse des
taxinomies et montre l’intérêt d’une approche d’indexation personnalisée et sans vé-
ritables contraintes pour les utilisateurs. Cependant, même si cette approche présente
des avantages au niveau de la souplesse et de l’adaptabilité, elle met en évidence des
faiblesses au niveau de la cohérence des tags utilisés. En effet, les tags peuvent être
mal interprétés en l’absence d’information contextuelle ou être sans signification par
absence de connaissances sur le domaine. Ainsi, le processus d’indexation ne repose
plus sur des concepts valides, mais sur des tags au sens incertain. Malgré cette limite
indéniable, les folksonomies mettent en évidence la possibilité de concevoir une ap-
proche d’un web participatif.
En combinant les bénéfices qu’apportent chacune de ces deux approches, nous pro-
posons un cadre, d’une part, qui favorise la constitution de partage de données ainsi
que l’utilisation aisée et libre d’annotation de contenu et, d’autre part, qui apporte une
formalisation à un domaine particulier.
Les dataspaces sont une solution de gestion uniforme de données distribuées et ils
se caractérisent par leur flexibilité et leur évolutivité. Le système de gestion d’un da-
taspace fournit des services destinés à assurer le contrôle, l’organisation, le stockage et
la recherche de données. Les fonctionnalités remplies par ce système sont extensibles
selon les nécessités des applications. Étant une méthode d’intégration, ils nécessitent
la mise en place d’un schéma virtuel et d’un schéma de mappings entre les sources
de données. Traditionnellement deux approches d’intégrations ont été proposées l’ap-
proche GaV (Global-as-Views), qui consiste à définir le schéma global en fonction des
schémas locaux de chaque source de données et l’approche LaV (Local-as-View), qui
se base sur la définition des schémas locaux des sources de données en fonction du
schéma global prédéfini. L’approche des dataspaces repose sur une intégration incré-
mentale au niveau des sources, par conséquent l’approche LaV répond pleinement aux
besoins d’évolutivité des dataspaces au niveau de la gestion des sources de données.
4.1. Description de notre approche
Dans une conception du web rapprochant web sémantique et web social, Mi-
kroyannidis (Mikroyannidis, 2007) suggère d’utiliser les folksonomies élaborées par
les utilisateurs du web pour construire et faire évoluer les ontologies et les métadon-
nées utiles au web sémantique. Dans (Rousset, 2004), l’auteur propose de faire évoluer
le web actuel par étapes successives en effectuant une annotation manuelle de docu-
ment basée sur une taxinomie, et en opérant des mappings entre les taxinomies afin
de pouvoir supporter un processus de recherche d’information. Les ontologies avec
leur formalisation métier peuvent apporter des mécanismes de contrôle pour des ap-
plications collaboratives. Ainsi, ces réflexions montrent que le web social et le web
sémantique sont complémentaires et que nous pouvons exploiter leurs qualités afin de
les transposer aux dataspaces.
Notre approche repose sur une ontologie, la coexistence de schémas (LaV), et des
mappings entre schéma et folksonomies. En nous basant sur ces principes pour les
dataspaces, nous envisageons des coopérations à deux niveaux, un niveau local qui
s’articule autour des folksonomies et un niveau du domaine qui s’appuie sur les on-
tologies de domaine afin de fournir une meilleure intéropérabilité sémantique. Chaque
source de données ou ensemble de sources, par l’intermédiaire de définition de map-
pings, est associée à une folksonomie vu comme une méthode d’indexation de contenu
établie par l’utilisateur. Pour palier au mieux les inconvénients lié à leur utilisation, les
tags de la folksonomie seront classifiés en extrayant des concepts généraux d’une on-
tologie. Donc tout nouveau tag sera classé selon des concepts préexistants.
Au niveau local, c’est-à-dire dans le cadre restreint d’une petite communauté
Folksonomie
LAV
sources LAV
es
sources
bal
glo
es
uêt
Req
LAV
Requêtes locales sources
Application 1
Folksonomie
mapping
s
LAV
ale
sources
Folksonomie
lob
sg
Application
Source 1 LAV
ête
sources
qu
Re
Source n
LAV
Requêtes locales sources
Application 2
Ontologie de
domaine
Folksonomie Folksonomie
s
les
LAV
lob
g lo
sg
sources
Source 1 Source n Source 1
s
ête
ête
Source n
qu
qu
Re
Re
Source 2
Source 2
LAV LAV
Requêtes locales sources Requêtes locales sources
Application 1 Application 3
Figure 2. Configuration pour une approche dans le cadre d’un domaine métier
Une source de données sera représenté par un schéma local et une folksonomie.
Le schéma local est le modèle de données orienté objet. Chaque objet est unique et
est défini par un ensemble d’opérations et de propriétés (attributs ou relations entre
les objets). Les termes de la folksonomie peuvent être soit des valeurs d’attributs d’un
objet, le nom d’un objet ou d’une relation entre deux objets.
Définition 1. Soit un ensemble de folksonomies F = {f1 , ...fn }. Une folksonomie
pseudo-classifiée f ∈ F peut-être représentée sous la forme d’un graphe arborescent,
et est définie comme un triplet hR, T, T Si où R est la racine, T un ensemble de tags
généraux et T S un ensemble de tags spécifiques. Un tag spécifique ts ∈ T S est
associé par une relation d’appartenance à un tag général t ∈ T , et sera noté {t : ts}
Figure 3. Exemple d’un graphe d’une folksonomie construite pour les médecins (com-
munauté d’usage)
trouver. Pour effectuer des recherches pertinentes et précises, les informations telles
que le nom du patient, la type d’examen pratiqué, des mots-clefs du diagnostique du
radiologue ou encore les parties du corps observées, etc. Par exemple, l’utilisation
du format EXIF (EXchangeable Image File) ou les métadonnées IPTC (Internatio-
nal Press and Telecommunications Council) plus orientées sémantique peuvent être
employées. Le service d’analyse médicale sauvegarde ses données dans une base de
données. Nous pouvons inclure les tags au niveau du tuple en associant un tag à une
valeur particulière du tuple considéré. Par exemple, chaque analyse mesure un certain
taux dans une unité particulière. Avec le taux enregistré, on incorpore l’unité de me-
sure en spécifiant par exemple 35 :mg/L. Le premier champ correspondrait à la donnée
et le suivant au champ du tag. Les figures 4 et 5 montrent la représentation de ces dif-
férentes sources de données (partie couche physique).
Des experts du domaine définissent une ontologie de domaine sur les différents
cancers au niveau abdominal. Cette ontologie sera limitée à la classification TNM du
cancer pancréatique. Trois concepts généraux tumeur (T), adénopathies régionales (N)
et métastases à distance (M) sont définis et des termes plus spécifiques sont identifiés
pour chaque concept selon cetains critères qualitatifs :
Figure 5. Illustration d’une coopération en environnement global
T : Tx (insuffisance des renseignements), T0 (absence de signes de tumeur primi-
tive), Tis (carcinome in situ), T1 (tumeur limitée au pancréas inférieur à 2cm),
T2 (tumeur limitée au pancréas supérieur à 2cm), T3 (tumeur touchant un ou
plusieurs des organes : duodénum, canal biliaire, tissu péripancréatique), T4
(tumeur touchant un ou plusieurs des organes : estomac, rate, côlon, vaisseaux
adjacents) ;
N : Nx (insuffisance des renseignements), N0 (absence de métastase ganglionnaire
régionale), N1 (prolifération des ganglions lymphatiques régionaux) ;
M : Mx (insuffisance des renseignements), M0 (absence de métastases à distance),
M1 (présence de métastases à distance).
D’autres critères peuvent référencer les stades d’évolution de la maladie selon cette
classification : stade I : T1-T2 N0 M0, stade II : T3-T4 N0 M0, stade III : quelquesoit
T, N1-N2 M0 et quelquesoient T et N, M1. Ces critères nous permettent d’apporter
les règles pour invalider les mappings incohérents par rapport à l’ontologie.
Au niveau local, deux médecins cancérologues collaborent pour traiter des pa-
tients communs (figure 4) en partageant des données annotées avec des termes d’une
folksonomie commune. Ce système permet de partager une sémantique commune.
Au niveau domaine constitué de différents services de l’hôpital, un médecin
effectue des travaux sur le cancer pancréatique et il recherche toutes les données en
rapport avec cette maladie spécifique pour faire un état des traitements appliqués.
L’interrogation des données, annotées par une folksonomie locale, se fait par l’inter-
médiaire d’un schéma global défini auquel est rattaché une folksonomie globale.
Illustrons les différentes formes de mappings évoquées dans la section 3.2
avec notre exemple de la figure 5. Soient Fg la folksonomie source du schéma
global et Fsi, avec D i=1..3, la folksonomie cible du schéma local de l source Si. E
La relation {gastrique : scanner}F g , {gastrique : scannerT AP }F s1 , v
indique que le tag spécifique scanner de Fg inclut tout type de scanner (ou
tomo-densitométrie). La scanner thoraco-abdomino-pelvienne est un exa-
men
D plus spécifique que la scanner plus généraliste. Une autre relation E
{gastrique : amincissement}F g , {gastrique : amaigrissement}F s2 , ≡
fait
D référence à un mapping basé sur la synonymie, alorsE qu’une autre relation
{gastrique : absence}F g , {gastrique : presence}F s3 , 6= symbolise un map-
ping basé sur l’antonymie.
Contrairement à d’autres approches qui utilisent l’ontologie pour opérer des
mappings, ou encore de classifier les termes d’une taxinomie, notre ontologie de
domaine commune à l’ensemble d’un domaine métier, dans notre cas l’hôpital, per-
mettra d’invalider les mappings qui seront incohérents avec le domaine. Par exemple,
la folksonomie du schéma global classe le tag "scanner TAP" dans le concept
"gastrique" alors que la folksonomie du schéma de la source S1 spécifie un tag
équivalent "tomo-densitométrie thoraco-abdomino-pelvienne" dans le concept "colo-
rectal". L’ontologie pourrait spécifier que ce type d’examen est réservé dans le cas
de
D la maladie "adénocarcinome gastrique", le mapping serait alors invalidé. La relationE
{gastrique : stadeIV T 0N 1M 0}F g , {gastrique : stadef inalT 3N 0M 1}F s1 , ≡
Figure 6. Illustration de mappings avec l’intégration d’une nouvelle source
est contraire à la règle de l’ontologie qui spécifie que le dernier stade quelquesoient
D N pour tout M1. On pourra le spécifier avec l’opérateur ¬ et la relation sera notée : E
T,
{gastrique : stadeIV T 0N 1M 0}F g , {gastrique : stadef inalT 3N 0M 1}F s1 , ≡: ¬
Quand une nouvelle source requiert à être intégrée dans un dataspace, des map-
pings inter-folksonomies sont réalisés semi-automatiquement entre la folksonomie
source et la folksonomie cible basées sur des relations de synonymie ou de similarité
terminologique. Des mappings supplémentaires seront établis incrémentalement
selon les besoins d’intégration ultérieurement. La figure 6 illustre l’arrivée d’une
nouvelle source à intégrer. Sa folksonomie est mise à disposition du schéma
global pour que des mappings puissent être réalisés avec sa folksonomie tels
D E que
{gastrique : inf lammationsestomac}F g , {gastrique : gastrites}F s2 , ≡ .
Une requête posée sur le schéma global spécifiée en SQL par exemple telle que
SELECT * FROM Maladie :cancer Mc WHERE Mc.symptomes='gastrites'
n’aurait aucun résultat pertinent sur les deux seules sources déjà intégrées si les
mappings n’avaient pas été générés au préalable sur la dernière source.
6. Conclusion et perspectives
7. Bibliographie
An Y., Borgida A., Miller R. J., Mylopoulos J., « A Semantic Approach to Discovering Schema
Mapping Expressions », ICDE, p. 206-215, 2007.
Arenas M., Kantere V., Kementsietsidis A., Kiringa I., Miller R., Mylopoulos J., « The Hyperion
Project : From Data Integration to Data Coordination », 2003.
Dittrich J.-P., Salles M. A. V., Kossmann D., Blunschi L., « iMeMex : escapes from the personal
information jungle », VLDB ’05 : Proceedings of the 31st international conference on Very
large data bases, VLDB Endowment, p. 1306-1309, 2005.
Dong X. L., Cai Y., , Halevy A., Liu J. M., Madhavan J., « Personal information manage-
ment with SEMEX », SIGMOD ’05 : Proceedings of the 2005 ACM SIGMOD international
conference on Management of data, ACM Press, New York, NY, USA, p. 921-923, 2005.
Franklin M., Halevy A., Maier D., « From databases to dataspaces : a new abstraction for
information management », SIGMOD Rec., vol. 34, n˚ 4, p. 27-33, December, 2005.
Geambasu R., Balazinska M., Gribble S. D., Levy H. M., « Homeviews : peer-to-peer middle-
ware for personal data sharing applications. », in , C. Y. Chan, , B. C. Ooi, , A. Zhou (eds),
SIGMOD Conference, ACM, p. 235-246, 2007.
Halevy A., Franklin M., Maier D., « Principles of dataspace systems », PODS ’06 : Proceedings
of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database
systems, ACM Press, New York, NY, USA, p. 1-9, 2006.
Jagatheesan A., Moore R., Paton N. W., Watson P., « Grid data management systems & ser-
vices », vldb’2003 : Proceedings of the 29th international conference on Very large data
bases, VLDB Endowment, p. 1150-1150, 2003.
Le Deuff O., « Folksonomies : Les usagers indexent le web », BBF, n˚ 4, p. 66-70, 2006.
Li G., Ooi B. C., Yu B., Zhou L., « Schema Mapping in P2P Networks Based on Classification
and Probing. », in , K. Ramamohanarao, , P. R. Krishna, , M. K. Mohania, , E. Nantajeewara-
wat (eds), DASFAA, vol. 4443 of Lecture Notes in Computer Science, Springer, p. 688-702,
2007.
Mathes A., « Folksonomies — Cooperative Classification and Communication Through Shared
Metadata », Computer Mediated Communication, 2004.
Mikroyannidis A., « Toward a Social Semantic Web », Computer, vol. 40, n˚ 11, p. 113-115,
2007.
Risch T., Koparanova M., Thide B., « Efficient query reformulation in peer data management
systems », Workshop on Distributed Data et Structures - WDAS-2002, March 20-23, 2002,
University Paris 9 Dauphine, 2002.
Rousset M.-C., « Small Can Be Beautiful in the Semantic Web », in , F. v. H. S. McIlraith,
D. Plexousakis (ed.), Third International Semantic Web Conference, vol. 3298, Springer
(LNCS), p. 6-16, 2004.
Tatarinov I., Halevy A., « Efficient query reformulation in peer data management systems »,
SIGMOD ’04 : Proceedings of the 2004 ACM SIGMOD international conference on Mana-
gement of data, ACM, New York, NY, USA, p. 539-550, 2004.
Tatarinov I., Ives Z., amd J., Halevy A., Suciu D., Dalvi N., Dong X., Kadiyaska Y., Miklau G.,
Mork P., « The Piazza Peer Data Management Project », 2003.
Tzitzikas Y., Meghini C., Spyratos N., « Taxonomy-Based Conceptual Modeling for Peer-to-
Peer Networks. », in , I.-Y. Song, , S. W. Liddle, , T. W. Ling, , P. Scheuermann (eds), ER,
vol. 2813 of Lecture Notes in Computer Science, Springer, p. 446-460, 2003.
Ullman J. D., « Information integration using logical views », Theor. Comput. Sci., vol. 239,
n˚ 2, p. 189-210, 2000.
Yao K.-T., Wagenbreth G., « Simulation Data Grid : Joint Experimentation Data Manage-
ment and Analysis », Interservice/Industry Training, Simulation, and Education Conference
(I/ITSEC), November 28 to December 1, at the Orange County Convention Center, Orlando,
FL, USA., 2005.