Partage de Données Biomédicales Sur Le Web Sémantique
Partage de Données Biomédicales Sur Le Web Sémantique
Partage de Données Biomédicales Sur Le Web Sémantique
sémantique
Rémy Choquet1, Douglas Teodoro3, Giovanni Mels2, Ariane Assele1, Emilie
Pasche3, Patrick Ruch3, Christian Lovis3, Marie-Christine Jaulent1
1
INSERM UMRS872 EQ.20, Université Pierre et Marie Curie, 75006 Paris
{remy.choquet, marie-christine.jaulent,
ariane.assele}@crc.jussieu.fr
2
AGFA Healthcare, Ghent, Belgium
[email protected]
3
SIM, Université de Genève et Hôpitaux Universitaires de Genève, Suisse
{douglas.teodoro, patrick.ruch, emilie.pasche}@sim.hcuge.ch
1 Introduction
Le coût de stockage de l’information étant toujours plus réduit, nous avons connu
au cours des dix dernières années une explosion de la volumétrie des données
biomédicales disponibles (Galperin, 2008). Les bases de données couvrent
aujourd’hui une part de plus en plus importante de l’information biomédicale : les
données administratives des patients, les examens biologiques, les diagnostiques
cliniques, les images, ou bien encore les données génétiques. Cependant, l’utilisation
secondaire de cette masse d’information afin d’améliorer le soin et la sécurité du
patient est encore limitée. Le développement d’un système qui puisse intégrer des
données biomédicales à travers différents pays pose plusieurs problématiques : le
manque de standards techniques (Sheth & Larson, 1990) ; la diversité de la
sémantique des sources de données (Karasavvas et al., 2004) ; la gestion de la qualité
de données (Choquet et al., 2010) ; et enfin la sécurité et la confidentialité des
données patients qui doivent être préservées (Iavindrasana et al., 2007).
La littérature propose trois approches afin de répondre à une partie des
problématiques soulevées ci-dessus : l’approche entrepôt de données comme dans les
projets BioWarehouse (Lee et al., 2006) et BioDWH (Töpel et al., 2008) ; l’approche
de médiation (ou d’intégration par vues) dans les projets HEMSYS (Pillai et al.,
1987) et TAMBIS (Goble et al., 2001) ; enfin l’approche d’intégration par lien (ou
WSM 2010
dite de mashup) dans les projets SRS (Etzold & Argos, 1993) et Integr8 (Kersey et
al., 2005).
Toutes ces approches proposent des méthodes et des techniques pour résoudre des
problématiques liées à l’accès à l’information en fonction de son lieu, mais pas
nécessairement en fonction du contenu informationnel des données, à savoir de leur
sémantique. La problématique de l’intégration de données grâce à la sémantique se
pose dans un contexte plus général d’intégration qui est divisé en six couches dans
Tolk (2006). Cependant, dans le cadre de l’intégration de données, nous nous
limiterons aux trois premières couches d’interopérabilité : technique (réseau, couche
d’accès logique aux données, APIs), syntaxique (type de données, terminologie) et
sémantique (sens). Dans le domaine de la santé, l’interopérabilité sémantique de
données biomédicales a été expérimentée dans le projet caBIG au travers de leur
méthodologie semCDI (Shironoshita et al., 2008). Leur approche n’a pas encore pu
être validée correctement à cause d’un manque de formalisation de la connaissance de
leur domaine (ontologies de domaine).
Notre travail s’effectue dans le contexte d’intégration de données biomédicales
provenant d’un réseau d’hôpitaux européens dans le cadre du projet DebugIT1 (Lovis
et al., 2008) (Detecting and Eliminating Bacteria Using Information Technology). Ce
projet vise à intégrer des données cliniques et opérationnelles directement depuis les
dossiers patients afin de proposer une vue globale de celles-ci à des fins d’analyse
(datamining) et d’aide à la décision dans le domaine de l’antibiorésistance. L’accès à
ces données distribuées et hétérogènes doit, pour des raisons de confidentialité des
données, se faire de manière virtuelle et non matérialisée. Les données doivent donc
être intégrées en temps réel.
Dans le domaine de la santé, l’utilisation grandissante de terminologies ou bien
d’ontologies dans les systèmes de dossier patient ou de bases de données de
recherche, nous a motivé pour valider l’utilisation des méthodologies et des
technologies issues de la communauté du web sémantique. En particulier, la difficulté
de représentation des données et des vocabulaires biomédicaux, pourrait mettre en
exergue des limites dans l’utilisation des outils du web sémantique. C’est pourquoi
nous proposons une méthode d’intégration pour le web sémantique en 3 couches
(technique, syntaxique, sémantique) que nous expérimentons grâce à des outils sur
des données biomédicales issues des systèmes opérationnels d’hôpitaux européens.
Dans la section suivante, nous présentons la méthode d’intégration proposée et
validée dans le développement de la plateforme d’intégration de DebugIT. Nous
présentons les résultats obtenus en section 3 et enfin, nous concluons en section 4.
1
http://www.debugit.eu
Partage de données biomédicales sur le web sémantique
2
Clinical Data Repository
WSM 2010
3
Entité Attribut Valeur
Partage de données biomédicales sur le web sémantique
Un processus ETL4 est mis en œuvre entre le SIH et le CDR. Des agents
d’extraction exécutent les tâches de chargement de données depuis le SIH, puis par
des processus de transformation de modèle, chargent dans le CDR local. A cette
étape, les sources de données DebugIT sont techniquement normalisées. La suite
Talend5 OpenStudio est utilisée pour le développement des agents d’extraction de
données. Elle permet une représentation semi-automatique de la source de données
(SIH) ainsi que, grâce à des modules inclus, de s’affranchir des problématiques
d’accès à diverses sources de données (SGBD, XML, csv, etc.). De plus, elle permet
une mise en œuvre plus aisée de la transformation de modèle SIH-CDR grâce à une
interface utilisateur. Les CDR locaux sont alors mis en œuvre derrière la zone
démilitarisée du SI de l’hôpital (DMZ).
4
Extract Transform Load – Extraction Transformation Chargement
5
www.talend.com
WSM 2010
terminologie respective par les agents. Pour d’autres, comme les pathogènes ou les
antibiotiques, des services tiers sont utilisés comme sources de normalisation. Dans le
cas ou un concept peut prendre peu de valeurs différentes, par exemple le sexe, alors
les valeurs sont liées manuellement au concept terminologique référent. Pour d’autres,
comme par exemple les bactéries, un algorithme de fouille de texte simple a été mis
en œuvre afin d’annoter et de normaliser les termes. Concernant les antibiotiques,
l’algorithme tente d’abord de comparer les chaines de caractère avec WHO-ATC, si
aucune correspondance n’est trouvé, alors une lettre sera substituée, et ainsi de suite.
6
OpenLink Software, “Virtuoso: Universal Server Platform for the Real-Time Enterprise.
http://www.openlinksw.com/virtuoso/
7
The D2RQ Platform - Treating Non-RDF Databases as Virtual RDF Graphs, http://www4.wiwiss.fu-
berlin.de/bizer/d2rq/
Partage de données biomédicales sur le web sémantique
3 Résultats
Les quatre sites ont été intégrés suivant les trois couches d’interopérabilité
définies dans notre méthodologie.
L’interface de mapping fournie par Talend ainsi que les routines de verticalisation
du modèle de données (relationnel vers EAV) ont été efficientes pour la partie
technique. La table 2 représente un extrait de la table EAV d’un CDR. L’EAV
apporte une grande flexibilité vis à vis du modèle de données. En effet, si le modèle
vient être étendu, il n’est pas nécessaire de modifier le schéma, et donc, d’arrêter le
système. Par exemple, rajouter un triplet “culture#5579709, sample_type_location,
urine“ rajoute un concept sample_type_location et la valeur urine à la culture
#5579709 sans avoir à modifier la table (ALTER TABLE).
L’intégration syntaxique est effectuée afin de répondre aux questions d’experts
posées en section 2.1. Les agents normalisateurs pour les domaines des antibiotiques
et des bactéries peuvent être partagés entre les CDR. Cependant, certaines spécificités
encouragent chaque partenaire à développer ses propres agents normalisateurs. La
table 3 représente le pourcentage de normalisation de chaque site source en fonction
des objets du domaine.
Table 2. Extrait de données issues d’un modèle EAV pour la culture #5579709 de HUG
Table 4. Nombre d’enregistrements retournés pour l’exécution d’une requête SPARQL sur
4 endpoints.
Les résultats obtenus seront traités par des modules d’aide à la décision dans le
cadre du projet DebugIT. Sur la question concernant la sensibilité de la Trimethoprim
à la bactérie E.Coli trouvé dans des cas d’infection urinaires, les dataminers seront
capable, grâce aux résultats formalisés avec la DCO, de générer de nouvelles
connaissances non ambigües et pourront utiliser les mécanismes d’inférence et de
raisonnement propres aux graphes RDF.
Partage de données biomédicales sur le web sémantique
4 Discussion et conclusion
References
BIZER C. and Cyganiak R. (2007). D2RQ Lessons Learned. In: W3C Workshop on RDF
Access to Relational Databases, W3C Workshop on RDF Access to Relational Databases.
WSM 2010
BROEKSTRA J. et al. (2001) “Sesame: An Architecture for Storing and Querying RDF Data and
Schema Information”, http://www.cs.vu.nl/~frankh/postscript/MIT01.pdf
CHOQUET R. et al. (2009). Specifications of an Inter-Operability Platform for the integration and
exploitation of distributed clinical data. American Medical Informatics Association Annual
Symposium Proceedings.
CHOQUET R et al. (2010). The Information Quality Triangle: a methodology to assess Clinical
Information Quality. MEDINFO 2010.
ETZOLD T. and ARGOS P. (1993). SRS – an indexing and retrieval tool for flat file data
libraries. COMPUTER APPLICATIONS IN THE BIOSCIENCES 9, 49-57.
GALPERIN MY. (2008) The Molecular Biology Database Collection: 2008 update. Nucleic
Acids Research 36. D2–D4.
GOBLE C. A. et al. (2001). Transparent access to multiple bioinformatics information sources.
IBM SYSTEMS JOURNAL 40, 532-551.
IAVINDRASANA J. et al. (2007). Design of a Decentralized Reusable Research Database
Architecture to Support Data Acquisition in Large Research Projects. Stud Health Technol
Inform 129, 325-9.
KARASAVVAS KA et al. (2004). Bioinformatics integration and agent technology. Journal of
Biomedical Informatics 37, 205–219.
KERSEY P. et al. (2005). Integr8 and Genome Reviews: integrated views of complete genomes
and proteomes. NUCLEIC ACIDS RESEARCH 33, D297-D302.
LEE T. J. et al. (2006). BioWarehouse: a bioinformatics database warehouse toolkit. BMC
Bioinformatics 7, 170.
LOVIS C. et al. (2008). DebugIT for patient safety - improving the treatment with antibiotics
through multimedia data mining of heterogeneous clinical data. Stud Health Tech Inform 136
(2008), 641-6
NADKARNI P.M. et al. (1999) Organization of heterogeneous scientific data using the EAV/CR
representation, J Am Med Inform Assoc. Nov-Dec;6(6):478-93.
PILLAI, S. V. et al. (1987). Design issues and an architecture for a heterogenous multidatabase
system. Proceedings of the 15th ACM Computer Science Conference.
SCHOBER D. et al. (2010), The DebugIT Core Ontology: semantic integration of antibiotics
resistance patterns. MEDINFO 2010.
SCHULZ S. et al. (2006)., Towards an upper level ontology for molecular biology. American
Medical Informatics Association Annual Symposium Proceedings.
SHETH AP and LARSON JA. (1990). Federated Database Systems for Managing Distributed,
Heterogeneous and Autonomous Databases. ACM Computing Surveys 22, 183-236.
SHIRONOSHITA et al. (2008). semCDI: a query formulation for semantic data integration in
caBIG. Journal of the American Medical Informatics Association vol. 15 (4) pp. 559-568
TOLK A. (2006). What Comes After the Semantic Web - PADS Implications for the Dynamic
Web, 20th Workshop on Principles of Advanced and Distributed Simulation (PADS'06)
TÖPEL T. et al. (2008). BioDWH: A Data Warehouse Kit for Life Science Data Integration.
Journal of Integrative Bioinformatics 5, 93.