Edc 8604
Edc 8604
Edc 8604
Édition électronique
URL : http://journals.openedition.org/edc/8604
DOI : 10.4000/edc.8604
ISSN : 2101-0366
Éditeur
Université de Lille
Édition imprimée
Date de publication : 1 juin 2019
Pagination : 71-98
ISBN : 978-2-917562-21-5
ISSN : 1270-6841
Référence électronique
Hélène Prost et Joachim Schöpfel, « Les entrepôts de données en sciences de l’information et de la
communication (SIC). Une étude empirique », Études de communication [En ligne], 52 | 2019, mis en
ligne le 01 janvier 2021, consulté le 21 janvier 2021. URL : http://journals.openedition.org/edc/8604 ;
DOI : https://doi.org/10.4000/edc.8604
Hélène Prost
Joachim Schöpfel
Résumé / Abstract
des SIC ? Après une analyse concep- After a conceptual analysis of research
tuelle des données de recherche et data and warehouses, the article pres-
des entrepôts, l’article présente les ents the results of an empirical study
résultats d’une étude empirique à based on the Cat-OPIDoR and re3data
partir des répertoires Cat-OPIDoR et directories, with information about their
re3data, en particulier leurs contenus, contents, metadata, disciplinary dimen-
métadonnées, dimensions discipli- sions and geographic location. The
naires et localisation géographique. discussion focuses on three aspects:
La discussion porte sur trois aspects : certification and standardization; the
la certification et la normalisation ; la issue of management, archiving and/or
question de la gestion, de l’archivage dissemination of data; and the impact
et/ou la diffusion des données ; et l’im- of data management on the disciplinary
pact de la gestion des données sur community. By way of conclusion, the
la communauté des SIC. En guise de article offers some recommendations
conclusion, l’article propose quelques for the positioning of Information and
recommandations pour le positionne- Communication Sciences and for fu-
ment des SIC et quelques pistes pour ture research.
des recherches futures.
Keywords: research data, data
Mots-clés : données de re- repositories, open science, open ac-
cherche, entrepôts de données, cess, information and communication
science ouverte, libre accès, sciences sciences.
de l’information et de la communica-
tion.
73
1.
Un triple enjeu pour les SIC
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
l’Enseignement Supérieur, de la Recherche et de l’Innovation (MESRI). Outre
l’abandon du système des abonnements et le développement du Text & Data
Mining (TDM), le Plan d’action préconise à partir de 2019 la « généralisation
progressive, via un accompagnement, de la mise en place de plans de gestion
2 https://forum.ouvrirlascience.fr/.
3 https://www.rd-alliance.org/groups/rda-france.
4 Dont l’INRA, le CIRAD et Sciences Po Paris.
75
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
leurs pratiques en matière de gestion ? De quels outils disposent-elles ?
Quelle est leur stratégie par rapport à la politique de l’ouverture et du
partage des données de recherche ?
2.
Les données de recherche
comme objet scientifique
À ceci s’ajoute une très grande diversité qui a fait l’objet de nombreuses
typologies, hiérarchies et modèles. À partir d’une analyse des finalités et
procédures de la génération des données de recherche, le Research Informa-
tion Network (RIN, 2008) a établi cinq larges catégories transversales :
- données d’observation ;
- données d’expérimentation ;
77
- données de simulation ;
- données dérivées ;
- données de référence.
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
complexité des données sont à l’origine du modèle de données du European
Plate Observing System 5 qui distingue quatre niveaux (Bailo et Jeffery, 2014) :
5 EPOS https://www.epos-ip.org/.
6 https://www.re3data.org/.
78
3.
Les entrepôts comme dispositifs numériques
accès à long terme (pérenne) implique que les conditions d’accès soient clai-
rement explicitées.
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
Data Repositories in Information and Communication Sciences. An Empirical Study
Figure 2 : Quatre éléments constitutifs d’un entrepôt
de données (source : re3data)
4.
Méthodologie
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
- le wiki Cat OPIDoR9 (Optimisation du Partage et de l’Interopérabilité
des Données de la Recherche). Ce catalogue vise à recenser les services
français dans ce domaine et propose un référencement selon neuf caté-
L’étude met l’accent sur l’offre de service en France mais s’ouvre sur les
entrepôts d’autres pays. Cette approche permettra d’inclure davantage de
dispositifs, plus diversifiés. Cependant, cette approche a un inconvénient : le
terme des SIC n’existe qu’en France, ailleurs library science (ou library and infor-
mation sciences, LIS) et communication science sont le plus souvent séparés,
avec en plus l’existence d’un autre domaine, les media studies. La constitution
de l’échantillon tient compte de cette terminologie hétérogène.
5.
Résultats
Parmi les 166 services de données, Cat OPIDoR répertorie cinq services
dans le domaine « Ingénierie des systèmes et de la communication : Ingénierie
électrique, électronique, de la communication, optique et des systèmes », avec
certaines thématiques proches des SIC : citons par exemple le site Gestion et
diffusion des données Irstea, site conçu par une équipe transversale (profes-
sionnels de l’information scientifique et technique, désormais IST, informati-
ciens, juristes, chargé de valorisation), pour les chercheurs et toute personne
intervenant sur les données, en appui autour du cycle de vie des données ; le
site propose des actualités, des fiches pratiques et des outils12. Un autre site
est dédié au droit et à l’éthique dans les SHS, avec des contenus relatifs aux
pratiques informationnelles des chercheurs. Mais il s’agit d’un service d’infor-
mation sur la plate-forme Hypothèses.org, pas d’un entrepôt de données13. Dans
le domaine des SIC, on trouve les sites des URFIST mais là encore, il ne s’agit
Hélène Prost et Joachim Schöpfel
En fait, parmi les 44 entrepôts de données listés par Cat OPIDoR, avec
des fonctionnalités liées au stockage et à la conservation, mais également à
l’exposition et à la réutilisation des données, aucun site n’est explicitement
dédié aux SIC. En revanche, plusieurs entrepôts correspondent au type de
services génériques d’accueil et de diffusion de « données simples » ; ces
entrepôts permettent le dépôt de résultats issus de la recherche en SIC, tels
que MédiHAL sur la plate-forme HAL (pour les images scientifiques), NAKALA
de Huma-Num pour tout type de données, voire BeQuali de SciencesPo Paris
pour les enquêtes qualitatives.
12 https://donnees-recherche.irstea.fr/.
13 https://ethiquedroit.hypotheses.org/.
83
Site Description
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
sociales, naturelles et de l’information et
Center for International se spécialise dans la gestion de données
Earth Science et d’informations en ligne, l’intégration et
Information Network la formation de données spatiales et la re-
Finalement, 52 autres sites sont référencés dans les études des médias,
dont DARIAH-DE pour les humanités numériques, eLaborate de CLARIN-ERIC avec
des transcriptions et annotations de textes et la Phonothèque de la MMSH (Aix-
en-Provence) sur Huma-Num. Mais la plupart de ces sites mélangent plusieurs
domaines, dont les arts plastiques, la musique et le théâtre, sans qu’on puisse
parler d’une quelconque spécificité de SIC. Une remarque concernant HAL :
MédiHAL, créé en 2010, permet de déposer des données visuelles et sonores
(images fixes, vidéos et sons) ; à ce jour, il n’y a pas de données issues des SIC.
Quant à HAL, son positionnement comme entrepôt de codes sources dans le
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
cadre du projet Software Heritage, en collaboration avec l’INRIA, n’était pas
opérationnel au moment de l’étude ; il faudra dans les mois à venir sans doute
être attentif et vérifier si HAL devient un entrepôt générique sur le modèle de
5.2. Disciplinarité
L’indexation des sites sur re3data et Cat OPIDoR n’est pas totalement
fiable, cohérente ou exhaustive. Les disciplines sont indexées à des niveaux
de granularité variables, et, pour connaître le contenu réel ou la présence
éventuelle de données issues des SIC, il faut aller sur les sites et vérifier di-
rectement sur les serveurs.
Où sont hébergés les services pour accueillir, stocker et diffuser les don-
nées issues de la recherche en SIC ? Huit des 14 entrepôts en sciences de com-
86
Nous n’avons pas compté les entrepôts institutionnels (11 en France, plus
de 500 dans d’autres pays) qui, a priori, pourraient accueillir des données SIC
produites par les chercheurs des universités et des organismes de recherche
concernés, mais qui n’affichent pas explicitement les SIC parmi les domaines
couverts.
5.4. Contenus
En d’autres mots, la particularité des SIC semble être le fait que ses résultats
et, à un moindre degré, ses sources couvrent l’ensemble de la typologie des
données de recherche en SHS, mettant en exergue la transversalité des SIC,
et non pas leur spécificité ; ou plutôt, la spécificité des SIC, sous l’aspect des
données de recherche, réside dans la transversalité des sources et résultats.
Les catégories les plus représentatives sont les documents bureautiques (fichiers
texte, tableaux, etc.), des données statistiques, des textes structurés ou non
structurés (plein texte) et des données d’archives. Mais tout cela ne contribue
pas à un profil de données spécifique aux SIC, dont une particularité semble
être le fait d’utiliser et de produire une large panoplie de données, y compris
des données issues des bases de données (scientométrie) ou du web (analyse
des réseaux et des usages).
Faute d’outils appropriés pour réaliser des analyses sur l’ensemble des
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
sites, nous n’avons pas les moyens pour une estimation de la répartition des
jeux de données SIC dans les différents types d’entrepôts. De même, il est
impossible de fournir une idée générale de l’accessibilité des données, avec
différents degrés d’ouverture (en libre accès sans restriction, partagées avec une
5.5. Métadonnées
14 https://toolbox.google.com/datasetsearch.
15 Cf. la description sur le site de Force 11 https://www.force11.org/group/fair-
group/fairprinciples.
88
Ce qui est peut-être encore plus surprenant dans notre échantillon, c’est
l’absence quasi totale d’un recours à un ou plusieurs systèmes d’identifiants
Hélène Prost et Joachim Schöpfel
pérennes, comme par exemple le DOI, l’ORCID, le handle, etc. Seulement deux
des 14 entrepôts de l’échantillon appliquent un tel système (CIESIN avec le DOI,
TalkBank avec le handle). Un tel constat limite encore davantage la conformité
de ces sites avec les principes FAIR, ici en particulier avec la repérabilité et
l’accessibilité des données de recherche.
Deux autres observations : seulement une minorité des sites utilise des
licences ouvertes pour la diffusion des données (Creative Commons, Open Data
Commons, Open Government License), et aucun n’affiche une API conforme
au protocole OAI-PMH.
6.
Discussion
L’objectif de notre analyse est de mieux comprendre la place et les op-
portunités des SIC dans le paysage émergent des entrepôts des données de
recherche. Il ne s’agit pas d’une cartographie exhaustive, dans la mesure où le
recensement des sites et l’étude de leurs caractéristiques s’appuie essentiel-
16 http://www.dcc.ac.uk/resources/metadata-standards.
89
lement sur les répertoires re3data et Cat OPIDoR, avec leurs richesses, mais
aussi leurs limites. Aussi, nous cantonnerons la discussion de nos résultats à
trois aspects, dont nous ferons une interprétation prudente.
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
qualité, afin de créer un « trustworthy environment » pour la conservation et le
partage des données de recherche. Il existe plusieurs catégories de certificats
ou de labels, certains pour les archives numériques en général (ISO 14641
pour les systèmes d’archivage électronique), d’autres pour des plates-formes
17 https://www.icsu-wds.org/services/certification.
18 https://www.datasealofapproval.org/en/.
19 https://www.coretrustseal.org/about/.
20 https://www.clarin.eu/content/assessment-procedure.
90
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
sur l’ordinateur privé ou sur leur ordinateur professionnel. 19 % des chercheurs
stockent « dans le cloud », alors que 8 % ont des données sur le serveur d’une
autre institution. En réseau, 12 % des répondants se tournent vers le serveur
de l’université. L’enjeu des entrepôts est lié au fait que certaines pratiques de
Dépôt des données : à l’exception de deux sites, le dépôt des données est
contrôlé et conditionné par l’affiliation institutionnelle ou par l’inscription au
service. Trois sites déclarent le dépôt comme « fermé » ; en d’autres termes,
l’auto-archivage de données par les chercheurs eux-mêmes n’est pas proposé,
le dépôt est réservé au personnel de l’hébergeur.
Toujours est-il que, comme mentionné plus haut, dans tous les cas de
figure, il faudra faire le lien avec les pratiques et usages des chercheurs concer-
nés, au lieu de comparer les fonctionnalités d’une manière abstraite. Ce qui peut
paraître dysfonctionnel d’une manière générale et absolue peut faire sens sur
un terrain particulier. De nouveau, il faudra mobiliser le concept des dispositifs
numériques pour ne pas occulter ces liens.
trouve bien des entrepôts avec des données SIC. Mais aucun entrepôt SIC au
sens strict, réservé aux chercheurs en SIC, avec une visibilité forte et un caractère
communautaire explicite et confirmé. À ceci s’ajoutent deux autres constats.
- D’une part, les entrepôts avec des données SIC couvrent en général
une large gamme de données. Ceci est certainement lié au caractère
générique des sites institutionnels ou internationaux, comme figshare
ou Zenodo. Mais il y a peut-être une autre raison, liée directement à la
nature des SIC et évoquée plus haut. L’analyse des données dans les
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
thèses de doctorat SHS de l’Université de Lille 3 avait abouti au même
résultat (Schöpfel et al., 2015) : même si certaines catégories de don-
nées sont mieux représentées que d’autres (en particulier, les textes et
tableaux), les résultats publiés avec les thèses couvrent l’ensemble de la
Conclusion
Les entrepôts de données jouent un rôle central pour la gestion, le stoc-
kage, la conservation et la diffusion des données de recherche. Aussi, une part
importante des efforts publics porte sur le développement et l’interconnexion
des sites, plates-formes et infrastructures de données, à l’échelle nationale,
94
On peut formuler le constat aussi d’une autre manière : les SIC, en tant
que communauté disciplinaire, ne sont pas prêtes face aux enjeux de la science
ouverte, en ce qui concerne les données de recherche. Dans cette situation,
plusieurs options se présentent pour les SIC :
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
autour d’une description disciplinaire des données. Mais pour l’instant, on
n’en est pas là, et peut-être suffit-il d’assurer la connexion entre publications
et données dans les revues SIC et laisser aux chercheurs le choix de leur en-
trepôt, comme aujourd’hui, sans investir dans une infrastructure de données
Remerciements
L’étude à l’origine de cette proposition a été réalisée dans le projet D4Hu-
manities (Deposit of Dissertation Data in Social Sciences and Humanities – A
project in Digital Humanities). Ce projet est financé dans le cadre des projets
structurants de la MESHS 2017-2018 (Contrat de plan État-Région « ISI-MESHS »),
par la MESHS et le Conseil Régional Hauts-de-France.
96
Bibliographie wp-content/uploads/2018/04/
PlanOGP-FR-2018-2020-VF-FR.pdf
(page consultée le 27 février 2019).
Les entrepôts de données en sciences de l’information et de la communication (SIC). Une étude empirique
memsic.ccsd.cnrs.fr/mem_01374509 London, Research Information
(page consultée le 27 février 2019). Network. Disponible sur http://
www.rin.ac.uk/our-work/da-