Shortcut: WD:OR
Wikidata:Outils/OpenRefine
OpenRefine est un outil libre d'extraction de données qui peut être utilisé pour nettoyer des tableaux, et les connecter à des bases de connaissances, dont Wikidata. Il était précédemment développé par Google (sous le nom de "Google Refine") et est maintenant soutenu par des bénévoles depuis son abandon lors de la fermeture de Freebase.
Cette page regroupe des recettes pour OpenRefine qui sont utiles pour importer des jeux de données dans Wikidata, ou pour les enrichir avec des données extraites de Wikidata. N'hésitez pas à utiliser la page de discussion pour demander de l'aide sur ce logiciel. Si vous appréciez l'outil, vous pouvez faire passer le mot via la boîte utilisateur {{User loves OpenRefine}}
.
OpenRefine intègre seulement la réconciliation avec les éléments. En septembre 2022, les Lexèmes ne sont pas pris en charge.
Installer et utiliser OpenRefine
OpenRefine peut être téléchargé en tant qu'application. Il fonctionne sur les ordinateurs de bureau et portables avec les systèmes d'exploitation Windows, Mac et Linux. Il exécute un petit serveur sur votre ordinateur et vous utilisez ensuite un navigateur Web pour interagir avec lui. Il fonctionne mieux avec les navigateurs basés sur Webkit, tels que Google Chrome, Chromium, Opera et Microsoft Edge, et est également pris en charge sur Firefox.
OpenRefine possède une interface utilisateur graphique disponible dans plus de 15 langues.
Installez OpenRefine sur votre propre ordinateur de bureau ou portable
Vous pouvez trouver et télécharger la dernière version stable d'OpenRefine ici.
Exécuter OpenRefine sur PAWS
Depuis mai 2021, toute personne disposant d'un compte Wikimedia enregistré peut exécuter OpenRefine dans PAWS sur Wikimedia's Cloud Services. Veuillez noter qu'il s'agit d'une fonctionnalité expérimentale qui n'est pas prise en charge par l'équipe OpenRefine elle-même, et qui peut casser ou mal fonctionner. C'est cependant une option intéressante pour les personnes qui ne peuvent pas installer de logiciel sur leur ordinateur local.
PAWS est un outil Wikimedia Cloud qui fournit un accès hébergé aux blocs-notes Jupyter et à d'autres outils sans nécessiter d'installation locale.
Vous pouvez accéder à votre propre installation d'OpenRefine avec ce lien : https://hub-paws.wmcloud.org/hub/user-redirect/openrefine. Vous devrez vous connecter avec vos informations d'identification wiki, mais ne cochez pas la case Se souvenir de moi : comme tous les fichiers écrits sur PAWS sont accessibles au public, vous ne voulez pas que vos informations d'identification soient accessibles. Il est également possible que vous obteniez un message d'erreur ; si tel est le cas, actualisez la page et cela devrait fonctionner.
Vous pouvez contacter YuviPanda pour les questions sur OpenRefine via PAWS.
Fonctionnalités principales
Réconciliation avec Wikidata
Dans la terminologie d'OpenRefine, la réconciliation est le processus d'alignement de données textuelles brutes avec des identifiants de bases de connaissances. Les fonctionnalités natives de réconciliation d'OpenRefine en font un outil polyvalent pour aligner des données tabulaires à de nombreuses bases de données, dont Wikidata.
Le wiki d'OpenRefine contient un guide détaillé du processus de réconciliation. Voilà les fonctionnalités principales :
- Restreindre la réconciliation à une classe Wikidata. Seuls les items appartenant à des sous-classes de cette classe Wikidata seront pris en considération ;
- Il est également possible de sélectionner « Rapprocher avec aucun type particulier » lorsque l'élément peut être de n'importe quelle classe (par exemple, lors d'un rapprochement avec les étiquettes ou les titres d'articles de Wikipédia) ;
- Utiliser plusieurs colonnes dans votre jeu de données en les faisant correspondre à des propriétés des items à réconcilier. Cela raffine le score de réconciliation et départage les homonymes.
- Utiliser les identifieurs externes déjà présent dans votre dataset en les comparant à ceux présents sur Wikidata;
- Utilisez les sitelinks fournis dans votre ensemble de données comme identifiants externes - si ces pages Wikimedia sont liées à un élément Wikidata, elles seront automatiquement rapprochées de cet élément ;
- Si l'outil a trouvé plusieurs candidats, vous pouvez parcourir le tableau pour trouver le bon article Wikidata.
Si vous voulez utiliser les fonctionnalités des réconciliations, imprégnez vous de ces manuels d'instruction :
- Ces fonctionnalités sont expliquées en détail par Owen Stephens dans sa série de saisies d'écran sur le sujet.
- ArthurPSmith en montre l'utilisation avec Wikidata au WikidataCon 2017.
Les API peuvent être, par exemple, une recherche sur les libellés en français avec Wikidata grâce au lien https://wikidata.reconci.link/fr/api.
Extension des données
Cette fonctionnalité est disponible à partir d'OpenRefine 2.8
Une fois qu’une des colonnes de votre tableau est réconciliée à Wikidata, il est possible d’extraire des données de Wikidata pour créer de nouvelles colonnes dans votre jeu de données. Si un item a plusieurs valeurs pour une propriété donnée, ces valeurs seront regroupées au sein d’un même « record » dans OpenRefine : de nouvelles lignes seront créées pour les insérer. Le « record mode » d’OpenRefine peut être plus adapté pour transformer ces valeurs a posteriori. L’accès aux libellés, descriptions et hyperliens des éléments est fourni par les propriétés Lxx, Dxx et Syyyy, où xx est un code de langue (fr, en, yue, etc.) et yyyy est un identifiant de projet (enwiki, ptwikisource, etc.)
Vous pouvez utiliser cette fonction récursivement sur les colonnes qui viennent d'être créées, si elles correspondent à des éléments Wikidata. Cela vous permet d'explorer le graphe de Wikidata en suivant les propriétés que vous sélectionnez. Il est aussi possible de configurer le mode de récupération des propriétés (par exemple, en filtrant par rang ou par référence).
Import de données dans Wikidata
Cette fonctionnalité est disponible à partir d'OpenRefine 3.0
OpenRefine permet de transformer des données tabulaires en modifications sur Wikidata. La transformation est régie par un « schéma » − un patron de modification Wikidata qui est appliqué à chaque ligne de votre tableau. Une fois que vous avez créé un schéma, vous pouvez :
- prévisualiser les modifications sur Wikidata et les inspecter manuellement;
- analyser et résoudre les problèmes de qualité détectés automatiquement par l'outil;
- téléverser vos modifications dans Wikidata en vous connectant avec votre propre compte;
- exporter les modifications au format QuickStatements.
Consultez la sous-page sur les imports pour plus de détails. Beaucoup de tutoriels sont disponibles pour vous permettre de commencer.
Recettes
Les manipulations faites dans OpenRefine peuvent être partagées en copiant la représentation JSON de l'historique d'édition. Cela représente les opérations que vous avez effectuées dans OpenRefine, et peut être réutilisé sur des jeux de données similaires. Cette section liste des recettes qui peuvent être utiles pour travailler avec Wikidata. Voir aussi OpenRefine Recipes.
- Obtenir des identifiants Wikidata. Une fois que vous avez réconcilié une colonne avec Wikidata, vous pouvez obtenir les Qids dans une nouvelle colonne, en utilisant l'opération "Ajouter une colonne à partir de cette colonne", avec l'expression GREL suivante:
cell.recon.match.id
- Plus de variables Vous pouvez accéder à beaucoup d'autres variables dans une cellule réconciliée : consultez la page du manuel sur les variables.
- Partagez votre recette ici!
Aider OpenRefine
OpenRefine a besoin de votre aide ! Il y a beaucoup de choses que vous pouvez faire :
- améliorer cette documentation ou la propre documentation d'OpenRefine
- participer à la traduction d'OpenRefine dans votre langue avec Weblate
- contribuer au développement d'OpenRefine ou plus spécifiquement à ses fonctionnalités dédiées à Wikidata.
- participer à l'assistance des utilisateurs, par exemple sur le forum
Nous avons un projet Phabricator pour suivre les activités autour de OpenRefine dans Wikimedia ; vous pouvez baliser avec lui toutes les tâches qui sont en rapport avec.
En 2021–2022, OpenRefine est étendu avec le support des données structurées sur Wikimedia Commons (SDC). Ce projet est financé par une bourse de projet de la Fondation Wikimedia.