1 Text Mining and Web Mining Overview

Text Mining and Web
Mining: Overview
Pr. Soukaina Bouarourou

([email protected])
Email: [email protected]
Faculté des Sciences de Meknès 2023-2024
Plan
1. Qu'est-ce que le Data Mining ?
2. Text Mining
3. Web Mining
4. Exploration de contenu Web
5. Exploration de la structure du Web
1. Qu'est-ce que le Data Mining ?
❑ L'exploration de données est également appelée découverte de connaissances dans
les bases de données en anglais Data mining ou bien knowledge discovery in
databases (KDD). Il est généralement défini comme le processus de découverte de
modèles (patterns) ou de connaissances (knowledge) utiles à partir de sources de
données, par exemple des bases de données, des textes, des images, le web, etc.
Les modèles doivent être valides, potentiellement utiles et compréhensibles.
L'exploration de données est un domaine multidisciplinaire qui fait appel à
l'apprentissage automatique, aux statistiques, aux bases de données, à l'intelligence
artificielle, à la recherche d'informations et à la visualisation.
 Il existe de nombreuses tâches d'exploration de données. Parmi les plus courantes,

citons l'apprentissage supervisé (ou classification), l'apprentissage non
supervisé (ou regroupement), l'extraction de règles d'association (association rule
mining) et l'extraction de motifs séquentiels and (sequential pattern mining).
1. What is Data Mining?
 Une application de data mining commence généralement par une compréhension du
domaine d'application par les analystes de données (data miners), qui identifient
ensuite les sources de données appropriées et les données cibles. Avec les données,
l'exploration de données peut être effectuée, ce qui se fait généralement en trois étapes
principales :
 Le prétraitement (Pre-processing) : Les données brutes ne sont généralement pas
adaptées à l'exploration pour diverses raisons. Elles peuvent avoir besoin d'être
nettoyées pour éliminer les bruits ou les anomalies. Les données peuvent également être
trop volumineuses et/ou comporter de nombreux attributs non pertinents, ce qui
nécessite une réduction des données par le biais d'un échantillonnage et d'une sélection
d'attributs ou de caractéristiques.
 Exploration de données (Data mining) : Les données traitées sont ensuite transmises à
un algorithme d'exploration de données qui produira des modèles ou des connaissances.
 Post-traitement (Post-processing) : Dans de nombreuses applications, tous les modèles
découverts ne sont pas utiles. Cette étape permet d'identifier ceux qui sont utiles pour les
applications. Diverses techniques d'évaluation et de visualisation sont utilisées pour
prendre la décision.
 L'ensemble du processus (également appelé processus d'exploration de données (data
mining process) est presque toujours itératif. Il faut généralement de nombreux cycles
pour obtenir un résultat final satisfaisant, qui est ensuite intégré dans les tâches
opérationnelles du monde réel.
2. Text Mining
 L'exploration de texte et l'analyse de texte sont des termes généraux qui décrivent
une gamme de technologies permettant d'analyser et de traiter des données
textuelles semi-structurées et non structurées. Le thème unificateur de chacune de
ces technologies est la nécessité de « transformer le texte en chiffres(turn text into
numbers) » afin de pouvoir appliquer des algorithmes puissants à de grandes bases
de données documentaires. La conversion du texte en un format structuré et
numérique et l'application d'algorithmes analytiques nécessitent de savoir utiliser et
combiner des techniques de traitement du texte, allant de mots individuels à des
documents, en passant par des bases de données documentaires entières.
 L'origine du text mining en tant que domaine est double. Le nom est un hommage au
data mining ; il a été suggéré (Hearst, 1999) qu'un nom approprié pour le text mining
serait « text data mining », ce qui implique que le text data mining est une variante du
domaine général du data mining et existe en tant que sous-domaine de ce domaine
plus générique. Le text mining est défini par Tuffery (2011) comme « le traitement
automatique de données textuelles en langage naturel disponibles en quantités
raisonnablement importantes sous la forme de fichiers informatiques, dans le
but d'extraire et de structurer leur contenu et leurs thèmes, à des fins d'analyse
rapide (non littéraire), de découverte de données cachées ou de prise de
décision automatique ».
2.1 Domaines de pratique de l'analyse de texte
 Le text mining peut être divisé en « sept domaines de pratique », basés uniquement sur les
distinctions pratiques entre les données et les objectifs d'un analyste essayant de résoudre un
problème donné. Bien que distincts, ces domaines sont fortement interdépendants ; un projet typique
de text mining nécessitera des techniques issues de plusieurs domaines. Les sept domaines de
pratique sont les suivants :
1. Recherche et récupération d'informations (RI) : Stockage et récupération de documents
textuels, y compris les moteurs de recherche et la recherche par mot-clé.
2. Regroupement de documents : Regroupement et catégorisation de termes, d'extraits, de
paragraphes ou de documents, à l'aide de méthodes de regroupement de données.
4. Classification de documents : Regroupement et catégorisation de bribes, de paragraphes ou de
documents, à l'aide de méthodes de classification de type « data mining », basées sur des modèles
et des méthodes d'analyse. méthodes de classification par exploration de données, basées sur des
modèles entraînés sur des exemples étiquetés.
5. Exploration du web : Exploration de données et de textes sur l'internet, avec un accent particulier
sur l'échelle et l'interconnexion du web.
6. Extraction d'informations (IE) : Identification et extraction de faits et de relations pertinents à
partir de textes non structurés ; le processus de création de données structurées à partir de textes
non structurés et semi-structurés.
7. Traitement du langage naturel (NLP) : Traitement du langage de bas niveau et tâches de
compréhension (par exemple, étiquetage de la partie du discours) ; souvent utilisé comme
synonyme de linguistique informatique.
8. Extraction de concepts : Regroupement de mots et de phrases en groupes sémantiquement
similaires.
2.1 Domaines de pratique de l'analyse de texte
❑ Ces sept domaines de pratique se situent aux intersections clés de la fouille
de textes et des six principaux autres domaines qui y contribuent. La
figure 1 illustre, sous la forme d'un diagramme de Venn, le chevauchement
des sept domaines du text mining, du data mining, des statistiques, de
l'intelligence artificielle et de l'apprentissage automatique, de la linguistique
informatique, des bibliothèques et des sciences de l'information, et des
bases de données ; elle situe également les sept domaines de pratique à
leurs principales intersections. Par exemple, le domaine de pratique de la
classification des textes s'inspire du domaine de l'exploration de données, et
le domaine de pratique de la recherche d'informations s'inspire des deux
domaines que sont les bases de données et les sciences de l'information et
des bibliothèques.
❑ Les tableaux 1 et 2 proposent d'autres méthodes pour identifier les

domaines de pratique en fonction des algorithmes et des produits souhaités.
Figure 1. Diagramme de Venn de l'intersection du text mining et de six domaines connexes
(représentés par des ovales), tels que le data mining, les statistiques et la linguistique informatique.
Les sept domaines de pratique du text mining se situent aux principales intersections du text
mining et de ses six domaines connexes. [1]
Tableau 1 : Sujets relatifs à la fouille de textes et domaines de
pratique connexes
Tableau 2: Algorithmes courants de Text Mining
et domaine de pratique correspondant
2.2 Domaines d'activité : Brèves descriptions
Voici une brève description des problèmes rencontrés dans chaque domaine d'activité.
 Search and Information Retrieval

La recherche et l'extraction d'informations couvrent l'indexation, la recherche et
l'extraction de documents à partir de grandes bases de données textuelles à l'aide de
requêtes par mots clés. Avec la montée en puissance des moteurs de recherche dont
Google, Mozilla, la recherche et l'extraction d'informations sont devenues familières à la
plupart des gens. Presque toutes les applications informatiques, du courrier électronique
au traitement de texte, comportent une fonction de recherche
 Document Clustering (unsupervised technique)
Le regroupement de documents utilise des algorithmes d'exploration de données pour
regrouper des documents similaires en grappes. Les algorithmes de regroupement
sont largement disponibles dans de nombreux logiciels commerciaux d'exploration de
données et de textes.
Formellement, étant donné un ensemble de documents et une mesure de similarité entre les
documents, il s'agit de trouver des grappes telles que :
◼ les documents d'un groupe sont plus semblables les uns aux autres
◼ les documents appartenant à des groupes distincts sont moins semblables les uns aux
autres
 Document Classification (supervised technique)
La classification de documents attribue un ensemble connu d'étiquettes à des
documents non étiquetés, en utilisant un modèle de texte appris à partir de
documents dont les étiquettes sont connues. Tout comme le regroupement de
documents, la classification de documents s'appuie sur un vaste champ de
travail dans le domaine de l'exploration de données, des statistiques et de
l'apprentissage automatique. Il s'agit de l'une des techniques les plus utilisées
dans l'exploration de textes.
Formellement, étant donné une collection de documents étiquetés (ensemble
d'apprentissage ), il s'agit de trouver un modèle pour la classe en fonction des
valeurs des caractéristiques.
Objectif : les documents non vus précédemment doivent se voir attribuer une
classe aussi précisément que possible.
 Web Mining
L'exploration du web est un domaine d'activité à part entière en raison de la
structure unique et de l'énorme volume de données apparaissant sur le web.
Les documents Web sont généralement présentés dans un format de texte
structuré avec des liens hypertextes entre les pages. Ces différences par
rapport à un texte standard présentent quelques défis et de nombreuses
opportunités. À mesure que l'internet s'enracine dans notre culture populaire
avec l'essor de Facebook, Twitter et d'autres canaux de médias sociaux,
l'exploration du web va continuer à prendre de l'importance. Bien qu'il s'agisse
encore d'un domaine émergent, l'exploration du web s'appuie sur une
technologie mature en matière de classification des documents et de
compréhension du langage naturel.
 Information Extraction
L'objectif de l'extraction d'informations est de construire (ou d'extraire) des données
structurées à partir de textes non structurés. L'extraction d'informations est l'un des
domaines matures de l'exploration de texte, mais il est difficile pour les débutants de
travailler dans ce domaine sans effort considérable, car il nécessite des algorithmes et
des logiciels spécialisés. En outre, la formation et la mise au point d'un système
d'extraction d'informations requièrent beaucoup d'efforts. Il existe un certain nombre de
produits commerciaux disponibles pour l'extraction d'informations, mais tous nécessitent
une certaine adaptation afin d'obtenir des performances élevées pour une base de
données documentaire donnée.
 Subtasks
◼ Named Entity Recognition and Disambiguation
- “M. Smith likes fishing”
- Which M. Smith?
◼ Co-reference Resolution
- “M. Smith likes fishing. But he doesn't like biking.”
- Does he refer to M. Smith?
◼ Relationship Extraction
- PERSON works for ORGANIZATION
- PERSON located in LOCATION
 Natural Language Processing
Le traitement du langage naturel (NLP) a une histoire relativement longue, tant
en linguistique qu'en informatique. Le NLP est un outil puissant qui permet de
fournir des variables d'entrée utiles pour l'exploration de textes, telles que les
balises de partie du discours et les limites des phrases.
 Concept Extraction
L'extraction de concepts est, d'une certaine manière, à la fois la plus facile et la
plus difficile à réaliser. Il est notoirement difficile pour les systèmes automatisés
de « comprendre » le sens d'un texte. Cependant, un travail automatisé initial
combiné à une compréhension humaine peut conduire à des améliorations
significatives par rapport aux performances d'une machine ou d'un être humain
seul.
Comme le montre la figure 2,
le text mining s'appuie sur de
nombreuses techniques du
domaine plus large de
l'analyse de texte.
Figure 2. L'exploration de texte s'avère extrêmement utile, en s'appuyant sur les contributions de
nombreux composants d'analyse de texte et sur les connaissances de nombreuses disciplines
externes (indiquées en bleu en bas), qui aboutissent à des décisions directionnelles affectant les
résultats externes (indiqués par la flèche bleue en haut) [1].
2.3 Interactions between the Practice
Areas
 Les sept domaines de pratique se c h e v a u c h e n t c o n s i d é r a b l e m e n t , car de
nombreuses tâches pratiques de fouille de textes se situent à l'intersection de
plusieurs domaines de pratique. Par exemple, l'extraction d'entités s'appuie sur les
domaines de pratique de l'extraction d'informations et de la classification de textes, et
la mesure de la similarité des documents s'appuie sur les domaines de pratique du
regroupement de documents et de la recherche d'informations.
 Postscript
Les spécialistes de l'exploration de données affirment souvent que 80 à 90 % du
temps du projet est consacré aux étapes de préparation des données. Il en va de
même pour le text mining. Contrairement à l'exploration de données, où certaines
données sont au format texte, toutes les données pour l'exploration de texte sont au
format texte. Le défi initial consiste à transformer ces données textuelles en un
format numérique en vue d'une analyse ultérieure.
3. Web Mining
❑ L'exploration du Web vise à découvrir des informations ou des connaissances utiles à
partir de la structure des hyperliens du Web, du contenu des pages et des données
d'utilisation. Bien que l'exploration du Web utilise de nombreuses techniques
d'exploration de données, elle n'est pas purement une application des techniques
traditionnelles d'exploration de données en raison de l'hétérogénéité et de la nature
semi-structurée ou non structurée des données du Web. L'exploration du web s'est
donc développée dans un créneau plutôt restreint.
 Le Web est une collection de fichiers liés entre eux sur un ou plusieurs serveurs Web.
◼ L'exploration du Web vise à extraire des connaissances à partir des données
Web
◼ Les données Web sont
 Contenu Web - texte, image, enregistrements, etc.
 Structure du Web - liens hypertextes, balises, etc.
 l'utilisation du web - journaux http, journaux de serveurs d'applications, etc.

3.1 Sous-domaines de l'exploration du Web
 En fonction des principaux types de données utilisés dans le processus
d'exploration, les tâches d'exploration du web peuvent être classées en trois
catégories : l'exploration de la structure du Web, l'exploration du contenu du
Web et l'exploration de l'utilisation du Web.
Figure 4. Trois composantes de l'exploration du web [1].
L'exploration du Web est un domaine multidisciplinaire qui tire ses idées et ses
techniques de l'apprentissage automatique, du traitement du langage naturel, de
l'analyse des réseaux sociaux, des systèmes de bases de données, ...
3.1 Sous-domaines de l'exploration du Web
 Web content mining :L'exploration de contenu Web implique l'extraction
d'informations utiles à partir des pages Web, notamment la classification automatique
des thèmes, l'extraction de données comme les descriptions de produits, et l'analyse
des opinions des consommateurs à partir de commentaires et de messages de
forums. Cette pratique permet de compiler des informations à partir de divers types
de médias en ligne, tels que le texte, les images, le son et la vidéo.
 Web usage mining : L'exploration de l'utilisation du web se concentre sur l'analyse des
clics des utilisateurs à des fins de commerce électronique et d'intelligence économique. Il
vise à capturer et à modéliser les schémas comportementaux et les profils d'utilisateurs sur
les sites web. Ces modèles permettent de comprendre les comportements des utilisateurs,
d'optimiser la structure des sites et d'offrir des expériences personnalisées grâce à des
recommandations dynamiques de produits et de services à l'aide de systèmes de
recommandation.
 Web structure mining: L'exploration de la structure du Web permet de découvrir des
connaissances à partir des hyperliens, qui représentent la structure du Web. Elle utilise des
méthodes graphiques pour illustrer les structures de connexion des sites web.
3.2 Le processus d'exploration du Web
The Web mining process :Le processus d'exploration du Web est similaire au
processus d'exploration des données. La différence réside généralement dans la collecte
des données. Dans l'exploration de données traditionnelle, les données sont souvent déjà
collectées et stockées dans un entrepôt de données. Pour l'exploration du Web, la
collecte des données peut représenter une tâche considérable, en particulier pour
l'exploration de la structure et du contenu du Web, qui implique de parcourir un grand
nombre de pages Web cibles.
Une fois les données collectées, nous suivons le même processus en trois étapes : le
prétraitement des données, l'exploration des données Web et le post-traitement.
Cependant, les techniques utilisées pour chaque étape peuvent être très différentes de
celles utilisées dans l'exploration de données traditionnelle.
Figure 5. Le processus Web Mining [5]

 Collecte de données Web(Gathering of Web Data)
◼ Exploration de documents ou de données(Crawl documents or data)
◼ Récupérer des données via l'API Web(Retrieve data via Web API)
◼ Téléchargement d'ensembles de données pré-réunies(Download pre-
gathered data sets)
 Exploration
◼ Obtenir une première compréhension des données(Get an initial
understanding of the data)
◼ Calculer des statistiques de synthèse de base
◼ Visualiser les données(Calculate basic summarization statistics)
◼ Visualiser les données(Visualize the data)
◼ Identifier les problèmes de données tels que les valeurs aberrantes, les
valeurs manquantes, les enregistrements en double(Identify data
problems such as outliers, missing values, duplicate records)
 Prétraiter et transformer les données en une représentation adaptée aux
méthodes d'exploration de données choisies
◼ Nombre de dimensions
◼ Echelles des attributs (nominaux, ordinaux, numériques)
◼ Quantité de données (détermine les besoins en matériel)
 Methodes
◼ Agrégation, échantillonnage
◼ Réduction de la dimensionnalité / sélection de sous-ensembles de
caractéristiques
◼ Transformation d'attributs / texte en vecteur de termes
◼ Discrétisation et binarisation
◼ Une bonne préparation des données est essentielle pour produire des
modèles valides et fiables.
 On estime que la préparation des données représente 70 à 80 % du
temps et des efforts consacrés à un projet d'exploration de données !
 Extraction de données(Data Mining)
◼ Input: Données prétraitées
◼ Output: Modèle/ Patterns
Etapes ::
1. Appliquer la méthode d'exploration de données.
2. Évaluer le modèle / les schémas obtenus.
3. Itérer
▪ Expérimenter différents paramètres.
▪ Expérimenter différentes méthodes
alternatives.
▪ Améliorer le prétraitement et la génération de
caractéristiques.
▪ Combiner différentes méthodes.
3.3 Défis récurrents
 énorme quantité de données disponibles → nécessite un
échantillonnage ou plusieurs machines
 non / semi-structurée des données
 hétérogénéité des données → l'intégration des données peut
constituer un défi
 la nature distribuée des données → nécessite souvent une
exploration à grande échelle
4. Exploration de contenu Web
 L'exploration de contenu Web est le processus d'extraction d'informations utiles à
partir du contenu des documents Web (données disponibles en ligne).
◼ Les données de contenu correspondent à l'ensemble des faits qu'une page web
a été conçue pour transmettre aux utilisateurs. Il peut s'agir de textes, d'images,
de sons, de vidéos ou d'enregistrements structurés tels que des listes et des
tableaux.
 Les activités de recherche dans ce domaine impliquent également l'utilisation de
techniques issues d'autres disciplines telles que la recherche d'informations (RI) et le
traitement du langage naturel (NLP). Par exemple, le contenu d'une collection de
pages web peut être analysé à l'aide de certaines techniques de traitement du
langage naturel, telles que l'allocation de Dirichlet latent ou les outils d'analyse des
sentiments. Ces techniques sont particulièrement importantes pour extraire des
informations subjectives sur les utilisateurs du web et sont donc largement utilisées
dans de nombreuses applications commerciales, du marketing à la consultance.
4.1 Applications de l'extraction de contenu Web
 Identifier les thèmes représentés par un document Web
 Catégoriser les documents Web
 Trouver des pages Web similaires sur différents serveurs
 Applications liées à la pertinence
◼ Requêtes - Améliorer la pertinence des requêtes standard
avec une pertinence basée sur l'utilisateur, le rôle et/ou la
tâche.
◼ Recommandations - Liste des « n » documents les plus
pertinents d'une collection ou d'une partie de collection.
◼ Filtres – Afficher/masquer les documents en fonction du score
de pertinence
 Réponse collaborative aux questions
 Détection d'événements
4.2 Tâches d'exploration de contenu
 Content Classification
 Content Clustering Chaque tâche sera
 Associations traitée en profondeur
dans un autre cours.
 Concept Hierarchy creation
 Content Relevance
 Topic Identification
 Sentiment Analysis
 ….
4.3 Aspects distincts du texte dans
les médias sociaux
 Les données textuelles contenues dans les médias sociaux présentent des
caractéristiques qui leur sont propres. Il convient d'en tenir compte lors de la mise en
œuvre de méthodes d'analyse de texte et d'analyse web.
Sensibilité au temps(Time Sensitivity)

 Les plateformes de médias sociaux sont des environnements en temps réel où les
utilisateurs actualisent constamment le contenu, ce qui offre des possibilités de
détection d'événements. Contrairement aux textes traditionnels, les données des
médias sociaux sont dynamiques et reflètent l'évolution des intérêts et des
connexions. Les recommandations des utilisateurs et les questions émergentes
influencent les préférences et les opinions, ce qui souligne l'importance de l'analyse
temporelle dans les textes des médias sociaux.
les médias sociaux
 Longueur courte(Shortness)
Certains sites web de médias sociaux limitent la longueur des contenus créés par les
utilisateurs, tels que les messages de microblogage, les critiques de produits, les
passages d'assurance qualité et les légendes d'images, etc.
◼ Twitter permet aux utilisateurs de publier rapidement des informations et la
longueur de chaque tweet est limitée à 280 caractères.
◼ Les commentaires sur Picasa sont limités,
◼ Les messages de statut personnel sur Windows Live Messenger sont limités à
128 caractères.
Les messages courts abondent sur le web et jouent un rôle crucial dans les applications
de médias sociaux. Toutefois, leur longueur limitée pose des problèmes pour l'analyse de
texte. Contrairement aux textes plus longs, les messages courts ne disposent pas d'un
contexte suffisant pour permettre une mesure efficace de la similarité, ce qui rend leur
traitement essentiel mais difficile.
les médias sociaux
 Phrases non structurées, informalité et implicite :
◼ Une différence importante entre le texte des médias sociaux et celui des médias
traditionnels est la variance de la qualité du contenu.
 Tout d'abord, la variance de la qualité provient de l'attitude des personnes
lorsqu'elles publient un message de microblogage ou répondent à une question
dans un forum. Certains utilisateurs sont des experts du sujet et publient des
informations très soigneusement, tandis que d'autres ne publient pas des
informations d'aussi bonne qualité. Le principal défi posé par le contenu des sites
de médias sociaux réside dans le fait que la distribution de la qualité est très
variable : des articles de très haute qualité aux contenus de faible qualité, parfois
abusifs. Cela rend les tâches de filtrage et de classement dans ces systèmes plus
complexes que dans d'autres domaines.
 Deuxièmement, lors de la rédaction d'un message, les utilisateurs peuvent utiliser
ou inventer de nouvelles abréviations ou acronymes qui apparaissent rarement
dans les documents textuels conventionnels. Par exemple, des messages tels
que « How r u ? », « Good 9t » ne sont pas vraiment des mots, mais ils sont
intuitifs et populaires dans les médias sociaux. Ils facilitent la communication
entre les utilisateurs, mais il est très difficile d'identifier avec précision la
signification sémantique de ces messages.
◼ Utilisation libre d'un langage créatif, contextualisation poussée, écrits informels et
utilisation de pseudonymes/morphes.
les médias sociaux
Le bruit (contenu bruyant) :
Outre les expressions non structurées, le texte est parfois « bruyant »
pour un sujet spécifique. Par exemple, un passage d'AQ dans Yahoo !
Answers « I like sony » devrait être une donnée bruyante pour un post
qui parle de la sortie de l'iPad 2. Il est difficile de classer le passage
dans les classes correspondantes sans tenir compte des informations
contextuelles.
◼ Le rapport de Pear Analytics* sur 2000 échantillons de tweets a

démontré que :
 40,55 % des tweets sont des bavardages sans intérêt,
 37,55 % sont des conversations,
 et seulement 8,7 % ont une valeur de transmission.

les médias sociaux
 Abundant Information
Les médias sociaux en général présentent une grande variété de sources d'information. Outre le
contenu lui-même, il existe un large éventail d'informations non liées au contenu. Par exemple,
Twitter permet aux utilisateurs d'utiliser le symbole « # », appelé « hashtag » :Twitter permet aux
utilisateurs d'utiliser le symbole « # », appelé hashtag, pour marquer des mots-clés ou des sujets
dans un Tweet (informations sur les tags) ;une image est généralement associée à plusieurs
étiquettes qui sont caractérisées par différentes régions de l'image ;les utilisateurs peuvent établir
des liens avec d'autres personnes (informations sur les liens) sur Facebook et d'autres sites de
réseaux sociaux ;Wikipédia fournit un moyen efficace pour les utilisateurs de se rediriger vers la
page du concept d'ambiguïté ou la page du concept de niveau supérieur (hiérarchie
sémantique).de niveau supérieur (informations sur la hiérarchie sémantique).
L'analyse de texte dans les médias sociaux permet de dériver des données à partir de divers
aspects, notamment l'utilisateur, le contenu, le lien, la balise, l'horodatage, etc.Traduit avec
DeepL.com (version gratuite)
4.4 Préparation du contenu
 Collecte de données Web(Gathering of Web Data)
◼ Récupérer des données via l'API Web
◼ Téléchargement d'ensembles de données pré-réunies
◼ explorer des documents ou des données (par exemple, les forums ne fournissent
pas d'interfaces programmatiques (API) pour capturer des données). Le
processus d'extraction automatique de données à partir de sites web est appelé
'web scraping'.
 Chaque page web est généralement collectée et organisée (à l'aide d'une

technique d'analyse syntaxique’ parsing’), traitée pour supprimer les parties
non importantes du texte (traitement du langage naturel), puis analysée.
 Il convient de noter que dans le domaine de l'exploration de texte, les

auteurs utilisent le terme « document » pour décrire l'unité de texte
analysée. Il s'agit d'une définition plus large. Dans la pratique, il peut s'agir
de documents types, de paragraphes, de phrases, de « tweets » sur les
médias sociaux ou d'autres sections de texte définies.
Scraping (ou web scraping) :
• Le scraping consiste à extraire des données directement à partir des pages
web en analysant leur structure HTML.
• Les outils de scraping parcourent les pages web, extraient le contenu
pertinent en fonction de balises HTML spécifiques, puis stockent ces
données dans un format structuré, tel qu'un fichier CSV ou une base de
données.
• Le scraping est souvent utilisé lorsque les données nécessaires ne sont pas
disponibles via une API, ou lorsque l'accès à l'API est limité ou inexistant.
• Cependant, le scraping peut être complexe à mettre en œuvre et peut être
sujet à des erreurs si la structure des pages web change.
API (Interface de Programmation Applicative) :
• Les API sont des interfaces permettant aux développeurs d'interagir avec les
services et les données d'une application ou d'une plateforme spécifique.
• Les plateformes en ligne telles que les réseaux sociaux (comme Twitter,
Facebook, Instagram) fournissent des API permettant aux développeurs
d'accéder aux données de la plateforme de manière structurée et sécurisée.
• Les API fournissent généralement un accès plus fiable et plus efficace aux
données par rapport au scraping, car elles sont conçues spécifiquement
pour cet usage.
• Cependant, l'utilisation des API peut être soumise à des limitations, telles
que des quotas de requêtes, des restrictions d'accès ou des coûts associés
à leur utilisation.
• le scraping est utilisé pour extraire des données à partir des pages web
directement, tandis que les API sont utilisées pour accéder aux données de
manière structurée à partir de plateformes en ligne spécifiques. Chaque
méthode a ses avantages et ses limitations, et le choix entre les deux
dépend des besoins spécifiques du projet et de la disponibilité des données.
 Parsing
Une page web étant écrite au format HTML, la première opération consiste à extraire les éléments
d'information pertinents. Un analyseur HTML construit un arbre de balises à partir duquel le contenu
peut être extrait (figure ci-dessous). De nos jours, de nombreux analyseurs sont disponibles. Par
exemple, Python Scrapy est un cadre d'application permettant d'explorer les sites web et d'extraire des
données structurées qui peuvent être utilisées pour un large éventail d'applications utiles, telles que
l'exploration du web, l'exploration de texte, l'exploration de données, le traitement de l'information ou
l'archivage historique.
Figure 6. Illustration de l'arbre DOM (ou tag) construit à partir d'une simple page HTML. Les
nœuds internes (représentés par des ovales) représentent les balises HTML, la balise <html>
étant la racine. Les nœuds feuilles (représentés par des rectangles) correspondent à des
morceaux de texte.
Example: Python Scrapy
Voici un exemple d'une session typique de Scrapy shell où nous commençons par
gratter la page principale du langage Python, https://www.python.org/.
Tout d'abord, nous lançons l'interpréteur de commandes (figure ci-dessous) :

scrapy shell "https://www.python.org/" --nolog
Ensuite, le shell récupère l'URL (en utilisant le téléchargeur Scrapy) et imprime la liste
des objets disponibles et des raccourcis utiles (vous remarquerez que ces lignes
commencent toutes par le préfixe [s]). Après cela, nous pouvons commencer à utiliser
ces objets pour analyser la page.
Par exemple, nous pouvons obtenir le texte du titre en utilisant l'objet réponse et le
langage xpath.
In [1]: response.xpath('//title/text()').extract()
Out[1]: ['Welcome to Python.org']
Ou bien nous voulons extraire tous les liens intégrés dans la page (cette opération
est nécessaire pour que le robot d'exploration fonctionne), qui sont généralement
placés dans des <a>, et la valeur de l'URL se trouve dans un attribut href :
In [2]: response.xpath("//a/@href").extract()
Out[2]:
['#content',
'#python-network',
'/',
'/psf-landing/',
'https://docs.python.org',
'https://pypi.python.org/',
Figure 7. Scraping de la page principale du langage Python et
extraction d'informations utiles
• Un autre exemple d'extraction de données à partir d'une page
web en utilisant Python avec la bibliothèque BeautifulSoup
pour le parsing HTML et la bibliothèque requests pour
récupérer le contenu de la page :
• nous voulions extraire les titres des articles du site web "
pharmacie.ma ". Voici comment nous pourrions procéder:
Il y a deux méthodes courantes pour la collecte de données sur le web :

• le scraping, qui est utilisé pour extraire des données à partir des pages web,
• les API, qui permettent d'accéder aux données sur les plateformes des
réseaux sociaux.
 Definition
L'exploration de la structure du Web permet de découvrir des connaissances utiles à
partir des hyperliens (ou liens en abrégé), qui représentent la structure du Web. Par
exemple, à partir des liens, nous pouvons découvrir des pages Web importantes,
des communautés d'utilisateurs qui partagent des intérêts communs. Nous pouvons
également découvrir les liens sociaux (relations) entre les acteurs qui interagissent
sur le web. L'exploration de données traditionnelle ne permet pas d'effectuer de
telles tâches car il n'y a généralement pas de structure de liens dans une table
relationnelle.
❑ Se concentre sur la structure, mais peut bien sûr être combinée avec des
techniques d'exploration du contenu ou de l'utilisation.
❑ La recherche au niveau des hyperliens est également appelée analyse des
hyperliens.
 Sources de données typiques
- Recherche sur le web, y compris les pages HTML et les hyperliens
- Exploration de la blogosphère
- Réseaux sociaux comprenant des relations explicites entre les acteurs (votre
réseau d'amis Facebook)
- autres types de données communautaires (forums de discussion, conversations
par courrier
 Le web sous forme de graphe. Un graphe est une collection de sommets
reliés par des lignes.
◼ Nœuds = sites web
◼ Arêtes = liens
 Utiliser des algorithmes issus de la théorie des graphes
Tâches et applications :
● Trouver les sites Web les plus populaires (Google Page Rank)
● Détection des communautés Web
● Prominence : Qui sont les acteurs les plus importants d'un réseau
social ?
● ...........
References
1 John Elder, Dursun Delen, Thomas Hill, Gary Miner and Bob Nisbet. Practical Text Mining and
Statistical Analysis for Non-structured Text Data Applications. Pub. Date: 2012, pages: 1093, ISBN:
978-0-12-386979-1. Publisher: Elsevier Science
2 Charu C. Aggarwal, Chengxiang Zhai. MINING TEXT DATA. ISBN: 9781461432234 1461432235.
Springer US, 2012.
3 Isoni Andrea. Machine Learning for the Web. Pub. Date: 2016, pages: 299, ISBN: 978-1-78588-
660-7. Publisher: Packt Publishing
4 Bing Liu. Web Data Mining. Pub. Date: 2011, Second Edition, pages: 622. ISBN: 978-3-642-19459-
7. Publisher: Springer-Verlag Berlin Heidelberg
5 Christian Bizer, Cäcilia and Zirn Oliver Lehmberg. Web Mining course.
6 Jaideep Srivastava. Web Mining : Accomplishments & Future Directions, University of Minnesota,
USA

1 Text Mining and Web Mining Overview

Transféré par

Droits d'auteur :

Formats disponibles

1 Text Mining and Web Mining Overview

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1 Text Mining and Web Mining Overview

Transféré par

Droits d'auteur :

Formats disponibles

Text Mining and Web

Pr. Soukaina Bouarourou

 Il existe de nombreuses tâches d'exploration de données. Parmi les plus courantes,

❑ Les tableaux 1 et 2 proposent d'autres méthodes pour identifier les

 Search and Information Retrieval

 Structure du Web - liens hypertextes, balises, etc.

 l'utilisation du web - journaux http, journaux de serveurs d'applications, etc.

Figure 4. Trois composantes de l'exploration du web [1].

Figure 5. Le processus Web Mining [5]

Sensibilité au temps(Time Sensitivity)

◼ Le rapport de Pear Analytics* sur 2000 échantillons de tweets a

 37,55 % sont des conversations,

 et seulement 8,7 % ont une valeur de transmission.

 Chaque page web est généralement collectée et organisée (à l'aide d'une

 Il convient de noter que dans le domaine de l'exploration de texte, les

Tout d'abord, nous lançons l'interpréteur de commandes (figure ci-dessous) :

Il y a deux méthodes courantes pour la collecte de données sur le web :

Vous aimerez peut-être aussi