1 Text Mining and Web Mining Overview
1 Text Mining and Web Mining Overview
1 Text Mining and Web Mining Overview
Mining: Overview
L'origine du text mining en tant que domaine est double. Le nom est un hommage au
data mining ; il a été suggéré (Hearst, 1999) qu'un nom approprié pour le text mining
serait « text data mining », ce qui implique que le text data mining est une variante du
domaine général du data mining et existe en tant que sous-domaine de ce domaine
plus générique. Le text mining est défini par Tuffery (2011) comme « le traitement
automatique de données textuelles en langage naturel disponibles en quantités
raisonnablement importantes sous la forme de fichiers informatiques, dans le
but d'extraire et de structurer leur contenu et leurs thèmes, à des fins d'analyse
rapide (non littéraire), de découverte de données cachées ou de prise de
décision automatique ».
2.1 Domaines de pratique de l'analyse de texte
Le text mining peut être divisé en « sept domaines de pratique », basés uniquement sur les
distinctions pratiques entre les données et les objectifs d'un analyste essayant de résoudre un
problème donné. Bien que distincts, ces domaines sont fortement interdépendants ; un projet typique
de text mining nécessitera des techniques issues de plusieurs domaines. Les sept domaines de
pratique sont les suivants :
1. Recherche et récupération d'informations (RI) : Stockage et récupération de documents
textuels, y compris les moteurs de recherche et la recherche par mot-clé.
2. Regroupement de documents : Regroupement et catégorisation de termes, d'extraits, de
paragraphes ou de documents, à l'aide de méthodes de regroupement de données.
4. Classification de documents : Regroupement et catégorisation de bribes, de paragraphes ou de
documents, à l'aide de méthodes de classification de type « data mining », basées sur des modèles
et des méthodes d'analyse. méthodes de classification par exploration de données, basées sur des
modèles entraînés sur des exemples étiquetés.
5. Exploration du web : Exploration de données et de textes sur l'internet, avec un accent particulier
sur l'échelle et l'interconnexion du web.
6. Extraction d'informations (IE) : Identification et extraction de faits et de relations pertinents à
partir de textes non structurés ; le processus de création de données structurées à partir de textes
non structurés et semi-structurés.
7. Traitement du langage naturel (NLP) : Traitement du langage de bas niveau et tâches de
compréhension (par exemple, étiquetage de la partie du discours) ; souvent utilisé comme
synonyme de linguistique informatique.
8. Extraction de concepts : Regroupement de mots et de phrases en groupes sémantiquement
similaires.
2.1 Domaines de pratique de l'analyse de texte
❑ Ces sept domaines de pratique se situent aux intersections clés de la fouille
de textes et des six principaux autres domaines qui y contribuent. La
figure 1 illustre, sous la forme d'un diagramme de Venn, le chevauchement
des sept domaines du text mining, du data mining, des statistiques, de
l'intelligence artificielle et de l'apprentissage automatique, de la linguistique
informatique, des bibliothèques et des sciences de l'information, et des
bases de données ; elle situe également les sept domaines de pratique à
leurs principales intersections. Par exemple, le domaine de pratique de la
classification des textes s'inspire du domaine de l'exploration de données, et
le domaine de pratique de la recherche d'informations s'inspire des deux
domaines que sont les bases de données et les sciences de l'information et
des bibliothèques.
Figure 2. L'exploration de texte s'avère extrêmement utile, en s'appuyant sur les contributions de
nombreux composants d'analyse de texte et sur les connaissances de nombreuses disciplines
externes (indiquées en bleu en bas), qui aboutissent à des décisions directionnelles affectant les
résultats externes (indiqués par la flèche bleue en haut) [1].
2.3 Interactions between the Practice
Areas
Les sept domaines de pratique se c h e v a u c h e n t c o n s i d é r a b l e m e n t , car de
nombreuses tâches pratiques de fouille de textes se situent à l'intersection de
plusieurs domaines de pratique. Par exemple, l'extraction d'entités s'appuie sur les
domaines de pratique de l'extraction d'informations et de la classification de textes, et
la mesure de la similarité des documents s'appuie sur les domaines de pratique du
regroupement de documents et de la recherche d'informations.
Postscript
Les spécialistes de l'exploration de données affirment souvent que 80 à 90 % du
temps du projet est consacré aux étapes de préparation des données. Il en va de
même pour le text mining. Contrairement à l'exploration de données, où certaines
données sont au format texte, toutes les données pour l'exploration de texte sont au
format texte. Le défi initial consiste à transformer ces données textuelles en un
format numérique en vue d'une analyse ultérieure.
3. Web Mining
❑ L'exploration du Web vise à découvrir des informations ou des connaissances utiles à
partir de la structure des hyperliens du Web, du contenu des pages et des données
d'utilisation. Bien que l'exploration du Web utilise de nombreuses techniques
d'exploration de données, elle n'est pas purement une application des techniques
traditionnelles d'exploration de données en raison de l'hétérogénéité et de la nature
semi-structurée ou non structurée des données du Web. L'exploration du web s'est
donc développée dans un créneau plutôt restreint.
Le Web est une collection de fichiers liés entre eux sur un ou plusieurs serveurs Web.
◼ L'exploration du Web vise à extraire des connaissances à partir des données
Web
◼ Les données Web sont
Contenu Web - texte, image, enregistrements, etc.
L'exploration du Web est un domaine multidisciplinaire qui tire ses idées et ses
techniques de l'apprentissage automatique, du traitement du langage naturel, de
l'analyse des réseaux sociaux, des systèmes de bases de données, ...
3.1 Sous-domaines de l'exploration du Web
Web content mining :L'exploration de contenu Web implique l'extraction
d'informations utiles à partir des pages Web, notamment la classification automatique
des thèmes, l'extraction de données comme les descriptions de produits, et l'analyse
des opinions des consommateurs à partir de commentaires et de messages de
forums. Cette pratique permet de compiler des informations à partir de divers types
de médias en ligne, tels que le texte, les images, le son et la vidéo.
Web usage mining : L'exploration de l'utilisation du web se concentre sur l'analyse des
clics des utilisateurs à des fins de commerce électronique et d'intelligence économique. Il
vise à capturer et à modéliser les schémas comportementaux et les profils d'utilisateurs sur
les sites web. Ces modèles permettent de comprendre les comportements des utilisateurs,
d'optimiser la structure des sites et d'offrir des expériences personnalisées grâce à des
recommandations dynamiques de produits et de services à l'aide de systèmes de
recommandation.
Web structure mining: L'exploration de la structure du Web permet de découvrir des
connaissances à partir des hyperliens, qui représentent la structure du Web. Elle utilise des
méthodes graphiques pour illustrer les structures de connexion des sites web.
3.2 Le processus d'exploration du Web
The Web mining process :Le processus d'exploration du Web est similaire au
processus d'exploration des données. La différence réside généralement dans la collecte
des données. Dans l'exploration de données traditionnelle, les données sont souvent déjà
collectées et stockées dans un entrepôt de données. Pour l'exploration du Web, la
collecte des données peut représenter une tâche considérable, en particulier pour
l'exploration de la structure et du contenu du Web, qui implique de parcourir un grand
nombre de pages Web cibles.
Une fois les données collectées, nous suivons le même processus en trois étapes : le
prétraitement des données, l'exploration des données Web et le post-traitement.
Cependant, les techniques utilisées pour chaque étape peuvent être très différentes de
celles utilisées dans l'exploration de données traditionnelle.
Etapes ::
1. Appliquer la méthode d'exploration de données.
2. Évaluer le modèle / les schémas obtenus.
3. Itérer
▪ Expérimenter différents paramètres.
▪ Expérimenter différentes méthodes
alternatives.
▪ Améliorer le prétraitement et la génération de
caractéristiques.
▪ Combiner différentes méthodes.
3.3 Défis récurrents
énorme quantité de données disponibles → nécessite un
échantillonnage ou plusieurs machines
non / semi-structurée des données
hétérogénéité des données → l'intégration des données peut
constituer un défi
la nature distribuée des données → nécessite souvent une
exploration à grande échelle
4. Exploration de contenu Web
L'exploration de contenu Web est le processus d'extraction d'informations utiles à
partir du contenu des documents Web (données disponibles en ligne).
◼ Les données de contenu correspondent à l'ensemble des faits qu'une page web
a été conçue pour transmettre aux utilisateurs. Il peut s'agir de textes, d'images,
de sons, de vidéos ou d'enregistrements structurés tels que des listes et des
tableaux.
Les activités de recherche dans ce domaine impliquent également l'utilisation de
techniques issues d'autres disciplines telles que la recherche d'informations (RI) et le
traitement du langage naturel (NLP). Par exemple, le contenu d'une collection de
pages web peut être analysé à l'aide de certaines techniques de traitement du
langage naturel, telles que l'allocation de Dirichlet latent ou les outils d'analyse des
sentiments. Ces techniques sont particulièrement importantes pour extraire des
informations subjectives sur les utilisateurs du web et sont donc largement utilisées
dans de nombreuses applications commerciales, du marketing à la consultance.
4.1 Applications de l'extraction de contenu Web
Identifier les thèmes représentés par un document Web
Catégoriser les documents Web
Trouver des pages Web similaires sur différents serveurs
Applications liées à la pertinence
◼ Requêtes - Améliorer la pertinence des requêtes standard
avec une pertinence basée sur l'utilisateur, le rôle et/ou la
tâche.
◼ Recommandations - Liste des « n » documents les plus
pertinents d'une collection ou d'une partie de collection.
◼ Filtres – Afficher/masquer les documents en fonction du score
de pertinence
Réponse collaborative aux questions
Détection d'événements
4.2 Tâches d'exploration de contenu
Content Classification
Content Clustering Chaque tâche sera
Associations traitée en profondeur
dans un autre cours.
Concept Hierarchy creation
Content Relevance
Topic Identification
Sentiment Analysis
….
4.3 Aspects distincts du texte dans
les médias sociaux
Les données textuelles contenues dans les médias sociaux présentent des
caractéristiques qui leur sont propres. Il convient d'en tenir compte lors de la mise en
œuvre de méthodes d'analyse de texte et d'analyse web.
Les messages courts abondent sur le web et jouent un rôle crucial dans les applications
de médias sociaux. Toutefois, leur longueur limitée pose des problèmes pour l'analyse de
texte. Contrairement aux textes plus longs, les messages courts ne disposent pas d'un
contexte suffisant pour permettre une mesure efficace de la similarité, ce qui rend leur
traitement essentiel mais difficile.
4.3 Aspects distincts du texte dans
les médias sociaux
Phrases non structurées, informalité et implicite :
◼ Une différence importante entre le texte des médias sociaux et celui des médias
traditionnels est la variance de la qualité du contenu.
Tout d'abord, la variance de la qualité provient de l'attitude des personnes
lorsqu'elles publient un message de microblogage ou répondent à une question
dans un forum. Certains utilisateurs sont des experts du sujet et publient des
informations très soigneusement, tandis que d'autres ne publient pas des
informations d'aussi bonne qualité. Le principal défi posé par le contenu des sites
de médias sociaux réside dans le fait que la distribution de la qualité est très
variable : des articles de très haute qualité aux contenus de faible qualité, parfois
abusifs. Cela rend les tâches de filtrage et de classement dans ces systèmes plus
complexes que dans d'autres domaines.
Deuxièmement, lors de la rédaction d'un message, les utilisateurs peuvent utiliser
ou inventer de nouvelles abréviations ou acronymes qui apparaissent rarement
dans les documents textuels conventionnels. Par exemple, des messages tels
que « How r u ? », « Good 9t » ne sont pas vraiment des mots, mais ils sont
intuitifs et populaires dans les médias sociaux. Ils facilitent la communication
entre les utilisateurs, mais il est très difficile d'identifier avec précision la
signification sémantique de ces messages.
◼ Utilisation libre d'un langage créatif, contextualisation poussée, écrits informels et
utilisation de pseudonymes/morphes.
4.3 Aspects distincts du texte dans
les médias sociaux
Le bruit (contenu bruyant) :
Outre les expressions non structurées, le texte est parfois « bruyant »
pour un sujet spécifique. Par exemple, un passage d'AQ dans Yahoo !
Answers « I like sony » devrait être une donnée bruyante pour un post
qui parle de la sortie de l'iPad 2. Il est difficile de classer le passage
dans les classes correspondantes sans tenir compte des informations
contextuelles.
L'analyse de texte dans les médias sociaux permet de dériver des données à partir de divers
aspects, notamment l'utilisateur, le contenu, le lien, la balise, l'horodatage, etc.Traduit avec
DeepL.com (version gratuite)
4.4 Préparation du contenu
Collecte de données Web(Gathering of Web Data)
◼ Récupérer des données via l'API Web
◼ Téléchargement d'ensembles de données pré-réunies
◼ explorer des documents ou des données (par exemple, les forums ne fournissent
pas d'interfaces programmatiques (API) pour capturer des données). Le
processus d'extraction automatique de données à partir de sites web est appelé
'web scraping'.
Figure 6. Illustration de l'arbre DOM (ou tag) construit à partir d'une simple page HTML. Les
nœuds internes (représentés par des ovales) représentent les balises HTML, la balise <html>
étant la racine. Les nœuds feuilles (représentés par des rectangles) correspondent à des
morceaux de texte.
4.4 Préparation du contenu
Example: Python Scrapy
Voici un exemple d'une session typique de Scrapy shell où nous commençons par
gratter la page principale du langage Python, https://www.python.org/.
Ensuite, le shell récupère l'URL (en utilisant le téléchargeur Scrapy) et imprime la liste
des objets disponibles et des raccourcis utiles (vous remarquerez que ces lignes
commencent toutes par le préfixe [s]). Après cela, nous pouvons commencer à utiliser
ces objets pour analyser la page.
4.4 Préparation du contenu
Par exemple, nous pouvons obtenir le texte du titre en utilisant l'objet réponse et le
langage xpath.
In [1]: response.xpath('//title/text()').extract()
Out[1]: ['Welcome to Python.org']
Ou bien nous voulons extraire tous les liens intégrés dans la page (cette opération
est nécessaire pour que le robot d'exploration fonctionne), qui sont généralement
placés dans des <a>, et la valeur de l'URL se trouve dans un attribut href :
In [2]: response.xpath("//a/@href").extract()
Out[2]:
['#content',
'#python-network',
'/',
'/psf-landing/',
'https://docs.python.org',
'https://pypi.python.org/',
Figure 7. Scraping de la page principale du langage Python et
extraction d'informations utiles
4.4 Préparation du contenu
• Un autre exemple d'extraction de données à partir d'une page
web en utilisant Python avec la bibliothèque BeautifulSoup
pour le parsing HTML et la bibliothèque requests pour
récupérer le contenu de la page :
• nous voulions extraire les titres des articles du site web "
pharmacie.ma ". Voici comment nous pourrions procéder:
4.4 Préparation du contenu
4.4 Préparation du contenu
Tâches et applications :
● Trouver les sites Web les plus populaires (Google Page Rank)
● Détection des communautés Web
● Prominence : Qui sont les acteurs les plus importants d'un réseau
social ?
● ...........
References
1 John Elder, Dursun Delen, Thomas Hill, Gary Miner and Bob Nisbet. Practical Text Mining and
Statistical Analysis for Non-structured Text Data Applications. Pub. Date: 2012, pages: 1093, ISBN:
978-0-12-386979-1. Publisher: Elsevier Science
2 Charu C. Aggarwal, Chengxiang Zhai. MINING TEXT DATA. ISBN: 9781461432234 1461432235.
Springer US, 2012.
3 Isoni Andrea. Machine Learning for the Web. Pub. Date: 2016, pages: 299, ISBN: 978-1-78588-
660-7. Publisher: Packt Publishing
4 Bing Liu. Web Data Mining. Pub. Date: 2011, Second Edition, pages: 622. ISBN: 978-3-642-19459-
7. Publisher: Springer-Verlag Berlin Heidelberg
5 Christian Bizer, Cäcilia and Zirn Oliver Lehmberg. Web Mining course.
6 Jaideep Srivastava. Web Mining : Accomplishments & Future Directions, University of Minnesota,
USA