Referencement Web Et Web Analitycs - Complet

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 60

1

Niveau d’étude : Licence 3


Filière : TWIN

Support de cours

REFERENCEMENT
ET WEB ANALYTICS

Enseignant : M CISSE Cédric


cedric.cisse@esa c.edu.ci
07 78 19 43 34

1
2

Sommaire

REFERENCEMENT ET WEB ANALYTICS..........................................................................1

INTRODUCTION GENERALE............................................................................................4

Par e I : Les normes et standards du web.....................................................................6

Chapitre I : Approche défini onnelle........................................................................6

I. Le web et internet...............................................................................................6

II. Les normes et les standards...............................................................................6

III- Evolu on norma ve du web.................................................................................7

III.1- Evolu on HTML..............................................................................................7

III.2- Evolu on du CSS...........................................................................................10

III.4- Le javascript..................................................................................................12

IV- Les règles d’accessibilité des contenus web.......................................................13

IV.1. Percep ble...................................................................................................13

IV.2. U lisable.......................................................................................................14

IV.3. Compréhensible...........................................................................................14

IV.4. Robuste........................................................................................................14

Par e 2 : Etude du fonc onnement des moteurs de recherche..................................15

Introduc on.............................................................................................................15

Chapitre I : Approche défini onnelle.......................................................................16

I- Défini on d’un moteur de recherche................................................................16

II- Catégorisa on des moteurs de recherche.......................................................16

III- Les robots & techniques d’indexa on.............................................................17

2
3

Quelques robots...................................................................................................17

Chapitre 2 : Approche méthodologique...................................................................22

I. Méthodes tradi onnelles d’indexa on.............................................................22

II. Les algorithme d’analyse des liens.......................................................................23

II.1. Indexa on par lots.........................................................................................24

II.2. Le crawler incrémental..................................................................................25

III. Google et le PageRank.....................................................................................27

Par e III : Les bonnes pra ques pour un référencement op mal...............................34

Chapitre I : Les techniques de référencement d’un site web...................................35

Chapitre II : Effectuer des recherches op males sur google....................................42

3
4

INTRODUCTION GENERALE

Le web est sans nul doute une technologie majeure du 21ème siècle. Et si sa nature,
sa structure et son u lisa on ont évolué au cours du temps, force est de constater
que ce e évolu on a également profondément modifié nos pra ques commerciales
et sociales.
Pour mieux comprendre les enjeux et les différentes phases de ce e évolu on,
livrons nous à un exercice de synthèse, qui ne se veut en aucun cas exhaus f, mais
qui devrait nous fournir quelques clés de compréhension :
 Le web 1.0, encore appelé web tradi onnel, est avant tout un web sta que,
centré sur la distribu on d’informa ons. Il se caractérise par des sites orientés
produits, qui sollicitent peu l’interven on des u lisateurs. Les premiers sites
d’e-commerce datent de ce e époque. Le coût des programmes et logiciels
propriétaires est énorme et l’explosion de la bulle dot.com, en 2000, remet en
ques on ce e approche de la toile.
 Le web 2.0, ou web social, change totalement de perspec ve. Il privilégie la
dimension de partage et d’échange d’informa ons et de contenus (textes,
vidéos, images ou autres). Il voit l’émergence des réseaux sociaux, des
Smartphones et des blogs. Le web se démocra se et se dynamise. L’avis du
consommateur est sollicité en permanence et il prend goût à ce e
socialisa on virtuelle. Toutefois, la proliféra on de contenus de qualité inégale
engendre une proliféra on d’informa ons difficiles à contrôler.
 Le web 3.0, aussi nommé web séman que, vise à organiser la masse
d’informa ons disponibles en fonc on du contexte et des besoins de chaque
u lisateur, en tenant compte de sa localisa on, de ses préférences, etc. C’est
un web qui tente de donner sens aux données. C’est aussi un web plus
portable et qui fait de plus en plus le lien entre monde réel et monde virtuel. Il
répond aux besoins d’u lisateurs mobiles, toujours connectés à travers une
mul tude de supports et d’applica ons malines ou ludiques.

4
5

 Le web 4.0, évoqué par certains comme le web intelligent, effraie autant qu’il
fascine, puisqu’il vise à immerger l’individu dans un environnement (web) de
plus en plus prégnant. Il pousse à son paroxysme la voie de la personnalisa on
ouverte par le web 3.0 mais il pose par la même occasion de nombreuses
ques ons quant à la protec on de la vie privée, au contrôle des données, etc.
C’est un terrain d’expérimenta on où tous ne sont pas (encore) prêts à
s’aventurer!

La lecture de l’évolu on du web nous permet amplement de comprendre tout l’enjeu


que cons tue ce e technologie pour les contemporains en général, mais surtout
pour les professionnels de la sécurité informa que et des technologies du web. En
tant que spécialistes, il nous est primordial de savoir produire du contenu numérique
respectant les normes en vigueurs tout en tenant compte des exigences et de la
complexité des évolu ons technologiques : tel est l’objet de ce cours.
Dans un premier temps, nous passerons en revue les différentes normes qui servent à
représenter les informa ons accessibles au travers du net. Secondement, nous
tenterons d’étudier le fonc onnement des moteurs de recherche afin de comprendre
la manière dont sont référencées les informa ons cons tuant les pages d’un site
web. Par ricochet, la dernière par e consistera à énumérer les bonnes pra ques pour
un référencement op mal.

5
6

Par e I : Les normes et standards du web

Chapitre I : Approche défini onnelle

I. Le web et internet
Le terme « web » est un diminu f de l’expression World Wide Web qui est inven on
de Time Berners-Lee. Elle a transfiguré internet au point d’en devenir un synonyme.
En réalité, internet est un réseau et le web est une technologie qui permet d’accéder
à ce réseau par le biais du protocole TCP/IP. Du coup il est plus juste de dire « site
web » que de dire « site internet ».

II. Les normes et les standards


Les sites web sont fabriqués avec des langages de programma on que sont : HTML,
Javascript et CSS. Ces langages reposent sur des normes et standards. Le W3C (World
Wide Web Consor um) est un organisme de normalisa on fondé en 1994 et chargé
de définir ces normes et standards par le biais de spécifica ons.
Respecter les règles du W3C apporte de nombreux avantages dont en voici quelques-
uns :
 Assurer la pérennité de votre site web en lui perme ant d’u liser les dernières
technologies
 Rendre son chargement rapide en allégeant le code
 Lui procurer une compa bilité avec tous les systèmes, tous les navigateurs,
tous les appareils.
 Offrir une séman que au HTML, c’est à dire donner du sens au code afin que
les moteurs de recherches indexent encore mieux votre contenu mais dans
une op que d’accessibilité.
Le W3C a depuis longtemps élaboré un ou l perme ant à tout un chacun de tester la
conformité d’un site web avec les normes : The W3C Markup Valida on Service.

6
7

III- Evolu on norma ve du web

III.1- Evolu on HTML


HTML= Hyper Text Markup Language

HTML 1.0 et HTML+

HTML a été inventé pour le World Wide web, afin de pouvoir écrire des documents
hypertextuels liant les différentes ressources d’internet. En août 1991, lorsque Tim
Berners-Lee annonce publiquement le web, il ne cite que le langage SGML, mais
donne l’URL d’un document ayant l’extension de fichier html.
Les premiers éléments du langage HTML sont le tre du document, les hyperliens, la
structura on du texte en tres, sous- tres, listes ou texte brut, et un mécanisme
rudimentaire de recherche par index. La descrip on d’HTML est alors assez
informelle.
L’état de HTML correspond alors à ce que l’on pourrait appeler HTML 1.0. Il n’existe
cependant aucune spécifica on portant ce nom, notamment parce que le langage
était alors en pleine évolu on. Un effet de normalisa on était cependant en cours. A
par r de la fin 1993, le terme HTML+ sera u lisé pour désigner la version future de
HTML.

HTML 2.0

Sor fin 1995, HTML (RFC 1866) a été développé par IETF’s HTML Working Group, qui
ferma en 1996. Il définit les standards pour les principales fonc onnalités de HTML
basé sur les pra ques en cours en 1994.

HTML 3.2

HTML 3.2 est la première recommanda on éditée par le W3C pour le HTML (14
janvier 1997). Elle représente un consensus des fonc onnalités présentes en 1996.
HTML 3.2 ajouta des fonc onnalités très u lisées, comme les tableaux, les applets,

7
8

les flux de texte autour des images, les scripts, etc... tout en conservant une
compa bilité avec le standard HTML 2.0.

HTML 4.0 et 4.01

HTML 4 (sor le 18 décembre 1997) ajoute les cadres (frames) , des op ons
mul média, langages de scripts, le support des feuilles de styles (CSS), des facilités
d’impression, ainsi que des fonc onnalités d’accessibilité. HTML4 fait également un
grand pas vers l’interna onalisa on des documents, dans le but de rendre le Web
vraiment WorldWide (mondial). HTML 4.01 (sor le 24 décembre 1999) n’ajoute que
des modifica ons mineures à la version 4.0. Elle est la dernière version d’HTML à voir
le jour (à par r de 2000, les efforts sont redirigés vers XHTML).

XHTML 1.0

La première spécifica on de XHTML est la 1.0, publiée le 26 janvier 2000. Il s’agit


d’une reformula on de HTML 4.01 basée sur XML au lieu de SGML.

Cet exemple illustre les différences syntaxiques les plus courantes entre un document
écrit en HTML 4 et en XHTML 1.0 :
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN">
< tle>Exemple HTML 4</ tle>
<ul>
<li>Des éléments comme HTML, HEAD et BODY sont implicites, leurs balises ouvrantes et
fermantes sont op onnelles.</li>
<li>De nombreuses balises fermantes sont op onnelles, notamment pour P (paragraphe) et LI
(entrée de liste).
<li>Les noms d'éléments et d'a ributs peuvent
<EM Class="important">librement</Em> mélanger majuscules et minuscules.</li>
<li>
Certains a ributs ont une valeur par défaut <table border><tr><td>x</td></tr></table>.</li>
<li>Les guillemets ne sont pas <em class=important>toujours</em> obligatoires autour des
valeurs d'a ribut.</li>
<li>Les éléments vides n'ont pas de balise fermante <img src="i.png" alt="i">.</li>
</ul>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0


Strict//EN" "h p://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="h p://www.w3.org/1999/xhtml">
<head>
< tle>Exemple XHTML 1</ tle>
</head>
<body>

8
9

<ul>
<li>Tous les éléments doivent être explicitement balisés.</li>
<li>Les balises fermantes ne sont pas op onnelles.</li>
<li>Les noms d'éléments et d'a ributs <em class="important">doivent</em> être en
minuscules.</li>
<li>Tous les a ributs doivent avoir une valeur explicite <table
border="1"><tr><td>x</td></tr></table>.</li>
<li>Les guillemets sont <em class="important">toujours</em> obligatoires autour des valeurs
d'a ribut.</li>
<li>Les éléments vides doivent être fermés <img src="i.png" alt="i"/>.</li>
</ul>
</body>
</html>

Il existe 3 types de XHTML 1.0 : on indique quelle variante on u lise en insérant une
ligne au début du document. Chaque variante a son propre DTD (Document Type
Defini on - Défini on du Type de Document)

 XHTML 1.0 Strict


A u liser pour obtenir un document très clair et structuré, sans aucune balise
associée à la mise en page. A u liser conjointement à CSS pour obtenir les
polices, couleurs et mise en page voulues.
 XHTML 1.0 Transi onal
La plupart des gens qui souhaitent écrire des pages web des nées au grand
public u lisant ce e version. L’idée est de prendre avantage des
fonc onnalités XHTML (y compris les feuilles de style) mais aussi de faire des
ajustements au code pour rendre la page plus compa ble avec tous les
navigateurs (y compris ceux qui ne gèrent pas les feuilles de style).
 XHTML 1.0 Frameset
A u liser si l’on souhaite insérer les frames pour diviser l’écran du navigateur
en 2 ou plusieurs frames. Ce e pra que est aujourd’hui proscrite.

XHTML 1.1
Les évolu ons suivantes, qui ont abou à XHTML 1.1, divisent le langage XHTML en
modules, chacun regroupant un type de fonc onnalités. Ce e division est conçue
pour perme re à du matériel informa que aux capacité techniques limitées,
9
10

notamment du matériel portable, de ne prendre en charge que des par es bien


définies de XHTML.
Ce e modularisa on est accompagnée de l’abandon des fonc onnalités de HTML 4
pouvant être reprises dans des feuilles de style (typiquement en CSS) : les
fonc onnalités définissant les détails de présenta on d’une page web. Le but de
ce e sépara on entre contenu informa f et présenta on est également de doter les
pages en XHTML de la souplesse nécessaire pour perme re la consulta on avec des
appareils très divers, de l’ordinateur de bureau au téléphone portable.

XHTML 2.0

XHTML 2.0 est un langage à balise conçu pour des applica ons web riches et
portables. Alors que ses ancêtres sont bien HTML 4, XHTML 1.0 et XHTML 1.1, il n’est
pas conçu pour être compa ble avec les versions plus anciennes. Les développeurs
ayant l’habitude des anciennes versions devraient retrouver leur marques sous
XHTML 2.0.

HTML 5

L’incompa bilité de XHTML 2.0 avec les versions plus anciennes a engendré
beaucoup de frais auprès de nombreuses entreprises et ins tu ons. Pour se me re à
jour vis à vis des normes, ces organisa ons se sont vues dans l’obliga on d’inves r
des millions auprès de développeurs. C’est la raison principale qui a occasionnée la
naissance du HTML 5 : plus simple, plus léger et plus riche.

III.2- Evolu on du CSS


CSS = Cascade Style Sheet

CSS 1.0

Le concept des feuilles de style a été à l’origine proposé en 1994 par Hâkon
Wium Lie ; Bert Bos travaillait au même moment sur un navigateur appelé
Argo, u lisant les feuilles de style ; ils décidèrent alors de développer

10
11

ensemble CSS. Quelques langages de feuille de style avaient déja été proposés,
mais CSS était le premier à inclure l’idée de « cascade » : la possibilité pour le
style d’un document d’être hérité à par r de plus d’une « feuille de style ».
Cela perme rait d’outrepasser le style d’un site spécifique, en héritant, ou en
« cascadant » le style du site dans d’autres régions. Ce e fonc on permet un
gain de contrôle, à la fois pour l’auteur du site, et pour l’u lisateur. Elle
permet aussi un mélange de préférences rela ves de style. La proposi on de
Hakon a été présentée à la conférence « Mosaic and the Web » de chicago en
1994, et par Bert Bos en 1995. A ce e époque, le W3C se créait, et le
consor um se prit d’intérêt pour CSS, et organisa un travail autour du langage.
Hakon et Bert étaient les responsables du projet. La norme CSS1 fut publiée en
décembre 1996.

CSS 2.0

En 1997, CSS fut a ribué à un groupe de travail au sein du W3C présidé par
Chris Lilley. Ce groupe commença par s’occuper des problèmes non réglés par
CSS1, ce qui entraîna la paru on de CSS2 comme une recommanda on
officielle en mai 1998. CSS2 propose de nombreuses nouvelles op ons pour
l’accessibilité (lecture orale des pages) et la portabilité. Le posi onnement de
CSS2 est plus flexible et offre plus d’op ons aux designers (mise en page pour
impression, meilleure ges on des polices, ges on des tableaux).

CSS 2.1

Devant les difficultés rencontrées lors de l’implémenta on de CSS2 par les


différents navigateurs, le W3C a décidé de revoir sa copie, et de présenter une
version simplifiée sur la base de ce qui a réellement pu être intégré à
différents navigateurs CSS3.

TAF : Présenta on et prise en main de SASS.

11
12

III.4- Le javascript

Javascript a été créé en 1995 par Brendan Eich. Il a été standardisé en 1997 et est à la
base de langages de programma ons similaires : jscript (implémentée par microso )
et ac on script (implémentée par adobe system). Javascript était à la base un langage
de programma on de scripts principalement employé dans les navigateurs pour être
exécuté sur le poste du client. Généralement, JavaScript sert à contrôler les données
saisies dans des formulaires HTML, ou à interagir avec le document
HTML via l'interface Document Object Model, fournie par le navigateur (on parle alors
parfois de HTML dynamique ou DHTML). JavaScript n'est pas limité à la manipula on
de documents HTML et peut aussi servir à manipuler des documents SVG, XUL et
autres dialectes XML .

Aujourd’hui, il est possible d’exécuter javascript du coté du serveur HTTP à l’instar de


PHP, ASP,etc. par le biais de Node.js. Node.js con ent une bibliothèque de serveur
HTTP intégrée, ce qui rend possible de faire tourner un serveur web sans avoir besoin
d'un logiciel externe comme Apache ou ligh pd, et perme ant de mieux contrôler la
façon dont le serveur web fonc onne. D'ailleurs le projet CommonJS travaille dans le
but de spécifier un écosystème pour JavaScript en dehors du navigateur (par exemple
sur le serveur ou pour les applica ons de bureau na ves). Il existe par ailleurs des
projets indépendants et Open Source d'implémenta on de serveurs en JavaScript.
Parmi eux, on pourra dis nguer Node.js, une plateforme polyvalente de
développement d'applica ons réseau se basant sur le moteur JavaScript V8 et les
spécifica ons CommonJS.
La syntaxe de javascript est néanmoins très poche de celle du langage C.

TAF : Exemple de prise en main de Node.js dans le domaine du développement


d’applica ons réseau

12
13

IV- Les règles d’accessibilité des contenus web

Les règles d’accessibilité des contenus web traduisez en anglais par Web Content
Accessibility Guidelines (WCAG) présentent un large éventail de recommanda ons
pour rendre les pages web un peu plus accessibles. Suivre ces règles rendra les
contenus accessibles à une plus grande variété de personnes en situa on de
handicap, incluant les personnes aveugles et malvoyantes, les personnes sourdes et
malentendantes, les personnes ayant des troubles d’appren ssage, des limites
cogni ves, des limita ons motrices, des limita ons de la parole, de la photosensibilité
et les personnes ayant une combinaison de ces limites fonc onnelles. Suivre ces
règles rendra aussi les contenus web souvent plus faciles d’u lisa on aux u lisateurs
en général.
Selon les règles du WCAG, les informa ons doivent être : percep bles, u lisables,
compréhensibles et robustes.

IV.1. Percep ble


L’informa on et les composantes de l’interface u lisateur doivent être présentés à
l’u lisateur de façon à ce qu’il puisse les percevoir.
i. les équivalents textuels : proposer des équivalents textuels à tout contenu
non textuel qui pourra alors être présenté sous d’autres formes selon les
besoins de l’u lisateur à savoir grands caractères, brailles, synthèses vocales,
symboles ou langage simplifié.
ii. Médias temporels : proposer des versions de remplacement aux médias
temporels.
iii. Adaptable : créer un contenu qui peut être représenter de différentes
manières sans perte d’informa on ni de structure (par exemple avec une mise
en page simplifiée).
iv. Dis nguable : faciliter la percep on visuelle et audi ve du contenu par
l’u lisateur, notamment en séparant le premier plan de l’arrière plan.

13
14

IV.2. U lisable
Les composants de l’interface u lisateur et de naviga on doivent être u lisables
i. Accessibilité au clavier : rendre toutes les fonc onnalités accessibles au clavier
ii. Délai suffisant : laisser suffisamment de temps pour lire et u liser le contenu
iii. Crises : ne pas produire de contenu suscep ble de provoquer des crises
iv. Navigable : fournir à l’u lisateur des éléments d’orienta on pour naviguer,
trouver le contenu et se situer dans le site.

IV.3. Compréhensible
Les informa ons et l’u lisa on de l’interface u lisateur doivent être compréhensibles
i. Lisible : rendre le contenu textuel lisible et compréhensible
ii. Prévisible : faire en sorte que les pages apparaissent et fonc onnent de
manière prévisible

IV.4. Robuste
Le contenu doit être suffisamment robuste pour être interpréter de manière fiable
par une vaste variété d’agents u lisateurs, y compris les technologies d’assistance. La
compa bilité doit être op misée avec les agents u lisateurs actuels et futurs, y
compris les technologies d’assistance.

14
15

Par e 2 : Étude du fonc onnement des moteurs de recherche

Introduc on
Internet regroupe de nombreux ou ls dont la toile (de l’anglais Web) qui comporte
de nombreuses pages publiées librement par des millions d’internautes. Du fait de la
forte croissance du réseau et du nombre grandissant de documents mis en ligne le
besoin s’est fait ressen r de trouver une informa on sans avoir à tout parcourir.
La recherche d’informa on sur Internet est un domaine d’applica on qui a beaucoup
évolué ces dernières années. On est passé d’annuaires répertoriant des liens à des
moteurs de recherches basiques pour en arriver aujourd’hui à des moteurs u lisant
des algorithmes d’indexa on et de recherche puissants. Les algorithmes des moteurs
de recherche sont tous basés sur des théories différentes mais leurs objec fs est le
même : indexer toute la toile, et l’indexer rapidement pour donner un résultat
per nent à l’u lisateur.
Afin de comprendre l’évolu on de ces moteurs de recherche et des algorithmes qu’ils
u lisent nous allons dans une première par e introduire la recherche d’informa on
pour mieux comprendre l’architecture de la toile ainsi que la manière dont on peut
l’indexer. Dans une seconde par e nous présenterons les différents algorithmes des
moteurs de recherche et plus par culièrement l’algorithme PageRank de Google.
Dans une troisième par e il s’agira de montrer vers quels moteurs de recherche nous
évoluons aujourd’hui en nous intéressant aux fonc ons lexicales et au Web
séman que.

15
16

Chapitre I : Approche défini onnelle

I- Défini on d’un moteur de recherche


Un moteur de recherche est une applica on web perme ant, de trouver des
ressources à par r d'une requête sous forme de mots. Les ressources peuvent être
des pages web, des ar cles de forums Usenet, des images, des vidéos, des fichiers,
etc.. Certains sites web offrent un moteur de recherche comme principale
fonc onnalité ; on appelle alors moteur de recherche le site lui-même.
Ce sont des instruments de recherche sur le web sans interven on humaine, ce qui
les dis ngue des annuaires. Ils sont basés sur des « robots », encore
appelés bots, spiders, crawlers ou agents qui parcourent les sites à intervalles
réguliers et de façon automa que pour découvrir de nouvelles adresses (URL). Ils
suivent les liens hypertextes qui relient les pages les unes aux autres, les uns après les
autres. Chaque page iden fiée est alors indexée dans une base de données,
accessible ensuite par les internautes à par r de mots-clés.
C'est par abus de langage qu'on appelle également moteurs de recherche des sites
web proposant des annuaires de sites web : dans ce cas, ce sont des instruments de
recherche élaborés par des personnes qui répertorient et classifient des sites web
jugés dignes d'intérêts, et non des robots d'indexa on — on peut citer par
exemple DMOZ et anciennement Yahoo!.

II- Catégorisa on des moteurs de recherche


Les moteurs de recherches accèdent aux données par le biais de logiciels appelés
robots. Ces moteurs fonc onnent différemment d’un moteur de recherche à un autre
mais il est possible d’en établir une catégorisa on.
 Les moteurs desktop :
Les moteurs de recherche ne s'appliquent pas qu'à Internet : certains moteurs
sont des logiciels installés sur un ordinateur personnel. Ce sont des moteurs
dits desktop qui combinent la recherche parmi les fichiers stockés sur le PC et

16
17

la recherche parmi les sites Web — on peut citer par exemple Exalead
Desktop, Google Desktop et Copernic Desktop Search, Windex Server, etc.
 Les métamoteurs :
On trouve également des métamoteurs, c'est-à-dire des sites web où une
même recherche est lancée simultanément sur plusieurs moteurs de
recherche, les résultats étant ensuite fusionnés pour être présentés à
l'internaute. On peut citer dans ce e
catégorie Ixquick, Mamma, Kartoo, Framabee ou Lilo.
 Les moteurs de recherche par mots clés : qui effectuent des recherches à
par r de mots clés ou de contenu même des sites.

III- Les robots & techniques d’indexa on

III.1- Les robots

Un robot d'indexa on (ou li éralement araignée du Web ; en anglais web crawler ou


web spider) est un logiciel qui explore automa quement le Web. Il est généralement
conçu pour collecter les ressources (pages Web, images, vidéos, documents Word,
PDF ou PostScript, etc.), afin de perme re à un moteur de recherche de les indexer.
Fonc onnant sur le même principe, certains robots malveillants (spambots) sont
u lisés pour archiver les ressources ou collecter des adresses électroniques
auxquelles envoyer des courriels.
En français, depuis 2013, crawler est remplaçable par le mot collecteur.
Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener
qu'une par e de leur informa on. Dès les années 1990, il a ainsi existé des
comparateurs de prix automa ques, puis des comparateurs performance/prix pour
les microprocesseurs . Des frameworks tout faits comme Scrapy existent pour écrire
de tels robots.

Quelques robots
Au nombre pléthorique des robots, nous pouvons citer :
 Googlebot de google.
17
18

 Slurp de Yahoo!
 MSNBot de MSN et Bing.
 HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites
Web pour une u lisa on hors ligne. Il est distribué sous la licence GPL.
 Scooter de AltaVista.
 OrangeBot est le robot d'indexa on du moteur d'Orange LeMoteur. Il possède
sa propre base de données mise à jour par le robot.
 Heritrix est le robot d'archivage de l'Internet Archive. Il a été écrit en Java.

III.2. Qu’est-ce qu’un index

De manière étymologique, un index est une liste alphabé que d'auteurs, de ma ères,
de mots clés, etc., apparaissant dans un ouvrage, avec des références perme ant de
les retrouver.
Dans le jargon du web, l’indexaƟon désigne l’acƟon du robot (c’est-à-dire d’un
programme) d’un moteur de recherche qui passe sur un site, le parcours (phase dite
de « crawl » du verbe « parcourir » en anglais) et indexe son contenu. Lorsque l’on dit
que le robot (le spider) indexe un site, cela signifie qu’il visite le site, en copie le
contenu et le stocke dans les serveurs du moteur de recherche. Nous u liserons ici le
terme « indexa on » au sens de l’indexa on Google. Nous ne traiterons pas de
l’indexa on Yahoo et Bing (les deux autres principaux moteurs de recherche) ;
retenez simplement que les systèmes d’indexa on sont assez proches dans leur
fonc onnement.
Il y a quelques pe tes choses à savoir sur le fonc onnement d'un moteur de
recherche lors d'une requête. La première chose à savoir c'est que le moteur de
recherche ne cherche pas sur le web, mais cherche plutôt sur ce qui est connu des
moteurs de recherche et indexé. Ensuite, le moteur de recherche u lise le principe
des index. Pour u liser une analogie, c'est comme s'il u lisait l'index d'un livre pour
chercher les pages qui con ennent le(s) mot(s) recherchés.

18
19

Contrairement à une pensée commune, certains moteurs de recherche tel que


Google, n'u lisent pas un super ordinateur. A la place, c'est un réseau de très
nombreux ordinateurs à capacités normales qui est u lisé. Les performances sont
beaucoup plus notables. Pour faire une analogie, c'est comme si Google demandait à
un groupe de 20 personnes de regarder l'index d'un livre chacun. C'est plus efficace
que de demander à une seule personne (aussi brillante soit-elle) de lire seul l'index de
chacun des 20 livres.
Finalement, les moteurs de recherche ont une astuce secrète pour fournir des
résultats encore plus rapides. Sachant que certaines requêtes sont très populaires
(exemple: "Facebook", "Youtube", "Vidéo", "TV", "Jeux" ...), les moteurs préparent à
l'avance les résultats. Ainsi, ils donnent directement les résultats sans nécessairement
avoir à chercher dans l'index.

III.3. Le fonc onnement d’un moteur de recherche

L’index correspond à la base de données de Google. Aujourd’hui, la taille de l’index


est es mée à plus de 30 000 milliards d’URL (données Wikipédia 2013), soit plus de
100 milliards de pages au minimum.
Remarque : l’index de Google ne représente pas tout le web. Le web dans sa globalité
est beaucoup plus vaste puisque Google indexe seulement les pages « indexables »,
c’est-à-dire les pages auxquelles son robot peut accéder. Nous verrons plus loin qu’il
existe des méthodes pour bloquer l’indexa on de certaines pages.

Depuis 2003, Google fonc onne avec 2 index. Il n’existe donc pas un index Google
mais bien des index Google.
 L’index principal : qui correspond aux pages désignées par Google comme
étant les plus intéressantes parmi toutes celles indexées.
 L’index secondaire : il est composé des pages « de second choix », autrement
dire celles de moindre qualité. Ce sera notamment le cas des pages

19
20

dupliquées (probléma que de duplicate content) ou jugées de « mauvaise


qualité » par Google.
Ces pages de contenus similaires seront ignorées par Google et ne ressor ront
dans les SERPS (les pages de résultats) que si l’internaute en fait la demande
expresse en cliquant sur le message « Relancer la recherche en incluant les
pages ignorées » affiché tout en bas de la page de résultats.
Remarque sur la no on « d’index inversé » : le terme d’index inversé désigne, non
pas un index de documents mais un index de mots-clés et son interac on avec l’index
de documents.

Illustra on du processus d’indexa on

20
21

Lorsque l’index a été cons tué, il est possible de l’u liser pour répondre aux
recherches des u lisateurs. Ce e phase demande énormément de ressources, car de
nombreuses recherches sont effectuées en même temps dans le cas de Google. De
plus, pour que le moteur de recherche soit u le, il doit classer les résultats des
recherches par ordre de per nence. C’est à ce stade que le fameux algorithme
du PageRank développée par Google entre en jeu.

21
22

Chapitre 2 : Approche méthodologique

I. Méthodes tradi onnelles d’indexa on


Tout moteur de recherche qui indexe des pages Web doit obéir à certaines règles de
base.
→ L’indexa on doit être rapide : le Web évolue tous les jours, en effet on voit
apparaître de nouvelles pages de plus en plus fréquemment mais en plus le contenu
de ces pages est mis à jour de façon quo dienne ou même une fois par heure.
→ L’indexa on doit être complète : hormis pour les composants déconnectés
du Web un moteur d’indexa on doit être capable de récupérer les informa ons
per nentes des pages.
→ L’indexa on doit respecter les sites : certains sites con ennent des pages
cachées ou des pages authen fiées, d’autres sites u lisent le fichier robot.txt qui
indique au moteur d’indexa on qu’il ne souhaite pas être référencé.

Pour ce faire les moteurs d’indexa on u lisent des robots qui parcourent le Web et
qui relèvent les informa ons contenues dans les pages. Plusieurs méthodes sont
u lisées, en essayant d’op miser les trois caractéris ques citées ci-dessus.

Dans ces différents moteurs d’indexa on on voit apparaître deux catégories :


- une catégorie qui indexe chaque page visitée sur le Web, ce e méthode a une
vue du Web bas niveau,
- une autre catégorie qui sépare le Web en plusieurs domaines qui con ennent
eux-mêmes plusieurs pages, ce e méthode a une vue du Web haut niveau.

Les balises META


Le langage HTML prévoit dans son codage une par e réservée aux moteurs de
recherche. Les balises META1 con ennent des informa ons rela ves au contenu de la

1 META pour Méta données, En informatique, une méta donnée est une donnée
contenue dans un fichier qui décrit son contenu.
22
23

page Web. Ces balises sont mal exploitées et souvent inefficaces pour les raisons
suivantes :
 Les développeurs de pages Web ne fournissent que très rarement ces
informa ons.
 Lorsqu’elles sont renseignées ces balises ne sont pas toujours significa ves du
réel contenu de la page.
 Les balises META2 sont souvent u lisées à mauvais escient par les spammeurs
qui souhaitent faire apparaître leurs sites en haut des listes des moteurs de
recherche.
 Tous les moteurs de recherche n’u lisent pas ces balises META pour indexer le
contenu d’une page.

Les balises META sont disponibles sur chaque page HTML (bien que rarement
renseignées sur une autre page que la page d’accueil d’un site), ce e méthode
d’indexa on est donc une méthode qui u lise la structure bas niveau du Web.
Bien qu’u lisée dans les premiers moteurs de recherche, aujourd’hui les moteurs
d’indexa on s’a achent plus au contenu réel dans la page qu’aux méta données.
C’est donc dans ce e op que que nous pouvons nous intéresser aux différents
algorithmes qui indexent les pages Web.

II. Les algorithme d’analyse des liens


Tout comme pour les moteurs d’indexa on tradi onnels les objec fs restent les
mêmes, c'est-à-dire qu’il faut indexer vite mais il faut tout indexer. Les méthodes qui
vont suivre ne cherchent pas à savoir ce que l’auteur d’une page veut faire ressor r
comme informa on en scrutant le contenu des balises META mais les moteurs
d’indexa on doivent récupérer tout le contenu des pages et les analyser rapidement.
Le contexte dans lequel sont apparus ces nouveaux moteurs ne laissait pas présager
une certaine aisance, le nombre de pages est en perpétuelle augmenta on, les

2 Le SPAM désigne les communications électroniques massives à des fins publicitaires ou malhonnêtes. En
France les spammeurs sont aussi appelés polluposteurs.
23
24

capacités des supports de stockages augmentent en même temps que leurs prix
baissent, ce qui encourage les développeurs à créer des pages Web avec de plus en
plus d’informa on (texte, sons, vidéos…). C’est donc une mission difficile pour ces
moteurs d’indexa on qui envoient des robots pour récupérer le maximum
d’informa on en un temps assez court afin que les données une fois indexées ne
soient pas obsolètes.
En plus du souci de la rapidité d’indexa on les robots doivent passer partout et donc
récupérer l’informa on de toutes nouvelles pages mises en ligne sur Internet.

II.1. Indexa on par lots


L’indexa on par lots (en anglais Batch Crawling) est une des premières méthodes
u lisées dans l’analyse des liens. Ce type de moteur se soucie tout d’abord de
l’indexa on de la majorité des pages, c'est-à-dire essayer de ne rien oublier, ou du
moins ne rien oublier d’important.
 La 1° étape de l’indexa on par lots consiste à créer une liste de pages
suscep bles d’être fortement connectées au reste du Web. Ce e liste d’URL
(appelée Seed URL en anglais) représente le point de départ crucial pour le
batch crawling.
 Lors de la 2° étape les robots envoyés par le moteur d’indexa on vont aspirer
les pages de la liste d’URL.
 Les pages aspirées sont analysées et plus par culièrement les liens qu’elles
possèdent qui vont être ajoutées à la nouvelle liste d’URL. C’est ce e 3° étape
appelée le crawling qui crée des files d’a entes d’URL qui vont être traitées les
unes après les autres.
 On repart ainsi à la 1° étape avec la nouvelle liste.

Lorsque les files d’a ente ne con ennent plus de nouvelles URL le moteur
d’indexa on peut es mer que tout le Web a été visité et indexé, à condi on
évidemment que la liste de départ con ent bien des pages fortement connectées au
reste du Web.

24
25

L’avantage majeur de ce procédé est l’indexa on quasi-totale du Web en u lisant les


liens récupérés à chaque passage dans une nouvelle page.
L’inconvénient est le temps que cela prend pour indexer tout le Web et notamment
le temps perdu à ré indexer les pages plusieurs fois. De cet inconvénient découle un
autre problème qui est le fait que le temps d’indexer tout le Web de nombreuses
pages sont obsolètes (environ un mois pour tout indexer). La solu on à ce problème
serait de posséder des robots intelligents qui seraient capables d’indexer les pages à
une fréquence dépendante de la fréquence de mise à jour du site.

II.2. Le crawler incrémental


Pour palier aux inconvénients du batch crawling plusieurs constats ont été posés afin
de trouver des solu ons.
Les constats
 Les informa ons indexables sur le Web représentent plusieurs téraoctets de
données, la ges on d’une telle quan té de données est un défi gigantesque
sur le plan technique.
 Les périodes d’indexa on sont longues et en par es obsolètes une fois
terminées.
 Toutes les pages disponibles sur la toile n’ont pas toute la même importance.

Les solu ons proposées pour le crawler incrémental :


 La totalité de la masse d’informa on présente sur le Web n’est pas u le pour
des u lisa ons classiques d’un moteur de recherche. Une solu on est donc de
limiter la taille de l’index à une por on de cet ensemble sans trop dégrader la
per nence des résultats. On souhaite travailler désormais sur un index de
taille fixe et limitée dans le but de privilégier la fraîcheur et la qualité par
rapport à l’exhaus vité.
 Contrairement à l’indexa on par lot les robots d’indexa on ne doivent jamais
s’arrêter et n’obéissent plus à des cycles. Ces robots ont pour mission de
25
26

déterminer l’obsolescence des pages et d’effectuer leurs mises à jour dans


l’index.
 Il faut différencier les pages par leur importance, et leur a ribuer une note
d’importance qui jouera sur le classement lors d’une réponse à une recherche
mais aussi qui modifiera la fréquence de mise à jour de son indexa on.

Ce e méthode évite d’indexer des pages non modifiées, elle est donc économique en
ressources (ressources qui seront u lisées pour gagner du temps par ailleurs). Il est
désormais possible d’adapter la périodicité du crawl à la fréquence de changement
des pages, selon le site visité ou le domaine. Le cycle de crawl n’est donc plus
uniforme.
En plus de la fréquence de mise à jour des pages le robot doit se préoccuper des
nouvelles pages et de celles qui ont été supprimées. C’est ici que réapparaît la
technique de l’indexa on par lot qui va être exécutée pour collecter les informa ons
fiables afin d’éviter une dérive de l’index.
Un exemple concret de Web incrémental est « Seeker ». Ce moteur d’indexa on a
été proposé par Jenny Edwards, une spécialiste australienne des robots d’indexa on.
Ce e méthode d’indexa on a été proposée pour un ou l de recherche d’IBM nommé
Webfountain.
La par cularité d’IBM est que en son sein il est possible de posséder des sta ons de
travail ultra puissantes avec une très bonne bande passante et avec des énormes
capacités de stockage. C’est pourquoi le moteur d’indexa on créé dans ce cas ne
travaillait pas sur un index de taille fixe (index fermé) mais plutôt sur un index ouvert
capable de suivre en quasi temps réel la croissance de la toile. En plus de me re à
jour les informa ons existantes des pages déjà présentes dans l’index ce moteur met
à jour la structure des sites qui vont composer l’index.
Le Web incrémental re son épingle du jeu en travaillant sur un index élaboré et
maîtrisé (du fait d’une bonne méthode de limite de sa taille). De ce fait la rapidité
pour indexer le Web devient plus importante mais les résultats en retour d’une

26
27

recherche ont une per nence toujours discutable. Le talon d’Achille de ces moteurs
demeure donc dans la qualité de classifica on des résultats et donc dans la méthode
u lisée pour noter les pages lors de leurs indexa ons.

III. Google et le PageRank

Google est une société fondée en 1998 par Larry Page et Sergei Brin en Californie.
Mais Google est avant tout un moteur de recherche créé en 1996 par les deux
cofondateurs de la société alors qu’ils étaient encore étudiants à l’université de
Stanford. Le projet Google traite d’un moteur de recherche dont le fondement est
basé sur le principe d’une analyse des rela ons entre les sites Web.

III.1. Le fonc onnement du moteur de recherche Google

Le moteur de recherche tel qu’il est apparu en 1998 a subi des modifica ons suite au
travail des développeurs qui sont allés dans le sens de la rapidité d’indexa on, de la
per nence des réponses aux requêtes des u lisateurs, et de la justesse du PageRank
a ribué à une page.
Depuis 2003 le moteur de recherche fonc onne comme suit :
 Tout d’abord l’indexa on, elle est réalisée par le Google bot, qui est chargé de
ré indexer les pages contenues dans l’index actuel mais aussi d’indexer les
nouvelles pages. La période d’indexa on s’adapte aux besoins de
rafraîchissement des différentes pages, que ce soit des pages personnelles
(mises à jour à une fréquence aléatoire) ou des pages d’actualité (avec des
fréquences de mises à jour plus importantes). C’est une nouveauté de Google
car dans sa première version le moteur de recherche effectuait ses trois
fonc ons via l’u lisa on de plusieurs robots. Le Google bot est capable de
suivre tout type de lien et il est donc capable d’indexer la totalité du Web.

En plus du Google bot, il existe deux autres robots d’indexa on qui ont des fonc ons
bien par culières, elles sont liées aux nouveautés que proposent Google :

27
28

- Un robot qui se charge d’indexer les pages affichées ensuite dans Google News,
- Un robot qui se charge d’indexer les pages commerciales qui seront affichées dans
le bandeau de droite d’une réponse à une requête quelconque, c’est le robot de
Google AdSense.

 La seconde étape durant laquelle le calcul des notes des pages en fonc on du
contenu et des liens.

III.2. Le PageRank

Pendant que de nombreux chercheurs ont passé beaucoup de temps à imaginer des
algorithmes capables d’indexer tout le Web ou de l’indexer le plus rapidement
possible Larry Page et Sergei Brin se sont penchés sur le classement des résultats
d’une recherche. Ils ont imaginé une méthode pour déterminer l’importance d’une
page Web. Contrairement à d’autres algorithmes le pageRank ne se base pas sur le
contenu total d’une page Web mais plutôt sur ses liens sortants mais aussi entrants.
En français PageRank signifie rang de la page, on retrouve dans ce e dénomina on la
volonté de classer les pages par importance et de leur donner un rang pour les
dis nguer les unes des autres lors d’une requête sur le moteur de recherche.

Défini on de l’algorithme du pageRank telle qu’énoncée dans la publica on de


Google :
Le PageRank peut être calculé en u lisant un simple algorithme itéra f, et
correspond au vecteur propre principal de la matrice normalisée des liens du Web.

a) Le concept de base de l’algorithme :


Un lien d’une page A vers une page B est traduit par le fait que le webmestre de la
page A es me que la page B est de bonne qualité et, de plus, il y a de fortes chances
pour que le domaine des informa ons contenues dans la page B ait un lien avec le

28
29

domaine des informa ons de la page A. En possédant un lien vers la page B, A affecte
donc un vote à B.
On comprend donc aisément que plus la page B reçoit de votes (possède des liens
entrants) d’autres pages du Web plus elle est considérée comme importante par
Google et plus elle aura de chances de se retrouver bien placée en réponse à une
requête dans le domaine dont elle traite.

Remarques :
- L’importance de la page B éme rice du lien vers la page B n’est pas négligeable
pour déterminer l’importance de la page B. En effet une page possédant une
mul tude de liens entrants de la part de sites persos n’ob endra pas le même
classement qu’une page qui possède quelques liens entrants de la part de sites
reconnus et mondialement connus.
- Comme pour l’indexa on incrémentale, et comme son nom l’indique l’algorithme
pageRank n’a ribue pas un classement pour un site complet mais pour chaque page
qui le cons tue. Aucune extrapola on (moyenne des pages d’un site ou autre) n’a été
réalisée afin de noter le site plutôt que ses pages.
- L’algorithme pageRank ne scrute pas le contenu d’une page afin d’y déceler les
méta données ou autres informa ons qui pourraient aider le moteur d’indexa on à
donner une note per nente en rapport avec tel ou tel sujet. L’algorithme pageRank
est basé sur le principe des liens et donc le fait qu’une page est un fort pageRank ne
signifie pas que son contenu est très intéressant ni que les informa ons sont vraies,
une page a un fort pageRank si de nombreuses pages pointent vers elle.

b) La barre d’ou ls de Google3

3 La barre d’outils de Google = Google Toolbar


29
30

Afin de mieux sensibiliser les u lisateurs du moteur de recherche, Google propose


une barre d’ou ls qui s’insère sous menus du navigateur Web. Ce e barre d’ou l
Google donne la possibilité d’effectuer une recherche à l’aide d’une barre de saisie de
texte, la réponse à la requête est transcrite dans la fenêtre de recherche de Google
habituelle. La nouvelle fonc onnalité qui la différencie par rapport aux autres barres
d’ou ls des moteurs de recherche est l’affichage du pageRank de la page en cours.
De nombreux ar cles traitent de l’algorithme pageRank depuis sa sor e en 1998.
L’équipe de Google a volontairement gardé une part de secret dans cet algorithme en
donnant seulement le principe de base qui pour une page donnée calcule le rang
d’une page. De ce fait de nombreux mathéma ciens ont émis des hypothèses pour
retrouver l’algorithme exact. Avec la formule du pageRank ces derniers n’ont qu’à
essayer avec plusieurs paramètres et plusieurs hypothèses pour se rapprocher des
vrais résultats retournés actuellement par la « Google Toolbar ».
c) La formule de l’algorithme pageRank
Même si tous les secrets de l’algorithme pageRank n’ont pas été testés la plupart des
informa ons ont été données et cela suffit pour, dans un premier temps, s’intéresser
à la formule mathéma que qui a fait la gloire du moteur de recherche Google.
Les pages T1, T2, …, Tn possèdent des liens sortants vers la page A, le pageRank de la
page A est le suivant :
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
- PR(A) est le pageRank calculée pour une page A (idem pour T1, Tn…).
- d est un coefficient d’amor ssement qui limite l’importance de la quan té des votes
donnés à une page. Ce facteur peut être ajusté entre 0 et 1, il prend généralement la
valeur 0.85.
- La nota on (1-d) est la garan e que la moyenne des pageRank de l’ensemble des
pages Web est égal à 1.
- T1 à Tn sont des pages qui éme ent des liens vers la page A.
- C(Tn) est le nombre de liens émis par la page Tn. Ce e par e de la formule nous
met la puce à l’oreille sur le fait que si une page Y qui pointe vers la page possède de

30
31

nombreux liens sortants l’importance de chaque lien (et donc de celui pointant vers
A) va être minimisé propor onnellement au nombre de liens.
Le résultat de ce e formule donne dans la théorie des valeurs frac onnaires, en effet
on peut s’apercevoir que le pageRank d’une page peut varier de 0.15 jusqu’à une
valeur très grande. Hors nous avons vu précédemment que les pageRank affichés
dans la pra que sont compris entre 0 et 10 et ce ne sont que des valeurs en ères.
Google cache une par e de son algorithme, certains parlent d’une échelle
logarithmique de base 10 qui, en effet, fait retomber sur les bonnes valeurs les rangs
calculés par le pageRank.
Voici les 11 possibilités de valeurs de pageRank affiché sur la barre d’ou ls de Google:
PageRank affiché4 PageRank calculé par l'algo
0 1 A 10
1 10 A 100
2 100 A 1 000
3 1 000 A 10 000
4 10 000 A 100 000
5 100 000 A 1 000 000
6 1 000 000 A 10 000 000
7 10 000 000 A 100 000 000
8 100 000 000 A 1 000 000 000
9 1 000 000 000 A 10 000 000 000
10 Supérieur A 100 000 000 000
PageRank affiché en fonc on du pageRank calculé

Remarque :
L’échelle logarithmique de base 10 est reprise dans de nombreux ar cles traitant de
l’algorithme pageRank de Google mais elle n’est en aucun cas énoncée explicitement
par les fondateurs de l’algorithme. Cependant ce e hypothèse offre des résultats qui
se rapprochent du résultat retourné par la barre d’ou l de Google et elle aide à la
compréhension.

4 PageRank calculé selon une hypothèse d’utilisation d’une échelle logarithmique, cela dit très proche
de la réalité.
31
32

d) L’algorithme itéra f
Si on s’intéresse de plus prés à la défini on donnée dans la publica on de Google on
s’aperçoit que l’on parle d’un algorithme itéra f et qui va donc de pages en pages
pour calculer le pageRank de chacune d’elles, et ceci, en boucle. Une ques on se
pose alors étant donnée la formule sur la valeur de pageRank de la première page
visitée. Elle va influencer les valeurs des pageRank des pages vers qui elle a un lien
sortant, et ainsi de suite. Il parait donc très important de connaître la valeur de
pageRank de départ à donner ou à calculer et il faudrait pouvoir évaluer par la suite si
la valeur choisie était la bonne.
→ En réalité le caractère itéra f de l’algorithme fait que chaque itéra on fait
converger les résultats vers une valeur de plus en plus précise. La valeur finale est
retenue à chaque fin d’itéra on et est réinjectée dans l’itéra on suivante. On
s’aperçoit alors que qu’elle que soit la valeur donnée en entrée l’itéra on fera
toujours converger l’algorithme vers la même valeur. Pour accélérer le processus
d’itéra on qui devrait boucler autant de fois que de pages visitées le facteur
d’amor ssement a été mis en place dans l’algorithme, il joue le rôle de modérateur
et fait converger les valeurs rapidement. Le nombre d’itéra ons u lisé pour indexer
le nombre impressionnant de pages Web existantes (quelques milliards) est d’environ
40.
Ce qui a été présenté jusque ici est la par e de l’algorithme du moteur de recherche.
L’algorithme est la base du moteur de recherche Google mais depuis sa mise en
fonc onnement en 1998 le moteur de recherche a subi des modifica ons. D’une part
les robots d’indexa on ont été améliorés et d’autre part des modifica ons ont été
effectuées au niveau du PageRank afin que les notes données aux pages soient bien
objec ves et per nentes.
 En effet Google s’est intéressé de plus prés au contenu des pages et a mis en
place un système pour évaluer si une page est bien en rela on avec le texte du
lien par lequel a est arrivé le robot d’indexa on. Bien que Google ne dévoile

32
33

rien sur les algorithmes u lisés sur de nombreux forums les administrateurs de
sites parlent d’algorithme Hilltop et localrank.
 De plus le PageRank veut se protéger des systèmes qui ont pour but de faire
apparaître des pages dans le début des listes de réponse, et ceci en jouant
avec l’algorithme PageRank. Pour se protéger de ses pages indésirables Google
u liserait des filtres iden ques à ceux u lisés pour filtrer nos mails.

Le domaine des algorithmes des moteurs de recherche se montre divers et varié mais
ce qui le caractérise le plus c’est l’évolu on qu’il subit du fait de la forte demande des
u lisateurs qui souhaitent trouver avec facilité, rapidité et fiabilité une réponse à leur
requête. Dans le lot des moteurs de recherche Google a su se posi onner dans les
premiers dès son arrivée en 1998 avec son algorithme PageRank. Alors que sa place
de numéro un est difficile à détrôner Google ne souhaite pas en rester là et, en plus
des fonc onnalités de plus en plus nombreuses qu’il propose, renforce son
algorithme afin de gagner en rapidité et en per nence. Les caractéris ques
présentées ci-dessus ne sont que des théories et, alors que les premiers moteurs de
recherche séman ques montrent le bout de leur nez certaines théories apparaissent
désormais sur le fait que Google, lui aussi, se tournerait vers des ou ls séman ques.

33
34

Par e III : Les bonnes pra ques pour un référencement op mal

Dans la première par e du cours, nous avons parcouru les normes et standards du
web. Dans la seconde par e, il a été ques on d’étudier le fonc onnement des
moteurs de recherche. Il ressort de ce qui précède la no on d’indexa on de contenus
et de per nence de contenu. Dans la pra que, ce mécanisme consiste à répertorier
de manière régulière les url du web et les associer à des mots clés. Les résultats
obtenus sont présentés par ordre de per nence lors des recherches des internautes.
Le référencement répond donc à un double défi qui se résume en la produc on de
pages web op misés pour l’indexa on et à la manipula on savante de mots clés
per nents.
Dans ce e troisième grande par e de notre cours, nous tenterons une double
approche du référencement : une approche du point de vu développement web et
une autre du point de vu internaute.
L’approche du point de vu du réalisateur du site web nous perme ra d’explorer les
techniques de référencement de contenus numériques. Tandis que l’approche du
point de vu internaute, exposera à l’aide de cas pra ques comment effectuer des
recherches op males sur Google.

34
35

Chapitre I : Les techniques de référencement d’un site web


On dit qu’un site web est bien référencé, lorsqu’il occupe un bon posi onnement
dans les résultats affichés dans les moteurs de recherche. Le référencement est un
passage obligé pour faire connaitre votre site web et en obtenir un retour sur
inves ssement.

I. Les types de référencements

Il existe deux principaux types de référencement : le référencement naturel et le


référencement payant.
 Le référencement naturel
Aussi nommé référencement organique, le référencement naturel regroupe
l’ensemble des techniques pour op miser le posi onnement d’un site dans les
résultats des moteurs de recherche. Toutes ces méthodes se retrouvent sous
l’acronyme de SEO (Search Engine OpƟmizaƟon). En référencement naturel on
parlera de lien organique c’est à dire de liens issus de l’algorithme de
per nence sans interven on d’un système publicitaire ou monétaire.
 Le référencement payant
Aussi nommé référencement sponsorisé, ou non organique, le référencement
payant désigne toutes les ac ons visant à posi onner son site en tête de
moteur de recherche en achetant des liens sponsorisés. Ces méthodes se
retrouvent sous le terme de SEA (Search Engine AdverƟsing). Il s’agit de toute
publicités commerciales mises en place sur les moteurs de recherche avec
principalement le référencement commercial google Adwords.

Pour un site web en début de son cycle de vie, il est conseillé d’u liser le
référencement payant afin d’a rer le maximum de visiteurs. Néanmoins, ce e
approche ne garan t pas un référencement intemporel. En effet, une fois que vous
arrêtez de payer le moteur de recherche, les pages web promus retrouvent la place
qui leur est réellement des née. De premier affiché sur les résultats, vous pouvez

35
36

passer du jour au lendemain à la dernière page des recherches. Il vous incombe donc
d’op miser votre site web pour un référencement naturel afin de lui maintenir une
place de choix dans le temps, même sans ou à l’arrêt d’un référencement payant.

II. Les étapes du référencement payant

Nous vous indiquons un aperçu des meilleures pra ques et des 4 étapes éprouvées
qui mènent au succès.

Etape 1. Poser les bases de la campagne référencement payant


Au même tre que pour toute autre ac on du marke ng digital, lancer une
campagne de référencement payant débute par une réflexion approfondie sur les
points essen els de l'opéra on.
- De quoi devez-vous faire la promo on à travers l'annonce ? Quels
produits/services ?
- Quelle est la cible ? Qui voulez-vous a eindre grâce à la campagne ? Quel profil
d'internautes ? Quelle zone géographique ?
- Quels sont les points forts de l'offre que vous voulez me re en avant ? Quel est le
point de différen a on avec la concurrence ?
- Quand la campagne doit-elle être lancée ? Pour quelle durée ?
- Quels sont les objec fs à a eindre ? Quels sont les retours escomptés ? De quel
nature sont-ils ? (Meilleure visibilité, gain de leads, gain de part de marché, gain de
clientèle...)

Etape 2. Définir les mots clés stratégiques


Ce sont des mots et expressions-clés que les internautes recherchent sur Google et
consorts et qui correspondent à votre offre en produits ou services à op miser et/ou
au cœur de mé er de votre entreprise/marque.

36
37

Grâce à l'ou l de "planifica on de mots-clés" de Google Adwords (qui est LE service


leader en référencement payant), il vous sera possible d'affiner votre démarche car la
solu on permet de connaître :
 Le volume de recherche selon les mots-clés : sont-ils très recherchés par
les internautes (et donc très concurren els) ?
 L’enchère suggérée par mots-clés : plus les mots-clés sont sollicités par
les internautes et par votre concurrence, plus leur niveau tarifaire est
élevé.
 Des sugges ons de mots-clés car la plateforme en propose des
complémentaires.
 Des prévisions sur le nombre de "clics" que pourrait apporter la
campagne.

D'autres ou ls que celui de Google Adwords existent pour travailler avec précision la
liste de mots-clés :
- SEMRush : donne la liste des mots-clés de votre concurrence.
- Übersuggest : propose des mots-clés complémentaires.

Etape 3. Définir le budget


Le principe de base de fonc onnement d'une campagne de référencement payant est
qu'elle s'appuie sur le nombre de clics des internautes sur votre future annonce, c'est
le "coût par clic" ou CPC.
Cela implique un paiement dès qu'un internaute clique sur l'annonce puis a été
redirigé vers la page de votre site ou autre (réseaux sociaux dans certains cas ou mini-
sites promo onnels). Un budget global est ainsi défini, budget qui diminuera donc au
fur et à mesure que les internautes cliqueront sur votre annonce en fonc on des
mots-clés que vous aurez choisis.
L'ou l de prévision de Google Adwords donne la possibilité d'obtenir une es ma on
du CPC moyen total pour chaque mot-clé ainsi que son volume de recherche mois par

37
38

mois. Vous pourrez ainsi travailler à définir un budget réaliste et cohérent avec vos
moyens, vos objec fs et la concurrence.

Etape 4. Rédiger l’annonce


Pour concevoir une annonce qui donnera envie aux internautes de cliquer dessus et
qui présentera de manière op male votre offre et vos atouts, quelques règles sont à
respecter :
 Un tre court et accrocheur de 25 caractères maximum.
 Le corps de l'annonce, sa descrip on, doit être contenu dans 2 voir 3 lignes
idéalement avec un volume de 35 caractères maximum par ligne.
 Une URL claire : l'adresse de la page web vers laquelle l'annonce redirigera les
internautes.

Dès lors que vous aurez franchi toutes ces étapes, il ne vous restera plus qu'à lancer
votre campagne de référencement payant.
Les premiers résultats commencent généralement à se concré ser passé quelques
jours voire quelques semaines.

III. Les techniques de référencements naturels

III.1. Les critères de référencements naturels


 Contenu dupliqué (duplicate content)
Sur votre site vous devez veiller à ne pas avoir de contenus similaires entre
plusieurs pages. Il faudra surveiller le contenu dupliqué sur votre site web et
sur les sites externes. Google sanc onne certaine de ces pra ques et cela peut
fortement impacter le référencement.
 Les règles pour un code HTML propre
Le respect des normes dans la structura on du code HTML de votre site web
est un des critères de fiabilité de votre site web. Par exemple, un site web non
e-responsive, n’est pas en bonne posture lors des recherches à par r de

38
39

mobiles. Un autre exemple, un site web avec une ou plusieurs pages isolée
diminue ses chances de référencement dans la mesure où les robots
constateront le manque de navigabilité.
 La rapidité d’affichage des pages
De même que les internautes préfèrent les pages web qui chargent vite et qui
n’ont pas besoin d’a endre avant d’accéder aux informa ons, les moteurs de
recherches aussi prennent en compte la vitesse de chargement des pages dans
leur algorithme d’évalua on de la per nence.
 Mobile friends
Développé en 2014, le label Google « Mobile Friendly » permet d’améliorer le
référencement d’un site classique. La valida on par Google de la qualité de
votre site, sera désormais un nouveau critère ajouté à l’algorithme de
classement.
 Le nombre de visiteurs
Un site web qui totalise beaucoup de visites est mieux référencé qu’un site
web produisant une même qualité d’informa ons mais moins visitée.

III.2. Les techniques de référencements naturels


 Un contenu per nent et une structure cohérente du site
Un bon référencement passe avant tout par une arborescence cohérente avec
l’ac vité et me ant en valeur les informa ons que vous publiez. Si le contenu
de votre site web est riche, a rac f et régulièrement mis à jour, vous
donnerez sa sfac on à vos internautes qui reviendront plus souvent et
augmenteront de ce fait la per nence de vos liens vis à vis des moteurs de
recherche.
 Le référencement par mots clés
Nous définirons un ensemble de mots correspondant à l’ac vité du site web.
Nous vérifierons ensuite que ces mots clés sont bien présents sur le site web.
Chaque mot clé doit correspondre à une page web par culièrement op misée
pour celui ci. Ce e technique donne du poids vis à vis des recherches associés
39
40

à ce mot clé, contrairement à la technique qui consiste à me re un maximum


mots clés dans une page web (chaque mot clé serait dilué).
 Augmenter le nombre de liens pointant vers votre site
En parcourant le web, les robots tomberont plusieurs fois sur des pages qui
recommanderont l’url d’une page ou de plusieurs pages de votre site web.
Cela est un gage de qualité pour les moteurs de recherches.
Vous améliorez votre visibilité quand :
- ces sites sont le plus populaire possible, c’est pour cela une présence sur les
réseaux sociaux est conseillée.
- ils doivent être en rapport avec votre domaine d’ac vité. Par exemple les
annuaires professionnels.
- le texte ou la page qui vous cite doit être, au mieux, en rapport avec la page
liée.
- les pages qui vous citent doivent avoir des liens entrants et le moins possible
de liens sortants.
N.B : L’idéal serait que ces liens proviennent de site web qui traitent de la même
théma que. Parce que google a développé des algorithmes tels que Penguin qui sont
spécialisés dans la détec on de liens qui proviennent d’un site ayant une théma que
différente de celle du site visé. Le problème est que lorsque Google regarde un lien, il
le replace dans le contexte de l’ar cle ET du site. En conséquence, un lien provenant
d’un ar cle sur les techniques de référencement sur un blog de Référencement sera
mieux vu par google qu’un lien provenant du même ar cle sur les techniques de
référencement placé sur un site de cuisine.

 Les pages satellites


A u liser en dernier recours, ces pages sont recommandées en appui de pages
web qui sont très difficiles à op miser (site très graphique, sujet ne
perme ant pas de longs discours, usage de composants extérieurs tels que
des applets, etc). La seule solu on est d’u liser des smarts pages ou pages
satellites : ce sont des pages web spécialement op misées pour certaines
40
41

expressions et qui ne sont pas principalement des nées aux internautes mais
aux moteurs de recherches. Cependant ce e technique peut être considérée
comme de la triche et conduire à la pénalisa on de votre site web si elle est
mal gérée. Il faut donc qu’elles soient accessibles par les internautes (donc
design a rac fs) tout en assurant un lien vers la page difficile à op miser pour
les moteurs de recherches. Nous vous recommandons de placer ces pages
dans le pied de page de votre page web et de ne pas l’u liser en lien caché.
 Les liens sponsorisés sur les réseaux sociaux
L’usage de liens sponsorisés augmente le nombre visiteurs de votre site web et
permet de réaliser une cartographie de vos internautes afin d’en dégager la
par cularité de votre domaine d’ac vité.
 Insérer des vidéos au bas de vos ar cles
Me re une vidéo en pied d’ar cle perme rait aux visiteurs qui ne
souhaiteraient pas lire l’ar cle de se renseigner sur le sujet de l’ar cle « sans
faire d’effort ». Le concept est intéressant à la fois pour résumer l’ar cle mais
également pour y apporter des éléments supplémentaires venant d’autres
professionnels du domaine. Vous pouvez ainsi enrichir le contenu de votre
ar cle et cap ver le visiteur durant un maximum de temps.
PS : Plus le temps passé sur votre site web est élevé, plus les moteurs de
recherches considéreront vos contenus a rac fs et de qualité, donc
per nents.

41
42

Chapitre II : Effectuer des recherches op males sur google


A quoi sait il de savoir produire des pages web bien référenciés si l’on ne sait pas
comment rechercher du contenu efficacement. Dans ce e par e, nous nous
posi onnerons du point de vu u lisateur pour parcourir des techniques de
recherches efficaces. Notre cas pra que concernera google mais chaque moteur de
recherche a son formalisme.
Au préalable, il est important de rappeler que lors d'une requête de recherche:
 Tous les mots sont considérés de façon équivalente;
 Les requêtes sont insensibles à l'u lisa on de majuscules ou minuscules ("case
sensiƟve");
 En général, les éléments de ponctua on sont ignorés dans les requêtes, par
exemple @#$%^&()=+[]\.

Astuces et stratégies
Voici donc une liste d'astuces et stratégies très u les mais trop souvent négligées.
Dans les exemples qui suivent, nous u lisons les crochets [ ] pour indiquer que la
requête est écrite telle qu'elle. De plus, n'oubliez pas que vous pouvez combiner ces
requêtes comme bon vous semble.

Les guillemets
L'u lisa on des guillemets ["mots clés"] signale au moteur de recherche que vous
désirez effectuer une recherche qui correspond exactement aux termes ou à la
phrase entre guillemets. Sans ces guillemets, Google peut varier le sens des mots en
recherchant des synonymes ou variance orthographique ou séman que, un aspect
qui est normalement fort u le. Par contre, il peut arriver que l'on souhaite forcer
Google à effectuer une recherche avec un mot ou une phrase précise et non sur ses
variantes. Par exemple, si vous voulez voir si votre contenu est répliqué quelque part
sur le Web (avec ou sans votre consentement), vous pouvez effectuer une recherche

42
43

["Comment effectuer une recherche sur Google "]. Testez ce e fonc onnalité avec
une phrase de votre cru et vous verrez la différence entre u liser les
guillemets ou non.
La requête [site:]
Vous désirez faire une recherche sur une por on spécifique du Web, l'u lisa on de
[site:NomDuSiteWeb.com] ou [site:.edu] vous permet de faire une recherche
respec vement sur les pages indexées d'un site Web ou un niveau de domaine précis
(dans ce cas les sites qui sont dans le domaine .edu). Par exemple, si vous recherchez
de l'informa on sur un site du gouvernement du Canada, vous pouvez u liser
[formulaire impôt site:.gc.ca], un site universitaire [Nassim Nicholas Taleb site:.edu],
sur Facebook [social plugins site:facebook.com], ainsi de suite. Vous pouvez essayer
avec la requête suivante : [téléphone intelligent site:cognitos.ca].

Terme à exclure avec [-]


Lorsque vous faites une requête avec un mot qui peut avoir plusieurs significa ons,
vous pouvez éliminer des résultats indésirables en u lisant le signe "moins" devant le
mot clé que vous voulez ne pas retrouver dans les résultats. Par exemple la requête
[Bill Gates -"Microso "] vous retournera des résultats pour "Bill Gates" qui ne sont
pas associés avec le mot clé "Microso ". La requête avec excep on suivante, [Bill
Gates -site: microso .com] vous retournera des résultats pour "Bill Gates" qui ne
sont pas inclus dans les différents site Web qui se terminent par microso .com.
Notez qu'il ne doit pas y avoir d'espace entre le signe "moins" et le mot.

Terme à inclure avec [+]


Puisque Google u lise des synonymes ou variantes séman ques lors d'un requête,
vous pouvez forcer une recherche qui con ent un mot précis en u lisant le symbole
plus devant un mot ou groupe de mots entre guillemets. Notez qu'il ne doit pas y
avoir d'espace entre le symbole et le mot. Par exemple, la requête [Jacques
Villeneuve +mononcle] effectuera une recherche en u lisant le nom du pilote
automobile lorsqu'il est associé spécifiquement au mot "mononcle", et non avec la
correc on normalement proposée par Google "mon oncle" et autres varia ons (e.g.
43
44

"mononc") [Jacques Villeneuve mononcle].

Recherche avec caractère de remplacement (Wildcard) [*]


L'astérisque u lisé dans une requête signale à Google qu'il y a un mot clé inconnu
dans votre requête de recherche mais que vous l'autorisez à le remplacer librement.
Dans ce cas, le moteur de recherche se chargera de proposer le mot clé en ques on
qui correspond le mieux à votre requête. Par exemple, si l'on veut savoir quelle
émission Dominic Arpin anime, on peut taper la requête suivante: [Dominic Arpin
anime *]. À noter cependant que puisque Google effectue déjà une recherche en
u lisant des synonymes et varia ons séman ques, il est inu le d'u liser un
astérisque afin de faire une recherche en u lisant la racine d'un mot complété d'un
astérisque, par exemple [ordi*].

L'opérateur [OR]
Cet opérateur permet d'effectuer une recherche en proposant une alterna ve à
l'obten on des tous les résultats que Google peut générer en u lisant des synonymes
et varia ons séman ques. Pour qu'il fonc onne le mot "OR" doit être en le re
majuscule. Par exemple, si l'on recherche de l'informa on précisément sur des hôtels
au NouveauBrunswick, on peut formuler une requête comme suit: [hotel
[NouveauBrunswick] OR [New Brunswick] OR NB -" new jersey" -NJ].
Vous remarquerez que nous pouvons effectuer une recherche en français et en
anglais de manière simultanée, en prenant soin d'éliminer des résultats indésirables,
tel "New Brunswick", qui est également une ville située dans l'état du "New Jersey"
aux USA.

La requête [filetype:]
Ce type de requête est très u le lorsque vous cherchez un type de fichier en
par culier. Par exemple, vous cherchez un formulaire spécifique en format PDF sur le
site du gouvernement du Québec rela f à la taxe de vente (TVQ). Pour y parvenir,

44
45

vous pouvez faire une requête du type [tvq filetype:pdf site:gouv.qc.ca]. Vous pouvez
faire ce type de recherche avec d'autres extensions doc, xls, ppt. etc.

La men on link:
Link:patate.com trouve les pages Web qui pointent vers l’adresse spécifiée (ici,
patate.com). Si vous souhaitez savoir qui parle de vous sur la Toile, cet opérateur
pourrait vous être u le.

Related:patate.com – en saisissant related:


vous indiquez à Google de trouver des sites similaires à celui men onné. Par
exemple, si vous saisissez related:allocine.fr Google ira vous chercher les autres sites
Internet francophones qui ont trait au cinéma comme Première, UGC ou encore
Gaumont.fr.

45
46

Annexe 1 : Récapitula f de l'évolu on du web

VERSIONS VARIABLES DESCRIPTIONS


Période 1991-1999
Focus connecte les informa ons, orienté entreprises et ins tu ons
Objec f donner accès au contenu en ligne – présenter des produits aux
consommateurs
Concept système “push” – distribu on de l’informa on
Architecture Portails d’informa on , sites web sta ques (Read-Only)
Interface + contenu + programme
Language Protocoles HTTP,
HTML (language avec liens hypertextes), puis XML
Java & JavaScript
Données Créa on de programmes propriétaires lourds et chers. Applica ons desktop
principalement.
Contenu contenu limité (hypertextes + mul média) créé par des professionnels
Ou ls de email – forums
WEB 1.0 communica o
ou web n
tradi onnel Applica ons Applica ons commerciales, émergence de l’e-commerce et du panier
shopping.
Catalogues produits en ligne, encyclopédies en ligne
U lisateur Consommateur passif – “read only” – “view and link” – le web est un
énorme magazine en ligne que l’u lisateur consulte.
Technologie de répertoires – moteurs de recherche sur base de mots clés (=taxonomies)
recherche
Focus orienté produit
marke ng
Flux “one to many” – sens unique
Tac ques publicités en ligne, marke ng produit, marke ng de masse
marke ng
Rela on linéaire, transac onnelle
Obstacles programmes très chers et peu rentables – absence de contexte – peu
d’interac on avec les u lisateurs – lent & lourd
WEB 2.0 ou Web Période 2000-2009
social Focus connecte les personnes,
orienté communautés et “tribus” (web démocra sé)
Objec f partager du contenu
Concept interac ons – conversa ons entre u lisateurs
Architecture Plateformes interac ves (Read, Write & Share)
sites dynamiques, blogs, microblogs, wikis
web services & web applica ons pour connecter les programmes et
contenus
Language XML (HTML structuré) qui consiste à décrire les choses avec des mots + RSS
(flux de contenus)
Données Mul plica on des programmes open source qui démocra sent le web.
Licences Crea ve Commons: ouverture & partage des logiciels et
ressources.
Contenu contenu illimité créé par des u lisateurs amateurs et professionnels – rich
media
Ou ls de réseaux sociaux – plateformes collabora ves
communica o SMS – MMS – video-streaming
n

46
47

Applica ons Mul plica on des applica ons par cipa ves pour communiquer (blog,
twi er), partager (facebook, linkedin, flickr, youtube, etc.), transformer des
données (RSS & XML), tagger (Digg), présenter (slideshare), etc.
U lisateur Consommateur et acteur. Néanmoins, seule une minorité devient auteur
“read & write”, la majorité se contente d’un engagement restreint “read &
share”
Technologie de recherche sur base de mots clés (tags) partagés et croisés (=folksonomies)
recherche
Focus orienté service client
marke ng
Flux “many to many” – échanges dynamiques
Tac ques pay per click adver sing, marke ng viral, WOM (bouche à oreille), SEM
marke ng (search engine marke ng)
Rela on distribuée, segmentée, échanges
Obstacles Infobésité: trop de contenu de qualité très inégale.Accessibilité: technologie
ne permet pas encore une vraie portabilité. Manque de personnalisa on: il
est difficile de sor r du lot
Web 3.0 ou web Période 2010-xx
séman que ou Focus connecte le savoir, orienté individu dans son contexte
“smart” web Objec f consolider et intégrer des contenus dynamiques
Concept cura on – compréhension et exploita on des données
Architecture SaaS (logiciel=service) & Cloud (ubiquité et portabilité)
Les web services occupent la place centrale et connectent les supports et
les applica ons à travers des interfaces simplifiées.
Language Outre le XML, de nouveaux languages émergent: RDF (Resource Descrip on
Framework) càd la grammaire qui définit les concepts et établit les rela ons
+ OWL (Ontology Web Language) basé sur les rela ons et la logique + SWRL
(Seman c Web Rule Language) qui établit les règles qui perme ent de
comprendre ce que les humains cherchent.
Données Transforme le web est une base de données géante, divisée en groupes
avec une mul tude de liens entre eux pour croiser les données. Intégra on
des metadata dans les ressources accessibles partout, à tout moment et
sur n’importe quel support.
Contenu contenu organisé par les u lisateurs – réalité augmentée
Ou ls de tous les ou ls précédants adaptés à l’internet mobile (table es, smart
communica o phones) + des ou ls cross media tels que QR codes, RFID (radio frequency
n iden fica on)
Applica ons applica ons personnalisables – ex. netvibes, igoogle, applica ons 3D,
créa on de mondes virtuels,
serious games, social games
U lisateur Emergence du consom’acteur. Consommateur engagé. U lisateur de plus
en plus ac f, mobile, toujours connecté.
Technologie de recherche contextuelle grâce à des filtres individuels (ex: les
recherche recommanda ons d’Amazon) (=me-onomy),
recherche séman que en language naturel,
recherche visuelle (ex: en prenant la photo d’un monument, accéder à
toute l’informa on qui s’y rapporte)
Focus orienté intérêts et goûts client
marke ng
Flux “many to one” – flux digital con nu
Tac ques data marke ng contextuel, advertainment, certains “power users” ou
marke ng internautes influents deviennent ambassadeurs des marques, veille et e-
réputa on,
Rela on Contextuelle

47
48

Obstacles Difficulté de combiner le web des données (scien fique et rigoureux) avec
le web social (instantanné, basé sur les émo ons).
Danger d'”envahissement” par un web omniprésent.
Période 2020(?)-xx
Focus connecte l’intelligence, orienté interac on individus|objets
Objec f innover grâce aux connexions intelligentes
Concept interconnexion réel|virtuel, intelligence collec ve
Architecture OS (système opéra onnel) + Cloud
Données Evolu on vers des standards ouverts, vers un language universel
U lisateur L’u lisateur devient cré-acteur, en constante symbiose avec son
Web 4.0 ou web
environnement
symbio que ou
web “intelligent” Technologie de filtres intelligents
recherche
Focus chaque consommateur est différent
marke ng
Flux “one in many” – environnement intelligent
Tac ques L’analyse des comportements des u lisateurs perme ra une véritable
marke ng personnalisa on: le bon message au bon moment au bon endroit
Rela on fluide, mul ple
Obstacles Sécurité des sources et accès aux données. Capacité à analyser les
comportements et à les traduire en données u les. Danger d’un contrôle
sur la vie privée et perte de liberté. Le web 4.0 comme il est présenté
aujourd’hui pourrait restreindre notre liberté et nos chances d’évolu on &
d’innova on (puisqu’il ne nous présenterait que ce qui est censé nous
intéresser).

48
49

Par e IV : Le web analy cs

Le Web Analy cs regroupe la mesure, la collecte, l’analyse et la présenta on de


données provenant d’Internet u lisées pour op miser un site web, un site mobile ou
une applica on. C’est un ensemble d’analyses perme ant d’étudier précisément les
comportements et les habitudes des visiteurs sur les sites web et les applica ons
mobiles. Le Web Analy cs (ou Digital Analy cs) est aujourd’hui un des éléments clés
du marke ng digital et de l’op misa on des sites, e-commerce notamment.
Le Web Analy cs se base sur les données de trafic recueillies par les solu ons de
mesure et d’analyse d’audience.

Chapitre 1 : Le comportement de vos internautes

I- Catégorisa on des comportements des internautes


Lors du processus de choix, avant la visite d’un site marchand, l’internaute passe
par des étapes qui l’influenceront vers le choix de votre site plutôt qu’un autre.
Face à cela, l’internaute adopte 4 types de comportements différents selon son
niveau connaissance de l’offre.

1- La visite expérien elle

L’internaute se rend sur votre site comme s’il se rendait dans un magasin pour faire
du lèche-vitrines, sans avoir une idée précise en tête. Les mo va ons de visite sont
plutôt hédonistes. Le canal d’acquisi on est principalement du lien direct.
Stratégie digitale à adopter : le site doit devenir une référence sur son marché. La
présence à l’esprit doit être à un niveau très élevé, grâce à une communica on
régulière en ligne et/ou dans le monde réel. Du contenu, des offres récentes doivent
apparaître à la visite de l’internaute.

2- La visite expédi ve

L’internaute sait ce qu’il veut. Il se rend sur votre site pour réaliser un achat parce
qu’il connaît votre offre ou parce que le site lui a été recommandé (Connaissances,
forum, blog, etc…). Les canaux d’acquisi on sont des liens directs ou des liens
d’affilia ons.
Stratégie digitale à adopter : travailler son “referal” , surveiller sa réputation
49
50

3- La visite exploratoire

L’internaute souhaite réaliser un achat, mais ne connaît pas les sites à visiter. Il
choisira de passer par des annuaires, des comparateurs ou le plus souvent par son
moteur de recherche préféré. L’internaute me ra plus de temps à se décider, car il
passe par une phase découverte. .
Stratégie digitale à adopter : travaillez votre référencement naturelle et/ou payant.

4- La visite évalua ve

L’internaute souhaite réaliser un achat précis et connaît votre site ainsi que vos
concurrents. L’internaute a un niveau avancé de connaissance et va donc comparer
les différentes offres pour prendre sa décision. Ce processus est plutôt fermé et laisse
peu de place à l’improvisa on.
Stratégie digitale à adopter : travaillez la conversion de votre site et la per nence de
votre offre.

II- Les tendances observées en 2019


Afin de con nuer à être performant sur internet, il convient de se tenir informé des
tendances. L’une des étapes souvent oubliée revient à l’étude du comportement
des internautes. En 2019, nous pouvons nous interroger sur leur iden té, leurs
a entes et sur de nombreux autres points essen els.
Qui sont les internautes français ? Combien de fois par jour se connectent-ils sur
internet ? Quel est leur rapport avec l’internet mobile ? Quelles sont les tendances ?
Ce e par e relate les études de Yumea à ce sujet.

1- Le comportement des internautes en 2019 : généralités

Internet fait désormais par e intégrante de notre vie alors que le tout premier site
web a été mis en ligne en août 1991 par un Britannique. Il aura fallu moins de 30 ans
pour qu’internet envahisse notre quo dien.
Quelles sont les grandes tendances comportementales des internautes en 2019 ?

2- Comportement des internautes en 2019 : visites et SEO


 Le temps de visite moyen d’un site internet s’élève à 2 minutes 17 secondes
alors que le taux de rebond moyen est de 40 %. En nous basant sur ces deux
sta s ques de fréquenta on moyenne, nous pouvons en conclure que les
internautes sont globalement sa sfaits de la qualité du contenu proposés pour
répondre à leur requête ;

50
51

 Une donnée qui peut paraître complètement folle : seulement 48 % du trafic


web provient d’humains. Cela signifie que 52 % du trafic provient de non-
humains (bots, spiders, etc.) ;
 50 % des requêtes de recherche ont 4 mots ou plus : les internautes savent
quoi rechercher pour ne plus perdre de temps sur les moteurs de recherche ;
 75 % des u lisateurs restent EXCLUSIVEMENT sur la première page des
moteurs de recherche ;
 La première posi on d’une requête concentre 33 % des clics en moyenne ;
 On dénombre un total de 1,4 milliard de site internet dans le monde en er,
pour 330,6 millions de noms de domaine enregistrés ;
 45 % des TPE/PME n’ont pas encore de site web (source : h ps://blog-
fr.orson.io/web-marke ng/100-sta s ques-sites-internet-2018) ;

3- Comportement des internautes 2019 : ce que vous devez faire


 Me re des informa ons de contact claires sur la page d’accueil : 64 % des
visiteurs souhaitent voir de telles informa ons ;
 Me re en avant vos services : 86 % des visiteurs souhaitent avoir des
informa ons sur les services dès la page d’accueil ;
 Proposer un contenu de qualité complet : 50 % des ventes ne sont pas
achevées car l’internaute ne trouve pas toutes les informa ons qu’il souhaite ;
 Réduire le temps de chargement d’une page : 40 % des visiteurs d’une page
qui ent le site si le temps de chargement est supérieur à 3 secondes ;
 Posi onner un CTA clair : les internautes jugent que 70 % des PME n’ont pas
défini de Call To Ac on suffisamment clair ;
 Proposer du contenu avec des listes : 70 % des internautes lisent ce genre de
contenu ;
 Afficher des avis : 72 % des internautes font confiance aux avis en ligne

4- Le comportement des internautes en 2019 sur mobile


 73 % des Français sont équipés d’un smartphone ;
 90 % des Français se connectent au moins une fois par jour à internet via leur
smartphone ;

51
52

 En moyenne, un u lisateur se connecte 23 fois par jour à une applica on


u lisant le web ;
 En moyenne, un u lisateur de smartphone u lise son smartphone 1h42 par
jour ;
 41 % des u lisateurs ne peuvent pas se passer de Facebook ;
 91 % des 15-60 ans u lisateurs de smartphone connaissent le m-paiement ;
 93 % des 15-60 ans savent que leurs données sont u lisées pour recevoir de la
publicité personnalisée ;
 98 % des 15-34 ans se connectent au moins une fois par jour ;
 En moyenne, les 15-34 ans u lisent leur smartphone 2h16 par jour et s’y
connectent 33 fois ;
 19 % des 15-34 pra quent le M-paiement ;
 53 % de l’usage internet se fait sur mobile ;
 Les internautes ont tendance à délaisser les ordinateurs même s’ils sont à côté
: 77 % sont effectuées via un mobile ;
 88 % des consommateurs qui cherchent une entreprise sur mobile appellent
ou vont au magasin dans les 24 heures.
Nous n’hésiterons pas à reme re à jour ces listes de comportement des
internautes 2019 au fur et à mesure que les données nous arriverons.
 Aller plus loin sur le comportement des internautes en 2019/2018:
h ps://www.alioze.com/web-2018

52
53

Chapitre 2 : Les différents indicateurs de performance

I- Défini on

Un KPI (Indicateur Clé de Performance, de l’anglais Key Performance Indicator) est


un indicateur chiffré considéré comme pertinent pour évaluer la performance d’une
action ou d’un système.On trouve des KPI dans tous les domaines : finances,
production, commercial… et bien sûr dans le web analytics. Contrairement à d’autres
domaines, la mesure des statistiques relatives à la fréquentation des sites web a
tendance à noyer les utilisateurs inexpérimentés sous une pluie d’indicateurs, qui ne
sont, justement, pas toujours clés. Pourtant, déterminer et suivre ses KPI est la
première étape pour espérer progresser sur le web. Ce sont également ces
indicateurs qui permettront de se comparer à d’autres acteurs d’un secteur d’activité
identique.

Source : h ps://www.1min30.com/

II- Comment choisir ses KPI en web analy cs


Quand on parle de performance web et de marke ng de la performance, on parle en
fait de performances au pluriel. Les KPI sont très différents pour un site de e-
commerce et pour un site éditorial.

53
54

1- KPI e-commerce

Pour un site e-commerce, on va suivre par culièrement :


 Les taux de conversion (global ET par source)
 La qualité de trafic (CA / Nombre total de visites)
 Le panier moyen
 Le taux de conversion du funnel (les internautes qui sont allé au bout du
processus d’achat)
 La fidélisa on (le CA généré par des clients récurrents)
Il ne s’agit ici que de sugges ons, d’autres indicateurs clés sont parfois choisis. C’est
notoirement le cas du taux de rebond, dont on peut discuter de la per nence.

2- KPI d’un site éditorial

On assimilera ici un site éditorial à un site à fort contenu qui fait du chiffre d’affaire
via l’affilia on et la publicité. Pour ce type de site, on pourra choisir comme KPI :
Le taux de clic sur les liens publicitaires / d’affilia on sur le site
La qualité de trafic (CA / Nombre total de visites)
Le taux d’inscrip on aux listes de diffusion
Le taux de clic sur les liens de e-mailing

3- KPI d’un site de généra on de leads

Les sites non marchands mais qui ont comme objec f de générer des leads
entrants pourront suivre :
Le taux de conversion (global ET par source)
Le taux de rebond
Les performances des formulaires (combien de personnes ont eu l’inten on
de faire une demande et ne sont pas allées au bout de leur démarche).

54
55

Chapitre 3 : Les solutions de web analytics

I- Google Analytics

C’est la solu on de web analy cs la plus répandue et vous l’u lisez peut-être déjà.
Le nombre d’analyses et de données que l’ou l de Google vous permet de récupérer
est virtuellement illimité… à condi on de savoir paramétrer l’ensemble pour bien
vous y retrouver.

55
56

Google Analytics est gratuit et s’installe facilement sous WordPress.

56
57

II-AWStats

C’est un peu l’équivalent de Google AnalyƟcs mais fourni par cPanel. Il peut être u le
si vous souhaitez quelques sta s ques poussées de votre trafic mais reste clairement
un ou ls moins ergonomique et pra que.
AWStats est un logiciel libre sous licence GPL qui permet de générer des sta s ques
pour son serveur. Il offre des vues graphiques sta ques mais aussi dynamiques des
sta s ques d'accès à vos serveurs web, FTP, courrier ou en con nu (streaming).

III- KissMetrics

KISSmetrics est une solu on puissante d’analyse, qui rend le parcours u lisateur
facile à appréhender et à croiser avec d’autres données.

57
58

IV- MixPanel

Disponible pour votre site comme pour votre applica on, Mixpanel vous permet non
seulement d’analyser le comportement de vos visiteurs, de gérer vos tests A/B, mais
aussi d’augmenter vos taux de réten on en leur envoyant des no fica ons et emails
personnalisés. L’interface est agréable à u liser.

58
59

V- Adobe SiteCatalyst

La solu on de web analy cs développée par Adobe est une suite aussi performante
qu’onéreuse. On la réservera donc plutôt aux entreprises à forte capacité
d’inves ssement dans leur développement.

59
60


Chapitre 4 : Implémenter une solution web analytics avec Google Analytics

60

Vous aimerez peut-être aussi