Referencement Web Et Web Analitycs - Complet
Referencement Web Et Web Analitycs - Complet
Referencement Web Et Web Analitycs - Complet
Support de cours
REFERENCEMENT
ET WEB ANALYTICS
1
2
Sommaire
INTRODUCTION GENERALE............................................................................................4
I. Le web et internet...............................................................................................6
III.4- Le javascript..................................................................................................12
IV.2. U lisable.......................................................................................................14
IV.3. Compréhensible...........................................................................................14
IV.4. Robuste........................................................................................................14
Introduc on.............................................................................................................15
2
3
Quelques robots...................................................................................................17
3
4
INTRODUCTION GENERALE
Le web est sans nul doute une technologie majeure du 21ème siècle. Et si sa nature,
sa structure et son u lisa on ont évolué au cours du temps, force est de constater
que ce e évolu on a également profondément modifié nos pra ques commerciales
et sociales.
Pour mieux comprendre les enjeux et les différentes phases de ce e évolu on,
livrons nous à un exercice de synthèse, qui ne se veut en aucun cas exhaus f, mais
qui devrait nous fournir quelques clés de compréhension :
Le web 1.0, encore appelé web tradi onnel, est avant tout un web sta que,
centré sur la distribu on d’informa ons. Il se caractérise par des sites orientés
produits, qui sollicitent peu l’interven on des u lisateurs. Les premiers sites
d’e-commerce datent de ce e époque. Le coût des programmes et logiciels
propriétaires est énorme et l’explosion de la bulle dot.com, en 2000, remet en
ques on ce e approche de la toile.
Le web 2.0, ou web social, change totalement de perspec ve. Il privilégie la
dimension de partage et d’échange d’informa ons et de contenus (textes,
vidéos, images ou autres). Il voit l’émergence des réseaux sociaux, des
Smartphones et des blogs. Le web se démocra se et se dynamise. L’avis du
consommateur est sollicité en permanence et il prend goût à ce e
socialisa on virtuelle. Toutefois, la proliféra on de contenus de qualité inégale
engendre une proliféra on d’informa ons difficiles à contrôler.
Le web 3.0, aussi nommé web séman que, vise à organiser la masse
d’informa ons disponibles en fonc on du contexte et des besoins de chaque
u lisateur, en tenant compte de sa localisa on, de ses préférences, etc. C’est
un web qui tente de donner sens aux données. C’est aussi un web plus
portable et qui fait de plus en plus le lien entre monde réel et monde virtuel. Il
répond aux besoins d’u lisateurs mobiles, toujours connectés à travers une
mul tude de supports et d’applica ons malines ou ludiques.
4
5
Le web 4.0, évoqué par certains comme le web intelligent, effraie autant qu’il
fascine, puisqu’il vise à immerger l’individu dans un environnement (web) de
plus en plus prégnant. Il pousse à son paroxysme la voie de la personnalisa on
ouverte par le web 3.0 mais il pose par la même occasion de nombreuses
ques ons quant à la protec on de la vie privée, au contrôle des données, etc.
C’est un terrain d’expérimenta on où tous ne sont pas (encore) prêts à
s’aventurer!
5
6
I. Le web et internet
Le terme « web » est un diminu f de l’expression World Wide Web qui est inven on
de Time Berners-Lee. Elle a transfiguré internet au point d’en devenir un synonyme.
En réalité, internet est un réseau et le web est une technologie qui permet d’accéder
à ce réseau par le biais du protocole TCP/IP. Du coup il est plus juste de dire « site
web » que de dire « site internet ».
6
7
HTML a été inventé pour le World Wide web, afin de pouvoir écrire des documents
hypertextuels liant les différentes ressources d’internet. En août 1991, lorsque Tim
Berners-Lee annonce publiquement le web, il ne cite que le langage SGML, mais
donne l’URL d’un document ayant l’extension de fichier html.
Les premiers éléments du langage HTML sont le tre du document, les hyperliens, la
structura on du texte en tres, sous- tres, listes ou texte brut, et un mécanisme
rudimentaire de recherche par index. La descrip on d’HTML est alors assez
informelle.
L’état de HTML correspond alors à ce que l’on pourrait appeler HTML 1.0. Il n’existe
cependant aucune spécifica on portant ce nom, notamment parce que le langage
était alors en pleine évolu on. Un effet de normalisa on était cependant en cours. A
par r de la fin 1993, le terme HTML+ sera u lisé pour désigner la version future de
HTML.
HTML 2.0
Sor fin 1995, HTML (RFC 1866) a été développé par IETF’s HTML Working Group, qui
ferma en 1996. Il définit les standards pour les principales fonc onnalités de HTML
basé sur les pra ques en cours en 1994.
HTML 3.2
HTML 3.2 est la première recommanda on éditée par le W3C pour le HTML (14
janvier 1997). Elle représente un consensus des fonc onnalités présentes en 1996.
HTML 3.2 ajouta des fonc onnalités très u lisées, comme les tableaux, les applets,
7
8
les flux de texte autour des images, les scripts, etc... tout en conservant une
compa bilité avec le standard HTML 2.0.
HTML 4 (sor le 18 décembre 1997) ajoute les cadres (frames) , des op ons
mul média, langages de scripts, le support des feuilles de styles (CSS), des facilités
d’impression, ainsi que des fonc onnalités d’accessibilité. HTML4 fait également un
grand pas vers l’interna onalisa on des documents, dans le but de rendre le Web
vraiment WorldWide (mondial). HTML 4.01 (sor le 24 décembre 1999) n’ajoute que
des modifica ons mineures à la version 4.0. Elle est la dernière version d’HTML à voir
le jour (à par r de 2000, les efforts sont redirigés vers XHTML).
XHTML 1.0
Cet exemple illustre les différences syntaxiques les plus courantes entre un document
écrit en HTML 4 et en XHTML 1.0 :
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN">
< tle>Exemple HTML 4</ tle>
<ul>
<li>Des éléments comme HTML, HEAD et BODY sont implicites, leurs balises ouvrantes et
fermantes sont op onnelles.</li>
<li>De nombreuses balises fermantes sont op onnelles, notamment pour P (paragraphe) et LI
(entrée de liste).
<li>Les noms d'éléments et d'a ributs peuvent
<EM Class="important">librement</Em> mélanger majuscules et minuscules.</li>
<li>
Certains a ributs ont une valeur par défaut <table border><tr><td>x</td></tr></table>.</li>
<li>Les guillemets ne sont pas <em class=important>toujours</em> obligatoires autour des
valeurs d'a ribut.</li>
<li>Les éléments vides n'ont pas de balise fermante <img src="i.png" alt="i">.</li>
</ul>
8
9
<ul>
<li>Tous les éléments doivent être explicitement balisés.</li>
<li>Les balises fermantes ne sont pas op onnelles.</li>
<li>Les noms d'éléments et d'a ributs <em class="important">doivent</em> être en
minuscules.</li>
<li>Tous les a ributs doivent avoir une valeur explicite <table
border="1"><tr><td>x</td></tr></table>.</li>
<li>Les guillemets sont <em class="important">toujours</em> obligatoires autour des valeurs
d'a ribut.</li>
<li>Les éléments vides doivent être fermés <img src="i.png" alt="i"/>.</li>
</ul>
</body>
</html>
Il existe 3 types de XHTML 1.0 : on indique quelle variante on u lise en insérant une
ligne au début du document. Chaque variante a son propre DTD (Document Type
Defini on - Défini on du Type de Document)
XHTML 1.1
Les évolu ons suivantes, qui ont abou à XHTML 1.1, divisent le langage XHTML en
modules, chacun regroupant un type de fonc onnalités. Ce e division est conçue
pour perme re à du matériel informa que aux capacité techniques limitées,
9
10
XHTML 2.0
XHTML 2.0 est un langage à balise conçu pour des applica ons web riches et
portables. Alors que ses ancêtres sont bien HTML 4, XHTML 1.0 et XHTML 1.1, il n’est
pas conçu pour être compa ble avec les versions plus anciennes. Les développeurs
ayant l’habitude des anciennes versions devraient retrouver leur marques sous
XHTML 2.0.
HTML 5
L’incompa bilité de XHTML 2.0 avec les versions plus anciennes a engendré
beaucoup de frais auprès de nombreuses entreprises et ins tu ons. Pour se me re à
jour vis à vis des normes, ces organisa ons se sont vues dans l’obliga on d’inves r
des millions auprès de développeurs. C’est la raison principale qui a occasionnée la
naissance du HTML 5 : plus simple, plus léger et plus riche.
CSS 1.0
Le concept des feuilles de style a été à l’origine proposé en 1994 par Hâkon
Wium Lie ; Bert Bos travaillait au même moment sur un navigateur appelé
Argo, u lisant les feuilles de style ; ils décidèrent alors de développer
10
11
ensemble CSS. Quelques langages de feuille de style avaient déja été proposés,
mais CSS était le premier à inclure l’idée de « cascade » : la possibilité pour le
style d’un document d’être hérité à par r de plus d’une « feuille de style ».
Cela perme rait d’outrepasser le style d’un site spécifique, en héritant, ou en
« cascadant » le style du site dans d’autres régions. Ce e fonc on permet un
gain de contrôle, à la fois pour l’auteur du site, et pour l’u lisateur. Elle
permet aussi un mélange de préférences rela ves de style. La proposi on de
Hakon a été présentée à la conférence « Mosaic and the Web » de chicago en
1994, et par Bert Bos en 1995. A ce e époque, le W3C se créait, et le
consor um se prit d’intérêt pour CSS, et organisa un travail autour du langage.
Hakon et Bert étaient les responsables du projet. La norme CSS1 fut publiée en
décembre 1996.
CSS 2.0
En 1997, CSS fut a ribué à un groupe de travail au sein du W3C présidé par
Chris Lilley. Ce groupe commença par s’occuper des problèmes non réglés par
CSS1, ce qui entraîna la paru on de CSS2 comme une recommanda on
officielle en mai 1998. CSS2 propose de nombreuses nouvelles op ons pour
l’accessibilité (lecture orale des pages) et la portabilité. Le posi onnement de
CSS2 est plus flexible et offre plus d’op ons aux designers (mise en page pour
impression, meilleure ges on des polices, ges on des tableaux).
CSS 2.1
11
12
III.4- Le javascript
Javascript a été créé en 1995 par Brendan Eich. Il a été standardisé en 1997 et est à la
base de langages de programma ons similaires : jscript (implémentée par microso )
et ac on script (implémentée par adobe system). Javascript était à la base un langage
de programma on de scripts principalement employé dans les navigateurs pour être
exécuté sur le poste du client. Généralement, JavaScript sert à contrôler les données
saisies dans des formulaires HTML, ou à interagir avec le document
HTML via l'interface Document Object Model, fournie par le navigateur (on parle alors
parfois de HTML dynamique ou DHTML). JavaScript n'est pas limité à la manipula on
de documents HTML et peut aussi servir à manipuler des documents SVG, XUL et
autres dialectes XML .
12
13
Les règles d’accessibilité des contenus web traduisez en anglais par Web Content
Accessibility Guidelines (WCAG) présentent un large éventail de recommanda ons
pour rendre les pages web un peu plus accessibles. Suivre ces règles rendra les
contenus accessibles à une plus grande variété de personnes en situa on de
handicap, incluant les personnes aveugles et malvoyantes, les personnes sourdes et
malentendantes, les personnes ayant des troubles d’appren ssage, des limites
cogni ves, des limita ons motrices, des limita ons de la parole, de la photosensibilité
et les personnes ayant une combinaison de ces limites fonc onnelles. Suivre ces
règles rendra aussi les contenus web souvent plus faciles d’u lisa on aux u lisateurs
en général.
Selon les règles du WCAG, les informa ons doivent être : percep bles, u lisables,
compréhensibles et robustes.
13
14
IV.2. U lisable
Les composants de l’interface u lisateur et de naviga on doivent être u lisables
i. Accessibilité au clavier : rendre toutes les fonc onnalités accessibles au clavier
ii. Délai suffisant : laisser suffisamment de temps pour lire et u liser le contenu
iii. Crises : ne pas produire de contenu suscep ble de provoquer des crises
iv. Navigable : fournir à l’u lisateur des éléments d’orienta on pour naviguer,
trouver le contenu et se situer dans le site.
IV.3. Compréhensible
Les informa ons et l’u lisa on de l’interface u lisateur doivent être compréhensibles
i. Lisible : rendre le contenu textuel lisible et compréhensible
ii. Prévisible : faire en sorte que les pages apparaissent et fonc onnent de
manière prévisible
IV.4. Robuste
Le contenu doit être suffisamment robuste pour être interpréter de manière fiable
par une vaste variété d’agents u lisateurs, y compris les technologies d’assistance. La
compa bilité doit être op misée avec les agents u lisateurs actuels et futurs, y
compris les technologies d’assistance.
14
15
Introduc on
Internet regroupe de nombreux ou ls dont la toile (de l’anglais Web) qui comporte
de nombreuses pages publiées librement par des millions d’internautes. Du fait de la
forte croissance du réseau et du nombre grandissant de documents mis en ligne le
besoin s’est fait ressen r de trouver une informa on sans avoir à tout parcourir.
La recherche d’informa on sur Internet est un domaine d’applica on qui a beaucoup
évolué ces dernières années. On est passé d’annuaires répertoriant des liens à des
moteurs de recherches basiques pour en arriver aujourd’hui à des moteurs u lisant
des algorithmes d’indexa on et de recherche puissants. Les algorithmes des moteurs
de recherche sont tous basés sur des théories différentes mais leurs objec fs est le
même : indexer toute la toile, et l’indexer rapidement pour donner un résultat
per nent à l’u lisateur.
Afin de comprendre l’évolu on de ces moteurs de recherche et des algorithmes qu’ils
u lisent nous allons dans une première par e introduire la recherche d’informa on
pour mieux comprendre l’architecture de la toile ainsi que la manière dont on peut
l’indexer. Dans une seconde par e nous présenterons les différents algorithmes des
moteurs de recherche et plus par culièrement l’algorithme PageRank de Google.
Dans une troisième par e il s’agira de montrer vers quels moteurs de recherche nous
évoluons aujourd’hui en nous intéressant aux fonc ons lexicales et au Web
séman que.
15
16
16
17
la recherche parmi les sites Web — on peut citer par exemple Exalead
Desktop, Google Desktop et Copernic Desktop Search, Windex Server, etc.
Les métamoteurs :
On trouve également des métamoteurs, c'est-à-dire des sites web où une
même recherche est lancée simultanément sur plusieurs moteurs de
recherche, les résultats étant ensuite fusionnés pour être présentés à
l'internaute. On peut citer dans ce e
catégorie Ixquick, Mamma, Kartoo, Framabee ou Lilo.
Les moteurs de recherche par mots clés : qui effectuent des recherches à
par r de mots clés ou de contenu même des sites.
Quelques robots
Au nombre pléthorique des robots, nous pouvons citer :
Googlebot de google.
17
18
Slurp de Yahoo!
MSNBot de MSN et Bing.
HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites
Web pour une u lisa on hors ligne. Il est distribué sous la licence GPL.
Scooter de AltaVista.
OrangeBot est le robot d'indexa on du moteur d'Orange LeMoteur. Il possède
sa propre base de données mise à jour par le robot.
Heritrix est le robot d'archivage de l'Internet Archive. Il a été écrit en Java.
De manière étymologique, un index est une liste alphabé que d'auteurs, de ma ères,
de mots clés, etc., apparaissant dans un ouvrage, avec des références perme ant de
les retrouver.
Dans le jargon du web, l’indexaƟon désigne l’acƟon du robot (c’est-à-dire d’un
programme) d’un moteur de recherche qui passe sur un site, le parcours (phase dite
de « crawl » du verbe « parcourir » en anglais) et indexe son contenu. Lorsque l’on dit
que le robot (le spider) indexe un site, cela signifie qu’il visite le site, en copie le
contenu et le stocke dans les serveurs du moteur de recherche. Nous u liserons ici le
terme « indexa on » au sens de l’indexa on Google. Nous ne traiterons pas de
l’indexa on Yahoo et Bing (les deux autres principaux moteurs de recherche) ;
retenez simplement que les systèmes d’indexa on sont assez proches dans leur
fonc onnement.
Il y a quelques pe tes choses à savoir sur le fonc onnement d'un moteur de
recherche lors d'une requête. La première chose à savoir c'est que le moteur de
recherche ne cherche pas sur le web, mais cherche plutôt sur ce qui est connu des
moteurs de recherche et indexé. Ensuite, le moteur de recherche u lise le principe
des index. Pour u liser une analogie, c'est comme s'il u lisait l'index d'un livre pour
chercher les pages qui con ennent le(s) mot(s) recherchés.
18
19
Depuis 2003, Google fonc onne avec 2 index. Il n’existe donc pas un index Google
mais bien des index Google.
L’index principal : qui correspond aux pages désignées par Google comme
étant les plus intéressantes parmi toutes celles indexées.
L’index secondaire : il est composé des pages « de second choix », autrement
dire celles de moindre qualité. Ce sera notamment le cas des pages
19
20
20
21
Lorsque l’index a été cons tué, il est possible de l’u liser pour répondre aux
recherches des u lisateurs. Ce e phase demande énormément de ressources, car de
nombreuses recherches sont effectuées en même temps dans le cas de Google. De
plus, pour que le moteur de recherche soit u le, il doit classer les résultats des
recherches par ordre de per nence. C’est à ce stade que le fameux algorithme
du PageRank développée par Google entre en jeu.
21
22
Pour ce faire les moteurs d’indexa on u lisent des robots qui parcourent le Web et
qui relèvent les informa ons contenues dans les pages. Plusieurs méthodes sont
u lisées, en essayant d’op miser les trois caractéris ques citées ci-dessus.
1 META pour Méta données, En informatique, une méta donnée est une donnée
contenue dans un fichier qui décrit son contenu.
22
23
page Web. Ces balises sont mal exploitées et souvent inefficaces pour les raisons
suivantes :
Les développeurs de pages Web ne fournissent que très rarement ces
informa ons.
Lorsqu’elles sont renseignées ces balises ne sont pas toujours significa ves du
réel contenu de la page.
Les balises META2 sont souvent u lisées à mauvais escient par les spammeurs
qui souhaitent faire apparaître leurs sites en haut des listes des moteurs de
recherche.
Tous les moteurs de recherche n’u lisent pas ces balises META pour indexer le
contenu d’une page.
Les balises META sont disponibles sur chaque page HTML (bien que rarement
renseignées sur une autre page que la page d’accueil d’un site), ce e méthode
d’indexa on est donc une méthode qui u lise la structure bas niveau du Web.
Bien qu’u lisée dans les premiers moteurs de recherche, aujourd’hui les moteurs
d’indexa on s’a achent plus au contenu réel dans la page qu’aux méta données.
C’est donc dans ce e op que que nous pouvons nous intéresser aux différents
algorithmes qui indexent les pages Web.
2 Le SPAM désigne les communications électroniques massives à des fins publicitaires ou malhonnêtes. En
France les spammeurs sont aussi appelés polluposteurs.
23
24
capacités des supports de stockages augmentent en même temps que leurs prix
baissent, ce qui encourage les développeurs à créer des pages Web avec de plus en
plus d’informa on (texte, sons, vidéos…). C’est donc une mission difficile pour ces
moteurs d’indexa on qui envoient des robots pour récupérer le maximum
d’informa on en un temps assez court afin que les données une fois indexées ne
soient pas obsolètes.
En plus du souci de la rapidité d’indexa on les robots doivent passer partout et donc
récupérer l’informa on de toutes nouvelles pages mises en ligne sur Internet.
Lorsque les files d’a ente ne con ennent plus de nouvelles URL le moteur
d’indexa on peut es mer que tout le Web a été visité et indexé, à condi on
évidemment que la liste de départ con ent bien des pages fortement connectées au
reste du Web.
24
25
Ce e méthode évite d’indexer des pages non modifiées, elle est donc économique en
ressources (ressources qui seront u lisées pour gagner du temps par ailleurs). Il est
désormais possible d’adapter la périodicité du crawl à la fréquence de changement
des pages, selon le site visité ou le domaine. Le cycle de crawl n’est donc plus
uniforme.
En plus de la fréquence de mise à jour des pages le robot doit se préoccuper des
nouvelles pages et de celles qui ont été supprimées. C’est ici que réapparaît la
technique de l’indexa on par lot qui va être exécutée pour collecter les informa ons
fiables afin d’éviter une dérive de l’index.
Un exemple concret de Web incrémental est « Seeker ». Ce moteur d’indexa on a
été proposé par Jenny Edwards, une spécialiste australienne des robots d’indexa on.
Ce e méthode d’indexa on a été proposée pour un ou l de recherche d’IBM nommé
Webfountain.
La par cularité d’IBM est que en son sein il est possible de posséder des sta ons de
travail ultra puissantes avec une très bonne bande passante et avec des énormes
capacités de stockage. C’est pourquoi le moteur d’indexa on créé dans ce cas ne
travaillait pas sur un index de taille fixe (index fermé) mais plutôt sur un index ouvert
capable de suivre en quasi temps réel la croissance de la toile. En plus de me re à
jour les informa ons existantes des pages déjà présentes dans l’index ce moteur met
à jour la structure des sites qui vont composer l’index.
Le Web incrémental re son épingle du jeu en travaillant sur un index élaboré et
maîtrisé (du fait d’une bonne méthode de limite de sa taille). De ce fait la rapidité
pour indexer le Web devient plus importante mais les résultats en retour d’une
26
27
recherche ont une per nence toujours discutable. Le talon d’Achille de ces moteurs
demeure donc dans la qualité de classifica on des résultats et donc dans la méthode
u lisée pour noter les pages lors de leurs indexa ons.
Google est une société fondée en 1998 par Larry Page et Sergei Brin en Californie.
Mais Google est avant tout un moteur de recherche créé en 1996 par les deux
cofondateurs de la société alors qu’ils étaient encore étudiants à l’université de
Stanford. Le projet Google traite d’un moteur de recherche dont le fondement est
basé sur le principe d’une analyse des rela ons entre les sites Web.
Le moteur de recherche tel qu’il est apparu en 1998 a subi des modifica ons suite au
travail des développeurs qui sont allés dans le sens de la rapidité d’indexa on, de la
per nence des réponses aux requêtes des u lisateurs, et de la justesse du PageRank
a ribué à une page.
Depuis 2003 le moteur de recherche fonc onne comme suit :
Tout d’abord l’indexa on, elle est réalisée par le Google bot, qui est chargé de
ré indexer les pages contenues dans l’index actuel mais aussi d’indexer les
nouvelles pages. La période d’indexa on s’adapte aux besoins de
rafraîchissement des différentes pages, que ce soit des pages personnelles
(mises à jour à une fréquence aléatoire) ou des pages d’actualité (avec des
fréquences de mises à jour plus importantes). C’est une nouveauté de Google
car dans sa première version le moteur de recherche effectuait ses trois
fonc ons via l’u lisa on de plusieurs robots. Le Google bot est capable de
suivre tout type de lien et il est donc capable d’indexer la totalité du Web.
En plus du Google bot, il existe deux autres robots d’indexa on qui ont des fonc ons
bien par culières, elles sont liées aux nouveautés que proposent Google :
27
28
- Un robot qui se charge d’indexer les pages affichées ensuite dans Google News,
- Un robot qui se charge d’indexer les pages commerciales qui seront affichées dans
le bandeau de droite d’une réponse à une requête quelconque, c’est le robot de
Google AdSense.
La seconde étape durant laquelle le calcul des notes des pages en fonc on du
contenu et des liens.
III.2. Le PageRank
Pendant que de nombreux chercheurs ont passé beaucoup de temps à imaginer des
algorithmes capables d’indexer tout le Web ou de l’indexer le plus rapidement
possible Larry Page et Sergei Brin se sont penchés sur le classement des résultats
d’une recherche. Ils ont imaginé une méthode pour déterminer l’importance d’une
page Web. Contrairement à d’autres algorithmes le pageRank ne se base pas sur le
contenu total d’une page Web mais plutôt sur ses liens sortants mais aussi entrants.
En français PageRank signifie rang de la page, on retrouve dans ce e dénomina on la
volonté de classer les pages par importance et de leur donner un rang pour les
dis nguer les unes des autres lors d’une requête sur le moteur de recherche.
28
29
domaine des informa ons de la page A. En possédant un lien vers la page B, A affecte
donc un vote à B.
On comprend donc aisément que plus la page B reçoit de votes (possède des liens
entrants) d’autres pages du Web plus elle est considérée comme importante par
Google et plus elle aura de chances de se retrouver bien placée en réponse à une
requête dans le domaine dont elle traite.
Remarques :
- L’importance de la page B éme rice du lien vers la page B n’est pas négligeable
pour déterminer l’importance de la page B. En effet une page possédant une
mul tude de liens entrants de la part de sites persos n’ob endra pas le même
classement qu’une page qui possède quelques liens entrants de la part de sites
reconnus et mondialement connus.
- Comme pour l’indexa on incrémentale, et comme son nom l’indique l’algorithme
pageRank n’a ribue pas un classement pour un site complet mais pour chaque page
qui le cons tue. Aucune extrapola on (moyenne des pages d’un site ou autre) n’a été
réalisée afin de noter le site plutôt que ses pages.
- L’algorithme pageRank ne scrute pas le contenu d’une page afin d’y déceler les
méta données ou autres informa ons qui pourraient aider le moteur d’indexa on à
donner une note per nente en rapport avec tel ou tel sujet. L’algorithme pageRank
est basé sur le principe des liens et donc le fait qu’une page est un fort pageRank ne
signifie pas que son contenu est très intéressant ni que les informa ons sont vraies,
une page a un fort pageRank si de nombreuses pages pointent vers elle.
30
31
nombreux liens sortants l’importance de chaque lien (et donc de celui pointant vers
A) va être minimisé propor onnellement au nombre de liens.
Le résultat de ce e formule donne dans la théorie des valeurs frac onnaires, en effet
on peut s’apercevoir que le pageRank d’une page peut varier de 0.15 jusqu’à une
valeur très grande. Hors nous avons vu précédemment que les pageRank affichés
dans la pra que sont compris entre 0 et 10 et ce ne sont que des valeurs en ères.
Google cache une par e de son algorithme, certains parlent d’une échelle
logarithmique de base 10 qui, en effet, fait retomber sur les bonnes valeurs les rangs
calculés par le pageRank.
Voici les 11 possibilités de valeurs de pageRank affiché sur la barre d’ou ls de Google:
PageRank affiché4 PageRank calculé par l'algo
0 1 A 10
1 10 A 100
2 100 A 1 000
3 1 000 A 10 000
4 10 000 A 100 000
5 100 000 A 1 000 000
6 1 000 000 A 10 000 000
7 10 000 000 A 100 000 000
8 100 000 000 A 1 000 000 000
9 1 000 000 000 A 10 000 000 000
10 Supérieur A 100 000 000 000
PageRank affiché en fonc on du pageRank calculé
Remarque :
L’échelle logarithmique de base 10 est reprise dans de nombreux ar cles traitant de
l’algorithme pageRank de Google mais elle n’est en aucun cas énoncée explicitement
par les fondateurs de l’algorithme. Cependant ce e hypothèse offre des résultats qui
se rapprochent du résultat retourné par la barre d’ou l de Google et elle aide à la
compréhension.
4 PageRank calculé selon une hypothèse d’utilisation d’une échelle logarithmique, cela dit très proche
de la réalité.
31
32
d) L’algorithme itéra f
Si on s’intéresse de plus prés à la défini on donnée dans la publica on de Google on
s’aperçoit que l’on parle d’un algorithme itéra f et qui va donc de pages en pages
pour calculer le pageRank de chacune d’elles, et ceci, en boucle. Une ques on se
pose alors étant donnée la formule sur la valeur de pageRank de la première page
visitée. Elle va influencer les valeurs des pageRank des pages vers qui elle a un lien
sortant, et ainsi de suite. Il parait donc très important de connaître la valeur de
pageRank de départ à donner ou à calculer et il faudrait pouvoir évaluer par la suite si
la valeur choisie était la bonne.
→ En réalité le caractère itéra f de l’algorithme fait que chaque itéra on fait
converger les résultats vers une valeur de plus en plus précise. La valeur finale est
retenue à chaque fin d’itéra on et est réinjectée dans l’itéra on suivante. On
s’aperçoit alors que qu’elle que soit la valeur donnée en entrée l’itéra on fera
toujours converger l’algorithme vers la même valeur. Pour accélérer le processus
d’itéra on qui devrait boucler autant de fois que de pages visitées le facteur
d’amor ssement a été mis en place dans l’algorithme, il joue le rôle de modérateur
et fait converger les valeurs rapidement. Le nombre d’itéra ons u lisé pour indexer
le nombre impressionnant de pages Web existantes (quelques milliards) est d’environ
40.
Ce qui a été présenté jusque ici est la par e de l’algorithme du moteur de recherche.
L’algorithme est la base du moteur de recherche Google mais depuis sa mise en
fonc onnement en 1998 le moteur de recherche a subi des modifica ons. D’une part
les robots d’indexa on ont été améliorés et d’autre part des modifica ons ont été
effectuées au niveau du PageRank afin que les notes données aux pages soient bien
objec ves et per nentes.
En effet Google s’est intéressé de plus prés au contenu des pages et a mis en
place un système pour évaluer si une page est bien en rela on avec le texte du
lien par lequel a est arrivé le robot d’indexa on. Bien que Google ne dévoile
32
33
rien sur les algorithmes u lisés sur de nombreux forums les administrateurs de
sites parlent d’algorithme Hilltop et localrank.
De plus le PageRank veut se protéger des systèmes qui ont pour but de faire
apparaître des pages dans le début des listes de réponse, et ceci en jouant
avec l’algorithme PageRank. Pour se protéger de ses pages indésirables Google
u liserait des filtres iden ques à ceux u lisés pour filtrer nos mails.
Le domaine des algorithmes des moteurs de recherche se montre divers et varié mais
ce qui le caractérise le plus c’est l’évolu on qu’il subit du fait de la forte demande des
u lisateurs qui souhaitent trouver avec facilité, rapidité et fiabilité une réponse à leur
requête. Dans le lot des moteurs de recherche Google a su se posi onner dans les
premiers dès son arrivée en 1998 avec son algorithme PageRank. Alors que sa place
de numéro un est difficile à détrôner Google ne souhaite pas en rester là et, en plus
des fonc onnalités de plus en plus nombreuses qu’il propose, renforce son
algorithme afin de gagner en rapidité et en per nence. Les caractéris ques
présentées ci-dessus ne sont que des théories et, alors que les premiers moteurs de
recherche séman ques montrent le bout de leur nez certaines théories apparaissent
désormais sur le fait que Google, lui aussi, se tournerait vers des ou ls séman ques.
33
34
Dans la première par e du cours, nous avons parcouru les normes et standards du
web. Dans la seconde par e, il a été ques on d’étudier le fonc onnement des
moteurs de recherche. Il ressort de ce qui précède la no on d’indexa on de contenus
et de per nence de contenu. Dans la pra que, ce mécanisme consiste à répertorier
de manière régulière les url du web et les associer à des mots clés. Les résultats
obtenus sont présentés par ordre de per nence lors des recherches des internautes.
Le référencement répond donc à un double défi qui se résume en la produc on de
pages web op misés pour l’indexa on et à la manipula on savante de mots clés
per nents.
Dans ce e troisième grande par e de notre cours, nous tenterons une double
approche du référencement : une approche du point de vu développement web et
une autre du point de vu internaute.
L’approche du point de vu du réalisateur du site web nous perme ra d’explorer les
techniques de référencement de contenus numériques. Tandis que l’approche du
point de vu internaute, exposera à l’aide de cas pra ques comment effectuer des
recherches op males sur Google.
34
35
Pour un site web en début de son cycle de vie, il est conseillé d’u liser le
référencement payant afin d’a rer le maximum de visiteurs. Néanmoins, ce e
approche ne garan t pas un référencement intemporel. En effet, une fois que vous
arrêtez de payer le moteur de recherche, les pages web promus retrouvent la place
qui leur est réellement des née. De premier affiché sur les résultats, vous pouvez
35
36
passer du jour au lendemain à la dernière page des recherches. Il vous incombe donc
d’op miser votre site web pour un référencement naturel afin de lui maintenir une
place de choix dans le temps, même sans ou à l’arrêt d’un référencement payant.
Nous vous indiquons un aperçu des meilleures pra ques et des 4 étapes éprouvées
qui mènent au succès.
36
37
D'autres ou ls que celui de Google Adwords existent pour travailler avec précision la
liste de mots-clés :
- SEMRush : donne la liste des mots-clés de votre concurrence.
- Übersuggest : propose des mots-clés complémentaires.
37
38
mois. Vous pourrez ainsi travailler à définir un budget réaliste et cohérent avec vos
moyens, vos objec fs et la concurrence.
Dès lors que vous aurez franchi toutes ces étapes, il ne vous restera plus qu'à lancer
votre campagne de référencement payant.
Les premiers résultats commencent généralement à se concré ser passé quelques
jours voire quelques semaines.
38
39
mobiles. Un autre exemple, un site web avec une ou plusieurs pages isolée
diminue ses chances de référencement dans la mesure où les robots
constateront le manque de navigabilité.
La rapidité d’affichage des pages
De même que les internautes préfèrent les pages web qui chargent vite et qui
n’ont pas besoin d’a endre avant d’accéder aux informa ons, les moteurs de
recherches aussi prennent en compte la vitesse de chargement des pages dans
leur algorithme d’évalua on de la per nence.
Mobile friends
Développé en 2014, le label Google « Mobile Friendly » permet d’améliorer le
référencement d’un site classique. La valida on par Google de la qualité de
votre site, sera désormais un nouveau critère ajouté à l’algorithme de
classement.
Le nombre de visiteurs
Un site web qui totalise beaucoup de visites est mieux référencé qu’un site
web produisant une même qualité d’informa ons mais moins visitée.
expressions et qui ne sont pas principalement des nées aux internautes mais
aux moteurs de recherches. Cependant ce e technique peut être considérée
comme de la triche et conduire à la pénalisa on de votre site web si elle est
mal gérée. Il faut donc qu’elles soient accessibles par les internautes (donc
design a rac fs) tout en assurant un lien vers la page difficile à op miser pour
les moteurs de recherches. Nous vous recommandons de placer ces pages
dans le pied de page de votre page web et de ne pas l’u liser en lien caché.
Les liens sponsorisés sur les réseaux sociaux
L’usage de liens sponsorisés augmente le nombre visiteurs de votre site web et
permet de réaliser une cartographie de vos internautes afin d’en dégager la
par cularité de votre domaine d’ac vité.
Insérer des vidéos au bas de vos ar cles
Me re une vidéo en pied d’ar cle perme rait aux visiteurs qui ne
souhaiteraient pas lire l’ar cle de se renseigner sur le sujet de l’ar cle « sans
faire d’effort ». Le concept est intéressant à la fois pour résumer l’ar cle mais
également pour y apporter des éléments supplémentaires venant d’autres
professionnels du domaine. Vous pouvez ainsi enrichir le contenu de votre
ar cle et cap ver le visiteur durant un maximum de temps.
PS : Plus le temps passé sur votre site web est élevé, plus les moteurs de
recherches considéreront vos contenus a rac fs et de qualité, donc
per nents.
41
42
Astuces et stratégies
Voici donc une liste d'astuces et stratégies très u les mais trop souvent négligées.
Dans les exemples qui suivent, nous u lisons les crochets [ ] pour indiquer que la
requête est écrite telle qu'elle. De plus, n'oubliez pas que vous pouvez combiner ces
requêtes comme bon vous semble.
Les guillemets
L'u lisa on des guillemets ["mots clés"] signale au moteur de recherche que vous
désirez effectuer une recherche qui correspond exactement aux termes ou à la
phrase entre guillemets. Sans ces guillemets, Google peut varier le sens des mots en
recherchant des synonymes ou variance orthographique ou séman que, un aspect
qui est normalement fort u le. Par contre, il peut arriver que l'on souhaite forcer
Google à effectuer une recherche avec un mot ou une phrase précise et non sur ses
variantes. Par exemple, si vous voulez voir si votre contenu est répliqué quelque part
sur le Web (avec ou sans votre consentement), vous pouvez effectuer une recherche
42
43
["Comment effectuer une recherche sur Google "]. Testez ce e fonc onnalité avec
une phrase de votre cru et vous verrez la différence entre u liser les
guillemets ou non.
La requête [site:]
Vous désirez faire une recherche sur une por on spécifique du Web, l'u lisa on de
[site:NomDuSiteWeb.com] ou [site:.edu] vous permet de faire une recherche
respec vement sur les pages indexées d'un site Web ou un niveau de domaine précis
(dans ce cas les sites qui sont dans le domaine .edu). Par exemple, si vous recherchez
de l'informa on sur un site du gouvernement du Canada, vous pouvez u liser
[formulaire impôt site:.gc.ca], un site universitaire [Nassim Nicholas Taleb site:.edu],
sur Facebook [social plugins site:facebook.com], ainsi de suite. Vous pouvez essayer
avec la requête suivante : [téléphone intelligent site:cognitos.ca].
L'opérateur [OR]
Cet opérateur permet d'effectuer une recherche en proposant une alterna ve à
l'obten on des tous les résultats que Google peut générer en u lisant des synonymes
et varia ons séman ques. Pour qu'il fonc onne le mot "OR" doit être en le re
majuscule. Par exemple, si l'on recherche de l'informa on précisément sur des hôtels
au NouveauBrunswick, on peut formuler une requête comme suit: [hotel
[NouveauBrunswick] OR [New Brunswick] OR NB -" new jersey" -NJ].
Vous remarquerez que nous pouvons effectuer une recherche en français et en
anglais de manière simultanée, en prenant soin d'éliminer des résultats indésirables,
tel "New Brunswick", qui est également une ville située dans l'état du "New Jersey"
aux USA.
La requête [filetype:]
Ce type de requête est très u le lorsque vous cherchez un type de fichier en
par culier. Par exemple, vous cherchez un formulaire spécifique en format PDF sur le
site du gouvernement du Québec rela f à la taxe de vente (TVQ). Pour y parvenir,
44
45
vous pouvez faire une requête du type [tvq filetype:pdf site:gouv.qc.ca]. Vous pouvez
faire ce type de recherche avec d'autres extensions doc, xls, ppt. etc.
La men on link:
Link:patate.com trouve les pages Web qui pointent vers l’adresse spécifiée (ici,
patate.com). Si vous souhaitez savoir qui parle de vous sur la Toile, cet opérateur
pourrait vous être u le.
45
46
46
47
Applica ons Mul plica on des applica ons par cipa ves pour communiquer (blog,
twi er), partager (facebook, linkedin, flickr, youtube, etc.), transformer des
données (RSS & XML), tagger (Digg), présenter (slideshare), etc.
U lisateur Consommateur et acteur. Néanmoins, seule une minorité devient auteur
“read & write”, la majorité se contente d’un engagement restreint “read &
share”
Technologie de recherche sur base de mots clés (tags) partagés et croisés (=folksonomies)
recherche
Focus orienté service client
marke ng
Flux “many to many” – échanges dynamiques
Tac ques pay per click adver sing, marke ng viral, WOM (bouche à oreille), SEM
marke ng (search engine marke ng)
Rela on distribuée, segmentée, échanges
Obstacles Infobésité: trop de contenu de qualité très inégale.Accessibilité: technologie
ne permet pas encore une vraie portabilité. Manque de personnalisa on: il
est difficile de sor r du lot
Web 3.0 ou web Période 2010-xx
séman que ou Focus connecte le savoir, orienté individu dans son contexte
“smart” web Objec f consolider et intégrer des contenus dynamiques
Concept cura on – compréhension et exploita on des données
Architecture SaaS (logiciel=service) & Cloud (ubiquité et portabilité)
Les web services occupent la place centrale et connectent les supports et
les applica ons à travers des interfaces simplifiées.
Language Outre le XML, de nouveaux languages émergent: RDF (Resource Descrip on
Framework) càd la grammaire qui définit les concepts et établit les rela ons
+ OWL (Ontology Web Language) basé sur les rela ons et la logique + SWRL
(Seman c Web Rule Language) qui établit les règles qui perme ent de
comprendre ce que les humains cherchent.
Données Transforme le web est une base de données géante, divisée en groupes
avec une mul tude de liens entre eux pour croiser les données. Intégra on
des metadata dans les ressources accessibles partout, à tout moment et
sur n’importe quel support.
Contenu contenu organisé par les u lisateurs – réalité augmentée
Ou ls de tous les ou ls précédants adaptés à l’internet mobile (table es, smart
communica o phones) + des ou ls cross media tels que QR codes, RFID (radio frequency
n iden fica on)
Applica ons applica ons personnalisables – ex. netvibes, igoogle, applica ons 3D,
créa on de mondes virtuels,
serious games, social games
U lisateur Emergence du consom’acteur. Consommateur engagé. U lisateur de plus
en plus ac f, mobile, toujours connecté.
Technologie de recherche contextuelle grâce à des filtres individuels (ex: les
recherche recommanda ons d’Amazon) (=me-onomy),
recherche séman que en language naturel,
recherche visuelle (ex: en prenant la photo d’un monument, accéder à
toute l’informa on qui s’y rapporte)
Focus orienté intérêts et goûts client
marke ng
Flux “many to one” – flux digital con nu
Tac ques data marke ng contextuel, advertainment, certains “power users” ou
marke ng internautes influents deviennent ambassadeurs des marques, veille et e-
réputa on,
Rela on Contextuelle
47
48
Obstacles Difficulté de combiner le web des données (scien fique et rigoureux) avec
le web social (instantanné, basé sur les émo ons).
Danger d'”envahissement” par un web omniprésent.
Période 2020(?)-xx
Focus connecte l’intelligence, orienté interac on individus|objets
Objec f innover grâce aux connexions intelligentes
Concept interconnexion réel|virtuel, intelligence collec ve
Architecture OS (système opéra onnel) + Cloud
Données Evolu on vers des standards ouverts, vers un language universel
U lisateur L’u lisateur devient cré-acteur, en constante symbiose avec son
Web 4.0 ou web
environnement
symbio que ou
web “intelligent” Technologie de filtres intelligents
recherche
Focus chaque consommateur est différent
marke ng
Flux “one in many” – environnement intelligent
Tac ques L’analyse des comportements des u lisateurs perme ra une véritable
marke ng personnalisa on: le bon message au bon moment au bon endroit
Rela on fluide, mul ple
Obstacles Sécurité des sources et accès aux données. Capacité à analyser les
comportements et à les traduire en données u les. Danger d’un contrôle
sur la vie privée et perte de liberté. Le web 4.0 comme il est présenté
aujourd’hui pourrait restreindre notre liberté et nos chances d’évolu on &
d’innova on (puisqu’il ne nous présenterait que ce qui est censé nous
intéresser).
48
49
L’internaute se rend sur votre site comme s’il se rendait dans un magasin pour faire
du lèche-vitrines, sans avoir une idée précise en tête. Les mo va ons de visite sont
plutôt hédonistes. Le canal d’acquisi on est principalement du lien direct.
Stratégie digitale à adopter : le site doit devenir une référence sur son marché. La
présence à l’esprit doit être à un niveau très élevé, grâce à une communica on
régulière en ligne et/ou dans le monde réel. Du contenu, des offres récentes doivent
apparaître à la visite de l’internaute.
2- La visite expédi ve
L’internaute sait ce qu’il veut. Il se rend sur votre site pour réaliser un achat parce
qu’il connaît votre offre ou parce que le site lui a été recommandé (Connaissances,
forum, blog, etc…). Les canaux d’acquisi on sont des liens directs ou des liens
d’affilia ons.
Stratégie digitale à adopter : travailler son “referal” , surveiller sa réputation
49
50
3- La visite exploratoire
L’internaute souhaite réaliser un achat, mais ne connaît pas les sites à visiter. Il
choisira de passer par des annuaires, des comparateurs ou le plus souvent par son
moteur de recherche préféré. L’internaute me ra plus de temps à se décider, car il
passe par une phase découverte. .
Stratégie digitale à adopter : travaillez votre référencement naturelle et/ou payant.
4- La visite évalua ve
L’internaute souhaite réaliser un achat précis et connaît votre site ainsi que vos
concurrents. L’internaute a un niveau avancé de connaissance et va donc comparer
les différentes offres pour prendre sa décision. Ce processus est plutôt fermé et laisse
peu de place à l’improvisa on.
Stratégie digitale à adopter : travaillez la conversion de votre site et la per nence de
votre offre.
Internet fait désormais par e intégrante de notre vie alors que le tout premier site
web a été mis en ligne en août 1991 par un Britannique. Il aura fallu moins de 30 ans
pour qu’internet envahisse notre quo dien.
Quelles sont les grandes tendances comportementales des internautes en 2019 ?
50
51
51
52
52
53
I- Défini on
Source : h ps://www.1min30.com/
53
54
1- KPI e-commerce
On assimilera ici un site éditorial à un site à fort contenu qui fait du chiffre d’affaire
via l’affilia on et la publicité. Pour ce type de site, on pourra choisir comme KPI :
Le taux de clic sur les liens publicitaires / d’affilia on sur le site
La qualité de trafic (CA / Nombre total de visites)
Le taux d’inscrip on aux listes de diffusion
Le taux de clic sur les liens de e-mailing
Les sites non marchands mais qui ont comme objec f de générer des leads
entrants pourront suivre :
Le taux de conversion (global ET par source)
Le taux de rebond
Les performances des formulaires (combien de personnes ont eu l’inten on
de faire une demande et ne sont pas allées au bout de leur démarche).
54
55
I- Google Analytics
C’est la solu on de web analy cs la plus répandue et vous l’u lisez peut-être déjà.
Le nombre d’analyses et de données que l’ou l de Google vous permet de récupérer
est virtuellement illimité… à condi on de savoir paramétrer l’ensemble pour bien
vous y retrouver.
55
56
56
57
II-AWStats
C’est un peu l’équivalent de Google AnalyƟcs mais fourni par cPanel. Il peut être u le
si vous souhaitez quelques sta s ques poussées de votre trafic mais reste clairement
un ou ls moins ergonomique et pra que.
AWStats est un logiciel libre sous licence GPL qui permet de générer des sta s ques
pour son serveur. Il offre des vues graphiques sta ques mais aussi dynamiques des
sta s ques d'accès à vos serveurs web, FTP, courrier ou en con nu (streaming).
III- KissMetrics
KISSmetrics est une solu on puissante d’analyse, qui rend le parcours u lisateur
facile à appréhender et à croiser avec d’autres données.
57
58
IV- MixPanel
Disponible pour votre site comme pour votre applica on, Mixpanel vous permet non
seulement d’analyser le comportement de vos visiteurs, de gérer vos tests A/B, mais
aussi d’augmenter vos taux de réten on en leur envoyant des no fica ons et emails
personnalisés. L’interface est agréable à u liser.
58
59
V- Adobe SiteCatalyst
La solu on de web analy cs développée par Adobe est une suite aussi performante
qu’onéreuse. On la réservera donc plutôt aux entreprises à forte capacité
d’inves ssement dans leur développement.
59
60
Chapitre 4 : Implémenter une solution web analytics avec Google Analytics
60