Rapport MASH

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 20

Université de Paris Dauphine

Département MIDO
Pixalione

RAPPORT DE STAGE DE MASTER


M2 MASH
Développement d’un module Data
Analytics

H ADJI Mohamed Amine

Proposé par : Zouad Oussama


2014
Table des matières

1 Présentation de l’entreprise 4
1.1 Secteur de l’entreprise . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 La place de l’entreprise dans le secteur . . . . . . . . . 6
1.2 Historique de l’entreprise . . . . . . . . . . . . . . . . . . . . 6
1.3 Description de l’entreprise . . . . . . . . . . . . . . . . . . . . 7

2 Missions du stage et missions effectuées 8


2.1 Mission principale du stage . . . . . . . . . . . . . . . . . . . 8
2.1.1 Google Analytics . . . . . . . . . . . . . . . . . . . . . 8
2.2 Missions effectuées . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Prise en main de l’outil . . . . . . . . . . . . . . . . . 11
2.2.2 Élaboration des warnings . . . . . . . . . . . . . . . . 11
2.2.3 Implémentation algorithmiques . . . . . . . . . . . . . 13
2.2.4 Missions annexes . . . . . . . . . . . . . . . . . . . . . 14

3 Modèles statistiques 15
3.1 Warning : Technologie . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Warning : Vitesse du site . . . . . . . . . . . . . . . . . . . . 16
3.3 Warning : Pages et Produit . . . . . . . . . . . . . . . . . . . 17

4 Bilan 18
4.1 Difficultés rencontrées . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Compétences acquises . . . . . . . . . . . . . . . . . . . . . . 18

2
Introduction
Alors qu’il a fallu respectivement trente-sept et quinze ans à la radio et
à la télévision pour conquérir cinquante millions d’utilisateurs, Internet a
franchi ce cap en seulement trois ans. De même pour générer un milliard
de dollars de revenus publicitaires, seulement trois ans ont été nécessaires à
Internet contre dix ans pour la télévision et quarante-cinq ans pour la radio.
Cet essor fulgurant, amplifié par les autres moyens digitaux n’est pas
près de s’arrêter puisque le cabinet Forrester estime qu’en 2016, le mar-
keting digital représentera plus du tiers des investissements marketing des
annonceurs aux Etats-Unis. L’avenir du marketing passera donc, sans doute,
par le digital.
Dans ce contexte, il est compréhensible que les méthodes qualitatives
ne sont plus suffisantes pour maîtriser le concept. L’application des ma-
thématiques et notamment des statistiques n’est pas nouvelle en marketing,
toutefois la quantité immense de donnée rend la tâche de plus en plus ardue.
Il est nécessaire d’avoir des compétences en mathématiques, informatique et
marketing pour comprendre tous les enjeux.
Ainsi, ce stage s’inscrit dans la problématique du traitement et de l’ana-
lyse d’une quantité volumineuse de données à des fins mercatique, et ce en
utilisant des méthodes mathématiques et statistiques. Ce rapport à pour
but de faire comprendre comment le stage fut e

3
Chapitre 1

Présentation de l’entreprise

Pixalione est une société crée en 2007 et spécialisée dans le domaine


du marketing digital. Elle offre notamment son expertise en référencement
sur les différents moteur de recherche. Cette offre est déstinée aux Grands
groupes et PME qui ont une problématique d’acquisition de trafic qualifié
sur leur site. Cela peut se faire soit en accompagnement, soit en Full services
(c’est-à-dire que Pixalione gère toute la partie digitale d’une entreprise), soit
plus rarement par la simple location d’une solution logicielle.
L’approche particulière de Pixalione est d’utilliser des outils algorith-
miques qui permettent de maîtriser la visibilité d’un site Internet. Ceci per-
met de différencier Pixalione d’autres sociétés qui se limitent à une analyse
humaine des bonnes pratiques de marketing digital.

1.1 Secteur de l’entreprise


1.1.1 Définitions
Pixalione est spécialisée en marketing digital et en référencement web.
Cela comporte un volet SEO/SEA, un volet PLA ainsi qu’un volet Data
Analytics.

Marketing digital

Le marketing digital est un terme qui designe le marketing des produits


ou des services en utilisant les technologies digitales, notamment Internet.
Le développement du marketing digitale depuis les années 90 et 2000 a pro-
fondément affecté la manière qu’ont les marques et les entreprises d’utiliser.
Les gens achètent de plus en plus sur Internet, ce qui a permit une géné-
ralisation des campagnes de marketing digitale. Les activités du marketing
digital englobent le SEO, le SEA, le marketing de contenu, l’automatsation
du contenu, les réseaux sociaux, les campagnes d’e-mail ainsi que la publicité

4
ciblée.

SEO/SEA

Le SEO (Search engine optimization, en français Optimisation pour les


moteurs de recherche) est le fait d’influer sur la visibilité d’un site web dans
les résultats d’un moteur de recherche. En général, plus un site est visibles
dans un moteur de recherche, plus il reçoit de visiteurs qui peuvent poten-
tiellement devenir clients. Le SEO peut viser différents types de recherche
sur le web, ceci inclut les recherches d’images, les recherches de vidéos et les
recherches académiques. Le SEO s’intéresse au fonctionnement des moteurs
de recherche, aux mots-clés utilisés ou encore aux moteurs de recherche les
plus populaires. Optimiser un site web peut amener à éditer son contenu
afin de mieux correspondre à certains mots-clés. Augmenter le nombre de
liens internes peut aussi être une tactique de SEO.
Le SEA (Search engine advertising, en fraçais Publicité sur les moteurs
de recherche) est une forme de marketing qui promouvoit un site web en
achetant des espaces publicitaires sur les moteurs de recherche. Le SEA
peut faire appel au SEO pour améliorer le PPC (Pay per clic, en français
Transactions par clics).

PLA

Le PLA (Principle of least astonishment, en français Principe de moindre


surprise) est un principe d’ergonomie appliquée pour les interfaces d’utili-
sateur. Le principe est "si une composante nécessaire a un facteur surprise
élevé, il faut réstructurer cette composante". Dans le contexte d’une inter-
face utilisateur d’un site, on peut dire que toutes les composantes doivent
réagir comme l’utilisateur pense qu’elles vont réagir ou encore, que le site
web doit s’adapter à son utilisateur.

Data Analytics

Data Analytics comprend l’extraction, l’interprétation et la communica-


tion de faits stylisés dans les données. Cela nécessite une application simul-
tanément des statistiques, de l’informatique et de la recherche opérationnelle
pour quantifier la performance. La Data Analytics utilise souvent la visuali-
sation de données pour communiquer une information. Les entreprises l’uti-
lise décrire, prédire et améliorer leur performance. L’utilisation de la Data
Analytics pour un site web (aussi connu sous le nom de Web analytics) com-
prend la mesure, l’extraction et l’analyse des données web dans le but de
comprendre et optimiser l’utilisation du site. Cependant, cela ne sert pas
uniquement à mesurer l’audience d’un site web, mais aussi à découvrir de

5
nouveaux marchés, à mesurer les résultats d’une campagne de publicité ou
à estimer les fluctuations d’audiences après le lancement d’une campagne.

1.1.2 La place de l’entreprise dans le secteur


Comme déjà évoqué, la particularité de Pixalione est de ne plus se ba-
ser exclusivement sur l’expertise humaine en marketing digital, mais d’ap-
porter aussi des solutions automatisées. L’outil phare de l’entreprise est
M onetoring, un programme capable d’analyser un site web en temps réel en
vue d’établir un diagnostic, de définir une stratégie digitale et d’optimiser
le site.

Diagnostic

M onetoring permet de dresser en temps réel des audits détaillés d’un


site, en s’appuyant sur des warnings élaborés par l’équipe de recherche et dé-
veloppement. Il surveille aussi en direct le site, et reporte automatiquement
toute anomalie.

Stratégie digitale

L’outil permet aussi de dresser une meilleure stratégie SEO/SEA et une


meilleure expériece utilisateur. En effet, la fluctuation de la pertinence des
mots-clés est visibles, ce qui permet une meilleure affectation de ceux-ci. De
plus, le diagnostique précédent permet de détecter les failles internes du site
qui freine les utilisateurs. Tout ceci dépend aussi de la problématique, des
contraintes et des ambitions du client.

Optimisation

Il permet enfin d’optimiser l’expérience utilisateur. Chaque warning re-


présente une perte potentielle d’utilisateurs donc, grâce à la génération des
warnings, les clients peuvent considérer des leviers d’acquisition pour leur
site. Cette optimisation peut se faire à différents niveaux : accroissement du
trafic, augmentation du taux de conversion, minimisation du coût d’acqui-
sition clients...

1.2 Historique de l’entreprise


2007 Création de la société Pixalione par Fabrice Alizon sur fonds propres.
L’entreprise autofinance la totalité de sa croissance, ce qui garantit
sa totale indépendance.
2007-2009 Période d’incubation de la société.

6
2009 Lancement de l’outil P ixanalyzer, qui facilite l’audit d’un site
web.
2011 Démarrage du projet M onetoring, outil phare de l’entreprise.
2009-2013 L’entreprise se lance dans la recherche et le développment,
en y consacrant 50
2013 Lancement officiel de M onetoring, ce qui permet une expansion
de l’entreprise.
2013-aujourd’hui Pixalione est en plein expansion et compte environ
50 employés, dont plus de 25

1.3 Description de l’entreprise


Pixalione regroupe environ 50 employés qui sont divisés en deux grandes
équipes : les consultants en marketing digital et les ingénieurs en recherche
et développement. Ces deux équipes sont complétées par des commerciaux
et des assistants de direction, tous sous la direction du PDG et fondateur.

Consultant

Les consultants en marketing digital intéragissent directement avec les


clients. Chaque client est orienté vers un consultant selon sa demande ; le
consultant va ensuite utiliser l’outil M onetoring pour proposer les meilleures
solutions envisageables, et ce à tous les niveaux (SEO/SEA, PLA et Data
Analytics). Les consultants sont polyvalents, mais chacun a ses spécialités,
et c’est en cela qu’ils géreront différemment les demandes des clients.

Équipe de Recherche et Développement

L’équipe de recherche et développement conçoit et implémente les mo-


dules qui vont être directement ajoutés dans l’outil. Elle améliore aussi les
modules déjà présents. L’équipe est elle-même divisée en plusieurs sous-
équipe, chacune chargée de piloter un module précis :
— L’équipe chargée de modéliser le SEA et optimiser les mises aux en-
chères des annonces publicitaires.
— L’équipe chargée d’optimiser l’administration d’un site web
— L’équipe chargée de catégoriser automatiquement les sites web grâce
au text mining
— L’équipe chargée d’analyser les données des clients et d’en extraire
de l’information
Chaque membre de chaque équipe doit rapporter les tâches effectuées chaque
semaine au chef d’équipe qui les transmet au CTO.

7
Chapitre 2

Missions du stage et missions


effectuées

2.1 Mission principale du stage


La mission principale du stage est d’utiliser les données des clients ex-
traites de Google Analytics, d’utiliser des outils statistiques pour élaborer
les KPI les plus pertinents possibles et ainsi faciliter le travail des consul-
tants en Data Analytics. Le travail consiste globalement en une conception
et une implémentation du traitement et de l’analyse des données Analytics
d’un site web. Ce traitement est hiérarchisé de la manière suivante : le mo-
dule Data Analytics contient plusieurs tableaux de bord nommés Warnings
et qui correspondent à une catégorie d’information qui influe sur le site web.
Chaque Warning est constitués de plusieurs KPI appelées Scores qui sont
affichées à l’écran sous forme de graphe ou directement sous forme de valeur
et qui sont pertinents pour l’utilisateur. Cela permet une meilleure compré-
hension des données et de la façon dont on peut les utiliser. En outre, les
Scores permettent d’analyser facilement la performance d’un site web.

2.1.1 Google Analytics


Google Analytics est un service de Data Analytics gratuit offert par
Google et qui traque et fournit des rapport sur le trafic d’un site web. Google
à lancé le service en Novembre 2005 après avoir acquis Urchin. Google Analy-
tics est maintenant le service de Data Analytics le plus largement utilisé sur
Internet. Google Analytics est aussi disponible dans une version Premium
qui est destinée aux entreprises qui utilisent Google Analytics.
L’approche de Google Analytics est de montrer des tableaux de bord de
données pour les utilisateurs amateurs, et des données plus pointues pour
les experts. L’analyse de Google Analytics permet d’identifier les pages peu
performantes grâce à des techniques telles que la visualisation du tunnel

8
d’acquisition qui montrent le parcours type d’un internaute.

Figure 2.1 – Tableau de bord : ’Vue d’ensemble’

Tableau de bord

Dans un compte Analytics, il est possible de sélectionner une vue qui


traite un catégorie de données. Chaque vue affiche un tableau de bord par
défaut qui comporte un certain nombre de widgets (un élément avec lequel il
est possible d’intéragir) affichant le trafic vers votre site, tel qu’il est mesuré
par certaines dimensions et statistiques clés : une chronologie pour le nombre
d’utilisateurs, une carte géographique des sessions, un tableau des sessions
par navigateur, des chronologies pour le taux de rebond et les conversions par
objectif, etc. Le tableau de bord par défaut peut parfois suffire aux besoins
de l’utilisateur, mais il est également possible de le personnaliser en ajoutant
ou en réorganisant des widgets, en y ajoutant des rapports, en supprimant
des widgets qui ne sont pas intéressants ou en filtrant les données affichées.
Il est même possible de créer ses propres tableaux de bord.

KPI

Un KPI (Key Performance Indicator, en français Indicateur Clé de Per-


formance) est un indice de mesure de la performance. Les KPI évaluent le
succès d’une organisation ou d’une activité particulière dans laquelle elle est
engagée. Souvent, le succès est simplement l’accomplissement répété et pé-
riodique d’un objectif opérationnel, mais il peut aussi être défini comme un
progrès vers un objectif stratégique. Ainsi, choisir le bon KPI repose sur une
bonne compréhension de ce qui est importat à l’organisation. Ce qui est im-
portant dépend souvent du service qui mesure la performance ; par exemple,
les KPI utile en finance vont grandement différer des KPI des ventes. Étant

9
Figure 2.2 – Exemple de tableau de bord : ’Acquisition/Cannaux’

donné qu’il y a un besoin de bien comprendre ce qui est important, plusieurs


techniques d’études de l’état d’une entreprise et de ses activités principales
sont associées à la sélection de KPI. Cela conduit en général à l’identification
d’un possible progrès, les KPI étant normalement associés au progrès de la
performance.

API Google Analytics

Les API Google Analytics sont des interfaces de programmation, soit


un ensemble de classes, de méthodes ou de fonctions qui sert de façade par
laquelle un logiciel offre des services à d’autres logiciels. L’API la plus utilisée
durant le stage fut l’API d’exportation des données. Elle permet de créer
des applications à l’aide des données Analytics déjà disponibles dans un
compte Analytics. Les applications peuvent exploiter l’API pour demander
des données au niveau des rapports à partir d’une vue Analytics existante
(si elles sont autorisées à accéder aux données de la vue) et récupérer un
rapport de données personnalisé pour une vue donnée.

La principale difficultés du travail sur Google Analytics est que la plate-


forme n’offre pas de données à proprement parler, mais des agrégats de don-
nées. En effet, Google Analytics génère des rapports, tous les rapports sont
constitués de dimensions et de statistiques. Les dimensions correspondent
aux attributs des données, elles sont qualitatifs. Par exemple, la dimension
Ville prend la valeur de la ville d’où provient un internaute. Les statistiques
quant à elles, sont des mesures quantitatives. Les tableaux de la plupart des
rapports Google Analytics organisent les valeurs des dimensions sous forme

10
Figure 2.3 – Interface de l’API d’exportation des données

de lignes et les statistiques sous forme de colonnes.

DIMENSION STATISTIQUE STATISTIQUE


Ville Sessions Pages/session
Marseille 5000 3,74
Berlin 4000 4,55
Ce tableau permet de connaitre la moyenne des pages/session des in-
ternautes d’une certaine ville, mais il est impossible d’en déduire d’autres
indices de position ou de diversion (mode, médiane ou variance).

2.2 Missions effectuées


2.2.1 Prise en main de l’outil
Les premières semaines ont été consacrées à l’apprentissage et la prise
en main de l’outil Google Analytics. Il a ainsi été nécessaire de préparer la
certification Google Analytics Individual Qualification après avoir étudier le
contenu des formations de Google.

2.2.2 Élaboration des warnings


Une fois l’outil pris en main, il a ensuite fallu réfléchir aux données
importantes d’un point de vue marketing ainsi qu’à leur utilisation. Les
idées les moins pertinentes et les plus difficiles à mettre en place ont été
mises de coté. Durant le stage, 6 tableaux de bord appelés Warning ont
été entièrement conçus et 3 efficacement implémenté. Chaque conception de

11
Warning a été le résultat du développement d’un modèle statistiques dans
lequel plusieurs hypothèses simplificatrices ont été acceptées.

Warning : Technologie

Le Warning Technologie permet l’étude de l’influence d’une technolo-


gie particulière sur le comportement des internautes. Après la sélection
de quelques statistiques significatives dans Google Analytics, un seuil non-
arbitraire est calculé afin de savoir si la technologie étudiée est défaillante
ou non. Un score entre 0 et 20 sera aussi attribué à chaque technologie afin
de mieux résumer l’ensemble des statistiques. Puis, le Warning permet aussi
une estimation du nombre de pertes en faisant quelques suppositions : il y
a un problème lié à la technologie, une fois le problème réglé, la statistique
tendra vers la moyenne.e prend pas en compte cette perte.

Warning : Vitesse du site

Le Warning Vitesse permet l’étude de l’influence de la vitesse de char-


gement des pages d’un site web sur d’autres statistiques telles que le chiffre
d’affaire ou le taux de succès d’une campagne publicitaire. Le temps de
chargement est composée de plusieurs temps de chargement (le temps de
connexion au serveur,...), il est ainsi possible de détecter exactement où se
trouve le problème. Un seuil non-arbitraire est calculé afin de savoir si le
temps de chargement du site est trop élevée, d’autre seuil sont calculés afin
de localiser le problème. Ce Warning permet aussi une estimation des pertes
en faisant quelques suppositions.

Warning : Tunnel de conversion

Le Warning Tunnel de conversion permet l’étude du tunnel de conver-


sion d’un site web, soit le processus que les internautes doivent effectuer
jusqu’à arriver à un objectif sans abandonner. En segmentant notre popu-
lation en deux selon un caractère précis, il est possible de voir l’influence de
ce caractère dans l’abandon d’un internaute à une étape clé du tunnel de
conversion. Il est aussi possible de visualiser le type d’abandon du tunnel
(abandon interne au site, ou externe).

Warning : Pages/Produit

Les Warning Page et Produit sont distincts mais très similaires. Ils per-
mettent l’étude des pages ou des produits les plus efficaces sur le site web.

12
Figure 2.4 – Interface du warning Vitesse du site

Après la sélection de quelques statistiques significatives dans Google Analy-


tics, un seuil non-arbitraire est calculé afin de savoir si la page ou le produit
étudié est défaillant ou non. Un score entre 0 et 20 sera aussi attribué à cha-
cun afin de mieux résumer l’ensemble des statistiques. Une étude est aussi
faîte pour connaitre la relation entre 2 pages, 2 produits ou une page et un
produit afin d’optimiser les liens d’un site web.

Warning : Overview

Le Warning Overview permet l’étude global du site dans le temps. Plu-


sieurs statistiques importantes sont calculées en temps réel et les techniques
d’études de séries temporelles permettent de détecter les tendances de ces
statistiques. Il est ainsi possible de prévoir les grands bouleversement sai-
sonniers ou les évolutions plus globales du site.

2.2.3 Implémentation algorithmiques


Plusieurs langages de programmation furent utilisées afin d’implémenter
les modèles de chaque warning. Les langages les plus utilisées furent R,
Python et Java.

13
R

R est un langage de programmation et un environnement logiciel pour la


programmation et la visualisation statistique. Le langage est soutenu par la
R Foundation for Statistical Computing. Le language R est largement utilisé
dans le monde des statistiques et de l’analyse de donnée notamment grâce
à sa philosophie des package qui le rend très facile d’utilisation.

Python

Python est un langage de programmation objet, multi-paradigme et mul-


tiplateformes. Il est conçu pour optimiser la productivité des programmeurs
en offrant des outils de haut niveau et une syntaxe simple à utiliser. La
particularité de Python est le grand nombre de bibliothèque qu’il intègre
notamment Pandas, la bibliothèque permettant la manipulation et l’analyse
des données, et Numpy, l’extension destinée à manipuler des matrices ou ta-
bleaux multidimensionnels ainsi que des fonctions mathématiques opérant
sur ces tableaux.

Java/JSON

Le langage Java, langage de programmation informatique orienté ob-


jet, n’a pas été directement utilisée durant le stage. Cependant, comme
il était nécessaire que les programmes implémentés communiquent avec un
programme Java, les résultats de ces programmes ont été convertis en JSON
(JavaScript Object Notation). JSON est un format de données textuelles suf-
fisamment génériques et abstraits pour pouvoir être représentés dans n’im-
porte quel langage de programmation et pouvoir représenter n’importe quelle
donnée concrète.

2.2.4 Missions annexes


En plus de la conception et de l’implémentation de Warning, il est arrivé
durant le stage que de travailler avec d’autres équipes. Ce travail fut celui
d’un consultant en mathématiques appliquées. Il a été question d’étudier les
meilleurs algorithmes possibles compte tenu des problèmes présents. Notam-
ment, les algorithmes de prédiction et de classification statistiques, ainsi que
les algorithmes heuristiques de détection des cliques maximales d’un graphe.

14
Chapitre 3

Modèles statistiques

Chaque Warning donne lieu à un modèle statistiques avec ses propres


hypothèses. Seuls quelques modèles seront détaillés ci-dessous.

3.1 Warning : Technologie


Soit (Xij ) indépendants tel que Xij ∼ L(θi ) avec Xij la valeur d’un
statistique pour la technologie i. (θi ) i.i.d avec θi ∼ L0 (µ).
Le problème est qu’il est impossible de manipuler les Xij , mais unique-
ment les X̄i . Ainsi les lois L sont choisies de tel sorte que θˆi = X̄i . Les lois
utilisées sont donc la loi de Bernoulli pour les valeurs de type booléenne et
la loi exponentielle pour les valeurs positives.
(
Xij ∼ B(θi ) θi ∼ B(α, β) si Xij ∈ {0, 1}
Xij ∼ E(θi ) θi ∼ Γ(α, β) si Xij > 0
On en déduit les estimations suivantes :

 α = θ̄( θ̄(1−θ̄) − 1) β = (1 − θ̄)( θ̄(1− θ̄)
− 1) si Xij ∈ {0, 1}
Vθ Vθ
2 Vθ
 α = Vθ̄
θ
β= θ̄
si Xij > 0
Une fois les lois de θi connus, il est possible d’attribuer un score entre
0 et 20 pour chaque caractéristique d’une technologie i. Le score final de la
technologie i est la moyenne harmonique des scores de ces caractéristique.
La moyenne harmonique étant utilisée afin de pénaliser les scores faibles.
À partir de là, il est possible de regrouper les θi en deux groupes distincts.
Les θi ≥ γ et les θi < γ avec θ0 vérifie P (θ ≤ γ) = 1−λ, λ étant un seuil entre
0.5 et 1 que l’utilisateur choisit. Les θi < γ sont dit défaillants, c’est-à-dire
qu’on considère que la technologie i présente un problème.
On estime ensuite les pertes de manière très simple.
Perte = E( Xij |θi ≥ γ) − E( Xij )
P P
ij ij

15
ni E(θ|θ ≥ γ)θi |θi < γ) avec ni le nombre de Xkj avec k = i.
P
Perte = E(
i

Les scores ainsi que les estimations des pertes sont visibles dans un ta-
bleau.

Figure 3.1 – Exemple de tableau contenant les scores des navigateurs

3.2 Warning : Vitesse du site


Soit (Xi , Yi ) i.i.d avec Xi le temps de chargement d’une page du site i
et Yi une statistique que l’on veut prédire. On suppose que Xi ∼ Γ(θ, k) et
Yi ∼ L(µ). La loi de Y est soit la loi de Bernoulli pour les valeurs de type
booléenne ou la loi exponentielle pour les valeurs positives.
Comme avec le warning précédent, on attribue un score à chaque page du
site après avoir estimer les paramètres qui nous intéressent. Un seuil est aussi
calculé afin de savoir si la page est considérée défaillante ou non. La particu-
larité de ce warning est le fait de considérer qu’il existe une fonction lien f
dont l’ensemble d’arrivée est R et un polynôme P tel que f (Y ) = P (X) + 
avec  ∼ N (0, σ). Le degré du polynôme est estimé grâce à un critère BIC
(critère d’information bayésien) qui dépend du nombre de paramètres ; ici le
nombre de paramètres est égale au degré du polynôme plus deux (do (P )+2).
Cette régression est utile afin d’estimer les pertes engendrées (ou les
gains potentiels) par une seconde de chargement. Cette estimation se fait
simplement par
Perte = f −1 (E(P (X + 1) + )) − Ȳ
Perte = f −1 (E(P (X + 1)) − Ȳ
Perte = f −1 (P (X̄ + 1)) − Ȳ
De plus, étant donnée que l’on sait que σ̂ := kfn−d(Y )−P (X)k
o (P )−1 est un estima-

16
teur sans biais de σ, il est possible de donner un intervalle de confiance des
pertes estimées : Perte ∈ [f −1 (P (X̄ + 1) − q1−α/2 σ̂) − Ȳ ; f −1 (P (X̄ + 1) +
q1−α/2 σ̂)− Ȳ ] avec q1−α/2 le quantile 1−α/2 de la loi normale centrée réduite.

3.3 Warning : Pages et Produit


Comme avec les warnings précédents, on fait l’étude de plusieurs statis-
tiques liées aux pages ou aux produits, ce qui permet de calculer un seuil
minimum de performance. On attribue aussi un score à chaque page ou
produit et on estime les pertes potentiels des pages ou produits défaillants.
La particularité de ce warning est l’utilisation de règles d’associationi afin
de savoir si deux pages ou deux produits sont liés. Une règle d’association
peut être définie comme ceci : si P = {p1 , ..., pm } est un ensemble de produits
(resp. de pages) et T = P(P ) l’ensemble des transactions possibles. Une
règle d’association X → Y est un couple (X, Y ) ∈ T 2 avec X ∩ Y = ∅. Une
règle d’association est caractérisée par son indice de support, son indice de
confiance et son lift. L’indice de support est la probabilité qu’une transaction
t contienne à la fois X et Y (P (X ∈ t; Y ∈ t)), si le support est nul, il n’y
a pas de règle d’association. L’indice de confiance peut être vu comme la
probabilité conditionnelle P (Y ∈ t|X ∈ t), en général on attribue un seuil de
plus de 0.5 à cet indice afin de savoir si la règle X → Y peut-être efficace ou
non. Le lift mesure l’amélioration apportée par la règle d’association, il est
(X∈t;Y ∈t)
défini par PP(X∈t)P (Y ∈t) ; un lift supérieur à 1 traduit le caractère significatif
de l’association.
Dans un souci de simplification, seuls les parties de I de cardinalité
inférieur ou égale à 2 ont été utilisée pour les règles d’association.

17
Chapitre 4

Bilan

4.1 Difficultés rencontrées


La principale difficulté rencontrée fût la manipulation des données de
l’outil Google Analytics. En effe, la plupart des modèles statistiques ou des
algorithmes de machine learning utilisent des données brutes et non des
données agrégées. Il a fallu donc trouver des méthodes afin d’adapter les
algorithmes à ce type de données.
Une autre difficulté importante a été l’implémentation des programmes
et surtout la communication avec le programme développé et le logiciel prin-
cipal de l’entreprise. Il a fallu beaucoup de recherche et de test afin de voir
ce qu’il était préférable de faire : traduire le programme entièrement dans un
autre langage, utiliser des formats de données spécifiques, utiliser un service
web afin de faire communiquer les programmes. Toutes les solutions ont été
laborieusement testées avant de trouver la plus optimale.

4.2 Compétences acquises


Le stage a permit de développer plusieurs compétences, certaines en
rapport direct avec les enseignements du M2 MASH. Tout d’abord, les tech-
niques mathématiques et statistiques enseignées ont pus être utilisée dans
le domaine professionnel concret. Il a ainsi été rapidement évident que dans
un contexte professionnel, il vaut mieux utiliser les modèles les plus simples
dans un soucis de rapidité. De plus, la théorie ne suffit plus et il faut tou-
jours tester un modèle sur un échantillon afin de savoir si les résultats sont
acceptables ou non.
L’autre grand apport de ce stage est la découverte du marketing digitale.
Le domaine est assez jeune et ne demande que l’apport d’outil statistique
afin de s’étendre. Il est intéressant également de comprendre comment fonc-
tionnent les sites web en amont.

18
Enfin, la découverte du monde de l’entreprise a été un apport considé-
rable durant ce stage. Il a fallu apprendre à travailler en équipe, faire des
concessions, essayer de convaincre d’autres membres. Tout ceci permet de
mieux cerner comment le travail se fait dans un milieu non-académique.

19
Conclusion
Le stage que j’ai effectué au sein de l’entreprise Pixalione m’a permit de
côtoyer le monde du travail. J’ai pu ainsi mettre en application les connais-
sances que j’ai acquises au sein de l’université.
Les méthodes que j’ai utilisée, notamment la modélisation statistique
et le data mining, se sont avérées efficaces pour résoudre les problèmes de
prédiction et de scoring de la performance du site web.
À l’issue de ce stage, je pense que j’ai acquis une bonne expérience dans
le milieu pratique du marketing digital et cela permet de compléter une
formation de statistique parfois assez théorique.

20

Vous aimerez peut-être aussi