CR Elk

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 13

École Nationale d’Informatique et d’Analyse des systèmes.

Business Intelligence et Analytics

Analyse d’un fichier log des serveurs d’une


entreprise fictive

AITMOUSSA Hanane
BATRANI Zohore
SALECK Zeinebou
AL MAMOUN Youssef

2023-2024
Table des matières

0.1 Exploration des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


0.2 Qualité des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.3 Préparation de l’environnement . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.3.1 Configuration de l’input de Filebeat . . . . . . . . . . . . . . . . . . 2
0.3.2 Configuration de l’output de Filebeat . . . . . . . . . . . . . . . . . . 2
0.4 Création de l’index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.4.1 Configuration du fichier sample . . . . . . . . . . . . . . . . . . . . . 3
0.5 Création des dashboards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.5.1 Distribution des agents . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.5.2 Distribution des références . . . . . . . . . . . . . . . . . . . . . . . 6
0.5.3 Distribution des statuts des requêtes . . . . . . . . . . . . . . . . . . 6
0.5.4 distribution des statuts des requêtes par agents . . . . . . . . . . . . 7
0.5.5 Visualisation des agents avec le moins de requêtes . . . . . . . . . . . 7
0.5.6 distribution des requêtes par serveurs . . . . . . . . . . . . . . . . . . 8

i
Introduction

Le suivi et l’analyse des fichiers journaux (logs) revêtent une importance cruciale dans
la gestion efficiente des systèmes informatiques en entreprise. Ce projet s’articule autour
de la mise en place d’une solution complète de collecte, d’analyse, et de visualisation
des logs en exploitant le pack ELK, qui comprend Filebeat, Logstash, Elasticsearch
et Kibana. Cette démarche vise à offrir une plateforme intégrée, permettant une sur-
veillance proactive et une détection efficace des événements au sein de l’infrastructure
informatique de l’entreprise.
Partie 1 : Exploration des données

Dans cette partie, nos explorons le dataset du fichier log. Le but est de comprendre les
différents champs du fichier ainsi que les problèmes existants au niveau des données.

0.1 Exploration des données


La Data dont on dispose est un fichier Csv de logs qui a pour taille de 239 Mo
contenant 7 colonnes et plus de 2 millions d’enregistrement. Ainsi la figure suivante
explique plus en détail les champs de la dataset utilisé :

Figure 1 : dictionnaire des données

0.2 Qualité des données


En explorant le dataset, nous avons relevé les problèmes suivant :
— existance des données manquantes
— format de la colonne date eronné
Partie 2 : Préparation de
l’environnement

0.3 Préparation de l’environnement


Pour réaliser la tache demandées, nous réalisons les étapes suivantes : Nous com-
mençons par la configuration de filebeat, puis la création de l’index avec logstash. Une
fois le fichier est lu par elasticsearch, nous créons des visualisations avec kibana.

Figure 2 : logstach port 5044


0.3.1 Configuration de l’input de Filebeat
Dans cette phase, nous changeons le type de l’input de filestream vers log. Ensuite
nous précisons le chemin du dossier contenant le fichier.

Figure 3 : filebeat input

0.3.2 Configuration de l’output de Filebeat


Il faut préciser l’output vers elasticsearch.

Figure 4 : filebeat output

2
Partie 3 : Création de l’index

0.4 Création de l’index


Dans cette nous commençons à créer l’index du fichier log dans logstash.

0.4.1 Configuration du fichier sample


Cette configuration Logstash est conçue pour traiter des données provenant de Beats
(Filebeat) et les envoyer vers Elasticsearch. Voici une brève explication :
— Input : Logstash utilise le plugin Beats pour écouter sur le port 5044, recevant
ainsi les données provenant de Filebeat.
— Filter : Le filtre csv est appliqué pour analyser chaque ligne des données reçues
avec les colonnes spécifiées.
— Output : Les données traitées sont envoyées à Elasticsearch, où l’index est créé en
fonction du type de Beat et de sa version.

3
Figure 5 : création de l’index

La figure ci-dessous montre le résultat de création d’index.

Figure 6 : index crée

4
Partie 4 : Création des dashboards

0.5 Création des dashboards


Dans cette partie nous créons des visualisations.

0.5.1 Distribution des agents


La figure ci-dessous montre la distribution des agents dans la base de données uti-
lisées. L’agent 518 est présent 80 000 fois. il a envoyé le plus grand nombre de requête.

Figure 7 : diagramme de Gantt

5
0.5.2 Distribution des références
Dans cette figure nous visualisons la répartition de l’attribut Ref. nous observons
que la valeur 438 est dominante ce qui idique que la source 438 est la plus visitée.

Figure 8 : Distribution des références

0.5.3 Distribution des statuts des requêtes


La répartition des statuts des requêtes. 98.41% des requêtes sont des requêtes réussis.
Les requêtes non réussites sont importantes le plus. Il faut diagnostiquer les agents et
le serveur.

Figure 9 : PIE

6
0.5.4 distribution des statuts des requêtes par agents
Ce dashboead présente la distribution des statuts des requêtes par agents. l’agent
63 a 100 000 requêtes avec statut 404.

Figure 10 : statut par agent

0.5.5 Visualisation des agents avec le moins de requêtes


Cette figure présente le 4 agents les moins fréquents dans la base de données. l’agent
509 est le plus rare.

Figure 11 : statut par agent

7
0.5.6 distribution des requêtes par serveurs
Ce dashboead présente la distribution des requêtes par serveurs. le serveur 4014 est
dominant.

Figure 12 : statut par agent

8
Conclusion

Durant la première étape de ce projet, nous nous sommes familiariser avec le package
ELK, elastic search, kibana, logstash et file beat. Nous avons utiliser filebeat pour le
streaming du fichier log vers logstach, puis nous avons crée l’index du fichier avec
logstatch dans elastcsearch pour pouvoir créer des visualisations avec kibana. Nous avons
essayé de sortir des informations intéressantes depuis les données utilisées, notamment
la distributions des requêtes et celles qui échouent fréquemment.

Vous aimerez peut-être aussi