Le Portail NCBI Base de Données
Le Portail NCBI Base de Données
Le Portail NCBI Base de Données
N° : ........................................
Mes très chère parents qui m’ont beaucoup soutenu et encouragé jusqu’au
bout. Qu’ALLAH leur accorde une longue vie.
Mes frères : Bachir, Khaled, Abd Elkader et leurs petites familles, Adel,
Hicham et Omar .
Sans oublier une dédicace spéciale à ma très chère amie Taleb Zineb à qui
je souhaite le bonheur et beaucoup de succès dans sa vie.
En fin je dédie ce modeste travail à tous ceux qui j’ai connu de près ou de
loin.
Latifa
DEDICACE
Figure 20 : Position des mutations dans la séquence protéique Aac(6’)-Ib de la souche étudiée
(E138 et E167) avec la séquence sauvage correspondante d’E. coli.
………………………………………….. 34
INTRODUCTION
DONNEES BIBLIOGRAPHIQUES
I. LA BIOINFORMATIQUE…………………………………………………………… (02)
II. LES OUTILS DE LA BIOINFORMATIQUE………………………………………. (02)
II.1. Les bases de données…………………………………………………………. (02)
II.1.1. Les banques de données généralistes………………………………... (03)
II.1.1.1. Banques nucléiques………………………………………. ..(03)
II.1.1.2. Banques protéiques……………………………………...… (04)
II.1.2. Les bases de données spécialisées…………………………………... (04)
II.1.2.1. Les bases de données spécialisées de génomes complets…. .(04)
II.1.2.2. Ressources généralistes…………………………………..... (05)
II.1.2.3. Ressources pour les procaryotes…………………………... (05)
II.1.2.4. Ressources pour les animaux……………………………..... (05)
II.1.2.5. Ressources pour les plantes……………………………..…. (06)
II.1.2.6. Ressources pour les champignons……………………….... (06)
II.1.3. Les bases de données dédiées aux expériences à grande échelle……... (07)
II.1.3.1. Transcriptome……………………………………………... (07)
II.1.3.2. Protéome………………………………………………...… (07)
II.1.3.3. Bases dédiées aux interactions protéine-protéine…………. (08)
II.1.3.4. Métabolome……………………………………………..… (08)
II.1.3.5. Bibliome………………………………………………....… (09)
II.1.4. Les bases de données dédiées à des familles de séquences………..…. (09)
II.1.4.1. Facteurs de transcription et motifs de régulation………...… (09)
II.1.4.2. Motifs protéiques……………………………………….…. (09)
II.1.4.3. Eléments mobiles……………………………………..…… (09)
II.1.4.4. Eléments répétés………………………………………...…. (10)
II.2. Les outils de recherche, d’analyse et de visualisation………………………… (10)
II.2.1. Les outils de recherches…………………………………...………… (10)
II.2.2. Les outils d’interrogations et de visualisations……………………… (10)
MATERIEL ET METHODES
I. Objectif du travail……………………………………………………………...… (20)
II. Matériel biologique……………………………………………………………… (20)
III. Méthodes d’analyse…………………………………………………………..… (21)
III.1. Extraction de séquences format FASTA…………………………….. (21)
III.2. Nettoyage de séquences d’ADN………………………………...…… (22)
III.3. Traduction de séquence……………………………………………… (22)
III.4. Arrangement de séquence protéique…………………………………. (23)
III.5. Alignement simple de séquence……………………………………... (23)
III.6. Formation d’omplicon…………………………………………..…… (23)
III.7. BLAST de séquence…………………………………………………. (24)
RESULTATS ET DISCUSSION
I : Recherche de mutations dans le gène aac-(6’)-Ib………………………………..(25)
I.1. Séquences sauvages brutes…………………………………………….. (25)
I.2. Séquences sauvages arrangées………………………………………….(25)
INTRODUCTON
L’augmentation exponentielle des données biologiques au cours des années 1980 nécessite
pour leur exploitation de recourir à des programmes informatiques permettant d’explorer
l’ensemble des informations contenues dans les banques, donnant naissance à une nouvelle
discipline, la bioinformatique.
Les données traitées par la bioinformatique sont toutes celles qui intéressent le biologiste:
séquences d’ADN ou de protéines mais aussi des références bibliographiques, images,
résultats expérimentaux bruts, logiciels…ect.
D’une part, il se trouve le séquençage qui utilise des enzymes particulières : les ADN
polymérases. Ces enzymes sont capables de synthétiser un brin complémentaire d’ADN, à
partir d’un brin matrice (méthode enzymatique). D’autre, le séquençage par la méthode
chimique consistait à utiliser les propriétés chimiques des nucléotides. Bien que le séquençage
ait beaucoup évolué et soit désormais automatisé, il repose généralement sur l'utilisation de
composants biologiques qui existent naturellement dans les cellules.
Actuellement, les sources de données biologiques disponibles sur le Web sont multiples et
hétérogènes. Elles sont organisées dans des banques et des instituts nationaux ; parmi les plus
importants Le National Center for Biotechnology Information (NCBI), qui développe des
logiciels pour analyser des données de génome.
Dans ce contexte, nous nous sommes intéressés à l’exploitation du portail NCBI, ainsi que les
banques de données qui lui sont associées dans l’objectif de traiter et analyser des résultats de
séquençage de gènes impliqués dans la résistance aux antibiotiques chez des souches d’E.
coli ; et de mettre en évidence les mutations impliquées dans ces phénomènes de résistances
par analyse bioinformatique de séquences obtenues par le séquençage automatique.
1
Généralités
I. LA BIOINFORMATIQUE
Selon Dardel et Képès, (2006), la bioinformatique est une discipline récente qui s'appuie à
la fois sur les concepts de la biologie et de l'informatique et sur des outils issus de la chimie et
de la physique.
D'après Jean-Michel et al. (2011), la bioinformatique est constituée par l’ensemble des
concepts et des techniques nécessaires à l’interprétation de l’information génétique
(séquences) et structurale (repliement 3-D) ; C’est le décryptage de la "bioinformation".
D’après Beroud et al. (2011), une base de données est un ensemble de données structurées
et organisées, permettant le stockage de grandes quantités d’informations afin d’en faciliter
leur utilisation (ajout, mise à jour, recherche et éventuellement analyse dans les systèmes les
plus évolués que nous verrons par la suite). Il se trouve plusieurs types des banques de
données utiles dans le domaine de la génétique entre autres :
2
Généralités
Tagu et al. (2010), affirment que les banques et les bases de données sont maintenant une
source d’information majeure pour la communauté scientifique. Le nombre des bases données
disponibles en génomique est en augmentation constante depuis plusieurs années, et elles sont
distinguées en :
➢ Banques de données généralistes ;
➢ Bases de données spécialisées de génomes complets ;
➢ Bases de données dédiées aux expériences à grande échelle ;
➢ Bases de données dédiées à des familles de séquences.
3
Généralités
✓ La banque de données européenne Swiss-Prot : qui se caractérise par une excellente qualité
d’annotation des données grâce à la contribution d’experts au détriment de l’exhaustivité ;
✓ La banque TrEMBL : qui contient l’ensemble des séquences protéiques conceptuelles
obtenues par traduction automatique des séquences codantes contenues dans EMBL, avec des
annotations automatiques non vérifiées, mais avec l’objectif d’obtenir une couverture
maximale. De même la banque GenPept correspond à la traduction automatique de l’ensemble
des séquences annotées comme codantes(CDS) dans GenBank ;
✓ La banque américaine Protein Infomation Resource (PIR), à la National Biomedical
Research Foundation (NBRF), qui dans les années 1960 fut la première banque de protéines
développée. Sa particularité consiste à proposer une classification des séquences protéiques en
familles, en fonction de leur degré de similarité, dont l’avantage de limiter le degré de
redondance de la banque d’une part et, d’autre part, de travailler à la standardisation de
l’annotation des protéines.
4
Généralités
D’après Aldous et al. (1995), Reference Sequence (RefSeq) du NCBI, est l’une des
ressources les plus anciennes dédiées aux génomes complets procaryotes et eucaryotes. Elle a
pour objectif de mettre à disposition de la communauté scientifique l’ensemble des séquences
génomiques non redondantes, réannotées de manière homogène et sous des formats standard.
Aussi la base Genome Reviews contient l’ensemble des génomes complets des bactéries, des
archées ainsi qu’un petit lot de génomes complets eucaryotes (la levure Saccharomyce
cerevisiae et la plante modèle Arabidopsis thaliana).
5
Généralités
✓ Les bases les mieux avancées à ce jour concernent les deux plantes modèles Arabidopsis
thaliana et Oryza sativa, la base relationnelle The Arabidopsis Infomation Resource (TAIR)
centralise la plupart des informations disponibles sur Arabidopsis : données du programme de
séquençage systématique, cartes génétiques et physiques, clones, marqueurs…ect.
✓ La base FLAGdb++ : qui intègre les données génomiques de Arabidopsis, du riz, du
peuplier et de la vigne ;
✓ La base Gramene : référence internationale pour les céréales ;
✓ Les bases MIPS plants databases (MIPS PlantsDB) : qui incluent plusieurs bases dédiées à
l’analyse fonctionnelle de génomes végétaux d’intérêt :
✓ La base MIPS Arabidopsis thaliana;
✓ Database (MAtDB) ;
✓ La base MIPS Oryza sativa database (MOsDB).
6
Généralités
D’autre ressources se sont développées récemment pour les autres génomes fongiques comme
e-Fungi et FUNYBASE pour l’analyse comparative des génomes fongiques complètement
séquencés (Bafna et al., 1997).
ArrayExpress de l’EBI : est une des principales bases de données pour la gestion des données
de transcriptome qui permet de soumettre ces informations dans un format standardisé, puis
de les publier, de bonne qualité, à destination scientifique, en facilitant ainsi la diffusion des
protocoles expérimentaux standard.
Une structure de stockage et d’interrogation des données de transcriptome via le projet Gene
Expression Omnibus (GEO).Ces deux bases contiennent le plus souvent des données brutes,
les données du transcriptome analysées sont en générale directement intégrées dans des bases
dédiées aux organismes concernés.
II.1.3.2. Protéome
Selon Xu et al. (1998), plusieurs bases existententre autres :
✓ La Two-dimensional polyacrylamide gel electrophoresis database (SWISS-2DPAGE): est
une des plus anciennes bases de données pour la gestion des données protéomique. Elle
centralise, annote et diffuse à destination de la communauté scientifique les données de gel
d’électrophorèse 2D disponible pour une grande variété d’organismes procaryotes et
eucaryotes.
✓ Le proteomic Analysis and Resources Indexation System (PARIS) : est un système
d’intégration des données protéomiques centrées sur les images d’électrophorèses. Ce système
gère à la fois les données brutes et les informations associées aux procédures d’analyse, et
7
Généralités
✓ La base STRING : est l’une des ressources les plus complètes, elle possède une très bonne
interface de navigation permettant l’exploration et la visualisation des associations protéine-
protéine connues et prédites à partir de différents critères (voisinage physique des gènes sur le
chromosome, existence d’un évènement de fusion entre deux gène, co-occurrence de deux
gènes de différentes espèces, coexpression des gènes, interaction protéique connue obtenue
expérimentalement, cocitation des gènes ou protéines dans une référence bibliographique.
✓ La Database of Interacting Proteins (DIP) : qui centralise les données expérimentales
d’interaction protéine- protéine d’un grand nombre d’organismes.
✓ La base Biomolecular Relation in Information Transmission and Expression (BRITE) : qui
contient aussi un grand nombre de données d’interactions, notamment des interactions
protéine-protéine, ou de données de coexpression de gènes déduits des expériences de
transcriptome.
II.1.3.4. Métabolome
Est l’ensemble des bases de données gérant les connaissances liées au métabolisme qui ont
pris une importance considérable ces dernières années (Wolfe et al., 1997) :
✓ KEGG : est la base de données japonaise est l’une des plus anciennes et complètes, elle
permet d’accéder au détail des vois métaboliques d’un grand nombre d’organismes modèles
sous forme d’image cliquables.
✓ MytaCyc : est une base de données qui centralise les données métaboliques déterminées
expérimentalement pour un grand nombre d’organisme. Cette base un ensemble d’outils pour
éditer, visualiser et analyser les réseaux métaboliques, aussi la possibilité d’interpréter des
données génomiques dans un contexte métabolique donné.
8
Généralités
II.1.3.5. Bibliome
✓ PubMed : a été la première base consultable gratuitement sur le Web, et elle continue à
faire référence pour la communauté des biologistes. Elle s’adresse aux sciences biomédicales
et ne couvre pas la littérature biologique de manière exhaustive (Vingron et al.,1995).
✓ BIOSIS Previews, CAB Direct ou Web of science : qui intègre un ensemble d’outils et de
bases de données bibliographiques couvrant plus de 9200 publications dans le domaine de la
science, des sciences sociales, des arts et des lettres, des sciences humaines et des sciences
économiques (Vingron et al.,1995).
9
Généralités
Pour les procaryotes il n’existe pas de base généraliste mais quelque ressource dédiée à des
types particuliers de séquences répétées comme :
IS Finder : dédiée aux éléments répétés mobiles de type IS.
CRISPR : qui développer pour l’annotation des séquences répétées palindromiques courtes
dans les génomes bactériens.
Il a été nécessaire de développer des outils pour interroger ou recouper des données et
permettre aux utilisateurs de comparer leurs propres données à l’existant.
Exhaustifs, c’est-à-dire qu’à partir d’une information trouvée, ils doivent permettre de
parcourir l’ensemble des liens rattachés à celle-ci afin d’éviter à l’utilisateur d’être obligé de
jongler avec différentes sources d’informations.
10
Généralités
plusieurs banques (exemple de BioRS Integration and Retrieval System) ou dédiés à une
banque en particulier(Tagu et al., 2010).
✓ SRS : Le système SRS qui développé par Thrue Etzold, permet d’interroger à partir d’une
interface graphique unifiée toute collection de séquences préalablement indexée par le
système, c’est-à-dire préalablement formatée pour que le programme d’interrogation puisse y
accéder. Il permet aussi une interrogation simple ou croisée sur un ensemble de banques,
comme il a la capacité de crée d’un réseau de références croisées permettant les requêtes et la
navigation entre les banques indexées sous SRS, ainsi donné à l’utilisateur la possibilité
d’enregistrer ses projets de requêtes sous SRS
✓ Entrez : contrairement à SRSqui est disponible sur différents serveurs par le monde,
Entrez est un système développé et hébergé uniquement par le NCBI qui permet
l’interrogation et l’extraction des données issues des banques de données majeures hébergées
par cet organisme. A partir d’une simple interrogation sur le portail d’Entrez, l’utilisateur peut
naviguer par l’intermédiaire de liens directs entre les données ou via une notion de voisinage ;
cette particularité fait l’originalité d’Entrez par rapport aux autres systèmes d’interrogation
des données biologiques
✓ BioMart : est un système interactif d’intégration des données pour la biologie, dont
l’objectif de convertir les banques de données biologiques en des données <qui peuvent être
interrogées via une interface Web standardisée. Il offre aux utilisateurs la possibilité de mener
à bien des requêtes rapides et efficaces de manière très intuitive, et ce, sur différentes banques
de données et peut être installé localement sur un serveur, comme par exemple les données
d’Ensembl, d’UniProt ou ArrayExpress peuvent être interrogées via BioMart.
2. Les genome browsers : qui permettent de faire des requêtes sur les gènes en fonction
de leur localisation, de leur voisinage physique sur le chromosome et de toutes les
informations connues sur ce gène(Tagu et al., 2010).
✓ Ensembl : est une ressource intégrative des annotations de génomes eucaryotes qui géré
par l’EBI, elle permet aux utilisateurs de visualiser un chromosome entier d’une espèce ainsi
que les marqueurs physiques et des informations générales comme les gènes connus, les
pourcentages de GC…ect.Le projet Ensembl intègre un pipeline d’annotation qui lui est
propre et considéré comme un moteur d’interrogation c’est grâce à ses propriétés qu’elle a
l’originalité par rapport aux autres systèmes d’interrogation de bases de données. Aussi
Ensembl développe plusieurs projets comme : le serveur Sigenae de l’Inra (qui concerne les
11
Généralités
✓ UCSC Genome Browser : qui développé par l’University of California Santa Cruz, il est
un outil de visualisation graphique que textuel des données qui sont stockées dans ce lui c’est.
Il permet la visualisation des éléments génomiques (gènes, ARNm, séquences répétées…ect),
de leur annotation, de leur voisinage et de la conservation de ceux-ci chez les espèces proches
(Tagu et al., 2010).
✓ Map Viewer : qui proposer par le NCBI, est un outil de visualisation chromosomique
d’éléments génomiques ;
✓ Ensemble Genomes : qui proposer par l’EBI et prend la même structure que Ensembl et
utiliser pour les bactéries, les plantes, les protistes et les levures.
✓ VISTA Browser : est un outil très pratique et visuel qui permet une excellente
visualisation graphique des régions conservées entre deux génomes codants ou non.
Dont l’objectif de prédire des informations pertinentes sur la fonction d’une macromolécule à
partir seulement de sa séquence (Mezhoud, S.D. et al., 2010).
12
Généralités
Dans l’algorithme local, ce qui est recherché ce sont des zones des similitudes dans des
protéines quelconque (homologue ou pas).
Selon Perrin et al., (2010), l'alignement multiple de séquences est un outil fondamental
pour de nombreuses analyses en biologie. Il permet de comparer un groupe de protéines ou de
gènes apparentés, afin d'établir des relations évolutives. Si deux séquences ont une similarité
significative, il est fait l'hypothèse qu'elles partagent un ancêtre commun, elles sont donc
homologues. Si deux séquences ont des motifs communs, il est fait l'hypothèse qu'elles sont
soumises à une pression de sélection qui empêchent les mutations de se fixer, probablement
parce que le motif est important pour assurer une fonction. L'alignement multiple est
principalement utilisé pour :
• Trouver des caractéristiques communes à une famille de protéines soit des régions
conservées (des motifs), soit des acides aminés strictement conservés permettant de relier une
séquence à une structure et à une fonction ;
• Dans ce cas il s’agit le plus souvent d’un alignement global qui est recherché (Deléage et
al., 2013).
13
Généralités
✓ Alignement multiple : DIALIGN est un programme d’alignement multiple qui repose sur
une méthode très différente de celle employée par ClustalW, elle utilise une approche locale
pour calculer les alignements.
✓ Alignement multiple : T-Coffee c’est une suite de programmes, qui calcule un alignement
multiple à partir de différents alignements de chaque paire de séquence.
II.4. BLAST
BLAST « Basic Local Alignment Search Tool », Est un programme couramment utilisé
pour trouver des régions d'homologie entre différentes séquences. On doit normalement
donner une séquence d'entrée qui sera comparée à une banque de séquences nucléotidiques ou
protéiques. L'algorithme de recherche est à la fois rapide et sensible. La comparaison peut être
effectuée sur de grandes banques de séquences disponibles sur internet comme celles
retrouvées entre autres sur le site de NCBI ou sur des banques de séquences locales que l'on
peut construire à partir du programme formatdb qui est inclus avec BLAST (Charlebois et
al., 2007).
II.5. FASTA
D’après Charlebois et al. (2007), les fichiers FASTA sont très utilisés pour annoter les
séquences en bioinformatique et sont requis par plusieurs programmes. Un fichier FASTA
contient une ou plusieurs séquences, soit de nucléotides ou d'acides aminés. Chaque séquence
est précédée d'une ligne débutant par le symbole > suivi d’un entête contenant normalement le
nom de la séquence et les informations complémentaires qu'on veut y ajouter. Ensuite la
séquence est écrite en entier sans autre annotation.
14
Généralités
Le motif contient des résidus essentiels à une fonction conservée, mais ces résidus ne sont pas
nécessairement consécutifs, il est différé principalement de domaine par ce qu'il n'a pas de
repliement propre. La notion de module est employée dans un contexte évolutif et peut être
considérée équivalente à la notion de domaine.
• SCOP :est une classification hiérarchique qui utilise la définition structurale de domaine,
la classification présente quatre niveaux, du plus générale au plus précis :
1. Le niveau "class": regroupe des protéines dont la structure secondaire est similaire et
s'organise en différents groupes possibles (toute hélice a, tout feuillet B, hélice a et feuillets B,
protéines membranaires...ect).
3. Le niveau "superfamily": regroupe des structures protéiques qui peuvent partager une
identité de séquence faible, mais dont les structures et les fonctions suggérent une origine
évolutive commune.
15
Généralités
family levels". Elle ajoute trois autres niveaux de classification : les niveaux S, L et I, qui
regroupent les structures ayant une identité de séquence respectivement >35%, >95% et de
100%.
Tagu et al. (2010), ajoute qu’il existe d’autres bases de données de domaine :
• ProDom : est une collection de domaines des séquences protéiques d'UniProt générée de
manière entièrement automatique.
• Pfam :est une collection d'alignements multiples et de modéles HMM recuovrant la quasi-
totalité des domaines protéiques connus.
• InterPro: Integrated resource of Protein Families, Domains and Sites InterPro est une
intégration de différentes bases de données de domaines (PROSITE, Pfam, PRINTS, ProDom,
SMART, PANTHER, SCOP...ect) qui en unifie les nomenclatures ;
• PROSITE : est une base de données de profils, motifs et sites fonctionnels protéiques,
mais certains considèrent comme une base de données de domaines.
Donc le séquençage d’un fragment d’ADN offre des informations précieuses pour
comprendre l’organisation des gènes et ses régulations, ses relations avec les autres gènes
mais aussi la fonction de l’ARN ou de la protéine qu’ils codent. Il permet d’éviter le
séquençage direct d’un polypeptide par la traduction de séquence d’ADN correspondant à ce
dernier (Griffiths et al., 2012).
Selon Bertrand et al., (2017), le séquençage d’un fragment d’ADN ou d’ARN est
actuellement rapide et plus facile que le séquençage d’une protéine.
16
Généralités
En présence d’un brin d’ADN matrice et des quatre d’NTP, l’ADN polymérase est capable
d’allonger un brin d’ADN complémentaire, à partir d’un oligonucléotide amorce hybridé au
brin matrice. Lorsqu’un didésoxyribonucléotide est incorporé par la polymérase, celui-ci agit
comme un terminateur de chaine, bloquant tout allongement ultérieure. Cette incorporation se
produit de manière aléatoire, avec une fréquence dépendant du rapport de la concentration du
didésoxyribonucléotide sur celle du désoxyribonucléotide correspondant (Ahakoud et al.,
2015).
Cette technique est réalisée dans quatre types qui est chacun va donner une famille de chaines
synthétisées avec ddATP, ddGTP, ddCTP ou ddTTP (chaque famille de fragment est déposée
dans un puit appart). Les bandes sont visualisées après autoradiographie (Yahiaoui et al.,
2018).
17
Généralités
Figure 1 : La comparaison entre le dNTP et le ddNTP (Univ. Pierre § Marie Curie. Paris)
Figure 2 : Les étapes de séquençage par la méthode de Sanger (Univ. Pierre § Marie Curie.
Paris)
18
Généralités
Toutes les réactions sont effectuées dans un seul tube en présence des quatre
didésoxynucléotides qui sont chacun marqué par un molécule fluorescente spécifique ;
Dans le séquenceur automatique, tous les fragments sont mis en migration dans un même
puit du gel de polyacrylamide, ces fragments sont différents dans la taille par une seule base.
Les différentes bandes issues de l’électrophorèse sur gel de polyacrylamide passent devant un
détecteur de fluorescence (fusceau laser localiser en une position constante sur le gel), capable
d’identifier chacun des marqueurs grâce aux fluochromes portés par le ddNTP et
l’information est transférée à un ordinateur qui la transforme en courbes colorées.
19
Matériel et Méthodes
MATERIEL ET METHODES
I. Objectif du travail
L’objectif de ce travail est de réaliser des analyses bioinformatiques sur des séquences de
gènes, obtenues par le Docteur Yahiaoui M. Nous avons choisi le portail NCBI ainsi que
d’autres bases bioinformatiques pour analyser et rechercher des mutations dans les séquences
des gènes aac-(6’)-Ib et CTX-M.
Les séquences de gènes objets de ce travail, ont été obtenues par le séquençage automatique
réalisé par le Docteur Yahiaoui M. au laboratoire de Génétique ; université des Sciences et de
la Technologie Houari Boumediene d’Alger, en collaboration avec le CNRS de Clermont
Ferrand en France.
Pour toutes les analyses effectuées, nous avons exploité le portail NCBI ainsi que d’autres
bases bioinformatiques nécessaires pour l’analyse et la recherche de mutations dans les
séquences de gènes.
➢ aac-(6’)-Ib : ce gène code pour une protéine impliquée dans le mécanisme de résistance aux
antibiotiques de la famille des quinolones chez Escherichia coli. Naturellement cette bactérie
est sensible à cette famille d’antibiotique. Mais quand ce gène présente des mutations, la
protéine codée par ce dernier est modifiée, par conséquent, la bactérie devient résistante aux
quinolones. mutations :
Les deux mutations qui touchent ce gène aboutissent à la substitution d’acides aminés ce qui
contribue à la modification fde la protéine produite :
Trp (w) 102 Arg(R) et Asp(D) 179 Tyr(Y)
TGG AGG GAT TAT
Dans la première partie de ce travail, nous avons recherché les deux mutations sur ce gène
déjà séquencé chez deux souches d’E. coli E138 et E167.
➢ CTX-M : ce gène code pour une protéine responsable du mécanisme de résistance aux
antibiotiques de la famille des bétalactamines chez Escherichia coli. Naturellement cette
bactérie est sensible à cette famille d’antibiotique. Mais quand ce gène présente des
mutations, la protéine codée par ce dernier est modifiée, par conséquent, la bactérie devient
20
Matériel et Méthodes
21
Matériel et Méthodes
22
Matériel et Méthodes
23
Matériel et Méthodes
- On sait aussi que dans la séquence de la protéine CTX-M il ya des séquences conservées qui
sont dans l’ordre : STSK (vers le début), SDN (au milieu) et KTG (vers la fin). Pour former
l’omplicon il faut prendre la protéine B2 (reverse) la couper à partir de KTG et lui coller la fin
de la protéine sens (A2) à partir de KTG, on aura un omplicon qui a le début de la séquence
sens (B2) et la fin de la séquence reverse (A2).
RDGPTSFHRKKNPMVKKSLRQFTLMATATVTLLLGSVPLYAQTADVQQKLAELERQSGGRLGVALINTAD
NSQILYRADERFAMCSTSKVMAAAAVLKKSESEPNLLNQRVEIKKSDLVNYNPIAEKHVNGTMSLAELSA
AALQYSDNVAMNKLIAHVGGPASVTAFARQLGDETFRLDRTEPTLNTAIPGDPRDTTSPRAMAQTLRNLT
LGKALGDSQRAQLVTWMKGNTTGAASIQAGLPASWVVGDKTGSGGYGTTNDIAVIWPKDRAPLILVTYFTQPQPK
AESRRDVLASAAKIVTDGLKTAKNGK*GGGGGGG
24
Résultats et Discussion
RESULTATS ET DISCUSSION
I : Recherche de mutations dans le gène aac-(6’)-Ib
I.1. Séquences sauvages brutes
Pour les deux souches E138 et E167 phénotypiquement résistantes aux quinolones, les gènes
aac-(6’)-Ib ont été séquencés sur un seul brin. Les séquences obtenues ont été lues par le
logiciel Chromas qui indique les bases azotées sous forme de pics (Figure 9).
Les séquences d’ADN des gènes aac-(6’)-Ib des deux souches ont été extraites à partir des
chromatogrammes par le programme FASTA, puis arrangées dans le programme Massager
pour être prêtes à l’analyse (Figure 10).
GTGACCAACAGCAACGATTCCGTCACACTGCGCCTCATGACTGAGCATGACCTTGCGATGCTCTATGAGTGGCTAAATCGA
TCTCATATCGTCGAGTGGTGGGGCGGAGAAGAAGCACGCCCGACACTTGCTGACGTACAGGAACAGTACTTGCCAAGCGT
TTTAGCGCAAGAGTCCGTCACTCCATACATTGCAATGCTGAATGGAGAGCCGATTGGGTATGCCCAGTCGTACGTTGCTCT
TGGAAGCGGGGACGGATGGTGGGAAGAAGAAACCGATCCAGGAGTACGCGGAATAGACCAGTTACTGGCGAATGCATC
ACAACTGGGCAAAGGCTTGGGAACCAAGCTGGTTCGAGCTCTGGTTGAGTTGCTGTTCAATGATCCCGAGGTCACCAAGA
TCCAAACGGACCCGTCGCCGAGCAACTTGCGAGCGATCCGATGCTACGAGAAAGCGGGGTTTGAGAGGCAAGGTACCGT
AACCACCCCAGATGGTCCAGCCGTGTACATGGTTCAAACACGCCAGGCATTCGAGCGAACACGCAGTGATGCCTAA
Figure 10: La séquence sauvage du gène aac-(6’)-Ib arrangée
25
Résultats et Discussion
Le format FASTA de fichier texte est utilisé pour stoker des séquences biologique de nature
nucléique ou protéique, son utilisation est très répondue en bioinformatique grâce à sa
simplicité à la présentation de ses séquences. Pour toute analyse bioinformatique, la séquence
est écrite dans un format Fasta, qui est universelle pour toutes les bases de données et les
logiciels pour l’analyse de séquences d’ADN et de protéines.
Les séquences des gènes des souches E138 et E167 ont été traduite comme suit :
26
Résultats et Discussion
➢ Parmi les trois cadres de lecture obtenus, nous avons choisit celui dont lequel le codons est
situé le plus loin possible afin d’avoir une protéine constituée de maximum d’acides aminés.
27
Résultats et Discussion
Les séquences protéiques choisies pour les deux souches ont été arrangées pour avoir des
protéines interprétable et exploitable par les logiciels des bases de données.
Cette protéine sauvage correspond à la protéine de gène aac-(6’)-Ib qui est sensible aux
quinolones, donc son gène ne présente aucune mutation. Elle est utilisée pour détecter la
présence d’éventuelles mutations sur d’autres séquences protéiques du même gène, issues de
souches résistantes aux quinolones.
28
Résultats et Discussion
Le résultat de l’alignement était identique entre les séquences des deux souches E138 et E167
avec la présence des mêmes mutations indiquées par des points à la place des traits de
complémentarité (Figure 15).
29
Résultats et Discussion
L’Alignement sert à ressortir les régions homologues ou similaires entre deux protéines ou
plus et présente les résultats sous forme de lignes dont les points représentent les mutations.
Dans notre cas, les mutations existent et sont représentées par des points. Mais avec
l’alignement ce n’est pas suffisant pour déclarer la position exacte de ces mutations au niveau
de la protéine. Il se pourrait que ça soit des mutations autres que celles responsables de la
résistance aux quinolones.
Afin de déterminer la position exacte de ces deux mutations, nous avons procédé à un BLAST
de la protéine sauvage pour savoir si le premier acide aminé sur cette dernière correspond à
l’acide aminé numéro 1 de la protéine Aaac-ib.
30
Résultats et Discussion
31
Résultats et Discussion
Parmi les centaines de résultats fournis par la banque de donnée, nous avons choisi la
séquence qui avait une homologie de 100 % à notre séquence protéique sauvage.
Notre séquence sauvage est ensuite alignée automatiquement à la séquence protéique choisie
dans la banque afin de les comparer.
32
Résultats et Discussion
Résultats de Blast : la séquence de la banque est noté « Query », notre séquence sauvage est
noté « Sbjct ». Nous avons noté que le premier acide aminé dans notre séquence sauvage
correspond à l’acide aminé numéro 16 dans la séquence protéique Aac-ib de la banque.
Query 1 VTNSNDSVTLRLMTEHDLAMLYEWLNRSHIVEWWGGEEARPTLADVQEQYLPSVLAQESV 60
Sbjct 16 VTNSNDSVTLRLMTEHDLAMLYEWLNRSHIVEWWGGEEARPTLADVQEQYLPSVLAQESV 75
Query 61 TPYIAMLNGEPIGYAQSYVALGSGDGWWEEETDPGVRGIDQLLANASQLGKGLGTKLVRA 120
Sbjct 76 TPYIAMLNGEPIGYAQSYVALGSGDGWWEEETDPGVRGIDQLLANASQLGKGLGTKLVRA 135
Query 121 LVELLFNDPEVTKIQTDPSPSNLRAIRCYEKAGFERQGTVTTPDGPAVYMVQTRQAFERT 180
Sbjct 136 LVELLFNDPEVTKIQTDPSPSNLRAIRCYEKAGFERQGTVTTPDGPAVYMVQTRQAFERT 195
Query 181 RSDA 184
Sbjct 196 RSDA 199
33
Résultats et Discussion
Conclusion : pour les deux souches, la 1ere mutation est à la position 102 sur la protéine
sauvage (W changé par un R) = Trp (w) 102 Arg (R).
La 2eme mutation est à la position 179 sur la protéine sauvage (D changé par un Y) =
Asp (D) 179 Tyr(Y)
➢ Par conséquent, le gène aac-(6’) -Ib chez ces deux souches E138 et E167 correspond
au variant portant les deux mutations responsables de la résistance aux quinolones.
wt 1 VTNSNDSVTLRLMTEHDLAMLYEWLNRSH--IVEWWGGEEARPTLADVQE 48
:.| :| |...||||||||||
E138 1 --------------------------KIHRRVV---GRRRARPTLADVQE 21
102
wt 49 QYLPSVLAQESVTPYIAMLNGEPIGYAQSYVALGSGDGWWEEETDPGVRG 98
||||||||||||||||||||||||||||||||||||||.|||||||||||
E138 22 QYLPSVLAQESVTPYIAMLNGEPIGYAQSYVALGSGDGRWEEETDPGVRG 71
wt 99 IDQLLANASQLGKGLGTKLVRALVELLFNDPEVTKIQTDPSPSNLRAIRC 148
||||||||||||||||||||||||||||||||||||||||||||||||||
E138 72 IDQLLANASQLGKGLGTKLVRALVELLFNDPEVTKIQTDPSPSNLRAIRC 121
179
wt 149 YEKAGFERQGTVTTPDGPAVYMVQTRQAFERTRSDA 185
|||||||||||||||.||||||||||||||.
E138 122 YEKAGFERQGTVTTPYGPAVYMVQTRQAFEX------ 152
Figure 20: Position des mutations dans la séquence protéique Aac(6’)-Ib des souches étudiées
(E138 et E167) avec la séquence sauvage correspondante d’E. coli.
Les deux souches E42 et E59 ont été phénotypiquement résistantes aux bétalactamines. La
recherche par PCR du gène CTX-M a révélée sa présence chez ces deux souches. Il est
indispensable de caractériser le variant allélique de ce gène, porté par nos souches afin de
caractériser les types d’allèles qui dominent et qui circulent parmi les souches d’E. coli en
Algérie.
34
Résultats et Discussion
Les séquences d’ADN des gènes CTX-M des deux souches ont été extraites à partir des
chromatogrammes par le programme Fasta, puis arrangées dans le programme Massager pour
être prêtes à l’analyse
35
Résultats et Discussion
Après la traduction dans la fenêtre dédiée à cet effet dans le portail NCBI, nous avons choisi
les protéines ayant des codons Stop situés le plus loin possible sur la protéine :
GICAVPLMATATVTLLLGSVPLYAQTADVQQKLAELERQSGGRLGVALINTADNSQILYRAD
ERFAMCSTSKVMAAAAVLKKSESEPNLLNQRVEIKKSDLVNYNPIAEKHVNGTMSLAELSAA
ALQYSDNVAMNKLIAHVGGPASVTAFARQLGDETFRLDRTEPTLNTAIPGDPRDTTSPRAMA
QTLRNLTLGKALGDSQRAQLVTWMKGNTTGAASIQAGLPASWVVGDKTGSGGYGTTNDIA
VIWPKDRAPLILVTYFTQPQPKAESRRDVLASAAKIVTDGLKTAKNGK*GGGGGGG
36
Résultats et Discussion
RDGPTSFHRKKNPMVKKSLRQFTLMATATVTLLLGSVPLYAQTADVQQKLAELERQSGGRL
GVALINTADNSQILYRADERFAMCSTSKVMAAAAVLKKSESEPNLLNQRVEIKKSDLVNYNPI
AEKHVNGTMSLAELSAAALQYSDNVAMNKLIAHVGGPASVTAFARQLGDETFRLDRTEPTL
NTAIPGDPRDTTSPRAMAQTLRNLTLGKALGDSQRAQLVTWMKGNTTGAASIQAGLPASWV
VGDKTGSGGYGTTNDIAVIWPKDRAPLILVTYFTQPQPKAESRRDV*RRANP
37
Résultats et Discussion
Conclusion : l’allèle du gène CTX-M des deux souches E42 et E59 correspond à l’allèle
CTX-M-15.
38
Conclusion
CONCLUSION ET PERSPECTIVES
Les systèmes biologiques très complexes et les techniques du monde biologique qui
fournissent une vaste quantité de données expérimentales, sont deux points majeurs qui
préoccupent la communauté scientifique. Par conséquent la bioinformatique est née dont le
but d’intégrer ces données d’origines diverses dans des banques spécialisées sous forme des
logiciels ou serveurs Web pour modéliser les systèmes vivants afin de comprendre et prédire
leurs comportements, en tant que discipline essentiellement prédictive et analytique, elle est
complémentaire des expérimentations et ne les remplace pas.
Le portail NCBI « National Center for Biotechnology Information », occupe une place
primordiale parmi les multitudes de banques de données généralistes et spécialisées connues.
Il a gagné la confiance de ses utilisateurs, vu les grandes quantités d’informations disponibles
(génomes, protéines, références bibliographiques). Ainsi, il offre des outils divers qui facilite
l’ajout, la mise à jour et la recherche des données.
Aujourd’hui, tout projet de biologie comporte une étape d’analyse bioinformatique des
données. Par conséquent, un biologiste passe environ 20-30% de son temps à utiliser des
outils bioinformatiques.
L’objectif de ce travail était d’explorer le portail NCBI, afin de caractériser et cribler des
mutations géniques à l’origine de la résistance aux antibiotiques chez des souches cliniques
d’E. coli et de typer ainsi, les allèles de gènes gouvernant cette résistance, et ce à partir de
données de séquençage automatique.
Nos résultats de la recherche de mutations dans le gène aac-(6’) –Ib en utilisant les
outils de traduction, de nettoyage de séquences, d’alignement simple et multiple et de
BLAST, ont montré pour les deux souches d’E. coli étudiées la présence de deux mutations ;
la première à la position 102 dans la protéine codée par ce gène (Trp (w) 102 Arg (R)), la
deuxième mutation est à la position 179 (Asp (D) 179 Tyr(Y)). Par conséquent, le gène aac-
(6’) -Ib chez ces deux souches, correspond au variant allélique portant les deux mutations
responsables de la résistance aux quinolones.
39
Conclusion
étudiées. Cet allèle correspond au variant qui circule parmi les souches d’E. coli résistantes
aux antibiotiques en Algérie.
En fin, nous pouvons dire que la bioinformatique constitue une analyse préalable à toute
investigation expérimentale, permettant d’aborder des questions complexes dans le domaine
de la biologie. L’analyse de séquences par les divers moyens offerts dans les milliers de bases
de données, permet de s’informer sur les caractéristiques fonctionnelles, structurales et
évolutives d’une protéine.
40
Références Bibliographiques
RÉFÉRENCES BIBLIOGRAPHIQUES
• Alizadeh, F., Karp, R.M., Weisser, D.K. et Zweig, G. (1995). Physical mapping of
chromosomes using unique probes. Journal of Computational Biology, 2 :159–184.
• Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W.
etLipman, D.J. (1997). Gapped Blast and Psi-Blast: a new generation of protein database
search programs. Nucleic Acids Research, 25 :3389– 3402.
• Apostolico, et Preparata, F. (1996). Data structures and algorithms for the string statistics
problem. Algorithmica, 15 :481–494.
• Bafna, V., Lawler, E.L. et Pevzner, P.A. (1997).Approximation algorithms for multiple
sequence alignment. Theoretical Computer Science, 182 :233– 244.
• Baik, J., Deift, P.A. et Johansson, K. (1999).On the distribution of the length of the
longest subsequence of random permutations. Journal of the American Mathematical
Society, 12 :1119–1178.
41
Références Bibliographiques
• Deléage, G., Gouy, M. (2013). Bioinformatique (Cours et cas pratique).éd. Dunod, Paris,
189p.
• Schmidt, J.P. (1998). All highest scoring paths in weighted grid graphs and their
application to finding all approximate repeats in strings. SIAM Journal on Computing, 27
:972–992.
• Tagu, D., Risler, J.L. (2010). Bio-informatique (Principes d’utilisation des outils). Éd.
Quae, France,269p.
• Tisdall, J. (2001). Beginning Perl for Bioinformatics. éd. O'Reilly, Etats-Unis, 384p.
• Tompa, M. (1999). An exact method for finding short motifs in sequences with
application to the Ribosome Binding Site problem. In Proceedings of the Seventh
International Conference on Intelligent Systems for Molecular Biology, pages 262–271,
Heidelberg, Germany, August 1999. AAAI Press.
• Ukkonen, E. (1992). Approximate string matching with q-grams and maximal matches.
Theoretical Computer Science, 92 :191–211.
42
Références Bibliographiques
• Vingron, M. et Argos, P. (1991). Motif recognition and alignment for many sequences by
comparison of dot-matrices. Journal of Molecular Biology, 218 :33–43.
• Wolfe, K.H. et Shields, D.C. (1997). Molecular evidence for an ancient duplication of the
entire yeast genome. Nature, 387 :708–713.
• Xu, G., Sze, S.H., Liu, C.P., Pevzner, P.A. et Arnheim. N. (1998). Gene hunting without
sequencing genomic clones: finding exon boundaries in cDNAs. Genomics, 47 :171–179.
43
RESUME
Le portail NCBI (National Center for Biotechnology Information) occupe une placeprimordiale
parmi les multitudes de banques de données généralistes et spécialisées connues. Il offre une grande
quantité d’informations sur les génomes, les protéines et les références bibliographiques. Ainsi, il
offre des outils divers qui facilitent l’ajout, la mise à jour et la recherche des données. L’objectif de ce
travail était d’explorer le portail NCBI, afin de caractériser et cribler des mutations géniques chez E.
coli. Nos résultats de la recherche de mutations dans le gène aac-(6’) -Ib en utilisant les outils de
traduction, de nettoyage de séquences, d’alignement simple et multiple et de BLAST, ont montré pour
les deux souches d’E. coli étudiées la présence de deux mutations (Trp (w) 102 Arg (R)) et (Asp (D)
179 Tyr(Y)) responsables de la résistance aux quinolones. Concernant la caractérisation de l’allèle du
gène CTX-M par une approche de formation d’omplicon et de BLAST, nous avons décrit la présence
du variant alléliqueCTX-M15qui correspond au variant qui circule parmi les souches d’E.coli
résistantes aux antibiotiques en Algérie. L’analyse de séquences par les divers moyens offerts dans les
milliers de bases de données, permet de s’informer sur les caractéristiques fonctionnelles, structurales
et évolutives d’une protéine.
ملخص
ً
بارزا بين العديد من قواعد ( مكانًاNational Center for Biotechnology Information) NCBI تحتل بوابة
. بحيث يقدم ثروة من المعلومات حول الجينوم والبروتينات والمراجع الببليوغرافية.البيانات العامة والمتخصصة المعروفة
. فإنه يوفر العديد من األدوات التي تجعل من السهل إضافة وتحديث والبحث عن البيانات،وبالتالي
نتائج بحثنا عن.E. coli لوصف وفحص الطفرات الجينية في جرثومة،NCBI الهدف من هذا العمل هو استكشاف بوابة
، BLAST باستخدام أدوات الترجمة والتنظيف والتطابق البسيط والمتعدد وأدواتaac-(6 ') -bb الطفرات في الجين
))Asp (D) 179 Tyr (Y( ) وTrp (w) 102 Arg (R( المدروسة وجود طفرتينE. coli أظهرت لكال سالالتي
.مسؤولين عن مقاومة الكينولون
فقد توصلنا الى، BLAST واستعمال ادواتomplicon من خالل تكوينCTX-M فيما يتعلق بوصف اليل المورثة
المقاومة للمضادات الحيويةE. coli الذي يتوافق مع المتغير الذي يتواجد بين سالالتCTX-M15 وجود المتغير األليلي
.في الجزائر
تحليل القطع بمختلف الوسائل المتوفرة في آالف قواعد البيانات يمكن من تحديد الخصائص الوظيفية والهيكلية والتطورية
.للبروتين