Réseaux Bayésiens pour le pronostic du cancer du sein
Hanen Ben Hassen, Lobna Bouchaala, Imen Kallel, Afif Masmoudi, Ahmed
Rebai
To cite this version:
Hanen Ben Hassen, Lobna Bouchaala, Imen Kallel, Afif Masmoudi, Ahmed Rebai. Réseaux Bayésiens
pour le pronostic du cancer du sein. 5èmes Journées Francophones sur les Réseaux Bayésiens
(JFRB2010), May 2010, Nantes, France. hal-00466896
HAL Id: hal-00466896
https://hal.science/hal-00466896
Submitted on 30 May 2010
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Réseaux Bayesiens pour le pronostic du
cancer du sein
Hanen Ben Hassen* — Lobna Bouchaala* — Imen kallel* — Afif
Masmoudi** — Ahmed Rebai*
* Groupe de recherche en Bioinformatique; Centre de Biotechnologie de Sfax, BP "
1177 " 3018 Sfax-Tunisie,
[email protected]
** Laboratoire de probabilités et statistique; Faculté des sciences de Sfax
[email protected]
De nos jours, le cancer est vu comme un ensemble de maladies complexes où la signalisation cellulaire joue un role clé et les méthodes informatiques et mathématiques jouent un
rôle important dans la compréhension de son diagnostic, pronostic et traitement. Dans ce travail nous utilisons l’approche des réseaux Bayesiens pour prédire le risque de métastase et des
facteurs pronostiques du cancer de sein et ceci en développant un système d’aide à la décision.
Nous utilisons l’estmation Implicite pour l’apprentissage des paramètres et de la structure. Le
système développé est utilisé pour prédire le risque de métastase de patientes ayant un cancer
de sein. Nous avons identifié que le profile le prédominant associé à un grand risque de métastase correspond à la sur-expression des récepteurs de l’ErbB2, de l’ErbB3, de l’estrogène, de
la progestérone et de la protéine Bcl2 et à un niveau faible de ErbB4.
RÉSUMÉ.
Cancer is now seen as a collection of complex diseases where signalling is more and
more recognized as a key player and where computational and mathematical methods play an
increasingly important role in understanding its diagnosis, prognosis and treatment. In this
work, we use Bayesian Networks to develop a decision support system for the prediction of
breast cancer prognosis. We use the Implicit estimation for parameters and structure learning.
The system was used to predict metastasis risk of patients with breast cancer. We identified that
overexpression of ErbB2 and ErbB3 as well as of oestrogen, progesterone and Bcl2 receptors
associated with a low level of ErbB4 was the predominant profile associated with high risk of
metastasis.
ABSTRACT.
MOTS-CLÉS :
Réseaux Bayesiens, Estimation Implicite, Apprentissage, cancer de sein.
KEYWORDS:
Bayesian networks, Implicit Estmation, Learning, breast cancer.
2
5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
1. Introduction
En Tunisie, le cancer du sein est le cancer féminin le plus fréquent et il représente la
première cause de mortalité féminine dans la tranche d’âge de 35 à 55 ans. L’évolution
de ce cancer est déroutante mais l’obtention des facteurs pronostiques dès le diagnostic permet d’envisager un traitement gradué adapté à chaque groupe pronostique de
patientes (Ahmed et al., 2002). Globalement, 70 % des patientes atteintes d’un cancer
de sein localisé sont encore en vie cinq ans après un traitement qui combine chirurgie, radiothérapie et traitement adjuvant par chimiothérapie et/ou hormonothérapie.
Les principaux facteurs pronostiques reconnus dans cette pathologie sont cliniques et
histologiques. Ils comprennent l’âge, l’envahissement ganglionnaire axillaire, la taille
tumorale, le grade histologique, et l’expression par la tumeur de récepteurs hormonaux (Goldhirsch et al., 2003) ou certains récepteurs ErbB (Metaye et al., 1996). Ces
éléments sont les facteurs majeurs qui déterminent l’indication des traitements complémentaires et notamment de la chimiothérapie. Cependant, ces facteurs reflètent imparfaitement l’évolution des patientes. En effet, 10 à 20 % des patientes sans envahissement ganglionnaire (N-), considérées comme de bon pronostic, rechuteront de leur
maladie et pour la plupart en décèderont. De plus, dans les populations considérées de
mauvais pronostic (envahissement ganglionnaire ou N- avec autres facteurs de mauvais pronostic), 30 à 50 % des patientes ne seront pas guéries malgré les traitements
actuels. Ces situations sont donc sources d’inadéquation thérapeutique majeure dans
le sens d’un sous-traitement pour certaines patientes, d’un sur-traitement ou d’un traitement inapproprié, inefficace et potentiellement toxique pour d’autres. Le pronostic
du cancer du sein métastatique reste un problème majeur pour l’oncologue ; depuis
ces sept dernières années, les progrès thérapeutiques, du fait des nouveaux traitements
mais aussi de l’évaluation de nouvelles stratégies, montrent une amélioration significative de la survie. L’identification de facteurs pronostiques plus fiables est cruciale,
d’autant plus que de nouvelles armes thérapeutiques sont en cours d’évaluation.
Depuis son introduction en 1980, l’approche des réseaux Bayesiens a été appliquée dans plusieurs domaines y compris la biologie. En effet, les réseaux Bayesiens
constituent un des plus complets et cohérents formalismes pour l’acquisition et la modélisation des systèmes complexes. Les réseaux Bayesiens sont des graphes dirigés
acycliques de noeuds et arcs, où les noeuds représentent les variables (expression de
protéines, état de phosphorylation, état clinique, grade tumoral,..) et les arcs présentent
les dépendances conditionnelles entre les variables.
Dans ce travail nous développons un système d’aide à la décision pour le pronostic du cancer de sein qui est basé sur la modélisation de la relation entre des protéines
clés de la signalisation cellulaire (récepteurs ErbB, récepteurs de l’estrogène et de la
progestérone, et de la protéine antiapoptotique Bcl2) et les caractéristiques cliniques
et pathologiques des tumeurs (le grade histologique de Scarff-Bloom-Richardson (ou
SBR), la taille de la tumeur, et l’état des nodules) et des patients (âge). Motivés par
le manque d’information a priori sur les paramètres du problème (structure, probabilités conditionnelles), nous avons tout d’abord utilisé une nouvelle approche statistique
pour l’apprentissage de la structure et des paramètres dans les réseaux Bayesiens,
Réseaux Bayesiens pour le pronostic du cancer du sein
3
dont on n’a pas besoin de spécifier aucune information a priori et qui a été démontrée
très performante, plus robuste et sensible en la comparant aux méthodes standards
et en nous nous basant sur des résultats de simulations. Nous avons alors utilisé un
ensemble de données de 84 patientes Tunisiennes atteintes du cancer de sein où les
variables continues ont été discrétisées. L’apprentissage de la structure et des paramètres des réseaux connectant les différentes variables est considéré. L’apprentissage
de la structure est basé sur l’algorithme K2 implémenté en Matlab avec un score Implicite (Bouchaala et al., 2010). L’apprentissage des paramètres est performé en utilisant l’estimateur Implicite (Ben Hassen et al., 2008) et en utilisant le langage de
programmation R. Finalement une interface d’aide à la décision est développée en
Visual Basic. Le système calcule un score métastasique pour chaque patiente, en se
basant sur son profil d’expression de protéines et sur son futur clinique et pathologique. Ce score est la probabilité jointe du réseau Bayesien utilisant les paramètres
estimés dans l’apprentissage de l’ensemble de données.
2. Matériel et Méthodes
Dans le but de prédire le pronostic du cancer de sein, une technique analogue à
celle de (Sebastiani et al., 2007) est appliquée, cette technique illustre l’utilisation
des réseaux Bayesiens comme étant un outil de diagnostic et de pronostic d’une personne atteinte d’une drépanocytose. Nous avons considéré 11 variables (constituant
les noeuds) qui sont les facteurs clinicopathologiques et les marqueurs biologiques.
Les états de ces variables sont les suivants :
- Les protéines ErbB1 (Her) à l’état surexprimé ou non (1/0, respectivement).
- Les protéines ErbB2 (Her2) à l’état surexprimé ou non (1/0, respectivement).
- Les protéines ErbB3 (Her3) à l’état surexprimé ou non (1/0, respectivement).
- Les protéines ErbB4 (Her4) à l’état surexprimé ou non (1/0, respectivement).
- Le niveau d’expression du récepteur de l’estrogène (RE) à l’état fort ou faible (1/0,
respectivement).
- Le niveau d’expression du récepteur de la progestérone (RP) à l’état fort ou faible
(1/0, respectivement).
- Le niveau d’expression de la protéine bcl2 à l’état fort ou faible (1/0, respectivement).
- L’age (1 : supérieur à 45 ans / 0 : inférieur à 45 ans).
- Taille de la tumeur (1 supérieure à 2cm / 0 inférieure à 2cm).
- Grade SBR (1 : type III /0 : type II) ; pas de patientes ayant un grade SBR de type I.
- L’existence ou non de ganglions métastasiques (1/0, respectivement).
Considérons un graphe dirigé acyclique formé de n noeuds, à chaque noeud i, on
associe une variable aléatoire Xi prenant ri états.
θijk la probabilité que le noeud i soit à l’état k sachant que ses parents soient à l’état
j
Nijk le nombre d’occurrences observées du noeud i à l’état k et ses parents à l’état j
Nij le nombre d’occurrences observées du noeud i et ses parents à l’état j
4
5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
Nijk(0) le nombre d’occurrences observées du noeud i à l’état k(0) et ses parents à
l’état j
k(0) l’état ayant le maximum d’occurrences du noeud i
Nijob le nombre de fois où les parents du noeud i sont observés à l’état j (c’est le
nombre d’occurrences de j dans l’ensemble des données).
L’apprentissage de la structure de ces 11 variables est réalisé grâce à la fonction
score Implicite donnée par cette formule :
qi
n Y
Y
(ri − 1)!
b
i=1 j=1 (Nij + ri − 1)!
avec
bij = Nijob +
N
i
Πrk=1
Nijk !
Nijk(0)
Nijob − Nijk(0)
Pour plus de détails voir (Bouchaala et al., 2010).
Nous avons développé un programme sur le langage R qui calcule toutes les probabilités des différents noeuds conditionnellement à leurs parents. L’estimateur Implicite
utilisé pour l’apprentissage des paramètres est donné par la formule suivante :
Nijk + 1
θbijk =
bijk + ri
N
Pour plus d’informations sur la méthode Implicite voir (Hassairi et al., 2005), (Ben
Hassen et al., 2008), (Ben Hassen et al., 2009).
Ensuite, nous avons utilisé ces probabilités pour développer une interface d’aide à
la décision sur Visual Basic et ceci en calculant les scores de chaque profil (combinaison des états pour les 11 noeuds).
3. Résultats et discussions
Le résultat de l’apprentissage de la structure est donné par la figure 1.
L’interface développée répond à des questions du type : Quelle est la probabilité
d’avoir une situation, ou une autre en changeant les états d’un noeud, de deux noeuds
ou plus ? La réponse à cette question est donnée par l’affichage d’un score pour chaque
éventualité ; la situation qui a le score (probabilité jointe) le plus grand est celle qui
est la plus probable. Cette interface constitue alors un simulateur biologique qui sert
d’aide à la décision pour l’oncologue ou le biologiste qui a soit besoin de tester ou
de prévoir ce qui se passe en changeant un, deux ou plusieurs états de un, deux ou
plusieurs noeuds.
Réseaux Bayesiens pour le pronostic du cancer du sein
5
Figure 1. Représentation en réseau des facteurs clinicopathologiques et des marqueurs biologiques intervenant dans le cancer du sein.
Notre simulateur a été utilisé pour faire des prédictions d’état métastasique, pour
différents profils (nous avons pris les états des 84 personnes malades). Le résultat de
la prédiction est donné par la figure 2.
Figure 2. Représentation graphique en bâtonnets des scores de chaque patiente.
6
5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
A partir de ce graphique, nous pouvons extraire dans le tableau 1 les états les plus
probables (ayant les scores les plus élevés) :
Patientes
41
57
40
61
51
EGFR
−
−
−
−
+
Noeuds
ErbB2 ErbB3 ErbB4
Bcl2
+
+
−
+
+
+
−
+
+
+
−
+
+
+
−
+
+
+
−
+
− : non exprimé, + : surexprimé
ER
+
+
+
+
+
PR
+
+
+
+
+
age
>45 ans
<45 ans
<45 ans
>45 ans
>45 ans
Tableau 1. Etats des noeuds, les plus probables, indiquant une métastase.
On constate que les 5 patientes qui ont la plus grande probabilité de développer une
métastase sont toutes de même profil d’expression des protéines considérées, à savoir
une surexpression simultanée de ErbB2, ErbB3, Bcl2 et des deux récepteurs hormonaux ER et PR, alors qu’elles appartiennent à différentes classes d’ages et ont des
tumeurs de tailles variables. Ceci suggère que la taille tumorale et l’age de la patiente
n’ont pas une grande valeur prédictive de la métastase. Il est également intéressant
de noter que toutes les patientes sont de grade SBR de type II, ce qui aurait pu amener à penser qu’elles ont un moindre risque de métastase. L’importance prédictive de
l’état des protéines ErbB2 et Bcl2 dans le cancer de sein a été également soulignée par
une analyse de classification basée sur une méthode de programmation mathématique
(Masmoudi et al., 2010). Les travaux de recherche sur la biologie des cancers du sein
ont abouti ces dernières années à l’émergence de nouveaux acteurs moléculaires susceptibles de mieux prédire le potentiel évolutif de ces maladies et/ou leur réponse aux
thérapeutiques disponibles. Historiquement, ce sont les récepteurs hormonaux, ER et
PR (respectivement récepteurs aux estrogènes et à la progestérone) qui ont démontré,
les premiers, l’impact des analyses moléculaires dans la prise en charge thérapeutique
des cancers du sein. Environ, 70-80 % des cancers du sein expriment ER et environ 50
% expriment PR. Dans le cas des tumeurs invasives, il existe une corrélation positive
entre leur présence et un état bien différencié (Goncalves et al., 2005). Il est généralement reconnu que la présence d’une réceptivité hormonale constitue un facteur
pronostique favorable, même si cette valeur pronostique est probablement modeste
lorsqu’elle est considérée indépendamment des traitements hormonaux adjuvants administrés (Bardou et al., 2003). Cependant, l’absence d’expression conjointe de ER et
PR représente un facteur reconnu défavorable pour poser l’indication d’une chimiothérapie adjuvante dans le cancer du sein localisé sans envahissement ganglionnaire
(Goldhirsch et al., 2003). L’apport majeur des récepteurs hormonaux dans la prise en
charge thérapeutique des patientes atteintes d’un cancer du sein réside en fait dans leur
pouvoir prédictif de la réponse thérapeutique aux thérapeutiques hormonales (Report
from the Breast Cancer Trials Committee, 1987). Plus récemment, l’oncogène ERBB2
(ou HER2 ou c-erbB2) a mis en évidence son importance. Il est retrouvé amplifié dans
environ 25 % des cancers du sein, aboutissant à une surexpression de la protéine cor-
taille
>2cm
>2cm
<2cm
<2cm
<2cm
SBR
II
II
II
II
II
Réseaux Bayesiens pour le pronostic du cancer du sein
7
respondante à la surface des cellules cancéreuses mammaires. ErbB2 est amplifié et/ou
surexprimé dans les cancers de sein non-invasifs et invasifs, reflétant son importance
aussi bien dans les premiers stades et dans les stades progressifs de développement
de la tumeur. La surexpression de ErbB2 est associée à un mauvais pronostic et à une
valeur prédictive de la réponse au trastuzumab (Anticorps Monoclonal dirigé contre
ErbB2). En revanche, la corrélation entre la surexpression de EGFR et le pronostic
tumoral ou la réponse thérapeutique à un agent anti-EGFR n’a pas été validée et reste
controversée (Chung et al., 2005). La co-expression de ces deux récepteurs dans un
même tissu est moins documentée mais semble associée à un plus mauvais pronostic
dans les cancers du sein (DiGiovanna et al., 2005). La surexpression d’ErbB3 a été observée dans des cancers du sein, du côlon, de l’estomac et dans d’autres carcinomes.
Son expression avec ErbB2 est, entre autres, un facteur de mauvais pronostic pour les
cancers du sein (Hubert, 2006). Ces faits sont en accord avec notre étude, en effet nous
remarquons que les noeuds EGFR et ErbB4 ne sont pas importants et que ces protéines
ne sont pas surexprimées chez les patientes qui ont de fortes probabilités d’avoir une
métastase et par conséquent qui sont de mauvais pronostic, alors que les protéines les
plus importantes sont les récepteurs des estrogènes, de la progestérone mais aussi les
protéines Bcl2, ErbB3 et ErbB2. En effet, ces récepteurs sont surexprimés chez toutes
les patientes présentant une métastase. Cette étude montre l’importance des noeuds
ErbB3 et Bcl2, qui ne doivent pas être négligés lors des études cliniques des patientes.
Selon notre prédiction basée sur les données expérimentales (84 patientes) un grade
SBR de type II, a été trouvé chez toutes les patientes présentant une métastase.
4. Bibliographie
Ahmed S., Aloulou S., Bibi M., Landolsi A., Nouira M., Fatma L., Kallel L., Gharbi O., Korbi
S., Khaïri H. et Kraïem C.,« Pronostic du cancer du sein chez les femmes tunisiennes :
analyse d’une série hospitalière de 729 patientes ». Santé publique. 14, 231-241, 2002.
Bardou, V.J., Arpino, G., Elledge, R.M., Osborne, C.K., Clark, G.M., « Progesterone Receptor
Status Significantly Improves Outcome Prediction Over Estrogen Receptor Status Alone for
Adjuvant Endocrine Therapy in Two Large Breast Cancer Databases ». J. Clin. Oncol. 21,
1973-1979, 2003.
Ben Hassen, H. Masmoudi, A. and Rebai, A., « Causal inference in Biomolecular Pathways
using a Bayesian network approach and an Implicit method ». J. Theor. Biol. 4, 717-724,
2008.
Ben Hassen, H. Masmoudi, A. and Rebai, A., « Inference in signal transduction pathways
using EM algorithm and an Implicit Algorithm : Incomplete data case ». J. comp. Biol. 16,
1227-1240, 2009.
Bouchaala, L., Masmoudi, A., Gargouri, F. and Rebai, A., « Improving algorithms for structure
learning in Bayesian Networks using a new implicit score ». Expert Systems With Applications. (in press), 2010.
Chung, K.Y., Shia, J., Kemeny, N.E., et al., « Cetuximab shows activity in colorectal cancer
patients with tumors that do not express the epidermal growth factor receptor by immunohistochemistry ». J. Clin. Oncol. 23, 1803-1810, 2005.
8
5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010
DiGiovanna, M.P., Stern, D.F., Edgerton, S.M., et al., « Relationship of epidermal growth factor
receptor expression to ErbB-2 signaling activity and prognosis in breast cancer patients ».
J. Clin. Oncol. 23, 1152-60, 2005.
Goldhirsch, A.,Wood, W.C., Gelber, R.D., Coates, A.S., Thurlimann, B., Senn, H.J., « Meeting Highlights : Updated International Expert Consensus on the Primary Therapy of Early
Breast Cancer ». J Clin. Oncol. 21, 3357-65, 2003.
Goncalves, A., Viens, P., Sobol, H., « Altérations moléculaires des cancers du sein : applications
cliniques et nouveaux outils d’analyse ». Rev. Med. Interne. 26, 470-8, 2005.
Hassairi, A. Masmoudi, A. and Kokonendji, C., 2005. « Implicit distributions and estimation ».
Commun.Stat.Theor.M. 34, 245-252, 2005.
Hubert, P., « Growth factors of the EGF family and their receptors ». Bull Cancer. 17-24, 2006.
Masmoudi, Y., Chabchoub, H., Hanafi, S. and Rebaï, A., « Mathematical Programming based Procedure for Breast Cancer Classification ». Journal of Mathematical Modelling and
Algorithms (in press), 2010.
Metaye, T., Bareille Saint-Gaudens, A., Millet C., Ingrand, P., Daban, A., Begon, F., « Dosages
immunoenzymatiques de l’oncoprotéine c-erbB-2 et du récepteur du facteur de croissance
de l’épiderme dans le cancer du sein corrélation avec les paramètres cliniques et biologiques ». Annales de biologie clinique 4, 131-138, 1996.
Report from the Breast Cancer Trials Committee, « Adjuvant tamoxifen in the management
of operable breast cancer : the Scottish Trial ». Scottish Cancer Trials Office (MRC), Edinburgh. Lancet 2, 171.175, 1987.
Sebastiani, P., Nolan, VG., Baldwin, C.T., Abad-Grau, M.M., Wang, L., Adewoye, A.H., McMahon, L.C., Farrer, L.A., Taylor, J.G. 4th, Kato, G.J., Gladwin, M.T., Steinberg, M.H., « A
network model to predict the risk of death in sickle cell disease ». Blood. 110, 2727-2735,
2007.