Academia.eduAcademia.edu

Réseaux Bayésiens pour le pronostic du cancer du sein

2010, … sur les Réseaux …

De nos jours, le cancer est vu comme un ensemble de maladies complexes où la signalisation cellulaire joue un role clé et les méthodes informatiques et mathématiques jouent un rôle important dans la compréhension de son diagnostic, pronostic et traitement. Dans ce travail nous utilisons l'approche des réseaux Bayesiens pour prédire le risque de métastase et des facteurs pronostiques du cancer de sein et ceci en développant un système d'aide à la décision. Nous utilisons l'estmation Implicite pour l'apprentissage des paramètres et de la structure. Le système développé est utilisé pour prédire le risque de métastase de patientes ayant un cancer de sein. Nous avons identifié que le profile le prédominant associé à un grand risque de métastase correspond à la sur

Réseaux Bayésiens pour le pronostic du cancer du sein Hanen Ben Hassen, Lobna Bouchaala, Imen Kallel, Afif Masmoudi, Ahmed Rebai To cite this version: Hanen Ben Hassen, Lobna Bouchaala, Imen Kallel, Afif Masmoudi, Ahmed Rebai. Réseaux Bayésiens pour le pronostic du cancer du sein. 5èmes Journées Francophones sur les Réseaux Bayésiens (JFRB2010), May 2010, Nantes, France. ฀hal-00466896฀ HAL Id: hal-00466896 https://hal.science/hal-00466896 Submitted on 30 May 2010 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Réseaux Bayesiens pour le pronostic du cancer du sein Hanen Ben Hassen* — Lobna Bouchaala* — Imen kallel* — Afif Masmoudi** — Ahmed Rebai* * Groupe de recherche en Bioinformatique; Centre de Biotechnologie de Sfax, BP " 1177 " 3018 Sfax-Tunisie, [email protected] ** Laboratoire de probabilités et statistique; Faculté des sciences de Sfax [email protected] De nos jours, le cancer est vu comme un ensemble de maladies complexes où la signalisation cellulaire joue un role clé et les méthodes informatiques et mathématiques jouent un rôle important dans la compréhension de son diagnostic, pronostic et traitement. Dans ce travail nous utilisons l’approche des réseaux Bayesiens pour prédire le risque de métastase et des facteurs pronostiques du cancer de sein et ceci en développant un système d’aide à la décision. Nous utilisons l’estmation Implicite pour l’apprentissage des paramètres et de la structure. Le système développé est utilisé pour prédire le risque de métastase de patientes ayant un cancer de sein. Nous avons identifié que le profile le prédominant associé à un grand risque de métastase correspond à la sur-expression des récepteurs de l’ErbB2, de l’ErbB3, de l’estrogène, de la progestérone et de la protéine Bcl2 et à un niveau faible de ErbB4. RÉSUMÉ. Cancer is now seen as a collection of complex diseases where signalling is more and more recognized as a key player and where computational and mathematical methods play an increasingly important role in understanding its diagnosis, prognosis and treatment. In this work, we use Bayesian Networks to develop a decision support system for the prediction of breast cancer prognosis. We use the Implicit estimation for parameters and structure learning. The system was used to predict metastasis risk of patients with breast cancer. We identified that overexpression of ErbB2 and ErbB3 as well as of oestrogen, progesterone and Bcl2 receptors associated with a low level of ErbB4 was the predominant profile associated with high risk of metastasis. ABSTRACT. MOTS-CLÉS : Réseaux Bayesiens, Estimation Implicite, Apprentissage, cancer de sein. KEYWORDS: Bayesian networks, Implicit Estmation, Learning, breast cancer. 2 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010 1. Introduction En Tunisie, le cancer du sein est le cancer féminin le plus fréquent et il représente la première cause de mortalité féminine dans la tranche d’âge de 35 à 55 ans. L’évolution de ce cancer est déroutante mais l’obtention des facteurs pronostiques dès le diagnostic permet d’envisager un traitement gradué adapté à chaque groupe pronostique de patientes (Ahmed et al., 2002). Globalement, 70 % des patientes atteintes d’un cancer de sein localisé sont encore en vie cinq ans après un traitement qui combine chirurgie, radiothérapie et traitement adjuvant par chimiothérapie et/ou hormonothérapie. Les principaux facteurs pronostiques reconnus dans cette pathologie sont cliniques et histologiques. Ils comprennent l’âge, l’envahissement ganglionnaire axillaire, la taille tumorale, le grade histologique, et l’expression par la tumeur de récepteurs hormonaux (Goldhirsch et al., 2003) ou certains récepteurs ErbB (Metaye et al., 1996). Ces éléments sont les facteurs majeurs qui déterminent l’indication des traitements complémentaires et notamment de la chimiothérapie. Cependant, ces facteurs reflètent imparfaitement l’évolution des patientes. En effet, 10 à 20 % des patientes sans envahissement ganglionnaire (N-), considérées comme de bon pronostic, rechuteront de leur maladie et pour la plupart en décèderont. De plus, dans les populations considérées de mauvais pronostic (envahissement ganglionnaire ou N- avec autres facteurs de mauvais pronostic), 30 à 50 % des patientes ne seront pas guéries malgré les traitements actuels. Ces situations sont donc sources d’inadéquation thérapeutique majeure dans le sens d’un sous-traitement pour certaines patientes, d’un sur-traitement ou d’un traitement inapproprié, inefficace et potentiellement toxique pour d’autres. Le pronostic du cancer du sein métastatique reste un problème majeur pour l’oncologue ; depuis ces sept dernières années, les progrès thérapeutiques, du fait des nouveaux traitements mais aussi de l’évaluation de nouvelles stratégies, montrent une amélioration significative de la survie. L’identification de facteurs pronostiques plus fiables est cruciale, d’autant plus que de nouvelles armes thérapeutiques sont en cours d’évaluation. Depuis son introduction en 1980, l’approche des réseaux Bayesiens a été appliquée dans plusieurs domaines y compris la biologie. En effet, les réseaux Bayesiens constituent un des plus complets et cohérents formalismes pour l’acquisition et la modélisation des systèmes complexes. Les réseaux Bayesiens sont des graphes dirigés acycliques de noeuds et arcs, où les noeuds représentent les variables (expression de protéines, état de phosphorylation, état clinique, grade tumoral,..) et les arcs présentent les dépendances conditionnelles entre les variables. Dans ce travail nous développons un système d’aide à la décision pour le pronostic du cancer de sein qui est basé sur la modélisation de la relation entre des protéines clés de la signalisation cellulaire (récepteurs ErbB, récepteurs de l’estrogène et de la progestérone, et de la protéine antiapoptotique Bcl2) et les caractéristiques cliniques et pathologiques des tumeurs (le grade histologique de Scarff-Bloom-Richardson (ou SBR), la taille de la tumeur, et l’état des nodules) et des patients (âge). Motivés par le manque d’information a priori sur les paramètres du problème (structure, probabilités conditionnelles), nous avons tout d’abord utilisé une nouvelle approche statistique pour l’apprentissage de la structure et des paramètres dans les réseaux Bayesiens, Réseaux Bayesiens pour le pronostic du cancer du sein 3 dont on n’a pas besoin de spécifier aucune information a priori et qui a été démontrée très performante, plus robuste et sensible en la comparant aux méthodes standards et en nous nous basant sur des résultats de simulations. Nous avons alors utilisé un ensemble de données de 84 patientes Tunisiennes atteintes du cancer de sein où les variables continues ont été discrétisées. L’apprentissage de la structure et des paramètres des réseaux connectant les différentes variables est considéré. L’apprentissage de la structure est basé sur l’algorithme K2 implémenté en Matlab avec un score Implicite (Bouchaala et al., 2010). L’apprentissage des paramètres est performé en utilisant l’estimateur Implicite (Ben Hassen et al., 2008) et en utilisant le langage de programmation R. Finalement une interface d’aide à la décision est développée en Visual Basic. Le système calcule un score métastasique pour chaque patiente, en se basant sur son profil d’expression de protéines et sur son futur clinique et pathologique. Ce score est la probabilité jointe du réseau Bayesien utilisant les paramètres estimés dans l’apprentissage de l’ensemble de données. 2. Matériel et Méthodes Dans le but de prédire le pronostic du cancer de sein, une technique analogue à celle de (Sebastiani et al., 2007) est appliquée, cette technique illustre l’utilisation des réseaux Bayesiens comme étant un outil de diagnostic et de pronostic d’une personne atteinte d’une drépanocytose. Nous avons considéré 11 variables (constituant les noeuds) qui sont les facteurs clinicopathologiques et les marqueurs biologiques. Les états de ces variables sont les suivants : - Les protéines ErbB1 (Her) à l’état surexprimé ou non (1/0, respectivement). - Les protéines ErbB2 (Her2) à l’état surexprimé ou non (1/0, respectivement). - Les protéines ErbB3 (Her3) à l’état surexprimé ou non (1/0, respectivement). - Les protéines ErbB4 (Her4) à l’état surexprimé ou non (1/0, respectivement). - Le niveau d’expression du récepteur de l’estrogène (RE) à l’état fort ou faible (1/0, respectivement). - Le niveau d’expression du récepteur de la progestérone (RP) à l’état fort ou faible (1/0, respectivement). - Le niveau d’expression de la protéine bcl2 à l’état fort ou faible (1/0, respectivement). - L’age (1 : supérieur à 45 ans / 0 : inférieur à 45 ans). - Taille de la tumeur (1 supérieure à 2cm / 0 inférieure à 2cm). - Grade SBR (1 : type III /0 : type II) ; pas de patientes ayant un grade SBR de type I. - L’existence ou non de ganglions métastasiques (1/0, respectivement). Considérons un graphe dirigé acyclique formé de n noeuds, à chaque noeud i, on associe une variable aléatoire Xi prenant ri états. θijk la probabilité que le noeud i soit à l’état k sachant que ses parents soient à l’état j Nijk le nombre d’occurrences observées du noeud i à l’état k et ses parents à l’état j Nij le nombre d’occurrences observées du noeud i et ses parents à l’état j 4 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010 Nijk(0) le nombre d’occurrences observées du noeud i à l’état k(0) et ses parents à l’état j k(0) l’état ayant le maximum d’occurrences du noeud i Nijob le nombre de fois où les parents du noeud i sont observés à l’état j (c’est le nombre d’occurrences de j dans l’ensemble des données). L’apprentissage de la structure de ces 11 variables est réalisé grâce à la fonction score Implicite donnée par cette formule : qi n Y Y (ri − 1)! b i=1 j=1 (Nij + ri − 1)! avec bij = Nijob + N i Πrk=1 Nijk ! Nijk(0) Nijob − Nijk(0) Pour plus de détails voir (Bouchaala et al., 2010). Nous avons développé un programme sur le langage R qui calcule toutes les probabilités des différents noeuds conditionnellement à leurs parents. L’estimateur Implicite utilisé pour l’apprentissage des paramètres est donné par la formule suivante : Nijk + 1 θbijk = bijk + ri N Pour plus d’informations sur la méthode Implicite voir (Hassairi et al., 2005), (Ben Hassen et al., 2008), (Ben Hassen et al., 2009). Ensuite, nous avons utilisé ces probabilités pour développer une interface d’aide à la décision sur Visual Basic et ceci en calculant les scores de chaque profil (combinaison des états pour les 11 noeuds). 3. Résultats et discussions Le résultat de l’apprentissage de la structure est donné par la figure 1. L’interface développée répond à des questions du type : Quelle est la probabilité d’avoir une situation, ou une autre en changeant les états d’un noeud, de deux noeuds ou plus ? La réponse à cette question est donnée par l’affichage d’un score pour chaque éventualité ; la situation qui a le score (probabilité jointe) le plus grand est celle qui est la plus probable. Cette interface constitue alors un simulateur biologique qui sert d’aide à la décision pour l’oncologue ou le biologiste qui a soit besoin de tester ou de prévoir ce qui se passe en changeant un, deux ou plusieurs états de un, deux ou plusieurs noeuds. Réseaux Bayesiens pour le pronostic du cancer du sein 5 Figure 1. Représentation en réseau des facteurs clinicopathologiques et des marqueurs biologiques intervenant dans le cancer du sein. Notre simulateur a été utilisé pour faire des prédictions d’état métastasique, pour différents profils (nous avons pris les états des 84 personnes malades). Le résultat de la prédiction est donné par la figure 2. Figure 2. Représentation graphique en bâtonnets des scores de chaque patiente. 6 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010 A partir de ce graphique, nous pouvons extraire dans le tableau 1 les états les plus probables (ayant les scores les plus élevés) : Patientes 41 57 40 61 51 EGFR − − − − + Noeuds ErbB2 ErbB3 ErbB4 Bcl2 + + − + + + − + + + − + + + − + + + − + − : non exprimé, + : surexprimé ER + + + + + PR + + + + + age >45 ans <45 ans <45 ans >45 ans >45 ans Tableau 1. Etats des noeuds, les plus probables, indiquant une métastase. On constate que les 5 patientes qui ont la plus grande probabilité de développer une métastase sont toutes de même profil d’expression des protéines considérées, à savoir une surexpression simultanée de ErbB2, ErbB3, Bcl2 et des deux récepteurs hormonaux ER et PR, alors qu’elles appartiennent à différentes classes d’ages et ont des tumeurs de tailles variables. Ceci suggère que la taille tumorale et l’age de la patiente n’ont pas une grande valeur prédictive de la métastase. Il est également intéressant de noter que toutes les patientes sont de grade SBR de type II, ce qui aurait pu amener à penser qu’elles ont un moindre risque de métastase. L’importance prédictive de l’état des protéines ErbB2 et Bcl2 dans le cancer de sein a été également soulignée par une analyse de classification basée sur une méthode de programmation mathématique (Masmoudi et al., 2010). Les travaux de recherche sur la biologie des cancers du sein ont abouti ces dernières années à l’émergence de nouveaux acteurs moléculaires susceptibles de mieux prédire le potentiel évolutif de ces maladies et/ou leur réponse aux thérapeutiques disponibles. Historiquement, ce sont les récepteurs hormonaux, ER et PR (respectivement récepteurs aux estrogènes et à la progestérone) qui ont démontré, les premiers, l’impact des analyses moléculaires dans la prise en charge thérapeutique des cancers du sein. Environ, 70-80 % des cancers du sein expriment ER et environ 50 % expriment PR. Dans le cas des tumeurs invasives, il existe une corrélation positive entre leur présence et un état bien différencié (Goncalves et al., 2005). Il est généralement reconnu que la présence d’une réceptivité hormonale constitue un facteur pronostique favorable, même si cette valeur pronostique est probablement modeste lorsqu’elle est considérée indépendamment des traitements hormonaux adjuvants administrés (Bardou et al., 2003). Cependant, l’absence d’expression conjointe de ER et PR représente un facteur reconnu défavorable pour poser l’indication d’une chimiothérapie adjuvante dans le cancer du sein localisé sans envahissement ganglionnaire (Goldhirsch et al., 2003). L’apport majeur des récepteurs hormonaux dans la prise en charge thérapeutique des patientes atteintes d’un cancer du sein réside en fait dans leur pouvoir prédictif de la réponse thérapeutique aux thérapeutiques hormonales (Report from the Breast Cancer Trials Committee, 1987). Plus récemment, l’oncogène ERBB2 (ou HER2 ou c-erbB2) a mis en évidence son importance. Il est retrouvé amplifié dans environ 25 % des cancers du sein, aboutissant à une surexpression de la protéine cor- taille >2cm >2cm <2cm <2cm <2cm SBR II II II II II Réseaux Bayesiens pour le pronostic du cancer du sein 7 respondante à la surface des cellules cancéreuses mammaires. ErbB2 est amplifié et/ou surexprimé dans les cancers de sein non-invasifs et invasifs, reflétant son importance aussi bien dans les premiers stades et dans les stades progressifs de développement de la tumeur. La surexpression de ErbB2 est associée à un mauvais pronostic et à une valeur prédictive de la réponse au trastuzumab (Anticorps Monoclonal dirigé contre ErbB2). En revanche, la corrélation entre la surexpression de EGFR et le pronostic tumoral ou la réponse thérapeutique à un agent anti-EGFR n’a pas été validée et reste controversée (Chung et al., 2005). La co-expression de ces deux récepteurs dans un même tissu est moins documentée mais semble associée à un plus mauvais pronostic dans les cancers du sein (DiGiovanna et al., 2005). La surexpression d’ErbB3 a été observée dans des cancers du sein, du côlon, de l’estomac et dans d’autres carcinomes. Son expression avec ErbB2 est, entre autres, un facteur de mauvais pronostic pour les cancers du sein (Hubert, 2006). Ces faits sont en accord avec notre étude, en effet nous remarquons que les noeuds EGFR et ErbB4 ne sont pas importants et que ces protéines ne sont pas surexprimées chez les patientes qui ont de fortes probabilités d’avoir une métastase et par conséquent qui sont de mauvais pronostic, alors que les protéines les plus importantes sont les récepteurs des estrogènes, de la progestérone mais aussi les protéines Bcl2, ErbB3 et ErbB2. En effet, ces récepteurs sont surexprimés chez toutes les patientes présentant une métastase. Cette étude montre l’importance des noeuds ErbB3 et Bcl2, qui ne doivent pas être négligés lors des études cliniques des patientes. Selon notre prédiction basée sur les données expérimentales (84 patientes) un grade SBR de type II, a été trouvé chez toutes les patientes présentant une métastase. 4. Bibliographie Ahmed S., Aloulou S., Bibi M., Landolsi A., Nouira M., Fatma L., Kallel L., Gharbi O., Korbi S., Khaïri H. et Kraïem C.,« Pronostic du cancer du sein chez les femmes tunisiennes : analyse d’une série hospitalière de 729 patientes ». Santé publique. 14, 231-241, 2002. Bardou, V.J., Arpino, G., Elledge, R.M., Osborne, C.K., Clark, G.M., « Progesterone Receptor Status Significantly Improves Outcome Prediction Over Estrogen Receptor Status Alone for Adjuvant Endocrine Therapy in Two Large Breast Cancer Databases ». J. Clin. Oncol. 21, 1973-1979, 2003. Ben Hassen, H. Masmoudi, A. and Rebai, A., « Causal inference in Biomolecular Pathways using a Bayesian network approach and an Implicit method ». J. Theor. Biol. 4, 717-724, 2008. Ben Hassen, H. Masmoudi, A. and Rebai, A., « Inference in signal transduction pathways using EM algorithm and an Implicit Algorithm : Incomplete data case ». J. comp. Biol. 16, 1227-1240, 2009. Bouchaala, L., Masmoudi, A., Gargouri, F. and Rebai, A., « Improving algorithms for structure learning in Bayesian Networks using a new implicit score ». Expert Systems With Applications. (in press), 2010. Chung, K.Y., Shia, J., Kemeny, N.E., et al., « Cetuximab shows activity in colorectal cancer patients with tumors that do not express the epidermal growth factor receptor by immunohistochemistry ». J. Clin. Oncol. 23, 1803-1810, 2005. 8 5èmes Journées Francophones sur les Réseaux Bayésiens, Nantes, 10-11 Mai 2010 DiGiovanna, M.P., Stern, D.F., Edgerton, S.M., et al., « Relationship of epidermal growth factor receptor expression to ErbB-2 signaling activity and prognosis in breast cancer patients ». J. Clin. Oncol. 23, 1152-60, 2005. Goldhirsch, A.,Wood, W.C., Gelber, R.D., Coates, A.S., Thurlimann, B., Senn, H.J., « Meeting Highlights : Updated International Expert Consensus on the Primary Therapy of Early Breast Cancer ». J Clin. Oncol. 21, 3357-65, 2003. Goncalves, A., Viens, P., Sobol, H., « Altérations moléculaires des cancers du sein : applications cliniques et nouveaux outils d’analyse ». Rev. Med. Interne. 26, 470-8, 2005. Hassairi, A. Masmoudi, A. and Kokonendji, C., 2005. « Implicit distributions and estimation ». Commun.Stat.Theor.M. 34, 245-252, 2005. Hubert, P., « Growth factors of the EGF family and their receptors ». Bull Cancer. 17-24, 2006. Masmoudi, Y., Chabchoub, H., Hanafi, S. and Rebaï, A., « Mathematical Programming based Procedure for Breast Cancer Classification ». Journal of Mathematical Modelling and Algorithms (in press), 2010. Metaye, T., Bareille Saint-Gaudens, A., Millet C., Ingrand, P., Daban, A., Begon, F., « Dosages immunoenzymatiques de l’oncoprotéine c-erbB-2 et du récepteur du facteur de croissance de l’épiderme dans le cancer du sein corrélation avec les paramètres cliniques et biologiques ». Annales de biologie clinique 4, 131-138, 1996. Report from the Breast Cancer Trials Committee, « Adjuvant tamoxifen in the management of operable breast cancer : the Scottish Trial ». Scottish Cancer Trials Office (MRC), Edinburgh. Lancet 2, 171.175, 1987. Sebastiani, P., Nolan, VG., Baldwin, C.T., Abad-Grau, M.M., Wang, L., Adewoye, A.H., McMahon, L.C., Farrer, L.A., Taylor, J.G. 4th, Kato, G.J., Gladwin, M.T., Steinberg, M.H., « A network model to predict the risk of death in sickle cell disease ». Blood. 110, 2727-2735, 2007.