Surete de Fonctionnement

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 73

SURETE DE FONCTIONNEMENT

Jean-Marc Mercantini

Département de Génie Industriel et Informatique

Ecole Polytechnique Universitaire de Marseille

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 1


COURS DE SURETE DE FONCTIONNEMENT

1. LA NOTION DE SÛRETÉ DE FONCTIONNEMENT


1.1 Définitions
1.2 La notion de service
1.3 Les entraves à la SdF
1.4 Les moyens d’observation
1.5 Les attributs de la SdF
1.6 Les moyens de protection
2. EVALUATION DE LA SÛRETÉ DE FONCTIONNEMENT
2.1 Rappel sur les probabilités d’événements
2.2 La fonction de probabilité ou fonction de distribution
2.2 La fonction de probabilité cumulée ou fonction de répartition
2.3 La fonction de probabilité conditionnelle
2.4 Le taux d’avarie ou taux instantané de défaillance
2.5 Relation entre l(t) et R(t)
2.6 Relation entre m(t) et M(t)
2.7 Les durées de la SdF

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 2


3. LA TOLÉRANCE AUX PANNES
3.1 Introduction
3.2 Les domaines d’application
3.3 Les stratégies de la tolérance aux pannes
4. LES PRINCIPES DE L'ANALYSE PREVISIONNELLE
4.1 Introduction
4.2 L'analyse technique et fonctionnelle
4.3 L'analyse qualitative
4.4 L'analyse quantitative
4.5 Synthèse et conclusion
4.6 Les méthodes d'analyse prévisionnelle
5. L'ANALYSE PRELIMINAIRE DES DANGERS (APD)
6. L'ANALYSE DES MODES DE DEFAILLANCE ET DE LEURS EFFETS (AMDE)
7. LA METHODE DE L'ESPACE DES ETATS (MEE)
8. LA METHODE DE L'ARBRE DES CAUSES (MAC)

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 3


1. LA NOTION DE SURETE DE FONCTIONNEMENT

1.1 DEFINITIONS

D1. La sûreté de fonctionnement d'un système est son aptitude (état) à


délivrer le service attendu (spécifié). (AFNOR)

D2. La Sûreté de Fonctionnement est la science des défaillances ; elle


inclut ainsi leurs connaissances, leur évaluation, leur prévision, leur
mesure et leur maîtrise. (A. Villemeur)

D3. La sûreté de fonctionnement d'un système est la mesure de la


confiance que l'on peut accorder au service délivré par le système.

D4. La sûreté de fonctionnement d'un système est la mesure du


comportement du système en présence de défaillances.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 4


1.2 LA NOTION DE SERVICE

Le service délivré par un système est son comportement tel que perçu par son (ou ses)
utilisateur(s).

Un système est une entité ayant interagi ou interféré, interagissant ou interférant, ou


susceptible d'interagir ou d'interférer avec d'autres entités, c'est à dire d'autres
systèmes. Ces autres systèmes ont constitué, constituent, ou constitueront
l'environnement du système considéré.

Un utilisateur du système est une partie de l'environnement qui interagit avec ce


dernier. Il fournit des entrées au système et/ou en reçoit des sorties ; en d'autres termes,
ce qui distingue un utilisateur du reste de l'environnement est le fait qu'il utilise le
service délivré par le système.

La notion d'utilisateur doit être considérée au sens large, c'est à dire qu'elle représente
aussi bien un opérateur qu'un autre système.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 5


1.2 LA NOTION DE SERVICE

C
O
DEFAILLANCE SYSTEME N
C
FONCTIONS E
P
T
E LE SERVICE I
N O
V SPECIFIE N
I
R
O LA SURETE E
N X
N DE P
E FONCTION- L
M O
E -NEMENT I
N T
T A
LE SERVICE T
UTILISATEUR I
DELIVRE O
N

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 6


1.3 LES ENTRAVES A LA SURETE DE FONCTIONNEMENT

Les entraves à la sûreté de fonctionnement représentent les circonstances


indésirables, mais non inattendues, causes ou résultats de la non sûreté de
fonctionnement ; la confiance ne peut plus, ou ne pourra plus, être placée dans le
service délivré.

1.3.1 La défaillance

C’est la cessation de l’aptitude d’une entité à accomplir une fonction requise. On


dira qu’une entité connaît une défaillance lorsqu’elle n’est plus en mesure de
remplir sa (ou ses) fonctions. (A. Villemeur).

Evénement survenant lorsque le service délivré dévie de l’accomplissement de la


fonction du système. (J.C. Laprie)

Une entité connaît une défaillance lorsqu’elle n’est plus en mesure de remplir sa
(ou ses) fonction(s). Par extension, on considère parfois qu’il y a une défaillance
lorsqu’il y a altération de l’aptitude d’une entité à accomplir une fonction
requise : les tolérances associées doivent alors être définies. Afin de préciser cette
notion de défaillance, on réalise plusieurs classifications des défaillances.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 7


1.3.2 Classification des défaillances

1.3.2.1 En fonction de la rapidité de leur manifestation

Défaillance progressive : elle se manifeste par une évolution progressive des


caractéristiques d’une entité.

Défaillance soudaine : elle se manifeste par une perte soudaine des


caractéristiques d’une entité.

1.3.2.2 En fonction de leur amplitude

Défaillance partielle : défaillance résultant de déviation d’une ou des


caractéristiques au-delà des limites spécifiées, mais telle qu’elle
n’entraîne pas une disparition complète de la fonction requise
(Commission Electrotechnique Internationale : CEI).

Défaillance complète : défaillance résultant de déviation d’une ou des


caractéristiques au-delà des limites spécifiées, telle qu’elle
entraîne une disparition complète de la fonction requise (CEI).

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 8


1.3.2.3 En fonction de la rapidité et de l’amplitude

Défaillance catalectique : défaillance qui est à la fois soudaine et complète


(CEI).

Défaillance par dégradation : défaillance qui est à la fois progressive et


partielle (CEI).

1.3.2.4 En fonction des causes

Défaillance première : défaillance d’une entité dont la cause directe ou


indirecte n’est pas la défaillance d’une autre entité (A.
Villemeur).

Défaillance seconde : défaillance d’une entité dont la cause directe ou


indirecte est la défaillance d’une autre entité et pour laquelle cette
entité n’a pas été qualifiée et dimensionnée (A. Villemeur).

Défaillance de commande : défaillance d’une entité dont la cause directe ou


indirecte est la défaillance d’une autre entité et pour laquelle
cette entité a été qualifiée et dimensionnée (A. Villemeur).

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 9


1.3.2.5 En fonction des effets

Défaillance mineure : défaillance qui nuit au bon fonctionnement d’un système


en causant un dommage négligeable au dit système ou à son
environnement sans toutefois présenter de risque pour l’homme (C.
Lievens).

Défaillance significative : défaillance qui nuit au bon fonctionnement d’un


système sans toutefois causer de dommage notable, ni présenter de
risque important pour l’homme (C. Lievens).

Défaillance critique : défaillance qui entraîne la perte d’une (ou des) fonction(s)
essentielles d’un système et cause des dommages importants au dit
système ou à son environnement en ne présentant, toutefois, qu’un
risque négligeable de mort ou de blessure. (C. Lievens).

Défaillance catastrophique : défaillance qui occasionne la perte d’une (ou des)


fonction(s) essentielle(s) d’un système en causant des dommages
importants au dit système ou à son environnement et/ou entraîne,
pour l’homme, la mort ou des dommages corporels (C. Lievens).

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 10


1.3.3 Les modes de défaillance
Un mode de défaillance est l’effet par lequel une défaillance est observée (CEI).

COMPOSANT FONCTIONS

CAUSES DE EFFETS SUR LES MODES DE


DEFAILLANCE FONCTIONS DEFAILLANCE

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 11


1.3.4 Un modèle phénoménologique

le triplet < défaut, panne, erreur >

Le défaut

Le défaut est un phénomène adverse qui a une origine physique ou humaine.


Le défaut physique peut être d'origine interne (désordre physico-chimique,
dégradation) ou externe (perturbation de l'environnement) au système
considéré.
Le défaut humain peut être d'origine conceptuelle ou d'interaction. Les défauts
de conception sont des défauts de développement accidentels ou
intentionnels, sans volonté de nuire. Les défauts d'interaction sont d’origine
externe au système, accidentel ou intentionnel sans volonté de nuire.

La panne

La panne est l'effet fonctionnel local du défaut et elle existe dès que le défaut
apparaît. Elle peut être dormante ou active. Si une panne devient active alors
elle produit une erreur.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 12


1.3.4 Un modèle phénoménologique

L'erreur

L'erreur est l'effet fonctionnel global du défaut ; c'est la partie de l'état du


système qui est susceptible d'entraîner une défaillance.
Une erreur peut être latente ou détectée : elle est latente tant qu'elle n'a
pas été détectée. Si l'erreur affecte le service délivré, alors on dit qu'il y
a une défaillance.

Erreur
latente

Défaut Panne
active
Erreur
détectée
Panne
dormante

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 13


1.4 LES MOYENS D’OBSERVATION

Ces moyens vont nous permettre d'observer le comportement du


système de façon à mettre en évidence les erreurs et les pannes, et
d'aider l'opérateur à éliminer les défauts. Ces moyens sont le test en
ligne et le test hors ligne.

E SYSTEME F
SOUS TEST

SORTIES
DE TEST
OBSERVATION

DECISION SYSTEME
DE TEST

SIGNATURE

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 14


1.4 LES MOYENS D’OBSERVATION
1.4.1 Le test hors ligne

Cette technique consiste à placer le système hors de son contexte


habituel de travail et de le soumettre à un ensemble de vecteurs de test
propres à rendre observables les pannes qu'il contient. L'ensemble de
ces vecteurs de test (Et) n'est pas limité à l'ensemble des vecteurs
fonctionnels (Ef) : Ef => Et.

1.4.2 Le test en ligne

Cette technique consiste à maintenir le système dans son contexte de


travail et à analyser son comportement vis à vis des seuls vecteurs
d'entrée fonctionnels.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 15


1.5 LES ATTRIBUTS
Selon la ou les application(s) auxquelle(s) le système est destiné, l'accent peut être mis sur
différentes facettes de la sûreté de fonctionnement :
la fiabilité - la maintenabilité - la disponibilité - la sécurité.

1.5.1 La fiabilité
D1. C'est l'aptitude d'une entité à accomplir une fonction requise, dans des conditions
données, pendant une durée données.
D2. C'est la mesure de la continuité de l'accomplissement du service, ou, ce qui est
équivalent, du temps avant qu'une défaillance ne survienne.
R(t) = Prob { E non défaillante sur [ 0, t ] }

1.5.2 La maintenabilité
D1. C'est l'aptitude d'une entité à être maintenue ou rétablie dans un état dans lequel elle
peut accomplir une fonction requise, lorsque la maintenance est accomplie dans des
conditions données avec des procédures et des moyens prescrits.
D2. C'est la mesure du temps nécessaire pour remettre en service une entité.
M(t) = Prob { E réparée sur [ 0, t ] }

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 16


1.5.3 La disponibilité
D1. C'est l'aptitude d'une entité à être en état d'accomplir une fonction
donnée, dans des conditions données et à un instant donné.

D2. C'est la mesure de l'accomplissement du service par rapport à


l'alternance accomplissement interruption.

A(t) = Prob { E non défaillante à l'instant t }

1.5.4 La sécurité
D1. C'est l'aptitude d'une entité à éviter de faire apparaitre dans des
conditions données, des événements critiques ou catastrophiques.

D2. C'est la mesure de la continuité de la délivrance d'un service sûr, ou,


ce qui est équivalent, du temps avant défaillance catastrophique.

S(t) = Prob { E délivre un service sûr sur [ 0, t ] }

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 17


1.6 LES MOYENS DE PROTECTION
Ils reposent sur deux approches différentes de lutte contre les défaillances :
- l'approche dite de l'intolérance aux pannes,
- l'approche dite de la tolérance aux pannes.

1.6.1 L'intolérance aux pannes


Le système est conçu avec l’idée de minimiser, voire d’éliminer par construction, la
possibilité d'apparition de défauts

Système intolérant aux pannes

Minimisation de l'occurence des


défauts

Privilégisation de la technologie

Conception
Qualité des surdimentionnement qualité de structurée et
composants des composants fabrication prudente

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 18


1.6.2 La tolérance aux pannes
La panne devient un événement naturel pour le système qui doit être
capable de réagir de façon à pouvoir assurer sa mission.

Le système délivre un service conforme au service spécifié, malgré la


présence d'une panne.

Système tolérant aux pannes

Minimisation de l'occurence des


erreurs

Choix d'une structure appropriée

Redondance Détection Localisation Restauration


structurelle des erreurs des pannes du système

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 19


TEST EN TEST HORS DETECTION LOCALISATION DIAGNOSTIC
LIGNE LIGNE D’ERREURS DE PANNES DE DEFAUTS

OBSERVATIONS
INTOLERANCE DEFAUT
AUX PANNES E
M N
O SURETE T
Y DE R PANNE
E A
FONCTIONNEMENT
N V
S E
TOLERANCE AUX S
PANNES ERREUR
ATTRIBUTS

FIABILITE DISPONIBILITE MAINTENABILITE SECURITE

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 20


2. EVALUATION DE LA SÛRETÉ DE FONCTIONNEMENT
2.1 Rappel sur les probabilités d’événements

2.1.1 Définitions

D1. Une expérience est qualifiée d'aléatoire si on ne peut prévoir par avance son
résultat et si, répétée dans des conditions identiques, elle peut donner lieu à des
résultats différents. Nous appellerons w le résultat d'une expérience et W l'ensemble
de tous les résultats possibles. W est l'ensemble fondamental ou encore l'univers de
tous les possibles.

Exemple : expérience aléatoire ---> lancé de deux dés

Ω = { ( 1, 1 ) ; ( 1, 2 ) ; ... ; ( 1, 6 ) ; ... ; ( 6, 6 ) }

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 21


D2. Un événement est une assertion ou proposition logique relative au résultat de
l'expérience.

Exemple : la somme des points est > 10. L'événement sera réalisé ou non suivant
que la proposition est vraie ou fausse, une fois l'expérience accomplie.

D3. Deux événements sont dits incompatibles si la réalisation de l'un exclut la

ensembles de réalisation de chacun des événements, sont disjointes : A ∩ B = ∅


réalisation de l'autre, autrement dit si les parties A et B de W, correspondant aux

D4. A1, A2, ..., An, forment un système complet d'événements si les parties A1, A2,
..., An, de W constituent une partition de W :

∀i ≠ j, Ai I A j = ∅

UA =Ω
i

Exemple :
Événement A : la somme des points est > 10
Événement B : la somme des points est < 7
Les deux événements A et B sont incompatibles

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 22


R1. Si A1, A2, ..., An, est un ensemble dénombrable d'événements incompatibles alors :

Pr ⎨U Ai⎬ = ∑ Ai
⎧n ⎫ n
⎩ i=1 ⎭ i=1
(1)

R2. Si deux événements A et B ne sont pas incompatibles alors :

Pr { A ∪ B } = Pr { A } + Pr { B } - Pr { A ∩ B } (2)

Dans l’expression Pr{A} + Pr{B} le terme Pr { A ∩ B } est compté deux fois

A B

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 23


Dans le cas de trois événements nous avons :

A B

Pr {A+B+C} = Pr {A} + Pr {B} + Pr {C} - Pr {A.B} - Pr{A.C} - Pr{B.C} + Pr{A.B.C} (3)

La formule générale pour un nombre quelconque d'événements a pour expression :

(4)

R3. Théorème des probabilités totales. Soit Bi un système complet d'événements,


alors

∀A : Pr{A} = ∑ Pr{A ∩ Bi}


n

i=1

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 24


2.1.3 Lois de probabilités conditionnelles, indépendance.

2.1.3.1 Les probabilités conditionnelles

Nous nous intéressons à la réalisation d'un événement A, tout en sachant qu'un


événement B est réalisé.

A B

1. Si A et B sont incompatibles alors A ne peut se réaliser.

2. Si A et B ne sont pas incompatibles alors A peut se réaliser. L'univers des possibles

réalisation de A à l'intérieur de B, c'est à dire A ∩ B par rapport à B.


n'est plus W tout entier, mais est restreint à B. Nous nous intéressons donc à la

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 25


Définition. Soit B un événement de probabilité non nulle. On appelle probabilité
conditionnelle de A sachant B (ou encore A si B) le rapport noté Pr{A / B} :

Pr { A B}
Pr { A / B } = (6)
Pr { B }

Exemple : on lance deux dés

Événement A = un des dés affiche 4


Événement B = la somme des points = 7

Calculer Pr{A/B}

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 26


2.1.3.2 Indépendance de deux événements

Définition. A est indépendant de B si Pr{A / B} = Pr{A}

La connaissance de B ne change pas les chances de réalisation de A.

Attention ! ne pas confondre les notions d’indépendance et d’incompatibilité

Deux événements sont incompatibles si la réalisation de l’un exclut la réalisation


de l’autre. Pr{A/B} = 0.
Lorsque deux événements sont indépendants, la réalisation de l’un n’exclut pas
la réalisation de l’autre et la réalisation de l’un n’influence pas la probabilité de
réalisation de l’autre. Pr{A/B} = Pr{A}.

Exemple d’événements indépendants : on lance deux pièces de monnaie.


Événement A : la pièce 1 affiche pile
Événement B : la pièce 2 affiche face

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 27


Propriétés :

P1. Si A est indépendant de B alors B est indépendant de A.

Prob { A B } (7)
P2. Si Prob{A / B} = Prob{A} alors = Prob{A}
Prob { B }

Prob { A B }
P3. Si Prob{B / A} = Prob{B} alors = Prob{B} (8)
Prob { A }

Au passage nous obtenons l'importante formule :

Pr{A ∩ B} = Pr{A} . Pr{B} (9)

La notion d'indépendance n'est pas une notion purement ensembliste comme


l'incompatibilité.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 28


1.3.3 Indépendance deux à deux et indépendance mutuelle.

Soient A1, A2, ..., An, des événements ; ils sont dits mutuellement indépendants si
pour toute partie I de l'ensemble des indices allant de 1 à n on a :

Prob { Ai } = Π Prob {Ai} (10)


I I
Remarque.

⎧n ⎫ ⎧n ⎫
∑ ∑
⎪ ⎪ ⎪ ⎪
Pr ⎨ Ai ⎬ = 1 − Pr ⎨ Ai ⎬
⎪⎩i =1 ⎪⎭ ⎪⎩i =1 ⎪⎭

⎧ n ⎫

⎪ ⎪
= 1 − Pr ⎨ Ai ⎬
⎪⎩ i =1 ⎪⎭

=1− ∏ Pr{Ai}
n

i =1

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 29


1.4 Les formules de BAYES

Elles ont pour but d'exprimer la Pr{A / B} en fonction de Pr{B / A}.

Première formule :
Prob { A / B } . Prob { B }
Prob { B / A } =
Prob { A }

La relation est obtenue à partir de :

Prob { A B }
Prob{A / B} =

Prob{B / A} =
Prob { B }
Prob { A B }
Prob { A }
} ⇒ Prob{A/B} . Prob{B} = Prob{B/A} . Prob{A}

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 30


La deuxième formule est obtenue en considérant un système complet d'événements
B1, B2, … Bi, … Bn, et permet de calculer l’expression de Pr{Bi/A}.

D’après le théorème des probabilités totales (5) on a :

∀A : Pr{A} = ∑ Pr{A ∩ Bi}


n

i=1

Pr { A ∩ B1 } = Pr { A / B1 } . Pr { B1 }
D’après le théorème des probabilité conditionnelles (6) on a :

Pr { A ∩ B2 } = Pr { A / B2 } . Pr { B2 }

Pr { A ∩ Bi } = Pr { A / Bi } . Pr { Bi }

Pr { A ∩ Bn } = Pr { A / Bn } . Pr { Bn }

D’où l’expression :

∑ Pr{A ∩ Bi} = ∑ Pr{A / Bi}. Pr{Bi} = Pr{A}


n n

i =1 i =1
D’où la deuxième formule de Bayes :

Σ Prob{A / Bi} . Prob{Bi}


Prob { A / Bi } . Prob { Bi } (13)
Prob { Bi / A } =
i

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 31


Exercice. Dans une usine, trois machines fabriquent des boulons de même type. La
machine M1 produit 0,3% de boulons défectueux, la machine M2 produit 0,8% de
boulons défectueux et la machine M3 produit 1% de boulons défectueux. Pour
répondre à une commande de 1000 boulons, l’usine produit 500 boulons avec M1, 350
boulons avec M2 et 150 boulons avec M3. Le service de contrôle qualité tire un boulon
au hasard parmi les 1000. Le boulon étant défectueux, on demande de calculer la
probabilité pour qu’il provienne de M1, de M2 ou de M3.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 32


2.2 La fonction de probabilité ou fonction de distribution
Définition : La fonction p(t) qui prend les valeurs p(t1), p(t2), …, p(tn) est appelée fonction de
probabilité ou fonction de distribution. On utilise aussi l’écriture :
p(ti) = Prob [T=ti] qui se lit probabilité que la variable aléatoire T soit égale à ti.
La fonction de distribution

0,16

0,14

0,12

0,10

0,08

0,06

0,04

0,02

0,00

p(x)

Dans le cadre d’une étude de la fiabilité, T représente la durée de vie d’une entité, et p(t) est la
probabilité que la durée de vie de cette entité soit égale à t. Exemple :
p(12) = Prob [la durée de vie d’une entité = 12] = 0,14
Dans le cadre d’une étude de la maintenabilité, T représente la durée de réparation et p(t) est la
probabilité que la durée de réparation soit égale à t.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 33


2.3 La fonction de probabilité cumulée ou fonction de répartition

probabilité cumulée ou fonction de répartition : P[T ≤ ti] = Σ p(ti).


Définition : En cumulant les valeurs p(ti), on obtient une nouvelle fonction appelée fonction de

La fonction P[T > ti] = 1 – P[T ≤ ti] est dite fonction de répartition complémentaire.
La fonction de répartition

1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0

P[X<=x]

Dans le cas où T est la variable aléatoire associée à la durée de vie d’une entité, la fonction de
répartition représente la DEFIABILITE et on la note F(t). On l’appelle également la fonction de
DEFAILLANCE.
F(t) = Σ p(t) = P [ T ≤ t ] = P { E défaillante sur [0, t] }
Si T est la variable aléatoire associée à la durée de réparation d’une entité, alors la fonction représente
la probabilité que l’entité soit réparée sur [0, t]. Elle représente la MAINTENABILITE.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 34


Le même raisonnement que précédemment nous amène à la fonction de répartition complémentaire :
P [ T > t ] qui représente la probabilité que la durée de vie d’une entité soit supérieure à une date
donnée. Cette fonction représente la fonction de FIABILITE ou encore fonction de SURVIE. On la
note R(t).
R(t) = P [ T > t ] = 1 – F(t) = P { E non défaillante sur [0, t] }

LA FONCTION DE REPARTITION (LA FIABILITE) COMPLEMENTAIRE

1,0
0,9
0,8

0,7
0,6

0,5

0,4
0,3

0,2
0,1
0,0

P[X>x]

Lorsque T représente la variable aléatoire associée à la durée de réparation, cette fonction représente
l’IMMAINTENABILITE : P { E non réparée sur [ 0, t] }

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 35


Remarques :

R1. Les fonctions M(t) et F(t) sont croissantes monotones et varient de 0 à 1 sur l’intervale [0, +
∞[, de plus :

Lim F(t) = 1 Lim M(t) = 1


t +∞ t +∞

C’est une certitude que l’entité sera réparée et c’est une certitude que l’entité sera défaillante.

R(t) = 1 – F(t) = 1- ∑ p(ti )


R2.

ti ≤t

R(t-1) = 1 – F(t-1) = 1 – ∑ p (ti )


ti ≤t −1

R(t) – R(t-1) = -p(t)

p(t) = R(t-1) – R(t) = F(t) – F(t-1)

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 36


2.4 La fonction de probabilité conditionnelle
Si T est associée à la durée de vie, elle s’appelle la probabilité d’avarie
Si T est associée à la durée de réparation, elle s’appelle la probabilité de réparation
Définition : On appelle probabilité d’avarie, la probabilité conditionnelle qu’un équipement ayant
atteint une date t-1 sans avarie, ait une avarie dans l’intervalle de temps [t-1, t]. On note pc(t) cette
probabilité conditionnelle :
pc(t) = P { E défaillante sur ]t-1, t] / E non défaillante sur [0, t-1] }
Le théorème des probabilités conditionnelles permet de calculer :
P [ A / B ] = P [ A ∩ B ] / P [B]
Ce qui nous donne
P { E défaillante sur ]t - 1, t] et E non défaillante sur [0, t - 1] }
pc(t) =
P { E non défaillante sur [0, t - 1] }
Ce qui s’écrit encore
pc(t) = P [ E défaillante à t ] / P { E non défaillante sur [0, t-1] }
pc(t) = P [ T = t ] / P [ T > t-1 ]
pc(t) = p(t) / R(t-1)
pc(t) = [R(t-1) – R(t)] / R(t-1)

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 37


R(t − 1) − R(t )
R(t −1)
pc(t) =

La probabilité d’avarie donne une mesure du risque couru en maintenant en


service un équipement qui a atteint une date t de fonctionnement.

Dans le cadre d’une étude de la maintenabilité :


pc(t) = P { E réparée sur ]t-1, t] / E non réparée sur [0, t-1] }
ce qui conduit, en appliquant le même raisonnement que précédemment, au résultat
suivant :

M (t ) − M (t − 1)
1 − M (t − 1)
pc(t) =

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 38


2.4 La densité de probabilité

Définition : la densité de probabilité est défini par la relation :


Lim p(t+ Δ t)/ Δ t = j(t)
Δt 0

Application à la fiabilité et à la maintenabilité

Avec p(t + Δt) = R(t) – R(t + Δt)


Lim p(t+ Δ t)/ Δ t = Lim [R(t) – R(t + Δt)] / Δt = - dR(t) / dt
Δt 0 Δt 0

Or R(t) = 1 - F(t) d’où

-dR(t) / dt = dF(t) / dt = f(t)

La relation –dR(t) = f(t).dt représente la probabilité que la première défaillance de l’entité


survienne durant l’intervalle [t, t + dt]. La densité de probabilité est la fonction de probabilité qui
modélise la fonction de distribution (fonction statistique).

Dans le cas d’une étude de la maintenabilité


Lim p(t+ Δ t)/ Δ t = Lim [M(t + Δt) – M(t)] / Δt = dM(t) / dt = g(t)
Δt 0 Δt 0

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 39


2.4 Le taux instantané

Le taux instantané est défini par la relation :


lim pc(t) / Δt = pc(t) / dt = ρ(t)
Δt Æ 0
Dans le cas d’une étude de la fiabilité, ρ(t) s’appelle le taux d’avarie ou encore le taux instantané de
défaillance et il est noté λ(t) :
lim pc(t) / Δt = pc(t) / dt = λ(t)
Δt Æ 0
Interprétation :

Supposons qu’une entité ait déjà effectué t heures de service et qu’on veuille calculer la probabilité de
sa défaillance dans l’intervalle de temps dt qui suit.

L’expression pc(t) = λ(t) dt représente la probabilité qu’une entité ayant atteint l’age t sans
défaillance, ait une défaillance dans l’intervalle de temps ] t, t+dt].

λ(t) représente le taux de défaillance conditionnel instantané. La condition étant que le composant ait
déjà effectué t heures de service.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 40


Dans le cas d’une étude de la maintenabilité, ρ(t) s’appelle le taux instantané de
réparation et il est noté μ(t) :
lim pc(t) / Δt = pc(t) / dt = μ(t)
Δt Æ 0

Ainsi, μ(t) dt représente la probabilité qu’une entité ayant atteint la date t sans
réparation, soit réparée dans l’intervalle de temps ] t, t+dt ].

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 41


2.5 Relation entre λ(t) et R(t)

Nous avons vu, au cours du paragraphe 2.4 que :


Pc(t) = [ R(t-1) – R(t) ] / R(t-1)
D’où

R(t ) − R(t + Δt )
dR(t )
= - dt = λ(t)
Δt Δt.R(t )
pc(t )
lim = lim
R(t )
Δt Æ 0 Δt Æ 0

La relation entre λ(t) et R(t) s’écrit :

+ λ (t )dt = 0
dR(t )
R(t )

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 42


2.6 Relation entre μ(t) et M(t)

Le même raisonnement appliqué à l’étude de la maintenabilité, conduit à la relation suivante :

+ μ (t )dt = 0
d M (t )
M (t )

La résolution de l’équation différentielle du §2.5 fournit la relation suivante :

R(t) = k exp [- ∫ λ (t ).dt ]


t
0

La résolution de l’équation différentielle du §2.6 fournit la relation suivante :

∫0 μ (t ).dt
t
M(t) = 1 – k exp [- ]

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 43


Remarque sur λ(t)
La courbe en baignoire

Taux
instantané

λ(t)
de défaillance

λ0

Jeunesse Maturité Vieillesse

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 44


Dans le cas où on se situe dans la période où (t) = 0 = constante :

R(t) = k.exp [- 0t]

Si R(0) = 1 alors k = 1 et R(t) = exp [- 0t]

(t) R(t)

1
0

Ainsi, les fonctions caractéristiques de cette période sont :

La fonction de fiabilité : R(t) = exp [- 0 t]


La fonction de défiabilité : F(t) = 1 - exp [- 0 t] (fonction de répartition)
La fonction de densité de probabilité : f(t) = 0 exp [- 0 t] (fonction de distribution)

On dit que la variable aléatoire T (la durée de vie) est distribuée de façon exponentielle
Ou encore que la loi de distribution est de type exponentielle

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 45


La loi de Weibull :

Cette loi permet de représenter un grand nombre de distributions expérimentales. En


effet, elle est constituée de trois paramètres ( , , σ) grâce auxquels la loi peut être
ajustée de façon à représenter au mieux la fonction de distribution. Suivant cette loi,
nous obtenons les expression suivantes :

La fonction de densité de probabilité f(t) = ( t – ) -1/ σ exp [-(t – ) / σ ]


La fonction de Fiabilité R(t) = exp [-(t – ) / σ ]
Le taux instantané de défaillance (t) = ( t – ) -1/ σ

Remarques :

R1. Pour = 1, = 0, σ = 1 / 0 nous retrouvons (t) = 0 et R(t) = exp [- 0 t]

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 46


2.7 Etude de la Disponibilité
1. Introduction
Pour l’étude de la disponibilité, nous distinguons généralement trois classes d’entités :
l’entité n’est pas réparable,
l’entité est réparable et la réparation est entreprise lorsque l’erreur est détectée. A la fin
de la réparation, l’entité est remise en service en étant aussi proche que possible de son
état initial.
L’entité est en attente et elle est périodiquement testée.
Nous ne traiterons pas du dernier cas.
2. L’entité n’est pas réparable
Dans ce cas la disponibilité est réduite à la fiabilité puisque après l’occurrence de la
première défaillance, l’entité ne peut pas être réparée pour être remise en service. Nous

−λ 0t
noterons :
A(t) = R(t) = e
Dans le cas d’un taux de défaillance constant.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 47


3. L’entité est réparable
Une entité E est disponible à l’instant t+dt si :
- l’entité est disponible à l’instant t et n’a pas de défaillance sur l’intervalle ] t, t+dt] ou,
- l’entité n’est pas disponible à l’instant t et elle est réparée sur l’intervalle ] t, t+dt ]
Absence de
défaillance
EF

EF

HF Réparation

Ce qui s’écrit, sous forme d’équation :


A(t+dt) = Prob{ E non défaillante à l’instant t } x Prob { E non défaillante sur ]t, t+dt ] } +
Prob { E défaillante à t } x Prob { E est réparée sur ] t, t+dt ] }
Ou encore,
A(t+dt) = A(t) . [ 1 – (t) dt ] + [ 1 – A(t) ] (t) dt

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 48


λ (t) dt ] + [ 1 – A(t) ] μ (t) dt
A(t+dt) = A(t) – A(t) . λ (t) dt + μ (t) dt – A(t) . μ (t) dt
A(t+dt) = A(t) . [ 1 –

A(t + dt ) − A(t )
= – A(t) . λ (t) + μ (t) – A(t) . μ (t)
dt
Ce qui nous amène à l’équation différentielle suivante :

+ A(t ).[ λ (t ) + μ (t )] = μ (t )
dA (t )
dt
Déterminons maintenant l’expression de la disponibilité en fonction du temps, suivant

Nous considèrerons λ (t) = λ et μ (t) = μ


qu’à l’instant initial l’entité est disponible ou pas : A(0) = 1 ou A(0) = 0

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 49


Soit alors :

+ A(t ).[λ + μ ] = μ
dA(t )
dt

La Solution Générale de l’équation Linéaire et Homogène nous donne :

A(t) = k . exp [ -( λ + μ ).t ]

La solution particulière donne :

μ
A(t ) =
λ+μ

D’où la solution complète :

μ
A(t ) = + k .e − (λ + μ )t
λ+μ

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 50


Calcul de k à t = 0 :

A(0).(λ + μ ) − μ
k=
λ+μ
Pour A(0) = 0 nous obtenons :

μ
A(t ) = [1 − e − (λ + μ )t ]
λ+μ
Pour A(0) = 1 nous obtenons :

μ λ
A(t ) = + e − ( λ + μ )t
λ+μ λ+μ

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 51


A(t)

A(0) = 1

μ
λ+μ

A(0) = 0

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 52


μ
Remarques :

λ
1
lim A(t ) = = = =
λ+μ λ
1 MTTF
∞ 1+ + MTTF + MTTR
μ λ μ
t 1 1

μ
lim A(t ) = 1 − =1− =
μ +λ
MTTF MTTR
t ∞ MTTF + MTTR MTTF + MTTR

Ces deux relations caractérisent la disponibilité intrinsèque d’une entité, telle qu’elle a été
conçue. Lorsque l’entité est en phase d’exploitation, nous parlerons de disponibilité
opérationnelle qui tient compte de la logistique mise en œuvre pour maintenir cette entité
en état d’accomplir son service.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 53


4. La disponibilité opérationnelle

CARACTERISTIQUES INTRINSEQUES CARACTERISTIQUES D’EXPLOITATION

FIABILITE MAINTENABILITE POLITIQUE DE CONTRAINTES


MAINTENANCE D’EXPLOITATION

DISPONIBILITE LOGISTIQUE DE
INTRINSEQUES MAINTENANCE

DISPONIBILITE
OPERATIONNELLE

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 54


La disponibilité intrinsèque se calcule de la façon suivante :

Do =
TCBF
TCBF + TCI

Où TCBF est le Temps Cumulé de Bon Fonctionnement


TCI est le Temps Cumulé d’Immobilisation

TCBF = MTTF + MUTi


n

i =1
TCI = Nc.MTTR + Np.MTTP

Nc : Nombre d’interventions de maintenance corrective


Np : Nombre d ‘intervention de maintenance préventive
MTTP : Mean Time To Prevent

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 55


COMPOSANT COMPOSANT REPARABLE
IRREPARABLE

λ (t) = λ0 λ (t) = λ0

VALEURS f ( t ) = λ0 exp ( - λ0t ) f ( t ) = λ0 exp ( - λ0t )


INSTANTANEES R ( t ) = exp ( - λ0t ) R ( t ) = exp ( - λ0t )
MTTF = 1 / λ0 MTTF = 1 / λ0
LIEES A LA SURETE
DE FONCTION-

μ(t)=0 μ ( t ) = μ0
NEMENT

g(t)=0 g(t) = μ0 exp ( - μ0t )


M(t)=0 M(t) = 1 - exp ( - μ0t )
MTTR = ∞ MTTR = 1 / μ0
A (t) = R (t) = exp ( - λ0t ) A(t) = A1 + A2 exp -( λ0 + μ0 )t
A'(t) = 1 - exp ( -λ0t ) A'(t) = A2 [ 1 - exp -( λ0 + μ0 )t ]
A1 = μ0 / ( μ0 + λ0 )
A2 = λ0 / ( μ0 + λ0 )
VALEURS LIMITES A (∞) = 0 A(∞)=A1= MTTF / ( MTTF+MTTR )
LIEES A LA SURETE A'(∞) = 1 A'(∞) =A2= MTTR / (MTTF+MTTR)
DE FONC-
TIONNEMENT

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 56


2.7 LES DUREES DE LA SURETE DE FONCTIONNEMENT

MTTF : Durée moyenne de fonctionnement d’une entité avant la première


défaillance (Mean Time To Failure)

MTTR : Durée moyenne de réparation (Mean Time To Repair)

MUT : Durée moyenne de fonctionnement après réparation (Mean Up Time)

MDT : Durée moyenne d’indisponibilité (Mean Down Time). Elle couvre les
phases suivantes : la détection de l’erreur, la réparation du défaut, la
remise en service.

MTBF : Durée moyenne entre deux défaillances consécutives d’une entité réparée
(Mean Time Between Failure)

Remise en service

1ère 2ème
Défaillance Défaillance

MTTF MDT MUT

MTBF

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 57


Calcul de la date moyenne d’apparition d’une avarie (le MTTF)
L’age moyen d’apparition de la première défaillance d’une entité est définie comme la
valeur attendue de la variable aléatoire T. Elle est obtenue en calculant la moyenne
pondérée des valeurs que prend T. Les poids sont les probabilités que ces valeurs soient
prises :

MTTF = t0 p(t0) + t1 p(t1) + … + ti p(ti)

∑ t. p(t )
t: p (t )>0
MTTF = (pour T discrète)

Et

∫0

MTTF = .
x. f ( x) dx

∫0 R( x).dx
On montre en intégrant par partie que

MTTF = (pour T continue)

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 58


calculer le MTTF dans le cas d’une loi exponentielle : R(t ) = exp(−λ 0t )
Exercice :

Calcul de la date moyenne d’apparition d’une réparation (le MTTR)


L’age moyen de réparation d’une entité s’obtient de la même façon que le MTTF.
Soit la relation :

∫0
MTTR = ∞ M ( x) dx . (pour T continue)

Calculer le MTTR dans le cas où μ(t) = μ0 = Cte


Exercice :

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 59


3. LA TOLERANCE AUX PANNES

3.1 Introduction

La tolérance aux pannes est vue comme une propriété de l'architecture du système, qui permet à la
machine logique d'accomplir ses tâches spécifiques correctement, du point de vue de l'utilisateur,
alors que son système physique, fait l'objet de divers types de pannes et de défaillances de
composants [4].

L'intérêt de construire des systèmes qui tolèrent les pannes remonte aux années 1940 où les
premières machines à calculer furent construites en utilisant des relais. Les fondements théoriques
sur l'impact des redondances ainsi que le développement formel des concepts du calcul tolérant les
pannes, remontent aux années 1950. Les premières architectures tolérantes aux pannes ont été
développées pour des applications limitées aux secteurs militaires, spatiaux, et des
télécommunications.

Les années 1980 ont vu le nombre des domaines d'application augmenter de façon considérable et
s'étendre jusqu'aux applications commerciales. Deux développements parallèles sont à l'origine de
l'intérêt porté aux calculateurs tolérants les pannes :
- la chute des coûts du matériel informatique,
- l'augmentation de la dépendance du public vis à vis des systèmes informatisés.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 60


Evolution de la Sûreté de Fonctionnement en Informatique

Facteur
UNIVAC 1 TANDEM
d'amélioration
Date de la mesure 1951 1987
Indisponibilité 0,17 2,8 . 10 -5 6,2 . 10 3
MTTF ( en heures ) 66 2,4 . 10 5 3,6 . 10 3
nb d'instructions 8 6
15
exécutées entre deux 4,7 . 10 2,6 . 10 5,4 . 10
arrêts matériels

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 61


3.2 LES DOMAINES D’APPLICATION

Quatre catégories d’application :


- les applications à sécurité critique,
- les applications à longue durée de vie,
- les applications à grande disponibilité,
- les applications commerciales.

3.2.1 Les applications à sécurité critique

Les Systèmes à Sécurité Critique (Safety Critical Systems en anglais) sont constitués
d’une partie commande numérique sur laquelle repose la sécurité du système et de son
environnement. Dans la plupart des cas, la commande est également « temps réelle ».
On retrouve ces systèmes dans les domaines : industriels, médicaux, du transport, etc

A titre d'exemple nous pouvons citer le cas de la navette spatiale dont le bon
fonctionnement dépend totalement de ses ordinateurs. Une mission en cours
d'exécution ne peut plus être avortée, si les calculateurs sont défaillants. La tolérance
aux pannes est obtenue en utilisant une architecture redondante constituée de cinq
calculateurs dont le principe est décrit ci dessous.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 62


S1
M1

S2
M2 Interface
de P.O
VOTE
puissance
S3
M3

S4
M4

Ci Vote
S5 Si
M5

Mi

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 63


3.2.2.- Les applications à longue durée de vie

Ce type d'application correspond à des missions où les équipements ne seront jamais maintenus, ou bien,
lorsque les dates d'intervention sont déterminées à l'avance et avec des espacements de trés longue durée.
Nous pouvons citer en exemple les vols spatiaux non habités où les architectures informatiques sont
fortement redondantes de façon à maintenir un niveau de performance minimum jusqu'à la fin de la
mission. Ces systèmes n'occupent pas forcément une fonction à caractère critique.

L' "Orbiting Astronomical Observatory" ( OAO ) illustre ce type d'application où les concepteurs ont
implanté quatre copies de chaque composant discret : résistances, capacités, transistors. Le tout étant
organisé suivant un réseau qui peut tolérer tout défaut unique de type court-circuit ou circuit ouvert.

3.2.3 Les applications à grandes disponibilité

Elles correspondent à des missions où un arrêt temporaire de la fonction en question peut être toléré. Nous
pouvons citer en exemple le cas d'un système de commutation téléphonique conçu par un laboratoire de
"Bell Telephon" ; le cahier des charges précisait que l'indisponibilité ne devait pas dépasser deux heures,
pour une durée de service de quarante ans.

3.2.4 Les applications commerciales

Les applications où les accès aux informations en ligne tels que les réservations d'hôtels, d'avions et de
trains, sont les principales responsables de l'emploi de telles architectures.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 64


3.3 LES STRATEGIES DE LA TOLERANCE AUX PANNES

SYSTEME TOLERANT
AUX PANNES

DETECTION REDONDANCE REDONDANCE


D’ERREUR STATIQUE DYNAMIQUE

3.3.1 La détection d'erreur

En tant que telle, elle ne fournie pas de la tolérance aux pannes mais elle permet
de générer des alarmes, lorsqu'une défaillance apparaît. La détection d'erreur peut
être mise en œuvre aux moyens de différentes techniques parmi lesquelles nous
pouvons citer : la duplication, les codes détecteurs d'erreurs, les auto - tests,
l'emploi de watch dog, ...

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 65


S1
M1
Entrée Sortie valide si
Comparateur S1 = S2

M2
S2

Alarme si S1 <> S2

b7 b6 b5 b4 b3 b2 b1 b0
INFORMATION 1

INFORMATION 1bis

b7 b6 b5 b4 b3 b2 b1 b0
INFORMATION 1

b3 b2 b1 b0 b7 b6 b5 b4
INFORMATION 1bis

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 66


PARITE PAIRE PARITE IMPAIRE

INFORMATION CONTROLE INFORMATION CONTROLE

0 0 0 0 0 0 0 0 0 1

0 0 0 1 1 0 0 0 1 0

0 0 1 0 1 0 0 1 0 0

0 0 1 1 0 0 0 1 1 1

0 1 0 0 1 0 1 0 0 0

... ...

Nous obtenons, alors, les codages suivants :


a a ... a a b et a a ... a a b
n-1 n-2 1 0 p n-1 n-2 1 0 i

avec
a +a ... + a + a + b = Sp et a +a ... + a + a + b = Sim
n-1 n-2 1 0 p n-1 n-2 1 0 i

Sp et Sim sont appelés les syndromes du message. A l'émission Sp = 0 et Sim = 1. Si à la


réception, nous ne retrouvons pas ces valeurs, cela signifie qu'un erreur c'est glissée. Toute
fois, le fait de retrouver ces valeurs ne suffit pas à garantir qu'aucune erreur n'ait pu
intervenir. En effet, une double erreur dans le même message conserve la même parité.

En générale, il est préférable d'utiliser les codes à parité impaire afin de ne jamais rencontrer
la combinaison formée uniquement de zéros ; elle pourrait provenir de la défaillance
complète d'un composant.
12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 67
3.3.2 La redondance statique

Cette approche utilise des composants redondants pour masquer les effets d'un composant
défaillant. L'adjectif "statique" qualifie le fait que les copies redondantes sont connectées de
façon définitive. Les erreurs générées par les composants défaillants sont masquées par la
simple présence des autres copies du même composant. Sa mise en œuvre utilise, entre autres,
les techniques de type NMR/vote et codes correcteurs d'erreurs.

Le TMR : Triple Modular Redundancy

Le TMR est le cas particulier de la technique NMR où N est égale à trois. C'est Von Neumann
(1956) qui fût à l'origine de cette technique dont le principe est défini par la figure ci-dessous.

S1
MODULE 1

Entrée S2 Sortie
MODULE 2 VOTEUR

S3
MODULE 3
Sortie = Maj ( S1, S2, S3 )

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 68


Les codes correcteurs d'erreurs

Parmi l'ensemble des codes correcteurs d'erreurs, l'un des plus connus est celui de
Hamming (1957). Il permet de corriger une erreur simple et de détecter une erreur double,
suivant le nombre de bit de contrôle qu'on associe aux bits significatifs.
Considérons le cas où une information est codée sur quatre bits ( a3 a2 a1 a0 ) à laquelle
nous rajoutons trois bits de contrôle de parité ( b1 b2 b3 ) tels que :

b = a +a + a b + a +a + a =0=S
1 2 1 0 1 2 1 0 1
b = a +a + a ou encore b + a + a + a = 0 = S2
2 3 1 0 2 3 1 0
b = a +a +a b 3 + a + a + a = 0 = S3
3 3 2 0 3 2 0

où S1, S2, S3 représentent les trois syndromes du message émis M :

M = a3 a2 a1 a0 b3 b2 b1

A la réception, nous recevons le message M' = a3' a2' a1' a0' b3' b2' b1' et nous calculons
les syndromes :
b' 1 + a' + a' + a' = S' 1
2 1 0
b' + a' + a' + a' = S' 2
2 3 1 0
b'3 + a' + a' + a' = S' 3
3 2 0

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 69


L'analyse des syndromes nous donne, en posant S = S1 S2 S3 :

1. S = 000 ---> pas d'erreurs


2. S = 001 ---> erreur sur b3'
3. S = 010 ---> erreur sur b2'
4. S = 011 ---> erreur sur a3'
5. S = 100 ---> erreur sur b1'
6. S = 101 ---> erreur sur a2'
7. S = 110 ---> erreur sur a1'
8. S = 111 ---> erreur sur a0'

Ainsi, à partir d'une information codée sur quatre bits de façon irrédondante, le code de
Hamming à sept bits permet la correction automatique des erreurs simples mais ne permet pas
de détecter les erreurs doubles. Si nous voulions obtenir d'avantage d'informations de l'analyse
des syndromes, il faudrait augmenter le nombre de bits de contrôle.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 70


3.3.3 La redondance dynamique

Cette approche couvre les systèmes dont la configuration peut évoluer de façon
dynamique en réponse à une défaillance, ainsi que les systèmes qui utilisent la
redondance statique associée à de la détection d'erreur en ligne, ce qui autorise
une réparation en ligne. Le processus de reconfiguration est déclenché soit par un
mécanisme de détection d'erreur, interne à l'unité atteinte, soit par une détection
d'erreur au niveau de ses sorties ; il peut être exécuté de façon manuelle ou
automatique.

La duplication reconfigurable

"standby"

M1

Entrée Comparaison Sortie


Détection
Localisation

M2
Alarmes + informations
Actif de maintenance

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 71


Le TMR reconfigurable

La technique est similaire à la précédente, excepté que le voteur dispose de toutes les
informations nécessaires pour identifier le module défaillant.
Si nous associons à cette technique, une politique de maintenance corrective, nous pouvons
garantir le masquage de toute défaillance simple, intervenant sur l'un des modules Mi. La
restauration du système est alors assurer par l'action de maintenance.
Si le voteur est suffisamment "intelligent", nous pouvons faire en sorte qu'après
l'occurrence d'une défaillance sur l'un des Mi, le système se retrouve dans la configuration
de la duplication reconfigurable. L'architecture proposée est alors capable de masquer deux
défaillances consécutives, sans provoquer d'interruption de la mission, avant que
n'intervienne une action correctrice.

M1

Entrée Sortie
M2

M3
Voteur
+
localisation Alarmes + informations
de maintenance

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 72


Evaluation de la sûreté de fonctionnement des systèmes tolérants aux fautes (TD)

On souhaite effectuer une étude comparative sur les performances en terme de sûreté
de fonctionnement, entre une structure "simplexe" et une structure TMR (redondance
statique). La structure simplexe est constituée d'un module A et la structure TMR de
trois module A "identiques". Le "voteur" de la structure TMR réalise la détection
d'erreurs et le recouvrement. Soit R0 la fiabilité de chaque module A ; nous
supposerons que la fiabilité du "voteur" est égale à 1. On demande de :

1. Donner l'expression de la fiabilité de la structure TMR.


2. Chercher la condition sur R0 pour que RTMR soit supérieur à Rsimplexe.
3. Déduire la condition sur le temps.
4. Calculer le MTTF pour chaque structure.
5. Discuter et interpréter les résultats obtenus.

12/2/2008 EPUM - DGII - LSIS Jean-Marc Mercantini 73

Vous aimerez peut-être aussi