T-069 Supervivencia

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 142

Universidad Mayor de San Andrés

Facultad de Ciencias Puras y Naturales


Carrera de Estadı́stica

A
RP C

EN
JO
VERSITAS MA

S IS
D I VI A N D R E A
U NI

MODELO DE RIESGOS
PROPORCIONALES
LOG-LINEAL

Postulante: Ismael Caizana Martı́nez

Tutor: Lic. Dindo Valdez

La Paz, diciembre del año 2012


Universidad Mayor de San Andrés
Facultad de Ciencias Puras y Naturales
Carrera de Estadı́stica

MODELO DE RIESGOS
PROPORCIONALES
LOG-LINEAL

Tesis preparada por:

Ismael Caizana Martı́nez

Presentado a la Facultad de Ciencias Puras y Naturales de la


Universidad “Mayor de San Andrés”, en cumplimiento parcial de los
requisitos para optar el tı́tulo de:

Licenciatura en Estadı́stica

La Paz, diciembre del año 2012


.

Con mucho cariño a la memoria


de mi querido Padre:

Damazo Caizana Choque,

Y a mis princesitas:
Ariana Cammily y Rossela Resalı́a

i
Agradecimientos

Agradezco a Dios, mi familia, en especial a mi madre Sra. Inés


Martinez Quispe Vda. de Caizana, quien en todo momento supo
apoyarme y hacer posible mis estudios superiores. Agradezco a la
Institución que me formó como Estadı́stico; y, a quienes supieron
enseñarme en todo momento. A mi tutor Dindo Valdez (docente
de la Carrera de Estadı́stica de la Universidad Mayor de San An-
drés), quien supo guiarme en mi trabajo. También tendré siempre
presente la paciencia de los miembros de mi tribunal: M.sc. Rubén
Belmonte y al M.sc. Nicolás Chávez, por todas sus recomendaciones
y sugerencias, estoy muy agradecido.

ii
Índice general

Agradecimientos II

Resumen 1

1. INTRODUCCIÓN 2
1.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Planteamiento del Problema . . . . . . . . . . . . . . . . . . . 6
1.3. Planteamiento de Objetivos . . . . . . . . . . . . . . . . . . . 6
1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . 6
1.4. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. Técnicas Estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Metodologı́a Estadı́stica . . . . . . . . . . . . . . . . . . . . . 7
1.7. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . 12
1.7.1. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2. MARCO TEÓRICO DE LA INVESTIGACIÓN 14


2.1. Caracterı́sticas de los datos de Supervivencia . . . . . . . . 14

iii
2.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2. Tiempo de Supervivencia . . . . . . . . . . . . . . . . . . . 16
2.1.3. Censura y Truncamiento . . . . . . . . . . . . . . . . . . . 17
2.1.4. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.5. Truncamiento . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2. Distribución del Tiempo de Supervivencia . . . . . . . . . . 25
2.2.1. Función de supervivencia . . . . . . . . . . . . . . . . . . . 26
2.2.2. Función de probabilidad . . . . . . . . . . . . . . . . . . . 28
2.2.3. Función Riesgo . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.4. Función de vida media residual . . . . . . . . . . . . . . . 36
2.3. Modelos paramétricos comunes . . . . . . . . . . . . . . . . . 39
2.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.2. Modelo Exponencial . . . . . . . . . . . . . . . . . . . . . 40
2.3.3. Modelo Weibull . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.4. Distribución Log-normal . . . . . . . . . . . . . . . . . . . 42
2.4. Método de análisis paramétrico . . . . . . . . . . . . . . . . . 42
2.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.2. Función de verosimilitud . . . . . . . . . . . . . . . . . . . 43
2.4.3. Teorı́a de verosimilitud . . . . . . . . . . . . . . . . . . . . 45
2.5. Método de análisis no paramétrico . . . . . . . . . . . . . . . 47
2.5.1. Estimador de Kaplan y Meyer . . . . . . . . . . . . . . . . 47
2.5.2. Estimador del riesgo acumulativo: Bondad de ajuste . . . . 51
2.6. Dependencia de Variables Explicativas . . . . . . . . . . . . 52
2.6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.6.2. Modelo de vida acelerada . . . . . . . . . . . . . . . . . . 53

3. EL MODELO DE RIESGOS PROPORCIONALES LOG-LINEAL 59

iv
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.2. Representación de los Modelos de riesgos proporcionales . 60
3.2.1. Modelo sin variables explicativas . . . . . . . . . . . . . . 60
3.2.2. Modelo con variables explicativas . . . . . . . . . . . . . . 62
3.3. El modelo de riesgos proporcionales Log-lineal . . . . . . . 63
3.4. Inclusión de variables explicativas en el modelo . . . . . . . 64
3.4.1. Inclusión de variables explicativas cuantitativas . . . . . . 64
3.4.2. Inclusión de variables explicativas cualitativas . . . . . . . 64
3.5. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . 65
3.5.1. En ausencia de censura . . . . . . . . . . . . . . . . . . . . 66
3.5.2. En presencia de censura . . . . . . . . . . . . . . . . . . . 70
3.5.3. Con variables explicativas dependientes del tiempo . . . . 72
3.6. Estimación del vector de parámetros . . . . . . . . . . . . . 74
3.6.1. Vector de Puntuaciones . . . . . . . . . . . . . . . . . . . . 74
3.6.2. Matriz de Información . . . . . . . . . . . . . . . . . . . . 76
3.6.3. Estimador Puntual . . . . . . . . . . . . . . . . . . . . . . 79
3.6.4. Estimador por Intervalos . . . . . . . . . . . . . . . . . . . 79
3.7. Contraste de Hipótesis . . . . . . . . . . . . . . . . . . . . . . 81
3.7.1. Prueba de Puntuaciones . . . . . . . . . . . . . . . . . . . 81
3.7.2. Prueba de Wald . . . . . . . . . . . . . . . . . . . . . . . . 82
3.7.3. Prueba de Razón de verosimilitudes . . . . . . . . . . . . . 83
3.8. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.8.1. Residuos de martingala . . . . . . . . . . . . . . . . . . . . 85
3.8.2. Residuos de desviación . . . . . . . . . . . . . . . . . . . . 85
3.8.3. Puntuaciones . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.8.4. Residuos de Schoenfeld . . . . . . . . . . . . . . . . . . . . 88

v
4. APLICACIÓN 90
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.1. Población en estudio . . . . . . . . . . . . . . . . . . . . . 91
4.1.2. Definición y construcción de la variable de estudio . . . . . 93
4.2. Estimación de la Función de Supervivencia hospitalaria
por Kaplan y Meier . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3. Búsqueda del mejor modelo de Riesgos Proporcionales Log-
lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3.1. Identificación de las variables significantes . . . . . . . . . 97
4.3.2. Modelo con las variables más influyentes . . . . . . . . . . 103
4.3.3. Verificación del supuesto de proporcionalidad de las vari-
ables significantes . . . . . . . . . . . . . . . . . . . . . . . 104
4.3.4. Estructura del mejor modelo de riesgos proporcionales Log-
Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.4. Ajuste del mejor Modelo en los datos . . . . . . . . . . . . . 106
4.4.1. Singinificancia de las variables e interpretación de sus coe-
ficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4.2. Significancia del mejor modelo encontrado . . . . . . . . . 107
4.4.3. Estimación de la función de supervivencia hospitalaria ajus-
tado al mejor modelo . . . . . . . . . . . . . . . . . . . . . 108
4.4.4. Comparación con la estimación de Kaplan y Meier . . . . 109
4.5. Verificación de los supuestos del Modelo . . . . . . . . . . . 110
4.5.1. Supuesto de riesgos proporcionales del modelo . . . . . . . 110
4.5.2. Supuesto de riesgos proporcionales para la variable ‘PESO-
EDZ’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.5.3. Supuesto de riesgos proporcionales para la variable ‘DIAS-
D-I’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.5.4. Identificación de los niños pobremente pronosticados por el
Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

vi
4.5.5. Influencia sobre la estimación de los coeficientes . . . . . . 113
4.5.6. Distribución de la variable ‘PESO-EDZ’ . . . . . . . . . . 115
4.5.7. Distribución de las ‘DIAS-D-I’ . . . . . . . . . . . . . . . . 116

5. CONCLUSIONES Y RECOMENDACIONES 117


5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.1.1. Respecto al modelo . . . . . . . . . . . . . . . . . . . . . . 117
5.1.2. Respecto los resultados obtenidos en la aplicación . . . . . 118
5.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 118

A. APÉNDICE 120
A.1. Propiedades asintóticas importantes . . . . . . . . . . . . . . 120
A.2. Análisis de los datos por el paquete ‘SPSS’ . . . . . . . . . 124
A.2.1. Identificación de las variables influyentes bajo la estructura
del model de Cox . . . . . . . . . . . . . . . . . . . . . . . 124
A.3. Análisis de datos por Software ‘R’ . . . . . . . . . . . . . . . 125
A.3.1. Kaplan y Meier . . . . . . . . . . . . . . . . . . . . . . . . 126
A.3.2. Modelo de riesgos proporcionales log-lineal . . . . . . . . . 127

vii
Índice de cuadros

4.1. Descripción de las variables . . . . . . . . . . . . . . . . . . . . . . 92


4.2. Descripción de nuevas variables . . . . . . . . . . . . . . . . . . . . 93
4.3. Valores resumen en la estimación de supervivencia por Kaplan y Meier 94
4.4. Función de supervivencia estimada mediante el estimador Kaplan-Meier 94
4.5. Variables establecidas al momento de la hospitalización . . . . . . . . 96
4.6. Codificación del las variable cualitativas . . . . . . . . . . . . . . . . 97
4.7. Estadı́stico de puntuación para las variables fuera del modelo ‘Paso 0’ 98
4.8. Estadı́stico de Wald para la variable ‘HOSPITAL’ . . . . . . . . . . . 99
4.9. Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 1’. 100
4.10. Estadı́stico de Wald para las variables HOSPITAL y DIAS-D-I. . . . . 100
4.11. Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 2’. 101
4.12. Estadı́stico de Wald para las variables HOSPITAL, DIAS-D-I y PESO-EDZ. 102
4.13. Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 3’. 102
4.14. Prueba de proporcionalidad para las variable significantes. . . . . . . . . 104
4.15. Prueba de significancia de las variables ‘DIAS-D-I’ y ‘PESO-EDZ’ . . . . 106
4.16. Significancia del mejor modelo encontrado . . . . . . . . . . . . . . 107
4.17. Función de Supervivencia estimado por el mejor modelo . . . . . . 108
4.18. Prueba de riesgos proporcionales para el modelo . . . . . . . . . . . 111

viii
Índice de figuras

2.1. Entradas escalonadas de 5 sujetos, a lo largo de un estudio que tiene una


duración de 20 años. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Censura tipo I para 5 sujetos en estudio. Con tiempos de supervivencia
X2 , X4 , X5 para los sujetos 2, 4, 5 respectivamente (δ = 1). Y tiempos de
supervivencia censurados a Cr para los sujetos 1 y 3 (δ = 0). . . . . . . 19
2.3. Censura tipo I generalizada para 4 sujetos. Con tiempos de supervivencia
X1 , X3 para los sujetos 1, 3 respectivamente (δ = 1). Y tiempos de su-
pervivencia censurados a Cr2 , Cr4 para los sujetos 2 y 4 respectivamente
(δ = 0). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Censura tipo 1 generalizada para 4 individuos reescalada al tiempo cero. . 21
2.5. Curva de Supervivencia. . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6. Curva de densidad de probabilidad. . . . . . . . . . . . . . . . . . . 30
2.7. Función riesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.8. Función riesgo de la distribución Weibull. . . . . . . . . . . . . . . . 41

3.1. La ocurrencia de 4 individuos a tiempo ti : i = 1, . . . , 4. Los conjuntos


de riesgo son: R(t1 ) = {1, 2, 3, 4}; R(t2 ) = {1, 2, 4}; R(t3 ) = {1, 4};
R(t4 ) = {1} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2. La ocurrencia de 4 individuos con censura. Donde: ‘•’ representa la
ocurrencia; ‘◦’ la censura. Las ocurrencias instantáneas son a tiem-
pos t1 , t2 , t3 con conjuntos de riesgos respectivos R(t1 ) = {1, 2, 3, 4};
R(t2 ) = {1, 4}; R(t3 ) = {1} . . . . . . . . . . . . . . . . . . . . . 71

4.1. Supervivencia hospitalaria estimada por Kaplan y Meier . . . . . . . 95

ix
4.2. Función de supervivencia estimado por el mejor modelo . . . . . . . 109
4.3. Eficiencia del mejor modelo de Cox sobre el estimador Kaplan y Meier 110
4.4. Prueba de riesgos proporcionales para la variable ‘PESO-EDZ’ . . . . . . 111
4.5. Prueba de riesgos proporcionales para la variable ‘DIAS-D-I’ . . . . . . . 112
4.6. Residuos de Desviación por Índice-niño . . . . . . . . . . . . . . . . 113
4.7. Influencia para la variable ‘PESO-EDZ’ . . . . . . . . . . . . . . . . 114
4.8. Influencia para la variable ‘DIAS-D-I’ . . . . . . . . . . . . . . . . . 114
4.9. Residuo de Martingala para la variable ‘PESO-EDZ’ . . . . . . . . . 115
4.10. Residuo de Martingala para la variable ‘DIAS-D-I’ . . . . . . . . . . 116

x
Resumen

El modelo de riesgos proporcionales log-lineal, mas conocido como


modelo de Cox, está diseñado para el análisis del tiempo hasta un
evento o tiempo entre eventos. Una o más variables explicativas
(o variables predictores, covariables), son usados para predecir
variables de tipo tiempo hasta la ocurrencia de un evento o suce-
so de interés. El ejemplo clásico de una variable respuesta es el
tiempo desde el diagnóstico de una enfermedad terminal hasta
que el caso de la muerte ocurre (de ahı́ el nombre de análisis de
supervivencia).
A diferencia de los modelos paramétricos, el modelo de riesgos
proporcionales log-lineal puede tratarse como un modelo semi-
paramétrico, puesto que no requiere el investigador conocer el
tiempo de sugerencia de referencia o tiempo de supervivencia ab-
soluto. Por esta razón, el modelo de riesgos proporcionales log-
lineal puede ser preferible a los modelos paramétricos.

1
Capı́tulo 1

INTRODUCCIÓN

1.1. Generalidades

1.1.1. Introducción

En un principio, cuando se estudiaban los éxitos de una determinada patologı́a,


se estudiaba, el tiempo transcurrido hasta el fallecimiento, de manera que se pre-
tendı́a conocer el tiempo de supervivencia. Con esta particularidad se ha general-
izado el término ‘Tiempo de supervivencia’ para englobar cualquier análisis en que
la variable respuesta sea;

T : Tiempo hasta la presencia de un evento o suceso de interés

El evento ó suceso de interés representa una variable categórica, habitual-


mente dicotómica lo que constituye una circunstancia muy frecuente y simple de
representar fenómenos en la naturaleza y ciencias de la vida: Si/no, Muerto/Vivo,
Presente/Ausente, etc. Se podrı́a decir que es caracterizado por un cambio cuali-
tativo brusco, sea beneficioso (éxito) o perjudicial (fracaso).
Entonces, de lo que se trata es: Analizar datos que tienen que ver con el
tiempo como combinación de si el evento o suceso de interés, tiene lugar o
no. Precisamente al conjunto de procedimientos estadı́sticos que permite analizar
este tipo de datos se lo conoce como ‘Análisis de Supervivencia’* .
*
Los antecedentes más lejanos se pueden situar en la elaboración de las tablas de mortalidad

2
Lo que hace que el análisis de supervivencia sea especial estriba en que las
respuestas son tiempos y por tanto no se miden igual que el resto de las variables.
Cualquier variable puede en general medirse instantáneamente, sin embargo, en
supervivencia las observaciones grandes tardan más tiempo en medirse que las
pequeñas. El hecho de que la variable respuesta ‘T ’ se mida secuencialmente, se
expone a la censura. La censura se da cuando se tiene información incompleta
sobre la supervivencia de algunos sujetos. Por ejemplo, si el evento o suceso de
interés es la muerte, todos aquellos sujetos vivos al finalizar el estudio contribuyen
una información parcial sobre la realización del evento o suceso, a saber, que el
tiempo hasta el mismo excede el periodo de observado. Esta ‘desinformación’
acarrea problemas técnicos considerables. La mayorı́a de los métodos usados en el
análisis de supervivencia presuponen que los individuos censurados están sujetos
a la misma probabilidad de presentar el evento o suceso de interés que los que
permanecen en estudio** . Nos podemos preguntar por qué tenemos censura y se
nos pueden ocurrir bastantes razones. Por ejemplo, porque finalizamos el estudio
antes de que hayan ocurrido todos los eventos o suceso de interés, o porque se
pierden el seguimiento del sujetos (perdida de seguimiento) si la persona emigra,
o si cambia de hospital y por tanto los sujetos no son observados durante el resto
de estudio, o porque el sujeto presenta eventos o sucesos ajenos al evento o suceso
de interés por ejemplo, si el evento o suceso de interés es: Muerte por cáncer
de pulmón. Un suceso ajeno a éste serı́a: Muerte por accidente de tráfico.
El análisis de este tipo de datos se hace más interesante, de como una serie
de factores (variables independientes) tienen efecto sobre la variable ‘T ’, en el
sentido de incrementarlo o decrementarlo. En este caso, es necesario llevar a cavo
el análisis bajo una forma de modelo matemático (tipo regresión) que permita,
valorar el efecto de dichos factores sobre el tiempo de supervivencia.
Un posible método, consiste en suponer que los tiempos de supervivencia
siguen una determinada distribución o función matemática. Para ello se plantea un
modelo de cómo evoluciona en función del tiempo la tasa de ocurrencia (ó ries-
go de ocurrencia). Las diferentes técnicas que se usan en este caso, son modelos
matemáticos de tipo regresión que permiten identificar y evaluar la relación entre
un conjunto de factores o variables independientes con la tasa de ocurrencia al
que el astrónomo Edmon Halley publicó a partir del registro de funerales y nacimientos de la
ciudad de Breslau1 (Siglo XVII ).
**
Ésta es llamada censura no informativa (más conocidos como censura por la derecha).

3
paso del tiempo.
El Análisis de Supervivencia, se ha convertido en una importante aplicación
de la Estadı́stica, debido a las diferentes aplicaciones que se ha podido encontrar,
en areas tales como: Demografı́a (probabilidad de muerte); Medicina (Probabilidad
de éxito de un tratamiento); Ingenierı́a (Probabilidad de falla), etc.

1.1.2. Antecedentes

Los datos de supervivencia se pueden dar y estudiar con dos tipos de proba-
bilidades diferentes: Supervivencia y Riesgo. Casi todos nosotros hemos visto
en alguna ocasión una curva de supervivencia. La “probabilidad de super-
vivencia” (también llamada, función de supervivencia ) el cual representa la
probabilidad de que un individuo sobreviva desde la fecha de entrada en el estu-
dio hasta un momento determinado en el tiempo. Estos valores van a describir
la supervivencia global de toda la población en estudio. Pero incluso más intere-
sante que la función de supervivencia, aunque menos conocida, es la “función
de riesgo”, denotado por h(t), el cuál se define como: La probabilidad de que
un individuo que está siendo observado en el momento t, experimente el evento
o suceso de interés en ese instante. Por ejemplo, nos da respuesta a la incógnita:
¿cuál es la probabilidad de que muera un paciente operado de cáncer de esófago a
los 16 meses de la operación, sabiendo que haya sobrevivido hasta ese momento?.
Hay que destacar las diferencias entre ambas probabilidades. Mientras que la fun-
ción de supervivencia se centra sobre todo en la “no ocurrencia” del evento (el
paciente no ha fallecido; o no ha recidivado), la función de riesgo se centra en
la “ocurrencia” del evento. Proporciona información tan valiosa como la tasa
de incidencia, es decir, puede contestarnos preguntas como ¿en qué momento voy
a tener el pico de ocurrencias? que pueden implicar cambios en nuestro quehacer
clı́nico diario. Si en el ejemplo del cáncer de esófago, la función de riesgo nos dice
que el pico máximo de muertes se sitúa alrededor de los 12 meses, podrı́amos
plantearnos un seguimiento más exhaustivo de los pacientes hacia los 8 meses,
con el objeto de detectarlas en una fase más precoz que ofreciera posibilidades
terapéuticas.
En el año 1958, Kaplan y Meier propusieron una metodologı́a para obtener
estimaciones puntuales de la función de supervivencia. Este método consiste en

4
descomponer la supervivencia al cabo de un tiempo en un producto de probabili-
dades condicionales, y estima cada uno de los factores de dicho producto. Si F(t),
es la función de supervivencia al cabo de t, el método de Kaplan y Meyer estima
ni − mi
F(t) mediante la estimación de los factores para todo los ti menores o
ni
iguales a t. Es decir:
Y ni − mi
F(t) =
t ≤t
ni
i

donde: ni y mi son respectivamente; número de individuos vivos y número de


individuos que experimentan el evento o suceso de interés en el momento ti .
Por otro lado, existen métodos más complejos que van más allá de solo com-
parar la forma funcional estimada de la distribución de T entre grupos. Estas
técnicas se basan en estimar la forma funcional de la distribución de T ajusta-
do a una serie de factores conocidos como variables explicativas. Una familia de
modelos es conocido como Modelos de Riesgos Proporcionales, cuya función de
supervivencia y riesgo son respectivamente:

F(t, x) = [F0 (t; φ)]ψ(x;β)


h(t, x) = h0 (t; φ)ψ(x; β).

donde F0 (t; φ) y h0 (t; φ) son conocidos, a partir del supuesto de que T sigue una
determinada función de distribución paramétrica (Exponencial, Gamma, Weibull,
etc.). Mientras que ψ(x; β) corresponde a una función paramétrica para el vector
X = (x1 , x2 , ...) (Lineal, Log-lineal, Logı́stico, etc.). Esta amplia familia de modelos
fueron estudiados por Aranda-Ordaz (1980) y Burridge (1981).
Bajo éstas caracterı́sticas, los modelos de riesgos proporcionales resultan com-
pletamente paramétricos, haciendo que el análisis de los datos sea mediante una
metodologı́a completamente paramétrica.
La aplicación de estos modelos, tiene dos vertientes, la primera como her-
ramienta de investigación no experimental, para medir un efecto de forma precisa
mediante el control de las variables de confusión y la modelización de las interac-
ciones, y la segunda como procedimiento para seleccionar variables predictoras y
construir un modelo (parsimonioso) que permita describir, explicar o predecir la
respuesta (T ) de los sujetos y también evaluar la contribución de cada una de las
variables predictoras.

5
1.2. Planteamiento del Problema

Si bien, los modelos de riesgos proporcionales completamente paramétricos, nos


permiten estimar la forma funcional de la distribución de T ajustado a una serie
de variables explicativas (expresados en vector X), a partir de la especificación
de una función de distribución básica para T y una función paramétrica para X.
Surge una cuestión; ¿Qué sucede si no queda especificada la función básica de T ?.
Esta interrogante se debe a que, por lo general, en estudios de supervivencia no
se puede establecer (a priori ) la forma funcional de distribución básica para T .
Por tal razón es necesario una metodologı́a alternativa para los modelos de
riesgos proporcionales, sin dar énfasis a la especificación de la forma funcional de
distribución básica para T . Es decir, buscar métodos que satisfagan las mismas
utilidades que brindan los modelos de riesgos proporcionales paramétricos.

1.3. Planteamiento de Objetivos

Una vez expuesto el problema central, se definen los siguientes objetivos que
se pretende con el presente trabajo.

1.3.1. Objetivo general

Desarrollar el Modelo de Riesgos Proporcionales Semi-paramétrico Log-lineal,


más conocido como: Modelo de Cox que permita analizar datos de supervivencia
sin la asunción de una distribución básica para T .

1.3.2. Objetivos especı́ficos

Establecer una base de datos para aplicar el modelo de cox, a partir de


información que se dispone de niños enfermos con diarrea que fueron hospi-
talizados y tratados en diferentes unidades de la ciudad de La Paz y El Alto.
Siendo la variable respuesta T : Tiempo de hospitalización hasta ser dada de
alta por curación, y una serie de variables independientes correspondientes
a caracterı́sticas fı́sicas y resultados de pruebas de laboratorio de los niños
al momento de ser hospitalizados.

6
Buscar el mejor modelo de Cox (modelo parsimonioso).

Mediante el mejor modelo de Cox encontrado, evaluar el grado de ajuste en


los datos.

Mediante el mejor modelo de Cox, estimar la función de supervivencia y


comparar con el enfoque de Kaplan y Meier, para evaluar estadı́sticamente,
la eficiencia sobre estos.

Contrastar los supuestos que conlleva el estudio del Modelo de Cox, en los
datos.

Identificar los niños mal pronosticados por el modelo de Cox.

Evaluar la forma funcional de los factores o variables explicativas cuantita-


tivos que conforman el mejor Modelo de Cox.

1.4. Hipótesis

Mediante el modelo de Cox, es posible ajustar un modelo que permita mejorar


la descripción, comprensión y predicción de la supervivencia hospitalaria de niños
enfermos con diarrea.

1.5. Técnicas Estadı́sticas

Las técnicas estadı́sticas que se utilizaran para nuestro objetivo, se sustenta to-
do lo que concierne a la teorı́a de probabilidad, análisis de regresión multivariante,
procesos estocásticos, teorı́a martingala, y análisis no paramétrico.
Por lo que, a partir de métodos se pretende el objetivo ya mencionado.

1.6. Metodologı́a Estadı́stica

El tiempo, no deja de ser una variable cuantitativa, que puede representar por
ejemplo; número de años, meses, semanas, etc,.. que quizá se pensarı́a estudiar

7
por métodos habituales tales como: Análisis de varianza o algunos modelos de
regresión. No obstante, en este tipo de análisis existen algunas particularidades
que se debe tomar en cuenta. En primer lugar, que la variable tiempo no acos-
tumbra seguir una distribución normal, y en segundo que, durante el seguimiento
existen pérdidas que imposibilitan la observación del suceso o evento estudiado.
Es decir, en un estudio de supervivencia, probablemente al finalizar el tiempo
de seguimiento no conoceremos el estado de los individuos bajo estudio, puesto
que algunos de ellos no completen el seguimiento (deciden dejar el estudio), otro
quizá no presenten el suceso o evento, y en otros que presentaron eventos o sucesos
ajenas a la que se estudia (evento o suceso de interés).
La metodologı́a de realizar un estudio de supervivencia, consiste en obtener una
función dependiente de tiempo, cuyos valores nos proporcionen la probabilidad de
que el suceso de interés no ocurra hasta pasado un periodo de tiempo mayor o
igual al que se esta evaluando. Por ejemplo, si el suceso o evento de interés es
muerte, se trata de obtener una función dependiente del tiempo, cuyo valor nos
proporcione la probabilidad de que no muera (sobreviva) hasta pasado un periodo
de tiempo mayor o igual a al que se está evaluando (un año, cinco años, etc.).
Para planificar correctamente un estudio de supervivencia, se debe definir
apropiadamente el origen o inicio de seguimiento, la escala de tiempo que se va ha
utilizar y el evento o suceso que se pretende estudiar para que no se introduzcan
suceso debidos a otras causas ajenas a la de interés.
Para centrar la exposición supongamos que el dato de interés es el tiempo hasta
la aparición de problemas microvasculares en un conjunto de pacientes diabéticos
tipo II hipertensos, en un estudio prospectivo durante 5 años. Escogemos inten-
cionalmente un ejemplo en el que el suceso no es el fallecimiento del paciente
para ilustrar precisamente el uso de estas técnicas fuera del ámbito del concepto
estricto de supervivencia.
La caracterı́stica más importante de este tipo de datos (tiempo hasta que ocurre
un suceso) es que, muy probablemente, al final del periodo de observación no
todos los pacientes habrán presentado el suceso objeto de estudio. Además puede
ocurrir que algunos pacientes se hayan perdido por causas diversas, no habiendo
sido posible determinar su estado. O cuando el suceso es la muerte pueden haber
fallecido por causas diferentes a las que se analizan (por ejemplo en un accidente
automovilı́stico).

8
También es habitual que los pacientes vayan incorporándose durante todo el
periodo de observación, por lo que los últimos en hacerlo serán observados durante
un periodo de tiempo menor que los que entraron al principio y por lo tanto la
probabilidad de que les ocurra el suceso es menor.
Es intuitivo que con este tipo de datos no podemos usar los métodos estadı́sti-
cos habituales para variables cuantitativas, como pueden ser el cálculo de medias y
su comparación mediante la t de Student. Ası́ en el ejemplo planteado ¿qué sentido
tendrı́a calcular el tiempo medio hasta la aparición de problemas microvasculares,
cuando no todos los pacientes han sido observados durante el mismo periodo y
además hay pacientes que no llegan a tenerlos? ¿Y qué hacemos con los pacientes
que no se observaron hasta el final?
Precisamente esas observaciones incompletas, todos los pacientes que hasta el
último momento en que fueron observados (bien sea al final del estudio o antes,
si se perdieron por alguna causa) y no habı́an desarrollado el suceso, tienen tam-
bién importancia, y el tiempo durante el que fueron observados debe intervenir
en el análisis. En la terminologı́a inglesa se les denomina denomina ”Censored
observations”(Observaciones censuradas).
Si todos los pacientes estudiados experimentan el suceso durante el periodo de
observación (en nuestro ejemplo todos en algún momento llegan a presentar proble-
mas microvasculares), es fácil calcular la proporción de pacientes que transcurrido
un tiempo determinado desde que comenzó su observación no han llegado a tener
problemas microvasculares. Podrı́amos representar gráficamente la proporción de
pacientes sin problemas en función del tiempo.
Pero las cosas no son tan sencillas si no todos los pacientes presentan el suceso.
Un paciente puede haber entrado a mitad del estudio, siendo observado durante
3 años, y al finalizar éste no presentar problemas microvasculares. No sabemos
entonces que habrı́a pasado con el paciente si lo siguiéramos 2 años más, hasta
completar los 5 años. Ahora ya no es tan simple determinar la proporción de
pacientes con problemas microvasculares a los 5 años desde la inclusión en el
estudio. Por ello se utiliza el denominado método de Kaplan-Meier, que se basa
en algo que es obvio: para sobrevivir un año hay que sobrevivir cada uno de los
dı́as de éste. Calculamos entonces para cada dı́a la proporción de sucesos que se
observan en ese dı́a.

9
Utilizando el concepto de probabilidad condicional decimos que para vivir 31
dı́as hay que vivir 30 dı́as y luego un dı́a más. En estadı́stica esto se calcula mul-
tiplicando las probabilidades. La probabilidad de vivir una semana vendrá dada
por
P1 ∗ P2 ∗ P3 ∗ P4 ∗ P5 ∗ P6 ∗ P7

Siendo P1 la tasa de supervivencia el primer dı́a, P2 la del segundo, etc. La tasa


de supervivencia para un dı́a dado, por ejemplo para el séptimo, se calcula como
el cociente entre el número de pacientes vivos el dı́a 7 (o que no experimentaron
el suceso) de entre los que estaban vivos el dı́a anterior, el 6. En nuestro ejemplo
donde dice número de pacientes vivos leemos número de pacientes sin problemas
microvasculares.
Ası́ que la supervivencia se calculará mediante la siguiente fórmula recursiva:
ri − mi
S(ti ) = ∗ S(ti−1 )
ri

para cada instante de tiempo la supervivencia se calcula como la supervivencia


en el instante anterior multiplicada por la tasa de supervivencia en ese instante. En
el denominador tenemos el número de pacientes r que continuaban en el estudio
en el instante anterior (expuestos al riesgo) y en el numerador a ese valor se resta
el número de pacientes m que presentan el suceso en ese instante.
A lo largo del tiempo van saliendo del estudio los pacientes que presentan el
suceso (Observaciones completos) y aquellos para los que finaliza la observación
por otras causas (Observaciones incompletos).
Los valores de la curva de supervivencia sólo hay que calcularlos para aquellos
momentos en los que se produce algún suceso, ya que en el resto de casos el numer-
ador y el denominador coinciden y por tanto el cociente vale 1 y la supervivencia
es igual que en el instante anterior, no cambia.
Si hay observaciones incompletas (censuradas o pérdidas) hacen que vaya cam-
biando el número de pacientes expuestos al riesgo, pero si en un instante determi-
nado sólo hay observaciones incompletas y no hay sucesos la curva de supervivencia
no cambia al ser m = 0, aunque r haya cambiado, lo que se tendrá en cuenta en
el siguiente instante en el que se observen sucesos ya que habrá menos pacientes
expuestos.

10
Aunque la tasa de supervivencia calculada en nuestra muestra para cada in-
stante individual es una estimación muy burda del valor verdadero, sin embargo
el producto de muchas de esas tasas constituye una estimación bastante precisa
de la curva de supervivencia.
La regresión de Cox consiste en obtener una función lineal de las variables
explicativas que permita estimar, en función del tiempo, la probabilidad de que
ocurra dicho suceso. Se supone que existe un conjunto de variables explicativas
X1 , X2 , ...., Xn , cuyos valores influyen en el tiempo que transcurre hasta que ocurre
el evento o suceso de interés. Si se define la función riesgo, h(t) como el limite
cuando dt tiende a cero, la probabilidad de que el evento o suceso de interés
ocurra en un pequeño intervalo (t, t + dt), supuesto que no ha ocurrido antes del
instante t. El modelo de riesgos proporcionales log-lineal se postula como:

h(t, X) = h0 (t) ∗ eβ
T
xj

Donde:
h(t, X) Es la función de riesgo o tasa instantánea de riesgo, considerando la
información del conjunto de variables, X = (X1 , X2 , ...., Xn )
h0 (t) Es la función de riesgo de referencia, pues no considera el efecto del
conjunto de variables, X1 , X2 , ...., Xn
Es decir se supone que la función de riesgo se puede expresar como el producto
de una función de t y otra función que únicamente depende de, X1 , X2 , ...., Xn .
Lo que hace el modelo de COX es promediar de manera ponderada los riegos,
o tasas instantáneas de riesgos h(t, X), de los diversos momentos t en los que
produce el evento o suceso de interés. Viene a ser como hacer muchas regresiones
logı́sticas, una para cada momento en que se observa algún suceso.
En la regresión lineal se estimaban los coeficientes por el método de mı́nimos
cuadrados, en cambio, en la regresión Logı́stica y la de COX no sirve el método
de mı́nimos cuadrados, y hay que hacerlos por otros métodos.

11
1.7. Alcances y Limitaciones

1.7.1. Alcances

Con el presente trabajo se pretende aportar a la sociedad, la caracterı́stica y


utilidad que brinda el modelo de riesgos proporcionales log-lineal, cuando se trata
de analizar datos de supervivencia.
El modelo de Cox, se puede utilizar para seleccionar variables más influyentes
y construir un modelo que nos permita describir, explicar y predecir datos de
supervivencia.
Si se logra ajustar datos de supervivencia mediante el modelo de cox, éste
puede ser útil para predecir la supervivencia de cualquier nuevo individuo en
razón de los valores registrados para las variables explicativas que conforman el
modelo, esto en cualquier punto del tiempo.
El modelo de Cox puede ajustar por múltiples variables (al igual que la re-
gresión múltiple o logı́stica). Pero en el análisis de supervivencia no bastarı́a una
regresión logı́stica comparando grupos a un tiempo determinado. Sólo la regresión
de Cox permite afirmar que una supervivencia más ventajosa puede ser atribuida
a un determinado tratamiento, porque, por ejemplo, comprueba que a igualdad de
edad, sexo, estado tumoral, etc, los pacientes que fueron tratados con trasplante
hepático sobrevivieron más en cualquier punto posible dentro del seguimiento que
ha existido en el estudio.

1.7.2. Limitaciones

El ajuste de los datos de supervivencia mediante el modelo de Cox, implica


cierta constancia o coincidencia en la razón de riesgos instantáneos (hazard ratio,
HR) a lo largo del perı́odo de observación. Es decir, si a los 3 meses el riesgo de
un grupo es el doble que el del otro, en los otros momentos del tiempo también
habrá una HR aproximadamente igual a 2. A este supuesto se le llama propor-
cionalidad de los hazards y de aquı́ viene el otro nombre que tiene la regresión de
Cox (proportional hazards model ). No serı́a lógico hacer un promedio de HR que
sean muy diferentes entre sı́. Si no se cumple el supuesto de riesgos proporcionales,
una alternativa consiste en incluir en el modelo un elemento de interacción entre

12
esa variable y el tiempo, donde que resulta una variable explicativa dependiente
del tiempo. Otra alternativa cuando no se cumple la hipótesis de riesgos propor-
cionales es construir un modelo en el que la función de riesgo base h0 (t) pueda
variar de forma diferente en cada grupo (en el caso de que la variable sea numérica
habrı́a que estratificar ).

13
Capı́tulo 2

MARCO TEÓRICO DE LA
INVESTIGACIÓN

2.1. Caracterı́sticas de los datos de Superviven-


cia

2.1.1. Introducción

En el análisis de supervivencia, el interés se centra en un grupo o varios grupos


de individuos para cada uno de los cuales (o del cual ) se ha definido un even-
to o suceso de interés particular, pudiendo ser beneficioso (éxito) o perjudicial
(fracaso). Normalmente el evento o suceso de interés suele ser perjudicial, es decir
fracaso, el cuál ocurre después de un tiempo llamado tiempo de éxito. El evento
o suceso de interés puede ocurrir a lo más una vez en cualquier individuo.
Las primeras aplicaciones de este método de análisis, se utilizaba como evento
o suceso de interés, la ‘muerte’ en pacientes con práctica quirúrgica. Consistı́a en
observar para cada paciente, el tiempo transcurrido desde la cirugı́a hasta el fall-
ecimiento, que daba lugar al conocimiento del tiempo de supervivencia. Es en este
sentido que se ha generalizado el término Tiempo de Supervivencia para englo-
bar cualquier análisis, en donde la variable de interés sea: tiempo transcurrido
hasta un evento o suceso de interés.
Ejemplos del tiempos de supervivencia incluyen el tiempo de vida de compo-

14
nentes de máquinas en fiabilidad industrial, la duración de huelgas o periodos de
desempleo en economı́a, los tiempos que toman los sujetos para completar tareas
especı́ficas en experimentación psicológica y comúnmente a los tiempos de super-
vivencia de pacientes en un ensayo clı́nico. Es importante tomar siempre en cuenta
que el análisis de supervivencia tiene un amplio campo de aplicación en cualquier
disciplina si es adecuadamente utilizado.
Para determinar el tiempo de supervivencia de forma precisa, son necesarios
tres requerimientos: un tiempo inicial, que debe estar definido inequı́vocamente;
una escala para medir el transcurso del tiempo que debe ser acorde a las necesi-
dades del estudio y finalmente, el evento o suceso de interés debe ser totalmente
claro.
Usualmente, existe una definición clara del final de observación, el inicio es
menos evidente. Por ejemplo, rara vez se conoce el momento exacto del inicio de la
enfermedad de un individuo, por lo que, la fecha de diagnostico es, a menudo, una
alternativa para resolver este problema (ejemplo de truncamiento por la izquierda).
Los objetivos básicos en los estudios de supervivencia son: la descripción y
resumen de los tiempos de supervivencia, usualmente mediante la estimación e in-
terpretación de las funciones de supervivencia y la de riesgo a partir de los datos,
la comparación de las distribuciones de los tiempos de supervivencia correspondi-
entes a dos poblaciones diferentes y el establecimiento y compresión de la relación
que pueda existir entre los tiempos de supervivencia y las variables explicativas.
Las variables explicativas deben estar disponibles para cada individuo, estas vari-
ables están pensadas para que estén relacionadas con la supervivencia. Por ejem-
plo, el tiempo de supervivencia de una máquina puede estar influenciado por el
esfuerzo ejercido sobre ésta, el material del cual está hecho, las sustancias con que
tenga contacto o la temperatura del área de trabajo en la cual funciona, por tanto,
estas condiciones mencionadas, pueden tomar el papel de variables explicativas en
la supervivencia de la máquina que será el sujeto de estudio. En practicas médicas,
es muy común que de forma rutinaria se colecte una gran cantidad de información
(capturada en variables) para cada paciente, dándose el investigador a la tarea
poco envidiable de resumir el efecto conjunto de estas variables explicativas, sobre
la supervivencia del paciente.

15
2.1.2. Tiempo de Supervivencia

El tiempo de origen debe ser definido de manera precisa para cada individuo.
Es también deseable que, sea sujeto a posibles variables explicativas, todos los
sujetos de estudio, sean tan comparables como sea posible en sus tiempos de
origen. El tiempo de origen no necesita ser y usualmente no está en el mismo
tiempo calendario para cada individuo. En la mayorı́a de los estudios se presentan
entradas escalonadas, de tal forma que los sujetos entran al estudio, a lo largo
de un periodo prefijado de estudio (duración de estudio), por tanto, el tiempo de
supervivencia para cada sujeto es medido desde su propia fecha de entrada. La
Figura2.1 lustra esta situación.

← inicio de estudio ← final de estudio

2
Sujeto

| | | | | Tiempo calendario
1990 1995 2000 2005 2010 (año)

Figura 2.1: Entradas escalonadas de 5 sujetos, a lo largo de un estudio que tiene una
duración de 20 años.

La evaluación de programas de examen para la detección de cáncer de seno


proporciona un ejemplo instructivo de las dificultades en la elección de un tiempo
origen. El propósito del examen es detectar la enfermedad en una etapa temprana
de su desarrollo, que de otra forma serı́a imposible. Incluso en la ausencia de un
buen tratamiento, se esperarı́a que las pacientes cuya enfermedad fue detectada
con el examen, sobrevivan más tiempo que las pacientes cuya enfermedad fue de-
tectada sin la ayuda de dicho examen. Este sesgo complica seriamente cualquier

16
comparación de los tiempos de supervivencia de los dos grupos. Quizá la única
forma satisfactoria para evaluar el efecto del examen en la reducción de la mortal-
idad, es comparar la tasa de mortalidad en el grupo en la que se realiza el examen
con el grupo que no tiene acceso a dicho examen.
La escala para medir el tiempo de supervivencia, normalmente es el tiempo
calendario (tiempo real ), aunque hay otras posibilidades, tales como el kilome-
traje con la que un auto es vendido, o longitud sin defectos en un hilo textil.
Siendo el ‘tiempo de supervivencia’ en el primer caso como; kilómetros recorrido
hasta su venta, y la longitud medida hasta el primer defecto en el segundo.
El significado del evento o suceso de interés debe ser definido de forma precisa.
En algunos ensayos clı́nicos, el evento o suceso de interés puede significar muerte,
muerte por una causa especı́fica como el cáncer de pulmón, la primera recurrencia
de una enfermedad después del tratamiento, o la incidencia de una nueva enfer-
medad. En algunas aplicaciones hay poca o ninguna arbitrariedad en la definición
del evento. En otras, por ejemplo, en algunos contextos industriales, el suceso se
define como el primer momento en el cual el desempeño, medido de alguna forma
cuantitativa, cae por debajo de un nivel aceptable previamente establecido.

2.1.3. Censura y Truncamiento

Los datos de supervivencia se pueden presentar en diferentes formas que, crean


problemas a la hora de analizarlos. Caracterı́sticas particulares que usualmente se
presentan son la Censura y el Truncamiento. En este trabajo se utilizará un
tipo particular de datos de supervivencia, es decir, datos que pueden presentan
censura por la derecha. Sin embargo, dada la importancia que tiene identi-
ficar las caracterı́sticas de los datos con que se puede trabajar en estudios de
supervivencia, se explica a continuación las caracterı́sticas y tipos de censura y
truncamiento, que pueden presentar los datos de supervivencia.

2.1.4. Censura

De forma general, la censura se hace presente cuando el individuo en estudio,


no llegan a presentar el evento o suceso de interés durante su permanencia en
estudio, ya sea porque fue perdido en algún momento del estudio o porque llegó al

17
final del estudio sin presentar el evento, esta situación hace que, sea imposible
observar de forma exacta el tiempo de supervivencia para éste individuo. Precisa-
mente, al tiempo de supervivencia (no observado) en éste caso, se lo denomina
tiempo de supervivencia censurado.
Hay varias categorı́as de censura, entre los principales: censura por la derecha,
censura por la izquierda y censura por intervalo.
Para identificar adecuadamente el tipo de censura que presentan los datos de
supervivencia, se tiene que considerar la forma en que han sido obtenidos éstos
datos. Cada tipo de censura puede corresponder a diferente función de verosimil-
itud, la cual puede ser la base para la inferencia en su modelización.

Censura por la derecha:

Primero se tiene que considerar la Censura Tipo I donde el evento o suceso de


interés solo será observado si éste ocurre antes de un tiempo predeterminado (que
indica el final del estudio), en caso contrario, corresponderá a una observación
censurada tipo I. Esto, independientemente del tamaño de muestra.
Un ejemplo de este tipo de censura se puede exhibir en un estudio de animales
que comienza con un número fijo de éstos, a los cuales se les aplica uno o varios
tratamientos, siendo la ‘muerte’ de los animales como evento o suceso de interés.
Debido al tiempo o por las consideraciones de costos, el investigador tiene que
terminar el estudio antes de que mueran todos los animales, sacrificando a los que
no han ‘muerto’. Los tiempos de supervivencia registrados para los animales que
murieron durante el periodo de estudio son los tiempos desde el inicio del estudio
hasta su muerte. Estos son llamados tiempos de supervivencia exactos. Los
tiempos de supervivencia de los animales sacrificados (vivos al final del estudio)
no son conocidos exactamente, pero son registrados como al menos la longitud
del estudio. Estas son llamadas tiempos de supervivencia censurados tipo
I. Algunos animales podrı́an perderse o morir accidentalmente y sus tiempos de
supervivencia hasta el momento de perderse o morir accidentalmente, son también
observaciones censuradas, pero no corresponden a la Censura Tipo I.
En la censura de tipo I es conveniente usar la siguiente notación. Para un in-
dividuo especı́fico en estudio, se supone que éste tiene un tiempo de supervivencia
X y un tiempo prefijado de censura Cr (Cr por el nombre en inglés right cen-

18
soring), donde las X’s para cada individuo se suponen como variables aleatorias
independientes e idénticamente distribuidas con función de densidad f (x). De este
modo, el tiempo de supervivencia exacto de un individuo puede ser conocido si
y sólo si X ≤ Cr . Si X > Cr , el individuo es un sobreviviente y su tiempo de
supervivencia es censurado en Cr .
Si X es el tiempo de supervivencia, y Cr el tiempo de censura definido inicial-
mente. Los datos del estudio pueden estar convenientemente representados por el
par de variables (T, δ), definido como:
(
(X, 1), si X ≤ Cr ;
(T, δ) =
(Cr , 0), si X > Cr .

Donde, δ es una variable indicadora de censura, y T es el tiempo de permanencia


en estudio, es decir, T = mı́n(X, Cr ). Por construcción cada T para cada individuo
es una variable aleatoria, como muestra la Figura2.2.

← inicio de estudio ← final de estudio


X1
1
Cr
X2
2
Cr
X3
Sujeto

3
Cr
X4
4
Cr
X5
5
Cr

0 T Cr

Figura 2.2: Censura tipo I para 5 sujetos en estudio. Con tiempos de supervivencia
X2 , X4 , X5 para los sujetos 2, 4, 5 respectivamente (δ = 1). Y tiempos de supervivencia
censurados a Cr para los sujetos 1 y 3 (δ = 0).

Cuando los sujetos de estudio tienen diferentes tiempos de censura, fijados


previamente, esta forma de censura es llamada: Censura Tipo I progresiva. Este
tipo de censura se puede representar mediante el siguiente ejemplo que presenta
dos diferentes tiempos de censura.

19
Supongamos que se tiene 20 ratones en un experimento donde el evento o suceso
de interés es la ‘muerte’. Suponga que se han marcado a 10 ratones de color rojo y
a los restantes 10 de color azul, de manera que se ha determinado a cada grupo de
ratones, tiempos de censura de 42 y 104 semanas respectivamente. De modo que
los ratones con marca roja que sobrevivan 42 semanas serán sacrificados, ası́ como
los ratones marcados de color azul que lleguen vivos a las 104 semanas.
Una forma de ampliar la perspectiva de la Censura Tipo I es cuando los
individuos entran al estudio a diferentes tiempos, y el punto terminal de estudio
predeterminado por el investigador es el mismo para todos. En este caso, el tiempo
de censura para cada individuo es conocido en el momento en que entra al estudio,
de manera que cada individuo tiene fijo y especificado su propio tiempo de censura.
Este tipo de censura ha sido denominado Censura de Tipo I generalizada, y es
ilustrado en la Figura2.3.

← final de estudio
X1
1
Cr1
X2
Sujeto

2
Cr2
X3
3
Cr3
X4
4
Cr4

tiempo de estudio

Figura 2.3: Censura tipo I generalizada para 4 sujetos. Con tiempos de supervivencia X1 , X3
para los sujetos 1, 3 respectivamente (δ = 1). Y tiempos de supervivencia censurados a
Cr2 , Cr4 para los sujetos 2 y 4 respectivamente (δ = 0).

Una representación conveniente de la censura de tipo I generalizada se da al


reescalar la entrada al estudio de cada individuo al tiempo cero como se muestra
en la Figura 2.4
Un segundo tipo de censura por la derecha es la Censura tipo II, en la cual
hay dependencia del tamaño de muestra ‘n’ y el número de eventos o sucesos de
interés observados. Aquı́, todos los individuos son puestos en estudio al mismo
tiempo y se da el término de éste cuando r de los n individuos han presentado el

20
X1
1
Cr1
X2

Sujeto
2
Cr2
X3
3
Cr3
X4
4
Cr4

0 T

Figura 2.4: Censura tipo 1 generalizada para 4 individuos reescalada al tiempo cero.

evento de interés. Donde r es un número entero positivo determinado previamente


por el investigador, tal que r < n.
La notación conveniente para este tipo de censura se presenta como sigue. Sean
x1 , x2 , . . . , xn los tiempos de supervivencia de los ‘n’ individuos y sean t1 , t2 , . . . , tn
sus respectivas estadı́sticas de orden. Entonces el final del estudio queda dado
de forma aleatoria por tr , la r-ésima estadı́stica de orden. Por tanto, (n − r)
observaciones serán censuradas y fijadas al tiempo tr . En este caso, el tiempo de
censura es aleatorio, pues (n − r) observaciones serán censuradas al tiempo dado
por la r-ésima ocurrencia del evento o suceso de interés, la cual no se sabe cuando
ocurrirá. De modo que esto marca una diferencia importante entre la Censura de
Tipo I y la Censura tipo II.
(
T ipoI, Determinı́stico;
Censura =
T ipoII, Aleatorio.

Una generalización de la censura tipo II es similar a la generalización en la


censura tipo I, con diferentes tiempos de censura. Esta es llamada censura tipo
II progresiva. Aquı́, el investigador debe fijar los siguientes elementos antes de
comenzar el estudio. Sea k (k números enteros positivos) el número de diferentes
tiempos de censura que se realizarán a lo largo del estudio en una muestra de
tamaño ‘n’. r1 , r2 , . . . , rk serán el número de sujetos que deberán presentar el
evento de interés para determinar el respectivo tiempo de censura y n1 , n2 , . . . , nk
(n1 + n2 + ... + nk = n) serán el número de individuos que deben estar fuera del

21
1
estudio a cada tiempo de censura. Con estos elementos, el estudio será realizado
de la siguiente forma:
Al presentarse los primeros r1 eventos de interés, n1 − r1 individuos serán
retirados de los n − r1 individuos sobrevivientes, quedando n − n1 individuos
en el estudio. Cuando se presenten las siguientes r2 eventos de interés, n2 − r2
individuos serán retirados de los (n − n1 ) − r2 individuos sobrevivientes, quedando
n − (n1 + n2 ) individuos en el estudio. Y ası́ sucesivamente hasta que al tener rk
eventos de interés de los n − (n1 + n2 + · · · + nk−1 ) = nk individuos sobrevivientes
en el estudio, los (n−n1 −n2 −· · ·−nk−1 )−rk = nk −rk individuos restantes serán
eliminados, dando por terminado el experimento. De este modo, si Ti denota el
tiempo del i-ésimo sujeto en presentar el evento de interés (lo cual excluye a los
sujetos removidos intencionalmente), los K tiempos de censura serán las variables
aleatorias Tr1 , Tn1 +r2 , Tn1 +n2 +r3 , . . . , Tn1 +n2 +...+nk−1 +rk .
La Censura tipo II progresiva puede ser representada mediante el siguiente
ejemplo. Suponga que se tienen 100 ratones en un experimento donde el evento
de interés es la muerte. Se definen K = 3 tiempos de censura, r1 = 15, r2 =
20, r3 = 30 el número de individuos que deberán presentar el evento de interés
para determinar el respectivo tiempo de censura y n1 = 30, n2 = 30, n3 = 40 el
número de individuos que deben estar fuera del estudio a cada tiempo de censura.
El primer tiempo de censura se dará cuando mueran 15 ratones, en ese momento,
se sacrifirán 15 ratones de los 85 vivos, continuando en el estudio 70 ratones.
El segundo tiempo de censura se dará cuando mueran 20 ratones de los 70 en
estudio, en ese momento, se sacrificarán 10 ratones de los 50 vivos, quedando 40
ratones en estudio. El tercer tiempo de censura será determinado cuando mueran
30 ratones de los 40 en estudio y se sacrificarán en ese momento los 10 ratones
supervivientes. De este modo, en el primer tiempo de censura se obtendrán 15
eventos y 15 censuras, en el segundo tiempo de censura se obtendrán 20 eventos
y 10 censuras, y en el tercer tiempo de censura se obtendrán 30 eventos y 10
censuras. Los tiempos de censura son: T15 , T50 , T90 .
Puesto que, tanto la censura tipo I como la censura tipo II, surgen a partir
una previa planificación del investigador. Se podrı́a decir que, estas censuras son
controladas por el investigador.
Otro tipo de censura es la Censura tipo III o también llamada Censura aleato-
ria. En este tipo de censura el investigador no tiene ningún control sobre la misma.

22
Las censuras pueden ocurrir porque el individuo abandona el estudio, experimen-
ta el evento pero ésta es ajena a la de interés. Por ejemplo, en un estudio donde
el evento de interés es ‘muerte por cancer de pulmón’. Un sujeto puede presen-
tar censura aleatoria si éste muere por accidente de trafico, o porque el individuo
abandona el estudio en algún momento de éste, de tal manera que el investigador
pierde acceso al sujeto.
Estos tres tipos de censura son clasificados como censura por la derecha, cuya
caracterı́stica es que el tiempo de observación es menor que el tiempo de super-
vivencia, sólo que este último no es observado.

Censura por la Izquierda

Un tiempo de supervivencia X asociado con un individuo especı́fico en el estu-


dio, es considerado censurado por la izquierda, si éste es menor que un tiempo de
censura Cl (Cl por el nombre en inglés ‘left censoring’)* . Esto es, que el evento
de interés le ha ocurrido al sujeto en estudio, antes de que el sujeto haya sido
observado por el investigador al tiempo Cl . Para estos individuos, se sabe que
han presentado el evento algún momento antes de Cl . El dato proveniente de una
muestra censurada por la izquierda puede ser representado por el par de variables
aleatorias (T, ), como:
(
(X, 1), si X ≥ Cl ;
(T, ) =
(Cl , 0), si X < Cl .

Donde,  es una variable indicadora de supervivencia o censura por la izquierda,


y T es el tiempo de permanencia en estudio, es decir, T = max(X, Cl )
Algunas veces, si la censura por la izquierda ocurre en el estudio, la censura por
la derecha puede ocurrir también y los tiempos de supervivencia son considerados
doblemente censurados. De nuevo, los datos pueden ser representados por un
par de variables (T, δ ∗ ), como.

 (X, 1),
 si Cl ≤ X ≤ Cr ;

(T, δ ) = (Cr , 0), si X > Cr ;

(Cl , −1), si X < Cl .

*
Cl : Tiempo desde inicio de estudio hasta el inicio de observación del individuo

23
Donde T = máx[mı́n(X, Cr ), Cl ] es el tiempo de permanencia en estudio y δ ∗ es
una variable indicadora de supervivencia (1), censura por la derecha (0) y censura
por la izquierda (-2).

Censura por Intervalo

Este es un tipo de censura más general que ocurre cuando el evento o suceso de
interés se sabe que ocurre solamente dentro de un intervalo. Este tipo de censura se
presenta cuando se tiene un estudio longitudinal donde el seguimiento del estado
de los sujetos se realiza periódicamente y por tanto, la ocurrencia del evento de
interés sólo puede conocerse entre dos periodos de revisión, generando un i-ésimo
j
intervalo de la forma (ri−1 , lij ) para cada sujeto j en el estudio.

2.1.5. Truncamiento

Una segunda caracterı́stica que puede presentarse en algunos estudios de su-


pervivencia, son los datos truncados. El truncamiento es definido como una condi-
ción que deberán presentar los sujetos en estudio para que el investigador pueda
considerar su existencia.
Cuando los datos presentan truncamiento, solamente los individuos a los que
les ocurre algún evento particular, antes del evento de interés o la censura, son
considerados en el análisis por el investigador.

Truncamiento por la Izquierda

Esto ocurre cuando los individuos entran al estudio a una edad en particular
(no necesariamente el origen del evento de interés), y son observados desde ese
momento (tiempo retrasado de entrada), hasta que el evento de interés ocurra o
hasta que el evento es censurado.
Si Y es el momento de ocurrencia del evento que trunca a los sujetos en estudio,
entonces para muestras truncadas por la izquierda, solo los individuos tales que
X ≥ Y serán considerados.
El tipo mas común de truncamiento por la izquierda ocurre cuando los indi-
viduos entran al estudio a una edad especı́fica y son observados por este tiempo

24
retrasado de entrada, hasta que el evento ocurre o hasta que el individuo es cen-
surado por la derecha. En este caso, todos los individuos que presenten el evento
de interés antes del tiempo retrasado de entrada, no serán considerados para
el experimento. Note que esto es opuesto a la censura por la izquierda, donde se
tiene información parcial de individuos que presentan el evento de interés antes
del instante de sus entradas al estudio, para truncamiento por la izquierda, estos
individuos no serán considerados para ser incluidos en el estudio.

Truncamiento por la Derecha

Esto ocurre cuando sólo los individuos que han presentado el evento de interés
son incluidos en la muestra y ningún sujeto que no haya presentado aún el evento
será considerado. Un ejemplo de muestras que presentan truncamiento por la
derecha, son los estudios de mortalidad basados en registros de muerte.

2.2. Distribución del Tiempo de Supervivencia

La distribución de la variable ‘tiempo de supervivencia’ puede ser especi-


ficar por al menos cuatro funciones básicas.

1. Función de Supervivencia

2. Función de densidad de probabilidad de Muerte

3. Función de Riesgo de muerte

4. Función de Vida media residual

Éstas funciones son matemáticamente equivalentes, en el sentido de que si una de


ellas es conocida, pueden derivarse a partir de ella, las otras tres. Otra función
relacionada con las anteriores es la función de riesgo de muerte acumulado que
puede resultar útil dentro el análisis de supervivencia.
En la práctica, las cuatro funciones básicas mencionadas pueden ser utilizadas
para ilustrar diferentes aspectos de los datos de supervivencia. Un aspecto básico
en el análisis de supervivencia, es la estimación de estas funciones a partir de los

25
datos muestrales y extraer inferencias acerca del patrón de supervivencia, muerte,
riesgo de muerte y vida media restante en la población.

2.2.1. Función de supervivencia

La función básica empleada para describir los fenómenos de tiempo-evento es la


función de supervivencia denotada por F(.), también llamada tasa de superviven-
cia acumulada. Esta función describe la probabilidad de sobrevivir a un tiempo
dado. Si T la variable aleatoria ‘Tiempo hasta la ocurrencia del evento o
suceso de interés’ (tiempo de supervivencia) con función de distribución F (t) y
función de densidad de probabilidad de ocurrencia f (t).

F(t) = P (T > t)
= P (El tiempo de supervivencia es mayor que t)
= P (El evento de interés ocurre más allá de t).

O visto de otra forma:

F(t) = P (T > t)
= 1 − P (T ≤ t)
= P (El tiempo de supervivencia es menor o igual a t)
= 1 − P (El evento de interés ocurre a lo más en t).

Por tales caracterı́sticas, F(t) es una función decreciente, tal que:


(
1, si t = 0;
F(t) =
0, si t → ∞.

Es decir, la probabilidad de sobrevivir al tiempo cero es uno (suceso seguro),


mientras que, la probabilidad de sobrevivir al tiempo infinito es cero (suceso
imposible).
Si T es una variable aleatoria continua, la función de supervivencia es la inte-
gral de la función de densidad de probabilidad f (t).
Z ∞
F(t) = P (T > t) = f (v)dv (2.1)
t

26
Para describir el recorrido de la supervivencia, se hace la representación gráfica
de F(t). Esta gráfica es llamada curva de supervivencia. Muchos tipos de curvas
de supervivencia pueden presentarse y analizarse de manera particular, pero es
importante notar que todas tienen las mismas propiedades básicas, son monótonas
no crecientes, igual a uno en cero y cero cuando el tiempo tiende a infinito. La tasa
de decrecimiento, varı́a de acuerdo al riesgo de ocurrencia del evento al tiempo
t pero es difı́cil determinar en esencia el modelado de ocurrencia solamente ob-
servando la curva de supervivencia. No obstante, el uso de esta curva representa
un análisis importante en la práctica, y es usual comparar dos o más curvas de
supervivencia para comprender el comportamiento que tienen entre ellas a lo largo
del tiempo.

(a) (b)

F (t) F (t )

1, 0 1, 0

0,5 0,5

|
1
|
2 2, 45
|
3
|
4
t
0, 35
|
1
|
2
|
3
|
4
t′

Figura 2.5: Curva de Supervivencia.

27
En la representación gráfica, una curva de supervivencia empinada, como la
que se muestra en la Figura2.5(b) representa baja tasa de supervivencia o corto
tiempo de supervivencia. Una curva de supervivencia plana o gradual como la
que se muestra en la Figura2.5(a) representa alta tasa de supervivencia o mayor
supervivencia. La curva de supervivencia puede ser utilizada para encontrar el
percentil 50 (la mediana) y otros percentiles o cantiles (por ejemplo el 25avo y el
75avo ) del tiempo de supervivencia. La mediana de los tiempos de supervivencia en
las curvas (a) y (b) de la Figura2.5 son aproximadamente 2,45 y 0,35 unidades de
tiempo, respectivamente. La media es utilizada para describir la tendencia central
de una distribución, pero en las distribuciones de supervivencia la mediana es
frecuentemente mejor, debido a que un pequeño número de sujetos con tiempo
de vida excepcionalmente largos o cortos va a causar que la media del tiempo de
supervivencia sea desproporcionadamente grande o pequeña.
Cuando los tiempos de supervivencia están agrupadas en intervalos o cuando
hacen referencia a unidades en números enteros positivos, entonces, T es una vari-
able aleatoria discreta. En éste caso, la función de supervivencia para la variable
aleatoria T está dado por:
X
F(ti ) = P (T > ti ) = f (tk ) (2.2)
tk >ti

2.2.2. Función de probabilidad

Como cualquier variable aleatoria, el tiempo de supervivencia T tiene una


función de probabilidad.
En el caso continuo esta función se la conoce como, función de densidad de
probabilidad y denotada como f (t). Su descripción surge de lo siguiente:
Z ∞
F(t) = P (T > t) = P (T ≥ t) = f (v)dv.
t

entonces:
d
f (t) = − F(t) (2.3)
dt
El resultado (2.3), muestra que f (t) es una función no negativa.

28
Además:
d
f (t) = − F(t)
dt
d
= − P (T ≥ t)
dt
P (T ≥ t + dt) − P (T ≥ t)
= − lı́m
dt→0 dt
P (T ≥ t) − P (T ≥ t + dt)
= lı́m
dt→0 dt
P (t ≤ T < t + dt)
= lı́m .
dt→0 dt
de donde.

f (t)dt = P (t ≤ T < t + dt) (2.4)


= P (El tiempo de supervivencia sea aproximadamente igual a t)
= P (El evento ocurre en un momento muy proximo a t)

La relación (2.4) muestra que el area con base dt y altura f (t) puede representar
de manera aproximada: La probabilidad de que el evento de interés, se haga pre-
sente en un momento muy proximo a t, si no es en t. De esta manera, la función de
densidad f (t) proporciona el cálculo de las probabilidades de ocurrencia en distin-
tos intervalos de tiempo infinitesimales de longitud dt. En consecuencia, se puede
encontrar la probabilidad de que un individuo experimente el evento de interés
en cualquier intervalo de tiempo y observar el pico de probabilidad más alto de
ocurrencia. Otra interpretación, la probabilidad de que el tiempo de superviven-
cia caiga en cualquier intervalo de tiempo y observar el pico de probabilidades del
tiempo de supervivencia mas frecuente.
Las funciones de densidad en la Figura2.6 corresponde a las funciones de super-
vivencia en la Figura2.5 F(t), F(t0 ) respectivamente. Estas funciones nos permiten
calcular, la probabilidad de que el evento ocurra, por ejemplo, en el intervalo de
tiempo (1,2). Esta probabilidad queda representado por el área sombreada que
aparece en las figuras respectivas.
Además, la función (b) describe un patrón de alta probabilidad de ocurrencia al
principio del estudio y una probabilidad baja de ocurrencia cuando se incrementa
el tiempo. Mientras que la función (a), el pico de probabilidad alta de ocurrencia
es a aproximadamente 2.8 unidades de tiempo.

29
(a) (b)
f (t) f (t′ )

1, 0 2

1
| |
2
|
3
|
4
t |
1
|
2
|
3
|
4
t′

Figura 2.6: Curva de densidad de probabilidad.

Si T , es una variable aleatoria discreta que toma valores fijos ti con i = 1, 2, ...,
con función de cuantı́a de probabilidad f (ti ) = P (T = ti ) donde t1 < t2 < · · · .
En el caso discreto, la función de probabilidad se denomina como función de
cuantı́a, y se define como:

f (ti ) = P (T = ti ) (2.5)
= P (El tiempo de supervivencia sea exactamente igual a ti )
= P (El evento o suceso e interés ocurre en el momento ti )

Es decir, la probabilidad de que el evento o suceso de interés, ocurra en el tiempo


ti y en ningún otro, o la probabilidad de que el tiempo de supervivencia sea
exactamente igual a ti .

2.2.3. Función Riesgo

Otra manera de especificar la distribución de la variable aleatoria T , es cono-


cido como función riesgo, denotado como h(t).
En el caso continuo, la función riesgo se define como:

P (t ≤ T < t + dt | T ≥ t)
h(t) = lı́m (2.6)
dt→0 dt

30
1
Esta función permite calcular la probabilidad de que el tiempo de supervivencia
sea aproximadamente igual a t, sabiendo que por lo menos es t, o la probabilidad
de que el evento ocurra en un momento muy próximo a t, puesto que, ocurre en
por lo menos t.
h(t)dt = P (t ≤ T < t + dt | T ≥ t) (2.7)
Una interpretación mas formal a la relación (2.7) es: El evento o suceso de interés,
solo requiere una duración de tiempo infinitesimal (es decir, casi instantánea)
para que ocurra.
La expresión más común para la función riesgo h(t) surge de desarrollar la
parte condicional de la ecuación, (2.6).
P (t ≤ T < t + dt)
h(t) = lı́m+
dt→0 P (T ≥ t).dt
1 P (t ≤ T < t + dt)
= . lı́m+
P (T ≥ t) dt→0 dt
f (t)
= (2.8)
F(t)
El resultado (2.8) muestra una relación de equivalencia entre las tres funciones de
la variable continua T . Si bien, la función riesgo h(t) queda expresada en función
de la densidad f (t) y la función de supervivencia F(t), es posible expresar tanto
f (t) como F(t) en términos de la función riesgo h(t). Esto es:
Tomando en cuenta (2.8) y (2.3), la función riesgo resulta:
d
− F(t) d
h(t) = dt = − ln F(t)
F(t) dt
puesto que F(0) = P (T ≥ 0) = 1, surge la función riesgo integrado H(t).
Z t
H(t) = h(u)du = − ln F(t)
0

Esto da lugar a expresar la función de supervivencia F(t) en función del riesgo


h(t), como:
Rt
F(t) = e− 0 h(u)du
= e−H(t) , (2.9)

Finalmente, tomando en cuenta las relaciones (2.9) y (2.8), la función de densidad


f (t) se puede expresar en función del riesgo h(t), como:

f (t) = h(t)e−H(t) (2.10)

31
Por ejemplo, si la función riesgo es constante con valor λ, es decir h(t) = λ; λ ∈ R.
Tanto la función de supervivencia F(t), como la de función de densidad f (t) son
respectivamente:
F(t) = e−λt , f (t) = λe−λt (2.11)
prácticamente se puede concluir que la variable aleatoria T se distribuye exponen-
cialmente.
La función riesgo es también conocida como tasa instantánea de ocurrencia,
fuerza de ocurrencia, tasa de ocurrencia condicional, tasa de ocurrencia a edad
especı́fica y demás nombres relacionados con el tema que se esté tratando y la
interpretación que se tenga dentro de éste. Es una medida de propensión a ocur-
rencia como una función de la edad del individuo en el sentido de que la cantidad
h(t)dt es de manera aproximada la probabilidad de que un individuo experimente
el evento o suceso de interés a la edad de t, o la proporción de individuos que
experimentan el evento o suceso de interés a la edad de t. Otra interpretación, la
probabilidad de que el tiempo de supervivencia de un individuo no exceda la edad
de t,
Gráficamente, la función riesgo describe la forma en que cambia la tasa in-
stantánea de ocurrencia de un evento de interés al paso del tiempo y la única
restricción para esta función es que tiene que ser no negativa, es decir h(t) ≥ 0.
La función de riesgo puede crecer, decrecer, permanecer constante o tener un pro-
ceso más complicado. En la Figura 2.7 se presentan las curvas de varios tipos de
función de riesgo.
Para ilustrar las funciones de riesgo se presentan algunos escenarios en la
Figura 2.7, siendo el evento o suceso de interés muerte por alguna causa especifica.
Por ejemplo, pacientes con leucemia que no responden al tratamiento tienen
una tasa de riesgo creciente h1 (t). Mientras que h2 (t) es una función de riesgo
decreciente que puede indicar el riesgo de soldados heridos por bala que fueron
sometidos a cirugı́a. El peligro principal es la operación misma y este peligro
decrece si la cirugı́a es exitosa. Una función de riesgo constante como en h3 (t) es
el riesgo de individuos saludables entre 18 y 40 años de edad.
cuyos riesgos principales de muerte son los accidentes. La llamada curva de
tubo de baño h4 (t) describe el proceso de vida humana, durante el periodo inicial
el riesgo es alto (alta mortalidad infantil ), subsecuentemente el riesgo permanece

32
h1 (t)
h(t)

h4 (t)
5

3 h3 (t)

2
h5 (t)
1
h2 (t)

0 t
0 1 2 3 4 5

Figura 2.7: Función riesgo.

aproximadamente constante hasta un cierto tiempo, después del cual crece debido
a fallas por deterioro. Finalmente, pacientes con tuberculosis tienen riesgos que se
incrementan inicialmente, luego decrecen después de tratamiento. Este incremento
y luego decremento se muestra en la función de riesgo h5 (t).
En el caso discreto, T es una variable aleatoria discreta que toma valores ti con
i = 1, 2, . . ., de tal manera que t1 < t2 < · · · ,. La función riesgo para el i-èsimo
valor de T , se define como:

h(ti ) = P (T = ti | T > ti−1 ) (2.12)

Esta función, calcula la probabilidad de que el evento de interés ocurra en el


instante de tiempo ti (es decir T = ti ), puesto que, dicho evento no ha ocurrido
hasta antes de ti (es decir, T > ti−1 ).

33

1
De manera análoga a (2.8), se tiene

h(ti ) = P (T = ti | T > ti−1 )


P (T = ti )
=
P (T > ti−1 )
f (ti )
= (2.13)
F(ti−1 )

Luego, como:
f (ti ) = F(ti−1 ) − F(ti )
en (2.13) se tiene,

F(ti−1 ) − F(ti ) F(ti )


h(ti ) = =1− (2.14)
F(ti−1 ) F(ti−1 )

despejando F(ti ) de (2.14)

F(ti ) = [1 − h(ti )]F(ti−1 ) (2.15)

Aplicando (2.15) en forma recursiva, podemos ver que:

F(t1 ) = [1 − h(t1 )]F(t0 ) = [1 − h(t1 )]


F(t2 ) = [1 − h(t2 )]F(t1 ) = [1 − h(t2 )][1 − h(t1 )]
F(t3 ) = [1 − h(t3 )]F(t2 ) = [1 − h(t3 )][1 − h(t2 )][1 − h(t1 )]
.. .. .. .. ..
. . . . .

En consecuencia, la función de supervivencia en función del riesgo para el i-èsimo


valor de T resulta:
Yi
F(ti ) = [1 − h(tk )] (2.16)
k=1

Luego, por (2.16) y (2.13) la función de densidad de probabilidad en función del


riesgo para el i-èsimo valor de T queda:
i−1
Y
f (ti ) = [1 − h(tk )]h(ti ) (2.17)
k=1

34
Función riesgo acumulado

La función de riesgo acumulado es denotada por H(t). En el caso continuo


corresponde a Z t
H(t) = h(v)dv
0

y en caso discreto
i
X
H(ti ) = h(tk )
k=1

Pero, esta relación tiene un inconveniente con la relación

F(t) = e−H(t)

pues esta definición no es cierta en el caso discreto, aunque es utilizado como un


aproximación, sucede que.

F(ti ) = e−h(t1 ) · e−h(t2 ) · · · e−h(ti ) .

Lo cual no corresponde con la relación entre F(ti ) y h(ti ) de la ecuación (2.16) en


el caso discreto. Por este motivo se prefiere definir a la función riesgo acumulado
en el caso discreto como:
i
X
H(ti ) = − ln[1 − h(tk )]
k=1

Expresión que está bien definida dado que 0 < h(ti ) < 1, pues
F(ti )
h(ti ) = 1 −
F(ti−1 )
y para los valores ti donde F(ti ) tiene sentido en el caso discreto, sucede que

F(ti−1 ) > F(ti )

De tal modo que

F(ti ) = e−H(t ) i

i
P
+ ln[1−h(tk )]
= e k=1

i
Y
= [1 − h(tk )]
k=1

35
Lo cual concuerda con la relación entre F(ti ) y h(ti ) de la ecuación (2.16) en
el caso discreto.
La función de riesgo acumulado en ambos casos, tanto el discreto como el
continuo, como su nombre lo indica, acumula el riesgo al paso del tiempo. De
tal manera que corresponde a una función creciente y de acuerdo a su forma de
incrementarse, se podrá tener información del comportamiento del riesgo a lo largo
del tiempo, lo cual es una ventaja en el análisis de supervivencia.
Hay varias razones por qué el hecho de considerar la función riesgo puede ser
una buena idea:

(i) puede estar pensado para considerar el riesgo inmediato que acosa a un indi-
viduo que está fı́sicamente vivo a edad t

(ii) de vez en cuando, comparaciones más profundos en grupos de individuos son


posible mediante riesgos instantáneos

(iii) los modelos basados en riesgo, son a menudo útiles cuando existe datos
censurados o cuando haya muchos tipos de fallas

(iv) comparaciones con una distribución exponencial son particularmente simple


en términos de riesgos

(v) el riesgo es la forma especial para el sistema solo ‘fracaso’ de la función de den-
sidad completa para los procesos del punto más detallados, esto es, sistemas
en que muchos puntos de eventos pueden ocurrir para cada individuo.

2.2.4. Función de vida media residual

La cuarta función básica en el análisis de supervivencia es la función de vida


media residual al tiempo t denotada como zmrl (t) (por el nombre en inglés ‘mean
residual life’ ). Para los sujetos con edad t, esta función mide la esperanza de
tiempo de vida restante, o el tiempo esperado antes de la ocurrencia del evento o
suceso de interés. Y queda definida por.

zmrl (t) = E[T − t | T > t] (2.18)

36
Para el caso continuo, por definición de esperanza condicional se tiene que
Z ∞
E[T − t | T > t] = (u − t)f (u | u > t)du
t
Z ∞
f (u)
= (u − t) I(t,∞) (u)du
t F(t)
Z ∞
(u − t)f (u)
= du
t F(t)
Por lo cual la función de vida media residual al tiempo t queda definida por
R∞ R∞
(u − t)f (u)du F(u)du
zmrl (t) = t = t
F(t) F(t)
Por lo que se puede apreciar que la vida media residual es el área bajo la curva
de supervivencia a la derecha de t dividida entre F(t). De tal modo que la vida
media cuando t = 0, es el área total de la curva de supervivencia, es decir:
Z ∞ Z ∞
zmrl (0) = F(u)du = uf (u)du
0 0
= E(u) = E(T )
= µ

donde, F(t = 0) = P (T ≥ 0) = 1.
Además, la varianza de T está relacionada con la función de supervivencia por:

V (T )) = E(T 2 ) − [E(T )]2


Z ∞ Z ∞ 2
= 2 uF(u)du − F(u)du . (2.19)
0 0

En el caso discreto, sea T = ti con i = 1, 2, . . .. La función de vida media se


define como:
zmrl (tr ) = E[ti − tr | ti > tr ]

donde,
∞ ∞
X X (ti − tr )f (ti )
E[ti − tr | ti > tr ] = (ti − tr )f (ti | ti > tr ) = .
i=r i=r
F(tr )

como, en el caso discreto.

f (ti ) = F(ti−1 ) − F(ti )

37
luego

X (ti − tr )[F(ti−1 ) − F(ti )]
=
i=r
F(tr )

X ti F(ti−1 ) − tr F(ti−1 ) − ti F(ti ) + tr F(ti )
=
j=r
F(tr )
P∞ ∞
P ∞
P ∞
P
ti F(ti−1 ) − ti F(ti−1 ) − ti F(ti ) + tr F(ti )
i=r i=r i=r i=r
=
F(tr )

P ∞
P ∞
P ∞
P
tr F(tr−1 ) + ti+1 F(ti ) − tr F(tr−1 ) − tr F(ti ) − ti F(ti ) + tr F(ti )
i=r i=r i=r i=r
=
F(tr )

P ∞
P
ti+1 F(ti ) − ti F(ti )
i=r i=r
= (2.20)
F(tr )

Por lo tanto, la función de vida media para el caso discreto resulta:



X (ti+1 − ti )F(ti )
zmrl (tr ) = . (2.21)
i=r
F(tr )

Si tr ≤ t < tr+1 para algún r = j. De forma análoga a (2.20), la función de


vida media resulta:

P
(tr+1 − t)F(tr ) + (tj+2 − tj+1 )F(tj+1 )
j=r
zmrl (t) = . (2.22)
F(tr )

38
2.3. Modelos paramétricos comunes

2.3.1. Introducción

Algunos tiempos de supervivencia pueden ser caracterizados por familias de


distribuciones especı́ficas que solo dependen de uno o varios parámetros descono-
cidos, los cuales proporcionan las caracterı́sticas especificas del modelo en estudio.
La selección de un modelo paramétrico es usualmente mediante la función de ries-
go, pues de acuerdo a la información que el investigador tenga del fenómeno que
causa la ocurrencia, puede determinar las caracterı́sticas que el modelo debe seguir
en la forma de la tasa de riesgo conforme avanza el tiempo. Por ejemplo, puede ser
que el riesgo de muerte de un paciente después de someterse a alguna cirugı́a sea
creciente las primeras horas y después (si sobrevive), su salud se estabilice hasta
lograr su recuperación. En este caso, una función de riesgo creciente en valores
pequeños del tiempo, que alcance un máximo y luego sea decreciente puede ser
conveniente para modelar este fenómeno.
Utilizar un modelo paramétrico es restrictivo en el sentido de que se pueden
exigir formas especı́ficas del riesgo en el tiempo. Por ejemplo, el modelo exponen-
cial que presenta riesgo constante, resultarı́a inadecuado para modelar el tiempo
que tarda un individuo en morir cuando se le ha detectado una enfermedad termi-
nal, pues en este caso, el riesgo debe ser claramente creciente. No obstante, puede
haber situaciones donde se tenga evidencia para suponer que el riesgo puede ser
constante en el tiempo, si fuera de interés modelar el tiempo que tarda en romperse
la cuerda del violı́n de un concertista, puede ser que éste dependa de la dificultad
de las piezas que el concertista tenga que tocar y el tiempo que invierta en prac-
ticar para perfeccionar el sonido, de modo que podrı́a pensarse que la falla de la
cuerda puede suceder en cualquier momento, independiente del tiempo que lleve
colocada en el instrumento.
Debido a los criterios mencionados para seleccionar los modelos paramétricos
adecuados, se presentan a continuación las distribuciones más comunes en modelos
de supervivencia y una explicación detallada de la forma de su función de riesgo
por la utilidad que ésta tiene en la selección del modelo.

39
2.3.2. Modelo Exponencial

La función de supervivencia está dada por

F(t) = e−λt , donde, λ > 0. (2.23)

Con función de densidad.


f (t) = λe−λt . (2.24)
y es caracterizado por su función riesgo constante.

h(t) = λ (2.25)

La distribución exponencial tiene la propiedad de perdida de memoria esperada


como.
P (T ≥ t − z | T ≥ t) = P (T ≥ t)
de la cual se sigue que la función de vida media residual es constante dada por:
1
zmrl (t) = E(T ) = . (2.26)
λ

De modo que el tiempo de ocurrencia de un evento no depende de lo que haya


sucedido en el pasado, esta propiedad también es conocida como: propiedad de
“no-aging” o como “old as good as new ”. La propiedad de pérdida de memoria
también es reflejada en la interpretación de la función de riesgo constante, donde
la probabilidad de falla a un tiempo t, dado que el evento no ha ocurrido antes,
no tiene dependencia sobre t. Además, la distribución exponencial ha sido históri-
camente popular, pues la tasa de riesgo constante aparece de forma restrictiva en
aplicaciones industriales y de salud.
Dado que la distribución exponencial es un caso particular de las distribuciones
Weibull y Gamma consideradas más adelante, hereda propiedades de estas dos
distribuciones.

2.3.3. Modelo Weibull

La función de supervivencia esta dada por.

F(t) = e−λt .
α
(2.27)

40
En esta distribución, λ > 0 es un parámetro de escala y α es un parámetro de
forma. La distribución exponencial es un caso particular cuando α = 1.
Su función de densidad viene a ser.

f (t) = αλtα−1 e−λt .


α
(2.28)

Y función de riesgo
h(t) = αλtα−1 . (2.29)

h(t) α = 3, λ = 2 × 10−3 .

0,3

0,2

0,1
α = 1, λ = 10−1 .

α = 12 , λ = 26 × 10−2 .
t
5 10 15

Figura 2.8: Función riesgo de la distribución Weibull.

41
Como se puede apreciar en la Figura2.8, esta función es convenientemente
flexible siendo creciente (cuando α > 1), decreciente (cuando α < 1) y constante
(cuando α = 1), lo cual favorece a modelar el tiempo de ocurrencia para distintas
formas del riesgo a través del tiempo. Es evidente que la forma de la distribución
Weibull depende del parámetro α, y ésta es la razón por la cual se le denomina
parámetro de forma.

2.3.4. Distribución Log-normal

Se dice que la distribución de una variable aleatoria T es log-normal, cuando la


distribución de su logaritmo (es decir, Y = ln(T )) tiene una distribución normal.
Su función de densidad queda completamente especificada por los parámetros
µ y σ, los cuales corresponden a la media y varianza de Y , y está dada por:

f (t) =
e− √
1 ln t−µ 2
2
( σ )
. − ∞ < µ < ∞, 0 ≤ σ < ∞ (2.30)
tσ 2π
La función de supervivencia está dada por:
ln t − µ
 
F(t) = 1 − Φ (2.31)
σ
donde Φ es la función de distribución acumulativa de una variable normal estándar.
La función de riesgo de la distribución log-normal tiene una forma de “joro-
ba”,dado que toma el valor cero al tiempo cero, después crece a un máximo y
decrece a cero cuando t tiende a infinito, esto se puede apreciar en la figura 2.5.
Esta distribución ha sido criticada para modelar tiempos de ocurrencia dado que
la función de riesgo es decreciente para valores grandes de t, lo cual es inaceptable
en muchas situaciones. El modelo puede ser factible cuando valores grandes del
tiempo no son de interés.

2.4. Método de análisis paramétrico

2.4.1. Introducción

Suponiendo que el tiempo de supervivencia T es caracterizado por una familia


especı́fica de distribución que depende del vector de parámetros desconocidos φ,

42
y para inferir φ, se dispone de una muestra de n individuos cuyos tiempos de
supervivencia para muchos o pocos de ellos son conocidos y para el restante son
censurados. Normalmente se escribe φ = (ω, λ), donde ω es el parámetro de interés
particular y λ el parámetro de ruido.
En este sentido, la inferencia del vector de parámetros φ, a partir de la dis-
posición de los tiempos censurados o no, correspondientes a los n individuos de la
muestra, se concentra en el método basado en la función verosimilitud.

2.4.2. Función de verosimilitud

Sea j, la clasificación de los individuos en una muestra de tamaño n, de tal


manera que j = 1, 2, . . . n.
En el caso de que T sea una variable aleatoria continua. Un individuo bajo
muestra cuyo tiempo supervivencia es conocido a t, aportará con f (t; φ) a la fun-
ción de verosimilitud, el cual proporciona la probabilidad de que éste individuo
experimenta el evento en un momento muy proximo a t. Por otro lado, un indi-
viduo bajo muestra cuyo tiempo de supervivencia es censurado a c, aportará con
F(c; φ) a la función de verosimilitud, el cual representa la probabilidad de que
éste individuo sobreviva al tiempo c.
Por lo tanto, la función de verosimilitud total a partir de una muestra de n
individuos independientes, clasificados con j será:
Y Y
L(φ) = f (tj ; φ) F(cj ; φ), (2.32)
j∈u j∈c

donde u es el conjunto de individuos para los cuales sus tiempos de supervivencia


son conocidos, mientras que c es el conjunto de individuos para los cuales sus
tiempos de supervivencia son censurados, de tal manera que card(u)+card(c) = n.
Aplicando logaritmo natural a (2.32), se tiene,
X X
ln L(φ) = ln f (tj ; φ) + ln F(cj ; φ) (2.33)
j∈u j∈c

Sea t∗j = mı́n(tj , cj ) el tiempo de seguimientos del j-ésimo sujeto hasta la


ocurrencia o censura observada. Entonces, la ecuación (2.33) en términos de t∗j

43
resulta: X X
ln L(φ) = ln f (t∗j ; φ) + ln F(t∗j ; φ)
j∈u j∈c

puesto que f (t) = h(t)F(t), luego:

X n
X
ln L(φ) = ln h(t∗j ; φ) + ln F(t∗j ; φ)
j∈u j=1

además ln F(t) = −H(t), ası́:

X n
X
ln L(φ) = ln h(t∗j ; φ) − H(t∗j ; φ)
j∈u j=1

Para finalizar, introduciendo r(u) = card{j; t∗j ≥ u}, el número de sujetos que
se encuentran aún en observación a tiempo u, se nota que ln L(φ) puede escribirse
X Z ∞

ln L(φ) = ln h(tj ; φ) − r(u)h(u; φ)du (2.34)
j∈u 0

Es claro que, solo por formalidad la integral es sobre el rango infinito, ya que
r(u) será cero después del ultima tiempo de supervivencia o censura observada. La
función integrando puede ser representado como el riesgo total operando a tiempo
u.
Estas expresiones para ln L(φ) enfatiza el rol fundamental que juega la función
riesgo en el desarrollo.
Ahora suponiendo que la variable T sea discreta, con valores pre asignados ti ,
donde t1 < t2 < · · · . El aporte a la verosimilitud de un sujeto cuyo tiempo de
supervivencia es conocido a ti , y de un sujeto cuyo tiempo de supervivencia es
censurado a ti son respectivamente:

f (ti ; φ) = P (T = ti ), F(ti ; φ) = P (T > ti )

En términos de la función riesgo discreto h(ti ; φ) dado por (2.17) y (2.16) son:
i−1
Y
f (ti ; φ) = h(ti ; φ) [1 − h(tk ; φ)]
k=1

44
i−1
Y
F(ti ; φ) = [1 − h(ti ; φ)] [1 − h(tk ; φ)].
k=1

Para deducir la verosimilitud total a partir de una muestra de n observaciones,


primero se colecciona todos los términos correspondientes al valores ti . Si hay di
ocurrencias entre los ri = r(ti ), la contribución del valor ti a la verosimilitud total
será.
[h(ti ; φ)]di [1 − h(ti ; φ)]ri −di
Luego el logaritmo de la verosimilitud total es
X
{di ln h(ti ; φ) + (ri − di ) ln[1 − h(ti ; φ)]} (2.35)
i

Note que este resultado se obtendrı́a de una serie de términos binomiales inde-
pendientes, con ri ensayos y probabilidad de ‘sucesos’ h(ti ; φ).
En la práctica, raramente se presentan distribuciones de supervivencia disc-
retas. No obstante, la presencia de datos pareados en distribuciones continuas se
presentan, cuándo se realiza la agrupación de los datos. Es decir, discretizando la
distribución continua.
La verosimilitud exacta de datos agrupados pueden derivarse: involucrando
integrales de la función de densidad sobre los intervalos agrupados.

2.4.3. Teorı́a de verosimilitud

Muchas aproximaciones son posibles para la extracción de información de φ a


partir del logaritmo de la función de verosimilitud (2.33) o (2.35). Si se dispone
de una distribución previa para el parámetro desconocido, los cálculos usuales de
la teorı́a Bayesiana llevan a la posterior distribución del parámetro de interés.
Note que en el caso φ = (ω, λ), es necesaria una distribución conjunta previa
acerca de los parámetros de interés ω y el parámetro innecesario λ. Si se usa
una teorı́a de muestreo adecuada, es posible desarrollar intervalos de confianza
‘exactos’ y pruebas tal vez eliminando el parámetro innecesario por un argumento
condicionado.
Los procedimientos más comunes, tiene que ver con la teorı́a de máxima
verosimilitud asintótica. Para esto, se dispone de tres amplios tipos de proced-
imientos asintóticos para probar la hipótesis nula H0 : ω = ω0 , a partir de ello,

45
encontrando un conjunto de confianza para ω como la colección de valores del
parámetro no ‘rechazado’ al nivel en cuestión.
Estos tipos son los siguientes:
(a) Primero, el uso del estadı́stico de Razón de verosimilitud (LR).

LR(ω0 ) = 2[l(ω̂, λ̂) − l(ω0 , λ̂ω0 )], (2.36)

donde (ω̂, λ̂) es el estimador máxima verosimilitud de (ω.λ) y λ̂ω0 es el estimador


máxima verosimilitud de λ cuando ω = ω0 . La función l(ω, λ̂ω ) a veces es llamado
el logaritmo de la verosimilitud del perfil ω. Bajo la hipótesis nula ω = ω0 , LR(ω0 )
tiene aproximadamente una distribución chi-cuadrada con pω = dim(ω) grados de
libertad. El intervalo de confianza correspondiente para 1 − α, es

{ω : LR(ω0 ) ≤ c∗pω ,α } (2.37)

donde c∗p,α es el punto α superior de la distribución chi-cuadrado con p grados de


libertad. Si la distribución asintótica es exacto, se tendrı́a E[LR(ω0 ); ω0 ] = pω . A
menudo es posible encontrar una expansión
c 1
E[LR(ω0 ); ω0 ] = pω [1 + + o( )]
n n
c
Entonces (1 + n ), con c si necesariamente es estimado consistentemente, es lla-
mado un factor de corrección Bartlett y las propiedades mejoradas son obtenidas
reemplazando LR por
LR
LR0 =
1 + nc
en (2.36) y (2.37). Sin embargo, para llevar a cabo tales cálculos en presencia de
censura, raramente es posible,
(b) Segundo, se puede hacer el uso directo del estimador máximo verosı́mil
ω̂. La matriz de información obtenido es la matriz menos las segundas derivadas
de l con respecto a (ω, λ), evaluados en (ω̂, λ̂). Se escribe vωω (ω̂, λ̂) que conduce
a la submatriz de la inversa de la matriz de información observada; Eso puede
registrarse como la matriz de covarianzas estimada de ω̂. Luego se puede usar en
lugar de (2.36) el estadı́stico Wald
−1
We (ω0 ) = (ω̂ − ω0 )T vωω (ω̂, λ̂)(ω̂ − ω0 ) (2.38)

que se distribuye aproximadamente chi-cuadrado con pω grados de libertad bajo


la hipótesis nula. La ecuación 2.38 las lleva directamente a una region de confianza

46
elı́ptica para ω, centrado en ω̂. Existen formas alternativas de estimar la matriz de
covarianzas, por ejemplo mediante esperanzas en lugar de las segundas derivadas
observadas del log de la verosimilitud. Si ω es un parámetro escalar, resulta el
intervalo de confianza simétrico

ω̂ − κ∗α υωω
1/2
(ω̂, λ̂), ω̂ + κ∗α υωω
1/2
(ω̂, λ̂),

donde Φ(−κ∗α ) = α
(c) Una tercera posibilidad es usar el gradiente de del lg de la verosimilitud
par ω0 , reemplazando λ por λ̂w0 , es decir calcular
 

Uw0 = l(ω, λ) (2.39)
∂ω ω=ω0 ,λ=λ̂w 0

Este vector es de pω × 1, cuando ω = ω0 , distribuido aproximadamente normal


−1
con media cero y matriz de covarianza υωω (ω, λ̂ω0 ). La prueba estadı́stica basado
en Uω0 es
PU (ω0 ) = UωT0 υωω (ω0 , λ̂ω0 )Uω0 (2.40)
Otra vez hay alternativas para evaluar la matriz de covarianza, y la distribución
bajo la hipótesis nula es aproximadamente chi-cuadrado con pω grados de libertad.

2.5. Método de análisis no paramétrico

Los métodos no paramétricos son técnicas alternativas flexibles frente a las


técnicas paramétricas, no requiere la especificación de la forma funcional de la
distribución de los tiempos de ocurrencia en ausencia de datos censurados. Estas
técnicas son la manera mas sencilla de representar datos de supervivencia, y se
basan mediante valoraciones gráficas para modelos complejos. Los más comunes
nos; Tabla de vida, Kaplan y Meyer (Lı́mite de productos).

2.5.1. Estimador de Kaplan y Meyer

Sea t1 , t2 , . . . , tg una colección de g puntos en el tiempo, de tal manera que


t1 < t2 < · · · < tg , además, sea que para estos puntos existe una posible función

47
de cuantı́a f (ti ); i = 1, 2, ..., g (función impropia). Luego, según el resultado (2.16)
la función de supervivencia a ti en función del riesgo es:
i
Y
F(ti ) = [1 − h(tk )]
k=1

Además, según el resultado (2.17) la función de cuantı́a al último punto tg ,


resulta:

f (tg ) = F(tg−1 )h(tg )


g−1
Y
= [1 − h(tk )].h(tg ), (2.41)
k=1
P
Las limitaciones f (ti ) ≥ 0, f (ti ) ≤ 1, simplemente obligan a 0 ≤ h(ti ) ≤ 1.
Un estimador no paramétrico de la función supervivencia es:
i
Y
F̂(ti ) = [1 − ĥ(tk )] (2.42)
k=1

donde ĥ(tk ) es el estimador máximo verosı́mil de h(tk ).


Según el resultado (2.35), el logaritmo natural de la verosimilitud para g puntos
coleccionados resulta:
g
X
ln L = {di ln h(ti ) + (ri − di ) ln[1 − h(ti )]} (2.43)
i=1

donde ri y di son el número de individuos en observación y el número de individuos


que experimentan el evento de interés en el punto ti respectivamente.
El logaritmo de la verosimilitud (2.43) es exactamente que para g binomiales
independientes, con ri ensayos, di ocurrencias y probabilidad de ocurrencia h(ti )
respectivamente. Luego, resulta que en la función de verosimilitud (2.43) el vector
de parámetros es el propio {h(ti )}, entonces podemos encontrar el estimador ĥ(ti )
que maximiza la función (2.43). Esto es:
∂ di ri − di di
ln L(hi ) = − = 0, ⇒ ĥ(ti ) =
∂h(ti ) h(ti ) 1 − h(ti ) ri

Con este resultado, la función de supervivencia estimada resulta:


i  
Y dk
F̂(ti ) = 1− (2.44)
k=1
rk

48
más conocido como estimador de Kaplan y Meier
El estimador de Kaplan y Meier llega a ser independiente de los puntos
tk para los cuales dk = 0. Puesto que, cuando dk = 0 para algunos tk , no tiene
relevancia en su forma funcional. De esta manera, el estimador de Kaplan y
Meier es solo dependiente de las ocurrencias observadas.

Estimación de la varianza

Si los posibles tiempos de supervivencia son fijados t1 , t2 , . . . , tg , y el mecanismo


de censura permite el número de ocurrencias di a cada ti el cuál, se incrementa
en la misma razón que el tamaño de muestra n, en consecuencia, se puede aplicar
la teorı́a de los números grandes habitual para realizar estimaciones por máxima
verosimilitud.
Considerando la función de supervivencia estimada.
i
Y
F̂(ti ) = [1 − ĥ(tk )], i = 1, 2, . . . , g
k=1

aplicando logaritmo natural, se tiene:


i
X
ln F̂(ti ) = ln[1 − ĥ(tk )]
k=1

Puesto que los puntos tk son independientes, la varianza resulta:


i
X
V{ln F̂(ti )} = V{ln[1 − ĥ(tk )]} (2.45)
k=1

Unos resultado muy importante:


Primero, sea f(x) una función de la variable aleatoria x. La varianza de f(x)
por aproximación a partir de la serie de taylor expresa
 2
d
V[f(x)] ≈ f(x) V(x) (2.46)
dx

49
di
Segundo, si ĥi = su varianza seria:
ri
 
di
V(ĥi ) = V
ri
1
= 2 V(di )
ri

además, recordemos que en cada punto ti , di ∼ Bin(ri , ĥi ), entonces:

V(di ) = ri ĥi (1 − ĥi )

Luego:
1
V(ĥi ) = ri ĥi (1 − ĥi )
ri2
ĥi (1 − ĥi )
= (2.47)
ri

Ahora bien; aplicando la aproximación (2.46) al primer miembro de (2.45),


tenemos: !2
1
V[ln F̂(t)] ≈ V[F̂(t)]. (2.48)
F̂(t)

de la misma manera, aplicando la aproximación (2.46) en el k-ésimo punto del


segundo miembro de (2.45), y tomando en cuenta el resultado (2.47) se tiene:
 2
1
V[ln(1 − ĥk )] ≈ V(ĥk )
1 − ĥk
2
ĥk (1 − ĥk )

1
=
1 − ĥk rk
dk
= (2.49)
rk (rk − dk )

Finalmente, bajo la relación (2.45) y tomando en cuenta los resultados (2.48)


y (2.49). Se concluye que la varianza de la función de supervivencia estimada al
punto ti queda:
i
2
X dk
V[F̂(ti )] ≈ [F̂(ti )] . (2.50)
rk (rk − dk )
k=1

Este resultado es conocido como: formula de Greenwood’s

50
A partir de F̂(ti ), se puede encontrar un intervalo para el valor verdadero
F(ti ). Esto es, F̂(ti ) se distribuye aproximadamente normal con media F(ti ) y
varianza el resultad (2.51). El intervalo de confianza para F(ti ) a un nivel de
confianza α: s
X dk
F̂(ti ) ± zα F̂(ti ) ı (2.51)
k=1
rk (rk − dk )

También se puede encontrar un intervalo para F(ti ), a partir de ln F̂(ti ).

2.5.2. Estimador del riesgo acumulativo: Bondad de ajuste

Como se menciono en la Sección 2.2 el planteamiento de la función riesgo


y riesgo acumulativo a menudo son útiles para evaluar el ajuste de una familia
paramétrica a partir de la distribución dado un conjunto de datados. Aunque, el
logaritmo natural del estimador Kaplan-Meier con signo negativo podrı́a ser usado
para estimar el riego acumulativo, con frecuencia es mas común tomar el riesgo
acumulado estimado como se sugirió en la ecuación (??):
X X di
Ĥ(t) = ĥi = (2.52)
i<t i<t
ri

Notar que si no hay datos de empates ni censura, de modo que {a1 , a2 , . . . , ag }


represente el tiempo de ocurrencia ordenada. Entonces, el riesgo acumulativo es-
timado hasta el k-ésimo (k = 1, 2, ..., g) tiempo de ocurrencia seria:
k
X 1
Ĥ(ak ) = enk =
i=1
n+1−i

el valor esperado del k-esimo estadı́stico ordenado en una unidad de muestra


exponencial.

51
2.6. Dependencia de Variables Explicativas

2.6.1. Introducción

En muchas investigaciones, el interés se centra en evaluar el efecto que causa


un conjunto de variables endogenos o exogenos de los individuos bajo investigación
en la variable tiempo de ocurrencia. Para esto, se pensarı́a en modelar (tipo
regresión) la variable tiempo de ocurrencia(variable respuesta).
Los modelos de regresión se basan en asumir un comportamiento conocido de
la variable respuesta (lineal, exponencial, etc,..) generar un modelo aproximado y
cuantificar la influencia de las variables explicativas. Esto mismo puede aplicarse
para modelar la variable tiempo de ocurrencia.
Sea X el vector de variables explicativas con dimensión q ×1. Las componentes
de dicho vector pueden representar tratamientos, definidos por variables indi-
cadoras, propiedades intrı́nsecas de los individuos, tales como, por ejemplo, la
edad, el sexo, caracterı́sticas individuales, o agrupaciones cualitativas de los indi-
viduos, o bien variables exógenos, como puede ser las propiedades ambientales.
Los componentes de X pueden ser sintetizados para examinar efectos de in-
teracción, de una manera que es ampliamente familiar del análisis de regresión
multiple y pueden ser clasificados también de otras maneras, en particular para
cada individuo constante ó dependientes del tiempo. Para muchas de las técnicas
estadı́sticas, los cálculos para variable explicativas dependientes del tiempo son
muy complicadas.
Uno de los procedimientos más convenientes de desarrollar un modelo, parte
precisamente de desarrollarlo en dos partes:

(a) un modelo para la distribución del tiempo de supervivencia en una situación


estándar, esto es, cuando X = 0

(b) una representación del cambio inducido por el vector X 6= 0, en términos de


alguna forma paramétrica.

Si ψ(x) denota una función que vincula al vector X a la supervencia: incrementan-


do ψ(x) siempre corresponde a incrementar el riesgo, es decir disminuye el tiempo
de ocurrencia (falla). Sea β el vector de parámetros que describe ψ(x).

52
En los siguientes modelos se considera una comparación simple de dos tratamien-
tos, correspondiente a una sola variable explicativa binaria, para luego ser obvio
su generalización.

2.6.2. Modelo de vida acelerada

(i) Forma simple.- Suponiendo que hay dos tratamientos representados por
los valores 0 y 1 de la única variable explicativa x. Sea la función de supervivencia
F0 (t) cuando x = 0; en el modelo de vida acelerada hay una constante ψ tal que
la función de supervivencia cuando x = 1, denotado por F1 (t) ó F(t; x = 1), es:

F1 (t) = F0 (ψt) (2.53)

en cuyo caso,
f1 (t) = ψf0 (ψt), h1 (t) = ψh0 (ψt) (2.54)
Reformulando (2.53), tenemos:

F(t1 ) = F(t0 = ψt1 )

Es decir, un individuo que tiene tiempo de supervivencia t bajo x = 0 tendrı́a


t
tiempo de supervivencia bajo x = 1, esto hace que las correspondiente variables
ψ
aleatorias queden relacionadas por:
T0
T1 =
ψ
De manera más general, con un vector constante arbitrario X = (x1 , x2 , . . . , xq )
de variables explicativas, se supone que hay una función ψ(x), tal manera que; la
función de supervivencia, densidad y la de riesgo sean respectivamente:

F(t, x) = F0 [tψ(x)]
f (t; x) = f0 [tψ(x)]ψ(x) (2.55)
h(t; x) = h0 [tψ(x)]ψ(x)

Si F0 (.) es referido a las condiciones normales X = 0, entonces ψ(0) = 1.


Una representación en términos de variables aleatorias es.
T0
T = (2.56)
ψ(x)

53
En problemas con un número limitado de valores de X, puede ser innecesario
especificar ψ(.) además. De lo contrario, una forma paramétrica para ψ(.) puede
ser necesario, en cuyo caso se escribe ψ(x; β). Puesto que ψ(x; β) ≥ 0, ψ(0; β) = 1,
un candidato por naturaleza es:
T
X
ψ(x; β) = eβ (2.57)

donde el vector parámetro β es de q × 1.


(ii) Algunos resultados importantes para verificar el modelo.- La
propiedad central del modelo de vida acelerada puede ser re-expresado de varias
formas de tal manera que pueda usarse como una base para probar la eficacia del
modelo.
(a)
En el problema de dos muestras se puede comparar quantiles. Se define t0 ,
(a)
t1 , para 0 < a < 1, por
(a) (a)
a = F0 (t0 ) =⇒ t0 = F0−1 (a)
(a) (a) (2.58)
a = F1 (t1 ) =⇒ t1 = F1−1 (a)

para que bajo (2.53)


(a)
(a) t0
t1 = (2.59)
ψ

Por simplicidad se tiene asumido en (2.58), que F0 (.) es estrictamente decre-


ciente, para que los quantiles sean singularmente definidos.
(iii) Variables explicativas dependientes del tiempo.- Ahora se supone
que la variable explicativa x es dependiente del tiempo, denotado por x(t), Nor-
malmente será conveniente definir x(t) para que el riesgo a cualquier momento
t solo dependan de la variable explicativa a ese momento. Esto puede involucrar
introducir como componente de x(t) sumas, integrales, derivadas y diferencias de
las variables explicativas.
La esencia del modelo de vida acelerada es que el ‘tiempo’ es contraı́do o
expandido relativamente para que x = 0. Esto sugiere que para un individuo
caracterizado por x(t), el tiempo t(x) se desplace relativamente a t(0) individuo
que haya sido caracterizado por x = 0 de acuerdo a:

t(0)
t(x) =
ψ[x(t(x) )]

54
derivando respecto a t(0) , se tiene:
dt(x) 1
=
dt(0) ψ[x(t(x) )]

para luego,
Z t(x)
(0)
t = ψ[x(u)]du = Ψ(t(x) ) (2.60)
0
se dice, para que los tiempos de ocurrencia se relacionen, en lugar de (2.56), según

T = Ψ−1 (T0 ) (2.61)

Notar, sin embargo, que el resultado de la aplicación de estas dos transformaciones


para T0 por lo general dependerán en el orden en que estos sean aplicados, para que
las combinaciones lineales de estas variables explicativas dependientes del tiempo
no obedezcan la relaciones conmutativas de la aritmética ordinaria
Ahora la función de supervivencia, densidad y la de riesgo resultan:

F[t; x(.)] = F0 [Ψ(t)]


f [t; x(.)] = ψ[x(t)]f0 [Ψ(t)] (2.62)
h[t; x(.)] = ψ[x(t)]h0 [Ψ(t)]

(iv) Generalidad del modelo dependiente de tiempo.- El modelo de


vida acelerada con variables explicativas dependientes del tiempo raramente se ha
usado en aplicaciones, hasta donde se conoce. Existe otro sentido, sin embargo en
que el uso de variables explicativas dependientes del tiempo convierten un modelo
muy particular en uno muy general. Considerando por simplicidad la comparación
de dos grupos y suponiendo que en lugar de una variable explicativa simple se
introduce; (
0, grupo 0,
x=
ξ(t), grupo 1.
donde ξ(t) es una función a ser escogida y se toma ψ(x) = ex . Luego por (2.62)
la función de supervivencia en el grupo 1 es F0 [Λ(t)], donde
Z t
Λ(t) = eξ(u) du.
0

Ası́ una función del sobrevivencia dada F1 (t) se reproduce tomando


d −1
eξ(t) = F F1 (t) (2.63)
dt 0

55
se asume que el sustento de F0 (.) se contiene en el de F1 .
Precisamente, una manera de producir una familia rica de modelos para el
problema de dos grupos es escribir para j = 0, 1, 2, ...., p

(
0, grupo 0,
xj = (2.64)
tj , grupo 1.
para algún valor conveniente de p y luego para tomar
T
X
ψ(X) = eβ (2.65)

donde β es un vector de parámetros q × 1, q = p + 1.


En muchos casos esta extensión del modelo de vida acelerada es una formalidad
sin significado fı́sico directo. Note que otras funciones poderosas pueden ser usadas
en (2.64) y que el argumento en principio se extiende a problemas más complejos
que la comparación de dos grupos.
(v) Varios tipos de fracaso.- Una posible explicación de la inconsistencia
en el modelo de vida acelerada, es la presencia de varios tipos de fracaso, cada uno
siguiendo un modelo de vida acelerada, pero con diferentes funciones que modifican
ψ. Como z varı́a, el equilibrio entre los tipos de fracaso cambia. Desde luego, si los
tipos de fracaso son observados, se puede construir un modelo mas detallado. Si los
distintos tipos de fracaso no son observados, esto algunas veces puede se fructifero,
hipotetizar un pequeño número de tipos de fracasos, para intentar deducir algo
sobre sus propiedades examinando los modelos simples, luego apuntar a los datos
extensos para ver si los tipos de fracaso hipotetizados tienen identidad fı́sica.
Suponiendo entonces que hay l tipos de fracasos, y que el tiempo de fracaso T
pueden ser representado como

T = mı́n(T1 , ...., Tl ), (2.66)

donde a z = 0 los Tj son variables aleatorias independientes con función de super-


vivencia F0j (.), posiblemente impropio. Considerando por simplicidad el caso de
una variable binaria simple z y suponer que a z = 1 la función de sobrevivencia
de Tj es F0j (ψj t), entonces
Y Y
F0 (t) = F0j (t), F1 (t) = F0j (ψj t)
j j

56
y sencillamente se sigue que
X X
h0 (t) = hoj (t), h1 (t) = ψhoj (ψj t) (2.67)
j j

(vi) Caso paramétrico.-


Hasta ahora la función de sobrevivencia F0 (.) a X = 0 no ha sido especificado.
Si ahora se toma F0 (.) como miembro de cualquier familia paramétrica, se obtiene
una familia especial de modelos de vida acelerada. Si además, ψ(.) es especificado
paramétricamente, se tiene un modelo completamente paramétrico.
Un caso muy especial surge cuando F0 (.) es una distribución Weibull, con
parámetro (ρ0 , κ). Entonces con las variables explicativas constantes, está claro
que T , para X especificado, también tiene distribución Weibull, con parámetro
(ρ0 ψ(X), κ). Un caso especial de esto la distribución Exponencial , con parámetro
κ = 1.
Sin embargo, el caso especial más importante, es probablemente el log logı́sti-
co,que es introducido por una dirección bastante diferente en el siguiente subsec-
ción.
(vii) Modelo de vida acelerada Log logı́stico.-
Si se concentra la atención en un tiempo particular t0 , tratado como una
respuesta binaria, que represente el fracaso o éxito en ese tiempo t0 . Entonces es
natural considerar un modelo logı́stico lineal en que
F0 (t0 ; X)
log[ ] = β T X + α(t0 )
1 − F0 (t0 ; X)

donde α(t0 ) se refiere a la base X = 0.


Suponiendo ahora que este modelo es requerido para todo t0 . Desde luego, se
puede hacer que β̂ ası́ como α(t) dependa de t, pero la simple representación surge
si β̂ es independiente de t; entonces se requiere que α(t) → ∞ cuando t → 0 y
α(t) → −∞ cuando t → ∞. Esto se puede lograr de manera más simple tomando
α(t) proporcionalmente a − lg(t). Si se escribe α(t) = −κ lg(tρ) y β̂ = −κβ, luego
1
F(t; X) = T (2.68)
1 + (ρteβ X )κ
Esto es precisamente la forma de vida acelerada con función de sobrevivencia

57
básica
1
F(t; 0) =
1 + (ρt)κ
que es la distribución log logı́stica.

58
Capı́tulo 3

EL MODELO DE RIESGOS
PROPORCIONALES
LOG-LINEAL

3.1. Introducción

Si bien, existen una variedad de familias de modelos que hacen posible tomar
en cuenta variables endógenos o exogenos al incorporar la manera en que éstos
afectan al tiempo de supervivencia de un individuo en estudio, existe una familia
de modelos, cuya caracterı́stica se basa en la especificación de la función riesgo.
Esta familia es conocido con el nombre de modelos de riesgos proporcionales.
En la comparación del tiempo de supervivencia de dos grupos, es de interés el
caso en el que el riesgo de ocurrencia, en cualquier momento dado de un individuo
en uno de los grupo, sea proporcional al riesgo en ese momento de un individ-
uo en el otro grupo. Esta es la hipótesis de riesgos proporcionales, la cual es el
fundamento de esta familia de modelos para analizar datos de supervivencia.
Dentro esta familia de modelos, uno en particular conocido como modelo
de riesgos proporcionales log lineal ha sido ampliamente usado en muchas
disciplinas, por ser el más entendido e implementado y los resultados que éste
proporciona al ser utilizado adecuadamente resultan ser mas coherentes. Sin em-
bargo, en ocasiones no es un modelo adecuado, precisamente, por los supuestos

59
que se tiene que cumplir (supuesto de que la proporcionalidad entre las funciones
riesgo de ambos grupos es invariante al paso del tiempo que no siempre sucede),
entonces es necesario estudiar modelos alternativos

3.2. Representación de los Modelos de riesgos


proporcionales

3.2.1. Modelo sin variables explicativas

Sea un conjunto de individuos clasificados en dos grupos conocidos como;


grupo I y grupo II. Luego, sea h1 (t) el riesgo de ocurrencia a tiempo t para
los individuos en el grupo I y h2 (t) el riesgo en ese mismo instante para los
del grupo II. Si estos dos riesgos resultan ser proporcionales, entonces, estos se
relacionan mediante:
h1 (t) = g.h2 (t) (3.1)
donde g es una constante que no depende del tiempo t. Luego, aplicando respecti-
vamente; integral, multiplicar -1, exponencial en ambos miembros de la relación,
se tiene:
Rt Rt
e− 0 h(u)du = e− 0 [g.h(u)]du
Por (2.9), que describe F(t) en función de h(t) por:
Rt
F(t) = e− 0 h(u)du

y si F1 (t) y F2 (t) son las funciones de supervivencia para los grupos I y II re-
spectivamente, entonces, al suponer la hipótesis de riesgos proporcionales se tiene
que
F1 (t) = [F2 (t)]g .

Dado que la función de supervivencia toma valores entre cero y uno, este
resultado permite ver que F2 (t) es menor o igual que F1 (t) si g es menor o igual a
uno, en el tiempo t. Esto significa que si dos funciones de riesgo son proporcionales,
sus respectivas funciones de supervivencia no se cruzan. Esta es una condición
necesaria pero no suficiente en la hipótesis de riesgos proporcionales.

60
Una verificación informal de la probable validez de la hipótesis de riesgos pro-
porcionales puede realizarse al dibujar en una misma gráfica las dos funciones de
supervivencia estimadas para los dos grupos de datos de supervivencia. De tal
manera que si las funciones de supervivencia estimadas no se cruzan, la hipótesis
de riesgos proporcionales puede estar justificada.
Ahora bien, estableciendo que el grupo II de estudio está constituido por
los individuos que se encuentran en una situación estándar de la cual se tiene
ya alguna información y el grupo I como un nuevo grupo del cual se carece de
información, y precisamente se pretende inferir sobre este nuevo grupo en relación
con el estándar. Por ejemplo, en el ámbito de la medicina se puede considerar un
conjunto de pacientes (individuos) que presentan alguna enfermedad en particular
los cuales han sido clasificados en dos grupos, formando parte del grupo II aquellos
pacientes que hayan recibido un tratamiento usual o habitual (estándar ) y el grupo
I formado por los pacientes que recibieron un nuevo tratamiento.
El valor g resulta ser el cociente de los riesgos de ocurrencia en cualquier
momento t para un individuo en el grupo I en relación a un individuo del grupo
II, en consecuencia g es el riesgo relativo o razón de riesgos. Si g < 1, el riesgo
de ocurrencia en t es menor para un individuo en el nuevo grupo en relación a un
individuo en el grupo estándar. Por otro lado si g > 1 el riesgo de ocurrencia en
t es mayor para un individuo en el nuevo grupo en relación a un individuo en el
grupo estándar.
La forma alternativa de expresar el modelo h1 (t) = g.h2 (t) lleva a un modelo
que puede ser más fácilmente generalizado. Con el supuesto de que se tienen
disponibles los datos de supervivencia de n individuos y denotamos a la j-ésima
función de riesgo por hj (t) con j = 1, 2, ..., n y h0 (t) corresponderá a la función
de riesgo de un individuo en el caso estándar, de modo que la función de riesgo
para un individuo con riesgo proporcional al estándar quede representado por:

hj (t) = g.h0 (t) = h0 (t).g (3.2)

Precisamente la familia de modelos de riesgos proporcionales para el caso sim-


ple (sin variables explicativas) tiene la forma expresada en la ecuación (3.2)

61
3.2.2. Modelo con variables explicativas

En el caso de que el tiempo de ocurrencia dependa de los valores x1 , x2 , . . .


correspondientes a las variables explicativas X1 , X2 , . . .. Con el supuesto de que
los valores de estas variables hayan sido registradas al inicio del estudio para
cada individuo y permanecen constantes durante la permanencia del individuo en
estudio.
El modelo de riesgos proporcionales en éste caso, surge de forma análoga a la
situación anteriormente descrita (3.2). Sea x el vector de variables explicativas,
es decir, x = (x1 , x2 , . . .)T , y sea h0 (t) la función riesgo cuando x = (0, 0, . . .)T ,
es decir, la función riego en una situación estándar. Con estas caracterı́sticas, la
función riesgo para el j-ésimo individuo proporcional al estándar resulta:

hj (t, xj ) = h0 (t).g(xj ; β) (3.3)

donde; h0 (t) se conocido también como función riesgo inicial, y g(xj ; β) es una
función paramétrica del vector de variables explicativas x con vector de parámetros
β, estableciendo la relación de proporcionalidad entre el riesgo de ocurrencia para
un individuo de la muestra y un individuo estándar.
Los modelos que conforman esta familia, precisamente se diferencian entre si,
de la forma que se decida realizar la parametrización de la función g(x; β). A
continuación se describe tres formas de realizar dicha parametrización.

T
 1 + β x,
 Lineal;
g(x; β) = e ,
β Tx
Log lineal;
log(1 + e ), Logı́stica.
βT x

Los modelos de riesgos proporcionales a partir de la forma establecida para


g(x; β), son considerados parcialmente paramétricos. Es decir, son paramétricos
ya que especifica un modelo de regresión bajo g(x; β) y es no paramétrico en
cuanto que no especifica exactamente la distribución de los tiempos de ocurrencia
bajo h0 (t).
En el año 1972, Cox fue el primero en proponer una especificación de un modelo
de la forma (3.3) sugiriendo que la parametrización de la función g(x; β) sea de
la forma Log lineal.

62
3.3. El modelo de riesgos proporcionales Log-
lineal

Dado el modelo de riesgos proporcionales establecido en (3.3)

hj (t, xj ) = h0 (t).g(xj ; β)

del cual, la función g(x; β) resulta ser el riesgo relativo entre hj (t; x) y h0 (t),
es decir
hj (t, xj )
g(xj ; β) = (3.4)
h0 (t)
Como las funciones de riesgo son mayores o iguales a cero, entonces el riesgo
relativo g(xj ; β) no puede ser negativo, en consecuencia, la forma conveniente
para g(x; β) es escribirlo como:

g(xj ; β) = e ηj
(3.5)

luego se tiene:
ln{g(xj ; β)} = ηj (3.6)

Haciendo que ηj sea una combinación lineal del conjunto de variables explica-
tivas. Es decir, si existen q variables explicativas,

ηj = β1 x1j + β2 x2j + · · · + βq xqj

entonces, la relación (3.6) resulta:

ln{g(xj ; β)} = β1 x1j + β2 x2j + · · · + βq xqj (3.7)

Como consecuencia del resultado (3.7) es que, la parametrización de g(x; β)


es posible mediante la forma Log lineal.
Para finalizar, aplicando el resultado (3.7) en forma recursiva, y expresando la
combinación lineal vectorialmente, se obtiene el modelo de riesgos proporcionales
Log lineal para el j-ésimo individuo en estudio:

hj (t, xj ) = h0 (t). e β T xj
(3.8)

El modelo (3.8) se lo conoce más como Modelo de Cox, esto debido a que fue
Cox que en 1972 propuso este modelo.

63
3.4. Inclusión de variables explicativas en el mod-
elo

Existen dos tipos de variables explicativas de las que la función riesgo puede
depender, variables cuantitativas y variables cualitativas. Una variable cuantita-
tiva es tal que toma valores numéricos que frecuentemente están en una escala
de medida continua, tales como la edad, temperatura o estatura. Una variable
cualitativa es una variable que toma un conjunto limitado de valores, que son
conocidos como niveles o cualidades. Por ejemplo, el sexo es un variable con dos
niveles o cualidades.
Consideremos ahora cómo variables cuantitativas y variables cualitativas pueden
ser incorporados en el modelo de riesgos proporcionales Log lineal

3.4.1. Inclusión de variables explicativas cuantitativas

Las variables solas son fácilmente incorporadas en un modelo de riesgos pro-


porcionales. Cada variable aparece en el modelo con un coeficiente β correspon-
diente. Por ejemplo, en una situación en la cual la función de riesgo depende de
dos variables cuantitativas X1 y X2 . Los valores de estas variables para el j-ésimo
individuos resulta:
e
hj (t, xj ) = h0 (t). β1 xj1 +β2 xj2
En modelos como este, la función riesgo inicial, h0 (t), es la función riesgo para un
individuo para el cual todas las variables incluidas en el modelo toman el valor
cero.

3.4.2. Inclusión de variables explicativas cualitativas

Sea el caso en el que se modela la dependencia de la función de riesgo de


una variable cualitativa con dos niveles o categorı́as. De tal manera de incorporar
esta variable bajo el modelo de riesgos proporcionales, es que se, establece como
categorı́a de referencia a una de las dos existentes, luego se define una variable
cuantitativa dicotómica X que toma valores de cero si el individuo bajo estudio se
encuentra en la categorı́a de referencia y uno si éste no se encuentra en la categorı́a

64
de referencia (la otra categorı́a). Si xj es el valor de X para el j-ésimo individuo
en el estudio, el modelo de riesgos proporcionales log lineal para este individuo
puede ser escrita como:
hj (t, xj ) = h0 (t). βxj e
Es claro que si xj = 0, el riesgo para éste individuo resulta h0 (t). Esto nos indica
que, el riego inicial corresponde a los individuos que se encuentra en la categorı́a
de referencia.
Cuando la variable explicativa cualitativa contiene más de 2 niveles, se procede
como sigue:
Sea una variable cualitativa con a niveles (a > 2), análogamente al anterior
caso, si se establece como categorı́a de referencia a la primera categorı́a de las a ex-
istentes. Luego, se define a − 1 variables cuantitativas dicotómicas X2 , X3 , ..., Xa
correspondientes a las demás categorı́as (no de referencia), que toman el valor
de cero si el individuo se encuentra en la categorı́a de referencia y uno si éste
se encuentra en la categorı́a correspondiente. Si xj2 , xj3 , ..., xja los valores corre-
spondientes a las variables dicotómicas X2 , X3 , ..., Xa para el j-ésimo individuo en
estudio. El modelo de riesgos proporcionales log lineal para éste individuo resulta:

hj (t; xj ) = h0 (t). e β2 xj2 +β3 xj3 +···+βa xja

Notemos que, una variable cualitativa con a > 2 niveles conduce a un modelo con
a − 1 variables cuantitativas dicotómicas.

3.5. Función de verosimilitud

La estimación o ajuste del modelo de riesgos proporcionales Log lineal

hj (t; x) = h0 (t).eβ
T
xj

a un conjunto observado de datos de supervivencia, involucra la estimación de


coeficientes desconocidos de las variables explicativas X1 , X2 , ..., Xq en el compo-
nente lineal del modelo, β1 , β2 , ..., βq . Puede necesitarse también la estimación de
la función de riesgo inicial, h0 (t). Pero estas dos componentes del modelo pueden
ser estimadas por separado. Se estiman primero las β 0 s y estos estimadores son
utilizados para construir un estimador de la función de riesgo inicial. Este es un

65
hecho importante, ya que significa que para hacer inferencias acerca de los efec-
hj (t; x)
tos de q variables explicativas X1 , X2 , ..., Xq sobre el riesgo relativo, , no
h0 (t)
necesitamos un estimador de h0 (t).
Los coeficientes β 0 s, que son parámetros desconocidos en el modelo, pueden
ser estimados usando el método de máxima verosimilitud como sigue.

3.5.1. En ausencia de censura

Esto ocurre si, todos los individuos en estudio presentaron el evento o suceso
de interés en algún momento durante que permanecieron en estudio, los datos
observados en consecuencia son exentos de censura.
Sea una muestra de n individuos o unidades experimentales, siendo j la clasi-
ficación del j-ésimo individuo bajo muestra (donde j = 1, 2, ..., n) con tiempo de
supervivencia t∗j (puesto que todos experimentaron el evento de interés). Ahora
bien, como no existe censuras en la muestra, se podrá observar valores distintos
ti con i = 1, 2 . . . , n, que representa el i-ésimo tiempo de supervivencia, donde
t1 < t2 < · · · < tn , sea `i la i-ésima clasificación que se hace al individuo cuyo
tiempo de supervivencia es precisamente ti . Es decir, si `i = j entonces ti = t∗j ,
para todo j = 1, 2, . . . , n
Los conjunto {ti } y {`i } son equivalentes a los datos originales, en el sentido
de que los tiempos de supervivencia t∗j no son ordenados.
Puesto que la distribución de ti tiene una fuerte dependencia del riesgo inicial
h0 (t), y si h0 (t) se desconoce, en consecuencia solo ti proporciona poco o nada
de información a cerca del vector de parámetros β. Como ejemplo de esto, h0 (t)
puede ser idénticamente cero excepto en pequeñas vecindades de las ti . Esto es
porque la función de riesgo inicial tiene una forma arbitraria, y entonces es posible
que éste sea cero en aquellos intervalos de tiempo en los cuales no hay ocurrencias.
Esto significa que estos intervalos no dan información acerca de los valores de los
parámetros. Por tanto, el análisis debe enfocarse en los `i .
En el presente caso, la distribución conjunta de P (j1 , j2 , . . . , jn ) sobre el con-
junto de todas las posibles permutaciones de (1, 2, ..., n) puede ser derivado ex-
plı́citamente. Donde P (j1 , j2 , . . . , jn ) es la verosimilitud del orden de ocurrencia

66
de los individuos, de modo que

j1 individuo que experimenta el evento en primer lugar


j2 individuo que experimenta el evento en segundo lugar
..
.
jn individuo que experimenta el evento en n-ésimo lugar

donde el orden de ocurrencia de los n individuos se puede dar en todas las per-
mutaciones de (1, 2, ...n). La derivación de P (j1 , j2 , . . . , jn ) se da como sigue:
Para esto, necesitamos expresar las probabilidades de ocurrencia de los indi-
viduos en cada punto ti observado. Es decir, si se observó una evento a ti , ¿Cuál
es la probabilidad de que sea j?.
Sea

j = `i : El j-ésimo individuo experimenta el evento de interés a tiempo ti


Ei : Se observa un evento a tiempo ti

Luego, el interrogante se reduce a p(j = `i |Ei ) y cuyo calculo es:

P (j = `i , Ei )
P (j = `i |Ei ) =
p(Ei )
P (j = `i , Ei )
= P (3.9)
P (k = `i , Ei )
k∈R(ti )

donde R(ti ) = {j : t∗j ≥ ti } es el conjunto de todos los individuos a riesgo de


presentar el evento a ti .
Puesto que, j = `i ⇔ t∗j = ti . La parte derecha de (3.9) se puede expresar por

67
su equivalencia. Esto es:
lı́m p(ti ≤ t∗j < dti )
P (j = `i , Ei ) dti →0
=
lı́m p(ti ≤ t∗k < dti )
P P
P (k = `i , Ei )
k∈R(ti ) k∈R(ti ) t.i →0

p(ti ≤ t∗j < dti )


lı́m
dti →0 dti
=
P p(ti ≤ t∗k < dti )
lı́m
k∈R(ti ) dti →0 dti
f (t , x )
= P i j
f (ti , xk )
k∈R(ti )

h(t , x )F(ti , xj )
= P i j
h(ti , xk )F(ti , xk )
k∈R(ti )

h(t , x )
= P i j (3.10)
h(ti , xk )
k∈R(ti )

donde: F(ti , xj ) = F(ti , xk ) dado que se encuentran en R(ti ).


Luego, de acuerdo a los resultados (3.10) y (3.9), se tiene:
h(t , x )
P (j = `i |Ei ) = P i j (3.11)
h(ti , xk )
k∈R(ti )

Una observación muy importante, como Ei representa la ocurrencia de un


evento a ti , esto significa que se dispone de todos los tiempos de ocurrencia an-
teriores a éste, es decir de t1 , t2 , . . . , ti−1 , y con ellos a los respectivos individuos
j1 , j2 , . . . , ji−1 que experimentaron el evento de interés. Esto nos lleva a que Ei
equivale al conjunto Hi = {j1 , j2 , . . . , ji−1 , t1 , t2 , . . . , ti−1 , ti } conocido como histo-
ria de las ocurrencias hasta y durante ti . Si bien Hi contiene a ti , no se conoce al
individuo que experimenta el evento en ese momento (es decir, ji =?), esto hace
que el individuo (ji ) queda excluido de Hi .
Con esta observación, el resultado (3.10) se puede expresar como:
h(t , x )
p(j = `i |Hi ) = P i j (3.12)
h(ti , xk )
k∈R(ti )

Es decir, la probabilidad de que el individuo j sea quien experimenta el evento a


tiempo ti , es condicional a Hi .

68
No obstante, la parte derecha de (3.12), bajo el modelo de riesgos propor-
cionales log lineal (modelo de Cox ), se tiene que:

h0 (ti )eβ xj
T
h(t , x )
P i j =
h0 (ti )eβ xk
T
h(ti , xk )
P
k∈R(ti ) k∈R(ti )

=
eβ T
xj
(3.13)
eβ T
xk
P
k∈R(ti )

eliminándose de esta manera la función riesgo inicial h0 (ti ), por lo cuál, resulta
indiferente contar con la forma funcional de éste.
Las relaciones (3.13) y (3.12) nos muestra que, la probabilidad de que j sea
el individuo que presenta el evento a ti , es funcionalmente independiente de los
tiempos t1 , t2 , . . . , ti , por lo que:

P (j = `i |Hi ) = P (j = `i |j1 , j2 , . . . , ji−1 ) = P (ji |j1 , j2 , . . . , ji−1 )

donde ji = `i , para todo i


De ésta manera, la distribución conjunta P (j1 , j2 , . . . , jn ) se puede obtener
mediante la regla de probabilidad condicional.
n
Y
P (j1 , j2 , . . . , jn ) = P (ji |j1 , j2 , . . . , ji−1 )
i=1

=
Yn
eβ T
xji
(3.14)
eβ T
xk
P
i=1
k∈R(ti )

Puesto que los vectores xj son conocidos para todos los individuos j : j =
1, 2, ..., n en la muestra, (3.14) queda solo en función del vector de parámetros β,
entonces, se puede usar esta función para estimar el vector de parámetros β por
el método de máxima verosimilitud, siendo L(β) la función de verosimilitud,

L(β) =
n
Y eβ T
xji
(3.15)
eβ T
xk
P
i=1
k∈R(ti )

69
ℓ4 = j = 1

ℓ2 = j = 2

ℓ1 = j = 3

ℓ3 = j = 4

Tiempo
t1 = t∗3 t2 = t∗2 t3 = t∗4 t4 = t∗1

Figura 3.1: La ocurrencia de 4 individuos a tiempo ti : i = 1, . . . , 4. Los conjuntos de


riesgo son: R(t1 ) = {1, 2, 3, 4}; R(t2 ) = {1, 2, 4}; R(t3 ) = {1, 4}; R(t4 ) = {1}

Considerando la Figura 3.1, en la cuál `1 = 3, `2 = 2, `3 = 4, `4 = 1. La


función de verosimilitud resulta:

L(β) = P (3, 2, 4, 1)
= P (3) × p(2|3) × P (4|3,2) × P (1|3, 2, 4)

=
eβ T
x3
×
eβ T
x2

eβ T
x1
+ eβ
T
x2
+ eβ
T
x3
+ eβ
T
x4
eβ T
x1
+ eβ
T
x2
+ eβ
T
x4

×
eβ T
x4

× β
T
x1
.
eβ T
x1
+ eβ
T
x4 e Tx
1

3.5.2. En presencia de censura

Esto ocurre si, por lo menos un individuo de entre la muestra no presenta el


evento de interés durante el estudio.
Otra vez, sea j el j-ésimo individuo en la muestra de tamaño n, cuyo tiempo
se supervivencia es t∗j . Cuando existe censura, no todos los t∗j son conocidos. Para
esto, sea r el número de individuos que presentan el evento de interés de n en la
muestra, de tal manera que r < n. Entonces, se podrá observar valores distintos ti
tal que t1 < t2 < · · · < tr que representa los tiempos de supervivencia ordenados,
sea `i la clasificación del individuo cuyo tiempo de supervivencia es ti , otra vez
`i = j ⇔ ti = t∗j , R(ti ) = {j : t∗j ≥ ti } el conjunto de individuos a riesgo de
presentar el evento ti . En el presente caso, Hi es la historia de las ocurrencias y
1
70
censuras hasta ti .
Con esto, la probabilidad de que `i = j dado la historia Hi , se obtiene análoga-
mente al anterior:

L(β) =
r
Y eβ T
xji
(3.16)
eβ T
xk
P
i=1
k∈R(ti )

En esta función, se nota que los individuos censurados no contribuirán al numer-


ador, pero sı́ al denominador. Si bien, los individuos censurados no presentan el
evento de interés, antes de que sean censurados, se encontrarán al menos una vez
en riesgo.

ℓ3 = j = 1

ℓ1 = j = 2

j=3

ℓ2 = j = 4

Tiempo
t1 = t∗2 t2 = t∗4 t3 = t∗1

Figura 3.2: La ocurrencia de 4 individuos con censura. Donde: ‘•’ representa la ocur-
rencia; ‘◦’ la censura. Las ocurrencias instantáneas son a tiempos t1 , t2 , t3 con con-
juntos de riesgos respectivos R(t1 ) = {1, 2, 3, 4}; R(t2 ) = {1, 4}; R(t3 ) = {1}

Según la Figura 3.2, la verosimilitud resulta.

L(β) =
eβ T
x2
×
eβ T
x4
×
eβ T
x1

eβ T
x1
+ eβ
T
x2
+ eβ
T
x3
+ eβ
T
x4
eβ T
x1
+ eβ
T
x4
eβ T
x1

Como se puede observar, la ecuación (3.16) es igual a (3.15) cuando m = n.


Por lo tanto para la estimación del parámetro β nos basaremos en la ecuación
(3.16).

71
3.5.3. Con variables explicativas dependientes del tiempo

Cuando uno o más variables explicativas (componentes del vector de variables


explicativas) varı́an con el transcurrir del tiempo, entonces es conveniente expresar
el vector de variables explicativas como X(t) ya que por lo menos uno de sus
componentes varı́an con el tiempo. Por lo tanto, se podrı́a decir que X(t) serán
vectores aleatorios debido a que algunos de sus componentes para cualquier
individuo bajo estudio, normalmente no puede ser determinado de antemano. A
pesar de esto, y tomando en cuenta la dificultad interpretativa de estos, por lo
general es razonable condicionar las realizaciones actuales X(t) (vector que toma
a t) de las funciones vectoriales aleatorias X (t).
Las funciones vectores aleatorias X (t), se los puede conocer también como
vectores evolutivos, son funciones que solo dependen de Ht , Donde ahora, Ht
además de ser la historia de las ocurrencias y censuras, es también la historia
de cualquier otra caracterı́stica aleatoria del problema hasta y durante el tiempo
t. Con estas caracterı́sticas, el riegos instantáneo para el j-ésimo individuo bajo
estudio a tiempo t bajo el modelo de riesgos proporcionales es:

hj (t, Xj (t)) = h0 (t) · eβ


T
Xj (t)

La función de verosimilitud L(β), cuando el vector de variables explicativas X


son constantes a lo largo del tiempo, puede interpretarse en términos de verosimil-
itud de rangos parciales. Cosa que no es posible, cuando el vector de variables
explicativas depende del tiempo. Sin embargo la obtención de la verosimilitud en
este caso, se la consigue en forma parcial.
Otra vez, sean m de n individuos los que presentaron el evento de interés
(m < n), luego ti ; i = 1, 2, ..., m los tiempo de ocurrencia de tal forma que t1 <
t2 < · · · < tm . También `i = j si el individuo j experimenta el evento a ti , el
conjunto riesgo a tiempo ti como R(ti ) = {j : t0j ≥ ti }. Ahora cada término Hi
comprende todos los términos anteriores t1 , H1 , j1 , t2 , H2 , j2 , . . . , ti , es decir, estas
cantidades son todas funciones de Hi .
Ası́ la verosimilitud de la totalidad de los datos resulta.
m
Y
L(β)T ot = [ϕi (ti , Hi |Hi−1 , ji−1 )pi (ji |Hi )] × ϕm+1 (H∞ |Hm , jm ) (3.17)
i=1

72
donde, ϕi es la densidad o distribución conjunta condicional de la i-ésima ocurren-
cia a tiempo ti , de cualquier censura en (ti−1 , ti ) y de la evolución de cualquiera de
las funciones vectoriales aleatorias {Xi (t) : ti−1 ≤ t ≤ ti } a lo largo del intervalo
(ti−1 , ti ). Es decir, ϕi es la información proporcionada por los espacios entre las
ocurrencias (i − 1, i).
El término ϕm+1 no existe a menos de que por lo menos un individuo siga en
observación después de la última ocurrencia observada, en cuyo caso toma el valor
de uno.
Se puede observar que la función ϕi es continua a lo largo de (ti−1 , ti ), en
consecuencia la función p(ji |Hi ) es también continua a lo largo de (ti−1 , ti ) sobre
el conjunto riesgo R(ti )
La obtención de la función de verosimilitud L(β) resulta omitiendo los términos
ϕi de la ecuación 3.17. Por esta razón, es llamado función de verosimilitud
parcial.
L(β) =
Ym
p(ji |Hi ) =
m
Y e β T Xji (ti )
(3.18)
β T X (t )
e
P i
k
i=1 i=1
k∈R(ti )

donde Xk (ti ) representa el vector de variables explicativas del k-ésimo individuo


evaluado en el tiempo de ocurrencia ti .
Se nota que en cada conjunto riesgo R(ti ), los vectores Xk (ti ) para cada indi-
viduo en riesgo, son realizaciones de la función vectorial aleatoria X (ti ) a ti . Por
lo tanto la función p(ji |Hi ) llega a ser función discreta sobre el conjunto riesgo
R(ti ) dependiente de β.
Como se puede observar, las funciones de verosimilitud (3.16) y (3.18) solo
se diferencian por el vector constante X para todo t, y el vector realizado X(t)
para todo t. Viendo esta pequeña diferencia de notación, pero tomando en cuenta
la gran diferencia interpretativa en ellos, por fines de calculo, representaremos al
vector de variables explicativas, ya sean constantes ó variantes en el tiempo, por X.
Entonces, la función de verosimilitud para la obtención del vector de parámetros
β poblacionales, con vector de variables explicativas X, es

L(β) =
m
Y eβ T
Xji
(3.19)
eβ T
Xk
P
i=1
k∈R(ti )

donde el vector de variables explicativas Xk (vector de variables explicativas del

73
k-ésimo individuo) sea fijo ó variante en el tiempo. Recordemos que el vector
de variables explicativas, será variante en el tiempo, cuando por lo menos una
variable explicativa varia con el tiempo.
Entonces, a partir de la función de verosimilitud (3.19) se procederá a estimar
el vector de parámetros β y cualquier posterior análisis, salvo algunas especifica-
ciones que sean de interés.

3.6. Estimación del vector de parámetros

La estimación del vector de parámetros β, es tal que, maximicen la función de


verosimilitud parcial (3.19). Esto es.

L(β) =
m
Y eβ T
Xji

eβ T
Xk
P
i=1
k∈R(ti )

Como Xji es el vector de variables explicativas correspondiente al individuo que ex-


perimenta el evento a ti , entonces Xji ≈ Xi , evitando de esta manera el subı́ndice
doble. Ası́.
L(β) =
Ym
eβT Xi
e
P βT X
k
i=1
k∈Ri

Aplicando logaritmo natural


m
" !# m
e β T Xk
X X X
lnL(β) = β T Xi − ln = li
i=1 k∈Ri i=1

donde li se puede observar como la i-ésima ocurrencia

3.6.1. Vector de Puntuaciones

Tomando como referencia la i-ésima ocurrencia, con correspondiente conjunto


riesgo Ri :
La derivada parcial de la i-ésima ocurrencia (li ) respecto al r-ésimo parámetro
del vector de parámetros β, produce la r-ésima puntuación para la i-ésima ocur-
rencia.

74
Esto es:
xrk eβ
T
Xk
P
∂li k∈Ri
= xri −
∂βr eβ T
Xk
P
k∈Ri
= xri − x̄ri (β) = uri (β) (3.20)
donde xri es el valor de la r-ésima variable explicativa correspondiente al individuo
con tiempo de supervivencia ti , mientras que x̄ri (β) es el promedio ponderado que
corresponde a la misma variable en el conjunto riesgo Ri con ponderación eβ Xk
T

para todo k ∈ Ri . En caso de ser una variable explicativa que varia en el tiempo,
xri es la r-ésima variable explicativa realizado a ti correspondiente a individuo que
experimenta el evento en ese preciso momento. Por lo tanto, el resultado expresa
lo mismo.
Como para cada individuo se dispone de q variables explicativas, en consecuen-
cia, para la ocurrencia i se puede encontrar q puntuaciones. Es decir, la i-ésima
ocurrencia contempla un vector de puntuaciones o vector de primeras derivadas,
de orden q×1, cuyo r-ésimo (r = 1 . . . , q) componente es precisamente el resultado
obtenido en (3.20). Entonces, el vector de puntuaciones para la i-ésima ocurrencia
resulta:  
u1i (β)
 u2i (β) 
 
Ui (β) =  .. 
.
 
 
uqi (β)
También, Ui puede obtenerse directamente. Esto es, realizando la primera derivada
de la ocurrencia i con respecto al vector de parámetros β = (β1 , β2 , . . . , βq )T .

Ui (β) = li
∂β
" !#

eβ X k
X T
= β T Xi − ln
∂β k∈Ri

Xk eβ Xk
P T

k∈Ri
= Xi − P
e
βT X k

k∈Ri

= Xi − Xi (β)
donde Xi = (x1i , x2i , ..., xqi )T es el vector de variables explicativas correspondiente
al la ocurrencia i, y Xi (β) es el promedio ponderado del mismo vector de variables

75
explicativas en el conjunto riesgo Ri . En caso de ser vectores dependientes del
tiempo, son vectores realizados a ti .
Como la ocurrencia i es muestreado con probabilidad proporcional a g(X; β) =
e (bajo la proporcionalidad log lineal ), se puede verificar en Ri que, las esper-
βT X

anzas, tanto para la r-ésima puntuación como para el vector de puntuaciones son
respectivamente:
   
∂li ∂li
E = E[uir (β)] = 0, E = E[Ui (β)] = 0 (3.21)
∂βr ∂β

3.6.2. Matriz de Información

Derivando por segunda vez la ocurrencia i (li ), respecto al s-ésima parámetro


del vector de parámetros β (donde, puede que r = s), se obtiene la información
correspondiente a la ocurrencia i, proporcionada por la variables Xr y Xs (r, s =
1, 2, ..., q).
Si r 6= s:

xrk eβ
T
Xk
P
∂li k∈Ri
= xri −
∂βr eβ T
Xk
P
k∈Ri
! !
∂ 2 li 1
xrk xsk eβ eβ
T T
X X
Xk Xk
= − +
∂βr ∂βs P βT X 2

e k k∈Ri k∈Ri
k∈Ri
! !
1
xrk eβ xks eβ
T T
X X
Xk Xk
+ 2
eβ T
Xk k∈Ri k∈Ri
P
k∈Ri

xrk xsk eβ xkr eβ xsk eβ


 P T  P T  P T 
Xk Xk Xk
 k∈Ri  k∈Ri   k∈Ri
= − − P

e β T Xk
e β T Xk
e
β T Xk
P  P 
k∈Ri k∈Ri k∈Ri

xrk xsk eβ
 P T 
Xk
 k∈Ri
= − − x̄ri (β)x̄si (β)

e β T Xk
P
k∈Ri
= −cov(xri , xsi ; β)

siendo la información mencionada.

76
∂ 2 li
− = cov(xri , xsi ; β). (3.22)
∂βr ∂βs
Si r = s, la información resulta:
∂ 2 li
− = var(xri ; β) = var(xsi ; β). (3.23)
∂βr ∂βr

Con q variables explicativas, la ocurrencia i por lo tanto, contempla una matriz


de información de orden q × q, con componentes iguales a (3.22) si r 6= s , y (3.23)
si r = s. Ası́ la matriz de información para la i-ésima ocurrencia resulta:
 
var(x1i ; β) cov(x1i , x2i ; β) · · · cov(x1i , xqi ; β)
 cov(x2i , x1i ; β) var(x2i ; β) · · · cov(x2i , xqi ; β) 
 
Cov(Xi , Xi ; β) = 
 .. .. .. .. 
 . . . .


cov(xqi , x1i ; β) cov(xqi , x2i ; β) · · · var(xqi ; β)

También, se puede escribir

Xk XTk eβ
T
Xk
P
2
∂ li k∈Ri T
2 = − + X i (β)X i (β)
∂β eβ T Xk
P
k∈Ri
= −Cov(Xi , Xi ; β) (3.24)

Podemos observar que:


∂ 2 li ∂ 2 li
   
cov(xri , xsi ; β) = −E , Cov(Xi , Xi ; β) = −E (3.25)
∂βr ∂βs ∂β 2
Además, ya que uir = xir − x̄ir (β) y Ui = Xi − Xi (β), se puede observar que:

cov(uri , usi ; β) = cov(xri , xsi ; β), Cov(Ui , Ui ; β) = Cov(Xi , Xi ; β) (3.26)

Por lo tanto para m ocurrencias, se puede obtener un vector de puntuaciones,


como también una matriz de información para las m ocurrencias en conjunto.
Ası́ el vector de puntuaciones y la matriz de información para todas las ocurrencias
son respectivamente:

m
X m
X
U(β) = Ui (β), I(β) = Cov(Xi , Xi ; β)
i=1 i=1

77
Definición 3.1. El vector de puntuaciones para m ocurrencias U(β), tiene
a). Esperanza igual al vector cero, es decir E[U(β)] = 0
b). Matriz de covarianza igual la matriz de información, es decir V [U(β)] = I(β)

Demostración. .
(a)
" m
# m
" #
X X
E[U(β)] = E Ui (β) = E {Xi − Xi (β)}
i=1 i=1
m
X Xm
= E[Xi − Xi (β)] = [E(Xi ; β) − Xi (β)]
i=1 i=1
m
X
= [Xi (β) − Xi (β)] = 0
i=1

(b)
m m
!
X X
V [U(β)] = Cov Ui , Ui ; β
i=1 i=1
m
X X
= Cov(Ui , Ui ; β) + Cov(Ui , Ui0 ; β)
i=1 i6=i0
Xm
= Cov(Ui , Ui ; β), ya que Cov(Ui , Ui0 ; β) = 0 ∀i 6= i0
i=1
m
X
= Cov(Xi , Xi ; β), esto por (3.26)
i=1
= I(β)

Definición 3.2. El vector de puntuaciones para la ocurrencia i, Ui (β), tiene


a). E[Ui (β)] = 0
b). V [Ui (β)] = E[I(β)]

Demostración. . Se obvia.

78
3.6.3. Estimador Puntual

La estimación puntual del vector de parámetros β = (β1 , β2 , . . . , βq ) basado


en una muestra de m ocurrencias, independientes e idénticamente distribuidas,
se obtiene maximizando la verosimilitud (3.19). Esto es, resolviendo el sistema
de q ecuaciones no lineales ∂β∂ 1 lnL(β̂) = 0, ∂β∂ 2 lnL(β̂) = 0, . . . , ∂β∂ q lnL(β̂) = 0, o
simplemente U(β̂) = 0. Para tal propósito, generalmente se recurre al Método
de Newton-Raphson, que existen en algunos programas (paquetes estadı́sticos)
que ayudan a optimizar iterativamente.

Estimación por el método Newton-Raphson

1. Se realiza una estimación inicial, β1 = β0 . Generalmente se toma el vector


cero como primer valor. Siendo la estimación inicial β1 = 0

2. Se calculan los valores U(β1 ) y I(β1 ). Para el cuál β1 = 0

3. Se calcula la siguiente aproximación β2 de β1 , por medio de la expresión:

β2 ≈ β1 + I −1 (β1 )U(β1 )

4. Se repiten los pasos (2) y (3), reemplazando β1 por β2

5. El proceso iterativo finaliza en la k-ésima iteración, cuando βk ≈ βk−1 (ex-


plı́citamente, cuando todos los términos βrk −βr(k−1) < 0,001; r = 1, 2, . . . , q)

De esta manera, se obtiene el vector de parámetros estimado β̂ = (β̂1 , β̂2 , . . . , β̂q ) =


βk del vector de parámetros poblacional β = (β1 , β2 , . . . , βq ) que maximizará la
función de verosimilitud (3.19).

3.6.4. Estimador por Intervalos

En el caso de la estimación por intervalo de los parámetros, se dispone de


dos estrategias diferentes, basadas en las estadı́sticas de máxima verosimilitud
(LR) y de Wald (W), cuya distribución asintótica es chi-cuadrado.

79
La estadı́stica LR para el r-ésimo elemento del vector β (βr ), evaluada en el
punto γ está definida por:

LRr (γ) = −2[l (β ? ) − l (β)]

donde l (β) es el máximo de la función lnL(β) en relación a β = (β1 , ..., βr−1 , βr , βr+1 , ..., βq )
y l (β ? ) es el máximo de la función lnL(β ? ) en relación a β ? = (β1 , ..., βr−1 , γ, βr+1 , ..., βq ).
Ası́, utilizando el estadı́stico LR, el intervalo de confianza para βr , a un nivel de
confianza de (1 − α) es:

IC[βr ; 1 − α] = {β|LRr (β) < q1−α } (3.27)

donde q1−α es el percentil (1 − α) de la distribución chi-cuadrado con un grado de


libertad.
Análogamente, el estadı́stico de Wald para el r-ésimo elemento del vector β
(βr ), evaluado en el punto γ está definido por:

(β̂r − γ)2
Wr (γ) = (3.28)
Vb (β̂r )

donde β̂r y Vb (β̂r ) son los valores estimados de βr y de la varianza del estimador de
βr respectivamente. Ası́ el intervalo de confianza para βr utilizando el estadı́stico
de Wald está dado por:

IC[βr , 1 − α] = {β|Wr (β) < q1−α } (3.29)

80
3.7. Contraste de Hipótesis

Luego de ajustar el modelo, podemos verificar la significación del modelo, a


partir de algunas hipótesis que se pueden hacer respecto del vector de parámetros
verdadero β (en forma conjunta), ó algunos parámetros verdaderos βr : r =
1, 2, ..., q (en forma parcial ). Resumiendo lo dicho, la hipótesis se puede escribir
H0 : β = β 0
La verificación de la significación de cualquier modelo, implica probar estas
hipótesis. Para nuestro modelo, se dispone tres maneras de realizar estas pruebas;
Prueba de puntuaciones, Prueba de razón de verosimilitud y Prueba de Wald.
Estas pruebas, si bien se diferencian su metodologı́a, todas tienen algo en común,
y es que convergen asintóticamente a una distribución chi-cuadrado, cuyo grado
de libertad depende al número de parámetros que se somete a hipótesis.

3.7.1. Prueba de Puntuaciones

Dado la hipótesis H0 : β = β 0 , donde queremos probar una hipótesis respecto


del vector de parámetros β = (β1 , β2 , . . . , βq ) en conjunto.
El estadı́stico de puntuaciones se define como:

PU (β 0 ) = UT (β 0 )I −1 (β 0 )U(β 0 ) (3.30)

donde U(β 0 ) es el vector de puntuaciones bajo H0 de longitud q × 1, I −1 (β 0 ) es


la inversa de la matriz de información bajo H0 de longitud q × q

Definición 3.3. El estadı́stico PU (β0 ) se distribuye asintóticamente a una chi-


cuadrado con q grados de libertad.

Demostración. En principio haciendo U(β 0 ) = U y I(β0 ) = I por fines de ma-


nipulación.
Por Definición A.2, se sabe que U se distribuye asintóticamente a una normal
1
N (0, I). Por lo tanto, I − 2 U se distribuye asintóticamente a una normal estándar.
Es decir,
1 d 1 1 1
I − 2 U −−→ I − 2 Z ∼ N (0, I − 2 I(I − 2 )T ) = N (0, Iq×q )

81
Se sabe, además, que la suma de q variables i.i.d normal estándar al cuadrado se
distribuye según una chi-cuadrado con q grados de libertad (Cada variable normal
estándar al cuadrado se distribuye chi-cuadrado con un grado de libertad ).
Por lo tanto.
1 1 1 1
(I − 2 U)T (I − 2 U) = UT (I − 2 )T I − 2 U
1 1
= UT (I − 2 )I − 2 U ya que, I es simétrico
d
= UT I −1 U −−→ J ∼ χ2q

Con este resultado se puede utilizar un estadı́stico, de tal forma que nos ayude a
probar la nulidad del vector de parámetros, es decir bajo la hipótesis nula H0 : β =
β 0 , el estadı́stico PU (β0 ) se distribuye asintóticamente según una Chi-cuadrado
con q grados de libertad.

3.7.2. Prueba de Wald

Otra vez, sea la hipótesis H0 : β = β 0 , respecto del vector de parámetros


β = (β1 , β2 , . . . , βq ) en conjunto.
El estadı́stico de Wald se define como:

W (β 0 ) = (β̂ − β 0 )T I −1 (β̂)(β̂ − β 0 ) (3.31)

donde β̂ es el vector de parámetros estimado, I(β̂) es la matriz de información


estimada V (β̂) = I(β̂).

Definición 3.4. El estadı́stico W (β 0 ) se distribuye asintóticamente a una chi-


cuadrado con q grados de libertad.

d
Demostración. A consecuencia de la definición A.3. (β̂−β 0 ) −−→ Z ∼ N (0, I −1 (β 0 )).
Entonces, por definición 3.3
d
(β̂ − β 0 )T I(β 0 )(β̂ − β 0 ) −−→ J ∼ χ2q

Se observa que:

V (β̂−β 0 ) = I −1 (β 0 ), ⇒ V (β̂) = I −1 (β 0 ), ⇒ I(β̂) = I −1 (β 0 ), ⇒ I −1 (β̂) = I(β 0 )

82
Por lo tanto, se concluye
d
(β̂ − β 0 )T I −1 (β̂)(β̂ − β 0 ) −−→ J ∼ χ2q

3.7.3. Prueba de Razón de verosimilitudes

Esta prueba, que por cierto lo describo al final, es considerado por muchos
autores la de mayor confiabilidad, y por lo tanto y como referencia se encuentra
en la mayorı́a de los paquetes estadı́sticos. Dada la hipótesis H0 : β = β 0 , esta
prueba se define como:

LR(β 0 ) = −2(lnL(β̂) − lnL(β 0 )) (3.32)

donde lnL(β̂) es la función máximo verosı́mil en relación al vector de parámetros


estimado β̂, lnL(β 0 ) es la función máximo verosı́mil en relación al vector de
parámetros bajo la hipótesis H0 .

Definición 3.5. Es estadı́stico LR(β 0 ) se distribuye asintóticamente a una chi-


cuadrado con q grados de libertad.

Demostración. Se obvia

83
3.8. Residuos

Una vez que se ha construido el modelo, lo que ahora se desea es verificar si


se cumple las hipótesis en las cuales se sustenta el modelo, y si verdaderamente el
modelo se ajusta bien a nuestros datos, dado que se trata de un paso obligado en
el proceso de elaboración de un modelo.
Al igual que los modelos de regresión lineal, también en el análisis de super-
vivencia la mayor parte de procedimientos de verificación de modelos se basan en
cantidades denominados residuos. Recordemos que los residuos son cantidades
que representan la diferencia entre los valores observados y los estimados mediante
la ecuación de regresión.
En el análisis de supervivencia surgieron algunas ventajas, y una de ellas, nos
permite efectuar análisis de residuos (Andersen et al.1993, Fleming y harringon
1991, Therneau y Grambsch 2000)
En el modelo que estamos desarrollando (Modelo de Riesgos proporcionales de
Cox ), existen cuatro tipos de residuos y cuyas finalidades son:

1. Residuos de Martingalas. Describir la verdadera función de la variable


explicativa

2. Residuos de Desviación. Identificar a los individuos que están pobre-


mente pronosticados por el modelo cuantitativa.

3. Residuos de Puntuaciones. Identificar los puntos o individuos de influ-


encia

4. Residuos de Schoenfeld . Verificar el supuesto de proporcionalidad de


riesgos

Otros dos residuos resultan de la derivación de los que se describieron; los residuos
escalados de Scoenfeld y los residuos Dfbetas (ó delta betas). De los cuales, y
según las caracterı́sticas que encajan con el objetivo del presente trabajo, se los
describen a continuación.

84
3.8.1. Residuos de martingala

Los residuos de martingala se definen como:

M̂i = Ni − Êi

donde:

Ni : Es el número de eventos observados en el intervalo (0, ti ]

Êi : Es el número de eventos estimado en el intervalo (0, ti ]. Es decir:


T
ĥ0 (tk )eβ̂
X
xk
Êi = .
k≤i

3.8.2. Residuos de desviación

Los residuos de desviación se obtienen mediante una trasformación de normal-


ización de los residuos de martingala y son similares en forma a los residuos de
desvı́os en la regresión de Poisson.
v !
u
u N i − M̂i
di = signo(M̂i )t−M̂i − Ni log
Ni

Una expansión de Taylor de un término muestra que:

Ni − Êi
di ≈ p .
Êi

3.8.3. Puntuaciones

Recordemos que la r-ésima puntuación en función de los tiempos ordenados


para las m ocurrencias, resultó.
m
X
Ur (β) = [xir − x̄ir (β)]
i=1

como esta en función de los tiempos de ocurrencias ordenados ti : i = 1, 2, ..., m


(individuos ordenados según orden de ocurrencia ji : i = 1, 2, ..., m). Se puede

85
observar, que podemos representar en su forma equivalente, es decir, en función
de los tiempos desordenados t0j : j = 1, 2, ..., m (individuos que experimentan el
evento, ordenados según sus clasificaciones), se tiene
X
Ur (β) = [xjr − x̄jr (β)]
j∈C

donde C, es el conjunto de los m individuos que experimentaron el evento de


interés una vez finalizado el estudio.
De esta manera, la r-ésima puntuación para el j-ésimo individuo que experi-
mentó el evento, serı́a
ujr (β) = xjr − x̄jr (β)

El residuo de la r-ésima puntuación correspondiente al j-ésimo individuo, re-


sulta: Reemplazando el vector de parámetros β, por el vector de parámetros que
se estimó β̂ mediante nuestro modelo de regresión. Es decir

ujr (β̂) = xjr − x̄jr (β̂) (3.33)

Como se observaron m individuos que experimentaron el evento de interés, y


para cada unos de ellos, se dispone de q variables explicativas. El conjunto de
residuos de puntuaciones, forma una matriz de longitud m × q, cuyos jr-ésimo
elementos es formado por (4.1). Por lo tanto, se puede decir que los residuos de
puntuaciones forma una descomposición adicional de Ur (β̂) en los componentes
especı́ficos de los individuos.
Los residuos de puntuaciones se usan precisamente para evaluar la influencia
de los individuos y para estimar la varianza robusta. Otro importante uso de los
residuales es para evaluar la influencia, el impacto de cada punto en el ajuste del
modelo. La medida más directa para la influencia es el valor jackknife

Jj = β̂ − β̂j

donde β̂j es el resultado del ajuste incluyendo todos los puntos excepto la obser-
vación j
De hecho la influencia propiamente dicha de cada punto es proporcional a
(Xi − X̄) ∗ residual. Por lo tanto, para el modelo de Cox, se podrı́a esperar que
la influencia se relacionarı́a al residual de puntuaciones.

86
ujr (β̂) = xjr − x̄jr (β̂)

Una manera bastante sencilla de proceder deberá observarse directamente en la


iteración del método Newton-Rapshon para el modelo. La experiencia ha mostrado
que los cálculos convergen rápidamente partiendo del punto cero, generalmente de
dos a cuatro iteraciones. Considerando entonces el siguiente esquema de iteración.

1. Iterar el modelo para la convergencia, usando todos los datos

2. Eliminar la observación i del conjunto de datos

3. Realizar una vez más el paso de iteración Newton-Rapshon

Se podrı́a esperar la respuesta final de este procedimiento ser muy proximo a β̂i
El procedimiento de Newton-Rapshon para nuestro modelo se puede reescribir
de la siguiente manera.

∆β = 1T (UI −1 )
= 1T D

donde ∆β es el cambio en el vector de coeficientes estimado y U es la matriz de


residuales de puntuaciones m×q. De esta manera el cambio de β̂ en cada iteración
es la suma de las columnas de la matriz D, definido como el aumento instantáneo
por la varianza de β̂
Al final de la iteración ∆β por definición debe ser 0 (de lo contrario se contin-
uarı́a con el algoritmo de iteración). Luego, se quita la observación i del conjunto
de datos, y se vuelve a calcular U mientras que I se mantiene fijo: Esto corre-
sponde a la eliminación de la fila i de D. El tercer paso del anterior esquema
formarı́a la nueva suma de columnas, que puede, por fines de construcción, ser
igual a −1 veces la fila que ha sido eliminada. Que es, −Di , la i-ésima fila de D,
es el cambio aproximado en β̂ si la observación i es eliminado.

87
3.8.4. Residuos de Schoenfeld

Como se describió anteriormente, el vector de puntuaciones correspondiente a


las m ocurrencias, fue:
m
X m
X
U(β) = Ui (β) = [Xi − X̄i (β)]
i=1 i=1

tomar en cuenta que esta expresión esta en función de los tiempos de ocurrencias
ordenados ti : i = 1, 2, ..., m. Esto produce un residuo propuesto por primera vez
por Schoenfeld. El residuo de Schoenfeld para el i-ésimo tiempo de ocurrencia,
resulta.
Si = Ui (β̂) = Xi − X̄i (β̂) (3.34)
donde el r-ésimo residuo de Schoenfeld para el i-ésimo tiempo de ocurrencia or-
denado, es
uir (β̂) = xir − x̄ir (β̂)

Por lo tanto, el conjunto de residuales de Schoenfeld es una matriz de q colum-


nas con una fila por ocurrencia. A partir de que los residuales se definen única-
mente en cada ocurrencia, su definición y cálculo son inalterados por una formu-
lación de proceso de puntuaciones para cada conjunto de datos.
Estos residuales son útiles para evaluar la proporcionalidad de riesgos
Una de las principales hipótesis del modelo de Cox es precisamente que la
función de riesgo es proporcional dados dos factores pronósticos distintos, y por lo
tanto se debe mantener a lo largo del tiempo. Esto es algo que podemos verificar
también en las gráficas de residuos.
Una importante asunción del modelo es la proporcionalidad de riesgos. Con el
vector de variables explicativas X no dependientes del tiempo, el riesgo relativo
para dos sujetos cualesquiera j y j ∗ obedece la relación
T
hj (t, Xj ) h0 (t)eβ Xj
= T
hj ∗ (t, Xj ∗ ) h0 (t)eβ Xj∗
eβT Xj β T (Xj −Xj ∗ )
= T = e
eβ Xj∗
que no depende del tiempo. Además, la relación mantiene individualmente para
cada variable en le modelo, como se puede observar para la selección de dos indi-
viduos hipotéticos tal que Xj y Xj ∗ se diferencian en una sola variable.

88
Para variables explicativas no dependientes del tiempo que tiene un pequeño
número de niveles, una prueba de gráfica sencilla de la suposición de proporcional-
idad puede realizarse observando la curva de supervivencia. Si se mantienen los
riesgos proporcionales, entonces la curva log de la supervivencia deben estabi-
lizarse firmemente a un lado.
Rt
Puesto que la función de supervivencia satisface Fj (t) = e− 0 hj (u)du
, donde
T
hj (u) = h0 (u)eβ Xj . De lo cuál se tiene;
Z t 
ln[− ln(Fj (t))] = ln h0 (u)du + β T Xj
0
= ln[H0 (t)] + β T Xj

Si se cumple la hipótesis de riesgos proporcionales éstas curvas tienen que ser


aproximadamente paralelas.

89
Capı́tulo 4

APLICACIÓN

4.1. Introducción

El tiempo que dura una enfermedad tiene una importante relevancia no solo
para el que lo padece, sino también, para las personas mas allegadas a ella como
ser, su familia. Una enfermedad que se ha hecho muy común, especialmente en
los infantes, hasta hace antes de la era moderna y que en su momento fue una de
las principales causas de la mortalidad infantil a nivel mundial, que consiste en;
”frecuente evacuación de vientre lı́quidas (más conocida como ‘DIARREA’).
Ya en la actualidad este mal ha sido controlado de gran manera, esto gracias
a la evolución de la ciencia médica. Sin embargo, en nuestro paı́s se sigue eviden-
ciando la presencia de dicho mal, esto debido a que en muchas de las familias no
se tiene el acceso al agua segura y carecen del hábito de higiene saludable como
lavarse las manos. Según una publicación del Ministerio de Salud de Bolivia, 46 %
de los niños bolivianos menores de 5 años padecen enfermedades diarreicas, de los
cuales el 70 % provienen de las zonas rurales y el 30 % de las zonas urbanas.
Ası́ como existen diferentes factores que dan lugar a la diarrea para aquel que
no lo padece, existen factores que también dan lugar a la curación de este mal para
aquel que lo padece. Obviamente, el evento de interés en un individuo enfermo, es
la ‘Curación’ y para ello, tanto él, como su familia recurren a diferentes elementos
(factores) que a la larga, algunos, resultan ser factores influyentes para su curación.
Entonces, el interés para un nuevo individuo enfermo es conocer aquellos factores

90
que dan lugar a su curación y el tiempo requerido para ello.
Este hecho nos lleva a la necesidad de llevar a cabo un estudio de supervivencia
con fines predictivos, que consiste en modelar la relación entre el tiempo y los
diferentes factores. Uno de los candidatos para ello, por supuesto, es el modelo
de riesgos proporcionales log-lineal, el cual, nos permitirı́a ‘Identificar los
factores más influyentes y construir un modelo que nos permita
describir, explicar y predecir el tiempo que un individuo enfermo
con diarrea tarda en curarse’.

4.1.1. Población en estudio

La Dra. Volga Íñiguez, directora de la Unidad de Investigación de la carrera


de Biologı́a (U.I.B ) de la facultad de Ciencias Puras y Naturales, fue quien
muy gentilmente, nos proporcionó un conjunto de datos, el cual ha hecho posible
construir una base de datos para aplicar las utilidades que brinda el modelo de
riesgos proporcionales log-lineal.
Este conjunto de datos corresponden a niños enfermos con diarrea que fueron
tratados y hospitalizados en diferentes unidades entre los departamentos de La
Paz, Cochabamba y Santa Cruz. Se trataba de 3881 niños para los cuales se ha
podido establecer aproximadamente 70 variables reflejadas en información gener-
al, caracterı́sticas fı́sicas y algunos resultados de pruebas de laboratorios para los
niños al momento de ser hospitalizados. Luego de realizar un análisis explorato-
rio de los datos disponibles, para muchos de estos niños se tenida información
incoherente correspondientes a ciertas variables, y también muchas de las vari-
able no estaban definidas claramente. Esto nos llevó a un recorte de información
involuntario, tanto en la cantidad de niños como en el de las variables.
Realizado el recorte de información se llegó a registrar un conjunto de 20
variables para 1361 niños enfermos con diarrea, los cuales fueron hospitalizados
en diferentes unidades del departamento de La Paz entre el 23 de octubre del 2005
y el 29 de diciembre del 2007, y fueron dados de alta entre el 23 de octubre del
2005 y el 1 de enero del 2008.
Estas variable se registraron al momento de la hospitalización para cada niño
enfermo, y se describen en el Cuadro 4.1. Los niños que han sido canalizados,
diagnosticados y hospitalizados fueron elegidos para formar parte del estudio,

91
Nº Variable Descripción
1 HOSPITAL Hospital de Internación
2 SEXO Sexo
3 AREA_PRO Área de procedencia
4 NOM_AP Nombre y Apellidos
5 FECH_NAC Fecha de nacimiento
6 FECH_D_I Fecha de inicio de diarrea
7 FECH_HOP Fecha de hospitalización
8 FECH_A_SD Fecha de alta sin diarrea
9 FECH_A_CD Fecha de alta con diarrea
10 FH_A_PS Fecha de alta sin diarrea en caso permanecia prolongada
11 EST_HDR Estado de hidratación
12 TRAT_HDR Tratamiento de hidratación
13 ALTU_EDP Altura por edad percentil
14 ALTU_EDZ Altura po edad Z score
15 PESO_EDP Peso por edad percentil
16 PESO_EDZ Peso po edad Z score
17 PESO_TAP Peso por talla percentl
18 PESO_TAZ Peso por tall Z score
19 ROTAVIRUS Presencia de Rotavirus
20 FIEB_ING Presencia de fiebre

Cuadro 4.1: Descripción de las variables

garantizando ası́ que todos los niños sean del mismo cohorte y que su entrada al
estudio depende del momento de hospitalización, independientemente de la fecha
del mismo.

92
4.1.2. Definición y construcción de la variable de estudio

Antes, se ha construido las variables TIEMPO, EDAD-I y ESTAD-A, y se


describen en el Cuadro 4.2.

Nº Variable Descripción
1 TIEMPO Tiempo de hospitalización (En días)
2 EDAD_I Edad al momento de ser hospitalizado
3 ESTAD_A Estado al momento de ser dado de alta

Cuadro 4.2: Descripción de nuevas variables

La primera resulta de la diferencia entre las variables Fecha de alta y la Fecha


de hospitalización, la segunda cono diferencia entre las variables Fecha de hospital-
ización y la Fecha de nacimiento, y el último como una variable que indica la
presencia o ausencia del evento o suceso de interés ‘Alta por curación’.
La variable de estudio se ha definido como:

T : ‘Tiempo de hospitalización hasta el Alta por curación’

Otra interpretación para la variable respuesta T , es: ‘El tiempo de superviven-


cia hospitalaria hasta el Alta por curación’. Esta variable, fue construida como
combinación de las variables ‘TIEMPO’ y ‘ESTAD-A’, descritas en el Cuadro 4.2.
Es decir, es la combinación del evento o suceso de interés (Alta por curación) con
el tiempo que ha tardado en producirse dicho evento.
La ausencia del evento de interés da curso a la ‘censura’, el cuál fue definido
por todos aquellos niños que fueron dados de alta por otras causa ajenas a la de
‘curación’ y como mecanismo de censura fueron establecidos:

a) Alta con diarrea,


b) Todos aquellos niños que seguı́an hospitalizados al cabo de 30 dias,
tiempo que finaliza la observación para cada niño.

93
4.2. Estimación de la Función de Supervivencia
hospitalaria por Kaplan y Meier

La estimación de la función de supervivencia hospitalaria, obtenido para los


1361 niños, con una mediana de 5 dias, es decir que al menos la mitad de los niños,
solo permanecieron hospitalizados 5 dias. (ver el Cuadro 4.3)

n eventos mediana L.inf(95%) L.sup(95%)


1361 1273 5 5 5

Cuadro 4.3: Valores resumen en la estimación de supervivencia por Kaplan y Meier

Dias Riesgo Evento Superv. E.S L.inf(95%) L.sup(95%)


0 1361 10 0.99265 0.00231 0.98813 0.9972
1 1349 52 0.95439 0.00566 0.94336 0.9655
2 1284 122 0.86371 0.00934 0.84559 0.8822
3 1154 212 0.70504 0.01245 0.68105 0.7299
4 928 232 0.52878 0.01370 0.50260 0.5563
5 683 182 0.38787 0.01345 0.36238 0.4152
6 494 123 0.29130 0.01261 0.14186 0.3171
7 365 103 0.20910 0.01136 0.26760 0.2326
8 260 60 0.16084 0.01031 0.18798 0.1824
9 196 46 0.12309 0.00927 0.10620 0.1427
10 147 42 0.08792 0.00805 0.07347 0.1052
11 104 23 0.06848 0.00722 0.05569 0.0842
12 80 11 0.05906 0.00676 0.04719 0.0739
13 68 12 0.04864 0.00620 0.03788 0.0625
14 55 12 0.03803 0.00556 0.02856 0.0506
15 43 10 0.02918 0.00492 0.02098 0.0406
16 33 4 0.02565 0.00463 0.01801 0.0365
17 29 4 0.02211 0.00431 0.01508 0.0324
18 25 2 0.02034 0.00415 0.01364 0.0303
19 23 1 0.01946 0.00406 0.01293 0.0293
20 22 2 0.01769 0.00388 0.01151 0.0272
21 19 3 0.01489 0.00359 0.00929 0.0239
22 15 1 0.01390 0.00348 0.00851 0.0227
23 14 1 0.01291 0.00337 0.00774 0.0215
25 13 1 0.01192 0.00325 0.00698 0.0204
28 12 2 0.00993 0.00300 0.00549 0.0180

Cuadro 4.4: Función de supervivencia estimada mediante el estimador Kaplan-Meier

El Cuadro 4.4, muestra la función de supervivencia hospitalaria estimada,


basado solo en los tiempos observados (censurados y no censurados) sin tomar en

94
cuenta factores influyentes. En este cuadro puede observarse que la proporción de
niños que permanecen hospitalizados al cavo de la primera semana fue del 20,9 %,
segunda semana 3,8 %, tercera semana 1,5 %, cuarta semana 1 %. Es decir, de 100
niños hospitalizados, 79 son dados de alta por curación a lo largo de la primera
semana, 95 son dados de alta por curación durante la segunda semana, 98 son
dados de alta por curación durante la tercera semana, y prácticamente casi todos
son dados de alta por curación durante el cuarto mes, a excepción de uno que
sigue hospitalizado.
La Figura4.1 muestra un patron decreciente empinada de la función de super-
vivencia hospitalaria, lo cual nos indica que las altas por curación en los niños
enfermos con diarrea, tienen un comportamiento aproximadamente exponencial
en el tiempo.
1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Días
Figura 4.1: Supervivencia hospitalaria estimada por Kaplan y Meier

95
4.3. Búsqueda del mejor modelo de Riesgos Pro-
porcionales Log-lineal

Para identificar el mejor modelo Modelo semi-paramétrico Log-lineal, se ha


establecido inicialmente un total de 16 variables que se presuponen pueden influir
en el tiempo de permanencia en el hospital hasta el alta por curación. De estas
variables, 8 son de carácter cualitativo y el restante de carácter cuantitativo,
ası́ como lo muestra el Cuadro4.5.

nº Variable Etiqueta tipo


1 HOSPITAL Hospital de Internación Cualitativo
2 SEXO Sexo del niño Cualitativo
3 AREA_PRO Área de procedencia Cualitativo
4 EDAD_ING Edad (meses) Cuantitativo
5 VOMITO Presencia de vomitos Cualitativo
6 EST_HIDR Estado de hitratación Cualitativo
7 TRAT_HDR Tratamiento de hitratación Cualitativo
8 ALTU_EDP Altura por edad percentil Cuantitativo
9 ALTU_EDZ Altura por edad Z score Cuantitativo
10 PESO_EDP Peso por edad percentil Cuantitativo
11 PESO_EDZ Peso por deda Z score Cuantitativo
12 PESO_TAP Peso por talla percentil Cuantitativo
13 PESO_TAZ Peso por talla Z score Cuantitativo
14 DIAS_D_I Número de dias de diarrea Cuantitativo
15 ROTVIRUS Presencia de rotavirus Cualitativo
16 FIEB_ING Presencia de fiebre Cualitativo
Cuadro 4.5: Variables establecidas al momento de la hospitalización

Dado la presencia de variables cualitativas se advierte la necesidad de re-


estructurar dichas variables (ver Cuadro 4.6), esto con el fin de llevar a cabo
análisis cuantitativo bajo la estructura del modelo en cuestión. Cuadro 4.5.
La re-estructuración de las variables cualitativas (Cuadro 4.6), produce 12
variables dicotómicas ficticias (dummy). Entonces, con las variables cuantitativas
iniciales, establece un nuevo conjunto con un total de 20 variables explicativas
cuantitativas. Es posible construir diferentes modelos (a partir de introducir

96
Frec. 1 2 3
HOSPITAL 1=Boliviano Holandes 192 0 0
2=Materno Infantil 181 1 0
3=Niño 179 0 1
SEXO 0=Femenilo 233 0
1=Masculino 319 1
AREA_PRO 1=Urbano 518 0
2=Rural 34 1
VOMITO 0=No 64 0
1=Si 488 1
EST_HIDR 1=Sin deshidratación 73 0 0 0
2=Con deshidratición 206 1 0 0
3=Con deshidratación grave 264 0 1 0
4=Shock 9 0 0 1
TRAT_HDR 1=A 12 0 0
2=B 62 1 0
3=C 478 0 1
ROTVIRUS 0=Negativo 315 0
1=Positivo 237 1
FIEB_ING 0=No 310 0
1=Si 242 1

Cuadro 4.6: Codificación del las variable cualitativas

combinación de las 20 variables establecidas). Sin embargo, de todos es-


tos modelos, pocos quizá generen una buena predicción (modelos con variables
significantes), muchos quizá generen imprecisión en la predicción (modelos con
variables no significantes). En todo caso, el modelo deseado es aquel cuya estruc-
tura quede conformado por las variables explicativas más significantes y cumplan
con el supuesto de proporcionalidad (supuesto del modelo).

4.3.1. Identificación de las variables significantes

Para lograr identificar las variables más significantes, se procederá a construir


un modelo por pasos sucesivos hacia adelante. Para esto, el modelo empieza sin
ninguna variable de las 20 disponibles, luego, en cada paso se irán introduciendo
una variable a la vez, y será aquella que en el paso precedente resulte ser el
más significante y haya cumplido con el criterio de selección. Además, en cada
paso se re-evaluaran la(s) variable(s) que hasta entonces se introdujeron en el
modelo, eliminando del mismo (en el siguiente paso) aquella que resulte ser menos
significante y cumpla el criterio de eliminación. Se llegará al último paso, cuando
ninguna variable fuera del modelo (hasta entonces) no cumpla con el criterio de

97
selección y ninguna variable introducida en el modelo (hasta entonces) cumpla
con el criterio de eliminación.
Este método nos lleva a obtener las variables cuyo efecto conjunto resulten
significantes bajo la estructura del Modelo de riesgos proporcionales log-lineal. En
consecuencia, postulado a ser uno de los mejores modelos.
En cada paso, el criterio de selección se establecerá con un nivel de confianza
del 5 %, y del 10 % para el criterio de eliminación. Siendo el estadı́stico de Pun-
tuación parcial el que permite evaluar la siginificancia de las variables fuera del
modelo, y el estadı́stico de Wald parcial para las variable en el modelo.

Paso 0

Este es el paso inicial, donde el modelo empieza sin ninguna variable intro-
ducida, es decir las 20 las variables están fuera del modelo.
Sea βj , el coeficiente asociado a la j-ésima variable fuera del modelo. El Cuadro
4.7 muestra los estadı́sticos de puntuación para contrasta la hipótesis nula H0 :
βj = 0 de que la información que aportarı́a la j-ésima variable al introducirla en
el modelo (esto en el siguiente paso), no seria significante.

V. fuera del Modmodelo Punt. gl Sig.


HOSPITAL 20,4176 2 0,0000
HOSPITAL[T.Materno Infantil 20,2098 1 0,0000
HOSPITAL[T.Niño] 6,8806 1 0,0087
SEXO[T.Masculino] 1,9065 1 0,1674
AREA_PRO 0,4669 2 0,7918
AREA_PRO[T.Rural] 0,4236 1 0,5152
AREA_PRO[T.No responde] 0,0824 1 0,7741
VOMITO[T.Si] 1,7139 1 0,1905
EST_HIDR 6,1893 3 0,1028
EST_HIDR[T.Con deshidratición] 3,3405 1 0,0676
EST_HIDR[T.Con deshidratación 2,2874 1 0,1304
EST_HIDR[T.Shock] 2,8299 1 0,0925
ALTU_EDP 1,3430 1 0,2465
ALTU_EDZ 1,7611 1 0,1845
PESO_EDP 2,7995 1 0,0943
PESO_EDZ 9,5218 1 0,0020
PESO_TAP 6,6594 1 0,0099
PESO_TAZ 8,3345 1 0,0039
DIAS_D_I 8,8475 1 0,0029

Cuadro 4.7: Estadı́stico de puntuación para las variables fuera del modelo ‘Paso 0’

98
Según los resultados del Cuadro 4.7, la primera variable seleccionada para
introducirla en el modelo en el siguiente paso (Paso 1) es ‘HOSPITAL’, puesto
que resulta ser la más significante y cumple con el criterio de selección (es decir,
para dicha variable se rechaza H0 a un nivel del 5 %).

Paso 1:

Introducida ya la variable ‘HOSPITAL’ en el modelo, siendo βh el coeficiente


asociado a dicha variable. El Cuadro 4.8, muestra el estadı́stico de Wald que nos
permite contrastar la hipótesis nula H0 : βh = 0 de que la información que se
perderı́a al eliminar dicha variable del modelo (esto en el siguiente paso), no seria
significante.
Variable en el Modelo
Variable B ET Wald gl Sig.
HOSPITAL 20,1810 2 0,0000
Materno Infantil - 0,3800 0,1101 11,8442 1 0,0006
Niño 0,0898 0,1083 0,6878 1 0,4069

Cuadro 4.8: Estadı́stico de Wald para la variable ‘HOSPITAL’

Según el Cuadro 4.8 la variable ‘HOSPITAL’ debe permanecer en el modelo


en el siguiente paso, de lo contrario la información que se perderı́a, resultarı́a
significante (ya que, para dicha variable se rechaza H0 a un nivel del 10 %)
Ahora, sea βj el coeficiente asociado a la j-ésima variable fuera del modelo.
El Cuadro 4.9 muestra los estadı́sticos de puntuación parciales para contrasta la
hipótesis nula H0 : βj = 0 de que la información que aportarı́a dicha variable al
introducirla en el modelo en el siguiente paso (introducida ya la variable ‘HOS-
PITAL’), no seria significante. Según los resultados del Cuadro 4.9, la segunda
variable a introducir en el modelo en el siguiente paso (Paso 2) serı́a ‘DIAS-D-I’,
puesto que resulta ser la más significante y cumple con el criterio de selección (es
decir, para dicha variable se rechaza H0 a un nivel del 5 %).

99
Variables fuera del Modelo
Variables Punt. gl. Sig.
SEXO 0,1032 1 0,7480
AREA_PRO 0,0276 1 0,8682
EDAD_ING 0,2649 1 0,6068
VOMITO 0,1216 1 0,7273
EST_HIDR 6,0644 3 0,1085
Con deshidr. 0,3319 1 0,5646
Con deshidr. grave 1,4718 1 0,2251
Sock 2,2088 1 0,1372
TRAT_HDR 1,8747 2 0,3917
Trat. B 1,0920 1 0,2960
Trat. C 1,7592 1 0,1847
ALTU_EDP 3,3282 1 0,0681
ALTU_EDZ 3,2055 1 0,0734
PESO_EDP 4,5046 1 0,0338
PESO_EDZ 10,1025 1 0,0015
PESO_TAP 5,5122 1 0,0189
PESO_TAZ 6,3364 1 0,0118
DIAS_D_I 10,7238 1 0,0011
ROTVIRUS 4,0316 1 0,0447
FIEB_ING 0,1834 1 0,6685
Cuadro 4.9: Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 1’.

Paso 2:

Introducidas las variables ‘HOSPITAL’, ‘DIAS-D-I’ en el modelo, siendo βh , βd


los coeficientes asociado a las correspondientes variables. El Cuadro 4.10, muestra
el estadı́stico de Wald parcial para contrastar la hipótesis nula H0 : βk = 0; k =
h, d, de que la información que se perderı́a al eliminar la variable correspondiente
a k en el siguiente paso, no seria significante. Según el Cuadro 4.10 la variable
Variables en el Modelo
Variables B ET Wald gl Sig.
HOSPITAL 20,4083 2 0,0000
Materno Inf. -0,3846 0,1102 12,1782 1 0,0005
Niño 0,0853 0,1084 0,6195 1 0,4312
DIAS_D_I -0,0547 0,0167 10,6837 1 0,0011
Cuadro 4.10: Estadı́stico de Wald para las variables HOSPITAL y DIAS-D-I.

‘HOSPITAL’ y ‘DIAS-D-I’ deben permanecer en el modelo en el siguiente paso,


de lo contrario la información que se perderı́a resultarı́a significante (esto es, se
rechaza H0 a un nivel del 10 %)

100
Ahora, sea βj el coeficiente asociado a la j-ésima variable fuera del modelo.
El Cuadro 4.11 muestra los estadı́sticos de puntuación parciales para contrasta
la hipótesis nula H0 : βj = 0 de que la información que aportarı́a dicha variable
al introducirla en el modelo en el siguiente paso (introducidas ya las variables
‘HOSPITAL’, ‘DIAS-D-I’ ), no seria significante. Según los resultados del Cuadro

Variables fuera del Modelo


Variables Punt. gl. Sig.
SEXO 0,0079 1 0,9291
AREA_PRO 0,1289 1 0,7195
EDAD_ING 0,4303 1 0,5118
VOMITO 0,1098 1 0,7404
EST_HIDR 7,2153 3 0,0653
Con deshidr. 0,4059 1 0,5241
Con deshidr. Grave 1,6901 1 0,1936
Sock 2,6718 1 0,1021
TRAT_HDR 1,9122 2 0,3844
Trat. B 1,2909 1 0,2559
Trat. C 1,8703 1 0,1714
ALTU_EDP 2,2393 1 0,1345
ALTU_EDZ 2,4283 1 0,1192
PESO_EDP 2,7377 1 0,0980
PESO_EDZ 7,1577 1 0,0075
PESO_TAP 4,0441 1 0,0443
PESO_TAZ 4,6754 1 0,0306
ROTVIRUS 2,9283 1 0,0870
FIEB_ING 0,1503 1 0,6983
Cuadro 4.11: Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 2’.

4.11, la tercera variable a introducir en el modelo en el siguiente paso (Paso 3) es


‘PESO-EDZ’, puesto que resulta ser la más significante y cumple con el criterio
de selección (es decir, para dicha variable se rechaza H0 para dicha variable a un
nivel del 5 %).

Paso 3:

Introducidas las variables ‘HOSPITAL’, ‘DIAS-D-I’ y ‘PESO-EDZ’ en el mod-


elo, siendo βh , βd y βp los coeficientes asociado a las correspondientes variables. El
Cuadro 4.12, muestra el estadı́stico de Wald parcial para contrastar la hipótesis

101
nula H0 : βs = 0; s = h, d, p de que la información que se perderı́a al eliminar la
variable correspondiente a s en el siguiente paso, no seria significante.

Variables en el Modelo
Variables B ET Wald gl Sig.
HOSPITAL 22,6668 2 0,0000
Materno Inf. -0,4011 0,1102 13,2375 1 0,0003
Niño 0,0992 0,1085 0,8359 1 0,3606
DIAS_D_I -0,0480 0,0169 8,0932 1 0,0044
PESO_EDZ 0,0953 0,0357 7,1506 1 0,0075

Cuadro 4.12: Estadı́stico de Wald para las variables HOSPITAL, DIAS-D-I y PESO-EDZ.

Según el Cuadro 4.12 la variable ‘HOSPITAL’, ‘DIAS-D-I’ y ‘PESO-EDZ’


deben permanecer en el modelo en el siguiente paso, de lo contrario la información
que se perderı́a resultarı́a significante (esto es, para dichas variables se rechaza H0
a un nivel del 10 %)
Ahora, sea βj el coeficiente asociado a la j-ésima variable fuera del modelo.
El Cuadro 4.11 muestra los estadı́sticos de puntuación parciales para contrasta
la hipótesis nula H0 : βj = 0 de que la información que aportarı́a dicha variable
al introducirla en el modelo en el siguiente paso (introducidas ya las variables
‘HOSPITAL’, ‘DIAS-D-I’ ), no seria significante.

Variables fuera del Modelo


Variables Punt. gl. Sig.
SEXO 0,1750 1 0,6757
AREA_PRO 0,3036 1 0,5816
EDAD_ING 0,7096 1 0,3996
VOMITO 0,0663 1 0,7968
EST_HIDR 5,5904 3 0,1333
Con deshidr. 0,4364 1 0,5089
Con deshidr. Grave 1,3400 1 0,2470
Sock 2,3156 1 0,1281
TRAT_HDR 2,0511 2 0,3586
Trat. B 0,8722 1 0,3503
Trat. C 1,7030 1 0,1919
ALTU_EDP 0,0000 1 0,9967
ALTU_EDZ 0,0001 1 0,9936
PESO_EDP 2,5147 1 0,1128
PESO_TAP 0,1991 1 0,6555
PESO_TAZ 0,4334 1 0,5103
ROTVIRUS 2,0513 1 0,1521
FIEB_ING 0,0013 1 0,9713

Cuadro 4.13: Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 3’.

102
El Cuadro 4.11, muestra que ninguna variable resulta ser significante y no
cumplen con el criterio de selección (es decir, para todas las variables fuera del
modelo, se rechaza H0 a un nivel del 5 %).
En este punto (Paso 3), como ninguna variable introducida no cumple con
el criterio de eliminación, y ninguna variable fuera del modelo no cumple con el
criterio de selección, se da por finalizado el proceso de selección de variables.
Por lo tanto, la información que se dispone correspondientes a las variables ex-
plicativas ‘HOSPITAL’, ‘DIAS-D-I’ y ‘PESO-EDZ’ en los datos, resultaron ser las
más significantes y si cumplen con el supuesto de proporcionalidad, estos serán
útiles para predecir el ‘Tiempo de hospitalización hasta el alta por cu-
ración’ bajo la estructura del Modelo de Riesgos Proporcionales Log-lineal.

4.3.2. Modelo con las variables más influyentes

Una vez que se ha podido identificar a las variables que resultaron tener mayor
significancia de entre las 16 variables inicialmente establecidas, la estructura del
Modelo de riesgos proporcionales log-lineal perfilado para ser uno de los mejores
modelos, tiene la forma:

h(t, x) = h0 (t)eβ1 x1 +β2 x2 +beta3 x3 +beta4 x4 (4.1)

donde:
(
0, Boliviano Holandes, Niño;
x1 =
1, Materno Infantil.
(
0, Boliviano Holandes, Materno Infantil;
x2 =
1, Niño.
x3 = Número de dias de diarrea al momento de la hospitalización (DIAS-D-I).
x4 = Peso por edad Z score (PESO-EDZ).

Notemos que, tanto x1 como x2 son variables dicotómicas ficticias o dummy


que corresponde a la variable cualitativa ‘HOSPITAL’.

103
4.3.3. Verificación del supuesto de proporcionalidad de las
variables significantes

Si bien, se evidencia la existencia de variables significantes en el modelo, éstos


deben cumplir con el supuesto que exige el modelo con el fin de generar mejores
estimaciones y sean coherentes bajo la estructura del modelo, si es haca, estamos
ante uno de los mejores modelos.
Para esto, se plantea la hipótesis nula para cada variable que resultó signifi-
cante en la estructura del modelo (Modelo4.1).

H01 : h(t, x1 = 0) = h(t, x1 = 1)


H02 : h(t, x2 = 0) = h(t, x2 = 1)
H03 : h(t, x3 ) = h(t, x3 − 1)
H04 : h(t, x4 ) = h(t, x4 − 1).

Siendo la correlación entre el tiempo y los residuos de Schoenfeld (rho) para


cada caso, el estadı́stico de contraste de dichas hipótesis. Se rechazará H0i : i =
1, 2, 3, 4 si el p valor asociado al estadı́stico rho resulte menor al 5 %.
Según los resultados obtenidos en la Tabla4.14, se rechaza H02 , y siendo una
variable ficticia correspondiente a la variable categórica ‘HOSPITAL’, implica
rechazar el supuesto de proporcionalidad para la variable ‘HOSPITAL’.
Puesto que la variable ‘HOSPITAL’ no cumple con el supuesto de propor-
cionalidad, es conveniente excluirla de la estructura del modelo (aunque puede ser
tomado como cuna variable de estratificación).

variables rh0 chisq p


HOSPITAL[T.Materno Infantil] -0,00962 0,0859 0,769000
HOSPITAL[T.Niño] -0,13981 18,6391 0,000016
PESO_EDZ 0,000953 0,0774 0,781000
DIAS_D_I -0,00591 0,0307 0,861000

Cuadro 4.14: Prueba de proporcionalidad para las variable significantes.

104
4.3.4. Estructura del mejor modelo de riesgos proporcionales
Log-Lineal

Eliminando la variable ‘HOSPITAL’ del modelo perfilado (4.1). La estructura


del mejor modelo de riesgos proporcionales, resulta:

h(t, x) = h0 (t)eβ1 x1 +β2 x2 (4.2)

donde:

x1 = Peso por edad Z score (‘PESO-EDZ’)


x2 = Número de dias de diarrea al momento de la hospitalización (‘DIAS-D-I’).

El modelo 4.2, resulta ser el mejor modelo, puesto que queda compuesto por las
variables más significantes y además cumplen con el supuesto de proporcionalidad
en los datos.
Hasta aquı́, solo se ha logrado establecer la estructura de uno de los mejores
modelos, que pueda describir, explicar y predecir la variable T ‘Tiempo de su-
pervivencia hospitalaria hasta el alta por curación’. Lo que resta es
estimar o ajusta dicho modelo a partir de los datos disponibles inicialmente.

105
4.4. Ajuste del mejor Modelo en los datos

El ajuste del modelo encontrado en la sección precedente (mejor modelo,


Mod.4.2), implica verificar la significancia de las variables explicativas ‘DIAS-
D-I’ y ‘PESO-EDZ’, como del modelo mismo sobre los datos disponibles en las
variables para los 1361 niños registrados inicialmente.

4.4.1. Singinificancia de las variables e interpretación de


sus coeficientes

El Cuadro 4.15, describe la significancia de cada variable que conforman el


modelo, a partir de sus coeficientes estimados. Es decir, describe el contraste para
la hipótesis nula H0 : βi = 0; i = 1, 2, de que la información información de la
i-ésima variable no sea significante.

95,0% IC para Exp(bi)


Variable bi ET Wald gl. Sig. Exp(bi) Inferior Superior
PESO_EDZ 0,0695 0,0258 7,2776 1 0,0070 1,0720 1,0192 1,1276
DIAS_D_I -0,0335 0,0124 7,2882 1 0,0069 0,9670 0,9438 0,9909

Cuadro 4.15: Prueba de significancia de las variables ‘DIAS-D-I’ y ‘PESO-EDZ’

del Cuadro4.15 se concluye que, tanto la variable ‘DIAS-D-I’ como ‘PESO-


EDZ’, son significantes a un nivel de confianza del 5 %.

Un niño hospitalizado con cierta cantidad de unidades de ‘PESO-EDZ’,


tiene un riesgo positivo de ser dado de alta por curación de 1,072 veces, en
relación a un niño con una unidad inferior, esto al mismo nivel de ‘DIAS-D-I’
(ajustado por ‘DIAS-D-I’). Es decir, cada unidad de ‘PESO-EDZ’ aumenta
el riesgo positivo de ser dado de alta por curación en un 7,2 %.

Un niño hospitalizado con un cierta cantidad de dı́as de diarrea al momento


de ser hospitalizado, tiene un riesgo positivo de ser dado de alta por curación
de 0,967 veces, en comparación con aquél con un dı́a menos, esto al mismo
nivel de ‘PESO-EDZ’ (ajustado por ‘PESO-EDZ’). Es decir, cada dı́a de
diarrea antes de la hospitalización disminuye el riesgo positivo de ser dado
de alta por curación en un 3,3 %.

106
4.4.2. Significancia del mejor modelo encontrado

El Cuadro 4.16, describe la significancia del mejor modelo, bajo los 3 estadı́sti-
cos de prueba disponibles. Es decir. describe el contrate para la hipótesis nula:

H0 : β 2×1 = (β1 , β2 )T = (0, 0)T = 02×1

de que la información que se perderı́a al excluir el vector de variables explicativas


X = (x1 , x2 )T del modelo, no serı́a significativa. Si se acepta dicha hipótesis, el
modelo 4.2 (mejor modelo) no se ajusta a los datos.

Prueba global Estadístico gl. p


Razón de Verosimilitud 21,42 2 0,0000223
Wald 20,94 2 0,0000284
Puntuación 20,98 2 0,0000278

Cuadro 4.16: Significancia del mejor modelo encontrado

Según los estadı́sticos de prueba, se rechaza la hipótesis nula H0 a un nivel de


hasta el 1 %. Lo que nos indica que el Modelo 4.2 se ajusta a los datos. Con estos
resultados, el mejor modelo de riesgos proporcionales log-lineal, se ajusta de la
forma:
ĥ(t, x) = ĥ0 (t)e0,0695x1 −0,033x2 (4.3)

Ası́, mediante el mejor modelo ajustado 4.3, se podrı́a predecir la supervivencia


hospitalaria de un nuevo niño hospitalizado, en razón de los valores registrados en
‘DIAS-D-I’ y ‘PESO-EDZ’ al momento de su hospitalización.

107
4.4.3. Estimación de la función de supervivencia hospita-
laria ajustado al mejor modelo

El Cuadro 4.17 y la Figura4.2 muestran la función de supervivencia estimada


mediante el Modelo de 4.2.
Tiempo(dias) n.riesgo n.evento Superv. err.es L.inf(95%) L.sup(95%)
0 1007 8 0.9923 0.00272 0.98696 0.9976
1 997 41 0.9525 0.00663 0.93958 0.9656
2 945 101 0.8527 0.01115 0.83108 0.8748
3 838 165 0.6864 0.01475 0.65811 0.7159
4 661 177 0.5023 0.01608 0.47176 0.5348
5 474 131 0.3610 0.01561 0.33171 0.3930
6 338 95 0.2555 0.01431 0.22891 0.2851
7 237 66 0.1797 0.01274 0.15638 0.2065
8 170 41 0.1327 0.01132 0.11224 0.1568
9 127 31 0.0970 0.00994 0.07935 0.1186
10 94 27 0.0661 0.00838 0.05153 0.0847
11 66 13 0.0518 0.00746 0.03901 0.0686
12 53 8 0.0433 0.00682 0.03178 0.0589
13 44 9 0.0338 0.00602 0.02387 0.0480
14 34 8 0.0254 0.00521 0.01703 0.0380
15 26 5 0.0203 0.00465 0.01295 0.0318
16 21 3 0.0173 0.00427 0.01064 0.0281
17 18 3 0.0143 0.00387 0.00843 0.0243
18 15 1 0.0134 0.00373 0.00772 0.0231
20 14 1 0.0124 0.00359 0.00703 0.0219
21 12 1 0.0113 0.00344 0.00626 0.0205
28 10 1 0.0102 0.00328 0.00548 0.0192

Cuadro 4.17: Función de Supervivencia estimado por el mejor modelo

El Cuadro 4.17, muestra la función de supervivencia hospitalaria estimada por


el mejor modelo de cox. En este cuadro puede observarse que la proporción de
niños que permanecen hospitalizados al cavo de la primera semana fue del 17,97 %,
segunda semana 2,54 %, tercera semana 1,13 %, cuarta semana 1 %. Es decir, de
100 niños hospitalizados, aproximadamente 82 son dados de alta por curación a
lo largo de la primera semana, 97 son dados de alta por curación a lo largo de
la segunda semana, 98 son dados de alta por curación a lo largo de la tercera
semana, y prácticamente casi todos son dados de alta por curación a lo largo de
la cuarta semana, a excepción de un niño que sigue hospitalizado.
La Figura4.2, muestra un patron decreciente empinada de la función de su-

108
pervivencia hospitalaria, lo cual nos indica que las altas por curación en los niños
enfermos con diarrea, tienen un comportamiento aproximadamente exponencial a
lo largo del tiempo.

1.0
0.8
Supervivencia Hospitalaria

0.6
0.4
0.2
0.0

0 5 10 15 20 25

Dias
Figura 4.2: Función de supervivencia estimado por el mejor modelo

4.4.4. Comparación con la estimación de Kaplan y Meier

Los resultados obtenidos de estimar la supervivencia hospitalaria mediante el


mejor modelo de riesgos proporcionales log-lineal 4.2, resulto relativamente menor
a los obtenidos mediante el estimador Kaplan y Meier. Esto puede visualizarse
atreves de la Figura 4.3.
Esto nos indica que, para un niño hospitalizado con diarrea su tiempo de
permanencia en el hospital hasta ser dado de alta por curación, disminuye si su
registro de ‘PESO-EDZ’ y ‘DIAS-D-I’, son muy próximos al promedio.

109
1.0
Ajuste por el mejor modelo de Cox

0.8
Estimador Kaplan y Meier
Supervivencia Hospitalaria

0.6
0.4
0.2
0.0

0 5 10 15 20 25

Dias
Figura 4.3: Eficiencia del mejor modelo de Cox sobre el estimador Kaplan y Meier

4.5. Verificación de los supuestos del Modelo

Puesto que el ajuste del mejor modelo de riesgos proporcionales log-lineal


perfilado (modelo 4.2) resultó ser significativo en los datos, ası́ como las variables
explicativas que conforman el modelo, es necesario llevar a cabo un análisis de
residuos.

4.5.1. Supuesto de riesgos proporcionales del modelo

Observando el Cuatro4.18, se puede advertir que no existe evidencia significa-


tiva al 5 % que se viole el supuesto de riesgos proporcionales, ni desde el punto de
vista global, ni para cada variable, por lo que se concluye que el modelo cumple
con el supuesto de riesgos proporcionales.
Otra manera de verificar el supuesto de1 proporcionalidad para cada variable
explicativa que conforma el modelo, es mediante una apreciación gráfica de los

110
rho chisq p
PESO_EDZ 0,023803 0,48800 0,485
DIAS_D_I -0,000239 0,00005 0,994
MODELO NA 0,49200 0,782

Cuadro 4.18: Prueba de riesgos proporcionales para el modelo

Betas para cada variable.

4.5.2. Supuesto de riesgos proporcionales para la variable


‘PESO-EDZ’
2
Beta(t) for PESO_EDZ

1
0
−1

2.1 3.2 3.9 4.6 5.4 6.4 7.8 11

Time

Figura 4.4: Prueba de riesgos proporcionales para la variable ‘PESO-EDZ’

La Figura4.4, describe que el riesgo positivo de ser dado de alta por curación
para un niño con cierta cantidad de unidades de peso por edad Z score (‘PESO-
EDZ’), se mantiene proporcional al de aquel que tiene una unidad inferior, a lo
largo del tiempo. Esto debido a que se observa un patron casi horizontal (Figura
4.4)

111
4.5.3. Supuesto de riesgos proporcionales para la variable
‘DIAS-D-I’

1.5
1.0
Beta(t) for DIAS_D_I

0.5
0.0
−0.5

2.1 3.2 3.9 4.6 5.4 6.4 7.8 11

Time

Figura 4.5: Prueba de riesgos proporcionales para la variable ‘DIAS-D-I’

La Figura4.5 muestra que el riesgo positivo de ser dado de alta por curación
para un niño con un número de dias de diarrea al momento de ser hospitalizado
(‘DIAS-D-I’), se mantiene proporcional al de aquel con un dı́a inferior, a lo largo
del tiempo. Esto debido a que se observa un patron casi horizontal (Figura 4.5)

112
1
4.5.4. Identificación de los niños pobremente pronostica-
dos por el Modelo

Como se puede apreciar en la Figura4.6, es que no existe un patron aleatorio


de los desvı́os, lo que indica que existe patrones de contribuciones de niños a
la determinación del modelo, ası́ como algunos niños mal pronosticados por el
modelo.
3
2
res. de desviación

1
0
-1
-2
-3

0 200 400 600 800 1000 1200 1400

Indice-Niño

Figura 4.6: Residuos de Desviación por Índice-niño

4.5.5. Influencia sobre la estimación de los coeficientes

Ahora nos interesamos en evaluar la presencia de influencia de algunas ob-


servaciones en la estimación de los distintos parámetros correspondientes a las
variables que conforman la estructura del modelo.
La estimación del parámetros correspondientes a la variables ‘PESO-D-I’ y
‘DIAS-D-I’, también se observa individuos influyente en los parámetros respectivos
(ver Cuadro 4.7 y 4.8, respectivamente).

113
0.006
0.002
Dfbeta

-0.002
-0.006

-4 -3 -2 -1 0 1 2

PESO_EDZ

Figura 4.7: Influencia para la variable ‘PESO-EDZ’


0.001
Dfbeta

-0.001
-0.003

0 2 4 6 8 10 12 14

DIAS_D_I

Figura 4.8: Influencia para la variable ‘DIAS-D-I’

Finalmente, un último aspecto a considerar se refiere a evaluar la forma fun-


cional de las variable cuantitativas, esto es observar si su forma funcional es cor-
recta dentro el modelo o es necesario realizar alguna transformación.

114
4.5.6. Distribución de la variable ‘PESO-EDZ’

1
Residuos de Martingala

0
−1
−2
−3
−4

−4 −3 −2 −1 0 1 2

PESO_EDZ

Figura 4.9: Residuo de Martingala para la variable ‘PESO-EDZ’

Esta gráfica nos muestra que los residuos de martingala tiene un compor-
tamiento casi lineal, el cual nos indica que la distribución de la variable ‘PESO-
EDZ’ se adecúa al modelo en cuestión.

1
115
4.5.7. Distribución de las ‘DIAS-D-I’

1
0
Residuos de Martingala

−1
−2
−3
−4

0 2 4 6 8 10 12 14

DIAS_D_I

Figura 4.10: Residuo de Martingala para la variable ‘DIAS-D-I’

Análogamente al anterior, la distribución de la variable ‘DIAS-D-I’ se adecúa


al modelo.

1
116
Capı́tulo 5

CONCLUSIONES Y
RECOMENDACIONES

5.1. Conclusiones

5.1.1. Respecto al modelo

El modelo de riesgos proporcionales log-lineal, mas conocido como modelo de


Cox, tiene dos utilidades cuando se trata de analizar datos de supervivencia.

1. Como herramienta de investigación no experimental, para medir un efec-


to de forma precisa mediante el control de las variables de confusión y la
modelización de las interacciones

2. Como procedimiento para seleccionar variables explicativas cuya informa-


ción resulte significante y construir un modelo (mejor modelo) que permita
describir, explicar o predecir variables de tipo tiempo de supervivencia.

El presente trabajo, se desarrollo el modelo de riesgos proporcionales log-lineal,


solo para fines descrito en el segundo puntos. Esto debido a que dicho estudio,
exige todo un trabajo de investigación.

117
5.1.2. Respecto los resultados obtenidos en la aplicación

Se puede concluir que el análisis de los datos en niños hospitalizados con diarrea
en el departamento de La Paz, mediante el modelo de riesgos proporcionales log-
lineal, en el sentido de que se logró identificar uno de los mejores modelos que
fue aquel cuya estructura conforma las variables explicativas más significantes
y cumplen con el supuesto de proporcionalidad. Dicho modelo (mejor modelo),
permite pronosticar que a los largo del tiempo:

1. El incremento de unidad en la variable explicativa ‘PESO-EDZ’, aumenta el


riesgo positivo de ser dado de alta por curación en aproximadamente 7.2 %
de los niños hospitalizados (ver Cuadro4.15). Es decir, disminuye el tiempo
de supervivencia hospitalaria en los niño hospitalizados.

2. El incremento de un dı́a en la variable explicativa ‘DIAS-D-I’, disminuye el


riesgo positivo de ser dado de alta por curación en aproximadamente 3.3 %
de los niños hospitalizados. Es decir, aumenta el tiempo de supervivencia
hospitalaria en los niños hospitalizados (ver Cuadro4.15).

Por otro lado, la función de supervivencia estimada por el mejor modelo en-
contrado, da un pronostico de que las altas por curación son mayores respecto
al pronosticado por el método Kaplan y Meier entre el segundo dı́a y la tercera
semana de hospitalización (ver Figura4.3).

5.2. Recomendaciones

El modelo que se desarrolló en este trabajo fue a partir de la variable respuesta


‘tiempo hasta la ocurrencia del evento o suceso de interés’, permitiendo la posi-
bilidad de censura (ausencia del evento o suceso de interés) fijo por la derecha.
Es decir, un modelo valido para cuando la censura es de tipo no informativo. Sin
embargo, el estudio de supervivencia abarca mas allá del trato con ‘censuras
no informativas’, abarcando de esta manera a las ‘censuras informativas’ o
censuras (ausencia del evento de interés) aleatorias por la por la derecha.
En este sentido, se recomienda desarrollar el modelo de riesgos proporcionales
log-lineal u otros modelos para el caso de censura informativa. En este caso, el

118
modelo de riesgos proporcionales log-lineal u otro modelo planteado por riesgo,
se perfilan como modelos de riesgos en competencia (riesgos competitivos).
Donde la variable de interés, ya no es de una sola respuestas, sino, de multiples
respuestas.
Otro aspecto muy importante que se dejo de lado en este trabajo, es el pro-
cedimiento que a seguir cuando las variables explicativas significantes violan el
supuesto de proporcionalidad, puesto que al ser significantes, excluirlos del mod-
elo implica perdida de información muy valiosa en los datos. Por lo que, para este
caso se recomienda desarrollar métodos que permitan rescatar dicha información
bajo la estructura del modelo en cuestión. Entonces, el modelo se perfila como:
Modelo de Riesgos no Proporcionales Log-lineal.
Finalmente, puesto que el modelo de riesgo proporcionales log-lineal se podrı́a
decir, que es uno mas, de la familia amplia de modelos de riesgos proporcionales. Se
recomienda desarrollar algunos de estos modelos. Uno de los casos seria cuando se
conoce la forma funcional de la distribución del tiempo de supervivencia estándar
o de referencia, direccionando al planteo de un modelo de riesgos proporcionales
completamente paramétrico ya sea log-lineal, logı́stico o lineal.

119
Apéndice A

APÉNDICE

A.1. Propiedades asintóticas importantes

Definición A.1. Sean l1 , l2 , . . . , lm una muestra de m ocurrencias independientes


e idénticamente distribuidas (i.i.d), con vector de puntuaciones U1 , U2 , . . . , Um .
, con E[Ui ] = 01×q y matrices de información V(Ui ) = E[I(β)] para todo i =
1, 2..., m
Entonces, por ley de los grandes números
1 d
m 2 U −−→ Z ∼ N (0, E[I(β)])

∂li
Demostración. Sean, uri = ∂β r
la r-ésima puntuación para la ocurrencia i, por
hipótesis, implica que; E(uri ) = 0 y V (uri ) = E[Irs (β)] para todo i = 1, 2, ..., m.
Luego, las esperanzas y varianzas de uir en términos de las función generadora
de momentos,

Mu0 ir (0) = 0, Mu00ir (0) = E[Irs (β)], y Muir (0) = 1 (A.1)

para todo i = 1, 2, ..., m


Extendiendo la función generadora de momentos para una puntuación a la
serie de Taylor entorno a cero. Tiene la forma

t2 00
Muir (t) = Muir (0) + tMu0 ir (0) + [M (0) + R2 (t)]
2 uir

120
reemplazando (A.1)

t2
Muir (t) = 1 + [E[Irs (β)] + R2 (t)]
2
1
hallando la función generadora de momentos de m 2 ūr
#m
( √tm )2
 m " 
t t
Mm 12 ū (t) = Muir ( √ ) = 1 + E[Irs (β)] + R2 ( √ )
r m 2 m
 h i m
t2 √t )
2
E[Irs (β)] + R2 ( m
= 1 +  (A.2)
m

Luego, cuando la muestra m es muy grande, expresamos la ecuación (A.2) intro-


duciendo limites, es decir cuando m → ∞
 h i m
t2 t
2
E[Irs (β)] + R2 ( √
m
)
lı́m Mm 21 ū (t) = lı́m 1 + 
m→∞ r m→∞ m
t2
h i
lı́m E[Irs (β)]+R2 ( √tm )
= e m→∞ 2 (A.3)

calculando el exponente de (A.3), se tiene

t2 t2 t2
 
t
lı́m E[Irs (β)] + R2 ( √ ) = E[Irs (β)] + lı́m R(s)
m→∞ 2 m 2 2 s→0
t2
= E[Irs (β)], donde; lı́m R2 (s) = 0(A.4)
2 s→o

Los resultados obtenidos tanto en (A.4), como en (A.3) conducen a que:


t2
lı́m Mm 21 ū (t) = e 2 E[Irs (β)] (A.5)
m→∞ r

en consecuencia.
1 d
m 2 ūr −−→ z ∼ N (0, E[Irs (β)])
Por lo tanto
1 d
m 2 U −−→ Z ∼ N (0, E[I(β)])

121
Definición A.2. Bajo las condiciones de la definición (A.1), por el teorema de
limite central. El vector de puntuaciones se distribuye asintóticamente a una nor-
mal con media 0 y matriz de covarianzas I(β), es decir
d
U(β) −−→ Z ∼ N (0, I(β))

Demostración. Según la definición (A.1)


1 d
m 2 U −−→ N (0, E[I(β)])

luego,
m
d
X
Ui −−→ N (0, mE[I(β)]) = N (0, I(β))
i=1
es decir m
X ∂li d
−−→ N (0, I(β))
i=1
∂β

Por lo tanto
d
U(β) −−→ N (0, I(β))

Definición A.3. Sean las ocurrencias l1 , l2 , ... independientes e idénticamente


distribuidas (i.i.d). Luego, sea β̂ un estimador máximo verosı́mil de β basado en
una muestra aleatoria de m ocurrencias observadas l1 , l2 , . . . , lm . Entonces, por el
teorema de lı́mite central.
d
(β̂ − β) −−→ N (0, I −1 (β))

Demostración. Sea p(ji |Hi ) la función de densidad común para las ocurrencias
li ; i = 1, 2, .., m. Recordemos que p(ji |Hi ), esta en función tanto del vector de
parámetros Xi , como de parámetro desconocido β.
Donde, la función de verosimilitud para todas las observaciones resulta:
"m # m m
Y X X
ln[L(β)] = ln p(ji |Hi ) = ln[p(ji |Hi )] = li
i=1 i=1 i=1

derivando respecto del parámetro desconocido β se obtiene la función máximo


verosı́mil,
m m
∂ X ∂ X ∂
ln[L(β)] = li = Ui (β)
∂β i=1
∂β i=1
∂β

122
m
P
igualando a cero, se tiene Ui (β̂) = 0
i=1

Luego, la función, Ui (β̂) aproximando por la serie de Taylor como una función
de vector de parámetros estimado β̂ al rededor del verdadero vector de parámetros
β (recordemos que Xi son constantes), se tiene
 

Ui (β̂) = Ui (β) + (β̂ − β) Ui (β) + Ri1 (β̂)
∂β
donde
lı́m Ri1 (β̂) = 0 (A.6)
β̂→β

sumando las m observaciones de la muestra,


m
" m
#
X X
Ui (β̂) = U(β) + (β̂ − β) I(β) + Ri1 (β̂) = 0
i=1 i=1

Ahora " #−1


m
X
(β̂ − β) = − I(β) + Ri1 (β̂) U
i=1
por definición A.2 se tiene
d
U −−→ Z ∼ N (0, I(β))
m
P d
también, se puede mostrar que Ri1 (β̂) −−→ 0.Por lo tanto,
i=1
" m
#−1
d
X
I(β) + Ri1 (β̂) −−→ I −1 (β)
i=1

h i−1
Pm d
En consecuencia, (β̂ − β) = − I(β) + i=1 Ri1 (β̂) U −−→ I −1 (β)Z
Haciendo I(β) = I por fines de cálculo, tenemos

I −1 Z ∼ N (0, (I −1 )I(I −1 )T ) = N (0, I −1 I(I T )−1 )


= N (0, I −1 (II −1 )) por simetrı́a; I T = I
= N (0, I −1 .I) ya que; II −1 = I
= N (0, I −1 )

ası́,
d
(β̂ − β) −−→ N (0, I −1 (β))

123
Definición A.4. El vector de parámetros estimado β̂, es consistente con respecto
al parámetro verdadero β

d d
Demostración. β̂ será un estimador consistente de β si; E[β̂] −−→ β, y V [β̂] −−→ 0.
Por definición A.3 se tiene,
d
(β̂ − β) −−→ N (0, I −1 (β))

entonces

E[(β̂ − β)] = 0
E[β̂] − β = 0
d
E[β̂] = β ⇒ E[β̂] −−→ β

V [β̂ − β] = [I(β)]−1
V [β̂] = {mE[I(β)]}−1
= m−1 {E[I(β)]}−1
1 d
= {E[I(β)]}−1 ⇒ V [β̂] −−→ 0
m

Por lo tanto, β̂ es un estimador consistente de β

A.2. Análisis de los datos por el paquete ‘SPSS’

Se uso el paquete estadı́stico ‘SPSS’ versión 11.5, en el proceso de selección de


las variables explicativas más significantes de entre las 16 variables inicialmente
establecidas para los 1361 niños hospitalizados (ver Cuadro 4.5, Capitulo 4)
contemplado en la base de datos (b.diarr.sav).

A.2.1. Identificación de las variables influyentes bajo la


estructura del model de Cox

Una vez introducido la base de datos b.diarr.sav el paquete estadı́stico SPSS,


se sigue los siguientes pasos:

124
1. Menú → Analizar → Supervivencia → Regresión de Cox.

2. Se introdujo la variable ‘TIEMPO’, en la casilla Tiempo.

3. Se introdujo La variable ‘ESTADO’ en la casilla Estado, y se definió como


evento “Alta por curación” (‘ESTADO’=1)

4. Se introducen las 16 variables establecidas (cuantitativas y cualitativas) en


la casilla Covariables

5. Opción Categórica

6. Se clasificó las variables categóricas como tal, y se asignó a la primera cate-


gorı́a, como concatenarı́a de referencia en cada variable, manteniendo como
método de contraste Indicador

7. Opción Continuar

8. Se seleccionó en la casilla de Método, el método por pasos hacia adelante


bajo el criterio del estadı́stico de razón de verosimilitud (Adelante:RV)

9. Finalmente la opción Aceptar.

Los estadı́sticos usados en este proceso son: Para cada modelo: –2LL, el es-
tadı́stico de la razón de verosimilitud y el chi-cuadrado global. Para las variables
dentro del modelo: Estimaciones de los parámetros, Errores tı́picos y Estadı́sticos
de Wald, con nivel de confianza del 10 %. Para variables que no estén en el mod-
elo: Estadı́sticos de Puntuación y Chi-cuadrado residual, con nivel de confianza
del 5 %.

A.3. Análisis de datos por Software ‘R’

La versión del software ‘R’ usado para el proceso de datos, tanto para estima-
ciones por el método Kaplan-Meier como por el modelo de riesgos proporcionales
log-lineal, fue la versión: ‘R2,10,1’.
El análisis para el modelo de Cox, fue a partir del mejor modelo de Cox,
cuya estructura quedo conformado por las variables explicativas que resultaron
ser más significantes los cuales se fueron identificados con el paquete estadı́stico

125
SP SS descrito en la sección precedente y hayan cumplido con el supuesto de
proporcionalidad el cuál el cual fue posible con el software R.

A.3.1. Kaplan y Meier

> # Estimación de la función de supervivencia de Kaplan y Meier,


> km<-survfit(Surv(TIEMPO,ESTAD)~1,data=b.diarr)
> # Donde:
> # km, es el nombre del objeto al cual se le asignará la función
> # survfit (es conveniente cambiar el nombre si se desea hacer
> # operaciones posteriores), km indica que se trata de objeto
> # tipo Kaplan-Meier (opcional).
> # Surv, es la función para estimar la función de supervivencia.
> # TIEMPO, es el tiempo de supervivencia hospitalaria (en días).
> # ESTADO, es la variable dicotómica definido por el evento de interés,
> # Estado al momento del alta por curación (1=curado,0=no curado)
># b.diarr, es la base de datos re-estructurado de 1361 niños hospitalizados

> # Obtención de los valores resumen:


> km1

> # Obtención de la función de supervivencia hospitalaria mediante tabla:


> summary(km1)

> # Obtención del grafico de la función de supervivencia hospitalaria:


> plot(km1,col="blue", xlab="Días",ylab="Supervivencia")

126
A.3.2. Modelo de riesgos proporcionales log-lineal

> # Ajuste del mejor modelo de riesgos proporcionales log-lineal (modelo de Cox):
> cox<-coxph(Surv(TIEMPO, ESTADO)~PESO_EDZ+DIAS_D_I,
+ data = b.diarr, na.action = na.exclude, iter.max=50)
> # Donde:
> # cox es el nombre del objeto al cual se le asignará la función
> # coxph (es conveniente cambiar el nombre si se desea hacer
> # operaciones posteriores), cox indica que se trata de objeto
> # tipo Cox (opcional).
> # coxph es la función para la obtención del ajuste por el modelo de
> # Cox.
> # PESO_EDZ, es la variable explicativa definido como: Índice de peso por edad Z
> # Score.
> # DIAS_D_I, es la variable explicativa definido como: Número de días de diarrea al
> # momento de la hospitalización.

> # na.action = na.exclude se utiliza para que excluya los individuos con
> # valores perdidos.
> # iter.max = se utiliza para fijar el número máximo de iteraciones,
> # se utiliza cuando no se logra la convergencia en el número de
> # iteraciones por defecto.

> # Obtención de los resultados del modelo de Cox estimado:


> summary(cox)

> # Obtención de la tabla de la función de supervivencia hospitalaria estimada mediante


> # el modelo:
> summary(survfit(cox))

> # Obtención del grafico de la función de supervivencia hospitalaria estimada


> # mediante el modelo :
> plot(survfit(cox), ylab="Supervivencia",xlab="Días")

> # Obtención del grafico para comparar la función de supervivencia hospitalaria


> # estimadas mediante el Modelo de Cox estimador de Kaplan y Meier:
>plot(survfit(cox),ylab="Supervivencia", xlab="Días",conf.int=F,
+col="red")
> lines(km, lty=2, col="blue")
>legend(12,0.8,c("Ajuste modelo de Cox","Estimador Kaplan y
+Meier"), lty=c(1,2), col=c(5,2))

> # Prueba del supuesto de proporcionalidad del modelo y las variables


> # explicativas:
> cox.zph(cox)
> # Prueba de proporcionalidad de la variable explicativa PESO_EDZ mediante la
> # grafica su beta:
>plot(cox.zph(cox), var=1)
> # Prueba de proporcionalidad de la variable explicativa DIAS_D_I mediante la
> # grafica de su beta:
> plot(cox.zph(cox), var=2)

> # Obtención de la grafica de los residuos de desviación:


>plot(resid(cox,type="deviance"),xlab="Indice-Niño",
+ylab="res. de +desviación") 127

> # Obtención de la grafica de los residuos delta Beta para la variable PESO_EDZ
> rr<-resid(cox,type="dfbeta")
> attach(b.diarr)
> plot(PESO_EDZ,rr[,1], xlab="PESO_EDZ",ylab="Dfbeta)
> # Obtención de la grafica de los residuos delta Beta para la variable PESO_EDZ
> # Obtención de la grafica de los residuos de desviación:
> plot(resid(cox,type="deviance"),xlab="Indice-Niño",
+ ylab="res. de desviación")

> # Obtención de la grafica de los residuos delta Beta para la variable PESO_EDZ:
> rr<-resid(cox,type="dfbeta")
> attach(b.diarr)
> plot(PESO_EDZ,rr[,1], xlab="PESO_EDZ",ylab="Dfbeta)

> # Obtención de la grafica de los residuos delta Beta para la variable DIAS_D_I:
> rr<-resid(cox,type="dfbeta")
> attach(b.diarr)
> plot(DIAS_D_I ,rr[,2], xlab=" DIAS_D_I ",ylab="Dfbeta)

> # Obtención de la grafica de los residuos de Martingala para PESO_EDZ:


> b2.diarr<-na.omit(b.diarr[,c("TIEMPO","ESTADO","PESO_EdZ",
+"DIAS_D_I")])
> cox2<-coxph(Surv(TIEMPO,ESTADO)~1,data=b2.diarr)
> rr<-resid(cox2)
> plot(b2.diarr$PESO_EDZ,rr,xlab="PESO_EDZ",ylab="Residuos de
+ Martingala")
> lines(lowess(b2.diarr$PESO_EDZ,rr,iter=0), col="red")

> # Obtención de la grafica de los residuos de Martingala para DIAS_D_I:


> cox3<-coxph(Surv(TIEMPO,ESTADO)~1,data=b.diarr,
+ na.action=na.exclude)
> rr<-resid(cox3)
> plot(b.diarr$DIAS_D_I,rr,xlab="DIAS_D_I",ylab="Residuos de
+ Martingala")
> lines(lowess(b.diarr$DIAs_D_I,rr,iter=0) ,col="red").

128
Referencias bibliográficas

[1] Alfonso Luis Palmer Pol y Jose Maria Losilla Vidal. ‘EL MODELO DE RIES-
GOS PROPORCIONALES’

[2] Artur Jos´e Lemonte Luis Hernando Vanegas. ‘INFERENCIA BASADA EN


LA ESTADISTICA DE WALD’. Revista Colombiana de Estadı́stica 2005.

[3] César R. de Oliveira ‘INTRODUCCIÓN AL ANÁLISIS FUNCIONAL’, IM-


PA, Rio de Janeiro, 2001.

[4] E. Corpas-Nogales and A. M. Lara-Porras ‘APLICACIÓN DEL MODELO


DE RIESGOS PROPORCIONALES DE COX A PACIENTES CON SIDA
ENESPAÑA’, Departamento de Investigación en Estadı́sticas. Facultad de
Ciencias. Universidad de Granada. España.

[5] D.R. Cox. ‘ANALYSIS OF SURVIVAL DATA’

[6] G.A.F. Seber ”LINEAR REGRESION ANALYSIS’

[7] Hospital Universitario ramón Cajal ‘ANÁLISIS DE RESIDUOS’ Comunidad


Madrid.

[8] Artur Jos´e Lemonte Luis Hernando Vanegas ‘INFERENCIA BASADA EN


LA ESTADISTICA DE WALD”. Revista Colombiana de Estadı́stica 2005.

[9] John Fox ‘COX PROPORTIONAL-HAZARD REGRESSION FOR SUR-


VIVAL DATA’ 2002

[10] Juán Chaphi ‘DELOS DE DURACIÓN’ Carrera Estadı́stica UMSA 2007.

[11] Luis M. Molinero ‘VERIFICACIÓN DE LOS MODELOS DE SUPERVIEN-


CIA DE COX’ Asociación de la Sociedad Española de Hipertensión. Agosto
2004

129
[12] Mai Zhou. ‘UDERSTANDIN THE COX REGRESSION MODELS WITH
TIME-CHANGE COVARIATES’.

[13] Maria, K.V. (1997). ‘ANÁLISIS MULTIVARIANTE’. Academic Press, Lon-


don.

[14] Mariano Aguayo Canila. ‘COMO HACER REGRESIÓN LOGÍSTICA EN


EL SPSS’. Fundación Andaluza Beturia.

[15] MD Mauricio Salinas F. ‘MODELOS DE REGRESIÓN EN ANÁLISIS DE


SUPERVIVENCIA’. Articulo de la Unidad de epidemiologı́a y Estadı́stica
ACHS

[16] Kaplan EL, Meier P. 1958. ‘NONPARAMETRIC ESTIMATION FROM IN-


COMPLETE OBSERVATIONS’ observations. J Am Stat Assoc.

[17] Rafael Eduardo Boirges P ‘ANÁLISIS DE SUPERVIVENCIA DE PA-


CIENTES CON DIÁLISI PERITONEAL’. Universidad Nacional de Colom-
bia 2005.

[18] Samuel Karlin y Howard M. Taylor ‘A FIRST COUSE IN STOCHASTIC


PROCESSES’

[19] Stevent F. Arnold ‘MATHEMATICAL STATISTICS’ The Pennsylvania


State University

[20] Terry M. Thernerau y Patricia M. Grambsch. ‘MODELING SURVIVAL DA-


TA: EXTENDIG THE COX MODEL’

130

También podría gustarte