T-069 Supervivencia
T-069 Supervivencia
T-069 Supervivencia
A
RP C
EN
JO
VERSITAS MA
S IS
D I VI A N D R E A
U NI
MODELO DE RIESGOS
PROPORCIONALES
LOG-LINEAL
MODELO DE RIESGOS
PROPORCIONALES
LOG-LINEAL
Licenciatura en Estadı́stica
Y a mis princesitas:
Ariana Cammily y Rossela Resalı́a
i
Agradecimientos
ii
Índice general
Agradecimientos II
Resumen 1
1. INTRODUCCIÓN 2
1.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Planteamiento del Problema . . . . . . . . . . . . . . . . . . . 6
1.3. Planteamiento de Objetivos . . . . . . . . . . . . . . . . . . . 6
1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . 6
1.4. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. Técnicas Estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Metodologı́a Estadı́stica . . . . . . . . . . . . . . . . . . . . . 7
1.7. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . 12
1.7.1. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 12
iii
2.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2. Tiempo de Supervivencia . . . . . . . . . . . . . . . . . . . 16
2.1.3. Censura y Truncamiento . . . . . . . . . . . . . . . . . . . 17
2.1.4. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.5. Truncamiento . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2. Distribución del Tiempo de Supervivencia . . . . . . . . . . 25
2.2.1. Función de supervivencia . . . . . . . . . . . . . . . . . . . 26
2.2.2. Función de probabilidad . . . . . . . . . . . . . . . . . . . 28
2.2.3. Función Riesgo . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.4. Función de vida media residual . . . . . . . . . . . . . . . 36
2.3. Modelos paramétricos comunes . . . . . . . . . . . . . . . . . 39
2.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.2. Modelo Exponencial . . . . . . . . . . . . . . . . . . . . . 40
2.3.3. Modelo Weibull . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.4. Distribución Log-normal . . . . . . . . . . . . . . . . . . . 42
2.4. Método de análisis paramétrico . . . . . . . . . . . . . . . . . 42
2.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.2. Función de verosimilitud . . . . . . . . . . . . . . . . . . . 43
2.4.3. Teorı́a de verosimilitud . . . . . . . . . . . . . . . . . . . . 45
2.5. Método de análisis no paramétrico . . . . . . . . . . . . . . . 47
2.5.1. Estimador de Kaplan y Meyer . . . . . . . . . . . . . . . . 47
2.5.2. Estimador del riesgo acumulativo: Bondad de ajuste . . . . 51
2.6. Dependencia de Variables Explicativas . . . . . . . . . . . . 52
2.6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.6.2. Modelo de vida acelerada . . . . . . . . . . . . . . . . . . 53
iv
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.2. Representación de los Modelos de riesgos proporcionales . 60
3.2.1. Modelo sin variables explicativas . . . . . . . . . . . . . . 60
3.2.2. Modelo con variables explicativas . . . . . . . . . . . . . . 62
3.3. El modelo de riesgos proporcionales Log-lineal . . . . . . . 63
3.4. Inclusión de variables explicativas en el modelo . . . . . . . 64
3.4.1. Inclusión de variables explicativas cuantitativas . . . . . . 64
3.4.2. Inclusión de variables explicativas cualitativas . . . . . . . 64
3.5. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . 65
3.5.1. En ausencia de censura . . . . . . . . . . . . . . . . . . . . 66
3.5.2. En presencia de censura . . . . . . . . . . . . . . . . . . . 70
3.5.3. Con variables explicativas dependientes del tiempo . . . . 72
3.6. Estimación del vector de parámetros . . . . . . . . . . . . . 74
3.6.1. Vector de Puntuaciones . . . . . . . . . . . . . . . . . . . . 74
3.6.2. Matriz de Información . . . . . . . . . . . . . . . . . . . . 76
3.6.3. Estimador Puntual . . . . . . . . . . . . . . . . . . . . . . 79
3.6.4. Estimador por Intervalos . . . . . . . . . . . . . . . . . . . 79
3.7. Contraste de Hipótesis . . . . . . . . . . . . . . . . . . . . . . 81
3.7.1. Prueba de Puntuaciones . . . . . . . . . . . . . . . . . . . 81
3.7.2. Prueba de Wald . . . . . . . . . . . . . . . . . . . . . . . . 82
3.7.3. Prueba de Razón de verosimilitudes . . . . . . . . . . . . . 83
3.8. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.8.1. Residuos de martingala . . . . . . . . . . . . . . . . . . . . 85
3.8.2. Residuos de desviación . . . . . . . . . . . . . . . . . . . . 85
3.8.3. Puntuaciones . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.8.4. Residuos de Schoenfeld . . . . . . . . . . . . . . . . . . . . 88
v
4. APLICACIÓN 90
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.1. Población en estudio . . . . . . . . . . . . . . . . . . . . . 91
4.1.2. Definición y construcción de la variable de estudio . . . . . 93
4.2. Estimación de la Función de Supervivencia hospitalaria
por Kaplan y Meier . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3. Búsqueda del mejor modelo de Riesgos Proporcionales Log-
lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3.1. Identificación de las variables significantes . . . . . . . . . 97
4.3.2. Modelo con las variables más influyentes . . . . . . . . . . 103
4.3.3. Verificación del supuesto de proporcionalidad de las vari-
ables significantes . . . . . . . . . . . . . . . . . . . . . . . 104
4.3.4. Estructura del mejor modelo de riesgos proporcionales Log-
Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.4. Ajuste del mejor Modelo en los datos . . . . . . . . . . . . . 106
4.4.1. Singinificancia de las variables e interpretación de sus coe-
ficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4.2. Significancia del mejor modelo encontrado . . . . . . . . . 107
4.4.3. Estimación de la función de supervivencia hospitalaria ajus-
tado al mejor modelo . . . . . . . . . . . . . . . . . . . . . 108
4.4.4. Comparación con la estimación de Kaplan y Meier . . . . 109
4.5. Verificación de los supuestos del Modelo . . . . . . . . . . . 110
4.5.1. Supuesto de riesgos proporcionales del modelo . . . . . . . 110
4.5.2. Supuesto de riesgos proporcionales para la variable ‘PESO-
EDZ’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.5.3. Supuesto de riesgos proporcionales para la variable ‘DIAS-
D-I’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.5.4. Identificación de los niños pobremente pronosticados por el
Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
vi
4.5.5. Influencia sobre la estimación de los coeficientes . . . . . . 113
4.5.6. Distribución de la variable ‘PESO-EDZ’ . . . . . . . . . . 115
4.5.7. Distribución de las ‘DIAS-D-I’ . . . . . . . . . . . . . . . . 116
A. APÉNDICE 120
A.1. Propiedades asintóticas importantes . . . . . . . . . . . . . . 120
A.2. Análisis de los datos por el paquete ‘SPSS’ . . . . . . . . . 124
A.2.1. Identificación de las variables influyentes bajo la estructura
del model de Cox . . . . . . . . . . . . . . . . . . . . . . . 124
A.3. Análisis de datos por Software ‘R’ . . . . . . . . . . . . . . . 125
A.3.1. Kaplan y Meier . . . . . . . . . . . . . . . . . . . . . . . . 126
A.3.2. Modelo de riesgos proporcionales log-lineal . . . . . . . . . 127
vii
Índice de cuadros
viii
Índice de figuras
ix
4.2. Función de supervivencia estimado por el mejor modelo . . . . . . . 109
4.3. Eficiencia del mejor modelo de Cox sobre el estimador Kaplan y Meier 110
4.4. Prueba de riesgos proporcionales para la variable ‘PESO-EDZ’ . . . . . . 111
4.5. Prueba de riesgos proporcionales para la variable ‘DIAS-D-I’ . . . . . . . 112
4.6. Residuos de Desviación por Índice-niño . . . . . . . . . . . . . . . . 113
4.7. Influencia para la variable ‘PESO-EDZ’ . . . . . . . . . . . . . . . . 114
4.8. Influencia para la variable ‘DIAS-D-I’ . . . . . . . . . . . . . . . . . 114
4.9. Residuo de Martingala para la variable ‘PESO-EDZ’ . . . . . . . . . 115
4.10. Residuo de Martingala para la variable ‘DIAS-D-I’ . . . . . . . . . . 116
x
Resumen
1
Capı́tulo 1
INTRODUCCIÓN
1.1. Generalidades
1.1.1. Introducción
2
Lo que hace que el análisis de supervivencia sea especial estriba en que las
respuestas son tiempos y por tanto no se miden igual que el resto de las variables.
Cualquier variable puede en general medirse instantáneamente, sin embargo, en
supervivencia las observaciones grandes tardan más tiempo en medirse que las
pequeñas. El hecho de que la variable respuesta ‘T ’ se mida secuencialmente, se
expone a la censura. La censura se da cuando se tiene información incompleta
sobre la supervivencia de algunos sujetos. Por ejemplo, si el evento o suceso de
interés es la muerte, todos aquellos sujetos vivos al finalizar el estudio contribuyen
una información parcial sobre la realización del evento o suceso, a saber, que el
tiempo hasta el mismo excede el periodo de observado. Esta ‘desinformación’
acarrea problemas técnicos considerables. La mayorı́a de los métodos usados en el
análisis de supervivencia presuponen que los individuos censurados están sujetos
a la misma probabilidad de presentar el evento o suceso de interés que los que
permanecen en estudio** . Nos podemos preguntar por qué tenemos censura y se
nos pueden ocurrir bastantes razones. Por ejemplo, porque finalizamos el estudio
antes de que hayan ocurrido todos los eventos o suceso de interés, o porque se
pierden el seguimiento del sujetos (perdida de seguimiento) si la persona emigra,
o si cambia de hospital y por tanto los sujetos no son observados durante el resto
de estudio, o porque el sujeto presenta eventos o sucesos ajenos al evento o suceso
de interés por ejemplo, si el evento o suceso de interés es: Muerte por cáncer
de pulmón. Un suceso ajeno a éste serı́a: Muerte por accidente de tráfico.
El análisis de este tipo de datos se hace más interesante, de como una serie
de factores (variables independientes) tienen efecto sobre la variable ‘T ’, en el
sentido de incrementarlo o decrementarlo. En este caso, es necesario llevar a cavo
el análisis bajo una forma de modelo matemático (tipo regresión) que permita,
valorar el efecto de dichos factores sobre el tiempo de supervivencia.
Un posible método, consiste en suponer que los tiempos de supervivencia
siguen una determinada distribución o función matemática. Para ello se plantea un
modelo de cómo evoluciona en función del tiempo la tasa de ocurrencia (ó ries-
go de ocurrencia). Las diferentes técnicas que se usan en este caso, son modelos
matemáticos de tipo regresión que permiten identificar y evaluar la relación entre
un conjunto de factores o variables independientes con la tasa de ocurrencia al
que el astrónomo Edmon Halley publicó a partir del registro de funerales y nacimientos de la
ciudad de Breslau1 (Siglo XVII ).
**
Ésta es llamada censura no informativa (más conocidos como censura por la derecha).
3
paso del tiempo.
El Análisis de Supervivencia, se ha convertido en una importante aplicación
de la Estadı́stica, debido a las diferentes aplicaciones que se ha podido encontrar,
en areas tales como: Demografı́a (probabilidad de muerte); Medicina (Probabilidad
de éxito de un tratamiento); Ingenierı́a (Probabilidad de falla), etc.
1.1.2. Antecedentes
Los datos de supervivencia se pueden dar y estudiar con dos tipos de proba-
bilidades diferentes: Supervivencia y Riesgo. Casi todos nosotros hemos visto
en alguna ocasión una curva de supervivencia. La “probabilidad de super-
vivencia” (también llamada, función de supervivencia ) el cual representa la
probabilidad de que un individuo sobreviva desde la fecha de entrada en el estu-
dio hasta un momento determinado en el tiempo. Estos valores van a describir
la supervivencia global de toda la población en estudio. Pero incluso más intere-
sante que la función de supervivencia, aunque menos conocida, es la “función
de riesgo”, denotado por h(t), el cuál se define como: La probabilidad de que
un individuo que está siendo observado en el momento t, experimente el evento
o suceso de interés en ese instante. Por ejemplo, nos da respuesta a la incógnita:
¿cuál es la probabilidad de que muera un paciente operado de cáncer de esófago a
los 16 meses de la operación, sabiendo que haya sobrevivido hasta ese momento?.
Hay que destacar las diferencias entre ambas probabilidades. Mientras que la fun-
ción de supervivencia se centra sobre todo en la “no ocurrencia” del evento (el
paciente no ha fallecido; o no ha recidivado), la función de riesgo se centra en
la “ocurrencia” del evento. Proporciona información tan valiosa como la tasa
de incidencia, es decir, puede contestarnos preguntas como ¿en qué momento voy
a tener el pico de ocurrencias? que pueden implicar cambios en nuestro quehacer
clı́nico diario. Si en el ejemplo del cáncer de esófago, la función de riesgo nos dice
que el pico máximo de muertes se sitúa alrededor de los 12 meses, podrı́amos
plantearnos un seguimiento más exhaustivo de los pacientes hacia los 8 meses,
con el objeto de detectarlas en una fase más precoz que ofreciera posibilidades
terapéuticas.
En el año 1958, Kaplan y Meier propusieron una metodologı́a para obtener
estimaciones puntuales de la función de supervivencia. Este método consiste en
4
descomponer la supervivencia al cabo de un tiempo en un producto de probabili-
dades condicionales, y estima cada uno de los factores de dicho producto. Si F(t),
es la función de supervivencia al cabo de t, el método de Kaplan y Meyer estima
ni − mi
F(t) mediante la estimación de los factores para todo los ti menores o
ni
iguales a t. Es decir:
Y ni − mi
F(t) =
t ≤t
ni
i
donde F0 (t; φ) y h0 (t; φ) son conocidos, a partir del supuesto de que T sigue una
determinada función de distribución paramétrica (Exponencial, Gamma, Weibull,
etc.). Mientras que ψ(x; β) corresponde a una función paramétrica para el vector
X = (x1 , x2 , ...) (Lineal, Log-lineal, Logı́stico, etc.). Esta amplia familia de modelos
fueron estudiados por Aranda-Ordaz (1980) y Burridge (1981).
Bajo éstas caracterı́sticas, los modelos de riesgos proporcionales resultan com-
pletamente paramétricos, haciendo que el análisis de los datos sea mediante una
metodologı́a completamente paramétrica.
La aplicación de estos modelos, tiene dos vertientes, la primera como her-
ramienta de investigación no experimental, para medir un efecto de forma precisa
mediante el control de las variables de confusión y la modelización de las interac-
ciones, y la segunda como procedimiento para seleccionar variables predictoras y
construir un modelo (parsimonioso) que permita describir, explicar o predecir la
respuesta (T ) de los sujetos y también evaluar la contribución de cada una de las
variables predictoras.
5
1.2. Planteamiento del Problema
Una vez expuesto el problema central, se definen los siguientes objetivos que
se pretende con el presente trabajo.
6
Buscar el mejor modelo de Cox (modelo parsimonioso).
Contrastar los supuestos que conlleva el estudio del Modelo de Cox, en los
datos.
1.4. Hipótesis
Las técnicas estadı́sticas que se utilizaran para nuestro objetivo, se sustenta to-
do lo que concierne a la teorı́a de probabilidad, análisis de regresión multivariante,
procesos estocásticos, teorı́a martingala, y análisis no paramétrico.
Por lo que, a partir de métodos se pretende el objetivo ya mencionado.
El tiempo, no deja de ser una variable cuantitativa, que puede representar por
ejemplo; número de años, meses, semanas, etc,.. que quizá se pensarı́a estudiar
7
por métodos habituales tales como: Análisis de varianza o algunos modelos de
regresión. No obstante, en este tipo de análisis existen algunas particularidades
que se debe tomar en cuenta. En primer lugar, que la variable tiempo no acos-
tumbra seguir una distribución normal, y en segundo que, durante el seguimiento
existen pérdidas que imposibilitan la observación del suceso o evento estudiado.
Es decir, en un estudio de supervivencia, probablemente al finalizar el tiempo
de seguimiento no conoceremos el estado de los individuos bajo estudio, puesto
que algunos de ellos no completen el seguimiento (deciden dejar el estudio), otro
quizá no presenten el suceso o evento, y en otros que presentaron eventos o sucesos
ajenas a la que se estudia (evento o suceso de interés).
La metodologı́a de realizar un estudio de supervivencia, consiste en obtener una
función dependiente de tiempo, cuyos valores nos proporcionen la probabilidad de
que el suceso de interés no ocurra hasta pasado un periodo de tiempo mayor o
igual al que se esta evaluando. Por ejemplo, si el suceso o evento de interés es
muerte, se trata de obtener una función dependiente del tiempo, cuyo valor nos
proporcione la probabilidad de que no muera (sobreviva) hasta pasado un periodo
de tiempo mayor o igual a al que se está evaluando (un año, cinco años, etc.).
Para planificar correctamente un estudio de supervivencia, se debe definir
apropiadamente el origen o inicio de seguimiento, la escala de tiempo que se va ha
utilizar y el evento o suceso que se pretende estudiar para que no se introduzcan
suceso debidos a otras causas ajenas a la de interés.
Para centrar la exposición supongamos que el dato de interés es el tiempo hasta
la aparición de problemas microvasculares en un conjunto de pacientes diabéticos
tipo II hipertensos, en un estudio prospectivo durante 5 años. Escogemos inten-
cionalmente un ejemplo en el que el suceso no es el fallecimiento del paciente
para ilustrar precisamente el uso de estas técnicas fuera del ámbito del concepto
estricto de supervivencia.
La caracterı́stica más importante de este tipo de datos (tiempo hasta que ocurre
un suceso) es que, muy probablemente, al final del periodo de observación no
todos los pacientes habrán presentado el suceso objeto de estudio. Además puede
ocurrir que algunos pacientes se hayan perdido por causas diversas, no habiendo
sido posible determinar su estado. O cuando el suceso es la muerte pueden haber
fallecido por causas diferentes a las que se analizan (por ejemplo en un accidente
automovilı́stico).
8
También es habitual que los pacientes vayan incorporándose durante todo el
periodo de observación, por lo que los últimos en hacerlo serán observados durante
un periodo de tiempo menor que los que entraron al principio y por lo tanto la
probabilidad de que les ocurra el suceso es menor.
Es intuitivo que con este tipo de datos no podemos usar los métodos estadı́sti-
cos habituales para variables cuantitativas, como pueden ser el cálculo de medias y
su comparación mediante la t de Student. Ası́ en el ejemplo planteado ¿qué sentido
tendrı́a calcular el tiempo medio hasta la aparición de problemas microvasculares,
cuando no todos los pacientes han sido observados durante el mismo periodo y
además hay pacientes que no llegan a tenerlos? ¿Y qué hacemos con los pacientes
que no se observaron hasta el final?
Precisamente esas observaciones incompletas, todos los pacientes que hasta el
último momento en que fueron observados (bien sea al final del estudio o antes,
si se perdieron por alguna causa) y no habı́an desarrollado el suceso, tienen tam-
bién importancia, y el tiempo durante el que fueron observados debe intervenir
en el análisis. En la terminologı́a inglesa se les denomina denomina ”Censored
observations”(Observaciones censuradas).
Si todos los pacientes estudiados experimentan el suceso durante el periodo de
observación (en nuestro ejemplo todos en algún momento llegan a presentar proble-
mas microvasculares), es fácil calcular la proporción de pacientes que transcurrido
un tiempo determinado desde que comenzó su observación no han llegado a tener
problemas microvasculares. Podrı́amos representar gráficamente la proporción de
pacientes sin problemas en función del tiempo.
Pero las cosas no son tan sencillas si no todos los pacientes presentan el suceso.
Un paciente puede haber entrado a mitad del estudio, siendo observado durante
3 años, y al finalizar éste no presentar problemas microvasculares. No sabemos
entonces que habrı́a pasado con el paciente si lo siguiéramos 2 años más, hasta
completar los 5 años. Ahora ya no es tan simple determinar la proporción de
pacientes con problemas microvasculares a los 5 años desde la inclusión en el
estudio. Por ello se utiliza el denominado método de Kaplan-Meier, que se basa
en algo que es obvio: para sobrevivir un año hay que sobrevivir cada uno de los
dı́as de éste. Calculamos entonces para cada dı́a la proporción de sucesos que se
observan en ese dı́a.
9
Utilizando el concepto de probabilidad condicional decimos que para vivir 31
dı́as hay que vivir 30 dı́as y luego un dı́a más. En estadı́stica esto se calcula mul-
tiplicando las probabilidades. La probabilidad de vivir una semana vendrá dada
por
P1 ∗ P2 ∗ P3 ∗ P4 ∗ P5 ∗ P6 ∗ P7
10
Aunque la tasa de supervivencia calculada en nuestra muestra para cada in-
stante individual es una estimación muy burda del valor verdadero, sin embargo
el producto de muchas de esas tasas constituye una estimación bastante precisa
de la curva de supervivencia.
La regresión de Cox consiste en obtener una función lineal de las variables
explicativas que permita estimar, en función del tiempo, la probabilidad de que
ocurra dicho suceso. Se supone que existe un conjunto de variables explicativas
X1 , X2 , ...., Xn , cuyos valores influyen en el tiempo que transcurre hasta que ocurre
el evento o suceso de interés. Si se define la función riesgo, h(t) como el limite
cuando dt tiende a cero, la probabilidad de que el evento o suceso de interés
ocurra en un pequeño intervalo (t, t + dt), supuesto que no ha ocurrido antes del
instante t. El modelo de riesgos proporcionales log-lineal se postula como:
h(t, X) = h0 (t) ∗ eβ
T
xj
Donde:
h(t, X) Es la función de riesgo o tasa instantánea de riesgo, considerando la
información del conjunto de variables, X = (X1 , X2 , ...., Xn )
h0 (t) Es la función de riesgo de referencia, pues no considera el efecto del
conjunto de variables, X1 , X2 , ...., Xn
Es decir se supone que la función de riesgo se puede expresar como el producto
de una función de t y otra función que únicamente depende de, X1 , X2 , ...., Xn .
Lo que hace el modelo de COX es promediar de manera ponderada los riegos,
o tasas instantáneas de riesgos h(t, X), de los diversos momentos t en los que
produce el evento o suceso de interés. Viene a ser como hacer muchas regresiones
logı́sticas, una para cada momento en que se observa algún suceso.
En la regresión lineal se estimaban los coeficientes por el método de mı́nimos
cuadrados, en cambio, en la regresión Logı́stica y la de COX no sirve el método
de mı́nimos cuadrados, y hay que hacerlos por otros métodos.
11
1.7. Alcances y Limitaciones
1.7.1. Alcances
1.7.2. Limitaciones
12
esa variable y el tiempo, donde que resulta una variable explicativa dependiente
del tiempo. Otra alternativa cuando no se cumple la hipótesis de riesgos propor-
cionales es construir un modelo en el que la función de riesgo base h0 (t) pueda
variar de forma diferente en cada grupo (en el caso de que la variable sea numérica
habrı́a que estratificar ).
13
Capı́tulo 2
MARCO TEÓRICO DE LA
INVESTIGACIÓN
2.1.1. Introducción
14
nentes de máquinas en fiabilidad industrial, la duración de huelgas o periodos de
desempleo en economı́a, los tiempos que toman los sujetos para completar tareas
especı́ficas en experimentación psicológica y comúnmente a los tiempos de super-
vivencia de pacientes en un ensayo clı́nico. Es importante tomar siempre en cuenta
que el análisis de supervivencia tiene un amplio campo de aplicación en cualquier
disciplina si es adecuadamente utilizado.
Para determinar el tiempo de supervivencia de forma precisa, son necesarios
tres requerimientos: un tiempo inicial, que debe estar definido inequı́vocamente;
una escala para medir el transcurso del tiempo que debe ser acorde a las necesi-
dades del estudio y finalmente, el evento o suceso de interés debe ser totalmente
claro.
Usualmente, existe una definición clara del final de observación, el inicio es
menos evidente. Por ejemplo, rara vez se conoce el momento exacto del inicio de la
enfermedad de un individuo, por lo que, la fecha de diagnostico es, a menudo, una
alternativa para resolver este problema (ejemplo de truncamiento por la izquierda).
Los objetivos básicos en los estudios de supervivencia son: la descripción y
resumen de los tiempos de supervivencia, usualmente mediante la estimación e in-
terpretación de las funciones de supervivencia y la de riesgo a partir de los datos,
la comparación de las distribuciones de los tiempos de supervivencia correspondi-
entes a dos poblaciones diferentes y el establecimiento y compresión de la relación
que pueda existir entre los tiempos de supervivencia y las variables explicativas.
Las variables explicativas deben estar disponibles para cada individuo, estas vari-
ables están pensadas para que estén relacionadas con la supervivencia. Por ejem-
plo, el tiempo de supervivencia de una máquina puede estar influenciado por el
esfuerzo ejercido sobre ésta, el material del cual está hecho, las sustancias con que
tenga contacto o la temperatura del área de trabajo en la cual funciona, por tanto,
estas condiciones mencionadas, pueden tomar el papel de variables explicativas en
la supervivencia de la máquina que será el sujeto de estudio. En practicas médicas,
es muy común que de forma rutinaria se colecte una gran cantidad de información
(capturada en variables) para cada paciente, dándose el investigador a la tarea
poco envidiable de resumir el efecto conjunto de estas variables explicativas, sobre
la supervivencia del paciente.
15
2.1.2. Tiempo de Supervivencia
El tiempo de origen debe ser definido de manera precisa para cada individuo.
Es también deseable que, sea sujeto a posibles variables explicativas, todos los
sujetos de estudio, sean tan comparables como sea posible en sus tiempos de
origen. El tiempo de origen no necesita ser y usualmente no está en el mismo
tiempo calendario para cada individuo. En la mayorı́a de los estudios se presentan
entradas escalonadas, de tal forma que los sujetos entran al estudio, a lo largo
de un periodo prefijado de estudio (duración de estudio), por tanto, el tiempo de
supervivencia para cada sujeto es medido desde su propia fecha de entrada. La
Figura2.1 lustra esta situación.
2
Sujeto
| | | | | Tiempo calendario
1990 1995 2000 2005 2010 (año)
Figura 2.1: Entradas escalonadas de 5 sujetos, a lo largo de un estudio que tiene una
duración de 20 años.
16
comparación de los tiempos de supervivencia de los dos grupos. Quizá la única
forma satisfactoria para evaluar el efecto del examen en la reducción de la mortal-
idad, es comparar la tasa de mortalidad en el grupo en la que se realiza el examen
con el grupo que no tiene acceso a dicho examen.
La escala para medir el tiempo de supervivencia, normalmente es el tiempo
calendario (tiempo real ), aunque hay otras posibilidades, tales como el kilome-
traje con la que un auto es vendido, o longitud sin defectos en un hilo textil.
Siendo el ‘tiempo de supervivencia’ en el primer caso como; kilómetros recorrido
hasta su venta, y la longitud medida hasta el primer defecto en el segundo.
El significado del evento o suceso de interés debe ser definido de forma precisa.
En algunos ensayos clı́nicos, el evento o suceso de interés puede significar muerte,
muerte por una causa especı́fica como el cáncer de pulmón, la primera recurrencia
de una enfermedad después del tratamiento, o la incidencia de una nueva enfer-
medad. En algunas aplicaciones hay poca o ninguna arbitrariedad en la definición
del evento. En otras, por ejemplo, en algunos contextos industriales, el suceso se
define como el primer momento en el cual el desempeño, medido de alguna forma
cuantitativa, cae por debajo de un nivel aceptable previamente establecido.
2.1.4. Censura
17
final del estudio sin presentar el evento, esta situación hace que, sea imposible
observar de forma exacta el tiempo de supervivencia para éste individuo. Precisa-
mente, al tiempo de supervivencia (no observado) en éste caso, se lo denomina
tiempo de supervivencia censurado.
Hay varias categorı́as de censura, entre los principales: censura por la derecha,
censura por la izquierda y censura por intervalo.
Para identificar adecuadamente el tipo de censura que presentan los datos de
supervivencia, se tiene que considerar la forma en que han sido obtenidos éstos
datos. Cada tipo de censura puede corresponder a diferente función de verosimil-
itud, la cual puede ser la base para la inferencia en su modelización.
18
soring), donde las X’s para cada individuo se suponen como variables aleatorias
independientes e idénticamente distribuidas con función de densidad f (x). De este
modo, el tiempo de supervivencia exacto de un individuo puede ser conocido si
y sólo si X ≤ Cr . Si X > Cr , el individuo es un sobreviviente y su tiempo de
supervivencia es censurado en Cr .
Si X es el tiempo de supervivencia, y Cr el tiempo de censura definido inicial-
mente. Los datos del estudio pueden estar convenientemente representados por el
par de variables (T, δ), definido como:
(
(X, 1), si X ≤ Cr ;
(T, δ) =
(Cr , 0), si X > Cr .
3
Cr
X4
4
Cr
X5
5
Cr
0 T Cr
Figura 2.2: Censura tipo I para 5 sujetos en estudio. Con tiempos de supervivencia
X2 , X4 , X5 para los sujetos 2, 4, 5 respectivamente (δ = 1). Y tiempos de supervivencia
censurados a Cr para los sujetos 1 y 3 (δ = 0).
19
Supongamos que se tiene 20 ratones en un experimento donde el evento o suceso
de interés es la ‘muerte’. Suponga que se han marcado a 10 ratones de color rojo y
a los restantes 10 de color azul, de manera que se ha determinado a cada grupo de
ratones, tiempos de censura de 42 y 104 semanas respectivamente. De modo que
los ratones con marca roja que sobrevivan 42 semanas serán sacrificados, ası́ como
los ratones marcados de color azul que lleguen vivos a las 104 semanas.
Una forma de ampliar la perspectiva de la Censura Tipo I es cuando los
individuos entran al estudio a diferentes tiempos, y el punto terminal de estudio
predeterminado por el investigador es el mismo para todos. En este caso, el tiempo
de censura para cada individuo es conocido en el momento en que entra al estudio,
de manera que cada individuo tiene fijo y especificado su propio tiempo de censura.
Este tipo de censura ha sido denominado Censura de Tipo I generalizada, y es
ilustrado en la Figura2.3.
← final de estudio
X1
1
Cr1
X2
Sujeto
2
Cr2
X3
3
Cr3
X4
4
Cr4
tiempo de estudio
Figura 2.3: Censura tipo I generalizada para 4 sujetos. Con tiempos de supervivencia X1 , X3
para los sujetos 1, 3 respectivamente (δ = 1). Y tiempos de supervivencia censurados a
Cr2 , Cr4 para los sujetos 2 y 4 respectivamente (δ = 0).
20
X1
1
Cr1
X2
Sujeto
2
Cr2
X3
3
Cr3
X4
4
Cr4
0 T
Figura 2.4: Censura tipo 1 generalizada para 4 individuos reescalada al tiempo cero.
21
1
estudio a cada tiempo de censura. Con estos elementos, el estudio será realizado
de la siguiente forma:
Al presentarse los primeros r1 eventos de interés, n1 − r1 individuos serán
retirados de los n − r1 individuos sobrevivientes, quedando n − n1 individuos
en el estudio. Cuando se presenten las siguientes r2 eventos de interés, n2 − r2
individuos serán retirados de los (n − n1 ) − r2 individuos sobrevivientes, quedando
n − (n1 + n2 ) individuos en el estudio. Y ası́ sucesivamente hasta que al tener rk
eventos de interés de los n − (n1 + n2 + · · · + nk−1 ) = nk individuos sobrevivientes
en el estudio, los (n−n1 −n2 −· · ·−nk−1 )−rk = nk −rk individuos restantes serán
eliminados, dando por terminado el experimento. De este modo, si Ti denota el
tiempo del i-ésimo sujeto en presentar el evento de interés (lo cual excluye a los
sujetos removidos intencionalmente), los K tiempos de censura serán las variables
aleatorias Tr1 , Tn1 +r2 , Tn1 +n2 +r3 , . . . , Tn1 +n2 +...+nk−1 +rk .
La Censura tipo II progresiva puede ser representada mediante el siguiente
ejemplo. Suponga que se tienen 100 ratones en un experimento donde el evento
de interés es la muerte. Se definen K = 3 tiempos de censura, r1 = 15, r2 =
20, r3 = 30 el número de individuos que deberán presentar el evento de interés
para determinar el respectivo tiempo de censura y n1 = 30, n2 = 30, n3 = 40 el
número de individuos que deben estar fuera del estudio a cada tiempo de censura.
El primer tiempo de censura se dará cuando mueran 15 ratones, en ese momento,
se sacrifirán 15 ratones de los 85 vivos, continuando en el estudio 70 ratones.
El segundo tiempo de censura se dará cuando mueran 20 ratones de los 70 en
estudio, en ese momento, se sacrificarán 10 ratones de los 50 vivos, quedando 40
ratones en estudio. El tercer tiempo de censura será determinado cuando mueran
30 ratones de los 40 en estudio y se sacrificarán en ese momento los 10 ratones
supervivientes. De este modo, en el primer tiempo de censura se obtendrán 15
eventos y 15 censuras, en el segundo tiempo de censura se obtendrán 20 eventos
y 10 censuras, y en el tercer tiempo de censura se obtendrán 30 eventos y 10
censuras. Los tiempos de censura son: T15 , T50 , T90 .
Puesto que, tanto la censura tipo I como la censura tipo II, surgen a partir
una previa planificación del investigador. Se podrı́a decir que, estas censuras son
controladas por el investigador.
Otro tipo de censura es la Censura tipo III o también llamada Censura aleato-
ria. En este tipo de censura el investigador no tiene ningún control sobre la misma.
22
Las censuras pueden ocurrir porque el individuo abandona el estudio, experimen-
ta el evento pero ésta es ajena a la de interés. Por ejemplo, en un estudio donde
el evento de interés es ‘muerte por cancer de pulmón’. Un sujeto puede presen-
tar censura aleatoria si éste muere por accidente de trafico, o porque el individuo
abandona el estudio en algún momento de éste, de tal manera que el investigador
pierde acceso al sujeto.
Estos tres tipos de censura son clasificados como censura por la derecha, cuya
caracterı́stica es que el tiempo de observación es menor que el tiempo de super-
vivencia, sólo que este último no es observado.
*
Cl : Tiempo desde inicio de estudio hasta el inicio de observación del individuo
23
Donde T = máx[mı́n(X, Cr ), Cl ] es el tiempo de permanencia en estudio y δ ∗ es
una variable indicadora de supervivencia (1), censura por la derecha (0) y censura
por la izquierda (-2).
Este es un tipo de censura más general que ocurre cuando el evento o suceso de
interés se sabe que ocurre solamente dentro de un intervalo. Este tipo de censura se
presenta cuando se tiene un estudio longitudinal donde el seguimiento del estado
de los sujetos se realiza periódicamente y por tanto, la ocurrencia del evento de
interés sólo puede conocerse entre dos periodos de revisión, generando un i-ésimo
j
intervalo de la forma (ri−1 , lij ) para cada sujeto j en el estudio.
2.1.5. Truncamiento
Esto ocurre cuando los individuos entran al estudio a una edad en particular
(no necesariamente el origen del evento de interés), y son observados desde ese
momento (tiempo retrasado de entrada), hasta que el evento de interés ocurra o
hasta que el evento es censurado.
Si Y es el momento de ocurrencia del evento que trunca a los sujetos en estudio,
entonces para muestras truncadas por la izquierda, solo los individuos tales que
X ≥ Y serán considerados.
El tipo mas común de truncamiento por la izquierda ocurre cuando los indi-
viduos entran al estudio a una edad especı́fica y son observados por este tiempo
24
retrasado de entrada, hasta que el evento ocurre o hasta que el individuo es cen-
surado por la derecha. En este caso, todos los individuos que presenten el evento
de interés antes del tiempo retrasado de entrada, no serán considerados para
el experimento. Note que esto es opuesto a la censura por la izquierda, donde se
tiene información parcial de individuos que presentan el evento de interés antes
del instante de sus entradas al estudio, para truncamiento por la izquierda, estos
individuos no serán considerados para ser incluidos en el estudio.
Esto ocurre cuando sólo los individuos que han presentado el evento de interés
son incluidos en la muestra y ningún sujeto que no haya presentado aún el evento
será considerado. Un ejemplo de muestras que presentan truncamiento por la
derecha, son los estudios de mortalidad basados en registros de muerte.
1. Función de Supervivencia
25
datos muestrales y extraer inferencias acerca del patrón de supervivencia, muerte,
riesgo de muerte y vida media restante en la población.
F(t) = P (T > t)
= P (El tiempo de supervivencia es mayor que t)
= P (El evento de interés ocurre más allá de t).
F(t) = P (T > t)
= 1 − P (T ≤ t)
= P (El tiempo de supervivencia es menor o igual a t)
= 1 − P (El evento de interés ocurre a lo más en t).
26
Para describir el recorrido de la supervivencia, se hace la representación gráfica
de F(t). Esta gráfica es llamada curva de supervivencia. Muchos tipos de curvas
de supervivencia pueden presentarse y analizarse de manera particular, pero es
importante notar que todas tienen las mismas propiedades básicas, son monótonas
no crecientes, igual a uno en cero y cero cuando el tiempo tiende a infinito. La tasa
de decrecimiento, varı́a de acuerdo al riesgo de ocurrencia del evento al tiempo
t pero es difı́cil determinar en esencia el modelado de ocurrencia solamente ob-
servando la curva de supervivencia. No obstante, el uso de esta curva representa
un análisis importante en la práctica, y es usual comparar dos o más curvas de
supervivencia para comprender el comportamiento que tienen entre ellas a lo largo
del tiempo.
(a) (b)
′
F (t) F (t )
1, 0 1, 0
0,5 0,5
|
1
|
2 2, 45
|
3
|
4
t
0, 35
|
1
|
2
|
3
|
4
t′
27
En la representación gráfica, una curva de supervivencia empinada, como la
que se muestra en la Figura2.5(b) representa baja tasa de supervivencia o corto
tiempo de supervivencia. Una curva de supervivencia plana o gradual como la
que se muestra en la Figura2.5(a) representa alta tasa de supervivencia o mayor
supervivencia. La curva de supervivencia puede ser utilizada para encontrar el
percentil 50 (la mediana) y otros percentiles o cantiles (por ejemplo el 25avo y el
75avo ) del tiempo de supervivencia. La mediana de los tiempos de supervivencia en
las curvas (a) y (b) de la Figura2.5 son aproximadamente 2,45 y 0,35 unidades de
tiempo, respectivamente. La media es utilizada para describir la tendencia central
de una distribución, pero en las distribuciones de supervivencia la mediana es
frecuentemente mejor, debido a que un pequeño número de sujetos con tiempo
de vida excepcionalmente largos o cortos va a causar que la media del tiempo de
supervivencia sea desproporcionadamente grande o pequeña.
Cuando los tiempos de supervivencia están agrupadas en intervalos o cuando
hacen referencia a unidades en números enteros positivos, entonces, T es una vari-
able aleatoria discreta. En éste caso, la función de supervivencia para la variable
aleatoria T está dado por:
X
F(ti ) = P (T > ti ) = f (tk ) (2.2)
tk >ti
entonces:
d
f (t) = − F(t) (2.3)
dt
El resultado (2.3), muestra que f (t) es una función no negativa.
28
Además:
d
f (t) = − F(t)
dt
d
= − P (T ≥ t)
dt
P (T ≥ t + dt) − P (T ≥ t)
= − lı́m
dt→0 dt
P (T ≥ t) − P (T ≥ t + dt)
= lı́m
dt→0 dt
P (t ≤ T < t + dt)
= lı́m .
dt→0 dt
de donde.
La relación (2.4) muestra que el area con base dt y altura f (t) puede representar
de manera aproximada: La probabilidad de que el evento de interés, se haga pre-
sente en un momento muy proximo a t, si no es en t. De esta manera, la función de
densidad f (t) proporciona el cálculo de las probabilidades de ocurrencia en distin-
tos intervalos de tiempo infinitesimales de longitud dt. En consecuencia, se puede
encontrar la probabilidad de que un individuo experimente el evento de interés
en cualquier intervalo de tiempo y observar el pico de probabilidad más alto de
ocurrencia. Otra interpretación, la probabilidad de que el tiempo de superviven-
cia caiga en cualquier intervalo de tiempo y observar el pico de probabilidades del
tiempo de supervivencia mas frecuente.
Las funciones de densidad en la Figura2.6 corresponde a las funciones de super-
vivencia en la Figura2.5 F(t), F(t0 ) respectivamente. Estas funciones nos permiten
calcular, la probabilidad de que el evento ocurra, por ejemplo, en el intervalo de
tiempo (1,2). Esta probabilidad queda representado por el área sombreada que
aparece en las figuras respectivas.
Además, la función (b) describe un patrón de alta probabilidad de ocurrencia al
principio del estudio y una probabilidad baja de ocurrencia cuando se incrementa
el tiempo. Mientras que la función (a), el pico de probabilidad alta de ocurrencia
es a aproximadamente 2.8 unidades de tiempo.
29
(a) (b)
f (t) f (t′ )
1, 0 2
1
| |
2
|
3
|
4
t |
1
|
2
|
3
|
4
t′
Si T , es una variable aleatoria discreta que toma valores fijos ti con i = 1, 2, ...,
con función de cuantı́a de probabilidad f (ti ) = P (T = ti ) donde t1 < t2 < · · · .
En el caso discreto, la función de probabilidad se denomina como función de
cuantı́a, y se define como:
f (ti ) = P (T = ti ) (2.5)
= P (El tiempo de supervivencia sea exactamente igual a ti )
= P (El evento o suceso e interés ocurre en el momento ti )
P (t ≤ T < t + dt | T ≥ t)
h(t) = lı́m (2.6)
dt→0 dt
30
1
Esta función permite calcular la probabilidad de que el tiempo de supervivencia
sea aproximadamente igual a t, sabiendo que por lo menos es t, o la probabilidad
de que el evento ocurra en un momento muy próximo a t, puesto que, ocurre en
por lo menos t.
h(t)dt = P (t ≤ T < t + dt | T ≥ t) (2.7)
Una interpretación mas formal a la relación (2.7) es: El evento o suceso de interés,
solo requiere una duración de tiempo infinitesimal (es decir, casi instantánea)
para que ocurra.
La expresión más común para la función riesgo h(t) surge de desarrollar la
parte condicional de la ecuación, (2.6).
P (t ≤ T < t + dt)
h(t) = lı́m+
dt→0 P (T ≥ t).dt
1 P (t ≤ T < t + dt)
= . lı́m+
P (T ≥ t) dt→0 dt
f (t)
= (2.8)
F(t)
El resultado (2.8) muestra una relación de equivalencia entre las tres funciones de
la variable continua T . Si bien, la función riesgo h(t) queda expresada en función
de la densidad f (t) y la función de supervivencia F(t), es posible expresar tanto
f (t) como F(t) en términos de la función riesgo h(t). Esto es:
Tomando en cuenta (2.8) y (2.3), la función riesgo resulta:
d
− F(t) d
h(t) = dt = − ln F(t)
F(t) dt
puesto que F(0) = P (T ≥ 0) = 1, surge la función riesgo integrado H(t).
Z t
H(t) = h(u)du = − ln F(t)
0
31
Por ejemplo, si la función riesgo es constante con valor λ, es decir h(t) = λ; λ ∈ R.
Tanto la función de supervivencia F(t), como la de función de densidad f (t) son
respectivamente:
F(t) = e−λt , f (t) = λe−λt (2.11)
prácticamente se puede concluir que la variable aleatoria T se distribuye exponen-
cialmente.
La función riesgo es también conocida como tasa instantánea de ocurrencia,
fuerza de ocurrencia, tasa de ocurrencia condicional, tasa de ocurrencia a edad
especı́fica y demás nombres relacionados con el tema que se esté tratando y la
interpretación que se tenga dentro de éste. Es una medida de propensión a ocur-
rencia como una función de la edad del individuo en el sentido de que la cantidad
h(t)dt es de manera aproximada la probabilidad de que un individuo experimente
el evento o suceso de interés a la edad de t, o la proporción de individuos que
experimentan el evento o suceso de interés a la edad de t. Otra interpretación, la
probabilidad de que el tiempo de supervivencia de un individuo no exceda la edad
de t,
Gráficamente, la función riesgo describe la forma en que cambia la tasa in-
stantánea de ocurrencia de un evento de interés al paso del tiempo y la única
restricción para esta función es que tiene que ser no negativa, es decir h(t) ≥ 0.
La función de riesgo puede crecer, decrecer, permanecer constante o tener un pro-
ceso más complicado. En la Figura 2.7 se presentan las curvas de varios tipos de
función de riesgo.
Para ilustrar las funciones de riesgo se presentan algunos escenarios en la
Figura 2.7, siendo el evento o suceso de interés muerte por alguna causa especifica.
Por ejemplo, pacientes con leucemia que no responden al tratamiento tienen
una tasa de riesgo creciente h1 (t). Mientras que h2 (t) es una función de riesgo
decreciente que puede indicar el riesgo de soldados heridos por bala que fueron
sometidos a cirugı́a. El peligro principal es la operación misma y este peligro
decrece si la cirugı́a es exitosa. Una función de riesgo constante como en h3 (t) es
el riesgo de individuos saludables entre 18 y 40 años de edad.
cuyos riesgos principales de muerte son los accidentes. La llamada curva de
tubo de baño h4 (t) describe el proceso de vida humana, durante el periodo inicial
el riesgo es alto (alta mortalidad infantil ), subsecuentemente el riesgo permanece
32
h1 (t)
h(t)
h4 (t)
5
3 h3 (t)
2
h5 (t)
1
h2 (t)
0 t
0 1 2 3 4 5
aproximadamente constante hasta un cierto tiempo, después del cual crece debido
a fallas por deterioro. Finalmente, pacientes con tuberculosis tienen riesgos que se
incrementan inicialmente, luego decrecen después de tratamiento. Este incremento
y luego decremento se muestra en la función de riesgo h5 (t).
En el caso discreto, T es una variable aleatoria discreta que toma valores ti con
i = 1, 2, . . ., de tal manera que t1 < t2 < · · · ,. La función riesgo para el i-èsimo
valor de T , se define como:
33
1
De manera análoga a (2.8), se tiene
Luego, como:
f (ti ) = F(ti−1 ) − F(ti )
en (2.13) se tiene,
34
Función riesgo acumulado
y en caso discreto
i
X
H(ti ) = h(tk )
k=1
F(t) = e−H(t)
Expresión que está bien definida dado que 0 < h(ti ) < 1, pues
F(ti )
h(ti ) = 1 −
F(ti−1 )
y para los valores ti donde F(ti ) tiene sentido en el caso discreto, sucede que
F(ti ) = e−H(t ) i
i
P
+ ln[1−h(tk )]
= e k=1
i
Y
= [1 − h(tk )]
k=1
35
Lo cual concuerda con la relación entre F(ti ) y h(ti ) de la ecuación (2.16) en
el caso discreto.
La función de riesgo acumulado en ambos casos, tanto el discreto como el
continuo, como su nombre lo indica, acumula el riesgo al paso del tiempo. De
tal manera que corresponde a una función creciente y de acuerdo a su forma de
incrementarse, se podrá tener información del comportamiento del riesgo a lo largo
del tiempo, lo cual es una ventaja en el análisis de supervivencia.
Hay varias razones por qué el hecho de considerar la función riesgo puede ser
una buena idea:
(i) puede estar pensado para considerar el riesgo inmediato que acosa a un indi-
viduo que está fı́sicamente vivo a edad t
(iii) los modelos basados en riesgo, son a menudo útiles cuando existe datos
censurados o cuando haya muchos tipos de fallas
(v) el riesgo es la forma especial para el sistema solo ‘fracaso’ de la función de den-
sidad completa para los procesos del punto más detallados, esto es, sistemas
en que muchos puntos de eventos pueden ocurrir para cada individuo.
36
Para el caso continuo, por definición de esperanza condicional se tiene que
Z ∞
E[T − t | T > t] = (u − t)f (u | u > t)du
t
Z ∞
f (u)
= (u − t) I(t,∞) (u)du
t F(t)
Z ∞
(u − t)f (u)
= du
t F(t)
Por lo cual la función de vida media residual al tiempo t queda definida por
R∞ R∞
(u − t)f (u)du F(u)du
zmrl (t) = t = t
F(t) F(t)
Por lo que se puede apreciar que la vida media residual es el área bajo la curva
de supervivencia a la derecha de t dividida entre F(t). De tal modo que la vida
media cuando t = 0, es el área total de la curva de supervivencia, es decir:
Z ∞ Z ∞
zmrl (0) = F(u)du = uf (u)du
0 0
= E(u) = E(T )
= µ
donde, F(t = 0) = P (T ≥ 0) = 1.
Además, la varianza de T está relacionada con la función de supervivencia por:
donde,
∞ ∞
X X (ti − tr )f (ti )
E[ti − tr | ti > tr ] = (ti − tr )f (ti | ti > tr ) = .
i=r i=r
F(tr )
37
luego
∞
X (ti − tr )[F(ti−1 ) − F(ti )]
=
i=r
F(tr )
∞
X ti F(ti−1 ) − tr F(ti−1 ) − ti F(ti ) + tr F(ti )
=
j=r
F(tr )
P∞ ∞
P ∞
P ∞
P
ti F(ti−1 ) − ti F(ti−1 ) − ti F(ti ) + tr F(ti )
i=r i=r i=r i=r
=
F(tr )
∞
P ∞
P ∞
P ∞
P
tr F(tr−1 ) + ti+1 F(ti ) − tr F(tr−1 ) − tr F(ti ) − ti F(ti ) + tr F(ti )
i=r i=r i=r i=r
=
F(tr )
∞
P ∞
P
ti+1 F(ti ) − ti F(ti )
i=r i=r
= (2.20)
F(tr )
38
2.3. Modelos paramétricos comunes
2.3.1. Introducción
39
2.3.2. Modelo Exponencial
h(t) = λ (2.25)
F(t) = e−λt .
α
(2.27)
40
En esta distribución, λ > 0 es un parámetro de escala y α es un parámetro de
forma. La distribución exponencial es un caso particular cuando α = 1.
Su función de densidad viene a ser.
Y función de riesgo
h(t) = αλtα−1 . (2.29)
h(t) α = 3, λ = 2 × 10−3 .
0,3
0,2
0,1
α = 1, λ = 10−1 .
α = 12 , λ = 26 × 10−2 .
t
5 10 15
41
Como se puede apreciar en la Figura2.8, esta función es convenientemente
flexible siendo creciente (cuando α > 1), decreciente (cuando α < 1) y constante
(cuando α = 1), lo cual favorece a modelar el tiempo de ocurrencia para distintas
formas del riesgo a través del tiempo. Es evidente que la forma de la distribución
Weibull depende del parámetro α, y ésta es la razón por la cual se le denomina
parámetro de forma.
f (t) =
e− √
1 ln t−µ 2
2
( σ )
. − ∞ < µ < ∞, 0 ≤ σ < ∞ (2.30)
tσ 2π
La función de supervivencia está dada por:
ln t − µ
F(t) = 1 − Φ (2.31)
σ
donde Φ es la función de distribución acumulativa de una variable normal estándar.
La función de riesgo de la distribución log-normal tiene una forma de “joro-
ba”,dado que toma el valor cero al tiempo cero, después crece a un máximo y
decrece a cero cuando t tiende a infinito, esto se puede apreciar en la figura 2.5.
Esta distribución ha sido criticada para modelar tiempos de ocurrencia dado que
la función de riesgo es decreciente para valores grandes de t, lo cual es inaceptable
en muchas situaciones. El modelo puede ser factible cuando valores grandes del
tiempo no son de interés.
2.4.1. Introducción
42
y para inferir φ, se dispone de una muestra de n individuos cuyos tiempos de
supervivencia para muchos o pocos de ellos son conocidos y para el restante son
censurados. Normalmente se escribe φ = (ω, λ), donde ω es el parámetro de interés
particular y λ el parámetro de ruido.
En este sentido, la inferencia del vector de parámetros φ, a partir de la dis-
posición de los tiempos censurados o no, correspondientes a los n individuos de la
muestra, se concentra en el método basado en la función verosimilitud.
43
resulta: X X
ln L(φ) = ln f (t∗j ; φ) + ln F(t∗j ; φ)
j∈u j∈c
X n
X
ln L(φ) = ln h(t∗j ; φ) + ln F(t∗j ; φ)
j∈u j=1
X n
X
ln L(φ) = ln h(t∗j ; φ) − H(t∗j ; φ)
j∈u j=1
Para finalizar, introduciendo r(u) = card{j; t∗j ≥ u}, el número de sujetos que
se encuentran aún en observación a tiempo u, se nota que ln L(φ) puede escribirse
X Z ∞
∗
ln L(φ) = ln h(tj ; φ) − r(u)h(u; φ)du (2.34)
j∈u 0
Es claro que, solo por formalidad la integral es sobre el rango infinito, ya que
r(u) será cero después del ultima tiempo de supervivencia o censura observada. La
función integrando puede ser representado como el riesgo total operando a tiempo
u.
Estas expresiones para ln L(φ) enfatiza el rol fundamental que juega la función
riesgo en el desarrollo.
Ahora suponiendo que la variable T sea discreta, con valores pre asignados ti ,
donde t1 < t2 < · · · . El aporte a la verosimilitud de un sujeto cuyo tiempo de
supervivencia es conocido a ti , y de un sujeto cuyo tiempo de supervivencia es
censurado a ti son respectivamente:
En términos de la función riesgo discreto h(ti ; φ) dado por (2.17) y (2.16) son:
i−1
Y
f (ti ; φ) = h(ti ; φ) [1 − h(tk ; φ)]
k=1
44
i−1
Y
F(ti ; φ) = [1 − h(ti ; φ)] [1 − h(tk ; φ)].
k=1
Note que este resultado se obtendrı́a de una serie de términos binomiales inde-
pendientes, con ri ensayos y probabilidad de ‘sucesos’ h(ti ; φ).
En la práctica, raramente se presentan distribuciones de supervivencia disc-
retas. No obstante, la presencia de datos pareados en distribuciones continuas se
presentan, cuándo se realiza la agrupación de los datos. Es decir, discretizando la
distribución continua.
La verosimilitud exacta de datos agrupados pueden derivarse: involucrando
integrales de la función de densidad sobre los intervalos agrupados.
45
encontrando un conjunto de confianza para ω como la colección de valores del
parámetro no ‘rechazado’ al nivel en cuestión.
Estos tipos son los siguientes:
(a) Primero, el uso del estadı́stico de Razón de verosimilitud (LR).
46
elı́ptica para ω, centrado en ω̂. Existen formas alternativas de estimar la matriz de
covarianzas, por ejemplo mediante esperanzas en lugar de las segundas derivadas
observadas del log de la verosimilitud. Si ω es un parámetro escalar, resulta el
intervalo de confianza simétrico
ω̂ − κ∗α υωω
1/2
(ω̂, λ̂), ω̂ + κ∗α υωω
1/2
(ω̂, λ̂),
donde Φ(−κ∗α ) = α
(c) Una tercera posibilidad es usar el gradiente de del lg de la verosimilitud
par ω0 , reemplazando λ por λ̂w0 , es decir calcular
∂
Uw0 = l(ω, λ) (2.39)
∂ω ω=ω0 ,λ=λ̂w 0
47
de cuantı́a f (ti ); i = 1, 2, ..., g (función impropia). Luego, según el resultado (2.16)
la función de supervivencia a ti en función del riesgo es:
i
Y
F(ti ) = [1 − h(tk )]
k=1
48
más conocido como estimador de Kaplan y Meier
El estimador de Kaplan y Meier llega a ser independiente de los puntos
tk para los cuales dk = 0. Puesto que, cuando dk = 0 para algunos tk , no tiene
relevancia en su forma funcional. De esta manera, el estimador de Kaplan y
Meier es solo dependiente de las ocurrencias observadas.
Estimación de la varianza
49
di
Segundo, si ĥi = su varianza seria:
ri
di
V(ĥi ) = V
ri
1
= 2 V(di )
ri
Luego:
1
V(ĥi ) = ri ĥi (1 − ĥi )
ri2
ĥi (1 − ĥi )
= (2.47)
ri
50
A partir de F̂(ti ), se puede encontrar un intervalo para el valor verdadero
F(ti ). Esto es, F̂(ti ) se distribuye aproximadamente normal con media F(ti ) y
varianza el resultad (2.51). El intervalo de confianza para F(ti ) a un nivel de
confianza α: s
X dk
F̂(ti ) ± zα F̂(ti ) ı (2.51)
k=1
rk (rk − dk )
51
2.6. Dependencia de Variables Explicativas
2.6.1. Introducción
52
En los siguientes modelos se considera una comparación simple de dos tratamien-
tos, correspondiente a una sola variable explicativa binaria, para luego ser obvio
su generalización.
(i) Forma simple.- Suponiendo que hay dos tratamientos representados por
los valores 0 y 1 de la única variable explicativa x. Sea la función de supervivencia
F0 (t) cuando x = 0; en el modelo de vida acelerada hay una constante ψ tal que
la función de supervivencia cuando x = 1, denotado por F1 (t) ó F(t; x = 1), es:
en cuyo caso,
f1 (t) = ψf0 (ψt), h1 (t) = ψh0 (ψt) (2.54)
Reformulando (2.53), tenemos:
F(t, x) = F0 [tψ(x)]
f (t; x) = f0 [tψ(x)]ψ(x) (2.55)
h(t; x) = h0 [tψ(x)]ψ(x)
53
En problemas con un número limitado de valores de X, puede ser innecesario
especificar ψ(.) además. De lo contrario, una forma paramétrica para ψ(.) puede
ser necesario, en cuyo caso se escribe ψ(x; β). Puesto que ψ(x; β) ≥ 0, ψ(0; β) = 1,
un candidato por naturaleza es:
T
X
ψ(x; β) = eβ (2.57)
t(0)
t(x) =
ψ[x(t(x) )]
54
derivando respecto a t(0) , se tiene:
dt(x) 1
=
dt(0) ψ[x(t(x) )]
para luego,
Z t(x)
(0)
t = ψ[x(u)]du = Ψ(t(x) ) (2.60)
0
se dice, para que los tiempos de ocurrencia se relacionen, en lugar de (2.56), según
55
se asume que el sustento de F0 (.) se contiene en el de F1 .
Precisamente, una manera de producir una familia rica de modelos para el
problema de dos grupos es escribir para j = 0, 1, 2, ...., p
(
0, grupo 0,
xj = (2.64)
tj , grupo 1.
para algún valor conveniente de p y luego para tomar
T
X
ψ(X) = eβ (2.65)
56
y sencillamente se sigue que
X X
h0 (t) = hoj (t), h1 (t) = ψhoj (ψj t) (2.67)
j j
57
básica
1
F(t; 0) =
1 + (ρt)κ
que es la distribución log logı́stica.
58
Capı́tulo 3
EL MODELO DE RIESGOS
PROPORCIONALES
LOG-LINEAL
3.1. Introducción
Si bien, existen una variedad de familias de modelos que hacen posible tomar
en cuenta variables endógenos o exogenos al incorporar la manera en que éstos
afectan al tiempo de supervivencia de un individuo en estudio, existe una familia
de modelos, cuya caracterı́stica se basa en la especificación de la función riesgo.
Esta familia es conocido con el nombre de modelos de riesgos proporcionales.
En la comparación del tiempo de supervivencia de dos grupos, es de interés el
caso en el que el riesgo de ocurrencia, en cualquier momento dado de un individuo
en uno de los grupo, sea proporcional al riesgo en ese momento de un individ-
uo en el otro grupo. Esta es la hipótesis de riesgos proporcionales, la cual es el
fundamento de esta familia de modelos para analizar datos de supervivencia.
Dentro esta familia de modelos, uno en particular conocido como modelo
de riesgos proporcionales log lineal ha sido ampliamente usado en muchas
disciplinas, por ser el más entendido e implementado y los resultados que éste
proporciona al ser utilizado adecuadamente resultan ser mas coherentes. Sin em-
bargo, en ocasiones no es un modelo adecuado, precisamente, por los supuestos
59
que se tiene que cumplir (supuesto de que la proporcionalidad entre las funciones
riesgo de ambos grupos es invariante al paso del tiempo que no siempre sucede),
entonces es necesario estudiar modelos alternativos
y si F1 (t) y F2 (t) son las funciones de supervivencia para los grupos I y II re-
spectivamente, entonces, al suponer la hipótesis de riesgos proporcionales se tiene
que
F1 (t) = [F2 (t)]g .
Dado que la función de supervivencia toma valores entre cero y uno, este
resultado permite ver que F2 (t) es menor o igual que F1 (t) si g es menor o igual a
uno, en el tiempo t. Esto significa que si dos funciones de riesgo son proporcionales,
sus respectivas funciones de supervivencia no se cruzan. Esta es una condición
necesaria pero no suficiente en la hipótesis de riesgos proporcionales.
60
Una verificación informal de la probable validez de la hipótesis de riesgos pro-
porcionales puede realizarse al dibujar en una misma gráfica las dos funciones de
supervivencia estimadas para los dos grupos de datos de supervivencia. De tal
manera que si las funciones de supervivencia estimadas no se cruzan, la hipótesis
de riesgos proporcionales puede estar justificada.
Ahora bien, estableciendo que el grupo II de estudio está constituido por
los individuos que se encuentran en una situación estándar de la cual se tiene
ya alguna información y el grupo I como un nuevo grupo del cual se carece de
información, y precisamente se pretende inferir sobre este nuevo grupo en relación
con el estándar. Por ejemplo, en el ámbito de la medicina se puede considerar un
conjunto de pacientes (individuos) que presentan alguna enfermedad en particular
los cuales han sido clasificados en dos grupos, formando parte del grupo II aquellos
pacientes que hayan recibido un tratamiento usual o habitual (estándar ) y el grupo
I formado por los pacientes que recibieron un nuevo tratamiento.
El valor g resulta ser el cociente de los riesgos de ocurrencia en cualquier
momento t para un individuo en el grupo I en relación a un individuo del grupo
II, en consecuencia g es el riesgo relativo o razón de riesgos. Si g < 1, el riesgo
de ocurrencia en t es menor para un individuo en el nuevo grupo en relación a un
individuo en el grupo estándar. Por otro lado si g > 1 el riesgo de ocurrencia en
t es mayor para un individuo en el nuevo grupo en relación a un individuo en el
grupo estándar.
La forma alternativa de expresar el modelo h1 (t) = g.h2 (t) lleva a un modelo
que puede ser más fácilmente generalizado. Con el supuesto de que se tienen
disponibles los datos de supervivencia de n individuos y denotamos a la j-ésima
función de riesgo por hj (t) con j = 1, 2, ..., n y h0 (t) corresponderá a la función
de riesgo de un individuo en el caso estándar, de modo que la función de riesgo
para un individuo con riesgo proporcional al estándar quede representado por:
61
3.2.2. Modelo con variables explicativas
donde; h0 (t) se conocido también como función riesgo inicial, y g(xj ; β) es una
función paramétrica del vector de variables explicativas x con vector de parámetros
β, estableciendo la relación de proporcionalidad entre el riesgo de ocurrencia para
un individuo de la muestra y un individuo estándar.
Los modelos que conforman esta familia, precisamente se diferencian entre si,
de la forma que se decida realizar la parametrización de la función g(x; β). A
continuación se describe tres formas de realizar dicha parametrización.
T
1 + β x,
Lineal;
g(x; β) = e ,
β Tx
Log lineal;
log(1 + e ), Logı́stica.
βT x
62
3.3. El modelo de riesgos proporcionales Log-
lineal
hj (t, xj ) = h0 (t).g(xj ; β)
del cual, la función g(x; β) resulta ser el riesgo relativo entre hj (t; x) y h0 (t),
es decir
hj (t, xj )
g(xj ; β) = (3.4)
h0 (t)
Como las funciones de riesgo son mayores o iguales a cero, entonces el riesgo
relativo g(xj ; β) no puede ser negativo, en consecuencia, la forma conveniente
para g(x; β) es escribirlo como:
g(xj ; β) = e ηj
(3.5)
luego se tiene:
ln{g(xj ; β)} = ηj (3.6)
Haciendo que ηj sea una combinación lineal del conjunto de variables explica-
tivas. Es decir, si existen q variables explicativas,
hj (t, xj ) = h0 (t). e β T xj
(3.8)
El modelo (3.8) se lo conoce más como Modelo de Cox, esto debido a que fue
Cox que en 1972 propuso este modelo.
63
3.4. Inclusión de variables explicativas en el mod-
elo
Existen dos tipos de variables explicativas de las que la función riesgo puede
depender, variables cuantitativas y variables cualitativas. Una variable cuantita-
tiva es tal que toma valores numéricos que frecuentemente están en una escala
de medida continua, tales como la edad, temperatura o estatura. Una variable
cualitativa es una variable que toma un conjunto limitado de valores, que son
conocidos como niveles o cualidades. Por ejemplo, el sexo es un variable con dos
niveles o cualidades.
Consideremos ahora cómo variables cuantitativas y variables cualitativas pueden
ser incorporados en el modelo de riesgos proporcionales Log lineal
64
de referencia (la otra categorı́a). Si xj es el valor de X para el j-ésimo individuo
en el estudio, el modelo de riesgos proporcionales log lineal para este individuo
puede ser escrita como:
hj (t, xj ) = h0 (t). βxj e
Es claro que si xj = 0, el riesgo para éste individuo resulta h0 (t). Esto nos indica
que, el riego inicial corresponde a los individuos que se encuentra en la categorı́a
de referencia.
Cuando la variable explicativa cualitativa contiene más de 2 niveles, se procede
como sigue:
Sea una variable cualitativa con a niveles (a > 2), análogamente al anterior
caso, si se establece como categorı́a de referencia a la primera categorı́a de las a ex-
istentes. Luego, se define a − 1 variables cuantitativas dicotómicas X2 , X3 , ..., Xa
correspondientes a las demás categorı́as (no de referencia), que toman el valor
de cero si el individuo se encuentra en la categorı́a de referencia y uno si éste
se encuentra en la categorı́a correspondiente. Si xj2 , xj3 , ..., xja los valores corre-
spondientes a las variables dicotómicas X2 , X3 , ..., Xa para el j-ésimo individuo en
estudio. El modelo de riesgos proporcionales log lineal para éste individuo resulta:
Notemos que, una variable cualitativa con a > 2 niveles conduce a un modelo con
a − 1 variables cuantitativas dicotómicas.
hj (t; x) = h0 (t).eβ
T
xj
65
hecho importante, ya que significa que para hacer inferencias acerca de los efec-
hj (t; x)
tos de q variables explicativas X1 , X2 , ..., Xq sobre el riesgo relativo, , no
h0 (t)
necesitamos un estimador de h0 (t).
Los coeficientes β 0 s, que son parámetros desconocidos en el modelo, pueden
ser estimados usando el método de máxima verosimilitud como sigue.
Esto ocurre si, todos los individuos en estudio presentaron el evento o suceso
de interés en algún momento durante que permanecieron en estudio, los datos
observados en consecuencia son exentos de censura.
Sea una muestra de n individuos o unidades experimentales, siendo j la clasi-
ficación del j-ésimo individuo bajo muestra (donde j = 1, 2, ..., n) con tiempo de
supervivencia t∗j (puesto que todos experimentaron el evento de interés). Ahora
bien, como no existe censuras en la muestra, se podrá observar valores distintos
ti con i = 1, 2 . . . , n, que representa el i-ésimo tiempo de supervivencia, donde
t1 < t2 < · · · < tn , sea `i la i-ésima clasificación que se hace al individuo cuyo
tiempo de supervivencia es precisamente ti . Es decir, si `i = j entonces ti = t∗j ,
para todo j = 1, 2, . . . , n
Los conjunto {ti } y {`i } son equivalentes a los datos originales, en el sentido
de que los tiempos de supervivencia t∗j no son ordenados.
Puesto que la distribución de ti tiene una fuerte dependencia del riesgo inicial
h0 (t), y si h0 (t) se desconoce, en consecuencia solo ti proporciona poco o nada
de información a cerca del vector de parámetros β. Como ejemplo de esto, h0 (t)
puede ser idénticamente cero excepto en pequeñas vecindades de las ti . Esto es
porque la función de riesgo inicial tiene una forma arbitraria, y entonces es posible
que éste sea cero en aquellos intervalos de tiempo en los cuales no hay ocurrencias.
Esto significa que estos intervalos no dan información acerca de los valores de los
parámetros. Por tanto, el análisis debe enfocarse en los `i .
En el presente caso, la distribución conjunta de P (j1 , j2 , . . . , jn ) sobre el con-
junto de todas las posibles permutaciones de (1, 2, ..., n) puede ser derivado ex-
plı́citamente. Donde P (j1 , j2 , . . . , jn ) es la verosimilitud del orden de ocurrencia
66
de los individuos, de modo que
donde el orden de ocurrencia de los n individuos se puede dar en todas las per-
mutaciones de (1, 2, ...n). La derivación de P (j1 , j2 , . . . , jn ) se da como sigue:
Para esto, necesitamos expresar las probabilidades de ocurrencia de los indi-
viduos en cada punto ti observado. Es decir, si se observó una evento a ti , ¿Cuál
es la probabilidad de que sea j?.
Sea
P (j = `i , Ei )
P (j = `i |Ei ) =
p(Ei )
P (j = `i , Ei )
= P (3.9)
P (k = `i , Ei )
k∈R(ti )
67
su equivalencia. Esto es:
lı́m p(ti ≤ t∗j < dti )
P (j = `i , Ei ) dti →0
=
lı́m p(ti ≤ t∗k < dti )
P P
P (k = `i , Ei )
k∈R(ti ) k∈R(ti ) t.i →0
h(t , x )F(ti , xj )
= P i j
h(ti , xk )F(ti , xk )
k∈R(ti )
h(t , x )
= P i j (3.10)
h(ti , xk )
k∈R(ti )
68
No obstante, la parte derecha de (3.12), bajo el modelo de riesgos propor-
cionales log lineal (modelo de Cox ), se tiene que:
h0 (ti )eβ xj
T
h(t , x )
P i j =
h0 (ti )eβ xk
T
h(ti , xk )
P
k∈R(ti ) k∈R(ti )
=
eβ T
xj
(3.13)
eβ T
xk
P
k∈R(ti )
eliminándose de esta manera la función riesgo inicial h0 (ti ), por lo cuál, resulta
indiferente contar con la forma funcional de éste.
Las relaciones (3.13) y (3.12) nos muestra que, la probabilidad de que j sea
el individuo que presenta el evento a ti , es funcionalmente independiente de los
tiempos t1 , t2 , . . . , ti , por lo que:
=
Yn
eβ T
xji
(3.14)
eβ T
xk
P
i=1
k∈R(ti )
Puesto que los vectores xj son conocidos para todos los individuos j : j =
1, 2, ..., n en la muestra, (3.14) queda solo en función del vector de parámetros β,
entonces, se puede usar esta función para estimar el vector de parámetros β por
el método de máxima verosimilitud, siendo L(β) la función de verosimilitud,
L(β) =
n
Y eβ T
xji
(3.15)
eβ T
xk
P
i=1
k∈R(ti )
69
ℓ4 = j = 1
ℓ2 = j = 2
ℓ1 = j = 3
ℓ3 = j = 4
Tiempo
t1 = t∗3 t2 = t∗2 t3 = t∗4 t4 = t∗1
L(β) = P (3, 2, 4, 1)
= P (3) × p(2|3) × P (4|3,2) × P (1|3, 2, 4)
=
eβ T
x3
×
eβ T
x2
eβ T
x1
+ eβ
T
x2
+ eβ
T
x3
+ eβ
T
x4
eβ T
x1
+ eβ
T
x2
+ eβ
T
x4
×
eβ T
x4
eβ
× β
T
x1
.
eβ T
x1
+ eβ
T
x4 e Tx
1
L(β) =
r
Y eβ T
xji
(3.16)
eβ T
xk
P
i=1
k∈R(ti )
ℓ3 = j = 1
ℓ1 = j = 2
j=3
ℓ2 = j = 4
Tiempo
t1 = t∗2 t2 = t∗4 t3 = t∗1
Figura 3.2: La ocurrencia de 4 individuos con censura. Donde: ‘•’ representa la ocur-
rencia; ‘◦’ la censura. Las ocurrencias instantáneas son a tiempos t1 , t2 , t3 con con-
juntos de riesgos respectivos R(t1 ) = {1, 2, 3, 4}; R(t2 ) = {1, 4}; R(t3 ) = {1}
L(β) =
eβ T
x2
×
eβ T
x4
×
eβ T
x1
eβ T
x1
+ eβ
T
x2
+ eβ
T
x3
+ eβ
T
x4
eβ T
x1
+ eβ
T
x4
eβ T
x1
71
3.5.3. Con variables explicativas dependientes del tiempo
72
donde, ϕi es la densidad o distribución conjunta condicional de la i-ésima ocurren-
cia a tiempo ti , de cualquier censura en (ti−1 , ti ) y de la evolución de cualquiera de
las funciones vectoriales aleatorias {Xi (t) : ti−1 ≤ t ≤ ti } a lo largo del intervalo
(ti−1 , ti ). Es decir, ϕi es la información proporcionada por los espacios entre las
ocurrencias (i − 1, i).
El término ϕm+1 no existe a menos de que por lo menos un individuo siga en
observación después de la última ocurrencia observada, en cuyo caso toma el valor
de uno.
Se puede observar que la función ϕi es continua a lo largo de (ti−1 , ti ), en
consecuencia la función p(ji |Hi ) es también continua a lo largo de (ti−1 , ti ) sobre
el conjunto riesgo R(ti )
La obtención de la función de verosimilitud L(β) resulta omitiendo los términos
ϕi de la ecuación 3.17. Por esta razón, es llamado función de verosimilitud
parcial.
L(β) =
Ym
p(ji |Hi ) =
m
Y e β T Xji (ti )
(3.18)
β T X (t )
e
P i
k
i=1 i=1
k∈R(ti )
L(β) =
m
Y eβ T
Xji
(3.19)
eβ T
Xk
P
i=1
k∈R(ti )
73
k-ésimo individuo) sea fijo ó variante en el tiempo. Recordemos que el vector
de variables explicativas, será variante en el tiempo, cuando por lo menos una
variable explicativa varia con el tiempo.
Entonces, a partir de la función de verosimilitud (3.19) se procederá a estimar
el vector de parámetros β y cualquier posterior análisis, salvo algunas especifica-
ciones que sean de interés.
L(β) =
m
Y eβ T
Xji
eβ T
Xk
P
i=1
k∈R(ti )
74
Esto es:
xrk eβ
T
Xk
P
∂li k∈Ri
= xri −
∂βr eβ T
Xk
P
k∈Ri
= xri − x̄ri (β) = uri (β) (3.20)
donde xri es el valor de la r-ésima variable explicativa correspondiente al individuo
con tiempo de supervivencia ti , mientras que x̄ri (β) es el promedio ponderado que
corresponde a la misma variable en el conjunto riesgo Ri con ponderación eβ Xk
T
para todo k ∈ Ri . En caso de ser una variable explicativa que varia en el tiempo,
xri es la r-ésima variable explicativa realizado a ti correspondiente a individuo que
experimenta el evento en ese preciso momento. Por lo tanto, el resultado expresa
lo mismo.
Como para cada individuo se dispone de q variables explicativas, en consecuen-
cia, para la ocurrencia i se puede encontrar q puntuaciones. Es decir, la i-ésima
ocurrencia contempla un vector de puntuaciones o vector de primeras derivadas,
de orden q×1, cuyo r-ésimo (r = 1 . . . , q) componente es precisamente el resultado
obtenido en (3.20). Entonces, el vector de puntuaciones para la i-ésima ocurrencia
resulta:
u1i (β)
u2i (β)
Ui (β) = ..
.
uqi (β)
También, Ui puede obtenerse directamente. Esto es, realizando la primera derivada
de la ocurrencia i con respecto al vector de parámetros β = (β1 , β2 , . . . , βq )T .
∂
Ui (β) = li
∂β
" !#
∂
eβ X k
X T
= β T Xi − ln
∂β k∈Ri
Xk eβ Xk
P T
k∈Ri
= Xi − P
e
βT X k
k∈Ri
= Xi − Xi (β)
donde Xi = (x1i , x2i , ..., xqi )T es el vector de variables explicativas correspondiente
al la ocurrencia i, y Xi (β) es el promedio ponderado del mismo vector de variables
75
explicativas en el conjunto riesgo Ri . En caso de ser vectores dependientes del
tiempo, son vectores realizados a ti .
Como la ocurrencia i es muestreado con probabilidad proporcional a g(X; β) =
e (bajo la proporcionalidad log lineal ), se puede verificar en Ri que, las esper-
βT X
anzas, tanto para la r-ésima puntuación como para el vector de puntuaciones son
respectivamente:
∂li ∂li
E = E[uir (β)] = 0, E = E[Ui (β)] = 0 (3.21)
∂βr ∂β
xrk eβ
T
Xk
P
∂li k∈Ri
= xri −
∂βr eβ T
Xk
P
k∈Ri
! !
∂ 2 li 1
xrk xsk eβ eβ
T T
X X
Xk Xk
= − +
∂βr ∂βs P βT X 2
e k k∈Ri k∈Ri
k∈Ri
! !
1
xrk eβ xks eβ
T T
X X
Xk Xk
+ 2
eβ T
Xk k∈Ri k∈Ri
P
k∈Ri
xrk xsk eβ
P T
Xk
k∈Ri
= − − x̄ri (β)x̄si (β)
e β T Xk
P
k∈Ri
= −cov(xri , xsi ; β)
76
∂ 2 li
− = cov(xri , xsi ; β). (3.22)
∂βr ∂βs
Si r = s, la información resulta:
∂ 2 li
− = var(xri ; β) = var(xsi ; β). (3.23)
∂βr ∂βr
Xk XTk eβ
T
Xk
P
2
∂ li k∈Ri T
2 = − + X i (β)X i (β)
∂β eβ T Xk
P
k∈Ri
= −Cov(Xi , Xi ; β) (3.24)
m
X m
X
U(β) = Ui (β), I(β) = Cov(Xi , Xi ; β)
i=1 i=1
77
Definición 3.1. El vector de puntuaciones para m ocurrencias U(β), tiene
a). Esperanza igual al vector cero, es decir E[U(β)] = 0
b). Matriz de covarianza igual la matriz de información, es decir V [U(β)] = I(β)
Demostración. .
(a)
" m
# m
" #
X X
E[U(β)] = E Ui (β) = E {Xi − Xi (β)}
i=1 i=1
m
X Xm
= E[Xi − Xi (β)] = [E(Xi ; β) − Xi (β)]
i=1 i=1
m
X
= [Xi (β) − Xi (β)] = 0
i=1
(b)
m m
!
X X
V [U(β)] = Cov Ui , Ui ; β
i=1 i=1
m
X X
= Cov(Ui , Ui ; β) + Cov(Ui , Ui0 ; β)
i=1 i6=i0
Xm
= Cov(Ui , Ui ; β), ya que Cov(Ui , Ui0 ; β) = 0 ∀i 6= i0
i=1
m
X
= Cov(Xi , Xi ; β), esto por (3.26)
i=1
= I(β)
Demostración. . Se obvia.
78
3.6.3. Estimador Puntual
β2 ≈ β1 + I −1 (β1 )U(β1 )
79
La estadı́stica LR para el r-ésimo elemento del vector β (βr ), evaluada en el
punto γ está definida por:
donde l (β) es el máximo de la función lnL(β) en relación a β = (β1 , ..., βr−1 , βr , βr+1 , ..., βq )
y l (β ? ) es el máximo de la función lnL(β ? ) en relación a β ? = (β1 , ..., βr−1 , γ, βr+1 , ..., βq ).
Ası́, utilizando el estadı́stico LR, el intervalo de confianza para βr , a un nivel de
confianza de (1 − α) es:
(β̂r − γ)2
Wr (γ) = (3.28)
Vb (β̂r )
donde β̂r y Vb (β̂r ) son los valores estimados de βr y de la varianza del estimador de
βr respectivamente. Ası́ el intervalo de confianza para βr utilizando el estadı́stico
de Wald está dado por:
80
3.7. Contraste de Hipótesis
PU (β 0 ) = UT (β 0 )I −1 (β 0 )U(β 0 ) (3.30)
81
Se sabe, además, que la suma de q variables i.i.d normal estándar al cuadrado se
distribuye según una chi-cuadrado con q grados de libertad (Cada variable normal
estándar al cuadrado se distribuye chi-cuadrado con un grado de libertad ).
Por lo tanto.
1 1 1 1
(I − 2 U)T (I − 2 U) = UT (I − 2 )T I − 2 U
1 1
= UT (I − 2 )I − 2 U ya que, I es simétrico
d
= UT I −1 U −−→ J ∼ χ2q
Con este resultado se puede utilizar un estadı́stico, de tal forma que nos ayude a
probar la nulidad del vector de parámetros, es decir bajo la hipótesis nula H0 : β =
β 0 , el estadı́stico PU (β0 ) se distribuye asintóticamente según una Chi-cuadrado
con q grados de libertad.
d
Demostración. A consecuencia de la definición A.3. (β̂−β 0 ) −−→ Z ∼ N (0, I −1 (β 0 )).
Entonces, por definición 3.3
d
(β̂ − β 0 )T I(β 0 )(β̂ − β 0 ) −−→ J ∼ χ2q
Se observa que:
82
Por lo tanto, se concluye
d
(β̂ − β 0 )T I −1 (β̂)(β̂ − β 0 ) −−→ J ∼ χ2q
Esta prueba, que por cierto lo describo al final, es considerado por muchos
autores la de mayor confiabilidad, y por lo tanto y como referencia se encuentra
en la mayorı́a de los paquetes estadı́sticos. Dada la hipótesis H0 : β = β 0 , esta
prueba se define como:
Demostración. Se obvia
83
3.8. Residuos
Otros dos residuos resultan de la derivación de los que se describieron; los residuos
escalados de Scoenfeld y los residuos Dfbetas (ó delta betas). De los cuales, y
según las caracterı́sticas que encajan con el objetivo del presente trabajo, se los
describen a continuación.
84
3.8.1. Residuos de martingala
M̂i = Ni − Êi
donde:
Ni − Êi
di ≈ p .
Êi
3.8.3. Puntuaciones
85
observar, que podemos representar en su forma equivalente, es decir, en función
de los tiempos desordenados t0j : j = 1, 2, ..., m (individuos que experimentan el
evento, ordenados según sus clasificaciones), se tiene
X
Ur (β) = [xjr − x̄jr (β)]
j∈C
Jj = β̂ − β̂j
donde β̂j es el resultado del ajuste incluyendo todos los puntos excepto la obser-
vación j
De hecho la influencia propiamente dicha de cada punto es proporcional a
(Xi − X̄) ∗ residual. Por lo tanto, para el modelo de Cox, se podrı́a esperar que
la influencia se relacionarı́a al residual de puntuaciones.
86
ujr (β̂) = xjr − x̄jr (β̂)
Se podrı́a esperar la respuesta final de este procedimiento ser muy proximo a β̂i
El procedimiento de Newton-Rapshon para nuestro modelo se puede reescribir
de la siguiente manera.
∆β = 1T (UI −1 )
= 1T D
87
3.8.4. Residuos de Schoenfeld
tomar en cuenta que esta expresión esta en función de los tiempos de ocurrencias
ordenados ti : i = 1, 2, ..., m. Esto produce un residuo propuesto por primera vez
por Schoenfeld. El residuo de Schoenfeld para el i-ésimo tiempo de ocurrencia,
resulta.
Si = Ui (β̂) = Xi − X̄i (β̂) (3.34)
donde el r-ésimo residuo de Schoenfeld para el i-ésimo tiempo de ocurrencia or-
denado, es
uir (β̂) = xir − x̄ir (β̂)
88
Para variables explicativas no dependientes del tiempo que tiene un pequeño
número de niveles, una prueba de gráfica sencilla de la suposición de proporcional-
idad puede realizarse observando la curva de supervivencia. Si se mantienen los
riesgos proporcionales, entonces la curva log de la supervivencia deben estabi-
lizarse firmemente a un lado.
Rt
Puesto que la función de supervivencia satisface Fj (t) = e− 0 hj (u)du
, donde
T
hj (u) = h0 (u)eβ Xj . De lo cuál se tiene;
Z t
ln[− ln(Fj (t))] = ln h0 (u)du + β T Xj
0
= ln[H0 (t)] + β T Xj
89
Capı́tulo 4
APLICACIÓN
4.1. Introducción
El tiempo que dura una enfermedad tiene una importante relevancia no solo
para el que lo padece, sino también, para las personas mas allegadas a ella como
ser, su familia. Una enfermedad que se ha hecho muy común, especialmente en
los infantes, hasta hace antes de la era moderna y que en su momento fue una de
las principales causas de la mortalidad infantil a nivel mundial, que consiste en;
”frecuente evacuación de vientre lı́quidas (más conocida como ‘DIARREA’).
Ya en la actualidad este mal ha sido controlado de gran manera, esto gracias
a la evolución de la ciencia médica. Sin embargo, en nuestro paı́s se sigue eviden-
ciando la presencia de dicho mal, esto debido a que en muchas de las familias no
se tiene el acceso al agua segura y carecen del hábito de higiene saludable como
lavarse las manos. Según una publicación del Ministerio de Salud de Bolivia, 46 %
de los niños bolivianos menores de 5 años padecen enfermedades diarreicas, de los
cuales el 70 % provienen de las zonas rurales y el 30 % de las zonas urbanas.
Ası́ como existen diferentes factores que dan lugar a la diarrea para aquel que
no lo padece, existen factores que también dan lugar a la curación de este mal para
aquel que lo padece. Obviamente, el evento de interés en un individuo enfermo, es
la ‘Curación’ y para ello, tanto él, como su familia recurren a diferentes elementos
(factores) que a la larga, algunos, resultan ser factores influyentes para su curación.
Entonces, el interés para un nuevo individuo enfermo es conocer aquellos factores
90
que dan lugar a su curación y el tiempo requerido para ello.
Este hecho nos lleva a la necesidad de llevar a cabo un estudio de supervivencia
con fines predictivos, que consiste en modelar la relación entre el tiempo y los
diferentes factores. Uno de los candidatos para ello, por supuesto, es el modelo
de riesgos proporcionales log-lineal, el cual, nos permitirı́a ‘Identificar los
factores más influyentes y construir un modelo que nos permita
describir, explicar y predecir el tiempo que un individuo enfermo
con diarrea tarda en curarse’.
91
Nº Variable Descripción
1 HOSPITAL Hospital de Internación
2 SEXO Sexo
3 AREA_PRO Área de procedencia
4 NOM_AP Nombre y Apellidos
5 FECH_NAC Fecha de nacimiento
6 FECH_D_I Fecha de inicio de diarrea
7 FECH_HOP Fecha de hospitalización
8 FECH_A_SD Fecha de alta sin diarrea
9 FECH_A_CD Fecha de alta con diarrea
10 FH_A_PS Fecha de alta sin diarrea en caso permanecia prolongada
11 EST_HDR Estado de hidratación
12 TRAT_HDR Tratamiento de hidratación
13 ALTU_EDP Altura por edad percentil
14 ALTU_EDZ Altura po edad Z score
15 PESO_EDP Peso por edad percentil
16 PESO_EDZ Peso po edad Z score
17 PESO_TAP Peso por talla percentl
18 PESO_TAZ Peso por tall Z score
19 ROTAVIRUS Presencia de Rotavirus
20 FIEB_ING Presencia de fiebre
garantizando ası́ que todos los niños sean del mismo cohorte y que su entrada al
estudio depende del momento de hospitalización, independientemente de la fecha
del mismo.
92
4.1.2. Definición y construcción de la variable de estudio
Nº Variable Descripción
1 TIEMPO Tiempo de hospitalización (En días)
2 EDAD_I Edad al momento de ser hospitalizado
3 ESTAD_A Estado al momento de ser dado de alta
93
4.2. Estimación de la Función de Supervivencia
hospitalaria por Kaplan y Meier
94
cuenta factores influyentes. En este cuadro puede observarse que la proporción de
niños que permanecen hospitalizados al cavo de la primera semana fue del 20,9 %,
segunda semana 3,8 %, tercera semana 1,5 %, cuarta semana 1 %. Es decir, de 100
niños hospitalizados, 79 son dados de alta por curación a lo largo de la primera
semana, 95 son dados de alta por curación durante la segunda semana, 98 son
dados de alta por curación durante la tercera semana, y prácticamente casi todos
son dados de alta por curación durante el cuarto mes, a excepción de uno que
sigue hospitalizado.
La Figura4.1 muestra un patron decreciente empinada de la función de super-
vivencia hospitalaria, lo cual nos indica que las altas por curación en los niños
enfermos con diarrea, tienen un comportamiento aproximadamente exponencial
en el tiempo.
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Días
Figura 4.1: Supervivencia hospitalaria estimada por Kaplan y Meier
95
4.3. Búsqueda del mejor modelo de Riesgos Pro-
porcionales Log-lineal
96
Frec. 1 2 3
HOSPITAL 1=Boliviano Holandes 192 0 0
2=Materno Infantil 181 1 0
3=Niño 179 0 1
SEXO 0=Femenilo 233 0
1=Masculino 319 1
AREA_PRO 1=Urbano 518 0
2=Rural 34 1
VOMITO 0=No 64 0
1=Si 488 1
EST_HIDR 1=Sin deshidratación 73 0 0 0
2=Con deshidratición 206 1 0 0
3=Con deshidratación grave 264 0 1 0
4=Shock 9 0 0 1
TRAT_HDR 1=A 12 0 0
2=B 62 1 0
3=C 478 0 1
ROTVIRUS 0=Negativo 315 0
1=Positivo 237 1
FIEB_ING 0=No 310 0
1=Si 242 1
97
selección y ninguna variable introducida en el modelo (hasta entonces) cumpla
con el criterio de eliminación.
Este método nos lleva a obtener las variables cuyo efecto conjunto resulten
significantes bajo la estructura del Modelo de riesgos proporcionales log-lineal. En
consecuencia, postulado a ser uno de los mejores modelos.
En cada paso, el criterio de selección se establecerá con un nivel de confianza
del 5 %, y del 10 % para el criterio de eliminación. Siendo el estadı́stico de Pun-
tuación parcial el que permite evaluar la siginificancia de las variables fuera del
modelo, y el estadı́stico de Wald parcial para las variable en el modelo.
Paso 0
Este es el paso inicial, donde el modelo empieza sin ninguna variable intro-
ducida, es decir las 20 las variables están fuera del modelo.
Sea βj , el coeficiente asociado a la j-ésima variable fuera del modelo. El Cuadro
4.7 muestra los estadı́sticos de puntuación para contrasta la hipótesis nula H0 :
βj = 0 de que la información que aportarı́a la j-ésima variable al introducirla en
el modelo (esto en el siguiente paso), no seria significante.
Cuadro 4.7: Estadı́stico de puntuación para las variables fuera del modelo ‘Paso 0’
98
Según los resultados del Cuadro 4.7, la primera variable seleccionada para
introducirla en el modelo en el siguiente paso (Paso 1) es ‘HOSPITAL’, puesto
que resulta ser la más significante y cumple con el criterio de selección (es decir,
para dicha variable se rechaza H0 a un nivel del 5 %).
Paso 1:
99
Variables fuera del Modelo
Variables Punt. gl. Sig.
SEXO 0,1032 1 0,7480
AREA_PRO 0,0276 1 0,8682
EDAD_ING 0,2649 1 0,6068
VOMITO 0,1216 1 0,7273
EST_HIDR 6,0644 3 0,1085
Con deshidr. 0,3319 1 0,5646
Con deshidr. grave 1,4718 1 0,2251
Sock 2,2088 1 0,1372
TRAT_HDR 1,8747 2 0,3917
Trat. B 1,0920 1 0,2960
Trat. C 1,7592 1 0,1847
ALTU_EDP 3,3282 1 0,0681
ALTU_EDZ 3,2055 1 0,0734
PESO_EDP 4,5046 1 0,0338
PESO_EDZ 10,1025 1 0,0015
PESO_TAP 5,5122 1 0,0189
PESO_TAZ 6,3364 1 0,0118
DIAS_D_I 10,7238 1 0,0011
ROTVIRUS 4,0316 1 0,0447
FIEB_ING 0,1834 1 0,6685
Cuadro 4.9: Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 1’.
Paso 2:
100
Ahora, sea βj el coeficiente asociado a la j-ésima variable fuera del modelo.
El Cuadro 4.11 muestra los estadı́sticos de puntuación parciales para contrasta
la hipótesis nula H0 : βj = 0 de que la información que aportarı́a dicha variable
al introducirla en el modelo en el siguiente paso (introducidas ya las variables
‘HOSPITAL’, ‘DIAS-D-I’ ), no seria significante. Según los resultados del Cuadro
Paso 3:
101
nula H0 : βs = 0; s = h, d, p de que la información que se perderı́a al eliminar la
variable correspondiente a s en el siguiente paso, no seria significante.
Variables en el Modelo
Variables B ET Wald gl Sig.
HOSPITAL 22,6668 2 0,0000
Materno Inf. -0,4011 0,1102 13,2375 1 0,0003
Niño 0,0992 0,1085 0,8359 1 0,3606
DIAS_D_I -0,0480 0,0169 8,0932 1 0,0044
PESO_EDZ 0,0953 0,0357 7,1506 1 0,0075
Cuadro 4.12: Estadı́stico de Wald para las variables HOSPITAL, DIAS-D-I y PESO-EDZ.
Cuadro 4.13: Estadı́stico de puntuación para las variables fuera del Modelo ‘Paso 3’.
102
El Cuadro 4.11, muestra que ninguna variable resulta ser significante y no
cumplen con el criterio de selección (es decir, para todas las variables fuera del
modelo, se rechaza H0 a un nivel del 5 %).
En este punto (Paso 3), como ninguna variable introducida no cumple con
el criterio de eliminación, y ninguna variable fuera del modelo no cumple con el
criterio de selección, se da por finalizado el proceso de selección de variables.
Por lo tanto, la información que se dispone correspondientes a las variables ex-
plicativas ‘HOSPITAL’, ‘DIAS-D-I’ y ‘PESO-EDZ’ en los datos, resultaron ser las
más significantes y si cumplen con el supuesto de proporcionalidad, estos serán
útiles para predecir el ‘Tiempo de hospitalización hasta el alta por cu-
ración’ bajo la estructura del Modelo de Riesgos Proporcionales Log-lineal.
Una vez que se ha podido identificar a las variables que resultaron tener mayor
significancia de entre las 16 variables inicialmente establecidas, la estructura del
Modelo de riesgos proporcionales log-lineal perfilado para ser uno de los mejores
modelos, tiene la forma:
donde:
(
0, Boliviano Holandes, Niño;
x1 =
1, Materno Infantil.
(
0, Boliviano Holandes, Materno Infantil;
x2 =
1, Niño.
x3 = Número de dias de diarrea al momento de la hospitalización (DIAS-D-I).
x4 = Peso por edad Z score (PESO-EDZ).
103
4.3.3. Verificación del supuesto de proporcionalidad de las
variables significantes
104
4.3.4. Estructura del mejor modelo de riesgos proporcionales
Log-Lineal
donde:
El modelo 4.2, resulta ser el mejor modelo, puesto que queda compuesto por las
variables más significantes y además cumplen con el supuesto de proporcionalidad
en los datos.
Hasta aquı́, solo se ha logrado establecer la estructura de uno de los mejores
modelos, que pueda describir, explicar y predecir la variable T ‘Tiempo de su-
pervivencia hospitalaria hasta el alta por curación’. Lo que resta es
estimar o ajusta dicho modelo a partir de los datos disponibles inicialmente.
105
4.4. Ajuste del mejor Modelo en los datos
106
4.4.2. Significancia del mejor modelo encontrado
El Cuadro 4.16, describe la significancia del mejor modelo, bajo los 3 estadı́sti-
cos de prueba disponibles. Es decir. describe el contrate para la hipótesis nula:
107
4.4.3. Estimación de la función de supervivencia hospita-
laria ajustado al mejor modelo
108
pervivencia hospitalaria, lo cual nos indica que las altas por curación en los niños
enfermos con diarrea, tienen un comportamiento aproximadamente exponencial a
lo largo del tiempo.
1.0
0.8
Supervivencia Hospitalaria
0.6
0.4
0.2
0.0
0 5 10 15 20 25
Dias
Figura 4.2: Función de supervivencia estimado por el mejor modelo
109
1.0
Ajuste por el mejor modelo de Cox
0.8
Estimador Kaplan y Meier
Supervivencia Hospitalaria
0.6
0.4
0.2
0.0
0 5 10 15 20 25
Dias
Figura 4.3: Eficiencia del mejor modelo de Cox sobre el estimador Kaplan y Meier
110
rho chisq p
PESO_EDZ 0,023803 0,48800 0,485
DIAS_D_I -0,000239 0,00005 0,994
MODELO NA 0,49200 0,782
1
0
−1
Time
La Figura4.4, describe que el riesgo positivo de ser dado de alta por curación
para un niño con cierta cantidad de unidades de peso por edad Z score (‘PESO-
EDZ’), se mantiene proporcional al de aquel que tiene una unidad inferior, a lo
largo del tiempo. Esto debido a que se observa un patron casi horizontal (Figura
4.4)
111
4.5.3. Supuesto de riesgos proporcionales para la variable
‘DIAS-D-I’
1.5
1.0
Beta(t) for DIAS_D_I
0.5
0.0
−0.5
Time
La Figura4.5 muestra que el riesgo positivo de ser dado de alta por curación
para un niño con un número de dias de diarrea al momento de ser hospitalizado
(‘DIAS-D-I’), se mantiene proporcional al de aquel con un dı́a inferior, a lo largo
del tiempo. Esto debido a que se observa un patron casi horizontal (Figura 4.5)
112
1
4.5.4. Identificación de los niños pobremente pronostica-
dos por el Modelo
1
0
-1
-2
-3
Indice-Niño
113
0.006
0.002
Dfbeta
-0.002
-0.006
-4 -3 -2 -1 0 1 2
PESO_EDZ
-0.001
-0.003
0 2 4 6 8 10 12 14
DIAS_D_I
114
4.5.6. Distribución de la variable ‘PESO-EDZ’
1
Residuos de Martingala
0
−1
−2
−3
−4
−4 −3 −2 −1 0 1 2
PESO_EDZ
Esta gráfica nos muestra que los residuos de martingala tiene un compor-
tamiento casi lineal, el cual nos indica que la distribución de la variable ‘PESO-
EDZ’ se adecúa al modelo en cuestión.
1
115
4.5.7. Distribución de las ‘DIAS-D-I’
1
0
Residuos de Martingala
−1
−2
−3
−4
0 2 4 6 8 10 12 14
DIAS_D_I
1
116
Capı́tulo 5
CONCLUSIONES Y
RECOMENDACIONES
5.1. Conclusiones
117
5.1.2. Respecto los resultados obtenidos en la aplicación
Se puede concluir que el análisis de los datos en niños hospitalizados con diarrea
en el departamento de La Paz, mediante el modelo de riesgos proporcionales log-
lineal, en el sentido de que se logró identificar uno de los mejores modelos que
fue aquel cuya estructura conforma las variables explicativas más significantes
y cumplen con el supuesto de proporcionalidad. Dicho modelo (mejor modelo),
permite pronosticar que a los largo del tiempo:
Por otro lado, la función de supervivencia estimada por el mejor modelo en-
contrado, da un pronostico de que las altas por curación son mayores respecto
al pronosticado por el método Kaplan y Meier entre el segundo dı́a y la tercera
semana de hospitalización (ver Figura4.3).
5.2. Recomendaciones
118
modelo de riesgos proporcionales log-lineal u otro modelo planteado por riesgo,
se perfilan como modelos de riesgos en competencia (riesgos competitivos).
Donde la variable de interés, ya no es de una sola respuestas, sino, de multiples
respuestas.
Otro aspecto muy importante que se dejo de lado en este trabajo, es el pro-
cedimiento que a seguir cuando las variables explicativas significantes violan el
supuesto de proporcionalidad, puesto que al ser significantes, excluirlos del mod-
elo implica perdida de información muy valiosa en los datos. Por lo que, para este
caso se recomienda desarrollar métodos que permitan rescatar dicha información
bajo la estructura del modelo en cuestión. Entonces, el modelo se perfila como:
Modelo de Riesgos no Proporcionales Log-lineal.
Finalmente, puesto que el modelo de riesgo proporcionales log-lineal se podrı́a
decir, que es uno mas, de la familia amplia de modelos de riesgos proporcionales. Se
recomienda desarrollar algunos de estos modelos. Uno de los casos seria cuando se
conoce la forma funcional de la distribución del tiempo de supervivencia estándar
o de referencia, direccionando al planteo de un modelo de riesgos proporcionales
completamente paramétrico ya sea log-lineal, logı́stico o lineal.
119
Apéndice A
APÉNDICE
∂li
Demostración. Sean, uri = ∂β r
la r-ésima puntuación para la ocurrencia i, por
hipótesis, implica que; E(uri ) = 0 y V (uri ) = E[Irs (β)] para todo i = 1, 2, ..., m.
Luego, las esperanzas y varianzas de uir en términos de las función generadora
de momentos,
t2 00
Muir (t) = Muir (0) + tMu0 ir (0) + [M (0) + R2 (t)]
2 uir
120
reemplazando (A.1)
t2
Muir (t) = 1 + [E[Irs (β)] + R2 (t)]
2
1
hallando la función generadora de momentos de m 2 ūr
#m
( √tm )2
m "
t t
Mm 12 ū (t) = Muir ( √ ) = 1 + E[Irs (β)] + R2 ( √ )
r m 2 m
h i m
t2 √t )
2
E[Irs (β)] + R2 ( m
= 1 + (A.2)
m
t2 t2 t2
t
lı́m E[Irs (β)] + R2 ( √ ) = E[Irs (β)] + lı́m R(s)
m→∞ 2 m 2 2 s→0
t2
= E[Irs (β)], donde; lı́m R2 (s) = 0(A.4)
2 s→o
en consecuencia.
1 d
m 2 ūr −−→ z ∼ N (0, E[Irs (β)])
Por lo tanto
1 d
m 2 U −−→ Z ∼ N (0, E[I(β)])
121
Definición A.2. Bajo las condiciones de la definición (A.1), por el teorema de
limite central. El vector de puntuaciones se distribuye asintóticamente a una nor-
mal con media 0 y matriz de covarianzas I(β), es decir
d
U(β) −−→ Z ∼ N (0, I(β))
luego,
m
d
X
Ui −−→ N (0, mE[I(β)]) = N (0, I(β))
i=1
es decir m
X ∂li d
−−→ N (0, I(β))
i=1
∂β
Por lo tanto
d
U(β) −−→ N (0, I(β))
Demostración. Sea p(ji |Hi ) la función de densidad común para las ocurrencias
li ; i = 1, 2, .., m. Recordemos que p(ji |Hi ), esta en función tanto del vector de
parámetros Xi , como de parámetro desconocido β.
Donde, la función de verosimilitud para todas las observaciones resulta:
"m # m m
Y X X
ln[L(β)] = ln p(ji |Hi ) = ln[p(ji |Hi )] = li
i=1 i=1 i=1
122
m
P
igualando a cero, se tiene Ui (β̂) = 0
i=1
Luego, la función, Ui (β̂) aproximando por la serie de Taylor como una función
de vector de parámetros estimado β̂ al rededor del verdadero vector de parámetros
β (recordemos que Xi son constantes), se tiene
∂
Ui (β̂) = Ui (β) + (β̂ − β) Ui (β) + Ri1 (β̂)
∂β
donde
lı́m Ri1 (β̂) = 0 (A.6)
β̂→β
h i−1
Pm d
En consecuencia, (β̂ − β) = − I(β) + i=1 Ri1 (β̂) U −−→ I −1 (β)Z
Haciendo I(β) = I por fines de cálculo, tenemos
ası́,
d
(β̂ − β) −−→ N (0, I −1 (β))
123
Definición A.4. El vector de parámetros estimado β̂, es consistente con respecto
al parámetro verdadero β
d d
Demostración. β̂ será un estimador consistente de β si; E[β̂] −−→ β, y V [β̂] −−→ 0.
Por definición A.3 se tiene,
d
(β̂ − β) −−→ N (0, I −1 (β))
entonces
E[(β̂ − β)] = 0
E[β̂] − β = 0
d
E[β̂] = β ⇒ E[β̂] −−→ β
V [β̂ − β] = [I(β)]−1
V [β̂] = {mE[I(β)]}−1
= m−1 {E[I(β)]}−1
1 d
= {E[I(β)]}−1 ⇒ V [β̂] −−→ 0
m
124
1. Menú → Analizar → Supervivencia → Regresión de Cox.
5. Opción Categórica
7. Opción Continuar
Los estadı́sticos usados en este proceso son: Para cada modelo: –2LL, el es-
tadı́stico de la razón de verosimilitud y el chi-cuadrado global. Para las variables
dentro del modelo: Estimaciones de los parámetros, Errores tı́picos y Estadı́sticos
de Wald, con nivel de confianza del 10 %. Para variables que no estén en el mod-
elo: Estadı́sticos de Puntuación y Chi-cuadrado residual, con nivel de confianza
del 5 %.
La versión del software ‘R’ usado para el proceso de datos, tanto para estima-
ciones por el método Kaplan-Meier como por el modelo de riesgos proporcionales
log-lineal, fue la versión: ‘R2,10,1’.
El análisis para el modelo de Cox, fue a partir del mejor modelo de Cox,
cuya estructura quedo conformado por las variables explicativas que resultaron
ser más significantes los cuales se fueron identificados con el paquete estadı́stico
125
SP SS descrito en la sección precedente y hayan cumplido con el supuesto de
proporcionalidad el cuál el cual fue posible con el software R.
126
A.3.2. Modelo de riesgos proporcionales log-lineal
> # Ajuste del mejor modelo de riesgos proporcionales log-lineal (modelo de Cox):
> cox<-coxph(Surv(TIEMPO, ESTADO)~PESO_EDZ+DIAS_D_I,
+ data = b.diarr, na.action = na.exclude, iter.max=50)
> # Donde:
> # cox es el nombre del objeto al cual se le asignará la función
> # coxph (es conveniente cambiar el nombre si se desea hacer
> # operaciones posteriores), cox indica que se trata de objeto
> # tipo Cox (opcional).
> # coxph es la función para la obtención del ajuste por el modelo de
> # Cox.
> # PESO_EDZ, es la variable explicativa definido como: Índice de peso por edad Z
> # Score.
> # DIAS_D_I, es la variable explicativa definido como: Número de días de diarrea al
> # momento de la hospitalización.
> # na.action = na.exclude se utiliza para que excluya los individuos con
> # valores perdidos.
> # iter.max = se utiliza para fijar el número máximo de iteraciones,
> # se utiliza cuando no se logra la convergencia en el número de
> # iteraciones por defecto.
> # Obtención de la grafica de los residuos delta Beta para la variable PESO_EDZ
> rr<-resid(cox,type="dfbeta")
> attach(b.diarr)
> plot(PESO_EDZ,rr[,1], xlab="PESO_EDZ",ylab="Dfbeta)
> # Obtención de la grafica de los residuos delta Beta para la variable PESO_EDZ
> # Obtención de la grafica de los residuos de desviación:
> plot(resid(cox,type="deviance"),xlab="Indice-Niño",
+ ylab="res. de desviación")
> # Obtención de la grafica de los residuos delta Beta para la variable PESO_EDZ:
> rr<-resid(cox,type="dfbeta")
> attach(b.diarr)
> plot(PESO_EDZ,rr[,1], xlab="PESO_EDZ",ylab="Dfbeta)
> # Obtención de la grafica de los residuos delta Beta para la variable DIAS_D_I:
> rr<-resid(cox,type="dfbeta")
> attach(b.diarr)
> plot(DIAS_D_I ,rr[,2], xlab=" DIAS_D_I ",ylab="Dfbeta)
128
Referencias bibliográficas
[1] Alfonso Luis Palmer Pol y Jose Maria Losilla Vidal. ‘EL MODELO DE RIES-
GOS PROPORCIONALES’
129
[12] Mai Zhou. ‘UDERSTANDIN THE COX REGRESSION MODELS WITH
TIME-CHANGE COVARIATES’.
130