Analisis Data Survival: Diktat Kuliah
Analisis Data Survival: Diktat Kuliah
Analisis Data Survival: Diktat Kuliah
Disusun oleh:
Dr. Danardono, MPH.
Daftar Gambar iv
Daftar Tabel v
Kata Pengantar v
1 Pendahuluan 1
1.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Data dan Variabel Random Survival . . . . . . . . . . . . . . . . 1
1.3 Data tersensor dan terpotong . . . . . . . . . . . . . . . . . . . . 3
1.4 Latihan Bab 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Metode Parametrik 19
3.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Beberapa distribusi parametrik . . . . . . . . . . . . . . . . . . . 19
3.2.1 Distribusi Eksponensial . . . . . . . . . . . . . . . . . . 19
3.2.2 Distribusi Weibull . . . . . . . . . . . . . . . . . . . . . 22
3.2.3 Distribusi Gamma . . . . . . . . . . . . . . . . . . . . . 22
3.2.4 Distribusi Log-normal . . . . . . . . . . . . . . . . . . . 25
3.2.5 Distribusi Gompertz-Makeham . . . . . . . . . . . . . . . 27
3.2.6 Distribusi Log-logistik . . . . . . . . . . . . . . . . . . . 28
3.3 Estimasi parameter . . . . . . . . . . . . . . . . . . . . . . . . . 28
ii
Daftar Isi iii
6 Regresi Cox 60
6.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Model dan Asumsi . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.3 Estimasi parameter . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Ties dalam Partial Likelihood . . . . . . . . . . . . . . . . . . . . 67
6.5 Interpretasi Parameter . . . . . . . . . . . . . . . . . . . . . . . . 67
6.6 Stratifikasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.7 Inferensi Parameter Regresi Cox . . . . . . . . . . . . . . . . . . 68
6.8 Latihan Bab 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Daftar Gambar
6.1 Kurva hazard untuk dua grup atau individu yang berbeda . . . . . 61
6.2 Baseline hazard dan kurva hazard untuk dua grup yang berbeda . 63
6.3 Ilustrasi untuk Partial Likelihood Data Tabel 6.6 . . . . . . . . . . 64
6.4 Fungsi Partial Likelihood (6.7) . . . . . . . . . . . . . . . . . . . 65
6.5 Plot estimasi kurva survival Model (6.24) . . . . . . . . . . . . . 72
iv
Daftar Tabel
v
Kata Pengantar
vi
vii
petensi terutama dalam aspek praktis dan komputasinya. Beberapa contoh dan
latihan soal dalam diktat ini diharapkan dapat dicoba dalam kuliah Praktikum.
Diktat ini disusun berdasarkan catatan, tayangan kuliah serta referensi tentang
Analisis Data Survival. Sebagai edisi pertama Diktat tentang Analisis Data Su-
rvival, tentu masih banyak kekurangan dan kesalahan dalam diktat ini. Untuk itu
saran dan kritik dari pembaca dan pengguna sangat diharapkan.
Akhir kata penulis mengucapkan terima kasih kepada segala pihak yang te-
lah mendukung penulisan diktat ini, terutama kepada Jurusan Matematika FMIPA
UGM yang telah memberi hibah penulisan diktat ini.
Penulis,
1
1.2. Data dan Variabel Random Survival 2
origin event
0 waktu t
2. Titik asal (origin) yang digunakan untuk mengukur lama waktu sampai su-
atu event terjadi;
Tidak selalu event yang menjadi perhatian adalah sesuatu yang terminate, ya-
itu event yang hanya sekali saja terjadi dan berhenti, seperti misalnya kematian.
Event juga dapat berupa status (state) yang lebih umum, seperti misalnya status
sakit, status pekerjaan, dst.
Contoh 1.2
Misalkan data survival yang menjadi perhatian adalah lama waktu mulai terapi pertama
kali diberikan kepada penderita leukemia sampai kambuh kembali, dalam satuan minggu.
Dalam contoh ini event dapat berulang (kambuh) dan bukan sesuatu yang berhenti dan
hanya sekali terjadi.
Data survival sering diilustrasikan seperti gambar batang ”korek api” (Gam-
bar 1.1) dengan bulatan hitam adalah event dan garis lurus horizontal adalah lama
waktu sampai terjadinya event. Apabila event dipandang sebagai status (state)
yang berubah menurut waktu, dan kadang melibatkan lebih dari satu status, ma-
ka dapat digunakan representasi data survival seperti pada Gambar 1.2. Dalam
pengembangannya data survival dapat memuat informasi lebih dari satu status,
sehingga gambaran status yang berbeda terhadap berubahnya waktu dapat ditun-
jukkan dari sumbu Y yang nilainya berbeda, atau dari jenis garis horizontalnya,
misalnya garis biasa, garis tebal, dan seterusnya.
Data survival merupakan realisasi dari suatu variabel random survival, yaitu
suatu variabel random non-negatif, T , yang menjadi dasar pembentukan model
1.3. Data tersensor dan terpotong 3
0 waktu t
0 waktu t
dan metode dalam analisis data survival. Untuk menuliskan suatu nilai T terten-
tu digunakan lambang t. Misalkan T adalah lama waktu sampai seorang pasien
leukemia kambuh kembali (Contoh 1.2), maka pernyataan ”lama waktu kambuh
kembali lebih dari 5 minggu” dapat dituliskan sebagai T > 5. Dalam Bab 2 akan
dibahas lebih lanjut beberapa macam fungsi terkait variabel random T ini.
Contoh 1.3
Data tersensor kanan : Suatu eksperimen menggunakan tikus percobaan dilakukan un-
tuk mengetahui seberapa lama tikus dapat hidup setelah pemberian suatu zat yang dapat
mengakibatkan kanker.
• Tipe II: Jika saat tersensornya ditentukan setelah tercapai persentase atau banyak
sampel tertentu yang telah mendapatkan event.
Definisi 1.2
Suatu data atau observasi dikatakan terpotong kiri (left-truncated) pada titik k
apabila data hanya menggunakan nilai observasi t ≥ k.
Contoh 1.4
Data terpotong kiri: Suatu studi tentang morbiditas dan mortalitas pegawai pada su-
atu institusi dilakukan ketika pegawai telah berusia 40 tahun ke atas. Apabila seo-
rang pegawai telah meninggal sebelum berusia 40, dia tidak masuk dalam sampel (left-
truncated).
Definisi 1.3
Suatu data atau observasi dikatakan tersensor kiri (left-censored) pada titik k
apabila nilai observasi yang digunakan adalah t, jika t ≥ k; atau k jika t < k.
Contoh 1.5
Data tersensor kiri: Data seperti ini biasanya terjadi pada pengumpulan data yang di-
lakukan secara retrospektif atau melihat informasi ke belakang. Suatu studi dilakukan
untuk mengetahui faktor-faktor yang mempengaruhi usia pertama kali merokok. Apabila
responden ingat usia saat dia pertama kali merokok, dikatakan observasi yang dipero-
leh adalah lengkap. Bila responden tidak ingat kapan dia mulai merokok, tapi hanya
ingat mulai merokok sebelum usia tertentu, maka dikatakan observasi tersebut tersensor
kiri.
Definisi 1.4
Suatu data atau observasi dikatakan terpotong kanan (right-truncated) pada titik
k apabila data hanya menggunakan nilai observasi t ≤ k.
Contoh 1.6
Data terpotong kanan: Data ini juga biasa terjadi pada pengumpulan data retrospek-
tif. Suatu studi tentang AIDS dilakukan secara retrospektif. Yang menjadi perhatian
adalah durasi mulai infeksi HIV sampai terdiagnosis AIDS. Hanya individu yang telah
terdiagnosis AIDS sebelum mulai studi saja yang akan masuk dalam studi. Individu
yang belum terdiagnosis AIDS tidak masuk dalam studi adalah sampel yang terpotong
kanan.
Pada Gambar 1.3 dapat dilihat perbedaan keempat jenis data tidak lengkap se-
perti yang telah dijelaskan di muka. Pada Gambar tersebut, bagian yang diarsir
adalah periode pada saat mana observasi tidak lengkap (unobserved). Observasi
1.3. Data tersensor dan terpotong 5
terpotong-kiri tersensor-kanan
tersensor-kiri terpotong-kanan
t (waktu) t (waktu)
tersensor kanan sering dikatakan tersensor dari atas, karena bagian yang tersen-
sor adalah bagian paling kini secara kronologis (atas). Demikian juga observasi
yang terpotong kanan sering disebut terpotong dari atas. Sebaliknya Observasi
tersensor kiri dan terpotong kiri sering disebut tersensor dari bawah dan terpo-
tong dari bawah, karena bagian yang tersensor atau terpotong adalah pada bagian
awal (bawah).
Penyensoran (censoring) pada suatu pengamatan akan berakibat ketidakleng-
kapan informasi lama-waktu atau durasi pada data yang diperoleh. Sedangkan Pe-
motongan (truncation) akan berakibat pada terambil atau tidaknya suatu subyek
sebagai sampel, selain ketidaklengkapan informasi pada durasi. Sebagai contoh,
data lama hidup tikus Contoh 1.3. Apabila penelitian dihentikan pada suatu waktu
(sensor Tipe I), maka informasi yang tidak lengkap hanya terjadi pada tikus-tikus
yang masih hidup. Namun pada Contoh 1.4, pegawai yang meninggal sebelum
berusia 40 tahun akan tidak terambil sebagai sampel. Dengan kata lain, observasi
yang terpotong (meninggal sebelum usia 40) mempengaruhi keterambilan subyek
sebagai sampel. Akibat yang sama terjadi pula untuk tersensor kanan dan terpo-
tong kanan.
Berikut adalah beberapa contoh data survival yang diperoleh dari permasalah-
an aplikasi yang berbeda, yaitu dalam bidang ilmu kesehatan, ilmu perekayasaan
dan ilmu sosial.
Contoh 1.7
Diperoleh data dari studi tentang pasien leukemia (Cox and Oakes, 1984) seperti pada
Tabel 1.1. Event yang perhatian dalam studi ini adalah relapse (kekambuhan kembali)
dari 42 pasien leukemia anak-anak yang pada awal studi telah dianggap sembuh (re-
mission). Pasien mendapatkan perawatan berupa 6-MP (6-mercaptopurine) dan place-
bo.
1.3. Data tersensor dan terpotong 6
Contoh 1.8
Suatu percobaan dilakukan untuk meneliti pengaruh voltase terhadap kerusakan suatu
alat elektrik (Lawless, 2003). Diperoleh data seperti pada Tabel 1.2. Dalam penelitian
ini semua sampel diamati sampai semuanya rusak, tidak ada censoring dalam data ini.
Terlihat bahwa semakin tinggi voltase, lama sampai suatu komponen rusak semakin cepat.
Voltase normal untuk komponen ini adalah 20kV.
Contoh 1.9
Suatu studi di Amerika dilakukan untuk mengetahui faktor-faktor yang mempengaruhi
lama menyusui, atau saat penyapihan (weaning) (Klein and Moeschberger, 2003). Dari
927 bayi yang disusui oleh ibunya, beberapa pertanyaan diajukan seperti pada Tabel 1.3.
Data untuk contoh ini dapat dikopi saat praktikum.
1.4. Latihan Bab 1 7
1.3. Sebutkan matakuliah dalam program studi Statistika yang terkait dengan
analisis data survival!
AG positive AG negative
ID WBC waktu ID WBC waktu
1 0.0230 65 18 0.044 56
2 0.0075 156 19 0.030 65
3 0.0430 100 20 0.040 17
4 0.0260 134 21 0.015 7
5 0.0600 16 22 0.090 16
6 0.1050 108 23 0.053 22
7 0.1000 121 24 0.100 3
8 0.1700 4 25 0.190 4
9 0.0540 39 26 0.270 2
10 0.0700 143 27 0.280 3
11 0.0940 56 28 0.310 8
12 0.3200 26 29 0.260 4
13 0.3500 22 30 0.210 3
14 1.0000 1 31 0.790 30
15 1.0000 1 32 1.000 4
16 0.5200 5 33 1.000 43
17 1.0000 65
ID adalah nomor identitas pasien
pada lama waktu sejak diberi karsinogen sampai terkena tumor, permasa-
lahan data tidak lengkap apa saja yang mungkin terjadi?
1.6. Tanpa menggunakan metode yang nanti akan dipelajari dalam analisis data
survival, lakukan analisis data untuk Contoh 1.7 dan Contoh 1.8! (Misalnya
dengan ANOVA atau Regresi). Kesimpulan apa yang dari analisis data yang
saudara lakukan?
1.7. Mengapa data yang tersensor dalam data survival tidak seharusnya dibuang?
Jelaskan!
1.8. Berikan masing-masing satu contoh permasalahan atau fenomena yang da-
pat dipandang sebagai data survival dan kemungkinan terdapat observasi
tidak lengkap sebagai berikut: (1) tersensor-kanan; (2) terpotong-kiri; (3)
tersensor-kiri; (4) terpotong-kanan!
1.9. Tabel 1.4 adalah data lama hidup 33 pasien leukemia (dalam minggu), ba-
nyaknya sel darah putih (WBC, dalam satuan 100.000 sel); dan hasil tes
karakteristik morfologis darah putih (AG positive atau AG negative).
1.4. Latihan Bab 1 9
10
2.2. Fungsi Survival dan Hazard 11
1.0
0.8
0.6
S(t)
0.4
0.2
0.0
Contoh fungsi survival dapat dilihat pada Gambar 2.1. Fungsi survival dapat
diinterpretasikan sebagai proporsi individu yang hidup dari sekelompok cohort
(angkatan). Pada awal lahirnya cohort tersebut proporsi yang hidup besar (men-
dekati satu). Seiring waktu berjalan proporsi yang hidup dari cohort tersebut akan
berkurang sampai akhirnya semua meninggal (proporsi mendekati nol).
Contoh 2.1
Misalkan T adalah lama waktu sampai seorang pasien leukemia kambuh kembali (Con-
toh 1.2) dalam satuan minggu, maka S(5) = P (T > 5) dapat diinterpretasikan sebagai
probabilitas lama waktu kambuh kembali lebih dari 5 minggu. Kalau tidak kambuh di-
pandang sebagai ”survive”, maka peluang survival nya adalah S(5).
Fungsi variabel random lain yang cukup penting adalah fungsi hazard yang
didefinisikan sebagai
P (t ≤ T < t + ∆t | T ≥ t)
h(t) = lim (2.2)
∆t→0 ∆t
yang dapat diinterpretasikan sebagai tingkat (rate) terjadinya suatu event. Seba-
gai contoh, fungsi hazard dapat dilihat pada Gambar 2.2. Fungsi hazard yang
2.2. Fungsi Survival dan Hazard 12
5
4
3
h(t)
2
1
0
berbentuk U seperti ini biasanya menunjukkan resiko kematian pada makhluk hi-
dup secara biologis. Pada usia muda, tingkat atau resiko kematian tinggi. Resiko
berkurang setelah dewasa, namun kembali bertambah setelah mendekati usia tua.
Ada banyak bentuk fungsi hazard yang merujuk pada suatu distribusi tertentu.
Fungsi hazard bukan probabilitas, sehingga dimungkinkan nilainya lebih dari satu.
Batasan yang dikenakan pada fungsi hazard hanyalah h(t) ≥ 0.
Integral dari fungsi hazard h(t) adalah fungsi hazard kumulatif
Z t
H(t) = h(x)dx (2.3)
0
yang hubungan fungsionalnya dengan S(t) cukup penting sebagai dasar dalam
pemodelan data survival.
Fungsi S(t), h(t), H(t) dan f (t) merupakan fungsi yang bergantung pada
waktu t. Kadang diperlukan fungsi yang hasilnya berupa nilai waktu t dengan di-
berikan probabilitas atau kuantitas yang lain. Misalnya dalam penghitungan medi-
an. Median adalah nilai tengah, yaitu jika t0,5 adalah median, maka S(t0,5 ) = 0,5.
Secara umum diperlukan fungsi yang dapat digunakan mencari median atau titik
waktu yang lain dengan diberikan probabilitas yang dinamakan fungsi kuantil.
Fungsi kuantil adalah
tp = S −1 (p), 0<p<1 (2.4)
2.3. Hubungan antar Fungsi 13
atau
Nilai tp sering disebut sebagai kuantil ke-p, jadi median adalah kuantil ke- 12 .
Kuantitas lain yang penting adalah mean dan variansi T , yaitu
Z ∞
E(T ) = S(t)dt (2.6)
0
dan
Z ∞
var(T ) = 2 tS(t)dt − E(T )2 (2.7)
0
atau H(t) = − log(S(t)). Dari sini dapat diperoleh pula hubungan antara fungsi
densitas, hazard dan hazard kumulatif sebagai berikut
f (t) = h(t) exp[−H(t)] (2.13)
Karena fungsi survival harus memenuhi S(t) = exp(−H(t)), dapat disim-
pulkan H(t) < ∞ untuk t > 0, dan limt→∞ H(t) = ∞.
Dengan mengetahui hubungan antar fungsi variabel random survival, apabila
satu jenis fungsi diketahui, fungsi yang lain dapat diketahui pula.
Contoh 2.2
Diketahui fungsi hazard konstan h(t) = λ. Carilah bentuk fungsi survival, fungsi densitas
dan fungsi hazard kumulatif distribusi ini.
Jawab: Rt
Diketahui, h(t) = λ. Menggunakan hubungan H(t) = 0 h(x)dx dapat dicari
Z t
H(t) = λdx = [λx]t0
0
= λt.
Kemudian menggunakan hubungan S(t) = exp(−H(t)), dan f (t) = h(t)S(t) dapat
dicari
S(t) = exp(−H(t)) = exp(−λt)
dan
f (t) = λ exp(−λt).
Distribusi ini dikenal sebagai distribusi eksponensial, yaitu distribusi dengan fungsi haza-
rd konstan. Bersama dengan distribusi-distribusi yang lain, distribusi eksponensial akan
dipelajari lebih jauh pada Bab 3.
Contoh 2.3
Variabel random survival diskrit T mempunyai fungsi probabilitas
1
f (t) = P (t = k) = , k = 1, 2, 3
3
Fungsi survivalnya adalah
X
S(t) = f (xj )
j|xj >t
1 jika 0 ≤ t < 1,
2/3 jika 1 ≤ t < 2,
=
1/3 jika 2 ≤ t < 3,
0 jika t ≥ 3.
Untuk T diskrit, S(t) berupa fungsi tangga yang tak-naik. Fungsi hazard T adalah
f (xj )
h(xj ) =
S(xj )
1/3 untuk j = 1
1/2 untuk j = 2
=
1 untuk j = 3
0 yang lain.
Untuk variabel random survival diskrit, fungsi hazard akan bernilai nol, kecuali pada titik-
titik di mana event dapat terjadi.
2.2. Jika diketahui S(t) = 0,2(25 − t)1/2 pada domain 0 ≤ t ≤ 25, tentukan
nilai hazard kumulatif H(16)!
2.3. Diketahui fungsi hazard h(t) = a + bt, a > 0 dan b > 0, tentukan nilai
S(t)!
2.4. Tunjukkan mengapa S(t) dari fungsi hazard h(t) = e−rt , r > 0 bukan
merupakan fungsi survival:
2.5. Untuk variabel random durasi (interval antar kejadian) kontinu T , dengan
fungsi survival S(t):
2.5. Latihan Bab 2 17
R∞
(a) Tunjukkan bahwa E(T ) = 0
S(t)dt
(b) Tunjukkan bahwa E(T ) = r(0) (soal no. 2(a)), dengan
r(t) = E(T − t | T ≥ t)
yang sering disebut sebagai expected residual life atau mean residual
life pada saat t
2.9. Diketahui fungsi survival S(t) = exp(−tλ ), carilah fungsi densitas dan
fungsi hazardnya!
2.10. Tunjukkan bahwa jika fungsi hazard suatu variabel random survival adalah
λk
P (T = k) = e−λ , k = 0, 1, . . . .
k!
Tunjukkan fungsi hazard-nya naik monoton.
2.14. Suatu model yang digunakan dalam Tabel Mortalitas adalah model piece-
wise constant hazard rate. Dalam model ini waktu dibagi dalam k interval
[τj−1 , τj ), j = 1, 2, . . . , k dengan τk = ∞. Fungsi hazard dalam interval
ke-j berupa konstan λj , atau
λ1 0 ≤ t < τ1
λ2 τ1 ≤ t < τ2
h(t) = ...
λk−1 τk−2 ≤ t < τk−1
λk t ≥ τk−1
3.2. Menyebutkan dan menjelaskan aplikasi atau fenomena data survival yang
mengikuti distribusi parametrik tertentu
3.5. Mengidentifikasi distribusi yang sesuai jika diberikan suatu set data survival
h(t) = λ (3.1)
Hazard yang konstan ini sebenarnya tidak cukup realistis untuk memodelkan fe-
nomena terkait data survival. Namun model dengan distribusi Eksponensial ini
19
3.2. Beberapa distribusi parametrik 20
dipandang cukup baik dan sederhana sebelum melihat model lain yang mungkin
lebih baik namun mungkin juga lebih rumit.
Model dengan reparameterisasi θ = 1/λ kadang sering juga digunakan. Per-
bedaannya adalah dalam interpretasi terkait fungsi hazardnya. Untuk event seperti
kerusakan atau kematian, λ diinterpretasikan sebagai tingkat resiko (hazard rate)
dengan satuan kerusakan per satu satuan waktu, sedangkan θ = 1/λ adalah lama
waktu sampai satu kerusakan.
Dengan terlebih dahulu mencari fungsi hazard kumulatifnya yaitu H(t) =
λt, fungsi survival dapat dicari melalui hubungan antara H(t) dan S(t), sebagai
berikut
f (t) = h(t)s(t)
= λ exp(−λt) (3.3)
a) Apabila 2000 jam tersebut kita interpretasikan sebagai median lama hidup, hitung
berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?
b) Apabila 2000 jam tersebut kita interpretasikan sebagai mean lama hidup, hitung
berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?
Jawab:
b) Mean distribusi eksponensial 1/λ = 2000, jadi λ = 0,0005 kerusakan per jam.
Probabilitas masih hidup setelah 2500 jam pemakaian, S(2500) = exp(−0,0005×
2500) = 0,287
3.2. Beberapa distribusi parametrik 21
1.0
0.8
0.6
S(t)
0.4
λ = 0.1
λ = 0.3
0.2
0.0
0 10 20 30 40
Gambar 3.1: Kurva survival untuk model eksponensial dengan dua nilai λ yang
berbeda
0.6
0.5
0.4
λ = 0.3
h(t)
0.3
0.2
λ = 0.1
0.1
0.0
0 10 20 30 40
Gambar 3.2: Kurva hazard untuk model eksponensial dengan dua nilai λ yang
berbeda
3.2. Beberapa distribusi parametrik 22
Kurva survival dan kurva hazard untuk model Weibull dapat dilihat pada Gam-
bar 3.3 dan 3.4. Distribusi Weibull banyak digunakan dalam bidang reliabilitas
dan studi mortalitas.
λ(λt)β−1 exp(−λt)
f (t) = (3.7)
Γ(β)
1.0
0.8
0.6
S(t)
0.4
0.2
α = 0.1
α=4
α=2 α=1
0.0
0 1 2 3 4
Gambar 3.3: Kurva survival untuk model Weibull dengan beberapa nilai α yang
berbeda dan satu nilai λ tertentu
4
3
α=4
α=2
h(t)
α=1
1
α = 0.1
0
0 1 2 3 4
Gambar 3.4: Kurva hazard untuk model Weibull dengan beberapa nilai α yang
berbeda dan satu nilai λ tertentu
3.2. Beberapa distribusi parametrik 24
2.0
1.5
β = 0.4
h(t)
1.0
β=2
0.5
β=4
0.0
0 1 2 3 4
Gambar 3.5: Kurva fungsi hazard untuk model Gamma dengan beberapa nilai β
yang berbeda dan λ = 1
λt
1
Z
S(t) = 1 − I(λt, β) = 1 − uβ−1 e−u du (3.9)
Γ(β) 0
Secara praktis penggunaan fungsi Gamma agak terbatas karena bentuk ekspli-
sit fungsi survivalnya yang rumit memuat integral fungsi Gamma tidak-lengkap.
Fungsi Gamma dengan β = 1 adalah sama dengan distribusi Eksponensial(λ).
Distribusi Gamma dengan parameter λ = 1 dikenal dengan Gamma satu pa-
rameter β dan mempunyai fungsi densitas sebagai berikut
tβ−1 exp(−t)
f (t) = (3.10)
Γ(β)
Jika T berdistribusi Gamma (3.7), maka λT akan berdistribusi Gamma satu pa-
rameter β. Kemudian bila Y berdistribusi Gamma satu parameter β, maka 2Y
berdistribusi χ2 (Chi kuadrat) dengan derajat bebas 2k.
Gambar fungsi densitas dan fungsi hazard untuk λ = 1 dan berbagai nilai β
dapat dilihat pada Gambar 3.5 dan Gambar 3.6.
Seperti halnya distribusi Weibull, distribusi Gamma diawali dari permasalahan
dalam bidang perekayasaan (engineering) dan ketahanan material. Aplikasinya
kemudian ke bidang yang lain seperti industri dan model mortalitas.
3.2. Beberapa distribusi parametrik 25
0.6
0.4
f(t)
0.2
β=4
β=2
β = 0.4
0.0
0 1 2 3 4
Gambar 3.6: Kurva fungsi densitas untuk model Gamma dengan beberapa nilai
β yang berbeda dan λ = 1
1 1
f (t) = exp − 2 (log(t) − µ)2
√ (3.11)
tσ 2π 2σ
log(t) − µ
S(t) = 1 − Φ (3.13)
σ
5
σ = 0.25
4
3
h(t)
σ = 0.5
2
1
σ = 1.5
0
0 1 2 3 4
Gambar 3.7: Kurva fungsi hazard untuk model lognormal dengan beberapa nilai
σ yang berbeda dan µ = 0
2.0
σ = 0.25
1.5
1.0
f(t)
0.5
σ = 0.5
σ = 1.5
0.0
0 1 2 3
Gambar 3.8: Kurva fungsi densitas untuk model lognormal dengan beberapa nilai
σ yang berbeda dan µ = 0
3.2. Beberapa distribusi parametrik 27
Contoh 3.2
Carilah median lognormal, bila diketahui fungsi survival seperti (3.13).
Jawab:
Bila med adalah median, maka
log(med) − µ
S(med) = 1 − Φ = 1/2
σ
atau
log(med) − µ
Φ = 1/2
σ
Kuantil ke-1/2 normal standar adalah 0, sehingga
log(med) − µ
= 0
σ
log(med) = µ
med = exp(µ)
exp[(y − µ)/σ]
f (y) = (3.18)
σ(1 + exp[(y − µ)/σ])2
dengan −∞ < y < ∞ adalah variabel random logistik dengan parameter −∞ <
µ < ∞ dan −∞ < σ < ∞.
Fungsi Survival distribusi log-logistik adalah
1
S(t) = (3.19)
1 + (λt)α
Fungsi hazard distribusi ini dapat diturunkan mulai dari fungsi kumulatif hazard-
nya
H(t) = − log[S(t)]
= log((1 + (λt)α ) (3.20)
kemudian diperoleh
h(t) = dH(t)/dt
λα(λt)α−1
= . (3.21)
1 + (λt)α
f (t) = S(t)h(t)
λα(λt)α−1 1
= (3.22)
1 + (λt) 1 + (λt)α
α
λα(λt)α−1
= (3.23)
[1 + (λt)α ]2
Distribusi ini memiliki S(t), h(t) dan f (t) yang eksplisit relatif sederhana
dibandingkan dengan, misalnya, log-normal.
Definisi 3.1
Fungsi kebolehjadian (likelihood function) adalah fungsi dari parameter yang di-
bentuk melalui probabilitas bersama dengan diberikan realisasi atau data yang
berasal dari variabel random survival T . Apabila f (t; θ) adalah fungsi proba-
bilitas bersama, dengan t adalah realisasi dari T , maka fungsi dari parameter θ
yang didefinisikan sebagai
L(θ | t) = f (t; θ)
Untuk data survival yang tidak lengkap, baik karena tersensor maupun terpotong,
fungsi kebolehjadian ditentukan sebagaimana berikut ini.
Data survival dengan kemungkinan tersensor kanan dapat direpresentasikan
sebagai pasangan nilai observasi survival dengan status tersensornya yaitu (ti , δi ),
i = 1, 2, . . . , n dengan
(
0 jika i tersensor
δi = (3.25)
1 jika i mendapatkan kejadian (event)
Contoh 3.3
Carilah estimator untuk parameter λ pada model survival eksponensial yang datanya dapat
terkena sensor-kanan.
Jawab:
Fungsi kebolehjadian untuk parameter λ dengan diketahui data berdistribusi eksponensial
adalah:
n
(λ exp(−λti ))δi (exp(−λti ))1−δi
Y
L(λ) =
i=1
Yn
= λδi exp(−λti )
i=1
Untuk data yang tersensor kanan, ni=1 δi = k, dengan k adalah banyaknya data yang
P
lengkap. Untuk data survival yang lengkap k = n
Kemudian dicari titik kritis ℓ(λ) melalui ∂ℓ(λ)/∂λ = 0,
∂ (k log λ − λ ni=1 ti )
P
∂ℓ(λ)
=
∂λ ∂λ
n
k X
= − ti .
λ
i=1
Penyelesaian dari
n
k X
− ti = 0
λ
i=1
adalah
k
λ̂ = Pn .
i=1 ti
Pada contoh 3.3 telah diperoleh estimator titik dari parameter λ, bila diberikan
data survival berdistribusi eksponensial. Inferensi lebih lanjut dapat dilakukan
dengan menghitung interval konfidensi 100(1 − α)% berdasarkan statistik 2k λ̂/λ
yang berdistribusi chi-square dengan derajad bebas 2k. Rumus ini berlaku baik
untuk data lengkap maupun data yang memuat observasi tersensor-kanan.
3.3. Estimasi parameter 32
Contoh 3.4
Diketahui waktu remisi (minggu) dari 21 pasien leukemia akut sebagai berikut: 1, 1, 2, 2,
3, 4, 4, 5, 5, 6, 8, 8, 9,10, 10, 12, 14, 16, 20, 24, 34
Hitung interval konfidensi 95% untuk λ dari data di atas, dengan asumsi data berdistribusi
eksponensial.
Jawab: Dihitung terlebih dahulu estimasi λ. Karena data di atas lengkap, k = n
n
λ̂ = Pn
i=1 ti
21
= = 0,1060606
198
Interval konfidensi 95% untuk λ
λ̂χ22n,α/2 λ̂χ22n,1−α/2
<λ<
2n 2n
0, 106 × 25, 999 0, 106 × 62, 777
<λ<
42 42
0, 066 < λ < 0, 156
Contoh 3.5
Dalam suatu penelitian 10 tikus percobaan terpapar (exposed) ke suatu jenis penyakit
kanker. Setelah 5 tikus mati percobaan dihentikan diperoleh data lama hidup tikus sbb:
4, 5, 8, 9, 10, 10+, 10+, 10+, 10+, 10+. (tanda + menunjukkan tersensor-kanan). Hitung
interval konfidensi 95% untuk λ, bila diasumsikan data berdistribusi eksponensial.
Jawab:
Estimasi untuk λ dalam hal ini adalah untuk data tersensor-kanan,
k
λ̂ = Pn
i=1 ti
5
= = 0,05814
86
Nilai estimasi ini menghasilkan nilai log-likelihood ℓ(0,05814) = −19,22455. Gam-
bar fungsi log=likehood ini dapat dilihat pada Gambar 3.9. Garis tegak putus-putus me-
nunjukkan nilai MLE dan log-likelihood maksimalnya.
Interval konfidensi 95% untuk λ
λ̂χ22k,α/2 λ̂χ22k,1−α/2
<λ<
2k 2k
0,05814 × 3,246973 0,05814 × 20,48318
<λ<
10 10
0,0189 < λ < 0,1191
3.4. Latihan Bab 3 33
−20
−22
−24
log−likelihood
−26
−28
−30
−32
3.5. Diketahui data antar kejadian sebagai berikut: 3, 4, 4, 8, 8+, 9+, 10, 12+, 18,
dengan ”+” menunjukkan data tersensor kanan.
4.2 Kaplan-Meier
Untuk mengestimasi S(t) dapat digunakan estimator Kaplan-Meier atau sering
juga disebut sebagai Product-Limit estimator sebagai berikut:
(
1 jika t < t1
Ŝ(t) = Q di
(4.1)
ti ≤t (1 − Yi ) jika ti ≤ t
35
4.2. Kaplan-Meier 36
dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang beresi-
ko (number at risk) Estimator Kaplan-Meier merupakan fungsi tangga yang turun
pada saat ada event.
Dasar pemikiran sstimator Kaplan-Meier dapat dijelaskan seperti pada Gam-
bar 4.1. Misalkan event yang menjadi perhatian adalah meninggal (M), dengan
origin mulai dari waktu 0 dan diperoleh waktu kronologis terjadinya event pada
t1 , t2 dan t3 . Pada saat t1 , peluang meninggal dengan diketahui kondisi pada saat
waktu 0 adalah π1 , dan peluang hidup (H) atau survive adalah 1 − π1 . Pada saat t2 ,
peluang meninggal dengan diketahui kondisi pada saat t1 adalah π2 , dan peluang
meninggal 1 − π2 . Demikian pula dengan π3 dan 1 − π3 . Probabilitas mening-
gal π1 , π2 , dan π3 dapat dipandang sebagai probabilitas binomial namun dengan
probabilitas sukses yang berubah-ubah menurut waktu.
Peluang survive sampai waktu t3 adalah
(1 − π1 )(1 − π2 )(1 − π3 ),
yaitu produk dari masing-masing peluang bersyarat mulai dari 0 sampai dengan
t3 .
Estimator Kaplan-Meier adalah non-parametrik dalam artian tidak mengasum-
sikan banyaknya parameter yang berhingga. Banyaknya parameter atau kuantitas
yang akan diestimasi dalam Kaplan-Meier adalah sebanyak titik waktu di mana
event terjadi.
Untuk mengestimasi πi ; i = 1, 2, . . . dapat digunakan proporsi meninggal de-
ngan diberikan banyaknya yang masih hidup pada saat sebelum terjadinya event,
seperti halnya estimator untuk peluang sukses pada binomial. Apabila di adalah
banyaknya yang meninggal pada saat ti dan Yi adalah banyaknya yang masih hi-
dup, tepat sebelum saat ti , maka estimator untuk πi adalah di /Yi dan estimator
untuk 1 − πi adalah 1 − di /Yi . Estimasi untuk survivesampai waktu k tertentu
menjadi
(1 − d1 /Y1 )(1 − d2 /Y2 )(1 − d3 /Y3 ) . . . (1 − dk /Yk )
dan apabila tk ≤ t, dengan t ≥ adalah bilangan kontinu, maka estimasi untuk
survive sampai t ini dapat ditulis seperti estimator Kaplan-Meier (4.1).
Untuk melakukan inferensi tentang S(t) menggunakan Ŝ(t) Kaplan-Meier,
perlu dihitung terlebih dahulu standard error atau variansi dari S(t). Variansi dari
estimator KM Ŝ(t) sering disebut sebagai Greenwood’s formula
X di
var[Ŝ(t)] = Ŝ(t)2 (4.2)
Y (Y − di )
t ≤t i i
i
M: meninggal
M H: hidup
π1 M
π2
1−
π1
H M
1− π3
π2
H1
−π
3
H
0 t1 t2 t3
waktu
Gambar 4.1: Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen
t Y d Ŝ(t) se[Ŝ(t)]
3
6 21 3 1 − 3/21 = 0,857 0,8572 (21)(18) = 0,0764
7 17 1 (1 − 1/17) × 0,857 = 0,807 0,8072 . . . = 0,0869
10 15 1 (1 − 1/15) × 0,807 = 0,753 0,7532 . . . = 0,0963
13 12 1 (1 − 1/12) × 0,753 = 0,690 0,6902 . . . = 0,1068
16 11 1 (1 − 1/11) × 0,690 = 0,627 0,6272 . . . = 0,1141
22 7 1 (1 − 1/7) × 0,627 = 0,538 0,5382 . . . = 0,1282
23 6 1 (1 − 1/6) × 0,538 = 0,448 0,4482 . . . = 0,1346
1.0
0.8
Estimasi S(t) KM
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30 35
waktu
servasi yang tersensor-kanan. Paket program statistika standar biasanya dapat digunakan
untuk mengestimasi KM dan grafiknya.
4.3 Nelson-Aalen
Estimator Nelson-Aalen digunakan untuk mengestimasi fungsi hazard kumulatif,
didefinisikan sebagai berikut:
(
0 jika t < t1
Ĥ(t) = P di
(4.4)
ti ≤t Yi jika ti ≤ t
dengan variansi
X di
ˆ Ĥ(t)) =
Var( (4.5)
Y2
t ≤t i
i
Tabel 4.2: Tabel estimasi Nelson-Aalen untuk H(t) dan S(t) Contoh 4.2
mengestimasi kuantitasi yang tidak diketahui pada saat terjadinya event. Dalam
hal ini kuantitas yang tidak diketahui adalah peluang bersyarat dengan kondisi
sebelum event terjadi atau hazard nya. Apabila estimasi hazard ini dijumlahkan
sampai waktu tk ≤ t tertentu, maka kuantitas ini adalah estimasi hazard kumulatif
yang dirumuskan sebagai estimator Nelson-Aalen 4.4.
Estimasi Nelson-Aalen dapat digunakan untuk mengestimasi S(t) dengan
menggunakan hubungan H(t) dengan S(t), yaitu S(t) = exp(−H(t)).
Contoh 4.2
Menggunakan data yang sama seperti Contoh 4.1 untuk perawatan 6-MP saja (data Con-
toh 1.7, Bab 1), hitung Estimasi fungsi hazard kumulatif menggunakan Nelson-Aalen dan
estimasi fungsi survivalnya.
Jawab:
Disusun tabel seperti pada Tabel Kaplan-Meier contoh 4.1. Gunakan persamaan (4.4)
untuk menghitung Ĥ(t). Hasilnya adalah seperti pada Tabel 4.2. Plot untuk estimasi
Nelson-Aalen dapat dilihat pada Gambar 4.3.
Dapat dibandingkan nilai estimasi survival yang diperoleh dengan Nelson-Aalen se-
lalu lebih besar dari nilai estimasi yang diperoleh dari Kaplan-Meier (Lihat Latihan Soal
4.2).
0.6
estimasi H(t)
0.4
0.2
0.0
0 5 10 15 20 25 30 35
waktu
0.6
6−MP
0.4
0.2
placebo
0.0
0 5 10 15 20 25 30 35
waktu
Gambar 4.4: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data
tersensor kanan.
Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar
4.4. Membandingkan Dua Fungsi Survival 41
t Y d Ŝ(t)
1 21 2 0,9048
2 19 2 0,8095
3 17 1 0,7619
4 16 2 0,6667
5 14 2 0,5714
8 12 4 0,3810
11 8 2 0,2857
12 6 2 0,1905
15 4 1 0,1429
17 3 1 0,0952
22 2 1 0,0476
23 1 1 0,0000
4.4. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggi
dibandingkan grup placebo.
natif
Uji Logrank didasarkan pada banyaknya observed dan expected event pada setiap
event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik
pengujinya adalah:
(O1 − E1 )2 (O2 − E2 )2
W = + (4.6)
E1 E2
dengan W ∼ χ2 (df = 1). H0 ditolak dengan tingkat signifikasni α bila W >
χ2 (1 − α, df = 1).
Contoh 4.4
Merujuk ke Contoh 4.3, akan diuji apakah fungsi survival grup terapi berbeda dengan
grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 4.4 untuk digunakan dalam
penghitungan 4.6. Ekspektasi e1 dan e2 diperoleh dengan cara mengalikan probabilitas
kematian pada tiap-tiap grup (Y1 /(Y1 + Y2 ) dan Y2 /(Y1 + Y2 ) ) dikalikan total kejadian
(d1 + d2 ), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada
baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup.
Diperoleh statistik
(O1 − E1 )2 (O2 − E2 )2
W = +
E1 E2
(9 − 19, 26)2 (21 − 10, 74)2
= + = 15,267
19, 26 10, 74
yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup
kecil. jadi dapat disimpulkan H0 ditolak atau dua kurva survival tersebut berbeda.
t d1 d2 Y1 Y2 e1 e2
1 0 2 21 21 (21/42) × 2 (21/42) × 2
2 0 2 21 19 (21/40) × 2 (19/40) × 2
3 0 1 21 17 (21/38) × 1 (17/38) × 1
4 0 2 21 16 (21/37) × 2 (16/37) × 2
5 0 2 21 14 (21/35) × 2 (14/35) × 2
6 3 0 21 12 (21/33) × 3 (12/33) × 3
7 1 0 17 12 (17/29) × 1 (12/29) × 1
8 0 4 16 12 (16/28) × 4 (12/28) × 4
10 1 0 15 8 (15/23) × 1 (8/23) × 1
11 0 2 13 8 (13/21) × 2 (8/21) × 2
12 0 2 12 6 (12/18) × 2 (6/18) × 2
13 1 0 12 4 (12/16) × 1 (4/16) × 1
15 0 1 11 4 (11/15) × 1 (4/15) × 1
16 1 0 11 3 (11/14) × 1 (3/14) × 1
17 0 1 10 3 (10/13) × 1 (3/13) × 1
22 1 1 7 2 (7/9) × 2 (2/9) × 2
23 1 1 6 1 (6/7) × 2 (1/7) × 2
Total 9 21 19,26 10,74
4.2. Estimasi fungsi survival dapat diperoleh dari estimator Nelson-Aalen ber-
dasarkan hubungan antara S(t) dengan H(t). Apabila estimasi S(t) meng-
gunakan estimator Nelson-Aalen dinotasikan sebagai ŜN A (t), dan esti-
masi S(t) Kaplan-Meier dinotasikan sebagai ŜKM (t), tunjukkan bahwa
ŜKM (t) ≤ ŜN A (t), untuk semua t.
4.3. Dalam suatu kecelakaan di pusat listrik tenaga nuklir, 10 pekerja terkena
radiasi. Dengan menganggap origin (waktu 0 ) adalah saat kecelakaan, ter-
dapat satu meninggal pada waktu ke-2, satu meninggal pada waktu ke-4,
dan x tidak diketahui nasibnya (censored) pada saat ke-3. Jika diketahui
Estimasi Kaplan-Meier Ŝ(4) = 0,75. Hitung x!
4.5. Dalam suatu penelitian 300 tikus diamati mulai lahir. Tambahan 20 ekor
tikus mulai diamati pada saat usia 2 hari dan 30 lagi mulai diamati saat
4.5. Latihan Bab 4 44
berusia 4 hari. Ada 6 meninggal pada usia 1; 10 pada usia 3; 10 pada usia
4, a pada usia 5; b pada usia 9 dan 6 pada usia 12. Diketahui pula 45 tikus
tidak diketahui nasibnya pada usia 7; 35 tidak diketahui nasibnya pada usia
10 dan 15 tidak diketahui nasibnya pada usia 13. Diperoleh hasil Kaplan-
Meier sebagai berikut: Ŝ(7) = 0,892 dan Ŝ(13) = 0,856. Hitung a dan
b!
4.7. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik.
Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kro-
nis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kro-
nis (grup 1) diperoleh data
45
5.3. Model Regresi Parametrik 46
ψ(X; θ) = β0 + β1 x1 + β2 x2 + . . . + βp xp ,
ψ(x; θ) = exp(β0 + β1 x1 + β2 x2 + . . . + βp xp ),
dengan indeks 0 menunjukkan fungsi baseline, yaitu bentuk fungsi ketika tanpa
variabel independen. Jadi S0 (t) adalah baseline survival, f0 (t) adalah baseline
fungsi densitas dan h0 (t) adalah baseline hazard. Baseline juga dapat diartikan
sebagai pembanding, yaitu pembanding antara survival ketika tanpa variabel in-
dependen dengan ketika variabel independen dimasukkan dalam model.
Contoh 5.1
Tulis model AFT apabila diketahui baseline nya adalah distribusi eksponensial.
Jawab:
Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turut
adalah
Model AFT untuk eksponensial berdasarkan rumusan (5.1), (5.2) dan (5.3),
Dipercepat (accelerated) dalam model AFT untuk Contoh 5.1 dapat digambarkan
seperti kurva survival pada Gambar 5.1. Untuk λ yang sama (sebagai baseline),
kurva survival akan menurun (kematian dipercepat) jika ψ > 1. Sebaliknya, ji-
ka ψ < 1 Kurva survival akan menaik (diperlambat). Dalam hal ini pengertian
dipercepat atau accelerated sebenarnya juga dapat decelerated tergantung faktor
pemercepat (acceleration factor) ψ. Untuk ψ = 1 bentuk kurva survival AFT
sama dengan baseline nya. Deskripsi yang sama juga dapat diperoleh dari fungsi
hazard Gambar 5.2. Jika ψ < 1, hazard nya akan rendah (atau survival nya tinggi),
dan sebaliknya. Untuk distribusi eksponensial sendiri, λ dapat dipandang sebagai
faktor pemercepat seperti halnya ψ.
5.3. Model Regresi Parametrik 48
1.0
0.8
0.6
S(t)
0.4
survival diperlambat
0.2
baseline survival
0.0
survival dipercepat
0 1 2 3 4 5
hazard dipercepat
h(t)
1.5
baseline hazard
1.0
hazard diperlambat
0.5
0.0
0 1 2 3 4
Model yang lain adalah PHM, yang mempunyai fungsi survival, densitas dan
hazard sebagai berikut,
S(t | ψ) = S0 (t)ψ (5.4)
log(T ) = µ + β1 X1 + β2 X2 + . . . + βp Xp + σǫ
= µ + Xβ + σǫ (5.8)
Dapat ditunjukkan bahwa Model (5.8) merupakan model AFT dan dapat di-
nyatakan sebagai (5.1), (5.2) dan (5.3). Untuk menandakan bahwa variabel inde-
penden X memodifikasi fungsi survival, densitas dan hazard dalam model AFT,
maka digunakan notasi S(t | X), f (t | X) dan h(t | X).
5.5. Model AFT log-linear 51
Menurut definisi fungsi survival, S(t | X) model AFT (5.8) dapat dituliskan
sebagai
S(t | X) = P (T > t)
= P (exp(µ + Xβ + σǫ) > t)
= P (exp(µ + σǫ) > t exp(−Xβ)) (5.10)
Apabila semua X bernilai 0 (baseline), maka −Xβ akan bernilai 0 pula, dan
exp(−Xβ) = 1, sehingga baseline survival untuk model AFT (5.8) adalah
S0 (t | X) = P (exp(µ + σǫ) > t) (5.11)
Sehingga hubungan antara survival AFT log-linear (5.10) dengan baseline survival
nya (5.11) adalah
S(t | X) = S0 (t exp(−Xβ)) (5.12)
seperti (5.1) dengan faktor pemercepat ψ = exp(−Xβ).
Fungsi hazard model AFT log-linear dapat diturunkan melalui hubungan fung-
si survival dengan fungsi hazard kumulatif H(t) = − log(S(t)) kemudian dideri-
vatifkan ke t untuk mendapatkan h(t | X)
h(t | X) = exp(−Xβ)h0 (t exp(−Xβ)) (5.13)
Model AFT (5.8) juga dapat dikarakterisasi berdasarkan distribusi dari ǫ.
S(t | X) = P (T > t)
= P (log(T ) > log(t))
= P (µ + Xβ + σǫ > log(t)) (5.14)
log(t) − µ − Xβ
= P ǫ> (5.15)
σ
Distribusi unutk ǫ dan T sebagai pasangannya beberapa di antaranya seperti yang
tercantum pada Tabel 5.1. Beberapa Model tersebut secara khusus dan lebih detail
akan dibahas dalam bagian selanjutnya dalam Bab ini.
Distribusi T Distribusi ǫ
Eeksponensial extreme value (1 parameter)
Weibull extreme value (2 parameter)
gamma log-gamma
log-logistik logistik
log-normal normal
5.6. Model Regresi Eksponensial 52
dengan Xi = (xi1 xi2 . . . xip ) adalah vektor kovariat untuk masing-masing indivi-
du, β = (β1 . . . βp )T adalah parameter regresi.
Contoh 5.3
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1, estimasilah parameter model regresi
survival eksponensial berikut ini,
h(t | x) = exp(β0 + X1 β1 ) (5.18)
dengan X1 bernilai 1 jika perlakuan 6-MP, 0 jika placebo.
Jawab:
Menggunakan bantuan paket statistik diperoleh estimasi parameter β seperti pada Tabel
5.2.
Variabel β̂ se(β̂)
ˆ
Intersep β0 = −2,16 0,218
x1 (6-MP) βˆ1 = −1,53 0,398
Dalam Tabel 5.2, terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap
kambuhnya leukemia, atau pemberian 6-MP mencegah kambuhnya leukemia. Kesimpul-
an ini sejalan dengan Contoh 4.3 Bab 4, yaitu bahwa perlakuan 6-MP mempunyai nilai
survival yang lebih besar dibandingkan dengan placebo.
5.7. Model Regresi Weibull 53
yang dikenal sebagai fungsi survival distribusi extreme value, dengan paramater
lokasi µ = −Xβ dan parameter skala σ = 1/α.
Fungsi likelihood model (5.22) disusun berdasarkan bentuk umum fungsi li-
kelihood (5.7), yaitu
n
Y
L(β, σ) = f (ti , θ | Xi )δi S(ti , θ | Xi )1−δi
i=1
n δi
1
Y y−µ y−µ
= exp − exp
i=1
σ σ σ
1−δi
y − βX
exp − exp . (5.23)
σ
Variabel β̂ se(β̂)
ˆ
Intersep β0 = −2,248 0,166
x1 (6-MP) βˆ1 = −1,267 0,311
Contoh 5.4
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1 (atau merujuk Contoh 5.3) estima-
silah parameter model regresi survival Weibull
Model regresi log-normal dapat dipandang sebagai model linear log(T ), yaitu
log T = Xβ + σǫ (5.27)
Distribusi Log-normal
plot garis lurus antara log t denganΦ−1 (F̂ (t))
5.11. Latihan Bab 5 57
2. Beri angka n untuk yang terkecil dan n − 1 untuk yang berikutnya sampai
yang terbesar diberi angka 1. Angka ini dinamakan K penomoran terbalik
(reserve-order numbers).
3. Hitung estimasi hazard 1/K, untuk data yang lengkap (tidak tersensor) saja.
Distribusi Eksponensial
Distribusi Weibull
Distribusi Log-normal
(a) Tulislah model AFT dari baseline hazard function di atas, dengan satu
variabel penjelas
(
1 jika subyek adalah laki-laki
x=
0 jika subyek adalah perempuan
5.11. Latihan Bab 5 58
(b) Buatlah grafik fungsi survival model AFT tersebut untuk masing-
masing kelompok laki-laki dan perempuan (dalam satu gambar), jika
diketahui β = 0,5
(c) Interpretasikan grafik tersebut!
5.4. Apabila rasio antara dua fungsi hazard h(t | x1 ) dan h(t | x2 ) adalah kons-
tan sepanjang waktu t, maka dikatakan h(t | xj ) adalah Model hazard pro-
porsional (atau PHM : proportional hazard models). Tunjukkan bahwa mo-
del
p
!
X
λ1 (t | x) = λ(t) exp βj xj
j=1
adalah bukan PHM, jika diketahui λ(t) bukan fungsi konstan terhadap t.
Laki-laki Perempuan
Usia 100 125 150 100 125 150
50 13 12 85 3 12 49
51 11 21 95 7 13 53
52 8 8 105 8 13 69
53 10 20 113 12 16 61
54 8 11 109 12 15 60
55 13 22 126 8 12 68
56 19 16 142 11 11 96
57 9 19 145 5 19 97
58 17 23 155 5 17 93
59 14 28 182 9 14 96
5.7. Diberikan data mortalitas (usia kematian) antara 50-59 tahun dan informasi
tekanan darah sistolik untuk laki-laki maupun perempuan seperti pada Tabel
5.6.
(a) Tulislah model AFT Gompertz apabila diberikan x1 adalah 1 jika per-
empuan, 0 jika laki-laki; x2 adalah tekanan darah.
(b) Estimasilah parameter model AFT Gompertz
5.8. Durasi pemogokan buruh mengikuti model regresi hazard proporsional (pa-
rametrik) dengan baseline hazard konstan (berdistribusi eksponensial). Va-
riabel independen yang menjadi perhatian adalah indeks kondisi perburuhan
(terkait Upah minimum, tunjangan, asuransi, dst.). Apabila indeks bernilai
10, mean durasi pemogokan 0,2 tahun. Jika indeks bernilai 25, median du-
rasi pemogokan 0,04 tahun. Berapa peluang akan terjadi pemogokan selama
lebih dari satu tahun jika indeks kondisi perburuhan bernilai 5?
6
Regresi Cox
6.3. Menjelaskan prinsip metode untuk data ties dalam regresi Cox
60
6.2. Model dan Asumsi 61
0.6
0.5
0.4
S(t)
0.3
0.2
0.1
0.0
Gambar 6.1: Kurva hazard untuk dua grup atau individu yang berbeda, λ1 = 0, 1
dan λ2 = 0, 3
kelompok yang termodifikasi nilai hazard nya menjadi 2 kalinya, sedangkan ke-
lompok yang lain menjadi 0,8 kali nya. Gambar hazard untuk populasi ini adalah
seperti pada Gambar 6.2. Garis utuh adalah baseline hazard h0 (t). Hazard ini
termodifikasi menjadi 2h0 (t) dan menjadi 0,8h0 (t). Meskipun hazardnya menjadi
berbeda namun rasio hazardnya selalu tetap, yaitu 2 untuk kelompok yang pertam
dan 0,8 untuk kelompok yang kedua.
Model hazard proporsional dapat dimodelkan secara paramatrik maupun non-
parametrik atau semi-parametrik. Model hazard proporsional semi-parametrik
sering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalah
fungsi hazard, survival dan hazard kumulatif untuk model regresi Cox.
Data pada Tabel 6.1 dapat di-ilustrasikan seperti Gambar 6.3. Tiap individu
memiliki skor sebagai fungsi dari variabel penjelas yang dimiliki masing-masing.
6.3. Estimasi parameter 63
5
4
h0(t)
3
2h0(t)
h(t)
2
0.8h0(t)
1
0
Gambar 6.2: Baseline hazard dan kurva hazard untuk dua grup yang berbeda,
λ1 = 0, 1 dan λ2 = 0, 3
ID t δ x
1 5 1 2,58
2 7 1 1,36
3 2 1 -0,54
4 4 0 3,30
6.3. Estimasi parameter 64
ψ(4) = e3,30β
2 4 5 7
waktu
Gambar 6.3: Ilustrasi untuk Partial Likelihood Data Tabel 6.6
Dalam regresi linear, skor adalah kombinasi linear dari variabel penjelas dengan
koefisien regresi. Demikian halnya dengan regresi Cox skor tersebut merupak-
an eksponensial kombinasi linear dari variabel penjelas dengan koefisien regresi,
yang dinotasikan dengan ψ. Sebagai contoh, individu ke-2 akan mempunyai skor
ψ(2) = exp(1,36β).
Himpunan resiko (risk set) dalam partial likelihood adalah himpunan semua
individu yang mempuunyai kemungkinan untu mendapatkan event tepat sebelum
suatu titik waktu. Sebagai contoh, lihat Gambar 6.3, pada saat t = 5, himpunan
resiko nya adalah individu 1 dan 2 saja (yang terlewati garis vertikal pada saat
t = 5. Mereka adalah individu yang masih mungkin untuk mendapatkan event
pada saat tepat sebelum t = 5 (limit dari kiri mendekati 5). Sedangkan individu
ke-3 sudah mendapatkan event sebelumnya, dan individu ke-4 tersensor sebelum
t = 5. Pada suatu titik waktu dapat dilihat rasio antara skor individu yang men-
dapatkan event pada titik waktu tersebut, dibandingkan dengan jumlahan skor in-
dividu dalam himpunan resiko. Sebagai contoh pada saat t = 5, rasio skor-nya
adalah
ψ(1)
.
psi(1) + ψ(2)
−1.5
−2.0
−2.5
log.likelihood(β)
−3.0
−3.5
−4.0
−4.5
−3 −2 −1 −0.655 0 1
Partial likelihood untuk data ilustrasi ini dapat disusun sebagai berikut,
gai berikut
!
X X X
ℓ(β) = xk β − log exp(xj β) (6.8)
k∈D k∈D j∈Rk
Turunan pertama dari ℓ(β) atau sering disebut sebagai score function adalah
P
X X j∈R x(j)h exp(xj β)
Uh (β) = x(k)h − Pk (6.9)
k∈D k∈D j∈R k
exp(x j β)
dengan g, h = 1, . . . , p
Untuk menyederhanakan penulisan didefinisikan
P
j∈Rk x(j)h exp(xj β)
Akh (β) = P (6.11)
j∈Rk exp(xj β)
(k+1) (k)
3. Iterasi dihentikan dengan kriteria kekonvergenan ℓ(β̂ ) ≈ ℓ(β̂ )
4. Diperoleh estimasi β̂ dan variansinya V̂(β̂) = I(β̂)−1
Beberapa paket statistik standar seperti SAS, S-PLUS, SPSS, MINITAB, STA-
TA dan R menyediakan fasilitas untuk melakukan estimasi Partial Likelihood se-
perti tersebut di atas.
dengan
(
0 placebo
x =
1 obat baru
6.6. Stratifikasi 68
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
h(t | x = 1)
HR =
h(t | x = 0)
h0 (t) exp(1 × β)
=
h0 (t) exp(0 × β)
= exp(β)
Interpretasinya, jika β = 0 maka obat baru dan placebo sama efeknya. Namun
jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo
(resiko kematian lebih rendah). Kemudian jika β > 0 obat baru memberikan efek
yang lebih buruk daripada placebo (resiko kematian lebih tinggi)
Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor
resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen
time-to-event T .
6.6 Stratifikasi
Stratifikasi dalam model Cox memungkinkan untuk menentukan baseline haza-
rd yang berbeda untuk masing-msing strata namun parameter β sama untuk tiap
strata, yaitu
Wald Test
Score Test
Untuk n cukup besar χ2W , χ2LR , χ2SC berdistribusi Chi-square dengan derajad bebas
p, dengan asumsi H0 benar.
Contoh 6.1
Merujuk ke data contoh 1.9 Bab 1, lakukan analisis data menggunakan regresi Cox.
Jawab: Latar belakang permasalahan dalam data tersebut adalah penelitian terkait
faktor-faktor yang mempengaruhi lama menyusui. Data survival yang menjadi perhatian
adalah lama waktu mulai dari bayi diberi ASI sampai disapih (dihentikannya pemberian
ASI) atau pengamatan berakhir, karena penelitian telah berakhir maupun karena subyek
tidak berpartisipasi lagi dalam penelitian.
Model regresi Cox dapat dimulai dari model yang memuat semua variabel yang men-
jadi perhatian, kemudian diuji apakah kontribusi masing-masing variabel pada model cu-
kup signifikan dalam menaikkan nilai partial likelihood. Dapat digunakan uji likelihood
ratio untuk membandingkan model yang akan dievaluasi dengan model pada saat awal.
Model regresi Cox dengan semua variabel yang menjadi perhatian adalah sebagai
berikut,
dengan x1 adalah variabel boneka bentukan dari variabel race, x1 = 1 jika ras kulit
hitam, 0 jika ras putih atau lainnya ; x2 adalah variabel boneka bentukan dari variabel
race, x2 = 1 jika ras lainnya,0 jika ras hitam atau putih; x3 = 1 jika ibu dikategorikan
miskin, 0 jika tidak; x4 = 1 jika ibu merokok, 0 jika tidak; x5 = 1 jika ibu peminum
alkohol, 0 jika tidak; x6 adalah usia ibu saat melahirkan, x7 adalah lama pendidikan; dan
x8 = 1 jika periksa kehamilan setelah bulan ketiga, 0 jika tidak. Menggunakan alat bantu
paket statistik, dapat diperoleh parameter dari partial likelihood model regresi Cox di atas.
Dihitung uji likelihood ratio
dengan ℓ(β̂) adalah log-partial-likelihood pada model yang akan dievaluasi, ℓ(β 0 ) adalah
log-partial-likelihood pada model pembanding. Hipotesis nol untuk uji ini adalah H0 :
β = β0.
6.7. Inferensi Parameter Regresi Cox 70
Untuk melihat kontribusi masing-masing variabel terhadap nilai likelihood, maka se-
tiap variabel diuji dengan likelihood-ratio test. Model dengan variabel penuh (semua
variabel dalam model (6.21)) dibandingkan dengan model yang telah dikurangi satu va-
riabel yang diuji. Misalnya untuk variabel race. Model dengan semua variabel termasuk
race mempunyai log-partial-likelihood -5175.520 (dapat dihitung dengan paket statistik).
Model dengan semua variabel kecuali race mempunyai log-partial-likelihood -5181.021.
Sehingga uji LR untuk race adalah
dengan Nilai Uji LR seperti pada Tabel 6.3. Hasil estimasi parameter model (6.23) adalah
seperti pada Tabel 6.4.
Model (6.23) dengan uji kebaikan model Tabel 6.3 dan hasil estimasi Tabel 6.4 me-
rupakan model final untuk data ini. Tentu saja masih harus dilihat secara substansi dan
diinterpretasikan nilai koefisien dari masing-masing estimasi parameter.
Interpretasi model dapat dilihat selain pada β̂ juga pada nilai exp(β̂) yang juga me-
rupakan nilai hazard ratio nya. Pada variabel ras, kulit hitam dan lainnya mempunyai
6.7. Inferensi Parameter Regresi Cox 71
hazard ratio yang lebih tinggi dari kulit putih, exp(β1 ) > 1 dan exp(β2 ) > 1. Hazard
ratio yang lebih besar dari satu berarti kecenderungan untuk berhenti menyusui lebih awal
di kalangan kulit hitam dan lainnya cukup tinggi. Merokok juga mempunyai hazard ratio
yang lebih tinggi dari tidak merokok (β̂4 > 1). Sehingga dapat di-interpretasikan me-
rokok mengakibatkan penhyapihan yang lebih cepat. Sebailknya, kemiskinan, maupun
berpendidikan memperlama penyapihan. Secara substansial, mungkin karena ibu yang
miskin cenderung tidak mampu membeli susu formula dan menggantinya dengan ASI.
Untuk ibu yang berpendidikan barangkali sudah cukup tahu manfaat ASI sehingga lebih
lama dalam memberikan ASI.
Untuk menunjukkan efek variabel penjelas pada survival (lama menyusui dalam con-
toh ini), dapat digunakan plot estimasi fungsi survival. Misalnya ingin dilihat pengaruh
merokok terhadap lama menyusui. Plot fungsi survival dapat dibuat untuk masing-masing
status merokok (variabel smoke) dengan model
1.0
0.8
estimasi S(t)
0.6
0.4
bukan perokok
0.2
perokok
0.0
0 20 40 60 80
t (minggu)
Gambar 6.5: Plot estimasi kurva survival Model (6.24)
6.2. Diketahui data lama hidup (dalam hari) dua kelompok perlakuan untuk
tikus yang terkena suatu jenis kanker:
Kelompok 1 188 192 206 227 265+ 304 244+
Kelompok 2 156 163 205 232 233 239 240 261+ 204+
344+
dengan tanda + menunjukkan data tersensor.
(b) Ujilah apakah dua kelompok tersebut mempunyai fungsi survival yang
sama dengan menggunakan uji logrank.
6.4. Tulislah Partial Likelihood L(β) untuk data soal nomor 3 dengan variabel
independen x adalah grup, yaitu x = 0 jika subyek dari grup 1, dan x = 1
jika subyek berasal dari grup 2, dan β adalah koefisien regresi untuk x.
Kemudian hitunglah L(β = −2). (Gunakan metode Breslow jika ada ties)
6.5. Merujuk data seperti soal 1.4 Bab 1 (33 pasien leukemia), diberikan model
regresi hazard proporsional h(t | X) = h0 (t) exp(X1 β1 +X2 β2 ). Diperoleh
estimasi parameter dan standard error nya: β̂1 = −1,089, σ̂(β̂1 ) = 0,4263
dan β̂2 = 0,7840, σ̂(β̂2 ) = 0,4994; dengan log-likelihood model tanpa
variabel penjelas (null model) adalah −85,05447 dan log-likelihood keti-
ka mencapai maksimum adalah −79,79271. Interpretasikan hasilnya dan
hitung uji likelihood ratio nya.
6.6. Diketahui data lama hidup 30 orang pasien yang menderita suatu penyakit
tertentu seperti tersebut di bawah, dengan variabel x1 = 1 adalah pasien
berusia lebih dari 50 tahun; dan x2 = 1 adalah pasien dengan tingkat kepa-
rahan penyakit tinggi.
Data:
lama hidup x1 x2 lama hidup x1 x2
18 0 0 8 1 0
9 0 1 2 1 1
28+ 0 0 26+ 1 0
31 0 1 10 1 1
39+ 0 1 4 1 0
19+ 0 1 3 1 0
45+ 0 1 4 1 0
6 0 1 18 1 1
8 0 1 8 1 1
15 0 1 3 1 1
23 0 0 14 1 1
28+ 0 0 3 1 0
7 0 1 13 1 1
12 1 0 13 1 1
9 1 0 35+ 1 0
Interpretasikanlah hasilnya!
(c) Diberikan model regresi hazard proporsional h(t | x) =
h0 (t) exp(x1 β1 ). Bila observasi dibatasi hanya untuk t < 5 saja,
tulislah fungsi partial log-likelihood untuk model tersebut!
(d) Diberikan model regresi hazard proporsional hj (t | x) =
h0j (t) exp(x1 β1 ), dengan j = 1, 2 adalah strata yang keanggotaan
satu subyek dalam suatu strata ditentukan oleh nilai variabel x2 , yaitu:
menjadi anggota strata 1, jika x2 = 0; menjadi anggota strata 2, jika
x2 = 1. Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi
partial log-likelihood untuk model dengan strata tersebut tersebut!
(e) Jelaskan alasan penggunaan strata dalam model regresi Cox, keun-
tungan dan kerugiannya bila dibandingkan dengan model tanpa strata
6.7. Tunjukkanlah bahwa Metode ties-adjustment Efron akan sama dengan par-
tial likelihood biasa jika tidak ada ties dalam data!
6.9. Merujuk Soal 7 Bab 4, gunakan regresi Cox untuk menganalisis data mor-
talitas akibat penyakit kronis tersebut, dan bandingkan hasilnya dengan uji
log-rank
6.10. Merujuk Contoh 1.8 Bab 1, gunakan regresi Cox untuk menganalisis data
pengaruh voltase terhadap kerusakan suatu alat elektrik!
Bibliografi
Cox, D. R. (1972). Regression models and life-tables (with discussion), Journal of the
Royal Statistical Society, Series B, Methodological 34: 187–220.
Cox, D. R. and Oakes, D. O. (1984). Analysis of survival data, Chapman & Hall Ltd.
Klein, J. and Moeschberger, M. (2003). Survival analysis: techniques for censored and
truncated data, Statistics for biology and health, Springer.
Lawless, J. (2003). Statistical models and methods for lifetime data, Wiley series in
probability and statistics, Wiley-Interscience.
76