Analisis Data Survival: Diktat Kuliah

DIKTAT KULIAH
ANALISIS DATA SURVIVAL
Disusun oleh:
Dr. Danardono, MPH.
PROGRAM STUDI STATISTIKA

JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
Februari 2012
Daftar Isi
Daftar Isi iii
Daftar Gambar iv
Daftar Tabel v
Kata Pengantar v
1 Pendahuluan 1
1.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Data dan Variabel Random Survival . . . . . . . . . . . . . . . . 1
1.3 Data tersensor dan terpotong . . . . . . . . . . . . . . . . . . . . 3
1.4 Latihan Bab 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Fungsi dan Kuantitas Dasar 10

2.2 Fungsi Survival dan Hazard . . . . . . . . . . . . . . . . . . . . . 10
2.3 Hubungan antar Fungsi . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Survival Diskrit . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Latihan Bab 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Metode Parametrik 19
3.2 Beberapa distribusi parametrik . . . . . . . . . . . . . . . . . . . 19
3.2.1 Distribusi Eksponensial . . . . . . . . . . . . . . . . . . 19
3.2.2 Distribusi Weibull . . . . . . . . . . . . . . . . . . . . . 22
3.2.3 Distribusi Gamma . . . . . . . . . . . . . . . . . . . . . 22
3.2.4 Distribusi Log-normal . . . . . . . . . . . . . . . . . . . 25
3.2.5 Distribusi Gompertz-Makeham . . . . . . . . . . . . . . . 27
3.2.6 Distribusi Log-logistik . . . . . . . . . . . . . . . . . . . 28
3.3 Estimasi parameter . . . . . . . . . . . . . . . . . . . . . . . . . 28
ii
Daftar Isi iii
3.4 Latihan Bab 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Metode Non-parametrik dan Uji-LogRank 35

4.2 Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3 Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4 Membandingkan Dua Fungsi Survival . . . . . . . . . . . . . . . 41
4.5 Latihan Bab 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Model Regresi Parametrik 45

5.2 Variabel Independen dalam Model . . . . . . . . . . . . . . . . . 45
5.3 Model Regresi Parametrik . . . . . . . . . . . . . . . . . . . . . 46
5.4 Model Non-Parametrik dan Semi-Parametrik . . . . . . . . . . . 50
5.5 Model AFT log-linear . . . . . . . . . . . . . . . . . . . . . . . . 50
5.6 Model Regresi Eksponensial . . . . . . . . . . . . . . . . . . . . 52
5.7 Model Regresi Weibull . . . . . . . . . . . . . . . . . . . . . . . 53
5.8 Model Regresi Log-normal . . . . . . . . . . . . . . . . . . . . . 54
5.9 Model Regresi Log-logistik . . . . . . . . . . . . . . . . . . . . . 55
5.10 Identifikasi Model . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.10.1 Menggunakan Probability-Plot . . . . . . . . . . . . . . . 56
5.10.2 Menggunakan Hazard-Plot . . . . . . . . . . . . . . . . . 57
5.11 Latihan Bab 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6 Regresi Cox 60
6.2 Model dan Asumsi . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.3 Estimasi parameter . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4 Ties dalam Partial Likelihood . . . . . . . . . . . . . . . . . . . . 67
6.5 Interpretasi Parameter . . . . . . . . . . . . . . . . . . . . . . . . 67
6.6 Stratifikasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.7 Inferensi Parameter Regresi Cox . . . . . . . . . . . . . . . . . . 68
6.8 Latihan Bab 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Daftar Gambar
1.1 Representasi data survival . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Alternatif representasi data survival . . . . . . . . . . . . . . . . 3
1.3 Data tersensor (censored) dan terpotong (truncated) . . . . . . . . 5
2.1 Fungsi Survival . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Fungsi Hazard . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 Kurva survival dua model eksponensial yang berbeda . . . . . . . 21

3.2 Kurva hazard dua model eksponensial yang berbeda . . . . . . . . 21
3.3 Kurva survival untuk beberapa model Weibull . . . . . . . . . . . 23
3.4 Kurva hazard untuk beberapa model Weibull . . . . . . . . . . . . 23
3.5 Kurva hazard untuk beberapa model Gamma . . . . . . . . . . . . 24
3.6 Kurva hazard untuk beberapa model Gamma . . . . . . . . . . . . 25
3.7 Kurva hazard untuk beberapa model lognormal . . . . . . . . . . 26
3.8 Kurva hazard untuk beberapa model lognormal . . . . . . . . . . 26
3.9 Nilai MLE dan log-likelihood pada Contoh 3.5. . . . . . . . . . . 33
4.1 Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen . . 37

4.2 Grafik estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . . . 38
4.3 Grafik estimasi Nelson-Aalen Contoh 4.2 . . . . . . . . . . . . . 40
4.4 Plot Kaplan-Meier untuk terapi dan placebo . . . . . . . . . . . . 40
5.1 Plot Fungsi Survival AFT Eksponensial . . . . . . . . . . . . . . 48

5.2 Plot Fungsi Hazard AFT Eksponensial . . . . . . . . . . . . . . . 48
6.1 Kurva hazard untuk dua grup atau individu yang berbeda . . . . . 61
6.2 Baseline hazard dan kurva hazard untuk dua grup yang berbeda . 63
6.3 Ilustrasi untuk Partial Likelihood Data Tabel 6.6 . . . . . . . . . . 64
6.4 Fungsi Partial Likelihood (6.7) . . . . . . . . . . . . . . . . . . . 65
6.5 Plot estimasi kurva survival Model (6.24) . . . . . . . . . . . . . 72
iv
Daftar Tabel
1.1 Relapse pasien leukemia . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Lama waktu sampai rusaknya komponen elektrik . . . . . . . . . 6
1.3 Deskripsi variabel studi tentang penyapihan . . . . . . . . . . . . 7
1.4 Lama kambuh pasien leukemia dan tes AG . . . . . . . . . . . . . 8
4.1 Tabel Estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . . . . 37

4.2 Tabel estimasi Nelson-Aalen untuk H(t) dan S(t) Contoh 4.2 . . 39
4.3 Estimasi Kaplan-Meier untuk Kelompok Placebo . . . . . . . . . 41
4.4 Penghitungan untuk Uji log-rank . . . . . . . . . . . . . . . . . . 43
5.1 Distribusi T dan ǫ dalam AFT log-linear . . . . . . . . . . . . . . 51

5.2 Estimasi Parameter Model (5.18) . . . . . . . . . . . . . . . . . . 52
5.3 Estimasi Parameter Model (5.24) . . . . . . . . . . . . . . . . . . 54
5.4 Identifikasi Distribusi . . . . . . . . . . . . . . . . . . . . . . . . 56
5.5 Data Soal 5.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.6 Data Soal 5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.1 Contoh data survival untuk ilustrasi Partial Likelihood . . . . . . 63

6.2 Uji Likelihood Ratio Model (6.21) . . . . . . . . . . . . . . . . . 70
6.3 Uji Likelihood Ratio Model (6.23) . . . . . . . . . . . . . . . . . 71
6.4 Estimasi parameter β Model (6.23) . . . . . . . . . . . . . . . . . 71
v
Kata Pengantar
Matakuliah Analisis Data Survival (2 sks) merupakan matakuliah wajib minat

untuk minat Biostatistika dan minat Aktuaria pada program studi Statistika Ju-
rusan Matematika FMIPA UGM. Matakuliah ini dapat diambil setelah mahasiswa
mengetahui dan memahami dasar serta teknik metode statistik secara umum dan
mampu melakukan analisis statistik dengan beberapa metode tertentu.
Matakuliah ini merupakan gabungan dua matakuliah pada kurikulum 2006
yang isinya dipandang beririsan cukup banyak yaitu Pengantar Uji Hidup dan
Pengantar Analisis Antar Kejadian. Pengantar Uji Hidup lebih menekankan
aspek inferensi univariat dan pembandingan kelompok populasi data lama hidup
(survival) dengan pendekatan parametrik. Pengantar Analisis Antar Kejadian le-
bih menekankan aspek lebih umum dari data survival, dengan pendekatan para-
metrik dan semi parametrik untuk data univariat maupun model-model regresi.
Dalam kurikulum 2011, kedua matakuliah tersebut digabung dan berubah na-
ma menjadi Analisis Data Survival, dengan alasan nama ini lebih populer digu-
nakan dalam silabus kuliah yang mengarah ke Biostatistika maupun Aktuaria. Se-
lain itu, materi dalam matakuliah ini disesuaikan dengan kompetensi yang ingin
dicapai pada kedua minat tersebut. Baik minat Biostatistika dan Aktuaria me-
mandang event atau kejadian seperti misalnya kematian, kesakitan, kecelakaan,
bencana, dst., sebagai hal penting yang menjadi perhatian. Pemodelan dan tek-
nik analisis data untuk variabel semacam itu, yang secara umum dinamakan data
survival (data durasi, time-to-event data), adalah tema sentral matakuliah ini.
Terkait pengembangannya, untuk minat Biostatistika, pemodelan faktor resi-
ko data survival akan lebih menjadi perhatian. Sedangkan untuk minat Aktuaria,
model survival akan menjadi dasar dalam penyusunan tabel mortalitas, tabel mor-
biditas serta penghitungan aktuaria terkait penentuan premi. Selain itu, dalam
kuliah ini juga tidak menutup kemungkinan memberi contoh fenomena lain ter-
kait data survival, seperti misalnya data dalam bidang ilmu rekayasa, sosial dan
ekonomi.
Kuliah Analisis Data Survival disertai dengan kuliah Praktikum Analisis Data
Survival (1 sks) yang diharapkan dapat lebih menambah pemahaman dan kom-
vi
vii
petensi terutama dalam aspek praktis dan komputasinya. Beberapa contoh dan
latihan soal dalam diktat ini diharapkan dapat dicoba dalam kuliah Praktikum.
Diktat ini disusun berdasarkan catatan, tayangan kuliah serta referensi tentang
Analisis Data Survival. Sebagai edisi pertama Diktat tentang Analisis Data Su-
rvival, tentu masih banyak kekurangan dan kesalahan dalam diktat ini. Untuk itu
saran dan kritik dari pembaca dan pengguna sangat diharapkan.
Akhir kata penulis mengucapkan terima kasih kepada segala pihak yang te-
lah mendukung penulisan diktat ini, terutama kepada Jurusan Matematika FMIPA
UGM yang telah memberi hibah penulisan diktat ini.
Penulis,
Dr. Danardono, MPH.

1
Pendahuluan
1.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Menjelaskan pengertian data survival atau data antar kejadian (time-to-event
data) beserta contohnya
2. Menjelaskan pengertian data tersensor dan terpotong beserta contohnya
3. Menjelaskan tujuan dan arah analisis data survival
4. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tu-

juan umum pembelajaran, metode dan proses pembelajaran, penilaian dan
sumber referensi
5. Mengidentifikasi kuliah lain yang terkait dengan analisis data survival
1.2 Data dan Variabel Random Survival

Data survival adalah lama waktu sampai suatu peristiwa terjadi atau data antar
kejadian (time-to-event data). Dalam beberapa bidang ilmu digunakan istilah du-
rasi (durational data) misalnya di bidang ekonomi. Di bidang ilmu perekayasaan
sering disebut data waktu kerusakan (failure time data). Dalam ilmu sosial digu-
nakan istilah event history data. Istilah data survival sendiri banyak digunakan
dalam bidang ilmu kesehatan, epidemiologi, demografi dan aktuaria.
Untuk memperoleh data survival, diperlukan tiga komponen yang harus terde-
finisikan dengan jelas terkait fenomena yang menjadi perhatian, yaitu:
1. Definisi event/peristiwa yang menjadi perhatian;
1
1.2. Data dan Variabel Random Survival 2
origin event
0 waktu t
Gambar 1.1: Representasi data survival
2. Titik asal (origin) yang digunakan untuk mengukur lama waktu sampai su-
atu event terjadi;
3. Unit pengukuran yang digunakan

Contoh 1.1
Misalkan fenomena yang menjadi perhatian adalah mortalitas. Dalam contoh ini event di-
definisikan sebagai saat meninggalnya seseorang, apabila ditentukan sebagai origin ada-
lah saat kelahiran, maka data survival nya adalah usia kematian, misalnya dalam satuan
tahun.
Tidak selalu event yang menjadi perhatian adalah sesuatu yang terminate, ya-
itu event yang hanya sekali saja terjadi dan berhenti, seperti misalnya kematian.
Event juga dapat berupa status (state) yang lebih umum, seperti misalnya status
sakit, status pekerjaan, dst.
Contoh 1.2
Misalkan data survival yang menjadi perhatian adalah lama waktu mulai terapi pertama
kali diberikan kepada penderita leukemia sampai kambuh kembali, dalam satuan minggu.
Dalam contoh ini event dapat berulang (kambuh) dan bukan sesuatu yang berhenti dan
hanya sekali terjadi.
Data survival sering diilustrasikan seperti gambar batang ”korek api” (Gam-
bar 1.1) dengan bulatan hitam adalah event dan garis lurus horizontal adalah lama
waktu sampai terjadinya event. Apabila event dipandang sebagai status (state)
yang berubah menurut waktu, dan kadang melibatkan lebih dari satu status, ma-
ka dapat digunakan representasi data survival seperti pada Gambar 1.2. Dalam
pengembangannya data survival dapat memuat informasi lebih dari satu status,
sehingga gambaran status yang berbeda terhadap berubahnya waktu dapat ditun-
jukkan dari sumbu Y yang nilainya berbeda, atau dari jenis garis horizontalnya,
misalnya garis biasa, garis tebal, dan seterusnya.
Data survival merupakan realisasi dari suatu variabel random survival, yaitu
suatu variabel random non-negatif, T , yang menjadi dasar pembentukan model
1.3. Data tersensor dan terpotong 3
(a) Nilai pada ordinat sebagai representasi status
0 waktu t
(b) Jenis garis sebagai representasi status
0 waktu t
Gambar 1.2: Alternatif representasi data survival
dan metode dalam analisis data survival. Untuk menuliskan suatu nilai T terten-
tu digunakan lambang t. Misalkan T adalah lama waktu sampai seorang pasien
leukemia kambuh kembali (Contoh 1.2), maka pernyataan ”lama waktu kambuh
kembali lebih dari 5 minggu” dapat dituliskan sebagai T > 5. Dalam Bab 2 akan
dibahas lebih lanjut beberapa macam fungsi terkait variabel random T ini.
1.3 Data tersensor dan terpotong

Salah satu masalah yang sering muncul dalam analisis data survival adalah adanya
pengamatan yang tidak lengkap, yang secara umum dapat dikelompokkan menja-
di data tersensor (censored) dan data terpotong (truncated).
Definisi 1.1
Suatu data atau observasi dikatakan tersensor kanan (right-censored) pada ti-
tik k apabila nilai observasi yang digunakan adalah t, jika t ≤ k; atau k jika
t > k. Apabila k ditentukan (fixed), maka observasi dikatakan tersensor Tipe
I; sedangkan bila banyaknya observasi r yang ditentukan sedemikian sehingga
t(1) ≤ t(2) ≤ . . . ≤ t(r) , maka observasi tersensor Tipe II.
Contoh 1.3
Data tersensor kanan : Suatu eksperimen menggunakan tikus percobaan dilakukan un-
tuk mengetahui seberapa lama tikus dapat hidup setelah pemberian suatu zat yang dapat
mengakibatkan kanker.
• Tipe I: Jika saat tersensornya ditentukan lebih dahulu

• Tipe II: Jika saat tersensornya ditentukan setelah tercapai persentase atau banyak
sampel tertentu yang telah mendapatkan event.
Definisi 1.2
Suatu data atau observasi dikatakan terpotong kiri (left-truncated) pada titik k
apabila data hanya menggunakan nilai observasi t ≥ k.
Contoh 1.4
Data terpotong kiri: Suatu studi tentang morbiditas dan mortalitas pegawai pada su-
atu institusi dilakukan ketika pegawai telah berusia 40 tahun ke atas. Apabila seo-
rang pegawai telah meninggal sebelum berusia 40, dia tidak masuk dalam sampel (left-
truncated).
Definisi 1.3
Suatu data atau observasi dikatakan tersensor kiri (left-censored) pada titik k
apabila nilai observasi yang digunakan adalah t, jika t ≥ k; atau k jika t < k.
Contoh 1.5
Data tersensor kiri: Data seperti ini biasanya terjadi pada pengumpulan data yang di-
lakukan secara retrospektif atau melihat informasi ke belakang. Suatu studi dilakukan
untuk mengetahui faktor-faktor yang mempengaruhi usia pertama kali merokok. Apabila
responden ingat usia saat dia pertama kali merokok, dikatakan observasi yang dipero-
leh adalah lengkap. Bila responden tidak ingat kapan dia mulai merokok, tapi hanya
ingat mulai merokok sebelum usia tertentu, maka dikatakan observasi tersebut tersensor
kiri.
Definisi 1.4
Suatu data atau observasi dikatakan terpotong kanan (right-truncated) pada titik
k apabila data hanya menggunakan nilai observasi t ≤ k.
Contoh 1.6
Data terpotong kanan: Data ini juga biasa terjadi pada pengumpulan data retrospek-
tif. Suatu studi tentang AIDS dilakukan secara retrospektif. Yang menjadi perhatian
adalah durasi mulai infeksi HIV sampai terdiagnosis AIDS. Hanya individu yang telah
terdiagnosis AIDS sebelum mulai studi saja yang akan masuk dalam studi. Individu
yang belum terdiagnosis AIDS tidak masuk dalam studi adalah sampel yang terpotong
kanan.
Pada Gambar 1.3 dapat dilihat perbedaan keempat jenis data tidak lengkap se-
perti yang telah dijelaskan di muka. Pada Gambar tersebut, bagian yang diarsir
adalah periode pada saat mana observasi tidak lengkap (unobserved). Observasi
terpotong-kiri tersensor-kanan
tersensor-kiri terpotong-kanan
t (waktu) t (waktu)
Gambar 1.3: Data tersensor (censored) dan terpotong (truncated)
tersensor kanan sering dikatakan tersensor dari atas, karena bagian yang tersen-
sor adalah bagian paling kini secara kronologis (atas). Demikian juga observasi
yang terpotong kanan sering disebut terpotong dari atas. Sebaliknya Observasi
tersensor kiri dan terpotong kiri sering disebut tersensor dari bawah dan terpo-
tong dari bawah, karena bagian yang tersensor atau terpotong adalah pada bagian
awal (bawah).
Penyensoran (censoring) pada suatu pengamatan akan berakibat ketidakleng-
kapan informasi lama-waktu atau durasi pada data yang diperoleh. Sedangkan Pe-
motongan (truncation) akan berakibat pada terambil atau tidaknya suatu subyek
sebagai sampel, selain ketidaklengkapan informasi pada durasi. Sebagai contoh,
data lama hidup tikus Contoh 1.3. Apabila penelitian dihentikan pada suatu waktu
(sensor Tipe I), maka informasi yang tidak lengkap hanya terjadi pada tikus-tikus
yang masih hidup. Namun pada Contoh 1.4, pegawai yang meninggal sebelum
berusia 40 tahun akan tidak terambil sebagai sampel. Dengan kata lain, observasi
yang terpotong (meninggal sebelum usia 40) mempengaruhi keterambilan subyek
sebagai sampel. Akibat yang sama terjadi pula untuk tersensor kanan dan terpo-
tong kanan.
Berikut adalah beberapa contoh data survival yang diperoleh dari permasalah-
an aplikasi yang berbeda, yaitu dalam bidang ilmu kesehatan, ilmu perekayasaan
dan ilmu sosial.
Contoh 1.7
Diperoleh data dari studi tentang pasien leukemia (Cox and Oakes, 1984) seperti pada
Tabel 1.1. Event yang perhatian dalam studi ini adalah relapse (kekambuhan kembali)
dari 42 pasien leukemia anak-anak yang pada awal studi telah dianggap sembuh (re-
mission). Pasien mendapatkan perawatan berupa 6-MP (6-mercaptopurine) dan place-
bo.
Tabel 1.1: Relapse pasien leukemia
Perawatan lama waktu (bulan) sampai kambuh

6-MP : 6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 11+, 17+, 19+,
20+, 25+, 32+, 32+, 34+, 35+
Placebo: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22,
23
tanda + menunjukkan data tersensor kanan
Tabel 1.2: Lama waktu sampai rusaknya komponen elektrik
voltase (kV) lama waktu (menit) sampai rusak

26 5,79; 1579,52; 2323,7
28 68,85; 426,07; 110,29; 108,29; 1067,6
30 17,05; 22,66; 21,02; 175,88; 139,07; 144,12; 20,46;
43,40; 194,90; 47,30; 7,74
32 0,40; 82,85; 9,88; 89,29; 215,10; 2,75; 0,79; 15,93;
3,91; 0,27; 0,69; 100,58; 27,80; 13,95; 53,24
34 0,96; 4,15; 0,19; 0,78; 8,01; 31,75; 7,35; 6,50; 8,27;
33,91; 32,52; 3,16; 4,85; 2,78; 4,67; 1,31; 12,06; 36,71;
72,89
36 1,97; 0,59; 2,58; 1,69; 2,71; 25,50; 0,35; 0,99; 3,99;
3,67; 2,07; 0,96; 5,35; 2,90; 13,77
38 0,47; 0,73; 1,40; 0,74; 0,39; 1,13; 0,09; 2,38
Contoh 1.8
Suatu percobaan dilakukan untuk meneliti pengaruh voltase terhadap kerusakan suatu
alat elektrik (Lawless, 2003). Diperoleh data seperti pada Tabel 1.2. Dalam penelitian
ini semua sampel diamati sampai semuanya rusak, tidak ada censoring dalam data ini.
Terlihat bahwa semakin tinggi voltase, lama sampai suatu komponen rusak semakin cepat.
Voltase normal untuk komponen ini adalah 20kV.
Contoh 1.9
Suatu studi di Amerika dilakukan untuk mengetahui faktor-faktor yang mempengaruhi
lama menyusui, atau saat penyapihan (weaning) (Klein and Moeschberger, 2003). Dari
927 bayi yang disusui oleh ibunya, beberapa pertanyaan diajukan seperti pada Tabel 1.3.
Data untuk contoh ini dapat dikopi saat praktikum.
1.4. Latihan Bab 1 7
Tabel 1.3: Deskripsi variabel studi tentang penyapihan
Variabel Deskripsi kode

duration Lama menyusui (minggu)
delta Indikator penyapihan 1=disapih
0=belum
race Ras dari ibu 1=kulit putih
2=kulit hitam
3=lainnya
poverty Ibu dikategorikan miskin 1=ya, 0=tidak
smoke Ibu adalah perokok saat melahirkan 1=ya, 0=tidak
alcohol Ibu adalah peminum saat melahirkan 1=ya, 0=tidak
agemth Usia ibu saat melahiran (tahun)
ybirth Tahun kelahiran
yschool Tingkat (lama) pendidikan (tahun)
pc3mth Pemeriksaan kehamilan setelah bulan ketiga 1=ya, 0=tidak
1.4 Latihan Bab 1

1.1. Berikan contoh data survival dari fenomena yang menarik perhatian sauda-
ra, minimal dua contoh! Definisikan origin (titik asal), event yang menjadi
perhatian dan unit waktu yang digunakan. Kemudian tambahkan variabel
lain yang mungkin menjadi perhatian.
1.2. Apa tujuan utama dari analisis data survival?
1.3. Sebutkan matakuliah dalam program studi Statistika yang terkait dengan
analisis data survival!
1.4. Pencatatan peristiwa demografis di kelurahan atau kecamatan (vital statis-

tics) berupa kelahiran, kematian dan pindah masuk maupun keluar daerah
pada dasarnya adalah data survival. Sebutkan titik asal, event dan unit wak-
tu yang mungkin menjadi perhatian dalam konteks ini! Apakah ada ke-
mungkinan observasi tidak lengkap (tersensor, terpotong) dalam pencatatan
peristiwa demografis tersebut?
1.5. Eksperimen survival/sacrifice adalah suatu cara penelitian untuk mengeta-

hui apakah suatu zat tertentu atau karsinogen tertentu mempercepat terjadi-
nya tumor pada binatang percobaan. Dalam eksperimen seperti ini, setiap
binatang percobaan diberi dosis suatu karsinogen tertentu dan dilihat ada
tidaknya tumor pada saat meninggal dengan otopsi. Apabila kita tertarik
Tabel 1.4: Lama kambuh pasien leukemia dan tes AG
AG positive AG negative
ID WBC waktu ID WBC waktu
1 0.0230 65 18 0.044 56
2 0.0075 156 19 0.030 65
3 0.0430 100 20 0.040 17
4 0.0260 134 21 0.015 7
5 0.0600 16 22 0.090 16
6 0.1050 108 23 0.053 22
7 0.1000 121 24 0.100 3
8 0.1700 4 25 0.190 4
9 0.0540 39 26 0.270 2
10 0.0700 143 27 0.280 3
11 0.0940 56 28 0.310 8
12 0.3200 26 29 0.260 4
13 0.3500 22 30 0.210 3
14 1.0000 1 31 0.790 30
15 1.0000 1 32 1.000 4
16 0.5200 5 33 1.000 43
17 1.0000 65
ID adalah nomor identitas pasien
pada lama waktu sejak diberi karsinogen sampai terkena tumor, permasa-
lahan data tidak lengkap apa saja yang mungkin terjadi?
1.6. Tanpa menggunakan metode yang nanti akan dipelajari dalam analisis data
survival, lakukan analisis data untuk Contoh 1.7 dan Contoh 1.8! (Misalnya
dengan ANOVA atau Regresi). Kesimpulan apa yang dari analisis data yang
saudara lakukan?
1.7. Mengapa data yang tersensor dalam data survival tidak seharusnya dibuang?
Jelaskan!
1.8. Berikan masing-masing satu contoh permasalahan atau fenomena yang da-
pat dipandang sebagai data survival dan kemungkinan terdapat observasi
tidak lengkap sebagai berikut: (1) tersensor-kanan; (2) terpotong-kiri; (3)
tersensor-kiri; (4) terpotong-kanan!
1.9. Tabel 1.4 adalah data lama hidup 33 pasien leukemia (dalam minggu), ba-
nyaknya sel darah putih (WBC, dalam satuan 100.000 sel); dan hasil tes
karakteristik morfologis darah putih (AG positive atau AG negative).
(a) Bila observasi tersensor-kanan pada titik 4 minggu, tuliskan pasien

mana saja (ID-nya) yang teramati (observed)
(b) Bila observasi terpotong-kanan pada titik 4 minggu, tuliskan pasien
mana saja (ID-nya) yang teramati (observed)
(c) Bila pasien terambil sebagai sampel hanya untuk yang kambuh setelah
12 minggu, jenis data tidak lengkap apa terjadi situasi ini? Tuliskan
pasien mana saja (ID-nya) yang teramati (observed)
(d) Bila penelitian menghendaki pasien adalah yang belum kambuh pa-
da titik 5 minggu saja, dan penelitian berakhir 60 minggu kemudian,
pasien mana saja yang terambil sebagai sampel dan bagaimana status
kambuh tidaknya pasien pada akhir penelitian?
2
Fungsi dan Kuantitas Dasar

dapat:
2.1. Menjelaskan fungsi survival, hazard, hazard kumulatif dan hubungannya
diantara mereka dan dengan fungsi probabilitas dan fungsi distribusi
2.2. Menjelaskan beberapa contoh model survival
2.3. Menginterpretasikan fungsi survival, hazard, hazard kumulatif dalam suatu
konteks aplikasi tertentu
2.4. Memberi contoh dan menjelaskan perluasan fungsi survival untuk keperlu-
an aplikasi tertentu
2.2 Fungsi Survival dan Hazard

Seperti yang telah dikemukakan pada Bab 1, dasar dari model dan metode dalam
analisis data survival adalah variabel random survival T . Untuk mendeskripsikan
suatu variabel random dalam bentuk eksplisit yang berupa model matematika,
digunakan fungsi variabel random tersebut, misalnya berupa fungsi distribusi dan
fungsi probabilitas. Dalam analisis data survival, fungsi variabel random yang
menjadi perhatian adalah fungsi survival dan fungsi hazard.
Fungsi survival adalah probabilitas satu individu hidup (survive) lebih lama
daripada t
S(t) = P (T > t). (2.1)
Fungsi S(t) merupakan fungsi adalah fungsi non-increasing terhadap waktu t de-
ngan sifat S(0) = 1 dan limt→∞ S(t) = 0.
10
2.2. Fungsi Survival dan Hazard 11
1.0
0.8
0.6
S(t)
0.4
0.2
0.0
0.0 0.5 1.0 1.5 2.0 2.5

t
Gambar 2.1: Fungsi Survival
Contoh fungsi survival dapat dilihat pada Gambar 2.1. Fungsi survival dapat
diinterpretasikan sebagai proporsi individu yang hidup dari sekelompok cohort
(angkatan). Pada awal lahirnya cohort tersebut proporsi yang hidup besar (men-
dekati satu). Seiring waktu berjalan proporsi yang hidup dari cohort tersebut akan
berkurang sampai akhirnya semua meninggal (proporsi mendekati nol).
Contoh 2.1
Misalkan T adalah lama waktu sampai seorang pasien leukemia kambuh kembali (Con-
toh 1.2) dalam satuan minggu, maka S(5) = P (T > 5) dapat diinterpretasikan sebagai
probabilitas lama waktu kambuh kembali lebih dari 5 minggu. Kalau tidak kambuh di-
pandang sebagai ”survive”, maka peluang survival nya adalah S(5).
Fungsi variabel random lain yang cukup penting adalah fungsi hazard yang
didefinisikan sebagai
P (t ≤ T < t + ∆t | T ≥ t)
h(t) = lim (2.2)
∆t→0 ∆t
yang dapat diinterpretasikan sebagai tingkat (rate) terjadinya suatu event. Seba-
gai contoh, fungsi hazard dapat dilihat pada Gambar 2.2. Fungsi hazard yang
2.2. Fungsi Survival dan Hazard 12
5
4
3
h(t)
2
1
0
0.0 0.5 1.0 1.5 2.0
Gambar 2.2: Fungsi Hazard
berbentuk U seperti ini biasanya menunjukkan resiko kematian pada makhluk hi-
dup secara biologis. Pada usia muda, tingkat atau resiko kematian tinggi. Resiko
berkurang setelah dewasa, namun kembali bertambah setelah mendekati usia tua.
Ada banyak bentuk fungsi hazard yang merujuk pada suatu distribusi tertentu.
Fungsi hazard bukan probabilitas, sehingga dimungkinkan nilainya lebih dari satu.
Batasan yang dikenakan pada fungsi hazard hanyalah h(t) ≥ 0.
Integral dari fungsi hazard h(t) adalah fungsi hazard kumulatif
Z t
H(t) = h(x)dx (2.3)
0
yang hubungan fungsionalnya dengan S(t) cukup penting sebagai dasar dalam
pemodelan data survival.
Fungsi S(t), h(t), H(t) dan f (t) merupakan fungsi yang bergantung pada
waktu t. Kadang diperlukan fungsi yang hasilnya berupa nilai waktu t dengan di-
berikan probabilitas atau kuantitas yang lain. Misalnya dalam penghitungan medi-
an. Median adalah nilai tengah, yaitu jika t0,5 adalah median, maka S(t0,5 ) = 0,5.
Secara umum diperlukan fungsi yang dapat digunakan mencari median atau titik
waktu yang lain dengan diberikan probabilitas yang dinamakan fungsi kuantil.
Fungsi kuantil adalah
tp = S −1 (p), 0<p<1 (2.4)
2.3. Hubungan antar Fungsi 13
atau
tp = F −1 (p), 0<p<1 (2.5)
Nilai tp sering disebut sebagai kuantil ke-p, jadi median adalah kuantil ke- 12 .
Kuantitas lain yang penting adalah mean dan variansi T , yaitu
Z ∞
E(T ) = S(t)dt (2.6)
0
dan
Z ∞
var(T ) = 2 tS(t)dt − E(T )2 (2.7)
0
2.3 Hubungan antar Fungsi

Fungsi survival S(t) dapat diturunkan dari distribusi kumulatif F (t) sebagai beri-
kut:
S(t) = 1 − F (t) (2.8)
Sedangkan fungsi hazard h(t) dapat dituliskan sebagai
f (t)
h(t) = , (2.9)
S(t)
dengan menggunakan definisi probabilitas bersyarat,
P (t ≤ T < t + ∆t | T ≥ t) = P (t ≤ T < t + ∆t)/P (T ≥ t)

= P (t ≤ T < t + ∆t)/S(t), (2.10)
Menurut definisi fungsi densitas lim∆t→0 P (t ≤ T < t + ∆t)/∆ adalah f (t),

sehingga dapat diperoleh (2.9).
Untuk distribusi kontinu
S ′ (t)
h(t) = −
S(t)
d log S(t)
= − , (2.11)
dt
Karena S(0) = 1,
Z t
S(t) = exp − h(u)du
0
= exp(−H(t)), (2.12)
2.3. Hubungan antar Fungsi 14
atau H(t) = − log(S(t)). Dari sini dapat diperoleh pula hubungan antara fungsi
densitas, hazard dan hazard kumulatif sebagai berikut
f (t) = h(t) exp[−H(t)] (2.13)
Karena fungsi survival harus memenuhi S(t) = exp(−H(t)), dapat disim-
pulkan H(t) < ∞ untuk t > 0, dan limt→∞ H(t) = ∞.
Dengan mengetahui hubungan antar fungsi variabel random survival, apabila
satu jenis fungsi diketahui, fungsi yang lain dapat diketahui pula.
Contoh 2.2
Diketahui fungsi hazard konstan h(t) = λ. Carilah bentuk fungsi survival, fungsi densitas
dan fungsi hazard kumulatif distribusi ini.
Jawab: Rt
Diketahui, h(t) = λ. Menggunakan hubungan H(t) = 0 h(x)dx dapat dicari
Z t
H(t) = λdx = [λx]t0
0
= λt.
Kemudian menggunakan hubungan S(t) = exp(−H(t)), dan f (t) = h(t)S(t) dapat
dicari
S(t) = exp(−H(t)) = exp(−λt)
dan
f (t) = λ exp(−λt).
Distribusi ini dikenal sebagai distribusi eksponensial, yaitu distribusi dengan fungsi haza-
rd konstan. Bersama dengan distribusi-distribusi yang lain, distribusi eksponensial akan
dipelajari lebih jauh pada Bab 3.
Dalam pemodelan survival, fungsi hazard mempunyai kelebihan dibandingk-

an fungsi survival maupun fungsi densitas, terutama terkait kondisi bersyarat ka-
rena observasi yang terpotong. Misalkan untuk terpotong-kiri, peluang seorang
individu survive dengan diketahui dia masih survive sampai waktu k adalah
S(t | T > k) = P (T > t | T > k), t>k
S(t)
= .
S(k)
Demikian pula untuk fungsi densitas, kondisional terhadap survival sampai waktu
k, adalah f (t)/S(k). Namun tidak demikian dengan fungsi hazard, karena fungsi
hazard menurut definisi fungsi hazard (2.10) sudah bersyarat T > k, sehingga
fungsi hazard tetap h(t) dan tidak terpengaruh observasi terpotong. Kenyataan
ini bermanfaat dalam pemodelan survival, sehingga banyak model survival yang
dikembangkan dari fungsi hazard, misalnya model regresi proportional hazard.
2.4. Survival Diskrit 15
2.4 Survival Diskrit

Bila T merupakan suatu variabel random diskret dengan nilai x1 < x2 < . . .
dengan fungsi probabilitas
f (xi ) = P (T = xi ), i = 1, 2, . . . (2.14)
fungsi survivalnya adalah
X
S(t) = f (xj ) (2.15)
j|xj >t
= f (xj ) + f (xj+1 ) + . . . (2.16)

yang merupakan fungsi kontinu dari kiri (left-continuous) dan fungsi tangga yang
tak-naik (non-increasing step function) dengan S(0) = 1 dan S(∞) = 0
Fungsi hazard pada xj didefinisikan sebagai probabilitas kondisional subyek
mendapatkan event pada saat xj dengan diberikan subyek belum mendapatkan
event tepat sebelum xj
h(xj ) = P (T = xj | T ≥ xj )
f (xj )
= j = 1, 2, . . .
S(xj )
Karena f (xj ) = S(xj ) − S(xj+1 ),
f (xj )
h(xj ) =
S(xj )
S(xj ) − S(xj+1 )
=
S(xj )
S(xj+1 )
= 1− (2.17)
S(xj )
sehingga
Y
S(t) = (1 − h(xj )) . (2.18)
j|xj <t
Fungsi hazard kumulatif untuk T diskrit adalah

X
H(t) = log(1 − hj ) (2.19)
j|xj <t
sehingga hubungan S(t) dengan H(t) seperti persamaan (2.12)Pmasih berlaku.

Satu alternatif untuk fungsi hazard kumulatif adalah H(t) = j|xj <t hj , yang
nilainya didekati oleh (2.19) untuk hj cukup kecil.
Contoh 2.3
Variabel random survival diskrit T mempunyai fungsi probabilitas
1
f (t) = P (t = k) = , k = 1, 2, 3
3
Fungsi survivalnya adalah
X
S(t) = f (xj )
j|xj >t



 1 jika 0 ≤ t < 1,

2/3 jika 1 ≤ t < 2,
=


 1/3 jika 2 ≤ t < 3,

0 jika t ≥ 3.
Untuk T diskrit, S(t) berupa fungsi tangga yang tak-naik. Fungsi hazard T adalah
f (xj )
h(xj ) =
S(xj )



 1/3 untuk j = 1

1/2 untuk j = 2
=


 1 untuk j = 3

0 yang lain.
Untuk variabel random survival diskrit, fungsi hazard akan bernilai nol, kecuali pada titik-
titik di mana event dapat terjadi.
2.5 Latihan Bab 2

2.1. Distribusi survival didefinisikan sebagai S(t) = 0,10(100 − t)1/2 pada do-
main 0 ≤ t ≤ 100, tentukan nilai f (36) dan h(50)!
2.2. Jika diketahui S(t) = 0,2(25 − t)1/2 pada domain 0 ≤ t ≤ 25, tentukan
nilai hazard kumulatif H(16)!
2.3. Diketahui fungsi hazard h(t) = a + bt, a > 0 dan b > 0, tentukan nilai
S(t)!
2.4. Tunjukkan mengapa S(t) dari fungsi hazard h(t) = e−rt , r > 0 bukan
merupakan fungsi survival:
2.5. Untuk variabel random durasi (interval antar kejadian) kontinu T , dengan
fungsi survival S(t):
R∞
(a) Tunjukkan bahwa E(T ) = 0
S(t)dt
(b) Tunjukkan bahwa E(T ) = r(0) (soal no. 2(a)), dengan
r(t) = E(T − t | T ≥ t)
yang sering disebut sebagai expected residual life atau mean residual
life pada saat t
2.6. Suatu variabel random survival kontinu T diketahui mempunyai expected

residual life (Lihat soal no. 2.5) r(t) = t + 10.
(a) Carilah mean T

(b) Carilah h(t)
(c) Carilah S(t)
2.7. Diketahui T berdistribusi Uniform

(
1/θ untuk 0 ≤ t ≤ θ
f (t) =
0 t yang lain
(a) Hitung fungsi survival S(t)

(b) Hitung fungsi hazard h(t)
(c) Hitung fungsi expected (mean) residual-life r(t)
R∞
2.8. Buktikan persamaan (2.6) dan (2.7), jika diberikan E(T ) = −∞
tf (t)dt
dan var(T ) = E(T 2 ) − E(T )2 .
2.9. Diketahui fungsi survival S(t) = exp(−tλ ), carilah fungsi densitas dan
fungsi hazardnya!
2.10. Tunjukkan bahwa jika fungsi hazard suatu variabel random survival adalah
κρ(ρt)κ−1 exp [(ρt)κ ]
fungsi survivalnya adalah
exp {− [exp((ρt)κ ) − 1]}
2.11. Tunjukkan bahwa untuk variabel random survival diskret

Y
S(t) = (1 − h(xj ))
j|xj <t
2.12. Diketahui T adalah variabel random diskrit berdistribusi Geometrik
f (t) = π(1 − π)t−1 , t = 1, 2, . . .
(a) Carilah fungsi survival T

(b) Carilah fungsi Hazard T
2.13. Diketahui distribusi Poisson dengan fungsi probabilitas
λk
P (T = k) = e−λ , k = 0, 1, . . . .
k!
Tunjukkan fungsi hazard-nya naik monoton.
2.14. Suatu model yang digunakan dalam Tabel Mortalitas adalah model piece-
wise constant hazard rate. Dalam model ini waktu dibagi dalam k interval
[τj−1 , τj ), j = 1, 2, . . . , k dengan τk = ∞. Fungsi hazard dalam interval
ke-j berupa konstan λj , atau


 λ1 0 ≤ t < τ1

 λ2 τ1 ≤ t < τ2



h(t) = ...

λk−1 τk−2 ≤ t < τk−1





λk t ≥ τk−1

Carilah fungsi survival model ini!

3
Metode Parametrik

dapat:
3.1. Menyebutkan beberapa model distribusi parametrik variabel random survi-

val
3.2. Menyebutkan dan menjelaskan aplikasi atau fenomena data survival yang
mengikuti distribusi parametrik tertentu
3.3. Melakukan estimasi parameter model distribusi variabel random survival
3.4. Menggunakan model distribusi variabel random survival
3.5. Mengidentifikasi distribusi yang sesuai jika diberikan suatu set data survival
3.2 Beberapa distribusi parametrik

3.2.1 Distribusi Eksponensial
Distribusi eksponensial mempunyai sifat ”pelupa” (lack of memory) yang berarti
bahwa probabilitas survive ke depan tidak terpengaruh oleh kondisi survive seka-
rang. Hal ini ditunjukkan oleh fungsi hazard nya yang berupa konstan, yaitu
h(t) = λ (3.1)
Hazard yang konstan ini sebenarnya tidak cukup realistis untuk memodelkan fe-
nomena terkait data survival. Namun model dengan distribusi Eksponensial ini
19
3.2. Beberapa distribusi parametrik 20
dipandang cukup baik dan sederhana sebelum melihat model lain yang mungkin
lebih baik namun mungkin juga lebih rumit.
Model dengan reparameterisasi θ = 1/λ kadang sering juga digunakan. Per-
bedaannya adalah dalam interpretasi terkait fungsi hazardnya. Untuk event seperti
kerusakan atau kematian, λ diinterpretasikan sebagai tingkat resiko (hazard rate)
dengan satuan kerusakan per satu satuan waktu, sedangkan θ = 1/λ adalah lama
waktu sampai satu kerusakan.
Dengan terlebih dahulu mencari fungsi hazard kumulatifnya yaitu H(t) =
λt, fungsi survival dapat dicari melalui hubungan antara H(t) dan S(t), sebagai
berikut
S(t) = exp(−λt) (3.2)
Fungsi densitas distribusi eksponensial dengan parameter λ > 0 dapat diru-

muskan dari h(t) dan S(t) di muka, yaitu
f (t) = h(t)s(t)
= λ exp(−λt) (3.3)
Distribusi eksponensial mempunyai mean 1/λ, variansi 1/λ2 dan median

(1/λ) log(2). Sebagai contoh kurva survival untuk eksponensial dapat dilihat pa-
da Gambar 3.1. Gambar fungsi hazard yang bersesuaian dengan fungsi survival
Gambar 3.1 adalah seperti pada Gambar 3.2.
Contoh 3.1
Pada label lampu pijar proyektor LCD tertulis lama hidup lampu pijar adalah 2000 jam
pemakaian. Kita asumsikan lama hidup lampu pijar berdistribusi eksponensial.
a) Apabila 2000 jam tersebut kita interpretasikan sebagai median lama hidup, hitung
berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?
b) Apabila 2000 jam tersebut kita interpretasikan sebagai mean lama hidup, hitung
berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?
Jawab:
a) Median distribusi eksponensial λ1 log(2) = 2000, sehingga dapat dihitung λ =

log(2)/2000 = 0,000347 kerusakan per jam. Probabilitas masih hidup setelah
2500 jam pemakaian, S(2500) = exp(−0,000347 × 2500) = 0,420
b) Mean distribusi eksponensial 1/λ = 2000, jadi λ = 0,0005 kerusakan per jam.
Probabilitas masih hidup setelah 2500 jam pemakaian, S(2500) = exp(−0,0005×
2500) = 0,287
1.0
0.8
0.6
S(t)
0.4
λ = 0.1
λ = 0.3
0.2
0.0
0 10 20 30 40
Gambar 3.1: Kurva survival untuk model eksponensial dengan dua nilai λ yang
berbeda
0.6
0.5
0.4
λ = 0.3
h(t)
0.3
0.2
λ = 0.1
0.1
0.0
0 10 20 30 40
Gambar 3.2: Kurva hazard untuk model eksponensial dengan dua nilai λ yang
berbeda
3.2.2 Distribusi Weibull

Distribusi Weibull merupakan perluasan dari distribusi eksponensial yang pada
awalnya digunakan untuk meneliti kekerasan atau ketahanan suatu material. Dis-
tribusi Weibull dengan parameter bentuk (shape parameter) α > 0 dan parameter
skala (scale parameter) λ > 0 mempunyai fungsi hazard yang bergantung waktu
sebagai berikut
h(t) = αλ(λt)α−1 (3.4)
Fungsi survival dan fungsi densitas Weibull adalah
S(t) = exp(−(λt)α ) (3.5)
f (t) = αλ(λt)α−1 exp(−(λt)α ) (3.6)
Untuk kasus α = 1 distribusi Weibull sama dengan eksponensial dengan parame-

ter λ. Mean dan variansi distribusi ini berturut-turut
Γ(1 + 1/α)
λ
dan

1 2 2 1
Γ 1+ −Γ 1+
λ2 α α
Kurva survival dan kurva hazard untuk model Weibull dapat dilihat pada Gam-
bar 3.3 dan 3.4. Distribusi Weibull banyak digunakan dalam bidang reliabilitas
dan studi mortalitas.
3.2.3 Distribusi Gamma

Distribusi Gamma mempunyai
√ parameter β, λ > 0, dengan mean E(t) = β/λ
dan koefisien variasi 1/ β. Parameter λ−1 sering disebut parameter skala (scale)
dan β adalah indeks atau parameter bentuk (shape) Fungsi densitas, hazard dan
survivalnya adalah sebagai berikut
λ(λt)β−1 exp(−λt)
f (t) = (3.7)
Γ(β)
h(t) = f (x)/S(x) (3.8)

1.0
0.8
0.6
S(t)
0.4
0.2
α = 0.1
α=4
α=2 α=1
0.0
0 1 2 3 4
Gambar 3.3: Kurva survival untuk model Weibull dengan beberapa nilai α yang
berbeda dan satu nilai λ tertentu
4
3
α=4
α=2
h(t)
α=1
1
α = 0.1
0
0 1 2 3 4
Gambar 3.4: Kurva hazard untuk model Weibull dengan beberapa nilai α yang
berbeda dan satu nilai λ tertentu
2.0
1.5
β = 0.4
h(t)
1.0
β=2
0.5
β=4
0.0
0 1 2 3 4
Gambar 3.5: Kurva fungsi hazard untuk model Gamma dengan beberapa nilai β
yang berbeda dan λ = 1
λt
1
Z
S(t) = 1 − I(λt, β) = 1 − uβ−1 e−u du (3.9)
Γ(β) 0
Secara praktis penggunaan fungsi Gamma agak terbatas karena bentuk ekspli-
sit fungsi survivalnya yang rumit memuat integral fungsi Gamma tidak-lengkap.
Fungsi Gamma dengan β = 1 adalah sama dengan distribusi Eksponensial(λ).
Distribusi Gamma dengan parameter λ = 1 dikenal dengan Gamma satu pa-
rameter β dan mempunyai fungsi densitas sebagai berikut
tβ−1 exp(−t)
f (t) = (3.10)
Γ(β)
Jika T berdistribusi Gamma (3.7), maka λT akan berdistribusi Gamma satu pa-
rameter β. Kemudian bila Y berdistribusi Gamma satu parameter β, maka 2Y
berdistribusi χ2 (Chi kuadrat) dengan derajat bebas 2k.
Gambar fungsi densitas dan fungsi hazard untuk λ = 1 dan berbagai nilai β
dapat dilihat pada Gambar 3.5 dan Gambar 3.6.
Seperti halnya distribusi Weibull, distribusi Gamma diawali dari permasalahan
dalam bidang perekayasaan (engineering) dan ketahanan material. Aplikasinya
kemudian ke bidang yang lain seperti industri dan model mortalitas.
0.6
0.4
f(t)
0.2
β=4
β=2
β = 0.4
0.0
0 1 2 3 4
Gambar 3.6: Kurva fungsi densitas untuk model Gamma dengan beberapa nilai
β yang berbeda dan λ = 1
3.2.4 Distribusi Log-normal

Variabel random survival T berdistribusi log-normal apabila transformasi variabel
log(T ) berdistribusi normal. Distribusi log-normal dengan paramater σ > 0, t ≥
0) mempunyai fungsi densitas, hazard dan survival sebagai berikut

1 1
f (t) = exp − 2 (log(t) − µ)2
√ (3.11)
tσ 2π 2σ
h(t) = f (x)/S(x) (3.12)

log(t) − µ
S(t) = 1 − Φ (3.13)
σ
dengan Φ(x) adalah fungsi distribusi kumulatif Normal Standar.

Distribusi log-normal mempunyai mean E(t) = exp(µ + σ 2 /2) dan variansi
[exp(σ 2 ) − 1] [exp(2µ + σ 2 )], bukan µ dan σ seperti dalam distribusi normal.
Gambar fungsi densitas dan fungsi hazard untuk µ = 0 dan berbagai nilai σ
dapat dilihat pada Gambar 3.7 dan Gambar 3.8.
5
σ = 0.25
4
3
h(t)
σ = 0.5
2
1
σ = 1.5
0
0 1 2 3 4
Gambar 3.7: Kurva fungsi hazard untuk model lognormal dengan beberapa nilai
σ yang berbeda dan µ = 0
2.0
σ = 0.25
1.5
1.0
f(t)
0.5
σ = 0.5
σ = 1.5
0.0
0 1 2 3
Gambar 3.8: Kurva fungsi densitas untuk model lognormal dengan beberapa nilai
σ yang berbeda dan µ = 0
Contoh 3.2
Carilah median lognormal, bila diketahui fungsi survival seperti (3.13).
Jawab:
Bila med adalah median, maka

log(med) − µ
S(med) = 1 − Φ = 1/2
σ
atau

log(med) − µ
Φ = 1/2
σ
Kuantil ke-1/2 normal standar adalah 0, sehingga
log(med) − µ
= 0
σ
log(med) = µ
med = exp(µ)
3.2.5 Distribusi Gompertz-Makeham

Distribusi ini awalnya digunakan untuk memodelkan survival pada manusia dan
banyak digunakan pada permasalahan demografi dan aktuaria. Secara empiris mo-
del motalitas pada manusia umumnya mempunyai bentuk log hazard yang linear
terhadap usia, atau
h(t) = exp(A + Bt) (3.14)
yang kemudian di-reparameterisasi menjadi
h(t) = ρ1 eρ2 t . (3.15)
Model hazard ini dikenal sebagai model Gompertz. Makeham kemudian me-
nyarankan ada penambahan konstan ρ0 yang berbeda menurut usia pada mo-
del Gompertz untuk memodelkan mortalitas, sehingga model hazardnya menjadi
Gompertz-Makeham
h(t) = ρ0 + ρ1 eρ2 t . (3.16)
Parameter ρ0 > 0 dan ρ1 > 0 dikenal sebagai parameter bentuk (shape) dan
−∞ < ρ2 < ∞ sebagai parameter skala (scale).
Fungsi survival distribusi Gompertz-Makeham dapat diturunkan melalui fung-
si hazard dan kemudian fungsi hazard kumulatifnya, dan diperoleh

ρ1 ρ 2 t
S(t) = exp −ρ0 t − (e − 1) (3.17)
ρ2
Fungsi densitas Gompertz-Makeham dapat dituliskan secara eksplisit dari
h(t)S(t). Dalam aplikasinya model ini lebih menggunakan fungsi hazard dan
survivalnya.
3.3. Estimasi parameter 28
3.2.6 Distribusi Log-logistik

Seperti halnya log-normal, nama log-logistik diberikan karena log(T ) berdistri-
busi logistik. Distribusi logistik sendiri mempunyai fungsi densitas
exp[(y − µ)/σ]
f (y) = (3.18)
σ(1 + exp[(y − µ)/σ])2
dengan −∞ < y < ∞ adalah variabel random logistik dengan parameter −∞ <
µ < ∞ dan −∞ < σ < ∞.
Fungsi Survival distribusi log-logistik adalah
1
S(t) = (3.19)
1 + (λt)α
Fungsi hazard distribusi ini dapat diturunkan mulai dari fungsi kumulatif hazard-
nya
H(t) = − log[S(t)]
= log((1 + (λt)α ) (3.20)
kemudian diperoleh
h(t) = dH(t)/dt
λα(λt)α−1
= . (3.21)
1 + (λt)α
Fungsi densitas log-logistik
f (t) = S(t)h(t)
λα(λt)α−1 1
= (3.22)
1 + (λt) 1 + (λt)α
α
λα(λt)α−1
= (3.23)
[1 + (λt)α ]2
Distribusi ini memiliki S(t), h(t) dan f (t) yang eksplisit relatif sederhana
dibandingkan dengan, misalnya, log-normal.
3.3 Estimasi parameter

Estimasi parameter suatu model survival parametrik dapat dilakukan dengan me-
tode Estimasi Kebolehjadian Maksimum (Maximum Likelihood Estimation).
Definisi 3.1
Fungsi kebolehjadian (likelihood function) adalah fungsi dari parameter yang di-
bentuk melalui probabilitas bersama dengan diberikan realisasi atau data yang
berasal dari variabel random survival T . Apabila f (t; θ) adalah fungsi proba-
bilitas bersama, dengan t adalah realisasi dari T , maka fungsi dari parameter θ
yang didefinisikan sebagai
L(θ | t) = f (t; θ)
dinamakan fungsi kebolehjadian.

Untuk data survival yang diasumsikan independen dan identik serta lengkap,
apabila ada t1 , t2 , . . . , tn observasi, fungsi kebolehjadian-nya adalah
n
Y
L(θ | t) = f (ti ; θ) (3.24)
i=1
Untuk data survival yang tidak lengkap, baik karena tersensor maupun terpotong,
fungsi kebolehjadian ditentukan sebagaimana berikut ini.
Data survival dengan kemungkinan tersensor kanan dapat direpresentasikan
sebagai pasangan nilai observasi survival dengan status tersensornya yaitu (ti , δi ),
i = 1, 2, . . . , n dengan
(
0 jika i tersensor
δi = (3.25)
1 jika i mendapatkan kejadian (event)
Dengan asumsi masing-masing (Ti , δi ) independen satu dengan yang lain,

fungsi likelihood untuk data tersensor kanan adalah:
n
Y
L(θ) ∝ f (ti ; θ)δi S(ti ; θ)1−δi (3.26)
i=1
dengan θ = (θ1 , . . . , θp ) adalah p parameter yang akan diestimasi; f (ti ; θ) adalah

fungsi densitas untuk i yang mendapatkan kejadian dan S(ti ; θ) adalah fungsi
survival untuk i yang tidak mendapatkan kejadian.
Fungsi log-likelihood untuk data tersensor kanan dari fungsi kebolehjadian
(3.26) adalah
n
X n
X
ℓ(θ) ∝ (δi ) log(f (ti ; θ)) + (1 − δi ) log(S(ti ; θ)) (3.27)
i=1 i=1
Untuk data yang mungkin memuat observasi lengkap, tersensor-kanan pada

titik waktu R dan terpotong-kiri pada titik waktu L, fungsi probabilitas maupun
fungsi survival pembentuk (3.26) kondisional terhadap probabilitas survive sam-

pai ke L, karena untuk observasi yang terpotong-kiri hanya terjadi bila t ≥ L
(Lihat Definisi 1.2, Bab 1) Untuk data yang tersensor-kanan tipe I, variabel indi-
kator δ ditentukan sebagai berikut
(
0 jika ti > R
δi = (3.28)
1 jika ti ≤ R
atau ditulis dengan fungsi indikator, δi = I(ti ≤ R).
Fungsi kebolehjadian-nya adalah
n δ 1−δi
Y f (ti ; θ) i S(ti ; θ)
L(θ) ∝ (3.29)
i=1
S(L) S(L)
Dengan cara yang sama fungsi kebolehjadian untuk observasi yang merupak-
an kombinasi dari terpotong-kiri, tersensor-kanan, terpotong-kanan, tersensor-kiri
dan observasi yang lengkap dapat disusun.
Untuk mendapatkan estimasi dari θ dapat digunakan metode kebolehjadian
maksimum (MLE: Maximum Likelihood Estimation).
Definisi 3.2
Estimasi kebolehjadian Maksimum θ, ditulis θ̂ adalah (θ̂1 , . . . , θ̂p ) yang memak-
simumkan L(θ):
Ł(θ̂) = max L(θ) (3.30)
θ
Pengerjaan terkait derivatif lebih mudah dilakukan pada log(L(θ)) atau log-
likehood, dinotasikan dengan ℓ(θ), dibandingkan pada L(θ). Karena fungsi log
merupakan fungsi yang naik tegas (strictly increasing), maka θ̂ yang memaksi-
mumkan ℓ(θ) juga memaksimumkan L(θ), sehingga estimasi kebolehjadian mak-
simum dapat diperoleh dari
ℓ(θ̂) = max ℓ(θ) (3.31)
θ
Untuk mendapatkan MLE θ̂ perlu dihitung terlebih dahulu titik kritis dari ℓ(θ̂)
melalui penyelesaian
∂ℓ(θ)
= 0, j = 1, 2, . . . , p (3.32)
∂θj
Apabila dapat diperoleh penyelesaian dari (3.32), perlu diperiksa apakah θ̂ me-
mang memaksimalkan ℓ(θ).
Untuk permasalahan yang tidak dapat diselesaikan secara analitis, metode nu-
merik seperti misalnya metode Newton-Rhapson dapat digunakan untuk mencari
θ̂.
Contoh 3.3
Carilah estimator untuk parameter λ pada model survival eksponensial yang datanya dapat
terkena sensor-kanan.
Jawab:
Fungsi kebolehjadian untuk parameter λ dengan diketahui data berdistribusi eksponensial
adalah:
n
(λ exp(−λti ))δi (exp(−λti ))1−δi
Y
L(λ) =
i=1
Yn
= λδi exp(−λti )
i=1
sehingga fungsi log-likelihood nya adalah

n
X n
X
ℓ(λ) = log λ δi − λ ti
i=1 i=1
Untuk data yang tersensor kanan, ni=1 δi = k, dengan k adalah banyaknya data yang
P
lengkap. Untuk data survival yang lengkap k = n
Kemudian dicari titik kritis ℓ(λ) melalui ∂ℓ(λ)/∂λ = 0,
∂ (k log λ − λ ni=1 ti )
P
∂ℓ(λ)
=
∂λ ∂λ
n
k X
= − ti .
λ
i=1
Penyelesaian dari
n
k X
− ti = 0
λ
i=1
adalah
k
λ̂ = Pn .
i=1 ti
yang merupakan MLE dari λ
Pada contoh 3.3 telah diperoleh estimator titik dari parameter λ, bila diberikan
data survival berdistribusi eksponensial. Inferensi lebih lanjut dapat dilakukan
dengan menghitung interval konfidensi 100(1 − α)% berdasarkan statistik 2k λ̂/λ
yang berdistribusi chi-square dengan derajad bebas 2k. Rumus ini berlaku baik
untuk data lengkap maupun data yang memuat observasi tersensor-kanan.
Contoh 3.4
Diketahui waktu remisi (minggu) dari 21 pasien leukemia akut sebagai berikut: 1, 1, 2, 2,
3, 4, 4, 5, 5, 6, 8, 8, 9,10, 10, 12, 14, 16, 20, 24, 34
Hitung interval konfidensi 95% untuk λ dari data di atas, dengan asumsi data berdistribusi
eksponensial.
Jawab: Dihitung terlebih dahulu estimasi λ. Karena data di atas lengkap, k = n
n
λ̂ = Pn
i=1 ti
21
= = 0,1060606
198
Interval konfidensi 95% untuk λ
λ̂χ22n,α/2 λ̂χ22n,1−α/2
<λ<
2n 2n
0, 106 × 25, 999 0, 106 × 62, 777
<λ<
42 42
0, 066 < λ < 0, 156
Contoh 3.5
Dalam suatu penelitian 10 tikus percobaan terpapar (exposed) ke suatu jenis penyakit
kanker. Setelah 5 tikus mati percobaan dihentikan diperoleh data lama hidup tikus sbb:
4, 5, 8, 9, 10, 10+, 10+, 10+, 10+, 10+. (tanda + menunjukkan tersensor-kanan). Hitung
interval konfidensi 95% untuk λ, bila diasumsikan data berdistribusi eksponensial.
Jawab:
Estimasi untuk λ dalam hal ini adalah untuk data tersensor-kanan,
k
λ̂ = Pn
i=1 ti
5
= = 0,05814
86
Nilai estimasi ini menghasilkan nilai log-likelihood ℓ(0,05814) = −19,22455. Gam-
bar fungsi log=likehood ini dapat dilihat pada Gambar 3.9. Garis tegak putus-putus me-
nunjukkan nilai MLE dan log-likelihood maksimalnya.
Interval konfidensi 95% untuk λ
λ̂χ22k,α/2 λ̂χ22k,1−α/2
<λ<
2k 2k
0,05814 × 3,246973 0,05814 × 20,48318
<λ<
10 10
0,0189 < λ < 0,1191
−20
−22
−24
log−likelihood
−26
−28
−30
−32
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Gambar 3.9: Nilai MLE dan log-likelihood pada Contoh 3.5.
3.4 Latihan Bab 3

3.1. Tahan hidup suatu jenis lampu pijar diketahui berdistribusi eksponensial
dengan hazard 0,001 kerusakan per jam penggunaan
(a) Hitung mean tahan hidup lampu pijar tersebut!
(b) Hitung median tahan hidup lampu pijar tersebut!
(c) Berapa probabilitas lampu pijar tersebut masih hidup setelah 2.000
jam penggunaan?
3.2. Lama (dalam satuan hari) berkembangnya tumor pada populasi tikus per-
cobaan yang terpapar (exposed) oleh suatu zat penyebab kanker diketahui
berdistribusi Weibull dengan α = 2 dan λ =0,001
(a) Hitung probabilitas seekor tikus yang telah terpapar belum terkena tu-
mor pada hari ke 30
√
(b) Hitung mean lama hari sampai terkena tumor (Γ(0,5) = π)
(c) Hitung hazard rate pada hari ke 30
(d) Hitung median lama hari sampai terkena tumor
3.3. Distribusi Eksponensial dua parameter, biasa digunakan dalam permasalah-
an garansi, mempunyai densitas
(
λ exp(−λ(t − G)) t ≥ G
f (t) =
0 t<G
dengan G adalah waktu garansi.
(a) Carilah fungsi Survival dan fungsi hazard nya

(b) Carilah mean dan median nya
3.4. Lihat kembali pada matakuliah

P Pengantar Statistika Matematika. Tunjuk-
kanlah bahwa bila λ̂ = n/ ti dengan ti berdistribusi eksponensial dan
independen, maka statistik 2nλ̂/λ akan berdistribusi chi-square dengan de-
rajad bebas 2n!
3.5. Diketahui data antar kejadian sebagai berikut: 3, 4, 4, 8, 8+, 9+, 10, 12+, 18,
dengan ”+” menunjukkan data tersensor kanan.
(a) Dengan menganggap data berdistribusi eksponensial dengan fungsi

hazard h(t) = λ, estimasilah parameter λ
(b) Gambarlah fungsi Survival dengan menggunakan hasil estimasi λ
(c) Hitung median survival time-nya
3.6. Merujuk pada Soal 1.4, Bab 1:
(a) Dengan mengasumsikan lama hidup berdistribusi eksponensial, hi-

tunglah estimasi fungsi hazard dari masing-masing kelompok yaitu
AG positive (notasikan dengan h1 (t)) dan AG negative (notasikan de-
ngan h2 (t));
(b) Buatlah sket grafik fungsi survival untuk AG positive maupun AG ne-
gative pada satu gambar dengan skala yang sama. Interpretasikan ha-
silnya.
3.7. Carilah median distribusi Gompertz!
3.8. Tunjukkanlah, apabila T berdistribusi Weibull, maka Y = log(T ) yang

terpotong-kiri pada T > 0 akan berdistribusi Gompertz!
3.9. Carilah median dan mean distribusi log-logistik!

4
Metode Non-parametrik dan
Uji-LogRank

dapat:
4.1. Menjelaskan perbedaan metode non-parametrik dan parametrik dalam ana-
lisis data survival
4.2. Melakukan estimasi Kaplan-Meier untuk fungsi survival dan menjelaskan
teori yang mendasarinya
4.3. Melakukan estimasi Nelson-Aalen untuk fungsi hazard kumulatif dan men-
jelaskan teori yang mendasarinya
4.4. Menggunakan Kaplan-Meier dan Nelson-Aalen dalam analisis data survival
4.5. Menjelaskan perlunya pembandingan fungsi survival dalam analisis data
survival
4.6. Melakukan dan menggunakan metode log-rank test dan teori yang menda-
sarinya
4.2 Kaplan-Meier
Untuk mengestimasi S(t) dapat digunakan estimator Kaplan-Meier atau sering
juga disebut sebagai Product-Limit estimator sebagai berikut:
(
1 jika t < t1
Ŝ(t) = Q di
(4.1)
ti ≤t (1 − Yi ) jika ti ≤ t
35
4.2. Kaplan-Meier 36
dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang beresi-
ko (number at risk) Estimator Kaplan-Meier merupakan fungsi tangga yang turun
pada saat ada event.
Dasar pemikiran sstimator Kaplan-Meier dapat dijelaskan seperti pada Gam-
bar 4.1. Misalkan event yang menjadi perhatian adalah meninggal (M), dengan
origin mulai dari waktu 0 dan diperoleh waktu kronologis terjadinya event pada
t1 , t2 dan t3 . Pada saat t1 , peluang meninggal dengan diketahui kondisi pada saat
waktu 0 adalah π1 , dan peluang hidup (H) atau survive adalah 1 − π1 . Pada saat t2 ,
peluang meninggal dengan diketahui kondisi pada saat t1 adalah π2 , dan peluang
meninggal 1 − π2 . Demikian pula dengan π3 dan 1 − π3 . Probabilitas mening-
gal π1 , π2 , dan π3 dapat dipandang sebagai probabilitas binomial namun dengan
probabilitas sukses yang berubah-ubah menurut waktu.
Peluang survive sampai waktu t3 adalah
(1 − π1 )(1 − π2 )(1 − π3 ),
yaitu produk dari masing-masing peluang bersyarat mulai dari 0 sampai dengan
t3 .
Estimator Kaplan-Meier adalah non-parametrik dalam artian tidak mengasum-
sikan banyaknya parameter yang berhingga. Banyaknya parameter atau kuantitas
yang akan diestimasi dalam Kaplan-Meier adalah sebanyak titik waktu di mana
event terjadi.
Untuk mengestimasi πi ; i = 1, 2, . . . dapat digunakan proporsi meninggal de-
ngan diberikan banyaknya yang masih hidup pada saat sebelum terjadinya event,
seperti halnya estimator untuk peluang sukses pada binomial. Apabila di adalah
banyaknya yang meninggal pada saat ti dan Yi adalah banyaknya yang masih hi-
dup, tepat sebelum saat ti , maka estimator untuk πi adalah di /Yi dan estimator
untuk 1 − πi adalah 1 − di /Yi . Estimasi untuk survivesampai waktu k tertentu
menjadi
(1 − d1 /Y1 )(1 − d2 /Y2 )(1 − d3 /Y3 ) . . . (1 − dk /Yk )
dan apabila tk ≤ t, dengan t ≥ adalah bilangan kontinu, maka estimasi untuk
survive sampai t ini dapat ditulis seperti estimator Kaplan-Meier (4.1).
Untuk melakukan inferensi tentang S(t) menggunakan Ŝ(t) Kaplan-Meier,
perlu dihitung terlebih dahulu standard error atau variansi dari S(t). Variansi dari
estimator KM Ŝ(t) sering disebut sebagai Greenwood’s formula
X di
var[Ŝ(t)] = Ŝ(t)2 (4.2)
Y (Y − di )
t ≤t i i
i
atau dapat digunakan rumus berikut sebagai alternatif

[1 − Ŝ(t)]
var[Ŝ(t)] = Ŝ(t)2 (4.3)
Y (t)
4.2. Kaplan-Meier 37
M: meninggal
M H: hidup
π1 M
π2
1−
π1
H M
1− π3
π2
H1
−π
3
H
0 t1 t2 t3
waktu
Gambar 4.1: Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen
Tabel 4.1: Tabel Estimasi Kaplan-Meier Contoh 4.1
t Y d Ŝ(t) se[Ŝ(t)]
3
6 21 3 1 − 3/21 = 0,857 0,8572 (21)(18) = 0,0764
7 17 1 (1 − 1/17) × 0,857 = 0,807 0,8072 . . . = 0,0869
10 15 1 (1 − 1/15) × 0,807 = 0,753 0,7532 . . . = 0,0963
13 12 1 (1 − 1/12) × 0,753 = 0,690 0,6902 . . . = 0,1068
16 11 1 (1 − 1/11) × 0,690 = 0,627 0,6272 . . . = 0,1141
22 7 1 (1 − 1/7) × 0,627 = 0,538 0,5382 . . . = 0,1282
23 6 1 (1 − 1/6) × 0,538 = 0,448 0,4482 . . . = 0,1346
Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normal

Ŝ(t) ± 1,96 × se[Ŝ(t)].
Contoh 4.1
Diperoleh data dari studi tentang pasien leukemia seperti pada Contoh 1.7, Bab 1. Buatlah
Estimasi Kaplan-Meier untuk perawatan 6-MP saja.
Jawab:
Pertama, data waktu diurutkan dan dihitung frekuensi banyaknya individu yang beresiko
(belum mendapatkan event) serta banyaknya event pada waktu tersebut. Estimasi Ŝ(t)
kemudian dapat dihitung menggunakan persamaan (4.1) dan var[Ŝ(t)] dengan persamaan
(4.2). Hasilnya dapat dilihat pada Tabel 4.1. Plot untuk estimasi Kaplan-Meier yang ber-
upa fungsi tangga dapat dibuat seperti Gambar 4.2. Seperti terlihat pada Gambar, tangga
akan turun ketika terjadi event saja. Garis pendek tegak pada grafik menunjukkan ob-
4.3. Nelson-Aalen 38
1.0
0.8
Estimasi S(t) KM
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30 35
waktu
Gambar 4.2: Grafik estimasi Kaplan-Meier Contoh 4.1
servasi yang tersensor-kanan. Paket program statistika standar biasanya dapat digunakan
untuk mengestimasi KM dan grafiknya.
4.3 Nelson-Aalen
Estimator Nelson-Aalen digunakan untuk mengestimasi fungsi hazard kumulatif,
didefinisikan sebagai berikut:
(
0 jika t < t1
Ĥ(t) = P di
(4.4)
ti ≤t Yi jika ti ≤ t
dengan variansi
X di
ˆ Ĥ(t)) =
Var( (4.5)
Y2
t ≤t i
i
Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normal

Ĥ(t) ± 1,96 × se[Ĥ(t)].
Prinsip konstruksi estimator Nelson-Aalen sama seperti halnya Kaplan-Meier
(lihat Gambar 4.1). Estimator ini merupakan estimator non-parametrik yang
Tabel 4.2: Tabel estimasi Nelson-Aalen untuk H(t) dan S(t) Contoh 4.2
t Y d Ĥ(t) Ŝ(t) = exp(−Ĥ(t))

6 21 3 3/21 = 0,143 0,867
7 17 1 1/17 + 0,143 = 0,202 0,817
10 15 1 1/15 + 0,202 = 0,269 0,764
13 12 1 1/12 + 0,269 = 0,352 0,703
16 11 1 1/11 + 0,352 = 0,443 0,642
22 7 1 1/7 + 0,443 = 0,586 0,557
23 6 1 1/6 + 0,586 = 0,753 0,471
mengestimasi kuantitasi yang tidak diketahui pada saat terjadinya event. Dalam
hal ini kuantitas yang tidak diketahui adalah peluang bersyarat dengan kondisi
sebelum event terjadi atau hazard nya. Apabila estimasi hazard ini dijumlahkan
sampai waktu tk ≤ t tertentu, maka kuantitas ini adalah estimasi hazard kumulatif
yang dirumuskan sebagai estimator Nelson-Aalen 4.4.
Estimasi Nelson-Aalen dapat digunakan untuk mengestimasi S(t) dengan
menggunakan hubungan H(t) dengan S(t), yaitu S(t) = exp(−H(t)).
Contoh 4.2
Menggunakan data yang sama seperti Contoh 4.1 untuk perawatan 6-MP saja (data Con-
toh 1.7, Bab 1), hitung Estimasi fungsi hazard kumulatif menggunakan Nelson-Aalen dan
estimasi fungsi survivalnya.
Jawab:
Disusun tabel seperti pada Tabel Kaplan-Meier contoh 4.1. Gunakan persamaan (4.4)
untuk menghitung Ĥ(t). Hasilnya adalah seperti pada Tabel 4.2. Plot untuk estimasi
Nelson-Aalen dapat dilihat pada Gambar 4.3.
Dapat dibandingkan nilai estimasi survival yang diperoleh dengan Nelson-Aalen se-
lalu lebih besar dari nilai estimasi yang diperoleh dari Kaplan-Meier (Lihat Latihan Soal
4.2).
Estimasi Kaplan-Meier maupun Nelson-Aalen dapat juga digunakan untuk

membandingkan dua atau lebih kurva survival, sehingga secara deskriptif dapat
dilihat dan disimpulkan kurva mana yang lebih survive dibandingkan yang lain.
Contoh 4.3
Hitunglah estimasi Kaplan-Meier untuk data leukemia Contoh 1.7, Bab 1, untuk kelom-
pok placebo. Kemudian gambarlah pada tempat yang sama dengan kelompok 6-MP yang
sudah dikerjakan pada Contoh 4.1.
Jawab:
Estimasi Kaplan-Meier untuk kelompok placebo adalah seperti pada Tabel 4.3.
0.6
estimasi H(t)
0.4
0.2
0.0
0 5 10 15 20 25 30 35
waktu
Gambar 4.3: Grafik estimasi Nelson-Aalen Contoh 4.2

1.0
0.8
estimasi S(t)
0.6
6−MP
0.4
0.2
placebo
0.0
0 5 10 15 20 25 30 35
waktu
Gambar 4.4: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data
tersensor kanan.
Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar
4.4. Membandingkan Dua Fungsi Survival 41
Tabel 4.3: Estimasi Kaplan-Meier untuk Kelompok Placebo
t Y d Ŝ(t)
1 21 2 0,9048
2 19 2 0,8095
3 17 1 0,7619
4 16 2 0,6667
5 14 2 0,5714
8 12 4 0,3810
11 8 2 0,2857
12 6 2 0,1905
15 4 1 0,1429
17 3 1 0,0952
22 2 1 0,0476
23 1 1 0,0000
4.4. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggi
dibandingkan grup placebo.
Dalam Contoh 4.3, perbandingan hanya dilakukan secara deskriptif menggu-

nakan grafik estimasi Kaplan-Meier fungsi S(t). Pengambilan kesimpulan atau
inferensi statistik dapat pula dilakukan untuk membandingkan kurva S(t) seperti
yang akan dibahas pada bagian berikut.
4.4 Membandingkan Dua Fungsi Survival

Seperti halnya permasalahan inferensi statistik yang sudah dikenal, misalnya in-
ferensi mean dua populasi dalam kuliah Metode Statistika, diperlukan prosedur
uji yang dapat menyatakan apakah dua fungsi survival berbeda. Untuk uji dua
mean, dapat digunakan misalnya t-test atau Z-test. Sedangkan untuk menguji
atau membandingkan dua kurva survival atau lebih untuk data yang tidak tersen-
sor dapat digunakan beberapa Metode Non-parametrik seperti metode Wilcoxon,
Mann-Whitney dan Sign test dapat digunakan. Sedangkan untuk data tersensor
prosedur yang dapat digunakan diantaranya: Gehan’s generalized Wilcoxon test,
the Cox-Mantel test, the logrank test, Peto and Peto’s generalized Wilcoxon test,
Cox’s F-test, Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logrank
test (1972), Peto and Peto’s generalized Wilcoxon test, dan Cox’s F-test. Satu
metode yang akan dibahas dalam bagian ini adalah Uji Logrank.
Hipotesis nol untuk uji ini adalah H0 : S1 (t) = S2 (t) dengan hipotesis alter-
natif
H1 : S1 (t) > S2 (t)

H1 : S1 (t) < S2 (t)
H1 : S1 (t) 6= S2 (t)
Uji Logrank didasarkan pada banyaknya observed dan expected event pada setiap
event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik
pengujinya adalah:
(O1 − E1 )2 (O2 − E2 )2
W = + (4.6)
E1 E2
dengan W ∼ χ2 (df = 1). H0 ditolak dengan tingkat signifikasni α bila W >
χ2 (1 − α, df = 1).
Contoh 4.4
Merujuk ke Contoh 4.3, akan diuji apakah fungsi survival grup terapi berbeda dengan
grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 4.4 untuk digunakan dalam
penghitungan 4.6. Ekspektasi e1 dan e2 diperoleh dengan cara mengalikan probabilitas
kematian pada tiap-tiap grup (Y1 /(Y1 + Y2 ) dan Y2 /(Y1 + Y2 ) ) dikalikan total kejadian
(d1 + d2 ), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada
baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup.
Diperoleh statistik
(O1 − E1 )2 (O2 − E2 )2
W = +
E1 E2
(9 − 19, 26)2 (21 − 10, 74)2
= + = 15,267
19, 26 10, 74
yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup
kecil. jadi dapat disimpulkan H0 ditolak atau dua kurva survival tersebut berbeda.
4.5 Latihan Bab 4

4.1. Merujuk data soal Latihan Bab 3 no. 5
(a) Hitung estimasi fungsi survival menggunakan Kaplan-Meier

(b) Gambarlah estimasi Kaplan Meier di atas grafik fungsi survival eks-
ponensial yang dibuat pada soal Latihan Bab 3 no. 5
(c) Hitunglah median survival time menggunakan Kaplan-Meier
Tabel 4.4: Penghitungan untuk Uji log-rank
t d1 d2 Y1 Y2 e1 e2
1 0 2 21 21 (21/42) × 2 (21/42) × 2
2 0 2 21 19 (21/40) × 2 (19/40) × 2
3 0 1 21 17 (21/38) × 1 (17/38) × 1
4 0 2 21 16 (21/37) × 2 (16/37) × 2
5 0 2 21 14 (21/35) × 2 (14/35) × 2
6 3 0 21 12 (21/33) × 3 (12/33) × 3
7 1 0 17 12 (17/29) × 1 (12/29) × 1
8 0 4 16 12 (16/28) × 4 (12/28) × 4
10 1 0 15 8 (15/23) × 1 (8/23) × 1
11 0 2 13 8 (13/21) × 2 (8/21) × 2
12 0 2 12 6 (12/18) × 2 (6/18) × 2
13 1 0 12 4 (12/16) × 1 (4/16) × 1
15 0 1 11 4 (11/15) × 1 (4/15) × 1
16 1 0 11 3 (11/14) × 1 (3/14) × 1
17 0 1 10 3 (10/13) × 1 (3/13) × 1
22 1 1 7 2 (7/9) × 2 (2/9) × 2
23 1 1 6 1 (6/7) × 2 (1/7) × 2
Total 9 21 19,26 10,74
4.2. Estimasi fungsi survival dapat diperoleh dari estimator Nelson-Aalen ber-
dasarkan hubungan antara S(t) dengan H(t). Apabila estimasi S(t) meng-
gunakan estimator Nelson-Aalen dinotasikan sebagai ŜN A (t), dan esti-
masi S(t) Kaplan-Meier dinotasikan sebagai ŜKM (t), tunjukkan bahwa
ŜKM (t) ≤ ŜN A (t), untuk semua t.
4.3. Dalam suatu kecelakaan di pusat listrik tenaga nuklir, 10 pekerja terkena
radiasi. Dengan menganggap origin (waktu 0 ) adalah saat kecelakaan, ter-
dapat satu meninggal pada waktu ke-2, satu meninggal pada waktu ke-4,
dan x tidak diketahui nasibnya (censored) pada saat ke-3. Jika diketahui
Estimasi Kaplan-Meier Ŝ(4) = 0,75. Hitung x!
4.4. Modifikasilah rumus estimasi Nelson-Aalen bila subyek semua mendapat-

kan event dan tidak ada yang tersensor dan tidak ada yang mendapatkan
event pada saat yang sama! Menggunakan rumus tersebut, jika diketahui
ada n subyek seperti disyaratkan di atas, dan diketahui pada saat kemati-
an yang ke-9 estimasi Nelson-Aalen adalah 0,511 dan pada saat kematian
yang ke-10 estimasinya 0,588; Hitunglah estimasilah nilai fungsi survival
pada saat kematian yang ke-3!
4.5. Dalam suatu penelitian 300 tikus diamati mulai lahir. Tambahan 20 ekor
tikus mulai diamati pada saat usia 2 hari dan 30 lagi mulai diamati saat
berusia 4 hari. Ada 6 meninggal pada usia 1; 10 pada usia 3; 10 pada usia
4, a pada usia 5; b pada usia 9 dan 6 pada usia 12. Diketahui pula 45 tikus
tidak diketahui nasibnya pada usia 7; 35 tidak diketahui nasibnya pada usia
10 dan 15 tidak diketahui nasibnya pada usia 13. Diperoleh hasil Kaplan-
Meier sebagai berikut: Ŝ(7) = 0,892 dan Ŝ(13) = 0,856. Hitung a dan
b!
4.6. Diketahui data survival sebagai berikut:

grup 1 : 5 1 2 2 7 6
grup 2 : 8+ 10 4+ 4 3+
dengan ”+” adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan

Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan
menggunakan logrank test (α = 0,025)
4.7. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik.
Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kro-
nis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kro-
nis (grup 1) diperoleh data
Grup 1 (n = 25) Grup 2 (n = 25)

12,3+, 5,4, 8,2, 12,2+, 11,7, 5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1,
10,0, 5,7, 9,8, 2,6, 11,0, 9,2, 1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6,
12,1+, 6,6, 2,2, 1,8, 10,2, 10,7, 2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2,
11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8, 8,8, 7,8, 4,7, 3,9
3,0
tanda + menunjukkan tersensor kanan

gambarlah estimasi fungsinya
(b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggu-
nakan logrank test (α = 0,025)
5
Model Regresi Parametrik

dapat:
1. Menjelaskan perlunya model regresi untuk data survival
2. Menjelaskan beberapa macam model regresi untuk data survival
3. Menjelaskan hubungan dan perbedaan Model Regresi Survival Dipercepat,

Model Regresi Hazard Proporsional dan Model Regresi Hazard Aditif
4. Menjelaskan prinsip estimasi parameter dalam model Regresi Survival Pa-

rametrik
5. Melakukan analisis data survival menggunakan model Regresi Survival Di-

percepat Parametrik
5.2 Variabel Independen dalam Model

Data survival, seperti halnya data yang diperoleh dari berbagai macam penelitian
maupun permasalahan nyata, biasanya melibatkan lebih dari satu variabel. Data
dengan satu variabel kategorik, seperti pada Bab 4.4 sebenarnya adalah data su-
rvival dengan satu variabel independen. Apabila variabel independen lebih dari
satu, misalnya data penyapihan (weaning data) seperti dalam contoh 1.9 Bab 1,
maka untuk melakukan analisis data survival pada data seperti itu perlu digunakan
model regresi.
Dalam model ini, diberikan nilai p variabel independen (variabel penjelas, ko-
variat) X = (x1 , x2 , . . . , xp ) untuk tiap-tiap individu atau unit sampel. Variabel
45
5.3. Model Regresi Parametrik 46
independen x dipandang mempengaruhi data survival, misalnya sebagai (i) per-

lakuan; (ii) karakteristik dari individu; (iii) variabel eksternal. Sebagai contoh
adalah data penderita leukemia yang disebutkan pada Contoh 1.2 Bab 1. Penga-
ruh perlakuan 6-MP dan placebo terhadap lama kambuh leukemia. Dalam data
penyapihan (Contoh 1.9 Bab 1, variabel-variabel independen yang ada merupak-
an karakteristik dari ibu. Variabel eksternal adalah segala informasi di luar indivi-
du itu sendiri, namun diduga berpengaruh terhadap data survival. Misalnya adalah
pengaruh temperatur luar terhadap tahan hidup suatu komponen. Nilai variabel ini
sudah diperoleh sebelum atau pada saat origin (T = 0). Dalam pengembangan-
nya nilai variabel dapat berubah seiring berjalannya waktu, atau sering disebut
time-dependent covariate.
Dalam pemodelan regresi survival, pengaruh X dinyatakan sebagai skor se-
tiap individu, yaitu sebagai fungsi dari koefisien regresi atau parameter bersama
dengan X atau ditulis dengan ψ(X; θ), dengan θ adalah koefisien regresi atau
parameter. Misalnya
ψ(X; θ) = β0 + β1 x1 + β2 x2 + . . . + βp xp ,
ψ(x; θ) = exp(β0 + β1 x1 + β2 x2 + . . . + βp xp ),
dengan θ = (β0 , β1 , . . . , βp ). Untuk menyederhanakan penulisan dalam pemba-

hasan selanjutnya, ψ(X; θ) kadang ditulis sebagai ψ saja.
Pengaruh X terhadap survival dapat dimodelkan melalui hubungannya dengan
realisasi variabel random T atau melalui fungsi variabel random survival yaitu
S(t), h(t), H(t) atau f (t). Paling tidak ada tiga model regresi yang cukup populer
dalam analisis data survival melalui hubungan dengan fungi variabel random su-
rvival yaitu: Model Uji Hidup Dipercepat (Accelerated Failure Time model atau
AFT), Model Hazard Proportional atau PHM (Proportional Hazard Model) dan
Model Hazard Aditif. Sedangkan pemodelan melalui T sendiri diantaranya yang
populer adalah Model Regresi Data Tersensor dan Terpotong. Beberapa model
saling terkait dan kadang suatu model dapat digolongkan ke dalam lebih dari satu
jenis model. Dalam diktat ini model yang akan dibahas lebih lanjut adalah Model
Uji Hidup Dipercepat (Accelerated Failure Time model) Parametrik dan Model
Regresi Cox.
5.3 Model Regresi Parametrik

Pengertian parametrik di sini adalah bahwa banyaknya parameter dalam model re-
gresi berhingga banyaknya. Termasuk dalam model parametrik ini adalah Model
Uji Hidup dipercepat, sering disingkat sebagai AFT(accelerated failure time) dan
model hazard proporsional, sering disingkat sebagai PHM (proportional hazards

model).
Model dasar AFT, ditulis dalam S(t), f (t) maupun h(t) adalah sebagai beri-
kut,
S(t | ψ) = S0 (ψt) (5.1)
f (t | ψ) = ψf0 (ψt) (5.2)
h(t | ψ) = ψh0 (ψt) (5.3)
dengan indeks 0 menunjukkan fungsi baseline, yaitu bentuk fungsi ketika tanpa
variabel independen. Jadi S0 (t) adalah baseline survival, f0 (t) adalah baseline
fungsi densitas dan h0 (t) adalah baseline hazard. Baseline juga dapat diartikan
sebagai pembanding, yaitu pembanding antara survival ketika tanpa variabel in-
dependen dengan ketika variabel independen dimasukkan dalam model.
Contoh 5.1
Tulis model AFT apabila diketahui baseline nya adalah distribusi eksponensial.
Jawab:
Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turut
adalah
S0 (t) = exp(−λt); f0 (t) = λ exp(−λt); h0 (t) = λ
Model AFT untuk eksponensial berdasarkan rumusan (5.1), (5.2) dan (5.3),
S(t | ψ) = exp(−ψλt); f (t | ψ) = ψλ exp(−ψλt); h(t | ψ) = ψλ
Dipercepat (accelerated) dalam model AFT untuk Contoh 5.1 dapat digambarkan
seperti kurva survival pada Gambar 5.1. Untuk λ yang sama (sebagai baseline),
kurva survival akan menurun (kematian dipercepat) jika ψ > 1. Sebaliknya, ji-
ka ψ < 1 Kurva survival akan menaik (diperlambat). Dalam hal ini pengertian
dipercepat atau accelerated sebenarnya juga dapat decelerated tergantung faktor
pemercepat (acceleration factor) ψ. Untuk ψ = 1 bentuk kurva survival AFT
sama dengan baseline nya. Deskripsi yang sama juga dapat diperoleh dari fungsi
hazard Gambar 5.2. Jika ψ < 1, hazard nya akan rendah (atau survival nya tinggi),
dan sebaliknya. Untuk distribusi eksponensial sendiri, λ dapat dipandang sebagai
faktor pemercepat seperti halnya ψ.
1.0
0.8
0.6
S(t)
0.4
survival diperlambat
0.2
baseline survival
0.0
survival dipercepat
0 1 2 3 4 5
Gambar 5.1: Plot Fungsi Survival AFT Eksponensial

3.0
2.5
2.0
hazard dipercepat
h(t)
1.5
baseline hazard
1.0
hazard diperlambat
0.5
0.0
0 1 2 3 4
Gambar 5.2: Plot Fungsi Hazard AFT Eksponensial

Model yang lain adalah PHM, yang mempunyai fungsi survival, densitas dan
hazard sebagai berikut,
S(t | ψ) = S0 (t)ψ (5.4)
f (t | ψ) = ψS0 (t)ψ h0 (t), atau f (t | ψ) = ψS0 (t)ψ−1 f0 (t) (5.5)
h(t | ψ) = h0 (t)ψ (5.6)

Model PHM parametrik dibentuk berdasarkan rasio antara hazard yang memuat
variabel independen dengan baseline hazard yang selalu tetap atau proporsional
sepanjang waktu, yaitu sebesar ψ. Model hazard proporsional akan dibahas lebih
lanjut sebagai model regresi semi-parametrik Cox dalam Bab 6.
Contoh 5.2
Tulis model hazard proporsional apabila diketahui baseline nya adalah distribusi ekspo-
nensial.
Jawab:
Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turut
adalah
S0 (t) = exp(−λt); f0 (t) = λ exp(−λt); h0 (t) = λ
Model PHM untuk eksponensial berdasarkan rumusan (5.4), (5.5) dan (5.6),
S(t | ψ) = {exp(−λt)}ψ ; f (t | ψ) = ψλ {exp(−λt)}ψ ; h(t | ψ) = ψλ.
Terlihat bahwa distribusi eksponensial mempunyai bentuk fungsi hazard yang sama baik
untuk model AFT maupun PHM.
Estimasi parameter dapat diperoleh melalui MLE (maximum likelihood esti-

mation). Data yang diperoleh berupa (ti , δi , Xi ), i = 1, 2, . . . , n yang independen
satu sama lain, dengan ti adalah durasi atau waktu antar kejadian dan
(
0 jika i tersensor
δi =
1 jika i mendapatkan kejadian (event)
Bentuk likelihood apabila dimungkinkan data tersensor-kanan adalah
Yn
L(θ) ∝ f (ti , θ | Xi )δi S(ti , θ | Xi )1−δi (5.7)
i=1
dengan θ = (θ1 , . . . , θp ) adalah p parameter yang akan diestimasi; f (ti , θ | Xi )

adalah fungsi densitas untuk i yang mendapatkan kejadian dan mempunyai vari-
abel penjelas Xi ; S(ti , θ | Xi ) adalah fungsi survival untuk i yang tidak menda-
patkan kejadian (tersensor-kanan) dan mempunyai variabel penjelas Xi .
Untuk mencari nilai β dapat digunakan metode numerik seperti misalnya
Newton-Rhapson. Paket statistik standar biasanya memiliki fasilitas untuk meng-
estimasi parameter model regresi survival.
5.4. Model Non-Parametrik dan Semi-Parametrik 50
5.4 Model Non-Parametrik dan Semi-Parametrik

Pengertian non-parametrik di sini adalah banyaknya parameter dalam model re-
gresi tidak berhingga banyaknya. Namun terkadang model dapat dipandang se-
bagai kombinasi parameter yang berhingga banyaknya dan diekspresikan seca-
ra eksplisit dengan parameter yang dapat dianggap tidak berhingga banyaknya,
model seperti ini sering disebut sebagai Semi-Parametrik. Termasuk dalam mo-
del non-parametrik ini adalah (i) Model Rank Regression; (ii) Generalized Adi-
tif Models. Sedangkan satu model regresi Survival yang populer sebagai Semi-
Parametrik adalah Regresi Cox. Model regresi Cox akan dibahas lebih lanjut pada
Bab 6.
5.5 Model AFT log-linear

Dalam model regresi AFT, faktor pemercepat ψ ditentukan oleh nilai variabel in-
depanden X. Bentuk fungsi yang sering digunakan untuk ψ adalah eksponensial
karena bentuk ini menjamin nilai ψ selalu non-negatif. Sedangkan untuk meli-
hat pengaruh variabel independen atau karakteristik individual terhadap survival
digunakan kombinasi linier antara koefisien regresi dengan nilai variabel indepen-
den seperti yang telah dibahas pada bagian 5,2. Model regresi AFT dapat disusun
sebagai model linier, seperti model regresi linier biasa, dengan transformasi log
pada variabel random T .
Bentuk model AFT log-linear ini adalah sebagai berikut
log(T ) = µ + β1 X1 + β2 X2 + . . . + βp Xp + σǫ
= µ + Xβ + σǫ (5.8)
dengan µ adalah intersep dan σ adalah parameter skala, ǫ diasumsikan berdistri-

busi tertentu. Untuk selanjutnya kombinasi linier antara koefisien regresi dengan
nilai variabel independen β1 X1 + β2 X2 + . . . + βp Xp ditulis dengan Xβ, dengan
X adalah matriks variabel independen untuk semua individu berdimensi n × p,
dan β adalah matriks koefisien regresi berdimensi p × 1. Untuk keperluan tertentu
kadang model (5.8) dituliskan individual untuk i tertentu sebagai
log(Ti ) = µ + β1 Xi1 + β2 Xi2 + . . . + βp Xip + σǫi

= µ + Xi β + σǫi (5.9)
Dapat ditunjukkan bahwa Model (5.8) merupakan model AFT dan dapat di-
nyatakan sebagai (5.1), (5.2) dan (5.3). Untuk menandakan bahwa variabel inde-
penden X memodifikasi fungsi survival, densitas dan hazard dalam model AFT,
maka digunakan notasi S(t | X), f (t | X) dan h(t | X).
5.5. Model AFT log-linear 51
Menurut definisi fungsi survival, S(t | X) model AFT (5.8) dapat dituliskan
sebagai
S(t | X) = P (T > t)
= P (exp(µ + Xβ + σǫ) > t)
= P (exp(µ + σǫ) > t exp(−Xβ)) (5.10)
Apabila semua X bernilai 0 (baseline), maka −Xβ akan bernilai 0 pula, dan
exp(−Xβ) = 1, sehingga baseline survival untuk model AFT (5.8) adalah
S0 (t | X) = P (exp(µ + σǫ) > t) (5.11)
Sehingga hubungan antara survival AFT log-linear (5.10) dengan baseline survival
nya (5.11) adalah
S(t | X) = S0 (t exp(−Xβ)) (5.12)
seperti (5.1) dengan faktor pemercepat ψ = exp(−Xβ).
Fungsi hazard model AFT log-linear dapat diturunkan melalui hubungan fung-
si survival dengan fungsi hazard kumulatif H(t) = − log(S(t)) kemudian dideri-
vatifkan ke t untuk mendapatkan h(t | X)
h(t | X) = exp(−Xβ)h0 (t exp(−Xβ)) (5.13)
Model AFT (5.8) juga dapat dikarakterisasi berdasarkan distribusi dari ǫ.
S(t | X) = P (T > t)
= P (log(T ) > log(t))
= P (µ + Xβ + σǫ > log(t)) (5.14)

log(t) − µ − Xβ
= P ǫ> (5.15)
σ
Distribusi unutk ǫ dan T sebagai pasangannya beberapa di antaranya seperti yang
tercantum pada Tabel 5.1. Beberapa Model tersebut secara khusus dan lebih detail
akan dibahas dalam bagian selanjutnya dalam Bab ini.
Tabel 5.1: Distribusi T dan ǫ dalam AFT log-linear
Distribusi T Distribusi ǫ
Eeksponensial extreme value (1 parameter)
Weibull extreme value (2 parameter)
gamma log-gamma
log-logistik logistik
log-normal normal
5.6. Model Regresi Eksponensial 52
5.6 Model Regresi Eksponensial

Model regresi parametrik yang berdasar pada distribusi eksponensial dapat berupa
model AFT maupun PHM. Model regresi eksponensial dirumuskan dalam fungsi
hazard seperti berikut
h(t | x) = exp(Xβ) (5.16)
dengan β = (β1 , . . . , βp ) adalah parameter model regresi, X adalah variabel in-
dependen.
Fungsi likelihood β untuk model regresi eksponensial dapat diperoleh dari
(5.7) sebagai berikut
n
Y
L(β) = f (ti , θ | Xi )δi S(ti , θ | Xi )1−δi
i=1
n h iδi h i1−δi
eXi β exp(−eXi β t) exp −eXi β t
Y
=
i=1
n
eδi Xi β exp(−eXi β ti )
Y
= (5.17)
i=1
dengan Xi = (xi1 xi2 . . . xip ) adalah vektor kovariat untuk masing-masing indivi-
du, β = (β1 . . . βp )T adalah parameter regresi.
Contoh 5.3
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1, estimasilah parameter model regresi
survival eksponensial berikut ini,
h(t | x) = exp(β0 + X1 β1 ) (5.18)
dengan X1 bernilai 1 jika perlakuan 6-MP, 0 jika placebo.
Jawab:
Menggunakan bantuan paket statistik diperoleh estimasi parameter β seperti pada Tabel
5.2.
Tabel 5.2: Estimasi Parameter Model (5.18)
Variabel β̂ se(β̂)
ˆ
Intersep β0 = −2,16 0,218
x1 (6-MP) βˆ1 = −1,53 0,398
Dalam Tabel 5.2, terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap
kambuhnya leukemia, atau pemberian 6-MP mencegah kambuhnya leukemia. Kesimpul-
an ini sejalan dengan Contoh 4.3 Bab 4, yaitu bahwa perlakuan 6-MP mempunyai nilai
survival yang lebih besar dibandingkan dengan placebo.
5.7. Model Regresi Weibull 53
5.7 Model Regresi Weibull

Pengaruh variabel independen X dalam model regresi Weibull diekspresikan me-
lalui parameter skala λ = fλ (X; β), maupun parameter bentuk α = fα (X; β)
dengan bentuk fungsi eksponensial exp(βX).
Model dengan λ = fλ (X; β) = exp(Xβ) adalah yang sering dipakai, sehing-
ga fungsi survival untuk regresi Weibull adalah
S(t | X) = exp (−(fλ (X; β)t)α ) (5.19)

= exp (−(exp(Xβ)t)α ) (5.20)
Apabila variabel random survival T di-transformasikan menjadi Y = log T

maka, fungsi survival Y adalah
S(y | X) = exp (−(exp(Xβ)ey )α )

= exp (−(exp(y + Xβ))α )
= exp (−(exp(y + Xβ)α)) (5.21)
atau dapat dituliskan sebagai

y − Xβ
S(t | X) = exp − exp . (5.22)
σ
yang dikenal sebagai fungsi survival distribusi extreme value, dengan paramater
lokasi µ = −Xβ dan parameter skala σ = 1/α.
Fungsi likelihood model (5.22) disusun berdasarkan bentuk umum fungsi li-
kelihood (5.7), yaitu
n
Y
L(β, σ) = f (ti , θ | Xi )δi S(ti , θ | Xi )1−δi
i=1
n δi
1
Y y−µ y−µ
= exp − exp
i=1
σ σ σ
1−δi
y − βX
exp − exp . (5.23)
σ
Paket statistik standar menyediakan fasilitas untuk mengestimasi θ yang memak-

simumkan L(β, σ). Beberapa paket statistik, misalnya R dengan fungsi survreg()
dalam library survival, estimasi β̂ yang dihasilkan perlu dikalikan dengan −1,
karena spesifikasinya adalah berdasarkan µ = −Xβ, bukan µ = Xβ.
5.8. Model Regresi Log-normal 54
Tabel 5.3: Estimasi Parameter Model (5.24)
Variabel β̂ se(β̂)
ˆ
Intersep β0 = −2,248 0,166
x1 (6-MP) βˆ1 = −1,267 0,311
Contoh 5.4
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1 (atau merujuk Contoh 5.3) estima-
silah parameter model regresi survival Weibull
S(t | X) = exp (−(exp(β0 + β1 X1 ))t)α ) (5.24)
dengan X1 bernilai 1 jika perlakuan 6-MP, 0 jika placebo.

Jawab:
Menggunakan bantuan paket statistik diperoleh estimasi parameter β seperti pada Tabel
5.3. Terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap kambuhnya leu-
kemia, atau pemberian 6-MP mencegah kambuhnya leukemia (Tabel 5.3). Dibandingkan
dengan hasil contoh sebelumnya dengan model regresi eksponensial (Tabel 5.2), meski-
pun nilai estimasinya berbeda, kesimpulan yang diperoleh sejalan. Untuk model Weibull
ini diperoleh pula estimasi untuk α yaitu α̂ = 1,365758.
5.8 Model Regresi Log-normal

Variabel independen X dalam model regresi log-normal memodifikasi fungsi su-
rvival (3.13) melalui parameter µ(X) = Xβ, menjadi

log(t) − Xβ
S(t) = 1 − Φ (5.25)
σ
dengan Φ(x) adalah fungsi distribusi kumulatif Normal Standar.

Demikian pula dengan fungsi densitas nya menjadi

1 1 2
f (t) = √ exp − 2 (log(t) − Xβ) . (5.26)
tσ 2π 2σ
Model regresi log-normal dapat dipandang sebagai model linear log(T ), yaitu
log T = Xβ + σǫ (5.27)
dengan T berdistribusi log-normal dengan fungsi densitas (5.26), dan ǫ berdistri-

busi normal standar.
5.9. Model Regresi Log-logistik 55
5.9 Model Regresi Log-logistik

Variabel penjelas dalam model regresi log-logistik diekspresikan melalui parame-
ter λ(X) = exp(−Xβ) dalam model survival log-logistik (3.19) sebagai berikut
1
S(t | X) = (5.28)
1 + (exp(−Xβ)t)α
Pada suatu titik t0 tertentu, dapat dilihat rasio antara survive dan non-survive
S(t0 | X) 1
= (5.29)
1 − S(t0 | X) (exp(−Xβ)t)α
sebagai semacam odds ratio pada response biner. Rasio seperti (5.29) ini dapat
dihitung pada semua t, tergantung titik mana yang menjadi perhatian. Kemudian
apabila diambil log dari rasio tersebut maka akan diperoleh

S(t0 | X) 1
log = log
1 − S(t0 | X) (exp(−Xβ)t)α
= −α [log(exp(−Xβ)) + log(t)]
= −α(−Xβ) − α log(t)
= Xb − α log(t) (5.30)
dengan b = αβ.
Model regresi log-logistik merupakan salah satu model yang memenuhi sifat
proportional odds. Yaitu, apabila ada dua kelompok atau individu i dan j yang
berbeda, dan odds ratio keduanya adalah proporsional atau
S(t0 | Xi b) S(t0 | Xj b)
=φ (5.31)
1 − S(t0 | Xi b) 1 − S(t0 | Xj b)
dengan φ adalah konstan untuk semua t.
Likelihood dan estimasi parameter model ini dapat dirumuskan dari bentuk
umum fungsi likelihood (5.7), dengan mengganti fungsi survival dengan (5.28)
untuk data yang tersensor kanan; dan mengganti fungsi densitas dengan
f (t | X) = α(exp(−Xβ)t)α−1 [1 + (exp(−Xβ)t)α ]2 (5.32)
untuk observasi lengkap.
5.10 Identifikasi Model

Tabel 5.4 adalah ringkasan untuk mengidentifikasi distribusi model survival yang
sesuai, apabila diberikan data survival tertentu. Ringkasan ini untuk data univariat
(tanpa variabel independen) yang dapat menjadi dasar untuk identifikasi model
regresi survival.
5.10. Identifikasi Model 56
Tabel 5.4: Identifikasi Distribusi
log h(t) H(t) log H(t) Koefisien variasi

konstan? t linear? − 1?
Eksponensial Eksponensial
t linear? − t linear? < 1?
Gompertz Gompertz Gamma, Weibull
Log-normal
Log-logistik
log(t) − log(t) linear? −
linear? Weibull
Weibull
nonmonotonik− t linear > 1?
Log- asimtotik? Gamma, Weibull
normal Distribusi dgn Log-normal
Log- ekor Log-logistik
logistik eksponensial Compound
exponential
5.10.1 Menggunakan Probability-Plot

Identifikasi dan penilaian distribusi dapat dilakukan menggunakan p-plot (proba-
bility plot) sebagai berikut:
1. Pilih distribusi teoritis untuk t
2. Hitung estimasi fungsi distribusi kumulatif F̂ (t) sampel dari t
3. Plot t atau fungsi dari t dengan estimasi fungsi distribusi kumulatif nya
4. Fit garis lurus pada plot tersebut
Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui p-plot:
Distribusi eksponensial
1
plot garis lurus antara t dengan log[ ]
1 − F̂ (t)
Distribusi Weibull
" #
1 1 1
plot garis lurus antara log t dengan log + log log
λ α 1 − F̂ (t)
Distribusi Log-normal
plot garis lurus antara log t denganΦ−1 (F̂ (t))
5.10.2 Menggunakan Hazard-Plot

Hazard-plot (h-plot) lebih tepat digunakan dibandingkan p-plot jika ada data yang
tersensor. Langkah-lagkahnya adalah sebagai berikut:
1. Urutkan t mulai dari yang terkecil sampai yang terbesar.
2. Beri angka n untuk yang terkecil dan n − 1 untuk yang berikutnya sampai
yang terbesar diberi angka 1. Angka ini dinamakan K penomoran terbalik
(reserve-order numbers).
3. Hitung estimasi hazard 1/K, untuk data yang lengkap (tidak tersensor) saja.
4. Hitung Nilai hazard kumulatif
Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui h-plot:
Distribusi Eksponensial
plot garis lurus antara t dengan log[Ĥ(t)]
Distribusi Weibull
plot garis lurus antara log t dengan log[Ĥ(t)]
Distribusi Log-normal
plot garis lurus antara log t denganΦ−1 ([1 − e−Ĥ(t) ])
Nilai Ĥ(t) juga dapat menggunakan Nelson-Aalen.
5.11 Latihan Bab 5

5.1. Tulislah model AFT untuk model baseline survival dan hazard Weibull!
5.2. Diketahui baseline hazard function h(t) = θeαt , θ, α > 0, t ≥ 0.
(a) Tulislah model AFT dari baseline hazard function di atas, dengan satu
variabel penjelas
(
1 jika subyek adalah laki-laki
x=
0 jika subyek adalah perempuan
Tabel 5.5: Data Soal 5.6
i t status x1i x2i

1 1 meninggal 2 1
2 2 meninggal 1 1
3 3 tersensor-kanan 4 4
4 5 tersensor-kanan 8 8
(b) Buatlah grafik fungsi survival model AFT tersebut untuk masing-
masing kelompok laki-laki dan perempuan (dalam satu gambar), jika
diketahui β = 0,5
(c) Interpretasikan grafik tersebut!
5.3. Untuk T berdistribusi eksponensial, tunjukkan bahwa fungsi survival AFT

ekivalen dengan fungsi survival parametric proportional hazards (model
proportional hazards dengan h0 (t) konstan).
5.4. Apabila rasio antara dua fungsi hazard h(t | x1 ) dan h(t | x2 ) adalah kons-
tan sepanjang waktu t, maka dikatakan h(t | xj ) adalah Model hazard pro-
porsional (atau PHM : proportional hazard models). Tunjukkan bahwa mo-
del
p
!
X
λ1 (t | x) = λ(t) exp βj xj
j=1
adalah PHM, sedangkan

p
X
λ2 (t | x) = λ(t) + βj xj
j=1
adalah bukan PHM, jika diketahui λ(t) bukan fungsi konstan terhadap t.
5.5. Dengan menggunakan model regresi Weibull, estimasilah parameter regresi

h(t | X) = exp(Xβ), dengan T adalah lama waktu sampai rusaknya kom-
ponen elektrik dan X adalah voltase, pada data pada Tabel 1.2, Contoh 1.8
Bab 1!
5.6. Diberikan model hazard h(t | x) = β1 x1 + β2 x2 , dengan β1 dan β2 adalah

parameter regresi, T adalah usia meninggal. Dengan mengasumsikan dis-
tribusi eksponensial Carilah MLE β̂1 dan β̂2 , apabila diberikan data Tabel
5.5 ini dan hitunglah nilainya.
Tabel 5.6: Data Soal 5.7
Laki-laki Perempuan
Usia 100 125 150 100 125 150
50 13 12 85 3 12 49
51 11 21 95 7 13 53
52 8 8 105 8 13 69
53 10 20 113 12 16 61
54 8 11 109 12 15 60
55 13 22 126 8 12 68
56 19 16 142 11 11 96
57 9 19 145 5 19 97
58 17 23 155 5 17 93
59 14 28 182 9 14 96
5.7. Diberikan data mortalitas (usia kematian) antara 50-59 tahun dan informasi
tekanan darah sistolik untuk laki-laki maupun perempuan seperti pada Tabel
5.6.
(a) Tulislah model AFT Gompertz apabila diberikan x1 adalah 1 jika per-
empuan, 0 jika laki-laki; x2 adalah tekanan darah.
(b) Estimasilah parameter model AFT Gompertz
5.8. Durasi pemogokan buruh mengikuti model regresi hazard proporsional (pa-
rametrik) dengan baseline hazard konstan (berdistribusi eksponensial). Va-
riabel independen yang menjadi perhatian adalah indeks kondisi perburuhan
(terkait Upah minimum, tunjangan, asuransi, dst.). Apabila indeks bernilai
10, mean durasi pemogokan 0,2 tahun. Jika indeks bernilai 25, median du-
rasi pemogokan 0,04 tahun. Berapa peluang akan terjadi pemogokan selama
lebih dari satu tahun jika indeks kondisi perburuhan bernilai 5?
6
Regresi Cox

dapat:
6.1. Menjelaskan prinsip Partial Likelihood dalam estimasi parameter model

Regresi Cox
6.2. Melakukan analisis data survival menggunakan model Regresi Cox
6.3. Menjelaskan prinsip metode untuk data ties dalam regresi Cox
6.4. Menjelaskan prinsip stratifikasi dan non-proporsionalitas
6.2 Model dan Asumsi

Model Regresi Cox adalah model regresi hazard proporsional dengan fungsi ba-
seline hazard nya dimodelkan secara non-parametrik dan fungsi variabel inde-
pendennya dimodelkan secara parametrik. Sehingga model ini dikenal juga se-
bagai Cox proportional hazards model (Cox, 1975; Cox, 1972) atau Cox Semi-
parametric hazards model.
Regresi Cox dimodelkan sebagai berikut
h(t | x) = h0 (t)ψ(x, β) (6.1)
dengan x = (x1 , . . . , xp ) adalah vektor kovariat (variabel independen) dan β ′ =

(β1 , . . . , βp ) adalah parameter dari model regresi. Dalam regresi ini hazard untuk
tiap-tiap individu sama dengan baseline hazard h0 (t) apabila pengaruh variabel
60
6.2. Model dan Asumsi 61
0.6
0.5
0.4
S(t)
0.3
0.2
0.1
0.0
Gambar 6.1: Kurva hazard untuk dua grup atau individu yang berbeda, λ1 = 0, 1
dan λ2 = 0, 3
independen tidak diperhatikan, atau nilai x = (x1 , . . . , xp ) semuanya sama de-

ngan nol. Hazard dari masing-masing individu termodifikasi secara multiplikatif
oleh karakteristik masing-masing individu, yang diekspresikan dengan ψ(x, β).
Asumsi yang mendasari model ini adalah proporsionalitas. Asumsi ini dapat
digambarkan seperti pada Gambar 6.1. Misalkan ada dua grup atau dua individu
yang masing-masing mempunyai hazard λ1 = 0,1 dan λ2 = 0,3. Hazard ratio dari
kedua individu ini adalah λ2 /λ1 = 0,3/0,1 = 3. Nilai hazard ratio ini tetap atau
konstan atau proporsional sepanjang waktu. Asumsi hazard ratio yang konstan
inilah yang mendasari Regresi Cox.
Dalam asumsi hazard proporsional, semua individu dianggap mempunyai satu
baseline hazard yang sama yang kemudian nilainya menjadi berbeda atau termo-
difikasi sesuai karakteristik atau informasi pada masing-masing individu. Dalam
contoh hazard ratio di atas, jika baseline hazard nya adalah h0 (t) = 0,1 maka
individu pertama tidak memodifikasi hazardnya karena λ1 = 0,1, tetapi individu
kedua memodifikasi menjadi λ2 = 0,3.
Ilustrasi yang lain, misalnya baseline hazard pada satu populasi mengikuti ha-
zard distribusi Weibull dengan parameter α dan λ tertentu. Kemudian ada satu
kelompok yang termodifikasi nilai hazard nya menjadi 2 kalinya, sedangkan ke-
lompok yang lain menjadi 0,8 kali nya. Gambar hazard untuk populasi ini adalah
seperti pada Gambar 6.2. Garis utuh adalah baseline hazard h0 (t). Hazard ini
termodifikasi menjadi 2h0 (t) dan menjadi 0,8h0 (t). Meskipun hazardnya menjadi
berbeda namun rasio hazardnya selalu tetap, yaitu 2 untuk kelompok yang pertam
dan 0,8 untuk kelompok yang kedua.
Model hazard proporsional dapat dimodelkan secara paramatrik maupun non-
parametrik atau semi-parametrik. Model hazard proporsional semi-parametrik
sering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalah
fungsi hazard, survival dan hazard kumulatif untuk model regresi Cox.
h(t | X) = h0 (t)exp(Xβ) (6.2)
S(t | X) = S0 (t)exp(Xβ ) (6.3)
H(t | X) = H0 (t) exp(Xβ) (6.4)
dengan X, β, h0 , S0 dan H0 sama seperti yang didefinisikan pada model AFT.
6.3 Estimasi parameter

Estimasi parameter pada model Regresi didasarkan pada Partial Likelihood:
Y exp(xk β)
L(β) = P (6.5)
k∈D j∈Rk exp(xj β)
dengan x adalah vektor kovariat (variabel penjelas); β adalah parameter regresi

yang akan diestimasi; D adalah himpunan indeks j dari semua waktu kejadian
(semua tj yang mendapatkan kejadian); Rk adalah himpunan resiko (risk set) ,
semua individu (subyek) yang belum mendapatkan kejadian pada saat tertentu.
Sebagai ilustrasi untuk Partial Likelihood, misal dipunyai data survival seperti
pada Tabel 6.1. Data dalam Tabel tersebut terdiri atas t sebagai data survival, δ
adalah indikator tersensor-kanan, dan x variabel penjelas atau kovariat. Sedangk-
an ID adalah identitas atau nomor urut individu. Model yang menjadi perhatian
adalah
h(t | x) = h0 (t) exp(xβ) (6.6)
Data pada Tabel 6.1 dapat di-ilustrasikan seperti Gambar 6.3. Tiap individu
memiliki skor sebagai fungsi dari variabel penjelas yang dimiliki masing-masing.
5
4
h0(t)
3
2h0(t)
h(t)
2
0.8h0(t)
1
0
Gambar 6.2: Baseline hazard dan kurva hazard untuk dua grup yang berbeda,
λ1 = 0, 1 dan λ2 = 0, 3
Tabel 6.1: Contoh data survival untuk ilustrasi Partial Likelihood
ID t δ x
1 5 1 2,58
2 7 1 1,36
3 2 1 -0,54
4 4 0 3,30
ψ(1) = e2,58β e2,58β

e2,58β +e1,36β
ψ(2) = e1,36β e1,36β

e1,36β
ψ(3) = e-0,54β e-0,54β

e2,58β +e1,36β +e-0,54β +e3,30β
ψ(4) = e3,30β
2 4 5 7
waktu
Gambar 6.3: Ilustrasi untuk Partial Likelihood Data Tabel 6.6
Dalam regresi linear, skor adalah kombinasi linear dari variabel penjelas dengan
koefisien regresi. Demikian halnya dengan regresi Cox skor tersebut merupak-
an eksponensial kombinasi linear dari variabel penjelas dengan koefisien regresi,
yang dinotasikan dengan ψ. Sebagai contoh, individu ke-2 akan mempunyai skor
ψ(2) = exp(1,36β).
Himpunan resiko (risk set) dalam partial likelihood adalah himpunan semua
individu yang mempuunyai kemungkinan untu mendapatkan event tepat sebelum
suatu titik waktu. Sebagai contoh, lihat Gambar 6.3, pada saat t = 5, himpunan
resiko nya adalah individu 1 dan 2 saja (yang terlewati garis vertikal pada saat
t = 5. Mereka adalah individu yang masih mungkin untuk mendapatkan event
pada saat tepat sebelum t = 5 (limit dari kiri mendekati 5). Sedangkan individu
ke-3 sudah mendapatkan event sebelumnya, dan individu ke-4 tersensor sebelum
t = 5. Pada suatu titik waktu dapat dilihat rasio antara skor individu yang men-
dapatkan event pada titik waktu tersebut, dibandingkan dengan jumlahan skor in-
dividu dalam himpunan resiko. Sebagai contoh pada saat t = 5, rasio skor-nya
adalah
ψ(1)
.
psi(1) + ψ(2)
Rasio skor inilah yang menjadi dasar pembentukan partial likelihood.

Rumusan partial likelihood (6.5) menyatakan bahwa produk dari rasio skor
hanya dihitung pada saat ada event. Sehingga produk tersebut hanya berjalan
sebanyak event yang terjadi. Dalam ilustrasi ini hanya ada 3 event, yang berarti
hanya ada 3 rasio skor yang membentuk produk.
−1.5
−2.0
−2.5
log.likelihood(β)
−3.0
−3.5
−4.0
−4.5
−3 −2 −1 −0.655 0 1
Gambar 6.4: Fungsi Partial Likelihood (6.7)
Partial likelihood untuk data ilustrasi ini dapat disusun sebagai berikut,
ψ(3) ψ(1) ψ(2)

L(β) = × ×
ψ(1) + ψ(2) + ψ(3) + ψ(4) ψ(1) + ψ(2) ψ(2)
e-0,54β e2,58β e1,36β
= 2,58β × × (6.7)
e + e1,36β + e-0,54β + e3,30β e2,58β + e1,36β e1,36β
Gambar 6.4 adalah gambar fungsi log partial-likelihood terhadap parameter β.
Terlihat pada gambar tersebut bahwa nilai parameter β yang memaksimumkan
log partial-likelihood terletak pada ˆ(β) = -0,655, dengan nilai partial likelihood
log(L(-0,655)) = -1,575, atau partial likelihood sebesar L(-0,655) = 0,207. Nilai
ˆ(β) inilah yang menjadi estimasi untuk parameter dalam regresi Cox.
Banyak metode yang dapat digunakan untuk mencari estimator yang memak-
simalkan Partial Likelihood. Salah satu diantaranya adalah Metode Newton Rha-
pson. Metode ini memerlukan turunan pertama dan kedua fungsi Partial Likeli-
hood terhadap parameternya.
Dengan alasan yang sama seperti pada Bagian 3.3 Bab 3, log Partial Likeli-
hood lebih mudah dalam manipulasi dan komputasi dibandingkan dengan Partial
Likelihood nya sendiri.
Fungsi log Partial Likelihood ℓ(β) dapat diperoleh dari persamaan (6.5) seba-
gai berikut
!
X X X
ℓ(β) = xk β − log exp(xj β) (6.8)
k∈D k∈D j∈Rk
Turunan pertama dari ℓ(β) atau sering disebut sebagai score function adalah
P
X X j∈R x(j)h exp(xj β)
Uh (β) = x(k)h − Pk (6.9)
k∈D k∈D j∈R k
exp(x j β)
dengan h = 1, . . . , p, yaitu banyaknya parameter dalam model.

Negatif turunan kedua dari ℓ(β) atau sering disebut sebagai information ma-
trix nya adalah
P "P #
X j∈R xjg xjh exp(xj β) X j∈R x jg exp(x j β)
Igh (β) = Pk − P k
k∈D j∈Rk exp(x j β) k∈D j∈Rk exp(xj β)
"P #
j∈Rk xjh exp(xj β)
P (6.10)
j∈Rk exp(xj β)
dengan g, h = 1, . . . , p
Untuk menyederhanakan penulisan didefinisikan
P
j∈Rk x(j)h exp(xj β)
Akh (β) = P (6.11)
j∈Rk exp(xj β)
sehingga turunan pertama dari ℓ(β) dapat ditulis sebagai

X
Uh (β) = x(k)h − Akh (β) (6.12)
k∈D
dan turunan kedua dari ℓ(β) dapat ditulis sebagai

"P #
X j∈Rk x jg x jh exp(x j β)
Igh (β) = P − Akg (β)Akh (β) (6.13)
k∈D j∈R k
exp(x j β)
Algoritma Newton-Rhapson untuk estimasi parameter berdasarkan log

Partial-Likelihood adalah sebagai berikut
(0)
1. Mulai dengan nilai awal β̂
2. Pada iterasi ke-k, nilai estimasi Estimasi di-update
(k+1) (k) (k) −1 (k)
β̂ = β̂ + I(β̂ ) U(β̂ )
6.4. Ties dalam Partial Likelihood 67
(k+1) (k)
3. Iterasi dihentikan dengan kriteria kekonvergenan ℓ(β̂ ) ≈ ℓ(β̂ )
4. Diperoleh estimasi β̂ dan variansinya V̂(β̂) = I(β̂)−1
Beberapa paket statistik standar seperti SAS, S-PLUS, SPSS, MINITAB, STA-
TA dan R menyediakan fasilitas untuk melakukan estimasi Partial Likelihood se-
perti tersebut di atas.
6.4 Ties dalam Partial Likelihood

Bilamana terdapat ties (data yang mempunyai nilai survival yang sama), Partial
Likelihood akan bermasalah dalam menentukan himpunan resiko nya. Untuk itu
perlu modifikasi dari rumusan Partial Likelihood (6.5).
Diberikan data survival: t1 < t2 < . . . < tn(D) dengan n(D) adalah banyaknya
waktu t yang mendapatkan kejadian; dk adalah banyaknya kejadian saat tk (jika
dk ¿1 dinamakanP ties); Dk adalah himpunan individu yang mendapatkan kejadian
saat tk ; Sk = j∈D xj adalah jumlahan nilai variabel x pada saat tk .
Metode yang dapat digunakan untuk mengatasi ties adalah metode Breslow,
Efron dan Exact (metode diskret). Dalam diktat ini akan dibahas metode Breslow
dan Efron.
Partial Likelihood dalam metode Breslow adalah sebagai berikut:
Y exp(Sk β)
L(β) = hP id k (6.14)
k∈D
j∈Rk exp(x j β)
Untuk metode Efron modifikasii nya adalah sebagai berikut:

Y exp(Sk β)
L(β) = Q dk h P i (6.15)
j−1 P
k∈D j=1 i∈Rk exp(xi β) − dk i∈Dk exp(xi β)
6.5 Interpretasi Parameter

Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Mi-
salkan diberikan model regresi Cox dengan satu variabel independen
h(t | x) = h0 (t) exp(xβ)
dengan
(
0 placebo
x =
1 obat baru
6.6. Stratifikasi 68
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
h(t | x = 1)
HR =
h(t | x = 0)
h0 (t) exp(1 × β)
=
h0 (t) exp(0 × β)
= exp(β)
Interpretasinya, jika β = 0 maka obat baru dan placebo sama efeknya. Namun
jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo
(resiko kematian lebih rendah). Kemudian jika β > 0 obat baru memberikan efek
yang lebih buruk daripada placebo (resiko kematian lebih tinggi)
Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor
resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen
time-to-event T .
6.6 Stratifikasi
Stratifikasi dalam model Cox memungkinkan untuk menentukan baseline haza-
rd yang berbeda untuk masing-msing strata namun parameter β sama untuk tiap
strata, yaitu
hj (t | x) = h0j exp(xβ) (6.16)
dengan j = 1, . . . , s adalah banyaknya strata.

Estimasi untuk β menggunakan partial likelihood (6.5) atau modifikasinya
untuk data ties dengan Breslow (6.14) atau Efron (6.15). Partial likelihood dengan
strata adalah sebagai berikut
ℓ(β) = ℓ1 (β) + ℓ2 (β) + . . . + ℓs (β) (6.17)
dengan ℓj (β), j = 1, . . . , s adalah partial likelihood yang dihitung hanya pada

subset data dalam strata ke-j.
6.7 Inferensi Parameter Regresi Cox

Metode inferensi standar yang berdasar pada sifat asimptotik likelihood, yaitu
Wald Test, Score Test dan Likelihood Ratio Test, dapat digunakan untuk inferensi
parameter regresi Cox.
Bila hipotesis nol uji adalah H0 : β = β 0 , maka berturut-turut statistik uji dari
Wald Test, Score Test dan Likelihood Ratio Test adalah
6.7. Inferensi Parameter Regresi Cox 69
Wald Test
χ2W = (β̂ − β 0 )T I(β̂)(β̂ − β 0 ) (6.18)
Score Test
χ2SC = U(β 0 )T I−1 (β 0 )U(β 0 ) (6.19)
Likelihood Ratio Test
χ2LR = 2(ℓ(β̂) − ℓ(β 0 )) (6.20)
Untuk n cukup besar χ2W , χ2LR , χ2SC berdistribusi Chi-square dengan derajad bebas
p, dengan asumsi H0 benar.
Contoh 6.1
Merujuk ke data contoh 1.9 Bab 1, lakukan analisis data menggunakan regresi Cox.
Jawab: Latar belakang permasalahan dalam data tersebut adalah penelitian terkait
faktor-faktor yang mempengaruhi lama menyusui. Data survival yang menjadi perhatian
adalah lama waktu mulai dari bayi diberi ASI sampai disapih (dihentikannya pemberian
ASI) atau pengamatan berakhir, karena penelitian telah berakhir maupun karena subyek
tidak berpartisipasi lagi dalam penelitian.
Model regresi Cox dapat dimulai dari model yang memuat semua variabel yang men-
jadi perhatian, kemudian diuji apakah kontribusi masing-masing variabel pada model cu-
kup signifikan dalam menaikkan nilai partial likelihood. Dapat digunakan uji likelihood
ratio untuk membandingkan model yang akan dievaluasi dengan model pada saat awal.
Model regresi Cox dengan semua variabel yang menjadi perhatian adalah sebagai
berikut,
h(t | x) = h0 (t) exp (x1 β1 + x2 β2 + x3 β3 + x4 β4 + x5 β5 + x6 β6 + x7 β7 + x8 β8(6.21)

)
dengan x1 adalah variabel boneka bentukan dari variabel race, x1 = 1 jika ras kulit
hitam, 0 jika ras putih atau lainnya ; x2 adalah variabel boneka bentukan dari variabel
race, x2 = 1 jika ras lainnya,0 jika ras hitam atau putih; x3 = 1 jika ibu dikategorikan
miskin, 0 jika tidak; x4 = 1 jika ibu merokok, 0 jika tidak; x5 = 1 jika ibu peminum
alkohol, 0 jika tidak; x6 adalah usia ibu saat melahirkan, x7 adalah lama pendidikan; dan
x8 = 1 jika periksa kehamilan setelah bulan ketiga, 0 jika tidak. Menggunakan alat bantu
paket statistik, dapat diperoleh parameter dari partial likelihood model regresi Cox di atas.
Dihitung uji likelihood ratio
χ2LR = 2(ℓ(β̂) − ℓ(β 0 )) (6.22)
dengan ℓ(β̂) adalah log-partial-likelihood pada model yang akan dievaluasi, ℓ(β 0 ) adalah
log-partial-likelihood pada model pembanding. Hipotesis nol untuk uji ini adalah H0 :
β = β0.
Tabel 6.2: Uji Likelihood Ratio Model (6.21)
Variabel db LRT p-value

race 2 11,0012 0,004084
poverty 1 5,2354 0,022131
smoke 1 9,5823 0,001965
alcohol 1 1,8002 0,179693
agemth 1 1,4301 0,231752
yschool 1 5,8138 0,015901
pc3mth 1 0,0876 0,767215
db: derajat bebas
LRT: likelihood-ratio test
Untuk melihat kontribusi masing-masing variabel terhadap nilai likelihood, maka se-
tiap variabel diuji dengan likelihood-ratio test. Model dengan variabel penuh (semua
variabel dalam model (6.21)) dibandingkan dengan model yang telah dikurangi satu va-
riabel yang diuji. Misalnya untuk variabel race. Model dengan semua variabel termasuk
race mempunyai log-partial-likelihood -5175.520 (dapat dihitung dengan paket statistik).
Model dengan semua variabel kecuali race mempunyai log-partial-likelihood -5181.021.
Sehingga uji LR untuk race adalah
χ2LR = 2((−5175,520) − (−5181,021)

= 11,002
Nilai probabilitas signifikansinya (p-value) adalah P (W > 11,002) = 0,00408, dengan

W berdistribusi χ2b=2 . Variabel race dalam model ini memberikan dua variabel boneka
karena race mempunyai 3 kategori (variabel x1 dan x2 dalam model (6.21)), sehingga
memberi kontribusi 2 parameter pula (β1 dan β2 ). Nilai beda dalam banyaknya parameter
inilah yang menentukan derajat bebas dalam uji LR. Hasil lengkap uji LR untuk semua
variabel adalah seperti pada Tabel 6.2.
Terlihat bahwa variabel race, poverty, smoke dan yschool signifikan dalam model.
Sehingga model yang lebih baik dengan lebih sedikit parameter dan log-partial-likelihood
yang masih besar adalah
h(t | x) = h0 (t) exp (x1 β1 + x2 β2 + x3 β3 + x4 β4 + x5 β5 + x7 β7 ) (6.23)
dengan Nilai Uji LR seperti pada Tabel 6.3. Hasil estimasi parameter model (6.23) adalah
seperti pada Tabel 6.4.
Model (6.23) dengan uji kebaikan model Tabel 6.3 dan hasil estimasi Tabel 6.4 me-
rupakan model final untuk data ini. Tentu saja masih harus dilihat secara substansi dan
diinterpretasikan nilai koefisien dari masing-masing estimasi parameter.
Interpretasi model dapat dilihat selain pada β̂ juga pada nilai exp(β̂) yang juga me-
rupakan nilai hazard ratio nya. Pada variabel ras, kulit hitam dan lainnya mempunyai
Tabel 6.3: Uji Likelihood Ratio Model (6.23)
Variabel db LRT p-value

race 2 10,7434 0,004646
poverty 1 5,3205 0,021076
smoke 1 11,0858 0,000870
yschool 1 3,8197 0,050653
db: derajat bebas
LRT: likelihood-ratio test
Tabel 6.4: Estimasi parameter β Model (6.23)
Variabel β̂ exp(β̂) se(β̂)

x1 (ras kulit hitam) 0,17835 1,19524 0,10406
x2 (ras lainnya) 0,30563 1,35748 0,09706
x3 (poverty) -0,20954 0,81096 0,09233
x4 (smoke) 0,26437 1,30261 0,07825
x7 (yschool) -0,03731 0,96338 0,01914
hazard ratio yang lebih tinggi dari kulit putih, exp(β1 ) > 1 dan exp(β2 ) > 1. Hazard
ratio yang lebih besar dari satu berarti kecenderungan untuk berhenti menyusui lebih awal
di kalangan kulit hitam dan lainnya cukup tinggi. Merokok juga mempunyai hazard ratio
yang lebih tinggi dari tidak merokok (β̂4 > 1). Sehingga dapat di-interpretasikan me-
rokok mengakibatkan penhyapihan yang lebih cepat. Sebailknya, kemiskinan, maupun
berpendidikan memperlama penyapihan. Secara substansial, mungkin karena ibu yang
miskin cenderung tidak mampu membeli susu formula dan menggantinya dengan ASI.
Untuk ibu yang berpendidikan barangkali sudah cukup tahu manfaat ASI sehingga lebih
lama dalam memberikan ASI.
Untuk menunjukkan efek variabel penjelas pada survival (lama menyusui dalam con-
toh ini), dapat digunakan plot estimasi fungsi survival. Misalnya ingin dilihat pengaruh
merokok terhadap lama menyusui. Plot fungsi survival dapat dibuat untuk masing-masing
status merokok (variabel smoke) dengan model
S(t | x) = Sj (t)exp(xβ ) , (6.24)
dengan j = 1, 2 adalah strata, menjadi anggota strata j = 1 jika x4 = 0 (bukan perokok),

menjadi anggota strata j = 2 jika x4 = 1 (perokok). Untuk membuat plot kurva survival
digunakan nilai β̂ dan nilai x yang sama untuk masing-masing strata, dapat diambil nilai
rata-ratanya. Grafiknya adalah seperti pada Gambar 6.5. Terlihat bahwa perokok mem-
punyai kurva survival yang lebih rendah daripada bukan-perokok, atau ibu yang merokok
cenereung lebih cepat menghentikan pemberian ASI.
1.0
0.8
estimasi S(t)
0.6
0.4
bukan perokok
0.2
perokok
0.0
0 20 40 60 80
t (minggu)
Gambar 6.5: Plot estimasi kurva survival Model (6.24)
6.8 Latihan Bab 6

6.1. Diketahui model regresi hazard proporsional h(t | x) = h0 (t) exp(xβ),
dengan variabel random T adalah lama hidup seorang pasien dan
(
1 jika pasien mendapatkan placebo
x=
1 jika pasien mendapatkan obat baru
Interpretasikan model ini berdasarkan hazard ratio untuk nilai β = 0, β < 0

dan β > 0!
6.2. Diketahui data lama hidup (dalam hari) dua kelompok perlakuan untuk
tikus yang terkena suatu jenis kanker:
Kelompok 1 188 192 206 227 265+ 304 244+
Kelompok 2 156 163 205 232 233 239 240 261+ 204+
344+
dengan tanda + menunjukkan data tersensor.
(a) Buatlah grafik estimasi fungsi survival menggunakan Kaplan-Meier

untuk masing-masing kelompok (Gambarlah pada tempat yang sama
dengan skala yang sama agar dapat dilihat perbedaannya)
(b) Ujilah apakah dua kelompok tersebut mempunyai fungsi survival yang
sama dengan menggunakan uji logrank.
6.3. Diketahui data survival sebagai berikut:

grup 1 : 5 1 2 2 7 6
grup 2 : 8+ 10 4+ 4 3+
dengan ”+” adalah tanda untuk data tersensor kanan.

Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan
menggunakan logrank test (α = 0,025)
6.4. Tulislah Partial Likelihood L(β) untuk data soal nomor 3 dengan variabel
independen x adalah grup, yaitu x = 0 jika subyek dari grup 1, dan x = 1
jika subyek berasal dari grup 2, dan β adalah koefisien regresi untuk x.
Kemudian hitunglah L(β = −2). (Gunakan metode Breslow jika ada ties)
6.5. Merujuk data seperti soal 1.4 Bab 1 (33 pasien leukemia), diberikan model
regresi hazard proporsional h(t | X) = h0 (t) exp(X1 β1 +X2 β2 ). Diperoleh
estimasi parameter dan standard error nya: β̂1 = −1,089, σ̂(β̂1 ) = 0,4263
dan β̂2 = 0,7840, σ̂(β̂2 ) = 0,4994; dengan log-likelihood model tanpa
variabel penjelas (null model) adalah −85,05447 dan log-likelihood keti-
ka mencapai maksimum adalah −79,79271. Interpretasikan hasilnya dan
hitung uji likelihood ratio nya.
6.6. Diketahui data lama hidup 30 orang pasien yang menderita suatu penyakit
tertentu seperti tersebut di bawah, dengan variabel x1 = 1 adalah pasien
berusia lebih dari 50 tahun; dan x2 = 1 adalah pasien dengan tingkat kepa-
rahan penyakit tinggi.
(a) Hitunglah estimasi fungsi survival data tersebut dengan menggunak-

an estimasi Kaplan-Meier (tanpa variabel x1 ,x2 ) dan gambarlah kurva
nya!
(b) Dengan menggunakan paket statistik R diperoleh hasil sebagai beri-
kut:
Call:
coxph(formula = Surv(dur, d) ˜ x1 + x2)
coef exp(coef) se(coef) z p

x1 1.046 2.85 0.458 2.284 0.022
x2 0.359 1.43 0.440 0.815 0.420
Data:
lama hidup x1 x2 lama hidup x1 x2
18 0 0 8 1 0
9 0 1 2 1 1
28+ 0 0 26+ 1 0
31 0 1 10 1 1
39+ 0 1 4 1 0
19+ 0 1 3 1 0
45+ 0 1 4 1 0
6 0 1 18 1 1
8 0 1 8 1 1
15 0 1 3 1 1
23 0 0 14 1 1
28+ 0 0 3 1 0
7 0 1 13 1 1
12 1 0 13 1 1
9 1 0 35+ 1 0
Likelihood ratio test=5.76 on 2 df, p=0.0561 n= 30
Interpretasikanlah hasilnya!
(c) Diberikan model regresi hazard proporsional h(t | x) =
h0 (t) exp(x1 β1 ). Bila observasi dibatasi hanya untuk t < 5 saja,
tulislah fungsi partial log-likelihood untuk model tersebut!
(d) Diberikan model regresi hazard proporsional hj (t | x) =
h0j (t) exp(x1 β1 ), dengan j = 1, 2 adalah strata yang keanggotaan
satu subyek dalam suatu strata ditentukan oleh nilai variabel x2 , yaitu:
menjadi anggota strata 1, jika x2 = 0; menjadi anggota strata 2, jika
x2 = 1. Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi
partial log-likelihood untuk model dengan strata tersebut tersebut!
(e) Jelaskan alasan penggunaan strata dalam model regresi Cox, keun-
tungan dan kerugiannya bila dibandingkan dengan model tanpa strata
6.7. Tunjukkanlah bahwa Metode ties-adjustment Efron akan sama dengan par-
tial likelihood biasa jika tidak ada ties dalam data!
6.8. Jelaskan mengapa pemodelan dengan stratifikasi terkadang diperlukan da-

lam regresi Cox, dan sebutkan kerugian stratifikasi jika ada!
6.9. Merujuk Soal 7 Bab 4, gunakan regresi Cox untuk menganalisis data mor-
talitas akibat penyakit kronis tersebut, dan bandingkan hasilnya dengan uji
log-rank
6.10. Merujuk Contoh 1.8 Bab 1, gunakan regresi Cox untuk menganalisis data
pengaruh voltase terhadap kerusakan suatu alat elektrik!
Bibliografi
Cox, D. R. (1972). Regression models and life-tables (with discussion), Journal of the
Royal Statistical Society, Series B, Methodological 34: 187–220.
Cox, D. R. (1975). Partial likelihood, Biometrika 62: 269–276.
Cox, D. R. and Oakes, D. O. (1984). Analysis of survival data, Chapman & Hall Ltd.
Klein, J. and Moeschberger, M. (2003). Survival analysis: techniques for censored and
truncated data, Statistics for biology and health, Springer.
Lawless, J. (2003). Statistical models and methods for lifetime data, Wiley series in
probability and statistics, Wiley-Interscience.
76

Analisis Data Survival: Diktat Kuliah

Diunggah oleh

Hak Cipta:

Format Tersedia

Analisis Data Survival: Diktat Kuliah

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Data Survival: Diktat Kuliah

Diunggah oleh

Hak Cipta:

Format Tersedia

DIKTAT KULIAH

ANALISIS DATA SURVIVAL

PROGRAM STUDI STATISTIKA

Daftar Isi iii

2 Fungsi dan Kuantitas Dasar 10

3.4 Latihan Bab 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Metode Non-parametrik dan Uji-LogRank 35

5 Model Regresi Parametrik 45

1.1 Representasi data survival . . . . . . . . . . . . . . . . . . . . . . 2

2.1 Fungsi Survival . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.1 Kurva survival dua model eksponensial yang berbeda . . . . . . . 21

4.1 Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen . . 37

5.1 Plot Fungsi Survival AFT Eksponensial . . . . . . . . . . . . . . 48

1.1 Relapse pasien leukemia . . . . . . . . . . . . . . . . . . . . . . 6

4.1 Tabel Estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . . . . 37

5.1 Distribusi T dan ǫ dalam AFT log-linear . . . . . . . . . . . . . . 51

6.1 Contoh data survival untuk ilustrasi Partial Likelihood . . . . . . 63

Matakuliah Analisis Data Survival (2 sks) merupakan matakuliah wajib minat

Dr. Danardono, MPH.

1.1 Tujuan Pembelajaran

2. Menjelaskan pengertian data tersensor dan terpotong beserta contohnya

3. Menjelaskan tujuan dan arah analisis data survival

4. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tu-

5. Mengidentifikasi kuliah lain yang terkait dengan analisis data survival

1.2 Data dan Variabel Random Survival

Gambar 1.1: Representasi data survival

3. Unit pengukuran yang digunakan

(a) Nilai pada ordinat sebagai representasi status

(b) Jenis garis sebagai representasi status

Gambar 1.2: Alternatif representasi data survival

1.3 Data tersensor dan terpotong

• Tipe I: Jika saat tersensornya ditentukan lebih dahulu

Gambar 1.3: Data tersensor (censored) dan terpotong (truncated)

Tabel 1.1: Relapse pasien leukemia

Perawatan lama waktu (bulan) sampai kambuh

Tabel 1.2: Lama waktu sampai rusaknya komponen elektrik

voltase (kV) lama waktu (menit) sampai rusak

Tabel 1.3: Deskripsi variabel studi tentang penyapihan

Variabel Deskripsi kode

1.4 Latihan Bab 1

1.2. Apa tujuan utama dari analisis data survival?

1.4. Pencatatan peristiwa demografis di kelurahan atau kecamatan (vital statis-

1.5. Eksperimen survival/sacrifice adalah suatu cara penelitian untuk mengeta-

Tabel 1.4: Lama kambuh pasien leukemia dan tes AG

(a) Bila observasi tersensor-kanan pada titik 4 minggu, tuliskan pasien

2.1 Tujuan Pembelajaran

2.2 Fungsi Survival dan Hazard

0.0 0.5 1.0 1.5 2.0 2.5

0.0 0.5 1.0 1.5 2.0

Gambar 2.2: Fungsi Hazard

tp = F −1 (p), 0<p<1 (2.5)

2.3 Hubungan antar Fungsi

P (t ≤ T < t + ∆t | T ≥ t) = P (t ≤ T < t + ∆t)/P (T ≥ t)

Menurut definisi fungsi densitas lim∆t→0 P (t ≤ T < t + ∆t)/∆ adalah f (t),

Dalam pemodelan survival, fungsi hazard mempunyai kelebihan dibandingk-

2.4 Survival Diskrit

= f (xj ) + f (xj+1 ) + . . . (2.16)

Fungsi hazard kumulatif untuk T diskrit adalah

sehingga hubungan S(t) dengan H(t) seperti persamaan (2.12)Pmasih berlaku.