Ebook Analisis Data 07-07-2022
Ebook Analisis Data 07-07-2022
Ebook Analisis Data 07-07-2022
untuk Pengembangan
Organisasi
Uwe H. Kaufmann
Amy B.C. Tan
Daftar Isi
Pendahuluan: Mengapa Data analytics Penting x
Mengapa Buku Ini Ditulis x
Bagaimana Buku Ini Distruktur x
Alat Apa yang Digunakan x
Apa yang Disediakan x
Kasus Mana yang Harus Saya Pelajari? x
Bab 1 Pengantar Data analytics dan Data science
Komponen Data analytics
Big Data dan Hubungannya dengan Data analytics
Data Analytics – Landasan Data science dan Kecerdasan Buatan
Tahapan Data analytics
Bab 2 Customer Domain– Customer analytics
Mengapa Customer analytics?
Dengarkan Suara Pelanggan Anda yang Ada
Memahami Harapan Pelanggan
Mempelajari Pengalaman Pelanggan yang Lengkap
Merancang Survei Pelanggan
Kesimpulan
Kasus 1: Hebat, Kami Telah Meningkat. . . atau tidak?
Kasus 2: Apa yang Mendorong Kepuasan Pasien kita?
Kasus 3: Bagaimana Menciptakan Dasbor Kepuasan Pasien
Kesimpulan
Bab 3 Domain Proses – Operations analytics
Mengapa Operations Analytics?
Dimensi Operations Analytics
Peran dan Penerapan Operations analytics
Kesimpulan
Kasus 4: Pemasok Mana yang Lebih Baik Kualitas produk?
Kasus 5: Mengapa Keuangan Membayar Vendor Kami Terlambat?
Kasus 6: Mengapa Kita Membuang-buang Darah?
Bab 4 Workforce Domain– Workforce Analytics
Mengapa Workforce Analytics?
Dimensi Workforce Analytics
Menerapkan Workforce Analytics ke dalam Praktik
Mendapatkan Niat yang Benar
Analis Tenaga Kerja (Surga adalah Karyawan) Mimpi Buruk – Mengelola
Perubahan
Ringkasan
Kasus 7: Apakah Kita Memiliki Cukup Orang untuk Menjalankan Kita?
Organisasi? – Perencanaan Tenaga Kerja Inside-Out
Kasus 8: Apa yang Membuat Staf Kami Berinovasi?
Kasus 9: Apa Survei Keterlibatan Kami?
Hasil Berarti?
Kasus 10: Apa yang Membuat Staf Kami Keluar? – Logistic Regression untuk
Prediksi dan Pengambilan Keputusan
Bab 5 Menerapkan Data analytics untuk Pengembangan Organisasi
Membuat Keputusan Lebih Baik – Mengetahui Risikonya dari Menjadi Salah
Memastikan Keberhasilan Perjalanan Data Analisis Anda
Langkah-langkah untuk Menerapkan Data analytics
Memastikan Manajemen Walks and Talks Analytics
Menciptakan Kegembiraan untuk Data Analytics dan Manfaatnya
Mengembangkan Tubuh Pengetahuan – Mulai Dari Yang Kecil
Menggunakan Analytics untuk Memecah Silo s
Menutup Analytics Loop – Mempertahankan Keuntungan
Pandangan
☞ Data analytics adalah praktik bisnis yang semua manager harus terbiasa dengannya.
Tabel 0.2 Alat Analisis Statistik untuk Berbagai Situasi Tipe Data
X
Diskrit Continuous
Diskrit Tes Proporsi Plot Probabilitas Terbalik
Plot Frekuensi Bertingkat
Y
Continuous Tes Parametrik dan Regresi Linier dan Regresi
NonParametrik untuk Non-Linear
Kecenderungan Sentral
dan Varians
Hypothesis Test Regresi
Keputusan Bisnis
Sangat sering, data analytics menghasilkan output yang sulit dipahami oleh
staf yang tidak terlatih dalam data science. "P-value" misalnya, output utama dari
banyak alat statistik namun mungkin tidak mudah untuk dipahami.
Namun, terjemahan output analisis seperti "p-value = 0,03" menjadi hasil
seperti "Risiko membuang-buang uang kita dengan membeli dari Pemasok A yang
lebih mahal hanya 3%" mengubah pembahasan tentang data science.
Ini bukan lagi kasus yang mengandalkan Data Analyst atau Data Scientist
untuk membuat terjemahan tersebut. Manajemen harus memahami dasar-dasar data
science untuk mengubah data menjadi informasi dan dapat digunakan untuk
menarik kesimpulan yang tepat.
Setiap kasus yang disajikan dalam buku ini didasarkan pada kasus klien
nyata. Namun, untuk melindungi klien kami, kami telah mengubah nama dan telah
mengubah semua data.
Tools Apa yang Digunakan
Niat kami adalah untuk menyediakan buku referensi yang dapat diikuti oleh
pembaca selangkah demi selangkah. Dengan maksud agar software populer ini
dapat digunakan. Dalam pekerjaan kami dengan klien kami, kami menyadari
persyaratan mereka untuk software yang ingin mereka gunakan:
Software harus tersedia dengan mudah. Hampir semua orang di dunia
memiliki versi Microsoft Office di komputer. Bagian yang tidak terpisahkan
dari ini adalah MS Excel. MS Excel mencakup banyak fungsi yang
membantu melakukan sebagian besar tugas akuisisi data, persiapan data, dan
data analytics yang dijelaskan dalam buku ini. Beberapa pengguna tidak
mengetahui add-in "Analysis ToolPak" yang menambahkan lebih banyak
alat ke tampilan MS Excel. Kami akan memperbaikinya.
MS Power BI memperluas lingkup MS Office dengan visualisasi yang kuat
dan interaktif serta fasilitas intelijen bisnis. MS Power BI menawarkan
gudang data, persiapan data, dan kemampuan penemuan data untuk
membangun dasbor kolaboratif yang dinamis. Ini tersedia untuk banyak
pengguna MS Office secara gratis.
R adalah bahasa pemrograman untuk komputasi statistik dan grafik. R
Studio menawarkan antarmuka pengguna dan l pengembangan untuk R.
Kedua paket software tersedia secara gratis.
Software harus mudah digunakan. MS Excel adalah paket software yang telah
digunakan banyak orang sebelumnya. Ini berarti ahli analis dapat bekerja dengan
lingkungan yang sudah dikenal, hanya dengan menambahkan beberapa alat baru.
Hampir sama berlaku untuk MS Power BI. Ini mungkin baru bagi banyak analis,
tetapi sekali lagi ia memiliki antarmuka pengguna Microsoft dan banyak fungsi
yang diadaptasi dari MS Excel. Pembelajaran untuk MS Power BI biasanya cukup
mahal tetapi mudah dipelajari.
R adalah bahasa pemrograman dan termasuk dalam lingkup software bebas
untuk komputasi statistik dan grafik. R banyak digunakan oleh ahli statistik
dan penambang data untuk mengembangkan software untuk pertengkaran
dan data analytics (Wikipedia, 2020). Belajar R (melalui R Studio) lebih
mudah bagi orang-orang dengan latar belakang pemrograman yang ringan.
Kurva belajar untuk R mungkin lebih lama bagi banyak orang, tetapi benefts
sangat baik. R memiliki koleksi fungsi siap pakai tanpa akhir yang tumbuh
setiap hari. R bahkan dapat diintegrasikan ke MS Power BI sehingga fungsi
dan grafik khusus dapat diproduksi dalam R dan ditampilkan di tampilan
MS yang lebih familiar dan lebih rapi.
Software harus kompatibel dengan software lain yang umum digunakan.
Integrasi tabel dan grafik MS Excel ke dalam presentasi MS PowerPoint apa pun
semulus mungkin. Bahkan ada kemungkinan menghubungkan MS Excel atau MS
Power BI secara dinamis dengan sumber data di server atau situs web mana pun
dan memasukkan output terkait analisis ke MS PowerPoint. Hal ini memungkinkan
analyst untuk memiliki template/tampilan PowerPoint yang mengesankan atau
dasbor Power BI yang biasa dengan data aktual kapan pun digunakan.
Setiap kali kami memperkenalkan software lain seperti Minitab, SigmaXL,
SAS, atau SPSS, ketersediaan terbatas paket software ini merupakan hambatan
untuk menerapkan alat yang baru dipelajari ke dalam organisasi.
Oleh karena itu, jika Anda ingin sukses dalam upaya perubahan Anda,
pastikan Anda mempertimbangkan poin-poin yang disebutkan di atas. Jika saya
adalah pemilik bisnis atau manajer yang bertanggung jawab atas untung dan rugi,
saya akan mempertimbangkan dengan hati-hati, apakah saya perlu membeli
sejumlah lisensi dengan biaya lisensi tahunan software baru jika MS Excel dan R
atau Python dapat melakukan pekerjaan itu dan tersedia secara gratis, atau dalam
biaya lisensi Microsoft Office saya saat ini.
Oleh karena itu, kasus-kasus dalam buku ini menunjukkan analisis yang
dilakukan menggunakan MS Excel, MS Power BI, dan R Studio. Untuk
menindaklanjuti, Anda perlu menonaktifkan Add-In MS Excel dan menginstal
software lain. Berikut adalah petunjuk langkah demi langkah.
Mengaktifkan dan Menggunakan Alat Analisis MS Excel ToolPak
Banyak pengguna MS Excel tidak mengetahui alat yang dimuat ke dalam
office package yang sudah dikenal ini. MS Excel tidak hanya memiliki fungsi
untuk hampir setiap tugas manipulasi dan analisis data yang mungkin dibangun di
dalamnya tetapi juga dilengkapi dengan paket alat Analisis yang hampir tidak
digunakan.
Dan, itu hanya perlu diaktifkan untuk membuatnya muncul sebagai
kumpulan makro yang memiliki potensi membuat analisis Anda bekerja lebih
mudah.
Setelah memuat MS Excel, tekan File – Options – Add-ins – Go dan klik
centang kotak Analysis ToolPak (Gambar 0.3). Hanya ini yang perlu Anda lakukan
untuk menambahkan kumpulan alat analisis yang umumnya diperlukan ke Excel
Anda (Tabel 0.3). Alat-alat ini dapat ditemukan di Data – Data Analysis (Gambar
0.4).
Gambar 0.12 Statistik Deskriptif untuk contoh file ‘norm’ pada R console
Gambar 0.13 Statistik Deskriptif, Tes Normalitas dan Histogram untuk file norm
Output :
Indikator normalitas untuk Norm ditunjukkan menunjukkan bahwa Norm
mengikuti distribusi normal (Gambar 0,13), yaitu p-value > 0,05.
Langkah 0.10 Plot Histogram Sederhana Untuk Norm
# Merencanakan histogram untuk Norm hist(Norm$Data)
Output :
Histogram dasar untuk Norm ditampilkan di tab Plot (tidak ditampilkan).
Karena kita baru saja mengkonfirmasi bahwa data kita di kolom Data
memang didistribusikan secara normal, kita juga dapat menambahkan bentuk bel
ke histogram.
Langkah 0.11 Plot Simple Histogram Untuk Norm Dengan Bell Shape
# Moving column Data into variable Data
data <- Norm$Data
# Calculating mean and standard deviation of data
m <- mean(data)
std <- sqrt(var(data))
# Plotting histogram for Norm
hist(data, density=20, breaks=20, xlab="Norm", main="Normal Curve over
Histogram", cex.main=2.00, col="lightblue", cex. lab=1.50, cex.axis=1.50,
prob=TRUE,)
# Set margin
par(mar = c(5, 5, 5, 5))
# Plot bell shape
curve(dnorm(x, mean=m, sd=std), lwd=2, add=TRUE, yaxt="n",
col="darkblue")
Output :
Histogram dasar untuk Norm termasuk bell shape yang mewakili normalitas
ditampilkan di tab Plots (Gambar 0.14).
Pilih Plots – Export – Copy ke Clipboard membuat histogram tersedia untuk
digunakan di program lain. Gambar 0,14 telah disisipkan dengan cara ini.
Contoh dasar ini menunjukkan bagaimana R Studio dapat membantu
menghasilkan analisis dan visualisasi dengan cepat dan dengan input minimal. Tes
Shapiro–Wilk pada normalitas tidak ada di MS Excel dan oleh karena itu
merupakan tambahan yang sangat baik untuk koleksi alat Anda.
Khususnya analisis data yang sangat kompleks seperti analisis faktor
eksplorasi atau exploratory factor analysis (EFA), analisis faktor konvertitori atau
confrmatory factor analysis (CFA), pemodelan persamaan struktural atau structural
equation modelling (SEM) dan banyak lagi prosedur yang agak rumit dapat
dijalankan di R Studio dengan sedikit usaha. Mungkin paket tambahan perlu
dimuat untuk membuat alat lain tersedia. Semua paket ini dapat diakses untuk
diunduh dan diinstal.
Gambar 0.14 Histogram dan Bell Shape untuk Norm
Tab Bantuan menawarkan informasi untuk fungsi yang tersedia dan paket
tempat mereka berada.
Fungsi-fungsi yang disebutkan di atas tidak ada di MS Excel dan akan
sangat sulit untuk diprogram dalam Visual Basic. R Studio mengepakkan celah ini
dan sangat memperkaya kotak peralatan Anda.
BAB 1
PENGENALAN DATA ANALYTICS DAN DATA SCIENCE
Data science adalah "konsep untuk menyatukan statistik,
data analytics, pembelajaran mesin dan metode terkaitnya" untuk
"memahami dan menganalisis fenomena aktual" dengan data.
(Hayashi, 1998)
Data Science bukanlah bidang penelitian baru. Ini adalah ilmu pengetahuan
lama yang harus kita temukan kembali, segarkan, dan digunakan untuk mengubah
jumlah data yang terus meningkat di semua aspek kehidupan profesional dan
pribadi menjadi informasi yang berguna bagi organisasi, pelanggan, dan anggota
mereka.
Dalam bab ini, kami akan memperkenalkan berbagai komponen data science
dan fase-fasenya: dari pertanyaan organisasi hingga informasi yang bernilai, hingga
kesimpulan berbasis data. Kami akan memperkenalkan alat grafis dan alat statistik
yang umum digunakan untuk tipe data yang berbeda. Selain itu, kita akan
membahas kompetensi yang diperlukan yang harus diperoleh seorang data scientist
untuk mengikuti perkembangan yang fas-moving dalam disiplin ilmu analitis dan
bidang terkait.
ISI
Ini terdengar sangat besar dan seperti pencapaian teknologi yang hebat bagi
umat manusia. Untuk menyimpan semua data ini, gugus server atau data center
yang luas telah dibangun di seluruh dunia. Server ini perlu ditenagai. Diperkirakan
internet saja menggunakan lebih dari 10% energi dunia (McKenzie, 2021). Dan
semua angka ini meningkat dengan cepat. Mempertimbangkan, bahwa hanya
sekitar 20% dari semua energi yang dikonsumsi oleh pusat data yang dihasilkan
oleh sumber terbarukan – 80% dari energi yang dibutuhkan masih menguras
sumber daya alam kita secara besar-besaran – pencapaian ini harus dilihat dalam
cahaya yang berbeda.
Informasi yang tersedia sebagian berisi detail penting tentang pelanggan
kami dan perilaku pembelian mereka, atau pesaing kami, penawaran mereka, calon
karyawan baru dan banyak media sosial mereka, dan banyak aspek lain dari
kehidupan pribadi dan bisnis. Sebagian besar informasi ini tersedia untuk di akses
secara gratis atau dengan biaya yang relatif murah.
Ini adalah pertanyaan tentang waktu apakah informasi ini termasuk dalam
kategori "Big Data". Jika melakukannya hari ini, mungkin bukan besok, dan
pastinya bukan lusa. Saat ini, bisnis dan bahkan orang dirumah dapat mengakses
komputer dengan penyimpanan data yang sangat besar dan kapasitas penanganan,
baik itu dengan menginstal hardware dan software di rumah atau baik itu dengan
menghubungkan ke kapasitas eksternal. Akibatnya, lebih banyak organisasi
memiliki sarana dan melihat kebutuhan untuk mengumpulkan data tentang
pelanggan dan pesaing mereka, tentang lingkungan operasional mereka, dan
tentang semua aspek tenaga kerja mereka. Organisasi-organisasi ini memperluas
cakupan aktivitas data analytics mereka dan membangun skill mereka untuk
melakukannya.
Beberapa peneliti biasanya menyarankan bahwa data analytics terutama
menggambarkan penanganan data pengguna yang dihasilkan oleh CRM dan sistem
serupa berubah menjadi customer intelligence. Saat ini, cakupan data analytics
terbuka untuk mencakup semua fungsi organisasi. Big data analytics dapat
digunakan untuk membantu bisnis dalam membangun profile pelanggan untuk
menciptakan layanan yang dipersonalisasi dan meningkatkan kepuasan pelanggan.
Meskipun Big Data memiliki beberapa karakteristik khusus yang mungkin
memerlukan beberapa peralatan khusus untuk memperoleh, membersihkan, dan
mengubah data, aturan dan alat untuk Data analytics akan berlaku sama.
Akuisisi Data
Ada banyak cara mengumpulkan data untuk menjawab Pertanyaan Bisnis. Dan
tidak diperlukan alat yang canggih atau hardware dan software yang mahal untuk
mendapatkan data ini di komputer Anda untuk dianalisis. MS Excel dan MS Power
BI sendiri memiliki akuisisi data interface yang kuat untuk menjangkau ke sumber
data yang tersedia secara umum serta ke server dengan berbagai desain. Sebuah
interface yang cocok untuk server organisasi Anda tersedia di antaranya.
Seperti yang diilustrasikan Gambar 1.4, MS Excel dan MS Power BI
memungkinkan kita untuk memuat data dari beberapa jenis file seperti dari file
Text/CSV, dari R dan Python Scrips dll. Selain itu, data dapat diambil dari
database internal dan eksternal, bisa dari MS Access, SQL, atau MySQL atau dari
IBM, SAP, MS Azure Salesforce, Google. Ini termasuk file Big Data di jaringan
komputer dalam format Hadoop dan lainnya. Selain itu, data dapat diunduh dari
hampir semua situs web seperti Wikipedia, Facebook, LinkedIn, Departemen
Statistik, dan banyak lainnya. Secara praktiknya tidak ada batasan untuk hal
tersebut.
MS Excel dan MS Power BI memungkinkan kita tidak hanya mengunduh data dari
ini dan banyak sumber lainnya. Mereka juga memungkinkan tautan menjadi "hot"
atau dapat diakses dengan cepat, yakni segera setelah file tujuan di MS Excel atau
MS Power BI di-refresh, data yang diperbarui diunduh ulang dari sumbernya. Ini
memastikan bahwa data di komputer selalu yang terbaru (Microsoft, 2020).
Tugas 1.1 akan menunjukkan contoh untuk mengunduh data dari URL langsung ke
Excel dan menautkan data ke tabel yang tersedia di URL.
Tugas 1.1 Mengunduh Contoh Data Donasi Trombosit Dari Situs Web
1. Buka MS Excel dengan lembar kerja baru
2. Pilih Data – Get & Transform Data – From Web
3. Masukkan URL https://coe-data.com/platelet-donation/–OK
4. Pilih Platelet Donation Data
5. Pilih Load (Lihat Gambar 1.3).
6. Lembar baru di Excel akan menampung tabel data Platelet Donation
Gambar 1.3 Download Data dan Tautkan Excel ke Website
Jika data di situs web diperbarui, data di MS Excel Anda akan diperbarui
juga setelah lembar kerja di-refresh.
Namun, memiliki data aktual tidak secara otomatis berarti data tersebut
benar. Semua sumber data perlu diperiksa keabsahannya.
Biasanya perlu untuk memvalidasi metode pengumpulan data yang
dilakukan untuk memastikan bahwa datanya cukup berguna untuk dianalisis, yakni
datanya representatif, dapat direproduksi, dan cukup akurat dalam memberikan
informasi yang cukup untuk menjawab pertanyaan yang ada. Alat statistik yang
ada dapat membantu mengidentifikasi potensi masalah dalam proses pengumpulan
data.
Sampel data adalah subset data, yang dipilih dari populasi data yang lebih
besar dengan tujuan mencerminkan karakteristik populasi secara dekat. Alih-alih
mengumpulkan data seluruh populasi, sampel lebih sering diambil untuk
mengurangi waktu dan upaya dalam pengumpulan data.
Suatu sampel dapat dikatakan representatif, jika setiap unit dari populasi
mempunyai kesempatan untuk menjadi bagian dari sampel.
Gambar 1.4 MS Excel dan MS Power BI Menawarkan Interface yang Kuat untuk
Akuisisi Data
Namun, perlu diingat, jika data tersedia pada apa yang disebut sebagai
sumber data yang kredibel, itu bukan jaminan bahwa data itu sendiri representatif,
dapat direproduksi, dan akurat, yang mana bermanfaat untuk apa yang ingin Anda
analisis.
☞ Jika data dipublikasikan di internet, itu bukan berarti Anda langsung dapat
mempercayai data ini. Validasi data atau sumbernya dahulu sebelum menggunakannya.
Persiapan data
Mengonversi Stacked dalam Data Tidak Bertumpuk
Saat server membatasi input pelanggan dari situs web survei, kemungkinan
besar mereka mengunduh data dalam format yang tertumpuk, yang mana akan
membuat setiap input membuat baris baru dalam tabel yang dihasilkan.
Beberapa alat analisis, seperti ANOVA dan uji hipotesis lainnya,
memerlukan data bertumpuk (stacked data), beberapa alat lain seperti regresi
berfungsi dengan data yang tidak bertumpuk (unstacked data), beberapa alat seperti
statistik deskriptif, berfungsi dalam dua keadaan tersebut.
Penumpukan (stacking) atau pelepasan tumpukan data (unstacking data)
mungkin merupakan langkah yang dibutuhkan dalam data analysis apa pun.
Unstacked data juga disebut sebagai "short data" karena informasi untuk
variabel yang berbeda diatur dalam kolom yang bersebelahan. Stacked data juga
disebut “long data” karena informasi untuk variabel yang berbeda diatur dalam
kolom yang sama (pada Tabel 1.2 disebut Rating), sedangkan nama variabel
ditempatkan pada kolom di sebelahnya (Tabel 1.2 , itu disebut Langkah).
Menggunakan data kepuasan pasien dari kasus yang dibahas kemudian
menunjukkan tabel data yang tidak ditumpuk untuk peringkat untuk langkah
dengan 514 baris (514 pasien), sedangkan versi bertumpuk membutuhkan 5 x 514
= 2570 baris (5 langkah x 514 pasien), maka alasan untuk beri nama "data
panjang".
Melakukan transformasi atau konversi ini di Excel dimungkinkan:
Tugas 1.2 Konversi Stacked Data Menjadi Unstacked Data
1. Buka MS Excel.
2. Buka data di ClinicSurveyStacked.xlsx di sheet Stacked.
3. Jika tabel ini belum diformat sebagai tabel Excel, lakukan langkah-langkah
berikut:
a. Pilih seluruh tabel dengan kursor di A1 dan Shift + Ctrl + dan Shift + Ctrl + ⇩
b. Home – Format as Table. Gaya yang dipilih tidak membuat perbedaan.
c. Karena Anda telah menyertakan baris tajuk dalam pilihan Anda, pastikan untuk
mencentang kotak " My table has headers".
4. Dengan kursor di tabel, pilih Insert – PivotTable – OK. Tabel Pivot dibuat pada
Worksheet baru.
5. Di Worksheet baru ini dengan kursor di templat PivotTable, pilih ID dari
PivotTable dan seret ke Baris, Step ke Kolom dan Rating ke Nilai.
6. Jika Rating tidak dialihkan ke Average of Rating, pilih Sum of Rating atau
Count of Rating dan alihkan Value Field Settings ke Average of Rating.
7. Pada langkah yang sama, Anda mungkin ingin mengubah Format Angka.
8. Dengan kursor di Pivot Table, klik kanan PivotTable Options dan lakukan
beberapa pemformatan. Misalnya, di tab Total & Filter, hapus centang kedua
grand totals.
Tabel 1.2 Membandingkan Data Bertumpuk dan Tidak Bertumpuk
Hasilnya, PivotTable yang telah dibuat akan terlihat seperti Data yang Tidak
Ditumpuk (Unstacked Data) di Tabel 1.2. Dalam contoh kasus kami nanti dalam
buku ini, kami akan menunjukkan cara mengkonversi ini menggunakan R.
Membersihkan Data
Sekalipun metode pengumpulan datanya terbukti dan instrumennya
divalidasi secara statistik, data tersebut masih bisa dikatakan tidak berguna.
Dalam survei, misalnya, beberapa peserta survei mungkin tidak memberikan
masukan yang berguna. Sebagian alasannya mungkin karena mereka dipaksa atau
diberi insentif untuk berpartisipasi dalam survei. Kemudian, kita dapat berasumsi
bahwa beberapa peserta tidak tertarik dengan survei kami. Mereka mungkin telah
memberikan masukan yang valid ke penyelenggara survei yang mapan, tetapi
masukannya mungkin tidak berguna. Atau lebih buruk lagi, input dapat merusak
langkah-langkah analisis berikut. Masukan tersebut dapat berupa peringkat acak
atau peringkat yang sama untuk semua pertanyaan atau pernyataan.
Oleh karena itu, persiapan data diperlukan untuk menemukan dan
menghilangkan input tersebut untuk memasukkan data ke dalam analisis yang
benar-benar bernilai.
Penyiapan data juga mencakup pemformatan data agar dapat digunakan
dengan software analisis yang disukai. Biasanya, data yang diunduh dari sistem
tidak sesuai dengan formatnya untuk dimasukkan ke dalam software analisis, Excel
misalnya (gambar 1.5). Namun, dalam banyak kasus bahwa data dapat diatur
ulang, diformat ulang, atau diubah sehingga software dapat menanganinya.. Tabel
data yang diformat dengan sempurna ditunjukkan pada Gambar 1.6.
Tidak selalu software analisis akan berhenti bekerja karena format data yang
salah. Dalam kasus terburuk, software mungkin masih berfungsi namun
memberikan hasil yang salah.
Konversi data dan transformasi data akan ditampilkan nanti dalam contoh
kasus di buku ini. Kami akan menggunakan software yang tersedia secara luas
seperti MS Excel dan R Studio.
Gambar 1.5 Tabel Data Sebelum di Format Ulang