Teknik Analisis Data EDA
Teknik Analisis Data EDA
Teknik Analisis Data EDA
Dalam statistik , analisis data eksplorasi adalah pendekatan untuk menganalisis kumpulan data untuk merangkum
karakteristik utamanya, seringkali dengan metode visual. Model statistik dapat digunakan atau tidak, tetapi EDA
utamanya adalah untuk melihat apa yang dapat dikatakan data kepada kita di luar tugas pemodelan formal atau
pengujian hipotesis. Analisis data eksplorasi dipromosikan oleh John Tukey untuk mendorong ahli statistik menjelajahi
data, dan mungkin merumuskan hipotesis yang dapat mengarah pada pengumpulan dan eksperimen data baru. EDA
berbeda dari analisis data awal (IDA) , [1] yang berfokus lebih sempit pada pemeriksaan asumsi yang diperlukan untuk
penyesuaian model dan pengujian hipotesis, serta menangani nilai yang hilang dan membuat transformasi variabel
sesuai kebutuhan. EDA mencakup IDA.
Di antara cara yang paling baik dalam mempelajari Data Science adalah dengan terjun langsung ke dalam
proyek-proyek dengan real-world data. Dengan mengerjakan proyek Data Science, kita akan lebih memahami
setiap proses yang diperlukan untuk membuat suatu model Machine Learning, atau bahkan hanya untuk
sekedar menganalisis data dan menghasilkan insights. Dalam setiap proyek Data Science dan Machine
Learning, salah satu tahapan yang selalu dilalui adalah proses Exploratory Data Analysis atau yang biasa
disingkat menjadi EDA.
Apa itu Exploratory Data Analysis? Mengapa EDA penting untuk dilakukan? Apa yang akan terjadi apabila
suatu proyek Data Science tidak melakukan EDA? Lalu, Bagaimana cara melakukan EDA tersebut? Pada
artikel ini, DQLab akan berbagi pengetahuan kepada teman-teman semua dengan menjawab pertanyaan-
pertanyaan di atas. Yuk simak penjelasannya!
Secara definitif, Exploratory Data Analysis mengacu pada proses kritis dalam melakukan investigasi awal
pada data untuk menemukan pola, untuk menemukan anomali, untuk menguji hipotesis dan untuk memeriksa
asumsi dengan bantuan statistik ringkasan dan representasi grafis. Dengan melakukan EDA, kita dapat lebih
memahami kondisi dataset yang kita miliki. Sehingga, kita dapat memulai pembentukan model Machine
Learning dengan lebih baik kedepannya. 'Memahami kondisi dataset' dapat merujuk pada sejumlah hal
termasuk namun tidak terbatas pada poin poin berikut :
Dengan melakukan EDA, kita dapat mengubah data set yang hampir bisa digunakan menjadi data set yang
sepenuhnya bisa digunakan. Tentu saja, EDA bukanlah tools yang dapat secara ajaib dapat membuat data set
apapun menjadi bersih, itu tidak benar. Namun, banyak teknik EDA dapat memperbaiki beberapa masalah
umum yang muncul di setiap kumpulan data sebagaimana yang disebutkan di poin sebelumnya.
EDA menjadi penting karena tanpa melakukan Exploratory Data Analysis, kita bisa saja kehilangan banyak
informasi penting yang terdapat di dalam dataset kita. Selain itu, meski memakan waktu yang relatif cukup
lama, sesungguhnya EDA akan menghemat waktu pengerjaan proyek Data Science kita. Karena, apabila kita
melakukan data modelling tanpa menerapkan EDA, besar kemungkinan model yang akan kita lakukan
memiliki performa yang kurang baik. Karena kita membuat model tanpa benar-benar memahami kondisi data
yang kita miliki. Lalu, besar kemungkinan kita akan banyak menghabiskan waktu untuk mencari kesalahan
apa yang harus diperbaiki, dan mengulang proses data modelling kembali. Tentu proses ini sangat memakan
waktu. Dengan melakukan EDA, kita tidak perlu melakukan pengulangan seperti ini, atau setidaknya
mengurangi kemungkinan nya.
Pada artikel ini, tidak akan diberikan panduan yang rinci mengenai tahapan dalam melakukan EDA. Artikel
ini diharapkan dapat menjadi pengantar bagi kamu yang hendak memulai atau membuat Exploratory Data
Analysis dalam proyek data mu. Sehingga, dalam artikel ini, khususnya pada poin ini, akan dijelaskan apa
saja poin yang biasanya dilakukan dalam proses Exploratory Data Analysis.
Dalam melakukan EDA, kamu dapat memulainya dengan menjawab beberapa pertanyaan inti berikut :
• Pertanyaan apa yang kamu ingin untuk temukan jawabannya di dalam dataset ini?
• Bagaimana kondisi dan jenis data yang kamu miliki? Bagaimana kamu mengatasi perbedaan jenis
dan tipe data di dalamnya?
• Apa yang hilang dari data mu? Bagaimana kamu akan mengatasi nya? Adakah variabel lain yang
dapat dijadikan tolak ukur?
• Di variabel mana sajakah outlier ditemukan? Bagaimana cara terbaik dalam mengatasinya?
• Bagaimana kamu akan menambah, mengurangi, atau memanipulasi variabel yang sudah kamu
miliki? Mengapa demikian?
• Model Machine Learning apa yang berpotensi untuk dibentuk menggunakan data mu? Bagaimana
persiapan yang harus kamu lakukan terhadap datamu?
Apabila kamu sudah menjawab semua pertanyaan di atas, maka kamu sudah dapat dikatakan telah melakukan
proses Exploratory Data Analysis. Pada tahap ini, seharusnya kamu sudah memahami dengan mendalam
kondisi data yang kamu miliki dan siap untuk membuat Machine Learning model. Dalam menjawab semua
pertanyaan di atas, usahakan untuk menggunakan berbagai visualisasi dan disertai dengan penjelasan
angkanya. Mengapa Demikian? Karena terkadang visualisasi saja tanpa disertai dengan penjelasan angka
dapat menimbulkan bias. Untuk menguranginya, kamu dapat menambahkan visualisasi dengan berbagai jenis
plot, dan melengkapinya dengan angka.
John W. Tukey menulis buku Analisis Data Eksplorasi pada tahun 1977. [4] Tukey berpendapat bahwa terlalu
banyak penekanan dalam statistik ditempatkan pada pengujian hipotesis statistik (analisis data konfirmatori);
lebih banyak penekanan perlu ditempatkan pada penggunaan data untuk menyarankan hipotesis untuk diuji.
Secara khusus, dia berpendapat bahwa membingungkan dua jenis analisis dan menerapkannya pada kumpulan
data yang sama dapat menyebabkan bias sistematis karena masalah yang melekat dalam pengujian hipotesis
yang disarankan oleh data .
Banyak teknik EDA telah diadopsi ke dalam data mining . Mereka juga diajarkan kepada siswa muda sebagai
cara untuk memperkenalkan mereka pada pemikiran statistik. [6]
Ada sejumlah alat yang berguna untuk EDA, tetapi EDA lebih dicirikan oleh sikap yang diambil daripada
teknik tertentu. [7]
• Plot kotak
• Histogram
• Bagan multi-vari
• Jalankan bagan
• Bagan Pareto
• Plot pencar
• Plot batang dan daun
• Koordinat paralel
• Rasio peluang
• Pengejaran proyeksi yang ditargetkan
• Metode visualisasi berbasis mesin terbang seperti PhenoPlot [8] dan wajah Chernoff
• Metode proyeksi seperti grand tour, guide tour dan manual tour
• Versi interaktif dari plot ini
Pengurangan dimensi :
• Penskalaan multidimensi
• Analisis komponen utama (PCA)
• PCA multilinear
• Reduksi dimensi nonlinier (NLDR)
• Poles median
• Trimean
• Pentahbisan
Contoh :
Temuan-temuan dari EDA bersifat ortogonal dengan tugas analisis utama. Sebagai ilustrasi, perhatikan contoh
dari Cook et al. di mana tugas analisisnya adalah menemukan variabel yang paling baik memprediksi tip yang
akan diberikan pesta makan kepada pelayan. [10] Variabel yang tersedia dalam data yang dikumpulkan untuk
tugas ini adalah: jumlah tip, total tagihan, jenis kelamin pembayar, bagian merokok / tidak merokok, waktu,
hari, dan ukuran pesta. Tugas analisis utama didekati dengan menyesuaikan model regresi di mana tingkat tip
adalah variabel respon. Model yang dipasang adalah
yang mengatakan bahwa karena ukuran pesta makan bertambah satu orang (yang mengarah ke tagihan yang
lebih tinggi), tarif tip akan berkurang 1%.
Namun, menjelajahi data mengungkapkan fitur menarik lainnya yang tidak dijelaskan oleh model ini.
Histogram jumlah tip di mana tempat sampah menutupi kenaikan $ 1. Distribusi nilai miring ke kanan
dan unimodal, seperti yang umum terjadi pada distribusi jumlah kecil non-negatif.
Histogram jumlah tip di mana tempat sampah menutupi kenaikan $ 0,10. Fenomena yang menarik
terlihat: puncak terjadi pada nilai satu dolar dan setengah dolar, yang disebabkan oleh pelanggan yang
memilih angka bulat sebagai tip. Perilaku ini juga umum terjadi pada jenis pembelian lain, seperti
bensin.
Sebar tip vs. tagihan. Poin di bawah garis sesuai dengan tip yang lebih rendah dari yang diharapkan
(untuk jumlah tagihan itu), dan poin di atas garis lebih tinggi dari yang diharapkan. Kami mungkin
berharap untuk melihat asosiasi linier yang erat dan positif, tetapi sebaliknya melihat variasi yang
meningkat dengan jumlah tip . Secara khusus, terdapat lebih banyak titik jauh dari garis di kanan bawah
daripada di kiri atas, yang menunjukkan bahwa lebih banyak pelanggan yang sangat murah daripada
sangat dermawan.
•
Sebar tip vs. tagihan dipisahkan oleh jenis kelamin pembayar dan status bagian merokok. Pesta
merokok memiliki lebih banyak variasi dalam tip yang mereka berikan. Laki-laki cenderung
membayar (sedikit) tagihan lebih tinggi, dan perempuan bukan perokok cenderung sangat konsisten
(dengan tiga pengecualian mencolok ditunjukkan dalam sampel).
Apa yang dipelajari dari plot berbeda dari apa yang diilustrasikan oleh model regresi, meskipun eksperimen
tidak dirancang untuk menyelidiki tren lain ini. Pola yang ditemukan dengan menjelajahi data menunjukkan
hipotesis tentang pemberian tip yang mungkin tidak diantisipasi sebelumnya, dan yang dapat mengarah pada
eksperimen lanjutan yang menarik di mana hipotesis dinyatakan secara resmi dan diuji dengan mengumpulkan
data baru.
• Data Preparation
• Data Cleansing
• Exploratory Data Analysis
• Feature Engineering
• Modeling
• Evaluation
• Deployment
Exploratory Data Analysis memungkinkan analyst memahami isi data yang digunakan, mulai dari distribusi,
frekuensi, korelasi dan lainnya. Dalam prakteknya, curiousity sangat penting dalam proses ini, pemahaman
konteks data juga diperhatikan, karena akan menjawab masalah masalah dasar.
Pada umumnya EDA dilakukan dengan beberapa cara:
1. Missing Value
Penulis menggunakan seaborn untuk proses EDA ini, ada banyak sekali tools untuk analysis dasar, mulai dari
Matplotlib sampai tableau. Karena saya bekerja biasa dengan Python dan tampilan Seaborn juga bagus.
Hal yang pertama dilihat setelah loading dataset yaitu dimensi data, dan deskripsi statistik seperti mean,
median, mode, quartile, standard deviation. Figure 1 diatas menggambarkan seberapa banyak missing value
di setiap variable. Dari sini bisa kita lihat PoolQC merupakan yang paling banyak missingnya. Missing value
ini bisa kita masukan nilainya tergantung tipe datanya, jika tipe data kategori bisa kita input missing value
dari modus, atau jika continuous bisa berupa mean / median dari variabel tersebut. Namun jika kita lihat dalam
dokumentasi datasetnya, nilai N/A dalam PoolQC artinya ‘No Pool’, maka penulis mengisi nilai missing
tersebut dengan ‘None’. Begitu juga dengan variabel variabel yang lainnya missing value diisi dengan None
atau Mean.
2. Sale Price histogram
Analisis yang umum dilakukan ketika target variabel berupa numerik adalah melihat histogramnya apakah
berdistribusi normal atau tidak. Jika kasusnya target variabel adalah diskrit berupa binary atau multi-class
dicek distribusinya balance atau tidak. Dengan histogram ini kita dapat mengetahui apakah datanya skewed
atau tidak. Figure 2 diatas menunjukan data agak skewed ke kiri. Untuk membuat datanya berdistribusi
normal bisa menggunakan log.
3. semua histogram
Pada dasarnya histogram sangat membantu untuk mengetahui apakah data tersebut berdistribusi normal atau
tidak, sehingga kita bisa memikirkan langkah selanjutnya. karena datanya banyak yang skewed kekiri, ditahap
selanjutnya kita bisa melakukan scaling baik itu standard scaler atau robust scaler.
Penulis menggunakan subplots di matplotlib untuk mendapatkan semua histogram, cara ini lebih cepat
daripada satu-per-satu variabel dibuatkan histogramnya sehingga dapat mempercepat waktu analisis.
4. sebaran data semua variabel terhadap sale price
Scatterplot memberi tahu kita apakah ada hubungan antara 2 variabel. Dalam hal ini apakah ada hubungan
yang linear antara variabel lain dengan sale price. Selain itu dari scatterplot ini juga bisa di-breakdown lagi
berdasarkan warna dan bentuk dari tiap-tiap endpoint. selengkapnya bisa lihat di dokumentasi Seaborn.
Ground Living Area adalah salah satu variabel yang cukup linear dengan sale price. semakin besar nilal
GrLvArea maka semakin tinggi pula nilai SalePrice. Maka dari itu, jika kita melihat kernel-kernel yang ada
dalam kompetisi tersebut, biasanya mereka melakukan penghapusan data berdasarkan variabel ground living
area yang outlier.
5. bar chart semua variabel kategori
Figure 5 menunjukan frekuensi value dari variabel kategori. Figure diatas dapat memberi tahu kita variabel
kategori tersebut sangat tidak seimbang, sehingga nantinya bisa kita modifikasi value-value yang sedikit
digabung menjadi satu.
Hal yang turut diperhatikan juga ada variabel kategori tersebut memiliki banyak value seperti variabel
Neighborhood. Neighborhood memiliki 25 nilai yang berbeda. Biasanya variabel kategori ini dibuat menjadi
One-Hot Encoding namun jika banyak seperti ini cara tersebut menjadi tidak efektif, cara lainnya bisa
menggunakan probability setiap value lalu prob yang nilainya sama digabungkan menjadi value yang sama.
Analisis korelasi menjelaskan ada atau tidaknya hubungan antar dua variabel. Nilai Korelasi bisa positif atau
negatif atau lemah. Korelasi positif yang artinya jika penambahan pada nilai X maka bertambah juga nilai Y.
Korelasi negatif menjelaskan hubungan setiap kenaikan nilai X maka ada penurunan pada nilai Y. Korelasi
yang lemah menjelaskan dua variabel ini tidak ada hubungannya sama sekali. Biasanya korelasi dikatakan
sangat kuat jika nilainya melebihi 0.7 jika kurang dari tersebut korelasi antar dua variabel tersebut lemah.
Figure 6 menggambarkan nilai korelasi antar variabel. Highlight dari figure ini adalah variabel OverallQual
memiliki korelasi positif dengan SalePrice. hal ini sangat masuk akal karena variabel OverallQual
menjelaskan kualitas finishing rumah yang dijual. semakin baik kualitasnya maka semakin tinggi harga rumah
tersebut.
7. box plot sale price over year built
Analisis box plot menggambarkan distribusi sebuah data. Figure 7 menggambarkan sebaran data sale price
terhadap year built. bisa kita lihat semakin tahun bertambah semakin banyak harga rumah yang outlier. Garis
paling atas merupakan Q3 yang artinya maximum value, garis tengah adalah median, dan garis paling bawah
adalah Q1. kotak tersebut menggambarkan interquartile. Namun, analisis seperti ini harus hati hati, karena
mungkin saja rumah yang dibagun tidak ada hubungannya sama harga rumah jadi bisa outlier. ada faktor
faktor lain yang mempengaruhi sebuah harga rumah sangat jauh berbeda walau tahun pembangunannya sama.
8. scatter plot sale price over ground living area for each house area
Figure 8 menggambarkan sebaran data ground living area dan sale price disetiap area rumah. kotak pertama
menggambarkan harga rumah di area rural low density. kedua rural medium density, ketiga commerical,
keempat faving, kelima rural high density. Dari lima figure tersebut rumah commercial memiliki
kecenderungan dengan harga yang murah sedangkan rumah paving lebih mahal.
Bisa dilihat dataset ini lebih menjelaskan data ini dikhususkan untuk memprediksi rumah yang ada di area
rural low density. Perlu diingat juga model machine learning yang dibuat sangat spesifik. Kita tidak bisa
membuat model machine learning yang sangat general yang bisa dipakai mana saja. Jika tujuannya untuk
mengcover semua segement semperti area yang disebutkan diatas, maka distribusi datanya juga harus
seimbang.
Conclusion
Exploratory Data Analysis sangat penting untuk dilakukan sebelum tahap pemodelan. Dari analisis ini
menjawab pertanyaan-pertanyaan dasar. Tentunya masih banyak analisis yang bisa dilakukan dari dataset ini
dan penulis hanya membahas sebagian kecil saja. Bervariasinya variabel variabel yang tersedia kita dapat
membuat variabel baru dan mencari hubungannya dengan variabel target sehingga dapat menambah informasi
yang berguna untuk pemodelan.
Analisis data eksploratif
Langkah pertama dalam menganalisis data adalah mempelajari karakteristik dari data tersebut. Terdapat
beberapa alasan penting yang perlu kita pertimbangkan secara cermat sebelum analisis data sebenarnya kita
lakukan. Alasan pertama pemeriksaan data adalah untuk memeriksa kesalahan-kesalahan yang mungkin
terjadi pada berbagai tahap, mulai dari pencatatan data di lapangan sampai pada entry data pada komputer.
Alasan berikutnya adalah untuk tujuan eksplorasi data sehingga kita bisa menentukan model analisis yang
tepat.
Seperti kita ketahui, penelitian yang dilakukan secara ilmiah merupakan sebuah aktivitas yang bisa
dianalogkan dengan pemecahan puzzle. Penelitian harus berpusat pada masalah, bukan pada tools analisis
statistik yang digunakan. Sikap ingin tahu, curiga, dan imajinasi merupakan kunci utama dalam proses
penemuan tersebut. Eksplorasi data merupakan bagian yang integral dari persepsi kita. Apabila tujuan akhir
dari penelitian bukan untuk menghasilkan inferensi kausal, analisis data selanjutnya sudah tidak diperlukan
lagi. Namun apabila diperlukan, analisis data eksploratori sangat menunjang dalam menelaah dan menemukan
tentang sifat-sifat data yang nantinya dapat berguna dalam menyeleksi model statistik yang tepat. Dengan
demikian, pada analisis data eksploratif, sifat dari data pengamatanlah yang akan menentukan model analisis
statistik yang sesuai (atau perbaikan dari analisis yang sudah direncanakan).
Analisis data eksploratif (Exploratory Data Analysis – EDA) merupakan metode eksplorasi data dengan
menggunakan teknik aritmatika sederhana dan teknik grafis dalam meringkas data pengamatan.
Kontribusi utama dari pendekatan analisis data secara eksploratif terletak pada penyajian seluruh ringkasan
statistik secara visual. Ringkasan statistik secara numerik saja, dapat mengaburkan, menyembunyikan, atau
bahkan salah dalam merepresentasikan struktur data. Apabila ringkasan numerik digunakan secara terpisah
dan langsung diterima tanpa pemeriksaan data terlebih dahulu secara visual mungkin akan mengakibatkan
pemilihan model tidak tepat. Pemilihan model yang langsung dilakukan secara tergesa-gesa dan mungkin
berdasarkan pada asumsi yang salah akan mengakibatkan penarikan kesimpulan yang salah. Untuk alasan
tersebut, analisis pendahuluan harus dimulai dengan pemeriksaan secara visual, bukan ringkasan data secara
numerik.
1. Klasis (Classical)
2. Eksploratif (Exploratory (EDA))
3. Bayesian
Dengan demikian, EDA merupakan salah satu dari tigak teknik pendekatan analisis data yang ada. Ketiga
pendekatan tersebut mempunyai kemiripan, semuanya dimulai dari teori atau permasalahan umum dan
diakhiri dengan suatu kesimpulan. Perbedaannya terletak pada urutan dan fokus dari langkah-langkah
perantara.
• Analisis klasik, urutannya:
o Masalah → Data → Model → Analisis → Kesimpulan
• EDA, urutannya:
o Masalah → Data → Analisis → Model → Kesimpulan
• Bayesian, urutannya:
o Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan
Jadi, pada analisis klasik, pengumpulan data diikuti dengan penerapan model (normalitas, linieritas, dll) dan
selanjutnya adalah analisis, estimasi, dan pengujian yang difokuskan pada model parameter tersebut. Pada
EDA, pengumpulan data tidak diikuti dengan penerapan model, melainkan segera diikuti dengan analisis
dengan tujuan untuk menentukan model apa yang akan sesuai. Akhirnya, metode pendugaan Bayesian
merupakan proses pendugaan dengan mempertimbangkan dua hal, yaitu data yang sekarang kita miliki dan
informasi awal mengenai kasus yang sedang kita teliti. Keduanya digunakan secara bersama-sama untuk
membuat suatu kesimpulan atau uji asumsi mengenai model parameter.
Pada kenyataannya, analisis data merupakan kombinasi dari ketiga pendekatan di atas (serta pendekatan-
pendekatan lainnya). Perbedaan tersebut diatas hanya diuraikan untuk menekankan perbedaan utama dari
ketiga pendekatan tersebut.
EDA bukan seperangkat teknik. EDA merupakan suatu pendekatan, pola/sikap/filosofi tentang bagaimana
kita dalam menganalisis sekumpulan data. Lalu, apakah EDA sama dengan statistik grafis? Jawabannya adalah
tidak. EDA memang banyak menggunakan teknik grafis, tapi EDA tidak identik dengan analisis grafik
meskipun keduanya mirip dan kadang terminologinya sering bolak-balik. Pendekatan analisis secara grafis
hanya terbatas pada sekumpulan perangkat teknik yang semuanya bersifat grafis dan hanya fokus kepada satu
aspek karakteristik data saja, sedangkan EDA mencakup area yang lebih luas. EDA lebih menekankan pada
pendekatan langsung sehingga data sendirilah yang bisa mengungkapkan struktur dan modelnya.
Beberapa teknik grafis yang sering digunakan dalam EDA seringkali sangat sederhana. Teknik-teknik
tersebut diantaranya adalah:
Struktur data yang paling umum adalah kumpulan dari angka-angka. Struktur ini sangat sederhana, namun
apabila jumlah data pengamatan sangat besar, sangat sulit bagi kita untuk melihat gambaran karakteristik data
tersebut secara menyeluruh apabila hanya sekedar melihat deretan angka yang begitu banyak.
Terdapat beberapa teknik untuk meringkas dan mempelajari karakteristik dan distribusi data di mana data
dapat digambarkan secara grafis. Diantaranya adalah histogram, dotplot, stem-and-leaf plot, density trace, box
plot, dan probability plot.
Histogram
Dotplot
Stem-and-leaf plot
MINITAB:
Stem-and-leaf of Nilai Ujian N = 80
Leaf Unit = 1.0
2 3 58
5 4 389
8 5 169
19 6 00133356778
(24) 7 000011122233444455667899
37 8 0000111223334566788889
15 9 000111223335789
^ ^ ^
f stem | leaf
Box-plot
Ada 5 alur kerja yang harus dipahami seorang data scientist:
1. Pahami bisnis perusahaan Sebagai praktisi data, kamu harus memahami bisnis apa yang perusahaan jalani.
Dengan memahami bisnis perusahaan, kamu akan mengetahui dampak apa yang akan dihasilkan.
Memahami bisnis merupakan langkah awal memetakan masalah dan menghasilkan solusi tepat untuk
perusahaan.
2. Data collection Setelah mengerti bisnis perusahaan, tentu kamu akan mendapatkan banyak data. Data yang
diperoleh berasal dari sumber berbeda-beda, pengumpulan data ini memungkinkan praktisi data melakukan
uji hipotesis. “Jika sudah mengerti bisnisnya apa, kemudian kita lakukan yang namanya collection data,
dimana data yang diperoleh itu dari sumber yang berbeda-beda,” ujar Reny, Data Scientist CT Corp.
3. Data cleansing Ternyata seorang praktisi data lebih banyak menghabiskan waktu melakukan data cleansing
atau pembersihan data. Hal ini sangat penting dilakukan karena bertujuan mengurangi data tidak lengkap
dan menghindari duplikasi data agar data dihasilkan menjadi valid. “Kita harus melakukan data cleansing,
karena saat kita mengumpulkan data pastinya ada data-data yang tidak bersih dan ada data-data yang
hilang.” Tambah Reny.
4. Exploratory data analysis Exploratory Data Analysis memungkinkan praktisi memahami isi data digunakan,
mulai dari distribusi, frekuensi, korelasi dan lainnya. Dalam prakteknya, softskill keingintahuan yang tinggi
sangat diperlukan dalam proses ini. Pemahaman data juga diperhatikan, karena bertujuan menjawab
masalah perusahaan.
5. Data visualization Dengan visualisasi data, praktisi bisa membaca dan menganalisis data dalam bentuk
visual dan mendapatkan ide dari data dengan mudah. Ini adalah kesempatan praktisi untuk
mengkomunikasikan data yang nantinya akan mempengaruhi model yang dibuat praktisi.