Pandas IntroAnalisisData
Pandas IntroAnalisisData
Pandas IntroAnalisisData
1. Hilbert, M & Lopez, P. (2011), “ (c) The Bi Data Revoluition, CNR SMagazine, 2013
The world’s technological capacity to store, communicate and compute information”, Science 332, 1 April 2011,
60-65 4
2. IDC (2010), “IDC Digital Uiverse Study, spomnsored by EMC”, May 2010
Big Data, IoT
1018 bytes/day
(2024, est.)
24 PB/day
22 PB (2012,
(2009)
the Large Hadron
2.5 PB of user data + Collider)
15 TB/day (2009)
Scientific Data,
6.5 PB of user data + Scientific Instruments
50 TB/day (2009)
Web, Social Media & Network
Sumber: https://www.quora.com/Can-someone-give-a-simple-example-for-data-
information-knowledge-and-wisdom
19/10/2019 Pengenalan Teknologi Informasi 9
Sumber: https://www.quora.com/Can-someone-give-a-simple-example-for-data-
information-knowledge-and-wisdom
Sumber:
https://ketakirk.wordpress.com/2016/04/03/an-end-to-end-data-analysis-workflow/
Sumber:
2017 Planning Guide for Data and Analytics
19/10/2019 Pengenalan Teknologi Informasi 15
Descriptive Analytics
• Jenis paling sederhana dari Data Analytics
• Analisis terhadap data history untuk mendapatkan profil umum dalam
bentuk summary dari data atau hubungan antar data untuk
menjelaskan situasi yang telah terjadi.
• Contoh hasil analisis:
• Banyaknya friend, mention, followers, page views
• Banyaknya page views
• Perbandingan banyaknya mahasiswa antar prodi di ITB
• Rata-rata nilai mahasiswa peserta PTIB
• Hubungan antara banyaknya jam belajar dengan prestasi akademik
• Ada kecenderungan bahwa orang beli roti tawar bersamaan dengan
butter/mentega
• dll
Sumber:
https://www.whitepapers.em360tech.com/wp-content/files_mf/1407250286DAMAUKDQDimensionsWhitePaperR37.pdf
https://www.cdc.gov/ncbddd/hearingloss/documents/dataqualityworksheet.pdf
https://www.rfigroup.com/rfi-group/news/rfi-group-opinion-australia-why-business-leaders-need-own-data-quality
19/10/2019 Pengenalan Teknologi Informasi 21
Representasi Data berdasar Strukturnya
• Structured Data
• Data dalam bentuk table/relational
• Contoh: data dalam xls, data tersimpan dalam relational DBMS
• Semi-structured Data
• Data yang tidak direpresentasikan dalam bentuk table, namun masih
memiliki struktur/pengorganisasian yang memudahkan proses/analisis
• Contoh: data dalam format xls, json, noSQL database
• Unstructured Data
• Data yang tidak memiliki struktur yang memudahkan proses/analisis
• Contoh: data teks, data video, data foto
#Ambil semua data negara yang tidak mendapatkan medali emas atau
#perak atau perunggu
df3.loc[(df3["gold"] == 0) | (df3["silver"] == 0) |
(df3["bronze"] == 0)]
Latihan-3:
Sort data perolehan medali terurut menurun berdasarkan kolom
gold dan terurut menaik berdasarkan kolom silver
19/10/2019 Pengenalan Teknologi Informasi 37
Counting Frequency
Menghitung banyaknya kemunculan
suatu data item pada suatu kolom →
distribusi kemunculan nilai
#Counting frequency kolom bronze
df3["bronze"].value_counts()
Latihan-4
Buatlah distribusi frekuensi untuk
total perolehan medali.
19/10/2019 Pengenalan Teknologi Informasi 38
Statistics Summary, Characterize Distribution
Menampilkan beberapa statistik penting pada data
df3.describe()
Sumber:
https://www.mathsisfun.com/data/correlation.html