UTS Big Data Fredy Firmansyah 1811600822
UTS Big Data Fredy Firmansyah 1811600822
UTS Big Data Fredy Firmansyah 1811600822
PERSOALAN:
1. Jelaskan Definisi Big Data ? b. Mengapa Harus menggunakan 6V ? Jelaskan peranan masing2 “V” ?
2.Dari evolusi Internet 1.0 (Access) ke 2.0(Service) ke 3.0 (People) dst.... hingga Internet 6.0 (Intelligent).
a. Kapan lahir Big Data, maksudnya Hadoop? Mengapa Hadoop Big Data Tech. dibutuhkan enterprise ?
b. Siapa saja yang berperan menciptakan Hadoop ? Apa yang mendorong mereka ?
4. a. Apa yang harus dilakukan terkait Bisnis Strategy, IT Strategy di era Small data (IT) dan bagaimana
dengan Bisnis dan Data Strategy di era Big Data (DT) ? Jelaskan dengan diagram
5. Bagaimana menggunakan dan menjelaskan konsep” S-M-A-R-T” pada Strategy Bisnis di era Data
Driven Enterprise ? Jelaskan dengan diagram .
Apa beda perusahaan yang menerapkan Big Data dan tidak ? Beri beberapa contoh kasus ?
(Hint: 1.Jelaskan satu persatu siklus atau tingkatan dari S-M-A-R-T ? 2. Start with Strategy)
6. a. Beri minimal satu contoh (Studi Kasus) Allignment Strategy Sales Department dari sebuah
Perusahaan (Corporate) dengan Data Strategy ?
b. Bagaimana menerapkan konsep S-M-A-R-T terkait studi kasus diatas ?
Mengapa harus memanfaatkan Hypothesis (Research Questions)?
7. Jelaskan Traditional Small Data RDBMS & Big Data Technology terkait Data Source Integrations ?
Jelaskan dengan diagram agar lebih jelas flow nya. ?
8. a. Jelaskan HDFS ? Bagaimana prosesnya dari GFS ke HDFS dan kenapa awalnya ada GFS ?
b. Ceritakan Sejarah Singkat Hadoop ecosystems dari 2003 hingga sekarang ?
c. Jelaskan SQL dan No SQL ?
d. Bagaimana Hadoop memproses data source yang SQL dan No SQL ?
Jawab :
1. Big Data adalah istilah umum untuk segala kumpulan himpunan data dalam jumlah yang sangat
besar dan kompleks sehingga menjadikannya sulit untuk ditangani atau di proses jika hanya
menggunakan manajemen basis data biasa atau aplikasi pemroses data tradisional.
Hal terpenting dari Big Data bukanlah sekedar kemampuan teknis untuk mengolah data
melainkan manfaat yang dapat disadari oleh perusahaan dengan menggunakan Big Data Analytics
Terminologi Big Data diyakini berasal dari perusahaan pencarian web yang mengolah data
dengana gregasi yang terdistribusi sangat besar dan tidak terstruktur.
Big Data dijelaskan dengan enam V : volume, variasi, kecepatan, nilai, kebenaran, dan variabilitas.
1. Volume
Volume adalah fitur yang jelas dari data besar dan terutama tentang hubungan antara ukuran
dan kapasitas pemrosesan. Aspek ini berubah dengan cepat karena pengumpulan data terus
meningkat. Sama seperti kapasitas TI untuk penyimpanan dan pemrosesan.
2. variasi
V of variety menggambarkan beragam data yang disimpan dan masih perlu diproses dan
dianalisis. Jenis data baru dari jaringan sosial dan perangkat seluler, antara lain, melengkapi
tipe informasi terstruktur yang ada. Misalnya: file audio dan video, foto, data GPS, file medis,
pengukuran instrumen, grafik, dokumen web, kartu bonus, dan perilaku pencarian internet.
Data yang tidak terstruktur seperti suara dan media sosial membuat pemrosesan dan
pengelompokan data menjadi lebih rumit.
3. Kecepatan
Velocity adalah pengukuran nilai sementara data. Data besar berubah dengan cepat. Oleh
karena itu, kita perlu memproses aliran data terstruktur dan tidak terstruktur dengan cepat
untuk mengambil keuntungan dari data geolokasi, persepsi dan tren, dan informasi pasar dan
pelanggan yang tersedia secara real time. Velocity melibatkan kondisi yang Anda perlukan
untuk memproses data Anda dalam beberapa menit atau detik untuk mendapatkan hasil yang
Anda cari.
4. Nilai
V ini menjelaskan nilai apa yang bisa Anda dapatkan dari data mana dan seberapa besar data
mendapatkan hasil yang lebih baik dari data yang disimpan.
5. kejujuran
Veracity menunjukkan kualitas dan asal data, memungkinkannya untuk dipertanyakan,
bertentangan atau tidak murni, dan memberikan informasi tentang hal-hal yang Anda tidak
yakin bagaimana harus berurusan dengan
6. Variabilitas
Dengan cara ini, komposisi kuesioner atau, misalnya, tombol berhenti berlangganan
mengubah bagaimana hal-hal tampak kepada orang dan dengan demikian hasilnya. Secara
teknis murni ini berarti: jika Anda mengubah variabel, model Anda juga akan berubah.
2. Hadoop adalah framework atau platform open source berbasis Java yang berada di bawah lisensi
Apache dan digunakan untuk mendukung aplikasi yang berjalan pada big data.
Hadoop pertama kali dikembangkan oleh Doug Cutting dan Mike Cafarella yang saat itu bekerja
di Yahoo pada tahun 2005. Nama Hadoop diambil dari nama mainan gajah milik anak dari Doug
Cutting. Pengembangan Hadoop ini terinspirasi dari makalah tentang Google MapReduce dan
Google File System (GFS) yang ditulis oleh ilmuwan Google, yaitu Jeffrey Dean dan Sanjay
Ghemawat pada tahun 2003.
Ekosistem Hadoop
Ekosistem Hadoop
Ekosistem Hadoop pada awalnya hanya terdiri dari empat modul utama, yaitu:
2. Hadoop MapReduce, sebuah model algoritma untuk pengelolaan data skala besar dengan
komputasi secara terdistribusi
4. Hadoop Common, berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya
Namun, semenjak tahun 2008, ekosistem Hadoop tidak hanya terdiri dari empat modul utama
tersebut, tetapi juga terdiri dari kumpulan modul open source, seperti Hive, Pig, Oozie, Zookeeper,
Flume, Sqoop, Mahout, HBase, Ambari, Spark, dan lain sebagainya.
b. Pembuatan Hadoop adalah sebuah inspirasi setelah terbitnya paper Google File System (GFS)
pada Oktober 2003. Isi dari paper tersebut adalah gambaran tentang Big Data yang digunakan
untuk menampung data milik Google yang sangat besar. Pada tahun 2005, Doug Cutting dan Mike
Cafarella
3. Hubungan Big data dan BlockChain yaitu Blockchain digunakan sangat handal dalam hal
menangani data transaksi tercatat dan juga transparansi serta keamanannya yang menggunakan
algoritma kriptografi didalamnya menjadikan teknologi BlockChain handal.
Perbedaan Teknologi ini dinamakan teknologi BlockChain. Secara sederhana, BlockChain
merupakan kumpulan data yang tercatat dalam database yang bisa berisi identitas data digital,
transaksi, item-item yang tercatat dengan baik. Di dalam ilmu struktur data digunakan dalam
menangani data-data tersebut yang ditambahkan dengan algoritma kriptografi untuk
pengamanan datanya, salah satu contohnya transaksi Bitcoin. Sementara Big data
Big Data adalah istilah umum untuk segala kumpulan himpunan data dalam jumlah yang sangat
besar dan kompleks sehingga menjadikannya sulit untuk ditangani atau di proses jika hanya
menggunakan manajemen basis data biasa atau aplikasi pemroses data tradisional.
Hal terpenting dari Big Data bukanlah sekedar kemampuan teknis untuk mengolah data
melainkan manfaat yang dapat disadari oleh perusahaan dengan menggunakan Big Data Analytics
Terminologi Big Data diyakini berasal dari perusahaan pencarian web yang mengolah data
dengana gregasi yang terdistribusi sangat besar dan tidak terstruktur..
Penting untuk mengenali mengapa data bersih meningkatkan kualitas keseluruhan untuk semua
orang di organisasi Anda. Berikut adalah lima alasan utama saatnya berkontribusi untuk
membersihkan upaya data:
1. meningkatkan produktivitas dan menurunkan risiko operasional Anda.
Organisasi membuat semakin banyak informasi dengan email, perpesanan instan, media sosial,
gambar dan video - dan daftar itu terus bertambah. Informasi ini tidak teratur dan sulit, jika
bukan tidak mungkin, untuk dianalisis, namun data tersebut memiliki nilai yang luar biasa bagi
analis TI. IDC memperkirakan bahwa pada tahun 2020, 37 persen dari data yang tidak
terstruktur akan berguna jika dianalisis dengan benar, menghasilkan $ 430 miliar dalam
peningkatan produktivitas bagi organisasi jika digunakan dengan benar. Data yang dikelola
dengan benar meningkatkan kemampuan Anda untuk menemukan dokumen saat Anda
membutuhkannya.
2. meningkatkan kapasitas Anda untuk memanfaatkan teknologi dan mengungkap nilai potensial.
Kita semua tahu ungkapan "sederhanakan," namun mantra kadang-kadang bisa tampak
mustahil untuk diterapkan di dunia volume data massa. Yang benar adalah, semakin sederhana
data Anda diklasifikasikan, semakin mudah untuk memanfaatkan teknologi di sekitarnya.
Setelah dikategorikan dengan benar, teknologi AI dapat memberi Anda pemahaman yang lebih
komprehensif tentang data Anda, menyelesaikan kebocoran data informasi pribadi, dan
mengungkap wawasan bisnis dan nilai potensial dalam data gelap mahal yang Anda simpan -
dan tidak digunakan.
3. mengurangi risiko keamanan siber Anda untuk membantu menjaga merek Anda terlindungi.
Menjaga identitas merek organisasi Anda sangat penting untuk tetap kompetitif di industri apa
pun. Setiap pelanggaran data perusahaan atau informasi pelanggan pribadi secara signifikan
mengurangi kepercayaan konsumen pada organisasi itu yang akan berdampak pada laba
bersihnya. Dalam sebuah studi 2018, IBM dan Ponemon Institute menemukan bahwa biaya
rata-rata dari pelanggaran data adalah $ 3,86 juta USD. Menyusun data Anda mengurangi risiko
sungsang data dan mempertahankan reputasi merek perusahaan Anda.
4. meningkatkan literasi data di antara para pemangku kepentingan Anda.
Bayangkan sebuah organisasi di mana setiap departemen berbicara dengan bahasa mereka
sendiri yang unik. Itulah dasarnya fungsi bisnis berbasis data saat tidak ada literasi data. Jika
tidak ada orang di luar departemen yang mengerti apa yang dikatakan, tidak masalah jika
analisis data menawarkan nilai bisnis yang sangat besar dan merupakan komponen yang
diperlukan dari bisnis apa pun di era digital ini.
Sekalipun suatu organisasi memiliki pola pikir digital, mengkomunikasikan nilai bisnis kepada
konsumen global tampaknya hampir mustahil. Agar tetap kompetitif, organisasi harus
memperjuangkan literasi data dan memberikan kesadaran tentang praktik terbaik pengelolaan
data untuk semua departemen.
5. Memungkinkan Anda untuk membebaskan diri dari ROT. Membersihkan data buruk tidak hanya
di th
4. Teknologi big data terus berubah dengan sangat cepat. Beberapa tahun yang lalu, Apache Hadoop
adalah teknologi populer yang digunakan untuk menangani data besar. Kemudian Apache Spark
diperkenalkan pada tahun 2014. Saat ini, kombinasi dari dua software ini tampaknya merupakan
pendekatan terbaik. Mengikuti teknologi big data masih menjadi suatu tantangan berkelanjutan
baik untuk individual maupun organisasi.
6. Contoh strategi penjualan dan pemasaran yang telah kita bahas di blog lain membahasnya
secara rinci. Menurut The Payoffs of Improved Sales & Marketing Alignment, bisnis AS
kehilangan $ 1 triliun per tahun. Ini karena produktivitas yang terbuang karena strategi
penjualan dan pemasaran yang tidak selaras. bisa berarti sebanyak 60 persen kinerja keuangan
lebih lemah. Ini juga bisa berarti pengurangan 58 persen dalam retensi pelanggan, di antara
faktor-faktor negatif lainnya. Inilah yang perlu dilakukan untuk menyelaraskan Bisnis untuk
sukses.:
1. Memastikan kolaborasi terbuka antara analisis statistik dan proses data.
Tim tidak dapat menyelaraskan jika mereka tidak bekerja bersama.
Mulailah membantu tim bisnis anda bekerja sebagai satu unit yang lebih besar dengan
mendorong mereka agar terbuka dan transparan.
2. Jelaskan apa yang memimpin dalam organisasi anda.
Sains data dan big data dan penjualan harus memiliki definisi yang sama tentang arahan
berkualitas.
Ilmuwan data masuk dan gagasan data besar gagal jika sasarannya mengarah pada penjualan
yang tidak dianggap berkualitas. Sebagai imbalannya, penjualan memutar rodanya,
mengirimkan lead kembali ke antrian jika mereka tidak mulai bergerak.
3. Dokumen proses penanganan dari data ilmiah dan data besar untuk penjualan.
Strategi penjualan anda tidak dapat mulai bekerja jika arahan yang memenuhi syarat tidak
membuatnya dari data scienctis dan big data hingga penjualan tepat waktu.
4. Bekerja bersama kembangkan pembeli ideal.
Kedua tim harus memiliki konsep target pasar yang sama. Jika konsep audiens target berbeda
antara penjualan dan data sains dan big data, jurang antara kedua departemen tidak dapat
dijembatani bahkan dengan perangkat lunak dan kepemimpinan terbaik.
Bekerja bersama untuk membuat profil pembeli yang ideal memastikan tim data scienctis dan
big data membuat konten dan mengembangkan strategi untuk konversi situs web yang
mendorong jenis prospek yang tepat - yang membuat klien yang paling cocok.
5. Mengembangkan perjanjian tingkat layanan antara dua tim.
Salah satu cara untuk memastikan penjualan baru anda dan ilmu data dan strategi big data terus
bekerja setelah anda mengembangkannya adalah dengan mendukung rencana awal dengan
perjanjian tingkat layanan.
6. Menciptakan proses untuk mengirim lead kembali ke data scienctis dan data besar untuk triage.
Lead tidak hanya bergerak satu arah dalam ilmu data yang baik dan big data dan proses
penjualan. Sama seperti anda membangun proses hand-off untuk lead untuk memasuki
penjualan dari data scienctis dan big data, membangun proses untuk memompa lead yang
buruk atau tidak lengkap kembali ke corong.
7. Meningkatkan crm untuk efisiensi.
Seperti yang anda lihat, menyelaraskan penjualan dan tim sains data dan big data melibatkan
banyak komunikasi dan proses bolak-balik.
Tanpa infrastruktur yang tepat, segala sesuatunya dapat berubah dengan cepat menjadi
kekacauan (atau setidaknya membuat frustrasi yang membingungkan).
Gabungkan crm untuk melacak prospek anda dan memfasilitasi pergerakan yang terkendali dan
terlihat melalui seluruh corong.
Crm gratis hubspot adalah alat yang hebat jika anda tidak memilikinya, dan anda dapat
menggunakan templat hubspot sehingga anda tidak perlu menemukan kembali roda.
8. Leverage dashboard pelaporan untuk visibilitas real-time ke funnel.
Akhirnya, setelah anda memiliki semua alat komunikasi dan alur kerja ditetapkan dan di tempat,
membangun sebuah dashboard untuk pelaporan real-time pada semua tingkat ilmu data dan
big data dan aktivitas penjualan.
7. berikut adalah beberapa alasan mengapa integrasi Apache Hadoop dengan database relasional
mungkin diperlukan:
1. Sumber Data RDBMS
Hadoop sangat bagus untuk pemrosesan batch Big Data dalam berbagai format dari berbagai
sumber. Salah satu sumber ini bisa menjadi basis data relasional. Ini berarti harus ada cara untuk
mengimpor data terstruktur ke Hadoop.
2. Mengintegrasikan Hadoop dengan Gudang Data
Sebagian besar gudang data didasarkan pada basis data relasional, jadi data agregat mungkin
perlu diekspor dari Hadoop ke dalam basis data relasional.
3. Menyimpan Data yang Diarsipkan di Hadoop
Kasus lain menggunakan Hadoop HDFS sebagai penyimpanan murah untuk data yang diarsipkan.
Data ini dapat ditarik dari database relasional dari waktu ke waktu dan dikembalikan ke DB bila
diperlukan
4. Perangkap
Sqoop dapat sangat membantu untuk memindahkan data dari RDBMS ke Hadoop dan kembali
lagi, tetapi beberapa masalah dapat muncul selama proses.
5. Driver JDBC
Sqoop bekerja paling baik dengan database relasional yang mendukung JDBC. Ini berarti driver
yang tepat perlu diinstal pada setiap mesin di cluster Hadoop.
6. Tipe Data
Basis data yang berbeda mendukung tipe data yang berbeda. Tipe data ini dikonversi ke tipe
Java saat mengekspor dengan Sqoop, konversi yang mungkin tidak selalu berjalan lancar.
Sebagai contoh, file teks yang dibatasi dapat memiliki masalah menyimpan tipe data float
dalam format string, format encoding UTF mungkin tidak mengkonversi dengan benar, dan
nilai NULL dapat menyebabkan masalah. Selain itu, tipe data khusus yang didukung oleh DB
Anda mungkin tidak dikenali oleh Sqoop, dalam hal ini seseorang harus mengontrol pemetaan
tipe melalui baris perintah atau menulis kode Java khusus untuk memetakan data dengan
benar.
7. Banyak Proses
Sqoop mengekspor data dari DB secara paralel menggunakan beberapa proses. Ini bagus
karena mempercepat konversi, tetapi juga berarti DB mungkin berada di bawah tekanan saat
Sqoop bekerja dengan baik. Untungnya, jumlah tugas peta dapat dikonfigurasi untuk
mengontrol berapa banyak proses yang digunakan. Juga, kolom tabel harus diatur untuk
membagi rentang baris di seluruh proses Sqoop, jika tidak, data tidak dapat diekspor secara
efisien karena beberapa proses mungkin mencoba untuk menangani baris yang sama. Selama
kolom yang relevan adalah kunci utama, masalah ini tidak akan terjadi.
8. Memproses di Hadoop
Setelah data telah diekspor dari database relasional ke file pada HDFS, bagaimana mereka
dapat diproses di Hadoop? Jawabannya adalah bahwa Sqoop terintegrasi dengan HCatalog,
layanan manajemen meja dan penyimpanan untuk Hadoop yang memungkinkan permintaan
file yang diimpor melalui Sqoop dengan Hive atau Pig.
8. HDFS adalah open source project yang dikembangkan oleh Apache Software Foundation dan
merupakan subproject dari Apache Hadoop. Apache mengembangkan HDFS berdasarkan konsep
dari Google File System (GFS) dan oleh karenanya sangat mirip dengan GFS baik ditinjau dari
konsep logika, struktur fisik, maupun cara kerjanya. Sebagai layer penyimpanan data di Hadoop,
HDFS adalah sebuah sistem file berbasis Java yang fault-tolerant, terdistribusi, dan scalable.
Dirancang agar dapat diaplikasikan pada kluster dan dapat dijalankan dengan menggunakan
proprietary atau commodity server. HDFS ini pada dasarnya adalah sebuah direktori dimana data
disimpan yang bekerja sesuai dengan spesifikasi dari Hadoop. Data tersimpan dalam kluster yang
terdiri dari banyak node komputer/server yang masing-masing sudah terinstalasi Hadoop.
Sistem penyimpanan terdistribusi pada HDFS melakukan proses pemecahan file besar menjadi
bagian-bagian lebih kecil dan kemudian didistribusikan ke kluster-kluster sehingga
memungkinkan pemrosesan secara pararel. HDFS memiliki banyak kesamaan dengan sistem file
terdistribusi lainnya, nanum perbedaan yang terutama adalah model Write-Once-Read-Many
(WORM) pada HDFS yang melonggarkan persyaratan kontrol konkurensi, menyederhanakan
koherensi data, dan memungkinkan akses throughput yang tinggi. HDFS memiliki fitur-fitur
sebagai berikut:
Sangat sesuai untuk penyimpanan, pengelolaan dan pemrosesan dataset yang besar secara
terdistribusi.
Hadoop menyediakan antarmuka perintah untuk berinteraksi dengan HDFS.
Heartbeat memudahkan pemeriksaan status kluster.
Akses data melalui MapReduce streaming.
HDFS menyediakan file permissions and authentication.
Fault detection dan recovery.
Lokasi komputasi berada dekat dengan data untuk mengurangi traffic jaringan dan meningkatkan
throughput.
Model data dan struktur HDFS
Sebagai distributed file system, HDFS menyimpan suatu data dengan cara membaginya menjadi
potong-potongan data yang disebut blok berukuran 64 MB dan kemudian disimpan pada node-
node yang tersebar dalam kluster. Ukuran blok tidak terpaku pada nilai tertentu sehingga dapat
diatur sesuai kebutuhan. Walaupun data disimpan secara tersebar, namun dari sudut pandang
pengguna, data tetap terlihat utuh dan diperlakukan seperti halnya mengakses file pada satu
media penyimpanan. Berbeda dengan sistem file pada umumnya, HDFS dapat bertumbuh tanpa
batas, karena secara arsitektur dan administrasinya dapat menambah jumlah node sesuai
kebutuhan. Abstraksi satu file yang berada di beberapa node memungkinkan ukuran file
bertumbuh tanpa batas.
HDFS memiliki komponen utama yaitu namenode dan datanode. Namenode adalah sebuah node
yang bertindak sebagai master, sedangkan datanode adalah node-node dalam kluster yang
bertindak sebagai slave. Namenode bertanggung-jawab menyimpan, mengorganisir dan
mengontrol blok-blok data yang disimpan pada node-node yang tersebar dalam kluster. Datanode
bertanggung-jawab menyimpan blok-blok data yang ditujukan kepadanya, dan secara berkala
melaporkan kondisinya kepada namenode. Jadi, namenode seperti manager yang mengatur dan
mengendalikan kluster. Sedangkan, datanode seperti worker yang bertugas menyimpan data dan
melaksanakan perintah dari namenode.
Setiap data yang disimpan pada HDFS memiliki lebih dari satu salinan, yang disebut sebagai
Replication Factor (RF). Secara default nilai RF adalah 3, yang berarti satu file tersimpan di 3
datanode berbeda sehingga jika salah satu datanode rusak, maka file dapat diperoleh dari
datanode lain. Datanode mengirimkan sinyal setiap 3 detik yang disebut heartbeat kepada
namenode untuk menunjukkan bahwa datanode tersebut masih aktif. Apabila dalam 10 menit
namenode tidak menerima heartbeat dari datanode, maka datanode tersebut dianggap rusak
atau tidak berfungsi sehingga setiap permintaan baca/tulis dialihkan ke node lain. Dengan
heartbeat, maka namenode dapat mengetahui dan menguasai kondisi kluster secara keseluruhan.
Sebagai respon atas heartbeat dari datanode, selanjutnya namenode akan mengirimkan perintah
kepada datanode.
Cara kerja HDFS
Sebuah kluster HDFS yang terdiri dari namenode sebagai pengelola metadata dari kluster, dan
datanode yang menyimpan data. Inode mewakili file dan direktori pada namenode serta
menyimpan atributnya seperti permission, waktu modifikasi dan akses, kuota namespace dan
diskspace. Isi file dibagi menjadi blok-blok dan setiap blok tersebut direplikasi dibeberapa
datanodes. Blok file disimpan pada sistem file lokal dari datanode. Namenode aktif memonitor
jumlah salinan/replika blok file. Ketika ada salinan blok file yang hilang atau rusak (corrupt) pada
datanode, maka namenode akan mereplikasi kembali blok file tersebut ke datanode lainnya yang
berjalan baik. Namenode mengelola struktur namespace dan memetakan blok file pada
datanode.
Pada komputer yang sudah terhubung dengan kluster atau disebut sebagai client, penyimpanan
data dilakukan dengan mengetikkan baris perintah pada console, kemudian file akan dikirim ke
kluster dan disimpan pada node-node yang tersebar dalam kluster yang bertindak sebagai
datanode. Secara mendetilnya, pada saat perintah penyimpanan dieksekusi, client akan
berkomunikasi dengan namenode untuk menginformasikan bahwa ada file yang akan disimpan di
HDFS dan meminta lokasi datanode yang dapat diakses untuk menyimpan data tersebut. Setelah
mendapatkan daftar nama dan alamat datanode yang tersedia, secara langsung client akan
mengirim data ke datanode-datanode tersebut. Data yang dikirim tersebut tentu sudah dipecah
menjadi blok-blok data dengan ukuran yang sesuai dengan setting. Blok-blok data ini yang
kemudian disimpan oleh setiap datanode. Kemudian setelah mendapat blok data dan
menyimpannya, setiap datanode akan mengirimkan laporan kepada namenode bahwa data
sudah diterima dan disimpan secara normal. HDFS tidak melakukan perubahan data dan hanya
melakukan penulisan saja.
Prosedur untuk membaca data serupa dengan pada saat menyimpan data, yang dilakukan dengan
mengetikkan baris perintah. Pada saat perintah membaca dieksekusi, client akan berkomunikasi
dengan namenode untuk memperoleh nama dan alamat datanode yang harus diakses untuk
mendapatkan data yang diinginkan. Setelah informasi tersebut didapatkan, client akan secara
langsung mengakses datanode yang bersangkutan untuk mengambil data. Pada akhirnya data
akan ditampilkan pada client atau sesuai dengan perintah yang diberikan.
Gambar 1. Read/Write pada HDFS
Sejarah Hadoop
Pembuatan Hadoop adalah sebuah inspirasi setelah terbitnya paper Google File System (GFS)
pada Oktober 2003. Isi dari paper tersebut adalah gambaran tentang Big Data yang digunakan
untuk menampung data milik Google yang sangat besar. Pada tahun 2005, Doug Cutting dan Mike
Cafarella menciptakan Hadoop saat bekerja pada perusahaan Yahoo!. Perbedaan dari Big Data
yang dimiliki Google dan Hadoop terlihat dari sifatnya yang closed source dan open source. Siapa
sangka, ternyata kata Hadoop adalah inspirasi yang didapatkan dari mainan gajah kecil berwarna
kuning milik anak Doug Couting. Hadoop versi 0.1.0 akhirnya rilis pada bulan April 2006, sampai
versi terakhir Hadoop yang rilis pada Maret 2017 adalah Apache Hadoop 2.8. Pada versi terbaru
ini, layanan yang diberikan Hadoop juga termasuk untuk HDFS (Hadoop Distributed File System),
Yarn (Yet Another Resource Negotiator) dan MapReduce.
b. SQL merupakan Bahasa untuk mengelola database, singkatan dari Structure Query Language.
Secara lisan sangat mudah dibaca karena merupakan bahasa generasi keempat, artinya sintak nya
sudah menggunakan kata yang mudah dibaca oleh manusia, contohnya SELECT, FROM, WHERE
dll. Di dalam SQL terdapat dua tipe bahasa yaitu DDL (Data Definition Language) dan DML (Data
Manipulation Language). Dua tipe bahasa tersebut mempunyai fungsi yang berbeda tentunya.
DDL digunakan untuk membuat stuktur tabel, sedangkan DML digunakan untuk mengelola data
di dalam tabel yang telah dibuat. SQL biasa digunakan pada data model relational, artinya setiap
tabel saling berhubungan untuk menghasilkan informasi yang diinginkan.
NoSQL bukan merupakan bahasa. NoSQL adalah sebuah mekanisme untuk menyimpan data dan
mengambil data yang dilakukan oleh database kita. NoQSL tidak membutuhkan data model
relational dan bahasa SQL untuk melakukan hal tersebut. NoSQL menggunakan metadata pada
database kita dan memanfaatkan index dari data tersebut. NoSQL mempunyai empat mekanisme:
Jika kita bandingkan SQL dengan NoSQL, masing – masing mempunyai keuntungan dan kerugian
masing – masing. Kita tidak dapat mengatakan NoSQL lebih baik dari SQL atau sebaliknya. Bahkan
beberapa perusahaan menggunakan keduanya. Dibawah ini merupakan data perbandingan
kekurangan dan kelebihan dari SQL dan NoSQL.
Untuk hal query SQL memang jauh unggul, karena SQL sangat mudah untuk mengubah dari satu
query ke query yang lainnya. Namun NoSQL hal tersebut sangatlah rumit, NoSQL lebih cocok
untuk transaksi yang sama. Dari tabel diatas jika dianalisa maka dapat dikatakan SQL sangatlah
cocok untuk transaksi harian dan NoSQL sangatlah cocok jika diterapkan pada transaksi histori.
SQL vs NoSQL hasilnya adalah seri.
c. Apache Hadoop pada dasarnya adalah kernel untuk OS untuk ukuran besar
data, serta Enterprise Data Hub dirancang untuk membantu memperluas penggunaan yang
orang temukan Hadoop di luar peta berkurang, dan kemampuan seputar pembelajaran mesin
dan nilai kunci NoSQL. NOSQL adalah open source baru, penyimpanan data terdistribusi yang
sangat efisien dalam hal menangani volume besar data, dan kita tahu bahwa Big Data merujuk
tidak hanya volume data tetapi juga variasi serta kecepatan data. Lebih banyak perubahan
pengaruh telah terjadi dalam manajemen basis data dalam beberapa bulan terakhir daripada
yang terjadi dalam beberapa tahun terakhir. Teknologi baru seperti Hadoop, NoSQL dan desain
ulang radikal teknologi yang ada, seperti NewSQL, akan berubah secara dramatis bagaimana
kita mengelola data bergerak maju. Ini semua teknologi baru membawa kemungkinan keduanya
dalam hal skala data yang disimpan tetapi juga dalam cara data ini dapat digunakan sebagai aset
informasi.