Mentary Fransiska: Januari 2016

Minggu, 17 Januari 2016

Arsitektur Big Data

ARSITEKTUR BIG DATA

1. Traditional Information Architecture Capabilities

Untuk memahami level aspek arsitektur yang tinggi dari Big Data, sebelumnya harus memahami arsitektur informasi logis untuk data yang terstruktur. Pada gambar di bawah ini menunjukkan dua sumber data yang menggunakan teknik integrasi (ETL / Change Data Capture) untuk mentransfer data ke dalam DBMS data warehouse atau operational data store, lalu menyediakan bermacam-macam variasi dari kemampuan analisis untuk menampilkan data. Beberapa kemampuan analisis ini termasuk, dashboards, laporan, EPM/BI Applications, ringkasan dan query statistic, interpretasi semantic untuk data tekstual, dan alat visualisasi untuk data yang padat. Informasi utama dalam prinsip arsitektur ini termasuk cara memperlakukan data sebagai asset melalui nilai, biaya, resiko, waktu, kualitas dan akurasi data.

(Sun & Heller, 2012, p. 11)

2. Adding Big Data Capabilities

Mendefinisikan kemampuan memproses untuk big data architecture, diperlukan beberapa hal yang perlu dilengkapi yaitu: volume, percepatan, variasi, dan nilai yang menjadi tuntutan. Ada strategi teknologi yang berbeda untuk real-time dan keperluan batch processing. Untuk real-time, menyimpan data nilai kunci, seperti NoSQL, memungkinkan untuk performa tinggi, dan pengambilan data berdasarkan indeks. Untuk batch processing, digunakan teknik yang dikenal sebagai Map Reduce, memfilter data berdasarkan pada data yang spesifik pada strategi penemuan. Setelah data yang difilter ditemukan, maka akan dianalisis secara langsung, dimasukkan ke dalam unstructured database yang lain, dikirimkan ke dalam perangkat mobile atau digabungkan ke dalam lingkungan data warehouse tradisional dan berkolerasi pada data terstruktur.

(Sun & Heller, 2012, p. 11)

3. An Integrated Information Architecture

Pengguna big data yang pertama kali mencoba menulis kode khusus untuk memindahkan hasil big data yang telah diproses kembali ke dalam database untuk dibuat laporan dan dianalisa. Big data dilakukan secara independen untuk menjalankan resiko investasi yang redundan, sebagai tambahannya, banyak bisnis yang sama sekali tidak memiliki staff dan ketrampilan yang dibutuhkan untuk pengembangan pekerjaan yang khusus.

Ketika bermacam – macam data telah didapatkan, data tersebut dapat disimpan dan diproses ke dalam DBMS tradisional, simple files, atau sistem cluster terdistribusi seperti NoSQL dan Hadoop Distributed File System (HDFS).

4. Big Data for development

Big Data untuk keperluan development berkaitan dengan, tetapi berbeda dari, tradisional Data pembangunan '(misalnya data survei, statistik resmi), dan sektor swasta dan media mainstream menyebutnya 'Big Data’. Big Data untuk sember Pengembangan umumnya mememiliki beberapa fitur, yaitu: Digitally generated, Passively produced, Automatically collected, Geographically or temporally trackable, Continuously analysed,

5. Pengunaan Big Data dalam perusahaan

IT logs Analytics: Digunakan untuk analisa proses sistem yang sedang berjalan untuk mencegah dan menaggulangi kegagalan dalam sistem, mengunakan hasil analisa log untuk menemukan dan mentukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah pasti yang dapat digunakan sebagai solusi masalah sistem.
Fraud Detection Pattern: Digunakan dalam Bidang keuangan atau dimana saja transaksi finasial terlibat, Memaksimalkan pengunaan data-data yang ada untuk memberikan kemampuan unutk mendeteksi fraud ketika transaksi sedang berlangsung
The Social Media Pattern: Untuk analisa media social dan sentiment pelangan, memberikan kemampuan bagi perusahan untuk mengetahui keinginan customer secara luas, mendapatkan feedback secara langsung, dan mengenali langsung dampak sentimen terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap pemasaran yang dilakukan.
The Call centere Mantra: Penyimpanan hasil perbincangan atau laporan customer dalam bentuk text yang kemudian digunakan sebagai data untuk analisa masalah yang dihadapai customer.
Risk: Patterns for Modeling and Management: Memberikan kempuaan pengunaan data secara penuh dan analisis dalam pemodelan resiko dan menejemen resiko untuk memberikan pengetahuan akan resiko dan penanggulangannya secara tepat dan langsung
Big data and The Energy Sector: Memberikan kemampuan penyimpanan dan pemrosesan data secara langsung dari berbagai sumber(sensor), analisa dan kemudahan dalam pengenalan noise untuk memisahkannya dari signal.

6. Membangun Big Data Platform

Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan.

Requirement dalam big data infrastruktur :

data acquisition,
data organization
data analysis
Data acquisition

Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur pada hari-hari sebelum big data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana, dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data dinamis.

Database NoSQL sering digunakan untuk mengambil dan menyimpan big data. Mereka cocok untuk struktur data dinamis dan sangat terukur. Data yang disimpan dalam database NoSQL biasanya dari berbagai variasi/ragam karena sistem dimaksudkan untuk hanya menangkap semua data tanpa mengelompokkan dan parsing data.

Sebagai contoh, database NoSQL sering digunakan untuk mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap sederhana. Alih-alih merancang skema dengan hubungan antar entitas, struktur sederhana sering hanya berisi kunci utama untuk mengidentifikasi titik data, dan kemudian wadah konten memegang data yang relevan. Struktur sederhana dan dinamis ini memungkinkan perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan.

7. Data Organization

Dalam istilah Data pergudangan klasik, pengorganisasian data disebut integrasi data. Karena ada volume/jumlah data yang sangat besar, ada kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur data yang besar harus mampu mengolah dan memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam batch untuk memproses data yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.

Apache Hadoop adalah sebuah teknologi baru yang memungkinkan volume data yang besar untuk diatur dan diproses sambil menjaga data pada cluster penyimpanan data asli. Hadoop Distributed File System (HDFS) adalah sistem penyimpanan jangka panjang untuk log web misalnya. Log web ini berubah menjadi perilaku browsing dengan menjalankan program MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan kemudian dimuat ke dalam sistem DBMS relasional.

8. Data Analysis

Karena data tidak selalu bergerak selama fase organisasi, analisis ini juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data itu awalnya disimpan dan diakses secara transparan dari sebuah data warehouse. Infrastruktur yang diperlukan untuk menganalisis data yang besar harus mampu mendukung analisis yang lebih dalam seperti analisis statistik dan data mining, pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah, memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi keputusan berdasarkan model analitis. Yang paling penting, infrastruktur harus mampu mengintegrasikan analisis pada kombinasi data yang besar dan data perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis data baru, tapi dari menganalisisnya dalam konteks yang lama untuk memberikan perspektif baru tentang masalah lama.

Misalnya, menganalisis data persediaan dari mesin penjual otomatis cerdas dalam kombinasi dengan acara kalender untuk tempat di mana mesin penjual otomatis berada, akan menentukan kombinasi produk yang optimal dan jadwal pengisian untuk mesin penjual otomatis.

9. Tantangan dalam pemanfaatan Big Data

Dalam usaha pemanfaatan Big Data dapat terdapat banyak hambatan dan tantangan, beberapa hal diantaranya berhubungan dengan data dimana melibatkan acquisition, sharing dan privasi data, serta dalam analisis dan pengolahan data

10. Privasi

Privasi merupakan isu yang paling sensitif, dengan konseptual, hukum, dan teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha perusahaan untuk melindungi daya saing dan konsumen mereka. Data-data yang digunakan / disimpan sebagai big data

11. Access dan sharing

Akses terhadap data, baik data lama maupun data baru dapat menjadi hambatan dalam mendapatkan data untuk big data, terlebih pada data lama dimana data- data tersimpan dalam bentuk – bentuk yang berbeda-beda dan beragam ataupun dalam bentuk fisik, akses terhadap data baru juga membutuhkan usaha yang lebih kerana diperlukannya izin dan lisensi untuk mengakses data-data non-public secara legal.

12. Analisis

Bekerja dengan sumber data baru membawa sejumlah tantangan analitis. relevansi dan tingkat keparahan tantangan akan bervariasi tergantung pada jenis analisis sedang dilakukan, dan pada jenis keputusan yang akhirnya akan bisa diinformasikan oleh data.

13. Interpreting Data

Kesalahan –kesalahan seperti Sampling selection bias merupakan hal yang sering ditemukan dimana data yang ada tidak dapat digunakan untuk mepresentasikan semua populasi yang ada, dan apophenia, melihat adanya pola walaupun tidak benar-benar ada dikarenakan jumlah data yang besar, dan kesalahan dalam menginterpreasikan hubungan dalam data.

14. Defining and detecting anomalies

Tantangan sensitivitas terhadap spesifisitas pemantauansistem. Sensitivitas mengacu pada kemampuan sistem pemantauan untuk mendeteksi semua kasus sudah diatur untuk mendeteksi sementara spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya kasus-kasus yang relevan. kegagalan untukmencapai hasil yang terakhir "Tipe I kesalahan keputusan", juga dikenal sebagai "positif palsu"; kegagalanuntuk mencapai mantan "Type II error", atau "negatif palsu." Kedua kesalahan yang tidak diinginkan ketika mencoba untuk mendeteksi malfungsi atau anomali, bagaimanapun didefinisikan, untuk berbagai alasan. Positif palsu merusak kredibilitas sistem sementara negatif palsu dilemparkan ragu pada relevansinya. Tapi apakah negatif palsu lebih atau kurang bermasalah daripada positif palsu tergantung pada apa yang sedang dipantau, dan mengapa itu sedang dipantau.

Sumber :

http://blog.dede-gunawan.web.id/2015/05/arsitektur-big-data.html

Sabtu, 16 Januari 2016

Arsitektur Umum dari Big Data

Penjelasan dari gambar Arsitektur Umum dari Big Data

1. Data source adalah sumber data untuk big Data. Data umumnya dipompa masuk Big Data dengan menggunakan API ataupun dengan operasional file system seperti transfer file. Ada dua jenis data source yaitu streaming data source dan bulk data source. Contoh streaming data source misalnya adalah tweets dari twitter API. Sedangkan Bulk data misalnya adalah file teks biasa yang sangat besar seperti file log dari suatu aplikasi ataupun file yang berisi data yang di dump dari database.

2. Data aggregator adalah tool atau software yang mengumpulkan dan manyalurkan data dari sumber ke beberapa jenis pengolahan data di Big data. Ada dua jenis data aggregator berdasarkan cara kerjanya. Jenis pertama adalah Pull-based data aggregator. Jenis ini mengumpulkan data dan memberikan data tersebut kepada siapa saja yang meminta tanpa registrasi sebelumnya, mirip seperti Java Messaging Queue. Contohnya adalah Apache Kafka, RabbitMQ. Jenis kedua adalah Push-based data aggregator. Jenis kedua ini mengumpulkan data dan mengirim data ke sistem lain yang sudah di set terhubung dan menerima data dari data aggregator. Sistem yang mau mendapatkan data harus ‘terdaftar’ di data aggregator dulu dan biasanya diperlukan effort lebih jika ada sistem baru yg ingin mendapatkan data dari data aggregator jenis ini dibanding jenis yang pertama. Contoh Push-Based Data Aggregator adalah Apache Flume dan Spring-XD.

3. Realtime streaming Processor adalah salah satu sistem pengolahan di Big Data yang umum ditemukan. Fungsinya adalah untuk menganalisis data yang bersifat realtime dan streaming. Contohnya adalah menghitung hashtag yang muncul di semua tweet di twitter. Sifat dari pemrosesan ini haruslah ringan, dan cepat. Oleh karena itu analisis data secara kompleks jarang sekali dilakukan. Output dari pemrosesan ini adalah gambaran umum dari data yang didapatkan dan tidak terlalu detil. Outputnyapun sebaiknya disimpan di datastore sehingga bisa digunakan oleh aplikasi yang membutuhkan. Untuk hasil analisis data yang sangat detil bisa di lihat di Non-realtime processor. Contoh tool yang digunakan di realtime streaming misalnya adalah Apache Storm, Apache Spark Streaming dan Spring-XD. Meskipun hasilnya tidak detil, tetapi pemrosesan ini diperlukan mengingat pemrosesan secara bulk / non-realtime membutuhkan waktu yang cukup lama. Dengan demikian user bisa melihat secara garis besar data yang diolah meskipun tidak detil sembari menunggu pemrosesan non realtime selesai.

4. Hadoop disini yang saya maksud adalah HDFS. Disini hadoop lebih ditekankan sebagai tempat penyimpanan data yang sangat besar. Hadoop menjadi tempat semua data sehingga bisa dianalisis oleh berbagai tools untuk berbagai kepentingan sehingga bisa didapatkan hasil yang cukup detil dan bisa memenuhi kebutuhan dari user.

5. Non-realtime processor adalah proses pemrosesan data di Big Data untuk data besar yang terdapat di HDFS. pemrosesan ini menggunakan berbagai jenis tool sesuai kebutuhan. sebuah data bisa dianalisis lebih dari satu tools. Contoh tool yang sering digunakan antara lain Hive dan Pig untuk Map Reduce, Apache Mahout dan Apache Spark untuk machine learning dan artificial intelligence. Hasil dari pemrosesan ini dimasukkan ke dalam data store untuk kemudian bisa di lihat di level aplikasi. Sistem pemrosesan ini umumnya memerlukan waktu yang relatif lebih lama mengingat data yang diproses relatif sangat besar.

6. Data store adalah tools untuk menyimpan data hasil pemrosesan baik realtime maupun on-realtime. Datastore disini bisa berupa RDBMS ataupun jenis NoSQL lainnya. RDBMS sangat jarang digunakan sebagai data store mengingat keterbatasan dalam sisi ukuran yang bisa ditampung tanpa kehilangan kinerja. Datastore yang umumnya dipakai adalah NoSQL yang berbasis Document (mis. MongoDB), Column-oriented seperti HBase dan Cassandra, dan juga key-value pair seperti couchDB. Beberapa data store yang jarang kedengaran juga dipakai seperti misalnya Voldemort dan Druid.

7. Apps adalah aplikasi yang berinteraksi langsung dengan user. Aplikasi disini mengakses data yang berada di data store untuk kemudian disajikan kepada user. Jenis aplikasi disini sangat bervariasi bisa berupa web, desktop ataupun mobile. Pada umumnya aplikasi disini hanyalah untuk melakukan visualisasi dari data yang sudah dianalisis sebelumnya. insert data tidak saya temui untuk jenis aplikasi ini. Karena memang ditujukan untuk user, maka data yang disajikan harus sesuai dengan kebutuhan user.

Cinta dan Rahasia

Terakhir ku tatap mata indahmu Di bawah bintang bintang Terbelah hatiku Antara cinta dan rahasia Ku cinta pada mu namun kau milik Sahabat ku dilema Hatiku Andai ku bisa berkata sejujurnya Jangan kau pilih dia Pilihlah aku yang mampu mencinta mu lebih dari dia Bukan ku ingin merebutmu dari sahabat ku Namun kau tahu Cinta tak bisa tak bisa kau salahkan Ku cinta pada mu namun kau milik Sahabatku dilema Hatiku Andai ku bisa berkata sejujurnya Jangan kau pilih dia Pilihlah aku yang mampu mencinta mu lebih dari dia Bukan ku ingin merebutmu dari sahabat ku Namun kau tahu Cinta tak bisa tak bisa kau salahkan Jangan kau pilih dia Pilihlah aku yang mampu mencinta mu lebih dari dia Bukan ku ingin merebutmu dari sahabat ku Namun kau tahu Cinta tak bisa tak bisa kau salahkan Tak bisa kau salahkan Tak bisa kau salahkan

Siapkah Kau tuk Jatuh Cinta Lagi....!!

Ketika ku mendengar bahwa kini kau tak lagi dengannya Dalam benakku timbul tanya Masihkah ada dia, di hatimu bertahta? Atau ini saat bagiku untuk singgah di hatimu Namun siapkah kau 'tuk jatuh cinta lagi? Meski bibir ini tak berkata bukan berarti ku tak merasa ada yang berbeda di antara kita Dan tak mungkin ku melewatkanmu hanya kar'na diriku tak mampu untuk bicara bahwa aku inginkan kau ada di hidupku... Kini ku tak lagi dengannya, sudah tak ada lagi rasa antara aku dengan dia Siapkah kau bertahta, di hatiku adinda Karna ini saat yang tepat untuk singgah dihatiku Namun siapkah kau 'tuk jatuh cinta lagi? Meski bibir ini tak berkata bukan berarti ku tak merasa ada yang berbeda di antara kita Dan tak mungkin ku melewatkanmu hanya kar'na diriku tak mampu untuk bicara bahwa aku inginkan kau ada di hidupku... Pikirlah saja dulu Hingga tiada ragu Agar mulus jalanku Melangkah menuju ke hatimu Pikirlah saja dulu Hingga tiada ragu Agar mulus jalanku Melangkah menuju ke hatimu Siapkah kau 'tuk jatuh cinta lagi? Meski bibir ini tak berkata bukan berarti ku tak merasa ada yang berbeda di antara kita Dan tak mungkin ku melewatkanmu hanya kar'na diriku tak mampu untuk bicara bahwa aku inginkan kau ada... Meski bibir ini tak berkata bukan berarti ku tak merasa ada yang berbeda di antara kita Dan tak mungkin ku melewatkanmu hanya kar'na diriku tak mampu untuk bicara bahwa aku inginkan kau ada di hidupku Bila kau jatuh cinta katakanlah jangan buat sia sia Bila kau jatuh cinta katakanlah jangan buat sia sia Bila kau jatuh cinta katakanlah jangan buat sia sia Siapkah kau 'tuk jatuh cinta lagi?

Mentary Fransiska