ARSITEKTUR
BIG DATA
1.
Traditional Information Architecture
Capabilities
Untuk memahami
level aspek arsitektur yang tinggi dari Big Data, sebelumnya harus memahami
arsitektur informasi logis untuk data yang terstruktur. Pada gambar di bawah
ini menunjukkan dua sumber data yang menggunakan teknik integrasi (ETL / Change Data Capture) untuk mentransfer
data ke dalam DBMS data warehouse atau operational data store, lalu menyediakan
bermacam-macam variasi dari kemampuan analisis untuk menampilkan data. Beberapa
kemampuan analisis ini termasuk, dashboards, laporan, EPM/BI Applications,
ringkasan dan query statistic, interpretasi semantic untuk data tekstual, dan
alat visualisasi untuk data yang padat. Informasi utama dalam prinsip
arsitektur ini termasuk cara memperlakukan data sebagai asset melalui nilai,
biaya, resiko, waktu, kualitas dan akurasi data.
(Sun
& Heller, 2012, p. 11)
2.
Adding Big Data Capabilities
Mendefinisikan
kemampuan memproses untuk big data
architecture, diperlukan beberapa hal yang perlu dilengkapi yaitu: volume,
percepatan, variasi, dan nilai yang menjadi tuntutan. Ada strategi teknologi
yang berbeda untuk real-time dan
keperluan batch processing. Untuk real-time, menyimpan data nilai kunci,
seperti NoSQL, memungkinkan untuk performa tinggi, dan pengambilan data
berdasarkan indeks. Untuk batch processing, digunakan teknik yang dikenal
sebagai Map Reduce, memfilter data
berdasarkan pada data yang spesifik pada strategi penemuan. Setelah data yang
difilter ditemukan, maka akan dianalisis secara langsung, dimasukkan ke dalam
unstructured database yang lain, dikirimkan ke dalam perangkat mobile atau
digabungkan ke dalam lingkungan data warehouse tradisional dan berkolerasi pada
data terstruktur.
(Sun
& Heller, 2012, p. 11)
3.
An Integrated Information Architecture
Pengguna big
data yang pertama kali mencoba menulis kode khusus untuk memindahkan hasil big
data yang telah diproses kembali ke dalam database untuk dibuat laporan dan
dianalisa. Big data dilakukan secara independen untuk menjalankan resiko investasi
yang redundan, sebagai tambahannya, banyak bisnis yang sama sekali tidak
memiliki staff dan ketrampilan yang dibutuhkan untuk pengembangan pekerjaan
yang khusus.
Ketika
bermacam – macam data telah didapatkan, data tersebut dapat disimpan dan
diproses ke dalam DBMS tradisional, simple files, atau sistem cluster
terdistribusi seperti NoSQL dan Hadoop Distributed File System (HDFS).
4.
Big Data for development
Big Data untuk keperluan development berkaitan
dengan, tetapi berbeda dari, tradisional Data pembangunan '(misalnya data
survei, statistik resmi), dan sektor swasta dan media mainstream menyebutnya
'Big Data’. Big Data untuk sember Pengembangan umumnya mememiliki beberapa
fitur, yaitu: Digitally generated, Passively
produced, Automatically collected, Geographically
or temporally trackable, Continuously analysed,
5. Pengunaan
Big Data dalam perusahaan
- IT logs Analytics: Digunakan untuk analisa proses sistem yang sedang berjalan untuk mencegah dan menaggulangi kegagalan dalam sistem, mengunakan hasil analisa log untuk menemukan dan mentukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah pasti yang dapat digunakan sebagai solusi masalah sistem.
- Fraud Detection Pattern: Digunakan dalam Bidang keuangan atau dimana saja transaksi finasial terlibat, Memaksimalkan pengunaan data-data yang ada untuk memberikan kemampuan unutk mendeteksi fraud ketika transaksi sedang berlangsung
- The Social Media Pattern: Untuk analisa media social dan sentiment pelangan, memberikan kemampuan bagi perusahan untuk mengetahui keinginan customer secara luas, mendapatkan feedback secara langsung, dan mengenali langsung dampak sentimen terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap pemasaran yang dilakukan.
- The Call centere Mantra: Penyimpanan hasil perbincangan atau laporan customer dalam bentuk text yang kemudian digunakan sebagai data untuk analisa masalah yang dihadapai customer.
- Risk: Patterns for Modeling and Management: Memberikan kempuaan pengunaan data secara penuh dan analisis dalam pemodelan resiko dan menejemen resiko untuk memberikan pengetahuan akan resiko dan penanggulangannya secara tepat dan langsung
- Big data and The Energy Sector: Memberikan kemampuan penyimpanan dan pemrosesan data secara langsung dari berbagai sumber(sensor), analisa dan kemudahan dalam pengenalan noise untuk memisahkannya dari signal.
6.
Membangun
Big Data Platform
Seperti data
pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar
memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform
data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan
mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk
memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan.
Requirement
dalam big data infrastruktur :
- data acquisition,
- data organization
- data analysis
- Data acquisition
Tahap akuisisi
adalah salah satu perubahan besar dalam infrastruktur pada hari-hari sebelum big
data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih
tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung
akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi
baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana,
dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan
terdistribusi, dan dukungan yang fleksibel, struktur data dinamis.
Database NoSQL
sering digunakan untuk mengambil dan menyimpan big data. Mereka cocok untuk
struktur data dinamis dan sangat terukur. Data yang disimpan dalam database
NoSQL biasanya dari berbagai variasi/ragam karena sistem dimaksudkan untuk
hanya menangkap semua data tanpa mengelompokkan dan parsing data.
Sebagai contoh,
database NoSQL sering digunakan untuk mengumpulkan dan menyimpan data media
sosial. Ketika aplikasi yang digunakan pelanggan sering berubah, struktur
penyimpanan dibuat tetap sederhana. Alih-alih merancang skema dengan hubungan
antar entitas, struktur sederhana sering hanya berisi kunci utama untuk
mengidentifikasi titik data, dan kemudian wadah konten memegang data yang
relevan. Struktur sederhana dan dinamis ini memungkinkan perubahan berlangsung
tanpa reorganisasi pada lapisan penyimpanan.
7.
Data
Organization
Dalam istilah Data pergudangan klasik,
pengorganisasian data disebut integrasi data. Karena ada volume/jumlah data
yang sangat besar, ada kecenderungan untuk mengatur data pada lokasi
penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak
memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan
untuk mengatur data yang besar harus mampu mengolah dan memanipulasi data di
lokasi penyimpanan asli. Biasanya diproses didalam batch untuk memproses data
yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.
Apache Hadoop
adalah sebuah teknologi baru yang memungkinkan volume data yang besar untuk
diatur dan diproses sambil menjaga data pada cluster penyimpanan data asli.
Hadoop Distributed File System (HDFS) adalah sistem penyimpanan jangka panjang
untuk log web misalnya. Log web ini berubah menjadi perilaku browsing dengan
menjalankan program MapReduce di cluster dan menghasilkan hasil yang
dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan kemudian dimuat
ke dalam sistem DBMS relasional.
8.
Data
Analysis
Karena data
tidak selalu bergerak selama fase organisasi, analisis ini juga dapat dilakukan
dalam lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data
itu awalnya disimpan dan diakses secara transparan dari sebuah data warehouse.
Infrastruktur yang diperlukan untuk menganalisis data yang besar harus mampu
mendukung analisis yang lebih dalam seperti analisis statistik dan data mining,
pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah,
memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan
mengotomatisasi keputusan berdasarkan model analitis. Yang paling penting,
infrastruktur harus mampu mengintegrasikan analisis pada kombinasi data yang
besar dan data perusahaan tradisional. Wawasan baru datang bukan hanya dari
analisis data baru, tapi dari menganalisisnya dalam konteks yang lama untuk
memberikan perspektif baru tentang masalah lama.
Misalnya,
menganalisis data persediaan dari mesin penjual otomatis cerdas dalam kombinasi
dengan acara kalender untuk tempat di mana mesin penjual otomatis berada, akan
menentukan kombinasi produk yang optimal dan jadwal pengisian untuk mesin
penjual otomatis.
9.
Tantangan
dalam pemanfaatan Big Data
Dalam
usaha pemanfaatan Big Data dapat terdapat banyak hambatan dan tantangan,
beberapa hal diantaranya berhubungan dengan data dimana melibatkan acquisition,
sharing dan privasi data, serta dalam analisis dan pengolahan data
10.
Privasi
Privasi
merupakan isu yang paling sensitif, dengan konseptual, hukum, dan teknologi,
Privasi dapat dipahami dalam arti luas sebagai usaha perusahaan untuk
melindungi daya saing dan konsumen mereka. Data-data yang digunakan / disimpan
sebagai big data
11. Access
dan sharing
Akses terhadap
data, baik data lama maupun data baru dapat menjadi hambatan dalam mendapatkan
data untuk big data, terlebih pada data lama dimana data- data tersimpan dalam
bentuk – bentuk yang berbeda-beda dan beragam ataupun dalam bentuk fisik, akses
terhadap data baru juga membutuhkan usaha yang lebih kerana diperlukannya izin
dan lisensi untuk mengakses data-data non-public secara legal.
12.
Analisis
Bekerja dengan
sumber data baru membawa sejumlah tantangan analitis. relevansi dan tingkat
keparahan tantangan akan bervariasi tergantung pada jenis analisis sedang
dilakukan, dan pada jenis keputusan yang akhirnya akan bisa diinformasikan oleh
data.
13.
Interpreting
Data
Kesalahan
–kesalahan seperti Sampling selection bias merupakan hal yang sering ditemukan
dimana data yang ada tidak dapat digunakan untuk mepresentasikan semua populasi
yang ada, dan apophenia, melihat adanya pola walaupun tidak benar-benar ada
dikarenakan jumlah data yang besar, dan kesalahan dalam menginterpreasikan
hubungan dalam data.
14.
Defining
and detecting anomalies
Tantangan
sensitivitas terhadap spesifisitas pemantauansistem. Sensitivitas mengacu pada
kemampuan sistem pemantauan untuk mendeteksi semua kasus sudah diatur untuk
mendeteksi sementara spesifisitas mengacu pada kemampuannya untuk mendeteksi
hanya kasus-kasus yang relevan. kegagalan untukmencapai hasil yang terakhir
"Tipe I kesalahan keputusan", juga dikenal sebagai "positif
palsu"; kegagalanuntuk mencapai mantan "Type II error", atau
"negatif palsu." Kedua kesalahan yang tidak diinginkan ketika mencoba
untuk mendeteksi malfungsi atau anomali, bagaimanapun didefinisikan, untuk
berbagai alasan. Positif palsu merusak kredibilitas sistem sementara negatif
palsu dilemparkan ragu pada relevansinya. Tapi apakah negatif palsu lebih atau kurang
bermasalah daripada positif palsu tergantung pada apa yang sedang dipantau, dan
mengapa itu sedang dipantau.
Sumber
: