Pages

Jumat, 04 April 2014

Review Jurnal Sistem Basis Data Lanjut 2



Data mining merupakan suatu proses pendukung pengambil keputusan dimana kita mencari pola informasi dalam data. Pencarian ini dapat dilakukan oleh pengguna, misalnya dengan menggunakan query (dalam kasus ini sangat sulit dilakukan) atau dapat dibantu dengan suatu aplikasi yang secara otomatis mencari pola informasi pada basis data. Pencarian ini disebut discovery. Discovery adalah proses pencarian dalam basis data untuk menemukan pola yang tersembunyi tanpa ide yang didapatkan sebelumnya atau hipotesa tentang pola yang ada. Dengan kata lain aplikasi mengambil inisiatif untuk menemukan pola dalam data tanpa pengguna berpikir mengenai pertanyaan yang relevan terlebih dulu. Salah satu bentuk pola yang dapat dihasilkan data mining adalah association rule.

 Association rule memiliki bentuk LHS RHS dengan interpretasi bahwa jika setiap item dalam LHS (Left Hand Side) dibeli, maka item dalam RHS (Right Hand Side) juga dibeli. Association rule dapat dihasilkan dengan Algoritma Apriori. Salah satu penggunaan Association rule adalah mendukung pengambilan keputusan dalam bidang pemasaran, misalnya untuk mengetahui pola pembelian pelanggan, penentuan tata letak barang dan lain-lain.
Salah satu obyek untuk data mining adalah RDBMS. Umumnya data mining dilakukan pada penyimpanan data berukuran besar. Dalam penelitian ini akan dilakukan pengujian terhadap proses penghitungan support dalam implementasi data mining pada RDBMS.
Analisis terhadap teknik penghitungan support perlu dilakukan karena faktor :
1.      Banyaknya kandidat frequent-itemset yang dihasilkan sebagai input terhadap penghitungan support,
2.      Scan/pembacaan record pada RDBMS.
Kedua faktor diatas dapat mempengaruhi jalannya pemrosesan query pada RDBMS.
Penelitian ini dilakukan dengan tujuan untuk menerapkan Algoritma Apriori dengan teknik support counting K-way dan 2 Group-By, mencari Association Rule pada RDBMS Oracle, dan mengimplemantasikannya dalam bentuk perangkat lunak. Analisis Algoritma Apriori didasarkan pada hasil pengukuran performansi proses query pada teknik support counting K-way dan 2 Group-By menggunakan tools TKPROF pada RDBMS Oracle.
Batasan masalah untuk penelitian ini adalah sebagai berikut :
1. Data yang digunakan merupakan tabel relasional
2. Hanya digunakan tiga dataset sebagai bahan pengukuran untuk analisis pemrosesan query

Fungsi dan Tugas Data Mining
Data mining menganalisis data menggunakan tool untuk menemukan pola dan aturan dalam himpunan data. Perangkat lunak bertugas untuk menemukan pola dengan mengidentifikasi aturan dan fitur pada data. Tool Data mining diharapkan mampu mengenal pola ini dalam data dengan input minimal dari user.
Dalam penelitian ini pembahasan Data Mining diklasifikasikan dalam fungsi Association.

Association Rule
Tipe pola yang penting yang dapat ditemukan dari basis data adalah sebuah aturan. Association rule mempunyai bentuk LHS RHS dengan interpretasi jika setiap item dalam LHS dibeli maka sepertinya item dalam RHS juga dibeli. Dua pengukuran penting untuk sebuah rule adalah support dan confidence. Kita dapat menghitung semua association rule dengan ambang support dan confidence masukkan pengguna dengan post-processing frequent-itemset.
Secara umum Association Rule mempunyai bentuk : LHS RHS, dimana LHS dan RHS adalah himpunan item; jika setiap item-item dalam LHS terdapat dalam transaksi maka item-item di RHS juga terdapat dalam transaksi.
Ada dua aturan pengukuran untuk ‘association rule’ :
1.      Support
Support untuk himpunan item adalah prosentase transaksi yang berisi semua item-item ini. Support untuk aturan LHS RHS di-support untuk himpunan item-item LHS RHS.
2.      Confidence
Pertimbangkan transaksi yang berisi semua item dalam LHS. Confidence untuk rule : LHS RHS adalah prosentasi transaksi yang juga terdiri semua item-item dalam RHS.
Lebih tepatnya, misalkan sup (LHS) adalah prosentase transaksi yang berisi LHS dan sup (LHS RHS) adalah prosentase transaksi yang berisi LHS dan RHS, maka confidence rule: LHS RHS adalah sup( LHS RHS )/sup (LHS ).
Permasalahan Association Rule dapat dikomposisikan menjadi dua sub masalah, yaitu:
a.      Penemuan semua kombinasi item-item, yang disebut frequent-itemset, yang support-nya lebih besar daripada minimum support.
b.      Gunakan frequent-itemset untuk membangkitkan aturan yang diinginkan. Idenya adalah, katakan, ABCD dan AB sering muncul dalam transaksi, maka aturan AB CD akan dipenuhi jika perbandingan antara support(ABCD) terhadap support(AB) minimum sebesar minimum confidence. Semua rule akan mempunyai minimum support karena ABCD sering muncul dalam transaksi.

Algoritma Apriori
Langkah yang membutuhkan pemrosesan lebih adalah penemuan frequent-itemset. Algoritma untuk menemukan frequent-itemset berdasar pada sifat frequent-itemset:
Sifat Apriori : Setiap subset frequent-itemset harus menjadi frequent-itemset [12].
Algoritma Apriori untuk menemukan frequent-itemset merupakan iterasi pada data. Pada iterasi ke-k ditemukan semua himpunan item-item yang mempunyai k item yang disebut k-itemset. Setiap iterasi terdiri dari dua tahap.. Pertama, adalah tahap pembangkitan kandidat (candidate generation) dimana himpunan semua frequent(k – 1)-itemset Fk-1 yang ditemukan pada pass ke-(k – 1) digunakan untuk membangkitkan kandidat itemset Ck. Prosedur pembangkitan kandidat menjamin bahwa Ck adalah superset dari himpunan semua frequent k-itemset. Kemudian data di-scan dalam tahap Penghitungan Support (Support Counting). Pada akhir pass Ck diperiksa untuk menentukan kandidat mana yang sering muncul, menghasilkan Fk. Penghitungan support berakhir ketika Fk atau Ck+1 kosong.
Untuk membangkitkan rule akan dibangkitkan lebih dahulu candidate rule. Candidate rule berisi semua kemungkinan rule yang memiliki support > minimum support karena input candidate rule adalah frequent-itemset. Kemudian candidate rule akan dijoin dengan tabel F untuk menemukan support antecedent. Confidence rule dihitung dengan cara membandingkan support rule dengan support antecedent rule. Hanya rule yang mempunyai confidence > minimum confidence yang disimpan dalam tabel rule (tabel R).

Kesimpulan :
Data mining merupakan proses analisis data menggunakan perangkat lunak untuk menemukan pola dan aturan (rules) dalam himpunan data. Data mining dapat menganalisis data yang besar untuk menemukan pengetahuan guna mendukung pengambilan keputusan. Dalam penelitian ini akan dibahas Association Rule sebagai salah satu fungsi data mining yang diimplementasikan menggunakan Algoritma Apriori. Akan dianalisis pula dua teknik penghitungan support di candidate generation pada Algoritma Apriori, yakni : K-way dan 2 Group-By pada tiga sampel dataset dengan atribut transaksi id dan item. Pada penelitian ini terlihat bahwa permasalahan penghitungan support di candidate generation merupakan bottleneck dari Algoritma Apriori dimana perbaikan Algoritma Apriori ditekankan pada candidate generation dan efektivitas dari Algoritma Apriori. Penelitian ini dilakukan pada RDBMS Oracle dengan memanfaatkan tools TKPROF untuk mengukur performansi query berdasarkan operasi I/O pada penghitungan support di candidate generation. Hasil penelitian membuktikan bahwa metode support counting K-way lebih baik daripada Two Group-by.
Sumber :
-    -   Agrawal R., T. Imielinski, and A.Swami. 1993. Special Issue on Learning and Discovery in Knowledge Based Databases. Database Mining : A Performance Perspective. IEEE Transactions on Knowledge and Data Engineering, 914-925.
-    -      http://www.pcc.qub.ac.uk
Kelompok :      1. Hernita Turaya                    1A113392
     2. Irma Gantika                       1A113246
     3. Maylisa Angga Pratiwi           1A113206

0 komentar:

Posting Komentar