Data mining merupakan suatu proses pendukung pengambil keputusan dimana kita
mencari pola informasi dalam data. Pencarian ini dapat dilakukan oleh pengguna,
misalnya dengan menggunakan query (dalam kasus ini sangat sulit dilakukan) atau
dapat dibantu dengan suatu aplikasi yang secara otomatis mencari pola informasi
pada basis data. Pencarian ini disebut discovery. Discovery adalah
proses pencarian dalam basis data untuk menemukan pola yang tersembunyi tanpa
ide yang didapatkan sebelumnya atau hipotesa tentang pola yang ada. Dengan kata
lain aplikasi mengambil inisiatif untuk menemukan pola dalam data tanpa
pengguna berpikir mengenai pertanyaan yang relevan terlebih dulu. Salah satu
bentuk pola yang dapat dihasilkan data mining adalah association
rule.
Association rule memiliki
bentuk LHS RHS dengan interpretasi bahwa jika setiap item dalam LHS (Left
Hand Side) dibeli, maka item dalam RHS (Right Hand Side) juga
dibeli. Association rule dapat dihasilkan dengan Algoritma Apriori.
Salah satu penggunaan Association rule adalah mendukung pengambilan
keputusan dalam bidang pemasaran, misalnya untuk mengetahui pola pembelian
pelanggan, penentuan tata letak barang dan lain-lain.
Salah satu obyek untuk data mining adalah RDBMS. Umumnya data
mining dilakukan pada penyimpanan data berukuran besar. Dalam penelitian
ini akan dilakukan pengujian terhadap proses penghitungan support dalam
implementasi data mining pada RDBMS.
Analisis terhadap teknik penghitungan support perlu
dilakukan karena faktor :
1.
Banyaknya kandidat frequent-itemset yang dihasilkan sebagai
input terhadap penghitungan support,
2.
Scan/pembacaan record pada RDBMS.
Kedua faktor diatas dapat mempengaruhi jalannya pemrosesan query
pada RDBMS.
Penelitian ini dilakukan dengan tujuan untuk menerapkan Algoritma
Apriori dengan teknik support counting K-way dan 2 Group-By, mencari Association
Rule pada RDBMS Oracle, dan mengimplemantasikannya dalam bentuk perangkat
lunak. Analisis Algoritma Apriori didasarkan pada hasil pengukuran performansi
proses query pada teknik support counting K-way dan 2 Group-By
menggunakan tools TKPROF pada RDBMS Oracle.
Batasan masalah untuk penelitian ini adalah sebagai berikut :
1. Data yang
digunakan merupakan tabel relasional
2. Hanya digunakan tiga dataset sebagai bahan pengukuran untuk
analisis pemrosesan query
Fungsi dan Tugas Data Mining
Data mining menganalisis data menggunakan tool untuk menemukan
pola dan aturan dalam himpunan data. Perangkat lunak bertugas untuk menemukan
pola dengan mengidentifikasi aturan dan fitur pada data. Tool Data mining
diharapkan mampu mengenal pola ini dalam data dengan input minimal dari user.
Dalam penelitian ini pembahasan Data Mining diklasifikasikan dalam
fungsi Association.
Association Rule
Tipe pola yang penting yang dapat ditemukan dari basis data adalah
sebuah aturan. Association rule mempunyai bentuk LHS RHS dengan
interpretasi jika setiap item dalam LHS dibeli maka sepertinya item dalam RHS
juga dibeli. Dua pengukuran penting untuk sebuah rule adalah support dan
confidence. Kita dapat menghitung semua association rule dengan ambang
support dan confidence masukkan pengguna dengan post-processing
frequent-itemset.
Secara umum Association Rule mempunyai bentuk : LHS RHS, dimana
LHS dan RHS adalah himpunan item; jika setiap item-item dalam LHS terdapat
dalam transaksi maka item-item di RHS juga terdapat dalam transaksi.
Ada dua aturan pengukuran untuk ‘association rule’ :
1.
Support
Support untuk himpunan item adalah prosentase transaksi yang
berisi semua item-item ini. Support untuk aturan LHS RHS di-support untuk
himpunan item-item LHS RHS.
2.
Confidence
Pertimbangkan transaksi yang berisi semua item dalam LHS.
Confidence untuk rule : LHS RHS adalah prosentasi transaksi yang juga terdiri
semua item-item dalam RHS.
Lebih tepatnya, misalkan sup (LHS) adalah prosentase transaksi
yang berisi LHS dan sup (LHS RHS) adalah prosentase transaksi yang berisi LHS
dan RHS, maka confidence rule: LHS RHS adalah sup( LHS RHS )/sup (LHS ).
Permasalahan Association Rule dapat dikomposisikan menjadi dua sub
masalah, yaitu:
a.
Penemuan semua kombinasi item-item, yang disebut frequent-itemset,
yang support-nya lebih besar daripada minimum support.
b.
Gunakan frequent-itemset untuk membangkitkan aturan yang
diinginkan. Idenya adalah, katakan, ABCD dan AB sering muncul dalam transaksi,
maka aturan AB CD akan dipenuhi jika perbandingan antara support(ABCD)
terhadap support(AB) minimum sebesar minimum confidence. Semua
rule akan mempunyai minimum support karena ABCD sering muncul dalam
transaksi.
Algoritma Apriori
Langkah yang membutuhkan pemrosesan lebih adalah penemuan frequent-itemset.
Algoritma untuk menemukan frequent-itemset berdasar pada sifat frequent-itemset:
Sifat Apriori : Setiap subset frequent-itemset harus menjadi frequent-itemset
[12].
Algoritma Apriori untuk menemukan frequent-itemset merupakan
iterasi pada data. Pada iterasi ke-k ditemukan semua himpunan item-item yang
mempunyai k item yang disebut k-itemset. Setiap iterasi terdiri dari dua
tahap.. Pertama, adalah tahap pembangkitan kandidat (candidate
generation) dimana himpunan semua frequent(k – 1)-itemset
Fk-1 yang ditemukan pada pass ke-(k – 1) digunakan untuk
membangkitkan kandidat itemset Ck. Prosedur pembangkitan kandidat
menjamin bahwa Ck adalah superset dari himpunan semua frequent
k-itemset. Kemudian data di-scan dalam tahap Penghitungan Support (Support
Counting). Pada akhir pass Ck diperiksa untuk menentukan kandidat
mana yang sering muncul, menghasilkan Fk. Penghitungan support berakhir
ketika Fk atau Ck+1 kosong.
Untuk membangkitkan rule akan dibangkitkan lebih dahulu candidate
rule. Candidate rule berisi semua kemungkinan rule yang memiliki support
> minimum support karena input candidate rule adalah frequent-itemset.
Kemudian candidate rule akan dijoin dengan tabel F untuk
menemukan support antecedent. Confidence rule dihitung dengan
cara membandingkan support rule dengan support antecedent rule.
Hanya rule yang mempunyai confidence > minimum confidence yang
disimpan dalam tabel rule (tabel R).
Kesimpulan :
Data mining merupakan proses analisis data menggunakan perangkat
lunak untuk menemukan pola dan aturan (rules) dalam himpunan data. Data
mining dapat menganalisis data yang besar untuk menemukan pengetahuan guna
mendukung pengambilan keputusan. Dalam penelitian ini akan dibahas Association
Rule sebagai salah satu fungsi data mining yang diimplementasikan
menggunakan Algoritma Apriori. Akan dianalisis pula dua teknik
penghitungan support di candidate generation pada Algoritma Apriori,
yakni : K-way dan 2 Group-By pada tiga sampel dataset dengan atribut
transaksi id dan item. Pada penelitian ini terlihat bahwa permasalahan
penghitungan support di candidate generation merupakan bottleneck
dari Algoritma Apriori dimana perbaikan Algoritma Apriori ditekankan pada candidate
generation dan efektivitas dari Algoritma Apriori. Penelitian ini
dilakukan pada RDBMS Oracle dengan memanfaatkan tools TKPROF untuk mengukur
performansi query berdasarkan operasi I/O pada penghitungan support di candidate
generation. Hasil penelitian membuktikan bahwa metode support counting
K-way lebih baik daripada Two Group-by.
Sumber :
- -
Agrawal
R., T. Imielinski, and A.Swami. 1993. Special Issue on Learning and
Discovery in Knowledge Based Databases. Database Mining : A Performance
Perspective. IEEE Transactions on Knowledge and Data Engineering, 914-925.
Kelompok
: 1. Hernita Turaya 1A113392
2. Irma Gantika 1A113246
3. Maylisa Angga Pratiwi 1A113206
0 komentar:
Posting Komentar