Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :
Data
Mining
|
Knowledge
Discovery In Database
|
1. Merupakan
salah Satu step KDD
|
Tahapan
Dalam :
1.
Data Selection ( Pemilihan Data )
2.
Data Cleaning ( Pebersihan Data ),
merupakan data Optional ( Pilihan )
3.
Adanya Proses data Transformasi (
Perubhan nilai data ), merupakan data Optional ( Pilihan )
·
Tahapan 1,2,3 merupakan data Procesing
4. Data Mining
5.
Eavaluation of Knowledge
6.
Representation of Knowladge
1. If ...
Then
2. Grapht (
2D – 3D )
3. Hierachy
4. Decision
Tree
|
Ket :
Data Mining :
DB
|
Data Mining
|
Knowlage
|
Standart mathematika Teknik
AI
Neural
Network
Fuzzy
Logic
Algoritma
Genetik
Rhouge
Set
Soft
Set
“
Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan
pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan
melakukan persentasi ) “
Rule
Assosiation :
Assosiasi
/ korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di
dalam database
Bentuk
umum :
X --------- Y [ Support, Confidence ]
Nilai yang
digunakan untuk mengevaluasi rule asosiasi
Prinsip
Concept :
1. Support x ---
y = X U Y
N --- Jumlah Transaksi
N --- Jumlah Transaksi
Ket : Support x - -- y =
Suport y --- x
2. Confidence x
--- y = Support x --- y
Support
x
Confidence y --- x =
Support y --- x
Ket : Confidence x --- y # Confidence y --- x
3. Sebuah
rule asosiasi dikatakan Interisting apabila
mempunyai Support >= Minimum Support
Dan Confidence >= Minimum Confidence.
Catatan
: Nilai minimum Support dan minimum confidence
ditentukan oleh DOMAIN EXPERT.
X ---- Y [ Support,
Confidence ]
Contoh
:
1. Nilai minimum Support = 50%
Nilai Minimum Confidence = 50%
Transaction
|
Item Bought
|
2000
|
A,B,C
|
1000
|
A,C
|
4000
|
A,D
|
5000
|
B,E, F
|
Jawab
:
N 4
N 4
Support
x 3/4
Support
y 2/4
A ----
C Support { 50%, 66,6% } merupakan Interisting
C ---- A
Support { 50%,100% }
Association
Rule Algoritma : APRIORI :
Input : Database Transaksi
Output
: Assosiation Rule
Proses
:
1. Menentukan
FREQUENT ITEMSETS
Item
atau set of item yang mempunyai support >= minimum support.
Catatan
:
1. Subset
dari Frequent item set harus merupakan frequent item set.
Mis
: { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent item
set.
2. Penemuan
Frequen item set dimulai dari 1-Item s/d K-Item set.
2. Menggunakan
Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan RuleAsosiasi.
Contoh
:
Transaction
|
Item Bought
|
2000
|
A,B,C
|
1000
|
A,C
|
4000
|
A,D
|
5000
|
B,E, F
|
1.
Menentukan Frequent Item
Set
a. 1-
Item Set
Item
|
Support
|
|
A
|
¾ = 75%
|
Merupakan Foundensial Item Set
|
B
|
2/4 = 50%
|
|
C
|
2/4 = 50%
|
|
D
|
¼ = 25%
|
|
E
|
¼ = 25%
|
|
F
|
¼ = 25%
|
b. 2-Item Set
Item
|
Support
|
|
A,B
|
1/4 = 25%
|
|
A,C
|
2/4 = 50%
|
Merupakan Foundensial Item Set
|
B,C
|
1/4 = 25%
|
2.
Menggunakan Fourent Item
Set ( mulai dari item set ).
A
--- C { s = 50%, C = 66,7% }
C
--- D { s = 50%, C = 100% }
ð A
--- C dan C --- A merupakan Interisting Assosiation Rules
Program
Yang digunakan :
·
Untuk Asosiation : XL
Miner, WEKA, dan TANAGRA
·
Untuk Rought Set : Roseta, Rose2, dan Rsfs
ROUGHT
SET TEORY DAN DATA MINING
Rought Set
|
Knowlage
IF --- Then
|
DB
|
Proses
Rought Set :
1. Decision
System
2. Equivalence
Class
3. Discervnibility
Matrix / Discernibility Matrix Modulo D
4. Reduction
5. Generate
Rules ( Knowladge => IF .. Then ...
Penyajian
data Dalam Rought Set ( RS ) :
1. Informasion
System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )
IS
= { U,A },
ket
: U = object,
A = Kondisional Atribut
2. Descision
System ( DS ),
DS
= { U, (A,C)},
ket
: U = objek,
A = kondisional
Atribut ( A1, A2, ... An-1 )
C = Decision Atribut ( An
)
Atribut
dalam RS :
1. Condisional
Atribut
2. Decision
Atribut
Atribut
dalam Databese/information system :
1. Atribut
Key
2. Atribut
non Key
Rought
set :
1. Decision
System
2. Equivalen
Class
Dengan
menentukan Kondisi pada atribut yang sama
Soal
:
Pada Slide Rought
Set, Hal : 9 , table
Penyelesaian
:
1. Menentukan
Atribut kondisi yang sama ( Studies, Education, Works ):
E1,
E5, E6
E2,
E99
E3
E4,
E7, E100
E8,
E9, E10
2. Menentukan
Equevalen Yang Terbentuk
|
Studies ( A )
|
Education ( B )
|
Work ( C )
|
Income
|
Ec1
|
Poor
|
SMU
|
Poor
|
None
|
Ec2
|
Poor
|
SMU
|
Good
|
Low
|
Ec3
|
Moderat
|
SMU
|
Poor
|
Low
|
Ec4
|
Moderat
|
Diploma
|
Poor
|
Low
|
Ec5,1
|
Good
|
Msc
|
Good
|
Medium
|
Ec5,2
|
Good
|
Msc
|
Good
|
Hight
|
3. Discernibilyty
Matrix
Dengan
melihat kondisi yang berbeda
|
Ec1
|
Ec2
|
Ec3
|
Ec4
|
Ec5
|
Ec1
|
X
|
C
|
A
|
AB
|
ABC
|
Ec2
|
C
|
X
|
AC
|
ABC
|
AB
|
Ec3
|
A
|
AC
|
X
|
B
|
ABC
|
Ec4
|
AB
|
ABC
|
B
|
X
|
ABC
|
Ec5
|
ABC
|
AB
|
ABC
|
ABC
|
X
|
Mis :
i = 1 dan j = 4
|
Ec1
|
Ec2
|
Ec1
|
X
|
Study dan Education
|
Ec2
|
Study dan Education
|
X
|
Discernibility Matrix Modulo D
Dengan
melihat perbedaan pada keputusan dan kondisi yang berbeda
|
Ec1
|
Ec2
|
Ec3
|
Ec4
|
Ec5
|
Ec1
|
X
|
C
|
A
|
AB
|
ABC
|
Ec2
|
C
|
X
|
Ä
|
Ä
|
AB
|
Ec3
|
A
|
Ä
|
X
|
Ä
|
ABC
|
Ec4
|
AB
|
Ä
|
Ä
|
X
|
ABC
|
Ec5
|
ABC
|
AB
|
ABC
|
ABC
|
X
|
4. Reduction
1. Dilihat
dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :
a. Cara
pencarian dalam bentuk booleean :
Ket : ^ = * ( Perkalian ), dan V = + ( Penjumlahan
)
Untuk
Nilai : AA = A
A + AB = A ( 1+B ), dimana ( 1+B ) = 1
= A
Menentukan nilai boolean paada
Modulo D, apabila ada yang memiliki nilai yang
sama di ambil salah satunya contoh {
( A v B v C ) ^ ( A v B v C ) maka (A v B v C):
1. C
^ A ^( A v B ) ^ ( A v B v C )
Cara
menyederhanakan :
C * A * ( A + B ) * ( A + B + C ) = C * A
* AA * AB *AC * BA * BB
* BC
= CA * A * AB * AC * BA * B * BC
= C ( 1 + A )
2. C
^ ( A v B )
Cara
menyederhanakan :
C * ( A + B ) = CA + CB
=
3. A
^ ( A v B v C )
Cara
menyederhakan :
A ^ ( A v B v C ) = AA + AB + AC
= A + AB + AC
= A ( 1 + B ) + AC
= A
+ AC
= A
( 1 + C ) = A
4. (
A v B ) ^ ( A v B v C )
Cara
menyederhanakan :
5. (
A v B v C ) ^ ( A v B )
Cara
menyederhanakan :
Jadi : Hasil Reduction :
1. {A,C}
= { Studies, Works }
2. {B,C}
= { Education, Works }
3. {
A } = { Studies }
4. {
B } = { Education }
5. Generade
Rules
Dengan mengunkan atribut
Reduct
a. {
Studies, Work }
1. IF
Studies = Poor and Work = Poor, Then Income = Low
2. IF
Studies = Poor and Work = Good, Then Income = Low
3. IF
Studies = Moderate and Work = Poor, Then
Income = Low
4. IF
Studies = Good and Work = Good, Then Income = Medium Or Income = Good
b. {
Education, Work }
1. IF Education = Smu and Work = Poor, Then Income = None
2. IF Education = Smu and Work = Good, Then Income = Low
3. IF Education = Diploma and Work = Poor, Then Income = Low
4. IF Education = Msc and Work = Good, Then Income = Medium
Or Income
= Hight
c. {
Studies }
1. IF
Student = Poor Then Income = None Or Income = Low
2. IF
Student = Moderate Then Income = Low
3. IF
Student = Good Then Income = Medium Or Income = Hight
d. {
Education }
1. IF
Education = Smu then Income = None Or Income = Low
2. IF
Education = Diploma then Income = Low
3. IF
Education = Msc then Income = Medium Or Income = Hight
Jadi : Terdapat 14
pengetahuan.......
Tugas
:
1. Analisa
Hasil yang di peroleh oleh Roseta :
Ø LHS
Support Ã
Jumlah object yang memenuhi bagian if
Ø RHS
Supoortà Jumlah object yang memenuhi bagian
then
Ø
RHS Accuracy
Ø
LHS Coverage=
Ø
RHS Coverage=
Ø
RHS Stability=
Ø LHS
Lenght= Jumlah atribut pada bagian if
Ø RHS
Lenght= Jumlah atribut pada bagian then
2. Lakukan
Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau
tidak dengan Discrinibility Matrix Modulo D?
Data Clening
IncompleteÃ
complete
Caranya :
1. Remove
incomplete data
2. Mean
and mode Fill
à Mean
untuk nilai angka(continius)
à Modus
untuk nilai categorical
Data
transformation
ΦA = (pa2Vpa3Vpa4Vpb2)Λ(pa2Vpa3Vpb2Vpb3)Λ(pa3Vpb1Vpb2Vpb3)Λ
(pa1Vpa4Vpb1Vpb2)
Sistem
akan mengambil No 1
Kita
menguji no 4
pa1Vpa4Vpb1Vpb2
A
|
a
|
b
|
d
|
U1
|
0,8
|
2
|
1
|
U2
|
1
|
0,5
|
0
|
U3
|
1,3
|
3
|
0
|
U4
|
1,4
|
1
|
1
|
U5
|
1,4
|
2
|
0
|
U6
|
1,6
|
3
|
1
|
U7
|
1,3
|
1
|
1
|
A
|
a
|
b
|
d
|
U1
|
*,1.2
|
1.5,*
|
1
|
U2
|
*,1.2
|
*,1.5
|
0
|
|
1.2,1.4
|
1.5,*
|
0
|
U4
|
1.4,1.5
|
*,1.5
|
1
|
U5
|
1.4,1.5
|
1.5,*
|
0
|
U6
|
1.5,*
|
1.5,*
|
1
|
U7
|
1.2,1.4
|
*,1.5
|
1
|
Algoritma MD-Heuristic
Langkah-
langkah :
1. Menyiapkan
tabel , Misal tabel A, berdasarkan
Discernibility formula
2. Memilih
kolom dari tabel A yang mepunyai angka 1 paling banyak
3. Menghapus
Kolom yang dipilih pada step 2 dan semua baris dari kolom tersebut yang punya
angka 1
4. Jika
tabel belum kosong, ulangi langkah 2,jika sudah kosong STOP
A*
|
Pa1
|
Pa2
|
Pa3
|
Pa4
|
Pb1
|
Pb2
|
Pb3
|
D*
|
(U1,U2)
|
1
|
0
|
0
|
0
|
1
|
1
|
0
|
1
|
(U1, U3)
|
1
|
1
|
0
|
0
|
0
|
0
|
1
|
1
|
(U1, U5)
|
1
|
1
|
1
|
0
|
0
|
0
|
0
|
1
|
(U4, U2)
|
0
|
1
|
1
|
0
|
1
|
0
|
0
|
1
|
(U4, U3)
|
0
|
0
|
1
|
0
|
0
|
1
|
1
|
1
|
(U4, U5)
|
0
|
0
|
0
|
0
|
0
|
1
|
0
|
1
|
(U6, U2)
|
0
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
(U6, U3)
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
1
|
(U6, U5)
|
0
|
0
|
0
|
1
|
0
|
0
|
1
|
1
|
(U7, U2)
|
0
|
1
|
0
|
0
|
1
|
0
|
0
|
1
|
(U7, U3)
|
0
|
0
|
0
|
0
|
0
|
1
|
1
|
1
|
(U7, U5)
|
0
|
0
|
1
|
0
|
0
|
1
|
0
|
1
|
New
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
Jumlah
angka 1
|
3
|
5
|
6
|
No comments:
Post a Comment