Perbedaan data Mining dengan KDD (Knowledge Discovery In Database - Kamus Mahasiswa

Wednesday, August 15, 2018

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database



Perbedaan data Mining dengan  KDD (Knowledge Discovery In Database ) :
Data Mining
Knowledge Discovery In Database
1.      Merupakan salah Satu step KDD
Tahapan Dalam :
1.      Data Selection ( Pemilihan Data )
2.      Data Cleaning ( Pebersihan Data ), merupakan data Optional ( Pilihan )
3.      Adanya Proses data Transformasi ( Perubhan nilai data ), merupakan data Optional ( Pilihan )
·         Tahapan 1,2,3 merupakan data Procesing
4.      Data Mining
5.      Eavaluation of Knowledge
6.      Representation of Knowladge
1.      If ... Then
2.      Grapht ( 2D – 3D )
3.      Hierachy
4.      Decision Tree
Ket :
Data Mining :
DB
            Proses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di dalam database berukuran besar.
Data Mining
Knowlage
 



            Standart           mathematika                Teknik AI
                                                                        Neural Network
                                                                        Fuzzy Logic
                                                                        Algoritma Genetik
                                                                        Rhouge Set
                                                                        Soft Set

“ Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan melakukan persentasi ) “

Rule Assosiation :
            Assosiasi / korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di dalam database


Bentuk umum :
            X --------- Y    [ Support, Confidence ]
                                    Nilai yang digunakan untuk mengevaluasi rule asosiasi

Prinsip Concept :
1.      Support x --- y  =   X U Y
      N --- Jumlah Transaksi

Support y --- x  = Y U X
    N --- Jumlah Transaksi
                        Ket : Support x - -- y  = Suport y --- x

2.      Confidence x --- y = Support x --- y
            Support x

Confidence y --- x = Support y --- x
            Support y
                        Ket : Confidence x --- y    #  Confidence y --- x

3.      Sebuah rule asosiasi dikatakan Interisting apabila mempunyai Support >= Minimum Support Dan Confidence >= Minimum Confidence.

Catatan : Nilai minimum Support dan minimum confidence ditentukan oleh DOMAIN EXPERT.

                                                X ---- Y [ Support, Confidence ]

Contoh :
1.       Nilai minimum Support = 50%
Nilai Minimum Confidence = 50%
Transaction
Item Bought
2000
A,B,C
1000
A,C
4000
A,D
5000
B,E, F

                Jawab :
                        Support x --- y  =   X U Y  =  2    = 0,5 = 50 %
                                                      N           4
Support y --- x  =   Y U X  =  2    = 0,5 = 50 %
                                                      N           4
Confidence x --- y = Support x --- y   = 2 /4     = 2/3 = 0,666 = 66,7 %
                              Support x         3/4

Confidence y --- x = Support y --- x   = 2 /4     = 2/2 = 1 = 100 %
                              Support y         2/4
                               
                        Jadi : Maka
                                    A ---- C  Support  { 50%, 66,6% } merupakan Interisting
                                    C ---- A Support   { 50%,100% }


Association Rule Algoritma : APRIORI :
Input    : Database Transaksi
Output : Assosiation Rule

Proses :
1.      Menentukan FREQUENT ITEMSETS
Item atau set of item yang mempunyai support >= minimum support.
            Catatan :
1.      Subset dari Frequent item set harus merupakan frequent item set.
Mis : { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent item set.
2.      Penemuan Frequen item set dimulai dari 1-Item s/d K-Item set.

2.      Menggunakan Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan  RuleAsosiasi.
Contoh :        
Transaction
Item Bought
2000
A,B,C
1000
A,C
4000
A,D
5000
B,E, F
             
1.      Menentukan Frequent Item Set
a.       1- Item Set                             
Item
Support

A
¾ = 75%
Merupakan Foundensial Item Set
B
2/4 = 50%
C
2/4 = 50%
D
¼ = 25%

E
¼ = 25%

F
¼ = 25%


b.       2-Item Set
Item
Support

A,B
1/4 = 25%

A,C
2/4 = 50%
Merupakan Foundensial Item Set
B,C
1/4 = 25%

2.      Menggunakan Fourent Item Set ( mulai dari item set ).
A --- C { s = 50%, C = 66,7% }
C --- D { s = 50%, C = 100% }

ð  A --- C dan C --- A merupakan Interisting Assosiation Rules
 

Program Yang digunakan :
·         Untuk Asosiation : XL Miner, WEKA, dan TANAGRA
·         Untuk Rought Set  : Roseta, Rose2, dan Rsfs

ROUGHT SET TEORY DAN DATA MINING
Rought Set
Knowlage
IF --- Then
DB
 



           
Proses Rought Set :
1.      Decision System
2.      Equivalence Class
3.      Discervnibility Matrix / Discernibility Matrix Modulo D
4.      Reduction
5.      Generate Rules ( Knowladge => IF .. Then ...

Penyajian data Dalam Rought Set ( RS ) :
1.      Informasion System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )
IS = { U,A },
ket :    U = object,
A = Kondisional Atribut

2.      Descision System ( DS ),
DS = { U, (A,C)},
ket :    U = objek,
A = kondisional Atribut ( A1, A2, ... An-1 )
C = Decision Atribut ( An )

Atribut dalam RS :
1.      Condisional Atribut
2.      Decision Atribut

Atribut dalam Databese/information system :
1.      Atribut Key
2.      Atribut non Key

Rought set :
1.      Decision System
2.      Equivalen Class
Dengan menentukan Kondisi pada atribut yang sama
Soal :
Pada Slide Rought Set, Hal : 9 , table
Penyelesaian :
1.      Menentukan Atribut kondisi yang sama ( Studies, Education, Works ):
            E1, E5, E6
            E2, E99
            E3
            E4, E7, E100
            E8, E9, E10
2.      Menentukan Equevalen Yang Terbentuk

Studies ( A )
Education ( B )
Work ( C )
Income
Ec1
Poor
SMU
Poor
None
Ec2
Poor
SMU
Good
Low
Ec3
Moderat
SMU
Poor
Low
Ec4
Moderat
Diploma
Poor
Low
Ec5,1
Good
Msc
Good
Medium
Ec5,2
Good
Msc
Good
Hight

3.      Discernibilyty Matrix
Dengan melihat kondisi yang berbeda

Ec1
Ec2
Ec3
Ec4
Ec5
Ec1
X
C
A
AB
ABC
Ec2
C
X
AC
ABC
AB
Ec3
A
AC
X
B
ABC
Ec4
AB
ABC
B
X
ABC
Ec5
ABC
AB
ABC
ABC
X

Mis :  i = 1 dan j = 4

Ec1
Ec2
Ec1
X
Study dan Education
Ec2
Study dan Education
X

Discernibility Matrix Modulo D
            Dengan melihat perbedaan pada keputusan dan kondisi yang berbeda

Ec1
Ec2
Ec3
Ec4
Ec5
Ec1
X
C
A
AB
ABC
Ec2
C
X
Ä       
Ä       
AB
Ec3
A
Ä       
X
Ä       
ABC
Ec4
AB
Ä       
Ä       
X
ABC
Ec5
ABC
AB
ABC
ABC
X

4.      Reduction
1.      Dilihat dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :
a.       Cara pencarian dalam bentuk booleean :
Ket :   ^ = * ( Perkalian ), dan V = + ( Penjumlahan )
           Untuk Nilai :  AA = A
                                  A + AB = A ( 1+B ), dimana ( 1+B ) = 1
                                                = A
           
            Menentukan nilai boolean paada Modulo D, apabila ada yang memiliki nilai yang
            sama di ambil salah satunya contoh { ( A v B v C ) ^ ( A v B v C ) maka (A v B v C):
1.      C ^ A ^( A v B ) ^ ( A v B v C )
Cara menyederhanakan :
      C * A * ( A + B ) * ( A + B + C ) = C * A * AA * AB *AC * BA * BB
         * BC
      = CA * A * AB * AC * BA * B * BC
      = C ( 1 + A )
           
2.      C ^ ( A v B )
Cara menyederhanakan :
      C * ( A + B ) = CA + CB
                            =
3.      A ^ ( A v B v C )
Cara menyederhakan :
      A ^ ( A v B v C ) = AA + AB + AC
                                   = A + AB + AC
                                   = A ( 1 + B ) + AC
                                   =  A + AC
                                   =  A ( 1 + C ) = A
4.      ( A v B ) ^ ( A v B v C )
Cara menyederhanakan :

5.      ( A v B v C ) ^ ( A v B )
Cara menyederhanakan :

 Jadi : Hasil Reduction :
1.      {A,C} = { Studies, Works }
2.      {B,C} = { Education, Works }
3.      { A }   = { Studies }
4.      { B }   = { Education }

5.      Generade Rules
Dengan mengunkan atribut Reduct
a.       { Studies, Work }
1.      IF Studies = Poor and Work = Poor, Then Income = Low
2.      IF Studies = Poor and Work = Good, Then Income = Low
3.      IF Studies = Moderate  and Work = Poor, Then Income = Low
4.      IF Studies = Good and Work = Good, Then Income = Medium Or Income = Good

b.      { Education, Work }
1. IF Education  = Smu and Work = Poor, Then Income = None
2. IF Education  = Smu and Work = Good, Then Income = Low
3. IF Education  = Diploma and Work = Poor, Then Income = Low
4. IF Education  = Msc and Work = Good, Then Income = Medium Or Income
    = Hight

c.       { Studies }
1.      IF Student = Poor Then Income = None Or Income = Low
2.      IF Student = Moderate Then Income = Low
3.      IF Student = Good Then Income = Medium Or Income = Hight

d.      { Education }
1.      IF Education = Smu then Income = None Or Income = Low
2.      IF Education = Diploma then Income = Low
3.      IF Education = Msc then Income = Medium Or Income = Hight

Jadi : Terdapat 14 pengetahuan.......



Tugas :
1.      Analisa Hasil yang di peroleh oleh Roseta :
Ø  LHS Support à Jumlah object yang memenuhi bagian if
Ø  RHS Supoortà Jumlah object yang memenuhi bagian then
Ø      RHS Accuracy
Ø      LHS Coverage=
Ø      RHS Coverage=
Ø      RHS Stability=
Ø  LHS Lenght= Jumlah atribut pada bagian if
Ø  RHS Lenght= Jumlah atribut pada bagian then

2.      Lakukan Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau tidak dengan Discrinibility Matrix Modulo D?
Data Clening
Incompleteà complete
Caranya :
1.      Remove incomplete data
2.      Mean and mode Fill
àMean untuk nilai angka(continius)
àModus untuk nilai categorical

Data transformation
ΦA = (pa2Vpa3Vpa4Vpb2)Λ(pa2Vpa3Vpb2Vpb3)Λ(pa3Vpb1Vpb2Vpb3)Λ
          (pa1Vpa4Vpb1Vpb2)
Sistem akan mengambil No 1
Kita menguji no 4

pa1Vpa4Vpb1Vpb2
A
a
b
d
 U1
0,8
2
1
U2
1
0,5
0
U3
1,3
3
0
 U4
1,4
1
1
U5
1,4
2
0
U6
1,6
3
1
U7
1,3
1
1
A
a
b
d
 U1
*,1.2
1.5,*
1
U2
*,1.2
*,1.5
0
U3
1.2,1.4
1.5,*
0
U4
1.4,1.5
*,1.5
1
U5
1.4,1.5
1.5,*
0
U6
1.5,*
1.5,*
1
U7
1.2,1.4
*,1.5
1

Algoritma MD-Heuristic
Langkah- langkah :
1.      Menyiapkan tabel , Misal tabel A,  berdasarkan Discernibility formula
2.      Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak
3.      Menghapus Kolom yang dipilih pada step 2 dan semua baris dari kolom tersebut yang punya angka 1
4.      Jika tabel belum kosong, ulangi langkah 2,jika sudah kosong  STOP

A*
Pa1
Pa2
Pa3
Pa4
Pb1
Pb2
Pb3
D*
(U1,U2)
1
0
0
0
1
1
0
1
(U1, U3)
1
1
0
0
0
0
1
1
(U1, U5)
1
1
1
0
0
0
0
1
(U4, U2)
0
1
1
0
1
0
0
1
(U4, U3)
0
0
1
0
0
1
1
1
(U4, U5)
0
0
0
0
0
1
0
1
(U6, U2)
0
1
1
1
1
1
1
1
(U6, U3)
0
0
1
1
0
0
0
1
(U6, U5)
0
0
0
1
0
0
1
1
(U7, U2)
0
1
0
0
1
0
0
1
(U7, U3)
0
0
0
0
0
1
1
1
(U7, U5)
0
0
1
0
0
1
0
1
New
0
0
0
0
0
0
0
1
Jumlah angka 1
3
5
6


No comments:

Post a Comment