Perbedaan data Mining dengan  KDD (Knowledge Discovery In Database ) :
| 
Data
  Mining | 
Knowledge
  Discovery In Database | 
| 
1.      Merupakan
  salah Satu step KDD | 
Tahapan
  Dalam : 
1.     
  Data Selection ( Pemilihan Data ) 
2.     
  Data Cleaning ( Pebersihan Data ),
  merupakan data Optional ( Pilihan ) 
3.     
  Adanya Proses data Transformasi (
  Perubhan nilai data ), merupakan data Optional ( Pilihan ) 
·        
  Tahapan 1,2,3 merupakan data Procesing 
4.      Data Mining 
5.     
  Eavaluation of Knowledge 
6.     
  Representation of Knowladge 
1.      If ...
  Then 
2.      Grapht (
  2D – 3D ) 
3.      Hierachy 
4.      Decision
  Tree | 
Ket :
Data Mining :
| 
DB | 
| 
Data Mining | 
| 
Knowlage | 
            Standart           mathematika                Teknik
AI
                                                                        Neural
Network
                                                                        Fuzzy
Logic
                                                                        Algoritma
Genetik
                                                                        Rhouge
Set
                                                                        Soft
Set
“
Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan
pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan
melakukan persentasi ) “
Rule
Assosiation :
            Assosiasi
/ korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di
dalam database
Bentuk
umum :
            X --------- Y    [ Support, Confidence ] 
                                    Nilai yang
digunakan untuk mengevaluasi rule asosiasi
Prinsip
Concept :
1.      Support x ---
y  =   X U Y 
      N --- Jumlah Transaksi
    N --- Jumlah Transaksi
                        Ket : Support x - -- y  =
Suport y --- x
2.      Confidence x
--- y = Support x --- y 
            Support
x
Confidence y --- x =
Support y --- x
                        Ket : Confidence x --- y    #  Confidence y --- x
3.      Sebuah
rule asosiasi dikatakan Interisting apabila
mempunyai Support >= Minimum Support
Dan Confidence >= Minimum Confidence.
Catatan
: Nilai minimum Support dan minimum confidence
ditentukan oleh DOMAIN EXPERT.
                                                X ---- Y [ Support,
Confidence ]
Contoh
:
1.       Nilai minimum Support = 50%
Nilai Minimum Confidence = 50%
| 
Transaction  | 
Item Bought | 
| 
2000 | 
A,B,C | 
| 
1000 | 
A,C | 
| 
4000 | 
A,D | 
| 
5000 | 
B,E, F | 
                Jawab
:
                                                      N           4
                                                      N           4
                              Support
x         3/4
                              Support
y         2/4
                                    A ----
C  Support  { 50%, 66,6% } merupakan Interisting
                                    C ---- A
Support   { 50%,100% }
Association
Rule Algoritma : APRIORI :
Input    : Database Transaksi 
Output
: Assosiation Rule 
Proses
:
1.      Menentukan
FREQUENT ITEMSETS
Item
atau set of item yang mempunyai support >= minimum support.
            Catatan
: 
1.      Subset
dari Frequent item set harus merupakan frequent item set.
Mis
: { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent item
set.
2.      Penemuan
Frequen item set dimulai dari 1-Item s/d K-Item set.
2.      Menggunakan
Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan  RuleAsosiasi.
Contoh
:         
| 
Transaction  | 
Item Bought | 
| 
2000 | 
A,B,C | 
| 
1000 | 
A,C | 
| 
4000 | 
A,D | 
| 
5000 | 
B,E, F | 
1.     
Menentukan Frequent Item
Set
a.       1-
Item Set                              
| 
Item  | 
Support | |
| 
A | 
¾ = 75% | 
Merupakan Foundensial Item Set | 
| 
B | 
2/4 = 50% | |
| 
C | 
2/4 = 50% | |
| 
D | 
¼ = 25% | |
| 
E | 
¼ = 25% | |
| 
F | 
¼ = 25% | 
b.       2-Item Set
| 
Item  | 
Support | |
| 
A,B | 
1/4 = 25% | |
| 
A,C | 
2/4 = 50% | 
Merupakan Foundensial Item Set | 
| 
B,C | 
1/4 = 25% | 
2.     
Menggunakan Fourent Item
Set ( mulai dari item set ).
A
--- C { s = 50%, C = 66,7% }
C
--- D { s = 50%, C = 100% }
ð  A
--- C dan C --- A merupakan Interisting Assosiation Rules
Program
Yang digunakan :
·        
Untuk Asosiation : XL
Miner, WEKA, dan TANAGRA
·        
Untuk Rought Set  : Roseta, Rose2, dan Rsfs
ROUGHT
SET TEORY DAN DATA MINING
| 
Rought Set | 
| 
Knowlage 
IF --- Then | 
| 
DB | 
Proses
Rought Set :
1.      Decision
System
2.      Equivalence
Class
3.      Discervnibility
Matrix / Discernibility Matrix Modulo D
4.      Reduction
5.      Generate
Rules ( Knowladge => IF .. Then ...
Penyajian
data Dalam Rought Set ( RS ) :
1.      Informasion
System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )
IS
= { U,A }, 
ket
:    U = object, 
A = Kondisional Atribut 
2.      Descision
System ( DS ), 
DS
= { U, (A,C)}, 
ket
:    U = objek, 
A = kondisional
Atribut ( A1, A2, ... An-1 )
C = Decision Atribut ( An
)
Atribut
dalam RS :
1.      Condisional
Atribut
2.      Decision
Atribut
Atribut
dalam Databese/information system :
1.      Atribut
Key
2.      Atribut
non Key
Rought
set :
1.      Decision
System 
2.      Equivalen
Class
Dengan
menentukan Kondisi pada atribut yang sama
Soal
: 
Pada Slide Rought
Set, Hal : 9 , table
Penyelesaian
:
1.      Menentukan
Atribut kondisi yang sama ( Studies, Education, Works ):
            E1,
E5, E6
            E2,
E99
            E3
            E4,
E7, E100
            E8,
E9, E10
2.      Menentukan
Equevalen Yang Terbentuk
|  | 
Studies ( A ) | 
Education ( B ) | 
Work ( C ) | 
Income | 
| 
Ec1 | 
Poor | 
SMU | 
Poor | 
None | 
| 
Ec2 | 
Poor | 
SMU | 
Good | 
Low | 
| 
Ec3 | 
Moderat | 
SMU | 
Poor | 
Low | 
| 
Ec4 | 
Moderat | 
Diploma | 
Poor | 
Low | 
| 
Ec5,1 | 
Good | 
Msc | 
Good | 
Medium | 
| 
Ec5,2 | 
Good | 
Msc | 
Good | 
Hight | 
3.      Discernibilyty
Matrix
Dengan
melihat kondisi yang berbeda
|  | 
Ec1 | 
Ec2 | 
Ec3 | 
Ec4 | 
Ec5 | 
| 
Ec1 | 
X | 
C | 
A | 
AB | 
ABC | 
| 
Ec2 | 
C | 
X | 
AC | 
ABC | 
AB | 
| 
Ec3 | 
A | 
AC | 
X | 
B | 
ABC | 
| 
Ec4 | 
AB | 
ABC | 
B | 
X | 
ABC | 
| 
Ec5 | 
ABC | 
AB | 
ABC | 
ABC | 
X | 
Mis : 
i = 1 dan j = 4
|  | 
Ec1 | 
Ec2 | 
| 
Ec1 | 
X | 
Study dan Education | 
| 
Ec2 | 
Study dan Education | 
X | 
Discernibility Matrix Modulo D
            Dengan
melihat perbedaan pada keputusan dan kondisi yang berbeda
|  | 
Ec1 | 
Ec2 | 
Ec3 | 
Ec4 | 
Ec5 | 
| 
Ec1 | 
X | 
C | 
A | 
AB | 
ABC | 
| 
Ec2 | 
C | 
X | 
Ä     
   | 
Ä     
   | 
AB | 
| 
Ec3 | 
A | 
Ä     
   | 
X | 
Ä     
   | 
ABC | 
| 
Ec4 | 
AB | 
Ä     
   | 
Ä     
   | 
X | 
ABC | 
| 
Ec5 | 
ABC | 
AB | 
ABC | 
ABC | 
X | 
4.      Reduction
1.      Dilihat
dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :
a.       Cara
pencarian dalam bentuk booleean :
Ket :   ^ = * ( Perkalian ), dan V = + ( Penjumlahan
)
           Untuk
Nilai :  AA = A
                                  A + AB = A ( 1+B ), dimana ( 1+B ) = 1
                                                = A
            Menentukan nilai boolean paada
Modulo D, apabila ada yang memiliki nilai yang 
            sama di ambil salah satunya contoh {
( A v B v C ) ^ ( A v B v C ) maka (A v B v C):
1.      C
^ A ^( A v B ) ^ ( A v B v C )
Cara
menyederhanakan :
      C * A * ( A + B ) * ( A + B + C ) = C * A
* AA * AB *AC * BA * BB
         * BC 
      = CA * A * AB * AC * BA * B * BC
      = C ( 1 + A ) 
            
2.      C
^ ( A v B )
Cara
menyederhanakan :
      C * ( A + B ) = CA + CB
                            = 
3.      A
^ ( A v B v C )
Cara
menyederhakan :
      A ^ ( A v B v C ) = AA + AB + AC
                                   = A + AB + AC
                                   = A ( 1 + B ) + AC
                                   =  A
+ AC
                                   =  A
( 1 + C ) = A
4.      (
A v B ) ^ ( A v B v C )
Cara
menyederhanakan :
5.      (
A v B v C ) ^ ( A v B )
Cara
menyederhanakan :
 Jadi : Hasil Reduction :
1.      {A,C}
= { Studies, Works }
2.      {B,C}
= { Education, Works }
3.      {
A }   = { Studies }
4.      {
B }   = { Education }
5.      Generade
Rules 
Dengan mengunkan atribut
Reduct
a.       {
Studies, Work }
1.      IF
Studies = Poor and Work = Poor, Then Income = Low
2.      IF
Studies = Poor and Work = Good, Then Income = Low
3.      IF
Studies = Moderate  and Work = Poor, Then
Income = Low
4.      IF
Studies = Good and Work = Good, Then Income = Medium Or Income = Good
b.      {
Education, Work }
1. IF Education  = Smu and Work = Poor, Then Income = None
2. IF Education  = Smu and Work = Good, Then Income = Low
3. IF Education  = Diploma and Work = Poor, Then Income = Low
4. IF Education  = Msc and Work = Good, Then Income = Medium
Or Income 
   
= Hight
c.       {
Studies }
1.      IF
Student = Poor Then Income = None Or Income = Low
2.      IF
Student = Moderate Then Income = Low
3.      IF
Student = Good Then Income = Medium Or Income = Hight
d.      {
Education }
1.      IF
Education = Smu then Income = None Or Income = Low
2.      IF
Education = Diploma then Income = Low
3.      IF
Education = Msc then Income = Medium Or Income = Hight
Jadi : Terdapat 14
pengetahuan.......
Tugas
:
1.      Analisa
Hasil yang di peroleh oleh Roseta : 
Ø  LHS
Support à
Jumlah object yang memenuhi bagian if
Ø  RHS
Supoortà Jumlah object yang memenuhi bagian
then
Ø     
RHS Accuracy 
 
 
  
  
  
  
  
  
  
  
  
  
  
  
              
 
 
    
 
  
Ø     
LHS Coverage=
 
  
Ø     
RHS Coverage=
 
  
Ø     
RHS Stability=
 
  
Ø  LHS
Lenght= Jumlah atribut pada bagian if
Ø  RHS
Lenght= Jumlah atribut pada bagian then
2.      Lakukan
Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau
tidak dengan Discrinibility Matrix Modulo D?
Data Clening
Incompleteà
complete
Caranya :
1.      Remove
incomplete data
2.      Mean
and mode Fill
àMean
untuk nilai angka(continius)
àModus
untuk nilai categorical
Data
transformation 
ΦA = (pa2Vpa3Vpa4Vpb2)Λ(pa2Vpa3Vpb2Vpb3)Λ(pa3Vpb1Vpb2Vpb3)Λ 
          (pa1Vpa4Vpb1Vpb2)
Sistem
akan mengambil No 1
Kita
menguji no 4
pa1Vpa4Vpb1Vpb2
| 
A | 
a | 
b | 
d | 
| 
 U1 | 
0,8 | 
2 | 
1 | 
| 
U2 | 
1 | 
0,5 | 
0 | 
| 
U3 | 
1,3 | 
3 | 
0 | 
| 
 U4 | 
1,4 | 
1 | 
1 | 
| 
U5 | 
1,4 | 
2 | 
0 | 
| 
U6 | 
1,6 | 
3 | 
1 | 
| 
U7 | 
1,3 | 
1 | 
1 | 
| 
A | 
a | 
b | 
d | 
| 
 U1 | 
*,1.2 | 
1.5,* | 
1 | 
| 
U2 | 
*,1.2 | 
*,1.5 | 
0 | 
|  | 
1.2,1.4 | 
1.5,* | 
0 | 
| 
U4 | 
1.4,1.5 | 
*,1.5 | 
1 | 
| 
U5 | 
1.4,1.5 | 
1.5,* | 
0 | 
| 
U6 | 
1.5,* | 
1.5,* | 
1 | 
| 
U7 | 
1.2,1.4 | 
*,1.5 | 
1 | 
Algoritma MD-Heuristic
Langkah-
langkah :
1.      Menyiapkan
tabel , Misal tabel A,  berdasarkan
Discernibility formula
2.      Memilih
kolom dari tabel A yang mepunyai angka 1 paling banyak
3.      Menghapus
Kolom yang dipilih pada step 2 dan semua baris dari kolom tersebut yang punya
angka 1
4.      Jika
tabel belum kosong, ulangi langkah 2,jika sudah kosong  STOP
| 
A*  | 
Pa1  | 
Pa2  | 
Pa3  | 
Pa4  | 
Pb1  | 
Pb2  | 
Pb3  | 
D*  | 
| 
(U1,U2)  | 
1  | 
0  | 
0  | 
0  | 
1  | 
1  | 
0  | 
1  | 
| 
(U1, U3)  | 
1  | 
1  | 
0  | 
0  | 
0  | 
0  | 
1  | 
1  | 
| 
(U1, U5)  | 
1  | 
1  | 
1  | 
0  | 
0  | 
0  | 
0  | 
1  | 
| 
(U4, U2)  | 
0  | 
1  | 
1  | 
0  | 
1  | 
0  | 
0  | 
1  | 
| 
(U4, U3)  | 
0  | 
0  | 
1  | 
0  | 
0  | 
1  | 
1  | 
1  | 
| 
(U4, U5)  | 
0  | 
0  | 
0  | 
0  | 
0  | 
1  | 
0  | 
1  | 
| 
(U6, U2)  | 
0  | 
1  | 
1  | 
1  | 
1  | 
1  | 
1 | 
1  | 
| 
(U6, U3)  | 
0  | 
0  | 
1  | 
1  | 
0  | 
0  | 
0  | 
1  | 
| 
(U6, U5)  | 
0  | 
0  | 
0  | 
1  | 
0  | 
0  | 
1  | 
1  | 
| 
(U7, U2)  | 
0  | 
1  | 
0  | 
0  | 
1  | 
0  | 
0  | 
1  | 
| 
(U7, U3)  | 
0  | 
0  | 
0  | 
0  | 
0  | 
1  | 
1  | 
1  | 
| 
(U7, U5)  | 
0  | 
0  | 
1  | 
0  | 
0  | 
1  | 
0  | 
1  | 
| 
New  | 
0  | 
0  | 
0  | 
0  | 
0  | 
0  | 
0  | 
1  | 
| 
Jumlah
  angka 1 | 
3 | 
5 | 
6 | 

 
 
 
 
 
 
 
 
 
No comments:
Post a Comment