Perbedaan data Mining dengan KDD (Knowledge Discovery In Database

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :

Data Mining

Knowledge Discovery In Database

1. Merupakan salah Satu step KDD

Tahapan Dalam :

1. Data Selection ( Pemilihan Data )

2. Data Cleaning ( Pebersihan Data ), merupakan data Optional ( Pilihan )

3. Adanya Proses data Transformasi ( Perubhan nilai data ), merupakan data Optional ( Pilihan )

· Tahapan 1,2,3 merupakan data Procesing

4. Data Mining

5. Eavaluation of Knowledge

6. Representation of Knowladge

1. If ... Then

2. Grapht ( 2D – 3D )

3. Hierachy

4. Decision Tree

Ket :

Data Mining :

Proses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di dalam database berukuran besar.

Data Mining

Knowlage

Standart mathematika Teknik AI

Neural Network

Fuzzy Logic

Algoritma Genetik

Rhouge Set

Soft Set

“ Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan melakukan persentasi ) “

Rule Assosiation :

Assosiasi / korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di dalam database

Bentuk umum :

X --------- Y [ Support, Confidence ]

Nilai yang digunakan untuk mengevaluasi rule asosiasi

Prinsip Concept :

1. Support _{x ---
y} = X U Y

N --- Jumlah Transaksi

Support _{y --- x} = Y U X

N --- Jumlah Transaksi

Ket : Support _{x - -- y}= Suport _{y --- x}

2. Confidence _{x
--- y}= Support _{x --- y}

Support _x

Confidence _{y --- x}= Support _{y --- x}

Support _y

Ket : Confidence _{x --- y} # Confidence _{y --- x}

3. Sebuah rule asosiasi dikatakan Interisting apabila mempunyai Support >= Minimum Support Dan Confidence >= Minimum Confidence.

Catatan : Nilai minimum Support dan minimum confidence ditentukan oleh DOMAIN EXPERT.

X ---- Y [ Support, Confidence ]

Contoh :

1. Nilai minimum Support = 50%

Nilai Minimum Confidence = 50%

Transaction	Item Bought
2000	A,B,C
1000	A,C
4000	A,D
5000	B,E, F

Jawab :

Support _{x --- y} = X U Y = 2 = 0,5 = 50 %

N 4

Support _{y --- x} = Y U X = 2 = 0,5 = 50 %

N 4

Confidence _{x --- y}= Support _{x --- y} = 2 /4 = 2/3 = 0,666 = 66,7 %

Support _x 3/4

Confidence _{y --- x}= Support _{y --- x} = 2 /4 = 2/2 = 1 = 100 %

Support _y 2/4

Jadi : Maka

A ---- C Support { 50%, 66,6% } merupakan Interisting

C ---- A Support { 50%,100% }

Association Rule Algoritma : APRIORI :

Input : Database Transaksi

Output : Assosiation Rule

Proses :

1. Menentukan FREQUENT ITEMSETS

Item atau set of item yang mempunyai support >= minimum support.

Catatan :

1. Subset dari Frequent item set harus merupakan frequent item set.

Mis : { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent item set.

2. Penemuan Frequen item set dimulai dari 1-Item s/d K-Item set.

2. Menggunakan Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan RuleAsosiasi.

Contoh :

Transaction	Item Bought
2000	A,B,C
1000	A,C
4000	A,D
5000	B,E, F

1. Menentukan Frequent Item Set

a. 1- Item Set

Item	Support
A	¾ = 75%	Merupakan Foundensial Item Set
B	2/4 = 50%
C	2/4 = 50%
D	¼ = 25%
E	¼ = 25%
F	¼ = 25%

b. 2-Item Set

Item	Support
A,B	1/4 = 25%
A,C	2/4 = 50%	Merupakan Foundensial Item Set
B,C	1/4 = 25%

2. Menggunakan Fourent Item Set ( mulai dari item set ).

A --- C { s = 50%, C = 66,7% }

C --- D { s = 50%, C = 100% }

ð A --- C dan C --- A merupakan Interisting Assosiation Rules

Program Yang digunakan :

· Untuk Asosiation : XL Miner, WEKA, dan TANAGRA

· Untuk Rought Set : Roseta, Rose2, dan Rsfs

ROUGHT SET TEORY DAN DATA MINING

Rought Set

Knowlage

IF --- Then

Proses Rought Set :

1. Decision System

2. Equivalence Class

3. Discervnibility Matrix / Discernibility Matrix Modulo D

4. Reduction

5. Generate Rules ( Knowladge => IF .. Then ...

Penyajian data Dalam Rought Set ( RS ) :

1. Informasion System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )

IS = { U,A },

ket : U = object,

A = Kondisional Atribut

2. Descision System ( DS ),

DS = { U, (A,C)},

ket : U = objek,

A = kondisional Atribut ( A1, A2, ... An-1 )

C = Decision Atribut ( An )

Atribut dalam RS :

1. Condisional Atribut

2. Decision Atribut

Atribut dalam Databese/information system :

1. Atribut Key

2. Atribut non Key

Rought set :

1. Decision System

2. Equivalen Class

Dengan menentukan Kondisi pada atribut yang sama

Soal :

Pada Slide Rought Set, Hal : 9 , table

Penyelesaian :

1. Menentukan Atribut kondisi yang sama ( Studies, Education, Works ):

E1, E5, E6

E2, E99

E4, E7, E100

E8, E9, E10

2. Menentukan Equevalen Yang Terbentuk

	Studies ( A )	Education ( B )	Work ( C )	Income
Ec₁	Poor	SMU	Poor	None
Ec₂	Poor	SMU	Good	Low
Ec₃	Moderat	SMU	Poor	Low
Ec₄	Moderat	Diploma	Poor	Low
Ec_5,1	Good	Msc	Good	Medium
Ec_5,2	Good	Msc	Good	Hight

3. Discernibilyty Matrix

Dengan melihat kondisi yang berbeda

	Ec₁	Ec₂	Ec₃	Ec₄	Ec₅
Ec₁	X	C	A	AB	ABC
Ec₂	C	X	AC	ABC	AB
Ec₃	A	AC	X	B	ABC
Ec₄	AB	ABC	B	X	ABC
Ec₅	ABC	AB	ABC	ABC	X

Mis : i = 1 dan j = 4

	Ec₁	Ec₂
Ec₁	X	Study dan Education
Ec₂	Study dan Education	X

Discernibility Matrix Modulo D

Dengan melihat perbedaan pada keputusan dan kondisi yang berbeda

	Ec₁	Ec₂	Ec₃	Ec₄	Ec₅
Ec₁	X	C	A	AB	ABC
Ec₂	C	X	Ä	Ä	AB
Ec₃	A	Ä	X	Ä	ABC
Ec₄	AB	Ä	Ä	X	ABC
Ec₅	ABC	AB	ABC	ABC	X

4. Reduction

1. Dilihat dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :

a. Cara pencarian dalam bentuk booleean :

Ket : ^ = * ( Perkalian ), dan V = + ( Penjumlahan )

Untuk Nilai : AA = A

A + AB = A ( 1+B ), dimana ( 1+B ) = 1

= A

Menentukan nilai boolean paada Modulo D, apabila ada yang memiliki nilai yang

sama di ambil salah satunya contoh { ( A v B v C ) ^ ( A v B v C ) maka (A v B v C):

1. C ^ A ^( A v B ) ^ ( A v B v C )

Cara menyederhanakan :

C * A * ( A + B ) * ( A + B + C ) = C * A * AA * AB *AC * BA * BB

* BC

= CA * A * AB * AC * BA * B * BC

= C ( 1 + A )

2. C ^ ( A v B )

Cara menyederhanakan :

C * ( A + B ) = CA + CB

3. A ^ ( A v B v C )

Cara menyederhakan :

A ^ ( A v B v C ) = AA + AB + AC

= A + AB + AC

= A ( 1 + B ) + AC

= A + AC

= A ( 1 + C ) = A

4. ( A v B ) ^ ( A v B v C )

Cara menyederhanakan :

5. ( A v B v C ) ^ ( A v B )

Cara menyederhanakan :

Jadi : Hasil Reduction :

1. {A,C} = { Studies, Works }

2. {B,C} = { Education, Works }

3. { A } = { Studies }

4. { B } = { Education }

5. Generade Rules

Dengan mengunkan atribut Reduct

a. { Studies, Work }

1. IF Studies = Poor and Work = Poor, Then Income = Low

2. IF Studies = Poor and Work = Good, Then Income = Low

3. IF Studies = Moderate and Work = Poor, Then Income = Low

4. IF Studies = Good and Work = Good, Then Income = Medium Or Income = Good

b. { Education, Work }

1. IF Education = Smu and Work = Poor, Then Income = None

2. IF Education = Smu and Work = Good, Then Income = Low

3. IF Education = Diploma and Work = Poor, Then Income = Low

4. IF Education = Msc and Work = Good, Then Income = Medium Or Income

= Hight

c. { Studies }

1. IF Student = Poor Then Income = None Or Income = Low

2. IF Student = Moderate Then Income = Low

3. IF Student = Good Then Income = Medium Or Income = Hight

d. { Education }

1. IF Education = Smu then Income = None Or Income = Low

2. IF Education = Diploma then Income = Low

3. IF Education = Msc then Income = Medium Or Income = Hight

Jadi : Terdapat 14 pengetahuan.......

Tugas :

1. Analisa Hasil yang di peroleh oleh Roseta :

Ø LHS Support à Jumlah object yang memenuhi bagian if

Ø RHS Supoortà Jumlah object yang memenuhi bagian then

Ø RHS Accuracy

Ø LHS Coverage=

Ø RHS Coverage=

Ø RHS Stability=

Ø LHS Lenght= Jumlah atribut pada bagian if

Ø RHS Lenght= Jumlah atribut pada bagian then

2. Lakukan Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau tidak dengan Discrinibility Matrix Modulo D?

Data Clening

Incompleteà complete

Caranya :

1. Remove incomplete data

2. Mean and mode Fill

àMean untuk nilai angka(continius)

àModus untuk nilai categorical

Data transformation

Φ^A= (p^a2Vp^a3Vp^a4Vp^b2)Λ(p^a2Vp^a3Vp^b2Vp^b3)Λ(p^a3Vp^b1Vp^b2Vp^b3)Λ

(p^a1Vp^a4Vp^b1Vp^b2)

Sistem akan mengambil No 1

Kita menguji no 4

p^a1Vp^a4Vp^b1Vp^b2

A	a	b	d
U1	0,8	2	1
U2	1	0,5	0
U3	1,3	3	0
U4	1,4	1	1
U5	1,4	2	0
U6	1,6	3	1
U7	1,3	1	1

A	a	b	d
U1	*,1.2	1.5,*	1
U2	*,1.2	*,1.5	0
U3	1.2,1.4	1.5,*	0
U4	1.4,1.5	*,1.5	1
U5	1.4,1.5	1.5,*	0
U6	1.5,*	1.5,*	1
U7	1.2,1.4	*,1.5	1

Algoritma MD-Heuristic

Langkah- langkah :

1. Menyiapkan tabel , Misal tabel A, berdasarkan Discernibility formula

2. Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak

3. Menghapus Kolom yang dipilih pada step 2 dan semua baris dari kolom tersebut yang punya angka 1

4. Jika tabel belum kosong, ulangi langkah 2,jika sudah kosong STOP

A*	P^a1	P^a2	P^a3	P^a4	P^b1	P^b2	P^b3	D*
(U₁,U₂)	1	0	0	0	1	1	0	1
(U₁, U₃)	1	1	0	0	0	0	1	1
(U₁, U₅)	1	1	1	0	0	0	0	1
(U₄, U₂)	0	1	1	0	1	0	0	1
(U₄, U₃)	0	0	1	0	0	1	1	1
(U₄, U₅)	0	0	0	0	0	1	0	1
(U₆, U₂)	0	1	1	1	1	1	1	1
(U₆, U₃)	0	0	1	1	0	0	0	1
(U₆, U₅)	0	0	0	1	0	0	1	1
(U₇, U₂)	0	1	0	0	1	0	0	1
(U₇, U₃)	0	0	0	0	0	1	1	1
(U₇, U₅)	0	0	1	0	0	1	0	1
New	0	0	0	0	0	0	0	1
Jumlah angka 1	3	5	6

Translate

Materi Komputer

Tugas Mahasiswa

Bahan Ajar

Tips & Trik

Catatan Dosen

Wednesday, August 15, 2018

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database

No comments:

Post a Comment

Social

Popular

Comments

News

Desain Grafis

Info Gokil

Portal Berita

Pengunjung

Kirim Email ( Opini, Saran, Tugas, Dll )

Android

Popular Posts