ISSN: 1693-6
930
41
Mesin Pe
ncari Dokum
en denga
n Peng
kl
aster
an Se
ca
ra Otom
atis (Entin Martian
a
)
MESIN PENCARI DOKUMEN DENGAN
PENGKLASTERAN SECARA OTOM
ATIS
Entin Martiana, Nur Rosy
i
d
, Usmaida Agusetia
Politekni
k Ele
k
troni
ka
Neg
e
ri Sura
baya
-
Institut Tekn
o
l
ogi Sepulu
h
Nop
e
mbe
r
Kampu
s
ITS Keputih Suko
lilo Surab
a
ya 6011
1, Indon
esia
Tel:+62
-
3
1
-5
9472
80 Fax:+62
-
31
-5
946
114
e-mail: entin
@ee
p
is-its.e
d
u
, rosyid
@
e
e
p
is-it
s
.edu, u
s
maid
a_it04
@
yaho
o.co
m
A
b
st
r
a
ct
Web
m
i
ning
in searchi
n
g
ba
sed
on
keywords
b
y
autom
atic clu
s
terin
g
i
s
a docum
ent
sea
r
ching m
e
thod by cl
assi
fying do
cum
e
nts based
on
its ke
ywo
r
d. Followi
ng is the clu
s
teri
ng by
centroid lin
ka
ge hierarchi
c
al m
e
thod (CLHM
)
to
the num
ber of ke
yword
s
from
each do
cum
ent.
In cluste
ring,
initialization is com
m
only requir
ed for the num
ber of cluste
r to be form
ed first,
however, in som
e
cluste
rin
g
ca
se
s, the use
r
cannot
determ
i
ne ho
w m
any cl
ust
e
rs
ca
n be b
u
ilt.
Therefore, o
n
this pap
er, the Valle
y tra
c
ing m
e
t
hod
is appli
ed a
s
a con
s
trai
nt whi
c
h ide
n
tifies
vari
ants m
o
vem
ent from
each cl
uste
r form
ation st
ep an
d al
so
anal
yzes it
s pattern to f
o
r
m
autom
atic clu
s
terin
g
. Do
cu
m
ent data used are fr
om
text m
i
ning proce
s
s on do
cum
ents. Based
on 424 do
cu
m
ents, this rese
arch sho
w
s that cl
u
s
t
e
ring m
e
thod
using CLHM
algorithm
ca
n be
gene
rall
y use
d
to classifyi
n
g docum
ent
s with exact nu
m
ber autom
atically
.
Key
w
ords
:
automatic
c
l
us
tering, CLHM, tex
t
minin
g
, v
a
lley
trac
ing
A
b
st
r
a
k
Web m
i
ning
untuk p
e
n
c
arian berda
sa
rkan
ka
ta kun
c
i den
gan p
e
ngkl
a
ste
r
an
otom
atis
adala
h
suatu
m
e
tode pencari
an do
ku
m
en dengan
cara m
enge
lom
pokkan a
t
au m
engkla
ste
r
dokum
en d
a
ri do
kum
e
n-do
kum
en
berd
a
sarka
n
kata
kun
c
inya. Sela
nj
utnya
dilaku
kan
peng
kla
s
tera
n deng
an m
e
tode
centroi
d
linka
ge hi
e
r
archi
c
al m
e
thod (CL
H
M
)
terhad
ap jum
l
ah
kata kun
c
i ya
ng dipe
role
h dari m
a
sin
g
-m
asing do
ku
m
en. Dalam
peng
kla
s
tera
n, um
um
nya haru
s
dilakukan i
n
isialisa
s
i j
u
m
l
ah kl
aste
r
yan
g
ingi
n di
bent
uk te
rlebi
h d
a
hulu, p
ada
hal
pad
a b
ebe
ra
pa
ka
su
s peng
kl
asteran, user bahka
n
tidak tahu berap
a ban
ya
k kla
s
ter ya
ng bisa diban
gun. Un
tu
k
itu, pada makal
ah ini di
aplikasi
k
an
m
e
tode Valle
y Traci
ng seb
agai con
s
traint yang
akan
m
e
lakukan id
entifika
s
i terh
adap p
e
rg
era
k
an
va
ri
an d
a
ri tiap taha
p
pem
bentuka
n
kla
s
ter da
n
m
enganali
s
a
polan
ya u
n
tu
k m
e
m
bentuk suatu kl
ast
e
r secara
otom
atis (auto
m
atic cluste
ri
ng).
Data
yang
di
guna
ka
n adal
ah data h
a
sil
dari p
r
o
s
e
s
text m
i
ning pa
da do
kum
en.
Dari
perco
ba
an
yan
g
dila
ku
kan den
gan 4
24 do
kum
en hasil
nya m
e
m
berika
n
sim
pulan b
a
h
w
a
pada um
um
nya
pen
cari
an d
o
kum
en m
e
nggu
na
kan t
e
kni
k
p
eng
kl
asteran d
e
n
gan al
goritm
a
CL
HM d
a
pat
digun
akan un
tuk m
engelo
m
pokka
n do
kum
en denga
n
jum
l
ah yang
tepat se
cara otom
atis.
Kata kunci
:
automatic
c
l
us
tering, CLHM, tex
t
minin
g
, v
a
lley
trac
ing
1. PEN
D
AHULU
A
N
Perkemba
ng
an te
knol
ogi
dewasa ini
kh
usu
s
ny
a
internet
be
rkemb
ang sa
ngat p
e
sat. Hal
ini diiringi ju
ga den
gan
semaki
n be
rkemban
gnya
Tekn
ologi Inf
o
rma
s
i yang
dibutuh
kan
oleh
peng
guna sehing
ga
me
nga
kibat
kan munculnya s
uatu ca
ban
g
ilmu baru dalam te
knol
ogi
informasi, yaitu pen
ca
rian
informa
s
i
(
i
n
form
ation retrieval
) [1].
Aplika
s
i pe
n
c
ari
an i
n
form
asi
(pen
ca
ria
n
d
o
kum
e
n
)
yan
g
telah
ad
a
sal
a
h
satun
y
a adal
ah
web mi
ning
u
n
tuk
pen
ca
ri
an
berd
a
sarka
n
kata ku
nci d
enga
n
te
knik
pen
gkla
ste
r
an
(
c
l
us
ter
i
ng
). Pad
a
apl
ika
s
i pe
ncari
an
dokumen
seb
e
lumnya,
sist
em me
ngel
o
m
pokka
n d
o
kumen
den
ga
n men
ggu
na
kan
alg
o
ritma
K-
mean
s,
yaitu memba
n
g
k
itkan
titik baru seca
ra ac
ak
yang nantinya aka
n
dig
una
kan seb
agai
tit
i
k
pusat kla
s
ter baru
sehin
g
ga akan terb
entuk b
ebe
ra
pa kla
s
ter
sesu
ai den
ga
n jumlah ya
ng
ditentukan. Meskipu
n
su
dah men
ggu
nakan optim
as
i K-me
an
s, tetapi siste
m
yang diba
ngun
Evaluation Warning : The document was created with Spire.PDF for Python.
ISSN: 16
93-6
930
Mesin Pe
ncari Dokum
en denga
n Peng
kl
aster
an Se
ca
ra Otom
atis (Entin Martian
a
)
42
belum m
a
mp
u memb
entu
k
juml
ah
kla
s
ter
do
kume
n seca
ra
te
pat dan
oto
m
atis, sehin
gga
dibutuh
ka
n suatu sol
u
si u
n
tuk pe
rma
s
a
l
ahan terse
b
u
t.
Pada pen
elitian ini akan
dibang
un
aplikasi
web
m
i
ning
seb
agai me
sin
pen
cari
berd
a
sarka
n
kata ku
nci de
ngan
autom
a
t
ic cl
uste
ring
untuk
men
gel
ompo
kkan do
kume
n se
ca
ra
otomatis. Pa
da pen
gkl
a
st
eran, um
um
nya harus d
ilaku
ka
n inisi
a
lisa
s
i jumla
h
kla
s
ter ya
ng
diingin
k
an te
rlebih dah
ulu
[2-8], padah
a
l
pada beb
erapa ka
su
s u
s
er tidak tah
u
bera
pa ba
nyak
kla
s
ter yan
g
bisa di
ban
gu
n. Karena itu,
pada p
eneliti
an ini diapli
k
asi
k
an m
e
tod
e
Valley traci
n
g
yang mam
p
u
menyele
s
ai
kan
ma
salah
tersebut. M
e
tode ini
bisa mela
ku
ka
n
peng
kla
s
te
ran
se
cara otom
atis (
automatic
c
l
us
tering
)
terhad
ap ju
m
l
ah kata kun
c
i da
ri ha
sil
t
e
xt m
i
ning
yang
dilakukan pa
da
d
o
kumen
deng
an
m
e
m
anfaatkan
ce
ntroid li
nkage
hierarchi
c
al
m
e
thod
(C
LHM)
,
yaitu mende
teksi p
e
rgeraka
n
varian
pada tiap
tahap pe
mbentu
k
an
kla
s
ternya
u
n
tuk
menem
ukan
global optim
um
,
sehingg
a bisa
diba
ngu
n
kl
aste
r se
cara otomati
s
[2].
Nilai
cent
roid
masin
g
-m
asi
ng
ha
sil pe
ngkl
a
ste
r
an
sela
njut
nya
aka
n
dig
una
kan
untu
k
menentu
k
a
n
ha
sil
pen
cari
an do
kume
n.
2. METODE PENELITIAN
Penelitian ini
ditujuka
n un
tuk men
gha
si
lkan al
at ban
tu untuk me
n
c
ari
do
kume
n
sesuai
kein
ginan
de
ngan
mem
a
sukkan
inp
u
t
beru
pa
kata
kun
c
i
dianta
r
a ba
nyaknya
do
kume
n ya
ng
ada. Dia
g
ra
m
sistem d
a
ri a
p
lika
s
i pe
nca
r
ian do
kume
n ini adalah
se
perti Gam
bar
1.
2.1. Text Min
i
ng
Lang
ka
h a
w
a
l
pada
peneli
t
ian ini ad
ala
h
pen
gimple
mentasi
an fu
ngsi
te
xt m
i
ning
yang
meliputi [4]: p
r
oses
tokeni
zing, filtering
d
an
stem
m
i
ng,
yang di
optim
alka
n
seba
ga
i sa
ran
a
u
n
tu
k
pen
cari
an do
kume
n. Diag
ram
use ca
se
d
a
r
i
pr
os
es
text m
i
ning
ada
lah se
perti G
a
mba
r
2.
G
a
mb
ar
1
.
Ga
r
i
s
be
sa
r
d
i
ag
r
a
m
s
i
s
t
e
m
Gamba
r
2. Di
agra
m
use ca
se
proses
text mining
2.2. Pengklas
t
er
an
Dok
u
men
Lang
ka
h ke
d
ua pad
a pe
n
e
litian ini ad
a
l
ah proses p
engel
ompo
kkan do
kum
en
deng
an
mengg
una
ka
n CL
HM, se
suai lang
kah
b
e
rikut [6]:
1.
Dia
s
um
sikan
setia
p
d
a
ta
dian
gga
p
sebag
ai
kla
s
te
r. Kalau
n
=
ju
mlah d
a
ta d
an
c=j
u
mlah
kla
s
ter, be
rart
i ada c=n.
2.
Menghitu
ng j
a
ra
k anta
r
kla
s
ter de
nga
n jara
k
Euc
l
idian
.
3.
Mencari 2 kl
aster yan
g
mempunyai ja
rak
centroi
d
a
n
tar kla
s
te
r yang palin
g minimal dan
digab
ung
kan
ke dal
am kla
s
ter baru (sehi
ngga
c=c-1).
Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOMNI
KA
ISSN:
1693-6930
■
TELKOM
NIKA
Vol. 8, No. 1, April 2010 : 41 - 48
43
4.
Kembali ke la
ngkah 3, dan
diulan
gi sam
pai dicapai
klaster yan
g
dii
ngin
k
an.
5.
Penghitun
g
a
n
jara
k anta
r
obyek, ma
upun a
n
tar
kla
s
ternya
dilakukan de
ngan ja
ra
k
Euclidian
, khususnya u
n
tuk d
a
ta
nume
r
ik [2].
Untu
k dat
a 2 dim
e
n
s
i, diguna
kan
persam
aan (1).
2
1
|
|
)
,
(
i
n
i
i
y
x
y
x
d
(1)
2.3. Pengkla
ster
an Secar
a Otoma
t
is
Lang
ka
h ketiga ad
alah
menga
nali
s
a
pola vari
an
untuk m
end
apatkan p
o
si
si
glo
bal
optim
um
dari pola
valle
y t
r
aci
n
g
yan
g
mung
kin u
n
tuk m
ene
ntukan jumla
h
kl
aster yang te
pat
se
cara otoma
t
is se
suai G
a
mbar 3.
Gamba
r
3. Di
agra
m
Alur Proses p
eng
kl
ateran
otomatis
Gambar 4. Pola Nilai Beda
Valley-traci
n
g
2.3.1.
Analisa
Klas
ter
Analisa
kla
s
ter bisa dipe
roleh da
ri ke
p
adatan
kla
s
te
r yang dibe
ntuk (
c
l
us
te
r
de
n
s
ity
).
Kepadata
n
suatu kla
s
ter dapat ditentu
k
an
de
nga
n
vari
an
ce wit
h
in
cl
ust
e
r
(V
w)
dan
vari
a
n
ce
betwe
en cl
ust
e
r
(Vb
)
. Varia
n
tiap tahap p
e
mbentu
k
a
n
kla
s
ter dihitu
ng den
gan p
e
r
sa
maa
n
(2
).
2
1
2
)
(
1
1
c
n
i
i
c
y
y
n
Vc
(2)
deng
an:
Vc
2
=
varian pada klaster c
c
=
1..k, dimana k = jumlah klaster
nc
=
jumlah data pada
klaster c
y
i
=
data ke-i pada su
atu klaster
y
c
=
rata-
r
ata da
ri dat
a pada suatu klaster
Evaluation Warning : The document was created with Spire.PDF for Python.
ISSN: 16
93-6
930
Mesin Pe
ncari Dokum
en denga
n Peng
kl
aster
an Se
ca
ra Otom
atis (Entin Martian
a
)
44
Selanjutnya
dari nil
a
i vari
an terseb
ut dhitung nilai
v
a
rian
ce wit
h
i
n
clu
s
t
e
r
(V
w
)
se
su
ai
persam
aan (3), sed
ang
ka
n nilai varian
ce betwe
en cl
uster
(Vb) d
e
ngan p
e
rsam
aan (4
).
c
i
Vi
ni
c
N
Vw
1
2
).
1
(
1
(3)
2
1
)
(
1
1
y
y
n
c
Vb
i
c
i
i
(4)
deng
an:
N
=
Jumlah semua data
ni
=
Jumlah data klaster i
Vi
=
Varian pada klaster i
y = rata
-rata
dari
y
i
Salah satu
metode yan
g
digun
akan
untuk
mene
n
t
ukan
kla
s
ter yang ide
a
l
adala
h
batasan va
ria
n
, yaitu den
g
an me
nghitu
n
g
ke
pad
atan
kla
s
ter
berup
a
va
ria
n
c
e
wi
t
h
in clu
s
t
e
r
(Vw
)
dan
va
rian
ce
betwe
en
cl
uster
(Vb
)
[7
]. Klaster ya
ng ide
a
l me
mpunyai V
w
minimum
yang
mere
pre
s
e
n
tasi
kan
i
n
ternal hom
oge
nity
da
n m
a
ksimum Vb
yang men
y
atakan
ext
e
rna
l
hom
ogenity
.
2.3.2. Valle
y
Tracing
Pada Valley
-
tra
c
ing
dide
finisikan ba
h
w
a
kemu
ng
kinan me
nca
pai glob
al o
p
timum
terletak pa
da
tahap
ke-i,
jika m
e
me
nu
hi pe
rsama
a
n
(5). Pe
rsa
m
aan
ini di
p
e
role
h b
e
rda
s
ar
anali
s
a pe
rge
r
akan vari
an
pola
Valley-tracing.
.
(v
i-1
≥
v
i
)
(v
i+1
> v
i
)
(5)
deng
an:
i = 1
…
n, dan n ta
hap
terakhir pembent
ukan klaster
Tabel 1
m
e
n
unju
k
kan pol
a-pol
a
Valley-tracing
yan
g
mung
kin men
c
ap
ai
gl
obal optim
um
.
Pola yang mu
ngki
n
ditand
a
i
denga
n sim
bol
√
.
Tabel 1. Tab
e
l kemu
ng
kin
an pola Valle
y-traci
ng men
c
ap
ai global
optimum [8]
Pola Mung
kin
Pola
Mung
kin
X
X
X
X
X
X
X
X
X
X
X
X
Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOMNI
KA
ISSN:
1693-6930
■
TELKOM
NIKA
Vol. 8, No. 1, April 2010 : 41 - 48
45
Selanjutnya, deng
an pend
ekata
n
meto
de
valley-t
r
acing
dil
a
ku
ka
n
identifikasi
perb
eda
an
ni
lai
tinggi (
∂
) pad
a
tiap
taha
p deng
an persamaan
(6). Nilai
∂
digu
n
a
ka
n
u
n
tuk menghi
nda
ri local
optima, dima
na pe
rsama
a
n
ini dipe
rol
e
h dari
ma
ksi
mum
∂
ya
ng
dipen
uhi pa
d
a
persa
maa
n
(6).
Untu
k m
e
mb
entuk kl
aste
r se
ca
ra
oto
m
atis, yaitu
kla
s
te
r yan
g
me
ncapai
glob
al o
p
tima,
digun
akan ni
lai
λ
seb
a
g
a
i threshold,
sehing
ga klaster
se
cara otomatis terbe
n
tuk
ket
i
ka
memen
uhi pe
rsa
m
aa
n (7
).
= (V
i+1
– V
i
) +
(V
i-1
– V
i
) = (V
i+1
+ V
i-1
) –
(2 x
V
i
)
(6)
max(
)
≥
(7)
Guna
me
nget
ahui
ke
akurat
an d
a
ri
suatu
met
ode
pem
b
entukan kla
s
t
e
r pad
a
hi
era
r
chi
c
al
method, d
e
n
gan m
eng
gu
nakan valley
-
tracin
g di
gun
aka
n
pe
rsam
aan
(8),
den
gan nil
a
i terd
ekat
ke max
(
∂
) ad
alah nilai
ka
n
d
idat max(
∂
) sebelumnya. Nilai
φ
yang l
ebih b
e
sar at
au sama d
e
n
gan
2 (
φ≥
2), m
e
n
unju
k
kan
kla
s
ter yang te
rb
entuk
meru
p
a
ka
n kl
aste
r
yang well-se
parate
d
(te
r
pi
sah
deng
an bai
k).
φ
=
)
max(
)
max(
ke
terdekat
nilai
(8)
Tahap te
ra
kh
ir adala
h
pro
s
e
s
so
rt
ing
u
n
tuk pe
ngu
ru
tan dokumen
yang memili
ki kata
kun
c
i pali
ng b
anyak
samp
a
i
yang paling
sedi
kit.
3. H
A
S
IL DAN
PEMB
AHASA
N
Aplikasi
web
m
i
ning
u
n
tu
k p
e
n
c
a
r
ian
berd
a
sarka
n
kata
ku
nci
d
enga
n p
eng
klasteran
otomatis i
n
i d
i
terap
k
an
unt
uk
pen
ca
rian
dokumen
be
rdasarkan
inp
u
tan
kata
ku
n
c
i d
a
ri
do
kum
en
yang be
rtem
a “lum
pu
r lap
i
ndo” den
gan
jumlah
60 d
o
kum
en
deng
an e
k
ten
s
i *.txt yang ha
silny
a
diban
ding
kan
den
gan
met
ode
pen
ca
ria
n
de
nga
n me
nggu
na
kan
al
goritma
K-me
ans yang
tel
ah
dioptima
s
i.
3.1. Uji Kete
pata
n dari J
u
mlah Klaster Dok
u
men
y
a
ng Terbentuk
Uji
cob
a
ini
d
i
guna
ka
n unt
uk
meng
etah
ui ketepata
n
dari j
u
mla
h
kl
aster do
ku
m
en yan
g
terbentu
k
se
cara otomati
s
dala
m
pen
cari
an do
ku
men de
ngan
mengg
una
kan metod
e
CLHM.
Kata ku
nci
yang
dima
su
kkan:
“tang
gul
jebol
”.
Pad
a
Gam
b
a
r
5
ditunju
k
kan h
a
sil
kelu
aran
dari
mesin
pen
ca
ri yang dikem
bang
ka
n. Da
ri penguji
an i
n
i didap
atka
n
bah
wa juml
ah kl
aste
r ya
ng
terbentu
k
se
cara otom
atis ad
alah
e
m
pat kl
aste
r. Juml
ah
kla
s
ter ya
ng di
angg
ap o
p
timal
meru
pa
kan t
ahap p
e
mbe
n
tuka
n kla
s
te
r yang mem
p
unyai nilai be
da tinggi yan
g
terbe
s
a
r
at
au
maksimal. Sedan
gkan G
a
mba
r
6 me
nunju
k
kan g
r
afik perge
ra
kan p
o
la va
rian da
ri tah
a
p
pembe
ntukan
kla
s
ter, sed
ang
kan grafi
k
nila
i be
da ti
ngginya
adal
ah sepe
rti G
a
mba
r
7. Karena
jumlah
kla
s
te
r di
angg
ap
o
p
timal jika ta
hap
pemb
ent
uka
n
kla
s
ter
mempu
n
yai
nilai b
eda
tin
ggi
yang terbe
s
a
r
ata
u
ma
ksi
m
al, ma
ka j
u
mlah
kla
s
te
r yang
terbe
n
tuk
se
ca
ra
otomatis ada
lah
tepat, yaitu pada taha
p pe
mbentu
k
an ju
mlah kla
s
te
r seb
anya
k
4.
3.2. Uji Pembandinga
n Hasil Pencaria
n Dokume
n
Uji
coba
ini
digun
akan
untuk mem
b
andin
g
kan h
a
sil p
e
n
c
a
r
ia
n do
kum
e
n
antara
mengg
una
ka
n metode K
-
mea
n
s d
an
CL
HM de
nga
n jumlah
kla
s
ter yan
g
sa
ma, yaitu empat
kla
s
ter. Pe
rcobaa
n ini
dila
ku
kan
de
nga
n mem
a
sukkan
kata
kun
c
i
yang
ham
pir sa
ma, yaitu
kata
kun
c
i: ”tind
a
kan warg
a”
p
ada
sistem
p
enc
aria
n de
n
gan me
ngg
u
nakan meto
d
e
K-me
an
s d
a
n
CL
HM.
Ha
sil pen
ghitun
g
an juml
ah
kata kun
c
i p
ada
ma
sing
-masin
g d
o
ku
men
dan
h
a
sil
pen
cari
an do
kume
nnya dit
unju
k
kan pa
d
a
Tabel 2.
Dari p
eng
uji
an ini diketa
hui bah
wa d
enga
n inputa
n
kata ku
nci
yang sama
, yaitu
”tinda
kan
warga”, pro
s
e
s
p
eng
kla
s
tera
n dokumen
de
n
gan men
ggu
nakan metod
e
K-m
ean
s d
an
CL
HM me
mp
erole
h
ha
sil
pen
cari
an d
o
k
ume
n
yan
g
yang ha
mpir sam
a
jug
a
, yaitu dokum
en
yang ada
se
bagai h
a
sil p
encaria
n den
gan meto
de
CL
HM
juga
meru
pa
kan h
a
sil pe
ncaria
n
deng
an meto
de K-me
an
s. Hal ini di
se
bab
kan
ka
re
na jumla
h
ka
ta kun
c
i d
a
ri
masin
g
-m
asing
Evaluation Warning : The document was created with Spire.PDF for Python.
ISSN: 16
93-6
930
Mesin Pe
ncari Dokum
en denga
n Peng
kl
aster
an Se
ca
ra Otom
atis (Entin Martian
a
)
46
dokumen
ad
alah
sama, h
anya saja da
lam CL
HM d
a
ta dikelomp
okkan m
enja
d
i jumlah
kla
s
t
e
r
s
e
c
a
ra otomatis
, s
e
dangkan
dalam metode K-mean
s
pengelompokk
an
data bergantung pada
titik
pus
a
t awal
kla
s
t
e
r
ya
ng telah
dio
p
t
imasi, sehin
gga m
e
mpe
n
garu
h
i
ked
e
katan ja
ra
k a
n
t
ar
data.
::
Web
Minin
g
u
n
tu
k Pe
ncarian Berd
as
ar
kan
K
a
ta
Kun
c
i Den
g
an
Autom
a
tic
Cluste
ring::
String:
R
es
et
G
ener
at
e
Tokeniz
i
ng
t
a
ng
gul
jeb
o
l
Stop List
t
a
ng
gul
jeb
o
l
Stemming
t
a
ng
gul
jeb
o
l
K
e
y
w
o
r
d
co
un
t
e
r
& Au
to
ma
t
i
c
C
l
u
s
t
e
r
Number
Of
Cluster:
4
No
.
File Na
me
Kata
Kunci
ke-1
Kata
Kunci
ke-2
Cluster
1
01
-
Tem
po I
n
t
e
rakt
i
f
-0
1
(K
o
r
ban
M
i
nt
a P
r
es
i
d
en
Am
bi
l
Al
i
h
B
e
ncana
Lapi
n
d
o
)
_
st
em
_hi
t
u
n
g
.t
xt
0 0
4
2
02
-
Tem
po I
n
t
e
rakt
i
f
-0
2
(I
nt
e
r
pel
a
si
La
pi
n
d
o
Aka
n
Di
aj
uka
n Ha
ri
Ini
)
_st
e
m
_hi
t
u
ng
.t
xt
0 0
4
…………
…
....
...
...
...
...
...
4
23
Tana
h
Am
bl
es Terdet
e
k
si
Ti
g
a
Peka
n
Lal
u_st
e
m
_hi
t
u
n
g
.t
xt
2 0
4
4
24
Tan
g
g
u
l
P
o
ra
k
Po
ra
nda
Sem
bura
n
L
u
m
pur
M
e
ng
ga
nas_
st
em
_hi
t
u
n
g
.t
xt
9 3
3
Besarnya
Data Dal
a
m Setiap
Clus
ter
Clu
s
ter
k
e
-1
:
14
1.125
Clu
s
ter
k
e
-2
:
18
.6
938
775
5102
040
7
Clu
s
ter
k
e
-3
:
82
.0
625
Clu
s
ter
k
e
-4
:
0.25
277
008
3102
493
05
Hasil Aut
o
m
a
tic
Clus
ter
Number
Of Cluster:
4, Me
mber: 1
1.
5
1
- P
u
sat
L
u
m
pur La
pi
n
d
o
M
e
l
e
da
k.t
x
t
2.
2
8
- W
i
ki
pe
di
a-
01
(B
a
n
ji
r l
u
m
pur panas
Si
doa
r
j
o
)
.t
xt
3.
5
3
- R
o
vi
ck
y
-
0
1
(B
a
n
ji
r l
u
m
pur pa
nas
Si
doa
r
j
o
)
.t
xt
4.
4
0
- L
u
m
pur
Pana
s B
e
r
b
al
i
k
Ara
h
.t
xt
Gamba
r
5. Hasil pe
ngujia
n
pencaria
n do
kume
n
Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOMNI
KA
ISSN:
1693-6930
■
TELKOM
NIKA
Vol. 8, No. 1, April 2010 : 41 - 48
47
Gamba
r
6. Grafik Perg
era
k
an Pola Varia
n
Gamba
r
7. Grafik Nilai Bed
a
Tinggi
Tabel 2. Tab
e
l perb
andi
ng
an ha
sil pen
carian d
o
kume
n deng
an met
ode K-me
an
s dan CL
HM
Hasil P
encar
ia
n Dokum
en d
e
nga
n K-mea
n
s
Hasil P
encar
ia
n Dokum
en d
e
nga
n CLHM
1.
47 - Pengu
ngsi L
u
mpur P
anas T
e
rseran
g ISPA
- 26-06-
2006, 1125 WIB - KOMPAS Cy
ber
Media - NASIONAL.tx
t
1.
47 - Pengu
ngsi L
u
mpur P
anas T
e
rseran
g
ISPA - 26-06-2
006, 11
25 WIB - KOMPAS
C
y
ber Me
dia -
NASIONAL.txt
2.
08 -
T
e
mp
o Interaktif-08 (
K
orba
n La
pin
d
o
Blokir Jal
an).t
xt
2.
08 -
T
e
mpo Interaktif-08 (Korba
n La
pin
d
o
Blokir Jal
an).t
xt
3.
17 -
T
e
mp
o Interaktif-17 (
7
Korba
n
La
pin
do
Derita Gangguan Ji
w
a
).tx
t
3.
17 -
T
e
mp
o Interaktif-17 (
7
Korban
Lap
ind
o
Der
i
ta Gangg
ua
n Ji
w
a
).txt
4.
35 - Hot Mud F
l
o
w
-
01 (Lu
a
s ban
gu
nan k
o
rba
n
lusi).tx
t
4.
35 - Hot Mud F
l
o
w
-
01 (Lu
a
s ban
gu
nan
korban lusi).t
x
t
5.
33 - Dua W
a
rga Kor
b
a
n
L
u
mpur Pa
nas
Sido
arjo
Meni
ngg
al.txt
6.
54 - Semburan Bar
u
di R
u
mah Pe
nd
udu
k.txt
3.3. Uji Pembandinga
n Wak
t
u Kin
e
rja
Pengujia
n ini
diguna
ka
n u
n
tuk mem
b
a
nding
ka
n wa
ktu kin
e
rja y
ang dib
u
tuh
k
an untu
k
pen
cari
an do
kume
n pada
si
stem pen
cari
an
do
ku
men den
gan
men
ggu
nakan
p
eng
kla
s
t
e
ra
n
metode K
-
m
ean
s da
n CL
HM. Kata
ku
nci yan
g
dig
u
nakan: “wa
r
g
a
ke
banji
r
an
”.
Wa
ktu e
k
se
kusi
dari m
e
tode
K-mean
s
dan
CL
HM b
e
rtu
r
ut-tu
r
ut
ad
al
ah 5 m
enit 3
0
detik da
n 6
menit 12
det
ik.
Dari
pe
nguji
an ini
da
pat diketahu
i bah
wa
prose
s
p
eng
kl
asteran
do
kumen
den
g
an
Evaluation Warning : The document was created with Spire.PDF for Python.
ISSN: 16
93-6
930
Mesin Pe
ncari Dokum
en denga
n Peng
kl
aster
an Se
ca
ra Otom
atis (Entin Martian
a
)
48
mengg
una
ka
n metod
e
CL
HM m
e
merl
u
k
an
wa
ktu y
ang le
bih l
a
ma jika dib
a
nding
ka
n de
ngan
peng
kla
s
tera
n den
gan
m
engg
una
kan
metode K
-
m
ean
s. Hal i
n
i dise
bab
ka
n
ka
ren
a
dal
a
m
CL
HM data tidak la
ng
sun
g
dikelom
p
o
k
kan ke
dalam
bebe
rap
a
kla
s
ter d
a
lam satu tahap, tetapi
dimulai d
a
ri
satu
kla
s
ter
yang mem
p
u
n
yai jara
k ya
ng de
kat, da
n berj
a
lan
se
terusnya sela
ma
bebe
rap
a
iterasi, hing
ga te
rbentu
k
be
be
rapa
kla
s
ter t
e
rtentu.
4. SIMPULAN
Penca
r
ia
n do
kume
n men
g
guna
ka
n tekn
ik pe
ngkl
a
ste
r
an d
eng
an a
l
goritma
CL
HM dan
anali
s
a pola
varian yang
memen
uhi
valley tracing
dapat digu
na
kan untu
k
m
engel
ompo
kkan
dokumen de
ngan
j
u
mlah
kla
s
t
e
r
yan
g
tepat seca
ra otom
atis,
meskipu
n
m
e
merl
ukan
waktu
komp
utasi ya
ng lebih lam
a
.
DAF
TA
R PU
STAK
A
[1]. Agus AZ, Se
tiono AN.
Kla
s
ifika
s
i Doku
m
en Berita Kejadia
n
Berb
aha
sa Indo
n
e
sia d
eng
an
Algoritm
a
Single Pass Clu
s
tering
. Pro
c
e
eding of SITIA. Surabaya. 2002: 1-6.
[2].
Barak
b
ah AR, Arai K.
Dete
rm
ining Con
s
traints
of Mo
ving Vari
an
ce
to Find
Globa
l Optim
u
m
and Ma
ke Au
tom
a
tic Clust
e
ring
. Pro
c
e
e
d
ing of IES. Surab
a
ya. 200
4:
409-413.
[3].
Ura
m
oto
N,
Matsu
z
a
w
a
H, Naga
no
T
,
Mura
ka
mi A
,
Takeu
c
hi
H,
Ta
ked
a
K. A
Text-Mini
n
g
System for K
nowl
edge
Di
scovery f
r
om
Biomedi
cal
Docum
ents.
IB
M System
s Journ
a
l
. 20
04;
43(3
)
: 516
-53
3
.
[4].
Hamm
oud
a
KM, Kamel
MS. Efficient phra
s
e
-
b
a
sed
do
cume
nt in
dexing fo
r
Web d
o
cument
c
l
us
te
r
i
ng
.
Knowl
edge
and Data Engineer
ing, IEEE Transactions on
. 2
004;
16(1
0
): 1
279
-
1296.
[5].
Bulacu
M, S
c
hom
aker L.
Text-Ind
epe
ndent
Writer Identificatio
n an
d Ve
rifi
cation
Usin
g
Textural a
n
d
Allogra
phi
c Features.
Pattern Anal
ysi
s a
nd M
a
chi
ne Intelli
gen
ce, IEEE
Tran
sa
ct
ion
s
on
. 2007; 29
(4): 701
-71
7
.
[6].
Ashraf F, O
zyer T, Alh
a
jj
R. Employin
g
Cl
u
s
te
ring
T
e
ch
niqu
es fo
r Automatic
I
n
formation
Extraction From HTML
Docum
ents.
S
ystem
s, Man,
and Cybe
rn
eti
cs, Part C:
Application
s
and Revi
ews,
IEEE Transactions on
. 20
08; 38(5
)
: 66
0-67
3.
[7].
Man
L, Che
w
Lim T,
Ji
an
S, Yue L. Su
pervised
and
Traditio
nal T
e
rm
Weig
hting
Metho
d
s for
Automatic
Text Categoriz
a
tion.
Pattern Anal
ysis and Machine Intelligence, IEEE
Tran
sa
ct
ion
s
on
. 2009; 31
(4): 721
-73
5
.
[8].
Barak
b
ah AR, Arai K.
Identifying Movi
n
g
Varian
ce to
Make Autom
a
tic Clu
s
teri
n
g
for Norm
a
l
Data Set
. In.
Proc. IECI Ja
pan Worksho
p
(IJW). To
kyo. 2004:
125
-134.
Evaluation Warning : The document was created with Spire.PDF for Python.