ISSN: 1693-6 930                                                       41      Mesin Pe ncari Dokum en denga n Peng kl aster an Se ca ra Otom atis (Entin Martian a MESIN PENCARI DOKUMEN DENGAN  PENGKLASTERAN SECARA OTOM ATIS      Entin Martiana, Nur Rosy i d , Usmaida Agusetia   Politekni k Ele k troni ka  Neg e ri Sura baya - Institut Tekn o l ogi Sepulu h  Nop e mbe r     Kampu s  ITS Keputih Suko lilo Surab a ya 6011 1, Indon esia   Tel:+62 - 3 1 -5 9472 80 Fax:+62 - 31 -5 946 114   e-mail: entin @ee p is-its.e d u , rosyid @ e e p is-it s .edu, u s maid a_it04 @ yaho o.co m       A b st r a ct  Web  m i ning  in searchi n g  ba sed  on  keywords   b y  autom atic clu s terin g   i s  a docum ent  sea r ching m e thod by cl assi fying do cum e nts based  on  its ke ywo r d. Followi ng is the clu s teri ng by  centroid lin ka ge hierarchi c al m e thod (CLHM )  to  the num ber of ke yword s  from  each do cum ent.  In cluste ring,  initialization is com m only requir ed for the num ber of cluste r to be form ed first,  however, in som e  cluste rin g  ca se s, the use r   cannot  determ i ne ho w m any cl ust e rs  ca n be b u ilt.  Therefore, o n  this pap er, the Valle y tra c ing m e t hod  is appli ed a s  a con s trai nt whi c h ide n tifies  vari ants m o vem ent from   each cl uste r form ation st ep an d al so  anal yzes it s pattern to f o r m   autom atic clu s terin g . Do cu m ent data used are fr om  text m i ning proce s s on do cum ents. Based  on 424 do cu m ents, this rese arch sho w s that cl u s t e ring m e thod  using CLHM  algorithm  ca n be  gene rall y use d  to classifyi n g docum ent s with exact nu m ber autom atically .     Key w ords :   automatic  c l us tering, CLHM, tex t  minin g , v a lley  trac ing       A b st r a Web m i ning  untuk p e n c arian berda sa rkan  ka ta kun c i den gan p e ngkl a ste r an  otom atis   adala h  suatu  m e tode pencari an do ku m en dengan  cara m enge lom pokkan a t au m engkla ste r   dokum en d a ri do kum e n-do kum en  berd a sarka n  kata  kun c inya. Sela nj utnya  dilaku kan   peng kla s tera n deng an m e tode  centroi d  linka ge hi e r archi c al m e thod (CL H M )  terhad ap jum l ah  kata kun c i ya ng dipe role h dari m a sin g -m asing do ku m en. Dalam   peng kla s tera n, um um nya haru s   dilakukan i n isialisa s i j u m l ah kl aste yan g  ingi n di bent uk te rlebi h d a hulu, p ada hal  pad a b ebe ra pa  ka su s peng kl asteran, user bahka n  tidak tahu berap a ban ya k kla s ter ya ng bisa diban gun. Un tu itu, pada makal ah ini di aplikasi k an  m e tode Valle y Traci ng seb agai con s traint yang  akan   m e lakukan id entifika s i terh adap p e rg era k an  va ri an d a ri tiap taha p  pem bentuka n  kla s ter  da m enganali s polan ya u n tu k m e m bentuk suatu kl ast e r secara  otom atis (auto m atic cluste ri ng).  Data  yang  di guna ka n adal ah data h a sil  dari p r o s e s  text m i ning pa da do kum en.  Dari  perco ba an  yan g  dila ku kan den gan 4 24 do kum en hasil nya m e m berika n  sim pulan b a h w a  pada um um nya  pen cari an d o kum en m e nggu na kan t e kni k  p eng kl asteran d e n gan al goritm a  CL HM d a pat  digun akan un tuk m engelo m pokka n do kum en denga n  jum l ah yang  tepat se cara otom atis.     Kata kunci automatic  c l us tering, CLHM, tex t  minin g , v a lley  trac ing       1. PEN D AHULU A N   Perkemba ng an te knol ogi  dewasa ini  kh usu s ny a   internet  be rkemb ang sa ngat p e sat. Hal   ini diiringi ju ga den gan  semaki n be rkemban gnya  Tekn ologi Inf o rma s i yang  dibutuh kan  oleh   peng guna sehing ga  me nga kibat kan munculnya s uatu ca ban g  ilmu baru dalam te knol ogi  informasi, yaitu pen ca rian  informa s ( i n form ation retrieval ) [1].  Aplika s i pe n c ari an i n form asi  (pen ca ria n  d o kum e n )  yan g  telah  ad a  sal a h  satun y a adal ah  web mi ning  u n tuk  pen ca ri an  berd a sarka n  kata ku nci d enga te knik  pen gkla ste r an  ( c l us ter i ng ). Pad a  apl ika s i pe ncari an  dokumen  seb e lumnya,  sist em me ngel o m pokka n d o kumen  den ga n men ggu na kan  alg o ritma  K- mean s,  yaitu memba n g k itkan  titik baru seca ra ac ak  yang nantinya aka n   dig una kan seb agai  tit i pusat kla s ter baru  sehin g ga akan terb entuk b ebe ra pa kla s ter  sesu ai den ga n jumlah ya ng   ditentukan. Meskipu n  su dah men ggu nakan optim as i K-me an s, tetapi siste m  yang diba ngun   Evaluation Warning : The document was created with Spire.PDF for Python.
                                 ISSN: 16 93-6 930     Mesin Pe ncari Dokum en denga n Peng kl aster an Se ca ra Otom atis (Entin Martian a 42 belum m a mp u memb entu k  juml ah  kla s ter  do kume n seca ra  te pat dan  oto m atis, sehin gga   dibutuh ka n suatu sol u si u n tuk pe rma s a l ahan terse b u t.    Pada pen elitian ini akan  dibang un  aplikasi  web  m i ning  seb agai me sin  pen cari  berd a sarka n  kata ku nci de ngan   autom a t ic cl uste ring  untuk  men gel ompo kkan do kume n se ca ra   otomatis. Pa da pen gkl a st eran, um um nya harus d ilaku ka n inisi a lisa s i jumla h  kla s ter ya ng   diingin k an te rlebih dah ulu  [2-8], padah a l  pada beb erapa ka su s u s er tidak tah u  bera pa ba nyak   kla s ter yan g  bisa di ban gu n. Karena itu,  pada p eneliti an ini diapli k asi k an m e tod e   Valley traci n g   yang mam p u  menyele s ai kan  ma salah  tersebut. M e tode ini  bisa mela ku ka n  peng kla s te ran  se cara otom atis ( automatic  c l us tering terhad ap ju m l ah kata kun c i da ri ha sil  t e xt m i ning  yang  dilakukan pa da  d o kumen  deng an  m e m anfaatkan  ce ntroid li nkage  hierarchi c al   m e thod  (C LHM) ,   yaitu mende teksi p e rgeraka n  varian  pada tiap  tahap pe mbentu k an  kla s ternya  u n tuk  menem ukan  global optim um ,   sehingg a bisa   diba ngu kl aste r se cara otomati s  [2].  Nilai  cent roid   masin g -m asi ng  ha sil pe ngkl a ste r an  sela njut nya  aka n  dig una kan  untu k   menentu k a n  ha sil  pen cari an do kume n.      2. METODE PENELITIAN   Penelitian ini  ditujuka n un tuk men gha si lkan al at ban tu untuk me n c ari  do kume n  sesuai  kein ginan  de ngan  mem a sukkan  inp u beru pa  kata   kun c dianta r a ba nyaknya  do kume n ya ng   ada. Dia g ra m  sistem d a ri a p lika s i pe nca r ian do kume n ini adalah  se perti Gam bar  1.    2.1. Text Min i ng   Lang ka h a w a l  pada  peneli t ian ini ad ala h  pen gimple mentasi an fu ngsi  te xt m i ning  yang   meliputi [4]: p r oses  tokeni zing, filtering  d an  stem m i ng,  yang di optim alka seba ga i sa ran a  u n tu k   pen cari an do kume n. Diag ram  use ca se  d a r pr os es   text m i ning  ada lah se perti G a mba r  2.    G a mb ar  1 .  Ga r i s  be sa r  d i ag r a s i s t e m       Gamba r  2. Di agra m   use ca se  proses  text mining       2.2. Pengklas t er an  Dok u men   Lang ka h ke d ua pad a pe n e litian ini ad a l ah proses p engel ompo kkan do kum en  deng an   mengg una ka n CL HM, se suai lang kah  b e rikut [6]:  1.  Dia s um sikan  setia p  d a ta  dian gga sebag ai  kla s te r. Kalau  n = ju mlah d a ta d an  c=j u mlah  kla s ter, be rart i ada c=n.   2.  Menghitu ng j a ra k anta r  kla s ter de nga n jara Euc l idian .   3.  Mencari 2 kl aster yan g  mempunyai ja rak  centroi d  a n tar kla s te r yang palin g minimal dan   digab ung kan  ke dal am kla s ter baru (sehi ngga  c=c-1).   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOMNI KA   ISSN:  1693-6930        TELKOM NIKA   Vol. 8, No. 1,  April 2010 :  41 - 48     43 4.  Kembali ke la ngkah 3, dan  diulan gi sam pai dicapai  klaster yan g  dii ngin k an.   5.  Penghitun g a n  jara k anta r  obyek, ma upun a n tar  kla s ternya   dilakukan de ngan ja ra Euclidian , khususnya u n tuk d a ta  nume r ik [2].  Untu k dat a 2 dim e n s i, diguna kan    persam aan (1).     2 1 | | ) , ( i n i i y x y x d           (1)    2.3. Pengkla ster an Secar a Otoma t is   Lang ka h ketiga  ad alah  menga nali s a  pola vari an  untuk m end apatkan p o si si  glo bal   optim um  dari pola  valle y t r aci n g  yan g   mung kin u n tuk m ene ntukan jumla h   kl aster yang te pat  se cara otoma t is se suai G a mbar 3.        Gamba r  3. Di agra m  Alur Proses p eng kl ateran  otomatis          Gambar 4. Pola Nilai Beda  Valley-traci n g       2.3.1.   Analisa  Klas ter   Analisa  kla s ter bisa dipe roleh da ri ke p adatan  kla s te r yang dibe ntuk ( c l us te r  de n s ity ).  Kepadata n  suatu kla s ter dapat ditentu k an   de nga vari an ce wit h in  cl ust e r  (V w)  dan   vari a n ce  betwe en cl ust e r  (Vb ) . Varia n  tiap tahap p e mbentu k a n  kla s ter dihitu ng den gan p e r sa maa n  (2 ).     2 1 2 ) ( 1 1 c n i i c y y n Vc         (2)    deng an:  Vc 2    =   varian pada klaster c    c      =   1..k, dimana k = jumlah klaster    nc   =   jumlah data pada  klaster c      y i    =   data ke-i pada su atu klaster     y c    =   rata- r ata da ri dat a pada suatu klaster  Evaluation Warning : The document was created with Spire.PDF for Python.
                                 ISSN: 16 93-6 930     Mesin Pe ncari Dokum en denga n Peng kl aster an Se ca ra Otom atis (Entin Martian a 44 Selanjutnya  dari nil a i vari an terseb ut dhitung nilai  v a rian ce wit h i n   clu s t e r  (V w )   se su ai  persam aan (3), sed ang ka n nilai varian ce betwe en cl uster  (Vb) d e ngan p e rsam aan (4 ).        c i Vi ni c N Vw 1 2 ). 1 ( 1          (3)     2 1 ) ( 1 1 y y n c Vb i c i i           (4)    deng an:   N   =   Jumlah semua data     ni   =   Jumlah data klaster i     Vi  =   Varian pada klaster i   y = rata -rata  dari   y i     Salah satu  metode yan g  digun akan  untuk  mene n t ukan  kla s ter yang ide a adala h   batasan va ria n , yaitu den g an me nghitu n g  ke pad atan  kla s ter  berup va ria n c e  wi t h in clu s t e r  (Vw )   dan  va rian ce  betwe en  cl uster  (Vb )  [7 ]. Klaster ya ng ide a l me mpunyai V w  minimum  yang   mere pre s e n tasi kan  i n ternal hom oge nity  da n m a ksimum Vb  yang men y atakan  ext e rna l   hom ogenity   2.3.2. Valle y   Tracing   Pada Valley - tra c ing  dide finisikan ba h w kemu ng kinan me nca pai glob al o p timum  terletak pa da  tahap  ke-i,  jika m e me nu hi pe rsama a n  (5). Pe rsa m aan  ini di p e role h b e rda s ar  anali s a pe rge r akan vari an  pola  Valley-tracing.    (v i-1    v i  (v i+1  > v i )                   (5)    deng an:   i = 1 n, dan n ta hap  terakhir pembent ukan klaster    Tabel 1  m e n unju k kan pol a-pol Valley-tracing   yan g  mung kin men c ap ai  gl obal optim um Pola yang mu ngki n  ditand a i  denga n sim bol      Tabel 1. Tab e l kemu ng kin an pola Valle y-traci ng men c ap ai global  optimum [8]                                              Pola Mung kin   Pola  Mung kin              X         X         X      X         X       X         X       X   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOMNI KA   ISSN:  1693-6930        TELKOM NIKA   Vol. 8, No. 1,  April 2010 :  41 - 48     45 Selanjutnya, deng an pend ekata n   meto de  valley-t r acing  dil a ku ka n  identifikasi   perb eda an  ni lai  tinggi ( ) pad tiap   taha p deng an persamaan   (6). Nilai   digu n a ka u n tuk menghi nda ri local   optima, dima na pe rsama a n  ini dipe rol e h dari  ma ksi mum   ya ng  dipen uhi pa d a  persa maa n  (6).  Untu k m e mb entuk kl aste r se ca ra  oto m atis, yaitu  kla s te r yan g  me ncapai  glob al o p tima,  digun akan ni lai  λ  seb a g a i threshold,  sehing ga klaster  se cara otomatis terbe n tuk  ket i ka  memen uhi pe rsa m aa n (7 ).     = (V i+1  – V i ) +  (V i-1  – V i ) = (V i+1  + V i-1 ) –  (2 x  V i )              (6)    max( )                                               (7)    Guna  me nget ahui  ke akurat an d a ri  suatu  met ode   pem b entukan kla s t e r pad hi era r chi c al   method, d e n gan m eng gu nakan valley - tracin g di gun aka n  pe rsam aan  (8),  den gan nil a i terd ekat  ke max ( ) ad alah nilai  ka n d idat max( ) sebelumnya. Nilai  φ  yang l ebih b e sar at au sama d e n gan   2 ( φ≥ 2), m e n unju k kan  kla s ter yang te rb entuk  meru p a ka n kl aste yang well-se parate d  (te r pi sah   deng an bai k).     φ  =  ) max( ) max( ke terdekat nilai             (8)      Tahap te ra kh ir adala h  pro s e s   so rt ing  u n tuk pe ngu ru tan dokumen  yang memili ki kata   kun c i pali ng b anyak  samp a i  yang paling  sedi kit.      3. H A S IL DAN  PEMB AHASA N   Aplikasi  web  m i ning  u n tu k p e n c a r ian   berd a sarka n   kata  ku nci  d enga n p eng klasteran  otomatis i n i d i terap k an  unt uk  pen ca rian   dokumen  be rdasarkan  inp u tan  kata  ku n c i d a ri  do kum en  yang be rtem a “lum pu r lap i ndo” den gan  jumlah  60 d o kum en  deng an e k ten s i *.txt yang ha silny a   diban ding kan  den gan  met ode  pen ca ria n  de nga n me nggu na kan  al goritma  K-me ans yang  tel ah  dioptima s i.    3.1. Uji Kete pata n dari J u mlah Klaster Dok u men  y a ng Terbentuk   Uji  cob a  ini  d i guna ka n unt uk  meng etah ui ketepata n   dari j u mla h   kl aster do ku m en yan g   terbentu k   se cara otomati s  dala m  pen cari an do ku men de ngan  mengg una kan metod e  CLHM.   Kata ku nci  yang  dima su kkan:  “tang gul  jebol ”.   Pad a  Gam b a r  5   ditunju k kan h a sil  kelu aran  dari   mesin  pen ca ri yang dikem bang ka n. Da ri penguji an i n i didap atka n  bah wa juml ah kl aste r ya ng   terbentu k   se cara otom atis ad alah  e m pat kl aste r. Juml ah  kla s ter ya ng di angg ap o p timal   meru pa kan t ahap p e mbe n tuka n kla s te r yang mem p unyai nilai be da tinggi yan g  terbe s a r  at au  maksimal. Sedan gkan G a mba r  6 me nunju k kan g r afik perge ra kan p o la va rian da ri tah a p   pembe ntukan   kla s ter, sed ang kan grafi k   nila i be da ti ngginya  adal ah sepe rti G a mba r  7. Karena  jumlah  kla s te r di angg ap  o p timal jika ta hap  pemb ent uka n   kla s ter  mempu n yai  nilai b eda  tin ggi  yang terbe s a r  ata u  ma ksi m al, ma ka j u mlah  kla s te r yang  terbe n tuk  se ca ra   otomatis ada lah  tepat, yaitu pada taha p pe mbentu k an ju mlah kla s te r seb anya k  4.    3.2. Uji Pembandinga n Hasil Pencaria n Dokume n   Uji  coba  ini  digun akan  untuk mem b andin g kan h a sil p e n c a r ia n do kum e n  antara  mengg una ka n metode  K - mea n s d an  CL HM de nga n jumlah  kla s ter yan g  sa ma, yaitu empat  kla s ter. Pe rcobaa n ini  dila ku kan  de nga n mem a sukkan  kata  kun c i  yang  ham pir sa ma, yaitu   kata  kun c i: ”tind a kan warg a”  p ada  sistem  p enc aria n de n gan me ngg u nakan meto d e  K-me an s d a n   CL HM.  Ha sil pen ghitun g an juml ah  kata kun c i p ada  ma sing -masin g d o ku men  dan  h a sil  pen cari an do kume nnya dit unju k kan pa d a  Tabel 2.   Dari p eng uji an ini diketa hui bah wa d enga n inputa n  kata ku nci  yang sama , yaitu   ”tinda kan  warga”, pro s e s   p eng kla s tera n dokumen   de n gan men ggu nakan metod e   K-m ean s d an  CL HM me mp erole h  ha sil  pen cari an d o k ume n  yan g   yang ha mpir sam a  jug a , yaitu dokum en  yang ada  se bagai h a sil p encaria n den gan meto de  CL HM   juga  meru pa kan h a sil pe ncaria n   deng an meto de K-me an s. Hal ini di se bab kan  ka re na jumla h  ka ta kun c i d a ri  masin g -m asing   Evaluation Warning : The document was created with Spire.PDF for Python.
                                 ISSN: 16 93-6 930     Mesin Pe ncari Dokum en denga n Peng kl aster an Se ca ra Otom atis (Entin Martian a 46 dokumen  ad alah  sama, h anya saja da lam CL HM d a ta dikelomp okkan m enja d i jumlah  kla s t e r   s e c a ra otomatis , s e dangkan  dalam metode K-mean s  pengelompokk an  data bergantung pada  titik  pus a t awal  kla s t e r  ya ng telah  dio p t imasi, sehin gga m e mpe n garu h ked e katan ja ra k a n t ar   data.       ::  Web  Minin g  u n tu k Pe ncarian Berd as ar kan  K a ta  Kun c i Den g an  Autom a tic  Cluste ring::  String:     R es et G ener at e   Tokeniz i ng  t a ng gul   jeb o l     Stop List  t a ng gul   jeb o l     Stemming  t a ng gul   jeb o l     K e y w o r d  co un t e r  & Au to ma t i c   C l u s t e r   Number  Of  Cluster:  No .   File Na me   Kata  Kunci   ke-1 Kata  Kunci   ke-2   Cluster            01  -  Tem po I n t e rakt i f -0 (K o r ban  M i nt a P r es i d en  Am bi l   Al i h  B e ncana   Lapi n d o ) _ st em _hi t u n g .t xt   0 0  4   02  -  Tem po I n t e rakt i f -0 (I nt e r pel a si  La pi n d o   Aka n   Di aj uka n Ha ri  Ini ) _st e m _hi t u ng .t xt   0 0  4    …………          .... ... ... ... ... ...         4 23  Tana Am bl es Terdet e k si  Ti g a  Peka Lal u_st e m _hi t u n g .t xt   2 0  4   4 24  Tan g g u l  P o ra k  Po ra nda  Sem bura n  L u m pur   M e ng ga nas_ st em _hi t u n g .t xt   9 3  3     Besarnya  Data Dal a m Setiap  Clus ter   Clu s ter  k e -1 14 1.125  Clu s ter  k e -2 18 .6 938 775 5102 040 Clu s ter  k e -3 82 .0 625  Clu s ter  k e -4 0.25 277 008 3102 493 05    Hasil Aut o m a tic  Clus ter   Number   Of Cluster:  4, Me mber: 1   1.  5 1   - P u sat  L u m pur La pi n d o  M e l e da k.t x t    2.  2 8  - W i ki pe di a- 01   (B a n ji r l u m pur panas  Si doa r j o ) .t xt    3.  5 3   - R o vi ck y - 0 1  (B a n ji r l u m pur pa nas  Si doa r j o ) .t xt    4.  4 0   - L u m pur  Pana s B e r b al i k   Ara h .t xt      Gamba r  5. Hasil pe ngujia n  pencaria n do kume n   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOMNI KA   ISSN:  1693-6930        TELKOM NIKA   Vol. 8, No. 1,  April 2010 :  41 - 48     47     Gamba r  6. Grafik Perg era k an Pola Varia n         Gamba r  7. Grafik Nilai Bed a  Tinggi       Tabel 2. Tab e l perb andi ng an ha sil pen carian d o kume n deng an met ode K-me an s dan CL HM       Hasil P encar ia n Dokum en d e nga n K-mea n s       Hasil P encar ia n Dokum en d e nga n CLHM       1.    47 - Pengu ngsi L u mpur P anas T e rseran g ISPA  - 26-06- 2006, 1125 WIB - KOMPAS Cy ber  Media - NASIONAL.tx t     1.    47 - Pengu ngsi L u mpur P anas T e rseran ISPA - 26-06-2 006, 11 25 WIB - KOMPAS  C y ber Me dia -  NASIONAL.txt      2.     08 -  T e mp o Interaktif-08 ( K orba n La pin d o   Blokir Jal an).t xt   2.    08 -  T e mpo Interaktif-08 (Korba n La pin d o   Blokir Jal an).t xt      3.     17 -  T e mp o Interaktif-17 ( 7  Korba n  La pin do  Derita Gangguan Ji w a ).tx t   3.     17 -  T e mp o Interaktif-17 ( 7  Korban  Lap ind o  Der i ta Gangg ua n Ji w a ).txt      4.    35 - Hot Mud F l o w - 01 (Lu a s ban gu nan k o rba n   lusi).tx t   4.     35 - Hot Mud F l o w - 01 (Lu a s ban gu nan  korban lusi).t x t 5.    33 - Dua W a rga Kor b a n  L u mpur Pa nas  Sido arjo  Meni ngg al.txt     6.     54 - Semburan Bar u  di R u mah Pe nd udu k.txt       3.3. Uji Pembandinga n Wak t u Kin e rja  Pengujia n ini  diguna ka n u n tuk mem b a nding ka n wa ktu kin e rja y ang dib u tuh k an untu k   pen cari an do kume n pada   si stem pen cari an   do ku men den gan   men ggu nakan  p eng kla s t e ra n   metode  K - m ean s da n CL HM. Kata  ku nci yan g  dig u nakan: “wa r g a  ke banji r an ”.  Wa ktu e k se kusi  dari m e tode   K-mean dan  CL HM b e rtu r ut-tu r ut  ad al ah 5 m enit 3 0  detik da n 6  menit 12  det ik.  Dari  pe nguji an ini   da pat diketahu i bah wa  prose s  p eng kl asteran  do kumen  den g an  Evaluation Warning : The document was created with Spire.PDF for Python.
                                 ISSN: 16 93-6 930     Mesin Pe ncari Dokum en denga n Peng kl aster an Se ca ra Otom atis (Entin Martian a 48 mengg una ka n metod e  CL HM m e merl u k an  wa ktu y ang le bih l a ma jika dib a nding ka n de ngan  peng kla s tera n den gan  m engg una kan   metode K - m ean s. Hal i n i dise bab ka n  ka ren a  dal a m   CL HM data tidak la ng sun g  dikelom p o k kan ke dalam  bebe rap a  kla s ter d a lam satu tahap, tetapi   dimulai d a ri  satu  kla s ter  yang mem p u n yai jara k ya ng de kat, da n berj a lan  se terusnya sela ma  bebe rap a  iterasi, hing ga te rbentu k  be be rapa  kla s ter t e rtentu.       4. SIMPULAN   Penca r ia n do kume n men g guna ka n tekn ik pe ngkl a ste r an d eng an a l goritma  CL HM dan   anali s a pola  varian yang  memen uhi  valley tracing  dapat digu na kan untu k  m engel ompo kkan   dokumen de ngan  j u mlah   kla s t e r  yan g  tepat seca ra otom atis,  meskipu n  m e merl ukan  waktu  komp utasi ya ng lebih lam a     DAF TA R PU STAK A   [1]. Agus AZ, Se tiono AN.  Kla s ifika s i Doku m en Berita Kejadia n  Berb aha sa Indo n e sia d eng an   Algoritm a  Single Pass Clu s tering . Pro c e eding of SITIA. Surabaya. 2002: 1-6.  [2].   Barak b ah AR, Arai K.  Dete rm ining Con s traints  of Mo ving Vari an ce  to Find  Globa l Optim u and Ma ke Au tom a tic Clust e ring . Pro c e e d ing of IES. Surab a ya. 200 4:   409-413.   [3].  Ura m oto  N,  Matsu z a w a   H, Naga no  T ,  Mura ka mi A ,  Takeu c hi  H,  Ta ked a  K. A  Text-Mini n g   System for K nowl edge  Di scovery f r om  Biomedi cal  Docum ents.  IB M System s Journ a l . 20 04;  43(3 ) : 516 -53 3 [4].  Hamm oud KM, Kamel  MS. Efficient phra s e - b a sed  do cume nt in dexing fo Web d o cument  c l us te r i ng Knowl edge  and Data Engineer ing, IEEE Transactions on . 2 004;  16(1 0 ): 1 279 - 1296.   [5].  Bulacu  M, S c hom aker L.  Text-Ind epe ndent  Writer Identificatio n an d Ve rifi cation  Usin Textural a n d  Allogra phi c Features.  Pattern Anal ysi s a nd M a chi ne Intelli gen ce, IEEE  Tran sa ct ion s  on . 2007; 29 (4): 701 -71 7 [6].  Ashraf F, O zyer T, Alh a jj  R. Employin g  Cl u s te ring  T e ch niqu es fo r Automatic  I n formation   Extraction From HTML  Docum ents.  S ystem s, Man,  and Cybe rn eti cs, Part C:  Application s   and Revi ews,  IEEE Transactions on . 20 08; 38(5 ) : 66 0-67 3.  [7].  Man  L, Che w  Lim T,  Ji an  S, Yue L. Su pervised  and   Traditio nal T e rm  Weig hting  Metho d s for  Automatic  Text Categoriz a tion.  Pattern Anal ysis and Machine Intelligence, IEEE  Tran sa ct ion s  on . 2009; 31 (4): 721 -73 5 [8].   Barak b ah AR, Arai K.   Identifying Movi n g  Varian ce to  Make Autom a tic Clu s teri n g  for Norm a l   Data Set . In.  Proc. IECI Ja pan Worksho p  (IJW). To kyo. 2004:   125 -134.   Evaluation Warning : The document was created with Spire.PDF for Python.