I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   24 ,   No .   3 Dec em b er   2 0 2 1 ,   p p .   1 7 4 4 ~ 1 7 5 8   I SS N:  2 5 0 2 - 4 7 5 2 ,   DOI : 1 0 . 1 1 5 9 1 /ijeecs.v 24 .i 3 . pp 1 7 4 4 - 1 7 5 8          1744       J o ur na l ho m ep a g e h ttp : //ij ee cs.ia esco r e. co m   G rey wo l o ptimi za tion a lg o rithm f o r hierarchica l do cument   clustering       Ay a d M o ha m m ed  J a bb a r 1 ,   K u Ruha na   K u - M a ha m ud 2   1 De p a rtme n o Co m p u ter  S c ien c e ,   S h a tt   Al - Ara b   Un i v e rsity   C o ll e g e ,   Ba sra ,   Ira q   Da ta S c ien c e   Re se a rc h   Lab ,   S c h o o o C o m p u t in g ,   Un iv e rsiti   Uta r a   M a lay sia ,   Ke d a h ,   M a lay sia   2 S h ib a u ra   In stit u te  o Tec h n o l o g y ,   To k y o ,   Ja p a n       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ma y   1 2 2 0 2 1   R ev is ed   Oct   8 2021   Acc ep ted   Oct   13 2 0 2 1       In   d a ta   m in i n g ,   th e   a p p l ica ti o n   o g re y   wo lf   o p ti m iza ti o n   (G WO)  a lg o r it h m   h a b e e n   u se d   i n   se v e ra lea rn i n g   a p p r o a c h e b e c a u se   o i ts  si m p li c it y   in   a d a p ti n g   to   d iffere n a p p li c a ti o n   d o m a in s.  M o st  re c e n wo rk th a c o n c e rn   u n su p e rv ise d   lea rn in g   h a v e   f o c u se d   o n   tex c l u ste rin g ,   wh e re   th e   G WO   a lg o rit h m   sh o ws   p ro m isin g   re su lt s.  Alt h o u g h   G WO  h a g re a p o ten ti a l   in   p e rfo rm in g   tex c lu ste rin g ,   it   h a li m it a ti o n in   d e a li n g   with   o u tl ier   d o c u m e n ts  a n d   n o ise   d a ta.  Th is   r e se a rc h   in tro d u c e m e d o i d   G WO  (M - G WO)   a lg o rit h m ,   wh ich   i n c o r p o ra tes   a   m e d o id   re c a lcu latio n   p r o c e ss   to   sh a re   th e   in fo rm a ti o n   o m e d o id a m o n g   th e   th re e   b e st  wo l v e a n d   t h e   re st  o th e   p o p u lati o n .   Th is i m p ro v e m e n a ims   to   fin d   th e   b e st  se o m e d o id s   d u ri n g   th e   a lg o rit h m   ru n   a n d   i n c re a se th e   e x p l o it a ti o n   se a rc h   t o   fi n d   m o re   l o c a re g io n s   in   th e   se a rc h   sp a c e .   Ex p e rime n t a re su lt o b tain e d   fr o m   u sin g   we ll - k n o w n   a lg o rit h m s,  su c h   a g e n e ti c ,   firef ly ,   G WO,   a n d   k - m e a n a lg o r it h m s,  in   fo u r   b e n c h m a rk s.  Th e   re su lt o e x ter n a e v a lu a ti o n   m e tri c s,  su c h   a ra n d ,   p u rit y ,   F - m e a su re ,   a n d   e n tro p y ,   i n d ica t e th a t h e   p r o p o se d   M - G WO  a lg o rit h m   a c h iev e s b e tt e d o c u m e n c lu ste ri n g   t h a n   a ll   o th e a l g o rit h m s (i . e . ,   7 5 %   b e tt e r   wh e n   u sin g   Ra n d   m e tri c ,   5 0 %   b e tt e th a n   a ll   a lg o r it h m   b a se d   o n   p u rit y   m e tri c ,   7 5 %   b e tt e th a n   a ll   a lg o rit h m u si n g   F - m e a su re   m e tri c ,   a n d   1 0 0 %   b a se d   o n   e n tr o p y   m e tri c ).   K ey w o r d s :   C en tr o id - b ased   clu s ter in g   Data   clu s ter in g   Me d o id - b ased   cl u s ter in g   Op tim izatio n   Swar m   in tellig en ce   Un s u p er v is ed   class if icatio n     T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Ay ad   Mo h am m ed   J ab b a r   Dep ar tm en t o f   C o m p u ter   Scie n ce   Sh att  Al - Ar ab   Un iv er s ity   C o lleg e   B asra ,   I r aq   E m ail: a y ad m o h am m ed @ s a - u c. ed u . iq       1.   I NT RO D UCT I O N   D a t a   c l u s t e r in g   r e f e r s   t o   a   m e t h o d   o f   c l a s s i f y in g   a   s e t   o f   i t e m s   i n t o   s ev e r a l   g r o u p s   w h e r e i n   ea c h   s i n g l g r o u p   co n t a in s   i te m s   w i t h   h i g h   s i m i l a r i ty   i n   t er m s   o f   th d i s t an c b et w e e n   th e   f e a t u r e s   o f   e ac h     i t e m   [ 1 ] - [ 4 ] .   I h a s   b ee n   u s ed   i n   d if f er en t   ap p l i ca t i o n s   d o m i n i o n s   s u ch   a s   w i r e le s s   s e n s o r   n e t w o r k s ,   t e x c l a s s i f i c a t i o n ,   an d   an a ly s i s   o f   T w i t t e r   d a t a   [ 5 ] - [ 7 ] .   T wo   ty p e s   o f   c lu s t e r i n g   ap p r o a ch ,   n a m e ly ,   p a r t i t io n a a n d   h ie r ar c h i ca l ,   c a n   b c o n s t r u c t ed   [ 8 ] .   I t em s   in   p ar t i t i o n a l   c lu s t e r i n g   g r o u p s   a r b a s ed   o n   t h e   s i m i la r i ty   a m o n g   t h e   i t e m s .   T h i s   c l u s t er i n g   g r o u p   i s   s p h er i c a l ,    wh e r e i n   e a ch   i t e m   i s   p l ac e d   in   a   s i n g l e   c lu s t e r .   T h d a t a   ar e   d iv i d e d   in t o   a   s e t   o f   c l u s t er s   w h er e   t h e   s i m i l a r i ty   a m o n g   t h i t e m s   w i th i n   c l u s t e r   i s   h i g h   a n d   d i f f e r   f r o m   t h o t h er   i t em s   th a t   b e lo n g   t o   a n o t h er   c l u s t er   [ 9 ] .   A   d i s t a n c e - b a s e d   s i m i l a r i ty   m e a s u r e   i s   u s e d   t o   d e t er m in e   t h e   d eg r ee   o f   s i m i l a r i t y   a m o n g   t h e   i te m s   t o   p r o d u c e   t h e   c l u s t er i n g   a s s i g n m en t .   P a r t i t io n a c l u s t e r in g   a p p r o a ch   in c lu d e s   c en t e r - b a s ed ,   g r i d - b a s ed ,   m o d e l - b a s ed ,   a n d   d en s i t y - b a s ed   c lu s t e r in g   [ 1 0 ] C e n t e r - b a s e d   c lu s t e r in g   co n s tr u c t s   s p h e r i c a l   g r o u p s   r ep r e s en t e d   i n   t h e   ce n t er   o f   t h e   c lu s te r   [ 1 1 ] .   T h e   c e n te r   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       Grey  w o lf  o p timiz a tio n   a lg o r ith fo r   h iera r ch ica l d o cu me n clu s teri n g   ( A ya d   Mo h a mme d   Ja b b a r )   1745   o f   c lu s t e r   i s   a   m e t ap h o r   th a t   i s   c a l c u l a t ed   a s   t h e   av e r ag e   d i s t a n c e   a m o n g   a l l   i t e m s   w i t h in   t h e   c lu s t e r   ( i. e . ,   c e n t r o i d )   o r   wh e n   c lu s t e r in g   i s   p e r f o r m e d   ac c o r d in g   to   m e d o i d - b a s ed   c l u s t er i n g    ( i . e . ,   m e d o i d )   [ 1 2 ] M e d o id - b a s e d   c l u s t er i n g   co n s i d e r s   th e   ce n t er   o f   e a ch   c lu s t e r   a s   th m ed o id   th a t   r e p r es e n t s   o n e   in s t a n ce   t h a t   b e l o n g s   t o   t h d a t a s e t .   G r i d - b a s e d   c lu s t e r i n g   d i v id es   t h e   d a t a s e i n to   d i f f e r en t   n u m b e r s   o f   c e l l s   f o r   v a r io u s   r e s o l u t io n s ,   w h er e i n   a   c e l l   l ev e l   co r r e s p o n d s   t o   a   l e v e l   o f   r e s o lu t i o n   [ 1 3 ] .   E a ch   c e l l   r e p r e s e n t s   a   s t a t i s t i c a l   v a l u e   th a t   i s   c a l cu la t e d   a n d   u s ed   t o   an s w e r   q u er i e s .   T h e   ad v an t ag e   o f   t h i s   a p p r o a c h   in c l u d e s   i t s   a b i l i t y   to   d e a w i th   h i g h - d i m e n s i o n a l   s p a c [ 1 4 ] .   H o we v er ,   t h p e r f o r m a n c o f   th a lg o r i t h m   i s   b a s e d   o n   t h e   g r i d   s i z e,   w h i ch   i s   l o we r   t h a n   th e   d a t a s e t   s i z e .   Fo r   h i g h l y   ir r eg u l ar   d a ta   d i s t r ib u t io n s ,   t h e   u s e   o f   s in g l e   u n i f o r m   g r id   i s   in s u f f i c i en t   to   o b t a in   t h r e q u i r ed   c l u s t er in g   q u a l i t y   o r   f u l f i th t i m r e q u ir e m en t .   M o d e l - b a s e d   c l u s t er i n g   m e t h o d   a t t em p t s   to   o p t i m iz e   th e   f i t   am o n g   m a th em a t i c a m o d e l s   an d   d a t [ 1 5 ] .   T h i s   m e t h o d   c h ar a c t er i z e s   t h d es c r i p t i o n   o f   d a t g r o u p s   wh e r e   e a c h   g r o u p   ap p ea r s   w i th   a   c l a s s .   T h m a in   c h a l l en g e s   i n   m o d e l - b a s ed   c lu s t e r i n g   in c lu d t h cu r s o f   d i m en s i o n a l i ty   p r o b le m ,   t h e   in i t i a l   s e l ec t i o n ,   a n d   t h e   p r o b l e m   o f   e s t i m a t in g   th n u m b e r   o f   p a r a m e t er s   [ 1 5 ] .   I n   d en s i t y - b a s e d   c l u s t e r in g ,   t h e   a l g o r i t h m   g r o u p s   t h e   d a t i t e m   b a s e d   o n   th d en s e   r e g io n s   b y   id e n t if y in g   t h h ig h -   a n d   lo w - d e n s it y   ar e a s   [ 1 6 ] .   T h a l g o r i t h m   c a n   h an d l e   n o i s e,   d e t e c t   o u t l i er s ,   an d   id e n t if y   c l u s t e r in g   s h ap e s .   Ho w e v e r ,   i t   h a s   d i f f i cu l t y   in   d e a l i n g   w i th   h ig h - d im e n s io n a l   d a t a n d   d if f er en t   l ev e l   o f   d e n s i t i e s   w i th i n   c l u s t er s .   T h e s e   d i f f i c u l t ie s   c a n   l i m i t   t h e   c lu s t e r in g   p er f o r m a n c o f   th e   a l g o r i th m   s u c h   a s   l o a c cu r a cy   d u e   to   w r o n g   c l u s t e r in g     a s s i g n m en t   [ 1 6 ] ,   [ 1 7 ] .   H i er a r c h i ca l   c l u s t er i n g   i s   p er f o r m e d   u s i n g   e i t h e r   ag g lo m er a t i v e   o r   d i v i s iv h i e r ar c h ic a l   ap p r o a ch e s   [ 1 8 ] .   T h e   f o r m e r   p er f o r m s   o p p o s i t e l y ,   t h a t   i s ,   c lu s t e r in g   i s   p e r f o r m e d   b y   c o m p u t in g   th e   s i m il a r i ty   b e tw e e n   c lu s t e r s   an d   t h en   jo i n in g   th e   t wo   m o s t   s i m i l ar   c lu s t e r s   u n t i l   o n s i n g l c l u s t e r   i s   o b s e r v e d .   T h e   l a t t er   w o r k s   i n   r ev e r s m an n er ,   t h at   i s ,   a   tr e i s   c o n s t r u c t e d   b y   d i v i d in g   th e   d a t a s e i n t o   s u b - c l u s t er s   r ec u r s i v e l y   u n t i e a ch   d a t a   i te m   r e p r e s e n t s   a   s i n g l e   cl u s t e r .   T h a d v a n t a g e   o f   t h f o r m e r   o v er   th l a t t er   i s   i t s   s u i ta b i l it y   f o r   t ex c l u s t er i n g   b e c au s e   i r ev i e w s   th d a ta   a s   h ie r a r ch y   o f   n e s t ed   q u a l i ty   c lu s t e r s   an d   d o e s   n o t   r eq u ir e   th e   n u m b er   o f   c l u s t e r s ,   wh i ch   i s   d r a w b a c k   o f   p ar t i t i o n a   a l g o r i t h m   [ 1 9 ] .   H i e r ar c h ic a c l u s t e r in g   p e r f o r m s   c lu s t e r i n g   b a s ed   o n   th p r o x i m i t y   m a t r ix ,   w h i ch   i s   c a l c u l a t ed   u s in g   th e   d i s t an c e   b e t w e en   e a ch   p o i n t .   T h e   d i s ta n c e   b e t w e en   e a ch   p o i n t   ca n   b e   m e a s u r ed   u s i n g   t h r e e   m e t h o d s ,   n am e l y ,   s i n g l e ,   co m p l e t e ,   a n d   a v e r ag l i n k ag e s .   T h e   s i n g l e   l in k ag e   i n   h i e r a r ch i c a c l u s t e r in g   c an   b e   m e a s u r e d   b a s e d   o n   t h e   s h o r t e s t   d i s t an c e   b e t we e n   t wo   e l e m en t s   t h a t   r e s i d e   i n   t w o   d i f f e r en t   c l u s t e r s .   T h co m p l e t e   l in k ag i n   h i e r ar c h ic a c l u s t e r in g   i s   th l o n g e s t   d i s t a n c b e t we e n   t wo   e l e m e n t s   th a t   r e s i d e   i n   t w o   d if f e r e n t   c lu s t e r s .   T h e   av er a g e   l i n k ag e   i n   h i er a r ch i c a l   c lu s t er i n g   i s   th e   av e r ag o f   th e   s u m   o f   th e   d i s t a n c e   b e tw e e n   ea c h   e l e m en t   in   s i n g l c l u s t e r   t o   e v er y   e l e m en t   in   th e   o th e r   c l u s t e r .   I n   an y   c l u s t er i n g   ap p r o a ch e s ,   t h e   a s s e s s m en t   o f   c lu s t e r i n g   t e n d e n cy   f o cu s e s   o n   t h f ea s i b i l i t y   o f   t h e   c l u s t er i n g   an a l y s i s   t o   d e t e r m i n e   wh e th e r   th e   d a t c a n   b e   m ea n in g f u l l y   c l u s te r e d   o r   n o [ 2 0 ] H i e r a r ch i c a l   c lu s t e r in g   i s   m o r e   s u i ta b l e   in   i n d u c in g   th e   c l u s t e r in g   t en d en cy   o f   d a t a   th a n   th e   p a r t i t io n a l     o n e   [ 2 1 ] .   T h e   h i e r ar c h ic a l   c lu s t e r i n g   a lg o r i t h m   v i s u a l i z e s   d a t a   a s   a   h i e r ar c h ic a l   tr e e   th a t   i l l u s tr a t e s   th f u s i o n   o r   d iv i s i o n   in   e ac h   s t ag e   b ec a u s e   th e   t r e e   c o n t a in s   n e s t e d   c lu s t e r s .   A s   m e n t io n ed ,   t h e   h i er a r ch i c a l   c l u s t e r in g   a p p r o a ch   i s   c l a s s i f ie d   in t o   ag g lo m er a t i v an d   d iv i s i v m e th o d s   [ 2 2 ] .   T h e   a g g l o m e r a t i v m et h o d   b e g in s   b y   m er g in g   d i s t i n c t   c l u s t e r s   ( i t em s )   b a s e d   o n   s im i l a r i t y   u n t i l   a   s i n g l e   c lu s t e r   t h a t   c o n t a i n s   a l l   m e m b e r s   i s   o b t a i n ed .   T h e   d iv i s i v e   m e t h o d   p e r f o r m s   a   s e r i e s   o f   p a r t i t io n s   t h a t   c o n t a in   s i n g l e   c lu s t e r s   an d   s e p a r a t e s   th e m   i n to   m u l t i p l s u b - c l u s t e r s   s u c c e s s i v e ly .   T h e   i m p o r t a n i s s u e   t h a t   a r i s es   i n   a g g l o m e r a t iv c l u s t e r in g   i s   h o w   to   o b t a i n   th e   t r ee   t h a t   i s   u s e d   to   e x p l o r e   t h e   in d iv i d u a l   i t e m s   f r o m   th e   p ar t i t i o n .   T o   th b e s t   o f   t h a u th o r s   k n o w l e d g e ,   th e   h i e r ar c h ic a l   t r e e   m a y   c o n t a in   d i f f e r en t   r e s o l u t io n s   a t   e a c h   l e v e o f   t h e   t r e e   th a t   co r r e s p o n d s   to   th e   n u m b e r   o f   c l u s t e r s   [ 2 3 ] .   T h u s ,   e s t i m a t i n g   th e   n u m b e r   o f   o p t i m a l   p a r t i t i o n   an d   d e c i d in g   th e   o p t i m a l   c u t   l ev e o f   a   d e n d r o g r a m   c an   b e   c h a l le n g in g   [ 2 4 ] .   O th e r   p r o b l em s   in   t h e   h i e r ar ch i c a c l u s t e r in g   i n v o lv t h e   o u t l ie r s   t h a d i r e c t ly   a f f e c t h e   a c c u r a c y   o f   t h r e s u l t s .   Ou t l i e r   r ef e r s   t o   d a t i t e m   t h a t   d o e s   n o t   f i t   in t o   a n y   c lu s t e r .   O u t l ie r s   ar e   o b j e c t s   w i th   l o c o n n ec t i v i ty   i n   o p p o s i t i o n   to   th o s e   w i th   h i g h   c o n n e c t iv i t y   in   t h e   in t r a - c l u s t er   r eg i o n .   T h e   h i er a r ch i c a l   c l u s t er i n g   i s   s e n s i t i v e   to   o u t l ie r s   b ec a u s m a n y   t e r m s   a r e   n o t   r e p r e s e n te d   b y   a l l   d o cu m en t s   a f t er   p r e - p r o c e s s i n g   [ 1 3 ] ,   [ 2 5 ]   D i f f e r e n r e la t e d   w o r k s   o n   tex t   c lu s t e r in g   f o r   s e v er a o p t im i z a t i o n   a l g o r i th m s   h a v e   b e en   p r o p o s e d   i n   t h e   l i te r a tu r e.   L i t er a t u r e   s h o w s   d i f f e r en t   ap p r o a ch e s ,   s u ch   a s   d en s i t y -   a n d   c en t r o i d - b as e d   c l u s t er i n g ,   th a a r e   u s e d   t o   p r o d u c e   th d o cu m en t s   c lu s t e r i n g   t r e e.    I n   2 0 1 5 ,   r e l a t e d   w o r k   h a s   p r o p o s ed   t ex t   c lu s t e r in g   a l g o r i t h m   t o   d e t er m i n e   t h d e n s i t y   o f   p ea k s   [ 2 6 ] .   T h e   a l g o r i t h m   w a s   i m p l e m en t e d   b y   ca l c u l a t in g   t e x d i s t a n c a n d   d en s i t y ,   w h i ch   w e r e   b a s e d   o n   th e   c a l c u l a t i o n   o f   t h e   t ex t   v e c t o r   s i m i l a r i ty .   V e c t o r   s p a c m o d el   ( V S M )   w a s   u s e d   to   e x p r e s s   t e x t   t o   o b t a in   t h e   v e c t o r   m a p p in g   f o r   th e   s i m i l ar i t y   c a lc u l a t i o n .   T h e   l o c a d e n s i t y   an d   d i s t a n c e   f r o m   th e   p o i n t s   o f   h ig h er   d e n s i t y   o f   e a c h   t ex t   ar e   d e t e r m i n ed ,   t h e   n o i s e   p o i n t s   a r r e m o v ed ,   a n d   t h c lu s t e r   c en t e r s   ar s e l e c t ed .   H o w ev e r ,   cl u s t e r   c e n te r s   o b t a i n ed   b a s ed   o n   c e n tr o id - b a s e d   a p p r o a ch   a r s e n s i t i v e   to   o u tl i e r s   an d   n o i s p o i n t s .   O t h e r   r e l a t e d   w o r k s   u s e d   d e n s i t y - b a s e d   a lg o r i t h m s   t o   p e r f o r m   h ie r ar c h i ca l   c l u s t er in g   [ 2 7 ] .   T h e   n u m b er   o f   p a r a m e t e r s   n e e d e d   in   t h d en s i ty - b a s e d   m e t h o d   i s   r e d u c e d   b y   u s i n g   t h e   k - m ea n s   a l g o r i th m .   A v e r ag e   an d   s i n g l l i n k a g e   a lg o r i t h m s   a r e   im p r o v e d   a n d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   3 Dec em b er   2 0 2 1 1 7 4 4   -   1 7 5 8   1746   c o m b i n ed   w i th   d en s i t y - b a s e d   m e th o d s ,   wh i c h   r e d u c t h ti m e   co m p l e x i ty   r eq u ir e d   i n   th e   en d .   E v a lu a t ed   r e s u l t s   s h o w ed   i m p r o v e m e n w h e n   k - m ea n s   a n d   s i n g le   li n k ag e   a r e   c o m p a r e d .   Ho w ev e r ,   th e   a lg o r i th m   p e r f o r m s   d en s i t y - b a s ed   c lu s t er i n g   w i t h o u a t t e n d i n g   to   o u t li e r   p r o b l e m s   a s   p ar t   o f   i t s   s o lu t i o n .     I n   2 0 1 0 ,   o th e r   r e la t e d   w o r k   p r o p o s e d   t h m ax i m u m   ca p tu r i n g   a l g o r i t h m   [ 2 8 ] ,   w h i ch   co n s i s t e d   o f   t w o   p r o c e d u r e s ,   n a m e ly ,   c o n s t r u c t i n g   d o c u m e n c l u s t er s   an d   a s s i g n in g   c lu s t e r   t o p i c s .   T h e   f i r s t   p r o c ed u r e ,   w h i c h   i s   e m p lo y e d   f o r   g r o u p s ,   d o c u m e n t s   p a ir s   w i t h   th e   l a r g e s t   s i m i l a r i ty   in   t h e   d at a s e t   a s   o n e   s i n g l e   c l u s t e r .   T h e   s e co n d   p r o c ed u r e   u t i l i z e s   g r o u p s   w i t h   th e   m o s t   f r e q u e n t   i t em   s e t s   o f   e ac h   c l u s t e r   p r e s e n te d   a s   t o p i c s   o f   th c l u s t er .   S i m i l ar ly ,   i t   a d o p t s   f r e q u e n i t em   s e t s   f o r   d o cu m en t s   wh e n   m ea s u r in g   i n s t e ad   o f   V S t o   u s e   th e   p o w e r   o f   f r e q u e n t   it e m   s e t s   i n   h a n d l i n g   d o c u m en t   s i z e .   T h e   s i m i l ar i t y   m e a s u r e   f o r   d o c u m e n t s   i s   c a l c u l a t ed   i n   th r e w ay s :   th n u m b e r   o f   f r e q u en t   i te m   s e t s ,   t h to t a w e i g h t s   o f   f r eq u en i t e m   s e t s ,   an d   t h e   a s y m m e tr i c a b in a r y   s i m i la r it y   b e t w e en   th e i r   f r e q u e n i t em   s e t s .   T h ev a l u a te d   r e s u l ts   c o n c l u d e   a   b e t t e r   p e r f o r m a n c e   w h en   c o m p ar ed   w i t h   o th e r   m e t h o d s .   O th e r   r e s e ar c h   p r o p o s e d   a   h y b r i d   a lg o r i th m   th a c o m b i n e s   d e n s i t y   a n d   p ar t i t io n a l   c lu s t e r in g   [ 2 9 ] .   H y b r id iz a t i o n   a i m s   t o   o v e r co m e   th e   e f f e c t   o f   h i g h   t i m e   c o s t   o n   t h e   d e n s i t y - b a s ed   s p at i a l   c l u s t e r in g   o f   ap p l i c a t io n s   w i t h   n o i s e   ( D B S C A N )   a l g o r i t h m .   I t   u t i l i z e s   th k - m ea n s   a l g o r i th m   f o r   p a r t i t io n s   o f   th d a ta s e t   a s   t h e   f i r s s t a g e   a n d   th en   em p lo y s   t h e   M a x M in   m e th o d   to   s e l e c t   p o i n t s   f o r   t h D B S C A N   a l g o r i t h m   a s   th e   s e co n d   s t a g e.   T h e   r e s u l t s   o f   th e   p r o p o s ed   a lg o r i t h m   o u t p e r f o r m e d   th e   o r ig i n a l   DB S C A N .   T h q u a l i t y   o f   r e s u l t   i s   s e n s i t i v e   b e c au s e   i i s   b a s ed   o n   th p r e - d e f in e d   n u m b e r   o f   c l u s t er s   th a t   s h o u l d   b e   a s s u m e d   b y   t h e   u s er .   M o r e o v e r ,   t h a lg o r i th m   i s   s e n s i t iv t o   o u t l i er s .     I n   2 0 1 6 ,   o th e r   r e l a t e d   wo r k   p r o p o s ed   a n   ag g lo m er a t i v h i e r a r ch i c a l   c lu s t e r i n g   t h a em p l o y ed   n e w   c l u s t er i n g   v a l i d i ty   i n d e x   p e r f o r m ed   o n   t h b a s i s   o f   tw o   c o n c ep t s ,   i n c lu d in g   d i s p er s i o n   an d   s y n th e s i s     d e g r e e s   [ 3 0 ] .   T h e   f i r s c a l cu la t i o n   d if f er e n t ia t e s   th e   in t r a - c l u s t e r   c o m p a c tn e s s   an d   i n te r - c l u s t e r   s e p a r a t io n ,   w h e r e a s   th e   s y n th e s i s   d eg r e e   s u m s   i n t r a - c l u s t er   c o m p a c tn es s   w i t h   i n t e r - c lu s t e r   s ep a r a t io n .   T h e   r a t io   o f   th c l u s t e r in g   d i s p er s i o n   d eg r e a n d   c l u s t e r in g   s y n th e s i s   d e ter m i n e s   th e   q u a l i ty   o f   c lu s t e r   a c c o r d in g   to   th e   l e v e l   o f   p a r t i t io n   i n   a g g l o m e r a t i v e   h i er a r ch i c a c l u s t er i n g .   H o w e v er ,   t h c l u s t e r i n g   r a t io   c a n   b e   c a l c u la t e d   i n   t h e   f i n a s t a g o f   th e   ag g l o m e r a t iv e   h i e r a r ch i c a l   c l u s t e r i n g   r e s u l t s .   T h h y b r id   a l g o r i t h m   co n t a in s   d i v i s i v e   a n d   a g g l o m e r a t iv e - p e r f o r m ed   t ex t   c l u s t e r in g   [ 3 1 ] .   I t   c o n t a i n s   th e   a d v an t a g e   o f   b o th   a l g o r i th m s .   T h i s   h y b r id i z a t i o n   s o l v e s   t h e   p r o b l e m   o f   l o c a m in i m u m   p r o d u c e d   i n   th e   h i er a r ch i c a c lu s t e r i n g   d u t o   t h e   d i f f ic u l ty   i n   r e - j o in i n g   i t em s   i n   d if f er e n s t a g e s .   I n   th e   f i r s t   s t a g e ,   a   g r e a t er   to t a l   n u m b e r   o f   c lu s t e r s   th a n   t h e   a c tu a l   n u m b er   i s   p r o d u c ed .   Ob t a i n ed   ce n tr o id s   a r m er g ed   t o   f o r m   a c tu a l   c lu s t e r s   th a t   ar e   co n s i d e r ed   t h e   s e co n d   s t a g e   o f   h y b r id   a lg o r i th m .   R e s u l t s   ar e   s en s i t i v e   t o   th e   in i t i a l   n u m b er   o f   c l u s t e r s ,   o u t l i e r s ,   a n d   n o i s e .   R e s e a r ch   h a s   b e e n   co n d u c t ed   t o   d e t e r m i n t h e   o p t im a l   n u m b er   o f   c lu s t e r s   i n   h ier a r ch i c a c l u s t er i n g   b y   p r o p o s i n g   a   n e w   c l u s t e r   v a l i d i t y   i n d e x   to   f i n d   th b e s p a r t i t io n   [ 3 2 ] .   T h p r o p o s ed   m e t h o d   e x t en d s   t h e   s e a r c h   s p a ce   to   f in d   t h e   ex te n d ed   p ar t i t i o n .   T h u s ,   i i s   a   n e w   cl u s t e r in g   v a l i d i ty   i n d e x   c a l l ed   c o n t ex t - i n d ep e n d en t   o p t im a l i ty   t h a t   ca n   b e   u s e d   to   f i n d   t h e   b e s t   p a r t i t i o n   i n   h i e r ar c h ic a l   c l u s t er i n g .   Ho w e v e r ,   th i s   s t u d y   u s e s   v a l i d i ty   i n d e x   t h a t   c a lc u l a t ed   t h s i m i l ar i t y   o n   th b a s i s   o f   c e n tr o id - b a s e d   a p p r o a ch ,   wh i c h   i s   s e n s i t i v e   t o   o u t l i e r   an d   n o i s e   d a t a .   T h p ar t i t i o n a l   an d   h i e r a r ch i c a l   a p p r o a c h e s   h a v e   b e e n   h y b r id i z ed   t o   o v er c o m e   d i s ad v an t ag e s   o f   b o t h   a l g o r i th m s   [ 3 3 ] .   A   m o d i f i ed   k _ m o d e   a lg o r i t h m   p er f o r m ed   p ar t i t i o n a c l u s t e r in g   b a s e d   o n   p r e - d e f i n ed   n u m b er   o f   c lu s t e r s   as   t h e   in i t i a l   s t ag e .   M e a n wh il e ,   t h e   f in a l   s t ag p e r f o r m e d   ag g lo m er a t iv e   c l u s t e r i n g   to   c o n s t r u c t   a   h i e r a r ch y   t r ee .   H o w ev e r ,   t h e   p r o p o s e d   h y b r id   a l g o r i th m   p r o d u c e d   u n s t a b l r e s u l t s .   S im i l a r l y ,   a   h y b r i d   m e th o d   b e tw e e n   p a r t i t io n in g   a r o u n d   m ed o i d s   ( P A M )   a n d   d i v i s i v h i e r ar ch i c a l   c l u s t er i n g ,   i n   w h ic h   t h e   n u m b er   o f   m a i n   c l u s t e r s   i s   d e t er m in e d   u s i n g   D a v ie s   B o u l d in   i n d ex   ( D B I )   v a lu w i t h   a n   o p t i m a n u m b e r   o f   c l u s t e r s   i f   th r e s u l t s   m in i m i z th e   D B I   v a lu e ,   w a s     p r o p o s ed   [ 1 8 ] .   B a s e d   o n   th o b t a in e d   n u m b e r   o f   c l u s t e r s ,   P A M   p e r f o r m s   p ar t i t i o n a l   cl u s t e r i n g   f o l l o w ed   b y   d i v i s i v h i er a r ch i c a l   c l u s t e r in g   to   c o n d u c t   th e   f in a l   r e s u lt s .   O t h e r   s tu d i e s   p r o p o s e d   a   h y b r i d   h i er a r ch i c a l   c l u s t e r in g   a lg o r i t h m   t o   i m p r o v e   th e   t i m c o m p l ex i t y   o f   h i e r ar c h ic a l   c l u s t er i n g   a lg o r it h m .   T h e   p r o p o s ed   a l g o r i t h m s   p e r f o r m   c lu s t e r i n g   a s   t h e   f ir s t   s t e p   u s in g   k - m ea n s   a l g o r i t h m   [ 3 4 ] .   S u b s e q u en t l y ,   o b j ec t s   w i t h i n   e a c h   c lu s t e r   a r c l u s t er e d   h i er a r c h i ca l l y   b y   u s i n g   th e   ex a c t   a g g lo m er a t i v h i er a r c h i c a c lu s t e r i n g   a lg o r i t h m .   T h e   t i m e   co m p l e x i ty   o f   a g g lo m e r a t i v e   h i e r ar c h i c a l   c l u s t er i n g   w a s   i m p r o v ed   i n   t er m s   o f   t i m e.   H o w ev e r ,   t h e   r e s u l t   i s   cr i t i c a a n d   d e p en d en t   o n   th e   f i r s t   s t ag e ,   w h i ch   m ay   p r o d u c e   o r   c o n t a i n   l o ca l   m i n im u m   r e s u l t s .     I n   2 0 1 2 ,   o th e r   r e la t e d   w o r k   p r o p o s e d   a   d i v i s iv a p p r o a c h   to   s o lv h ig h - d im e n s io n a s p a ce     p r o b l e m s   [ 3 5 ] .   T h e   p r o p o s e d   a l g o r i th m   c o n s i s t s   o f   t wo   p h a s e s .   F ir s t ,   th o r i g in a l   d a t as e t   i s   d iv i d e d   i n to   t w o   s u b - c lu s t e r s   t o   m e a s u r th e   h o m o g e n e i ty   o f   n e w   c lu s te r s   t o   d e t e r m i n w h e th er   th e   p a r t i t io n in g   s h o u l d   b e   co n t in u ed   o r   w h e th e r   t h e   o r ig i n a l   c lu s t e r   n e ed   to   b e   r e t a in ed .   S e co n d ,   s t a b i l i ty   i s   d e t er m in e d   b y   s u b s t i t u t in g   th e   l o ca t i o n   o f   o n e   m em b er   o f   a   c lu s t e r   t o   a n o t h e r .   I f   th e   q u a l i ty   i m p r o v e s ,   t h e n   p a r t i t io n in g   i s   p e r f o r m e d .   O th e r w i s e ,   t h e   c l u s t e r   r e m a i n s   in   th e   s am e   c l u s t er .   T h m a in   ch a l l en g i n   h i er a r ch i c a c l u s t e r in g   i n v o lv e s   h a n d l i n g   t h h u g e   co l l e c t io n   o f   d a t a,   w h ic h   c au s e s   h ig h   c o m p u ta t i o n a co s t .   O th e r   r e s e a r ch   i m p r o v ed   t h e   e f f ic ie n c y   o f   h i e r a r ch i c a l   c lu s t e r in g   b y   b u i ld i n g   a   h i er a r c h y   a l g o r i t h m   b a s ed   o n   a d j a c en t   p o i n t s   i n   c lu s t e r s   wi t h   a   c e n tr o id   [ 3 5 ] .   T o   r e d u ce   t h e   o v e r a l l   co m p u t a t io n a l   c o s t ,   t h e   p r o p o s e d   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       Grey  w o lf  o p timiz a tio n   a lg o r ith fo r   h iera r ch ica l d o cu me n clu s teri n g   ( A ya d   Mo h a mme d   Ja b b a r )   1747   a l g o r i t h m   c o m b in e s   p a r t i t io n a l   an d   a g g l o m e r a t iv e   c lu s t e r i n g   w h e n   k - m e a n s   i s   u s e d   f o r   p ar t i t i o n a l   c l u s t e r in g .   T h e   p r o c e s s   b e g in s   b y   a s s i g n in g   d a ta   o b j ec ts   t o   th a p p r o p r i a t c en t r o id   an d   g e n er a t e s   a   n u m b e r   o f   c lu s t e r s   c a l l ed   m i d d le - l ev e l   c lu s t e r s .   Ag g lo m e r a t iv e   c lu s t e r in g   i s   a p p l ie d   o n   th e   o b t a in e d   c e n t r o i d s   to   g en e r a t e   c lu s t e r i n g   h i e r ar c h y .   T h e   e v a lu a t ed   r e s u l t s   c le a r ly   d em o n s t r a te   i m p r o v e m en t s   i n   t e r m s   o f   c o m p u ta t i o n a l   c o s w h e n   co m p a r ed   w i t h   th e   s t a n d ar d   ag g lo m er a t i v e   h i e r a r c h i ca l   c l u s t er i n g   m e t h o d .   O th er   r e l a te d   wo r k s   u s e   a n t   c o lo n y   o p t i m i z a t io n   ( A C O )   a l g o r i t h m   t o   p e r f o r m   n u m e r ic a l   c lu s t e r i n g   s i m i l a r   t o   wh a t   P A M   a lg o r i th m   d o   [ 3 6 ] ,   [ 3 7 ] .   H o w ev e r ,   th e   p r o p o s ed   m e th o d ,   s u c h   a s   i n   [ 3 4 ],   [ 3 5 ] ,   h a v e   h i g h   l i m i t a t io n ,   t h a t   i s ,   n o   in f o r m a t io n   a b o u t h e   b e s t   m e d o i d s   c a n   b e   id en t i f i ed ,   an d   t h a l g o r i t h m   d o e s   n o t   s w a p   t h e   m e d o i d s   d u r in g   th r u n .   S u ch   p h e n o m en o n   i s   k n o w n   a s   t h e   m e d o i d   r e c a l cu la t i o n   p r o c e s s   t h a e x i s t s   i n   P A M   a lg o r i t h m .   T h e   m ed o id s   a r e   r a n d o m l y   g en e r a t e d ,   an d   c lu s t e r i n g   a s s i g n m e n t   i s   p er f o r m e d .   T h e   l i m i ta t i o n   o f   s w a p in g   d o e s   n o t   a l lo w   m o r e   r eg i o n s   t o   b e   f o u n d   in   th e   s e a r c h   s p a c e   w i t h   m o r e   o p t im i a c l u s t e r in g   a s s i g n m e n t s .   A s   an   o p t i m iz a t i o n   a l g o r i t h m   g r ey   wo l f   o p t i m i z a t io n   ( G W O )   h a s   b e e n   u s e d   f o r   d i f f e r en t   a p p l i c a t io n s   d o m a in s   d u e   to   i t s   s i m p l i c i t y   to   ad a p t   in   a n y   o p t im i z a t io n   a lg o r i t h m   [ 3 8 ] - [ 4 3 ] .   I s u c c e s s f u l ly   s h o w e d   p r o m i s i n g   r e s u l t s   s u c h   a s   in   w ir el e s s   s e n s o r   [ 4 4 ] ,   r e s o u r c al l o c a t i o n   in   c lo u d   e n v ir o n m en t   [ 4 5 ] ,   c l a s s i f i c a t io n   [ 4 5 ] ,   f ea t u r e   s e l e c t i o n   [ 4 6 ] ,   a n d   o t h er   o p t i m i z a t io n   p r o b l em s   [ 4 7 ] ,   [ 4 8 ] F o l l o w i n g   th s a m p r o ce d u r e ,   G W O   h a s   b e en   em p lo y ed   f o r   d o cu m en t   c lu s t e r in g ,   wh er e i n   t h a lg o r i t h m   p e r f o r m s   t ex c l u s t er i n g   b a s ed   o n   c en t r o i d - b a s ed   c l u s t e r in g   [ 4 9 ] .   Ho w e v er ,   a l th o u g h   th e   a lg o r it h m   s h o w s   r e m ar k ab l e   r e s u l t s   f o r   te x t   c lu s t e r i n g ,   i t   h a s   a   l i m i t a t i o n   in   d e a l in g   w i th   d a t a s e t s   t h a t   c o n t a in   o u t l i e r   t ex d o cu m en t ,   s p e c i a l ly   i f   d o c u m e n t s   h av e   f e w   te r m s   w h en   c o m p a r ed   w i th   o t h e r   d o c u m en t s   co n t a in   s ev e r a t e r m s   th a t   r e p r e s e n t   d i f f e r e n t   k e y   i n f o r m a t i o n   ab o u t   th e   m ea n i n g   o f   th e   d o cu m en t s .   D a t a   t h a t   c o n t a in   o u t l ie r s   i n cr e a s e   d i s s i m i l a r i ty   a m o n g   ea ch   c l u s t e r   an d   m a y   r e s u l t   i n   an   a l g o r i th m   t h a t   p r o d u c e s   in a c cu r a t e   r e s u lt s .   T e x t   c lu s t e r in g   s u f f er s   i n   id e n t if y in g   lo c a l   o u t l i er s   b e c au s e   m a n y   t e r m s   do  n o t   ap p e ar   i n   a l l   d o c u m e n t s   a f t e r   th e   p r e - p r o c e s s i n g   s t e p .   T h u s ,   th e   a lg o r i t h m   th a t   p r o d u c ed   h i er a r c h i ca c l u s t e r in g   s h o u l d   a v o i d   o u t l ie r s .   A l t er n a t iv e ly ,   t h a l g o r i th m   m a y   u s p r e - p r o c e s s i n g   s t e p   t o   o v er c o m t h i s   p r o b l e m   s u ch   a s   u s in g   o th e r   m e th o d s   to   r e m o v t h e   o u t l i e r s .    F r o m   t h i s   p o in t ,   t h e   p r o p o s e d   a lg o r i t h m   u s e s   m ed o id - b a s e d   c l u s t e r in g ,   wh i c h   i s   a n   i n i t ia l   p h a s e   f o r   d a ta   c lu s t e r i n g ,   f o l l o w ed   b y   a g g l o m e r a ti v a p p r o a ch ,   w h ic h   r ep r e s en t s   t h e   d a t o f   e a ch   c lu s t e r   a s   a n   ag g lo m er a t i v e   h i e r a r ch ic a l   t r e e .   S e l e c t in g   m e d o i d - b a s ed   a p p r o a ch e s   i s   b e t t e r   th an   o p t i n g   f o r   ce n tr o id - b a s e d   o n e s   b e c au s e   o f   t h p r e s e n c e   o f   n o i s a n d   o u t l i e r s   in   th e   d a t a.   T h e   s e a r c h   s p a c o f   m e d o i d - b a s ed   ap p r o a ch e s   i s   le s s e r   co m p ar e d   w i t h   th a o f   t h s e a r c h   s p a c e   o f   t h e   ce n tr o id - b a s e d   o n e   wh e r e   i t   i s   l i m i t ed   t o   t h e   n u m b e r   o f   in s t a n c e s   in   t h e   d a t a s e t .   T h l i m i t a t i o n   in   [ 4 9 ]   l e ad s   to   t h u s o f   G W a l g o r i th m   t o   g r o u p   s e o f   d o c u m e n t s   i n to   d i f f e r e n n u m b e r   o f   c l u s t e r s   b a s ed   o n   m ed o id s - b a s e d   c l u s t er i n g ,   w h ic h   i s   b e tt e r   t h an   w h a t   wa s   u s e d   b y   [ 4 9 ]   in   d e a l i n g   w i t h   o u t l i er   d o c u m e n t s   an d   n o i s e   d a t a .   M ed o id   c a lc u l a t io n   p r o c e s s ,   w h i c h   i s   a   l im i t a t i o n   i n   [ 3 6 ] ,   [ 3 7 ]   wh e r e in   t h e   p r o p o s e d   a lg o r i t h m   w i l s w a p   th e   m ed o id s   b e t w e e n   th e   wo l v e s   t o   k e ep   th b e s m e d o i d s   d u r i n g   t h a l g o r i t h m   r u n   an d   f in d   m o r r e g io n s   w i th   b e t t er   d o c u m e n c l u s t er i n g   a s s i g n m en t s ,   h a s   b e e n   ad d ed   in   t h r e s e a r ch .   T h i s   p ap er   h a s   b e en   o r g a n ize d   i n t o   s ev e r a s e c t i o n s .   S e ct i o n   2   s h o w s   t h e   m e th o d o lo g y   o f   t h s t u d y .   s e c t io n   3   r ep r e s en t s   th e   p r o p o s e d   a l g o r i t h m .   S e c ti o n s   4   s h o w s   th e   s t ep s   o f   p r e - p r o c e s s i n g   a n d   s e c t i o n   5   d i s cu s s   t h e   an a l y s is   o f   t h e   e x p e r i en t i a l   r e s u l t s .   S e c t i o n   6   i s   t h e   c o n c l u s i o n   a n d   f u tu r e   wo r k ,   r e s p e c t iv e l y .       2.   RE S E ARCH   M E T H O D   T h p r o ce s s   o f   h ier ar ch ical  c lu s ter in g   tex b ased   o n   t h p r o p o s ed   alg o r ith m   tech n iq u b eg in s   b y   p er f o r m in g   tex clu s ter in g   b ased   o n   m ed o id - b ased   clu s ter in g   k n o w n   as  m ed o id   g r ey   wo lf   o p tim izatio n   alg o r ith m   ( M - GW O) .   Af ter   f in is h in g   th p r e - p r o ce s s in g   s tep   in   d o cu m e n r ep r esen tatio n ,   ea ch   d o cu m en is   r ep r esen ted   b y   s et  o f   f ea tu r es  th at  s h o ws  th weig h o f   th d o c u m en c o m p ar e d   with   o th er   d o c u m en ts .   W eig h is   u s ed   in   clu s ter in g   to   class if y   ea ch   d o cu m en t o   ap p r o p r iate  clu s ter   ac co r d i n g   to   th d is tan ce   b etwe en   th e   d o c u m en ts   an d   t h ce n ter   ( m e d o id )   o f   ea ch   cl u s ter .   T h is   clu s ter in g   ass ig n m en en s u r es  t h at  th e   o u tp u o f   ea ch   clu s ter   is   b ette r   th an   wh en   t h GW alg o r ith m   u s es  ce n tr o id - b ased   clu s ter in g .   T h o u tp u o f   M - GW i s   s p h er ical  clu s ter in g   ass ig n m en t th at  c an   b u s ed   to   id en tify   th d o cu m en t g r o u p s .   Ho wev er ,   it is   n o u s ef u as  t h h ier a r ch ica tr ee ,   wh ich   s h o ws  ea ch   d o cu m en in   clu s ter   with   ea c h   clo s d o c u m en t,   th er eb y   n ee d in g   an   ad ap tatio n al  s tag th at  co n v er ts   ea ch   s i n g le  clu s ter   to   a   s in g le  tr ee .   T h n ex t   s tag is   to   ap p ly   ag g l o m er ativ clu s ter in g   f o r   ea ch   o f   th s in g le  clu s ter   p r o d u ce d   b y   th M - GW alg o r ith m ,   as sh o wn   in   Fig u r 1 .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   3 Dec em b er   2 0 2 1 1 7 4 4   -   1 7 5 8   1748       Fig u r 1 .   R esear ch   m eth o d   o f   M - GW alg o r ith m       3.   P RO P O SE M - G WO   A L G O RIT H M   F O T E X T   C L U ST E RING   T h m ajo r   d if f er e n ce s   b etwe en   th o r ig i n al  GW alg o r ith m   an d   th M - GW alg o r ith m   is   th at  th e   f o r m er   p r o d u ce s   th clu s ter in g   r esu lts   b ased   o n   ce n tr o id s ,   w h ich   r e q u ir e   wid s ea r c h   s p ac e,   wh er ea s   t h latter   is   b ased   o n   m ed o id s   th at  r eq u i r es  s ea r ch   s p ac th at  is   eq u als  to   th n u m b e r   o f   o b jects  ( d o c u m en ts ) .   Ho wev er ,   f ew  m o d if icatio n s   ar r e q u ir e d   to   p er f o r m   th e   GW alg o r i th m   in   a   m ed o i d   alg o r ith m .   T h ese  m o d if icatio n s   will  b d escr ib ed   an d   s u p p o r t ed   b y   ex a m p les  an d   ex p lan ati o n s .   T h e   M - GW s tep s   ar d escr ib ed   in   d etail  in   M - GW alg o r ith m .   Her e,   th wo lf   is   d esig n ated   as  s ea r ch   ag en t.  T h p r o p o s ed   M - GW alg o r ith m   h as  o n e   m o d if icatio n   p lace d   in   th u p d ate  p o s itio n   p r o ce d u r e,   wh er m ed o id s   o f   o m e g wo lf   ar u p d ated   ac co r d in g   to   th th r ee   b est  wo lv es,  in clu d in g   alp h a   ( α ) ,   b eta  ( β),   d elta  ( δ) .   T h alg o r ith m   b eg i n s   its   tex clu s ter in g   b y   s ettin g   u p   all  th r eq u ir ed   p a r am eter s ,   s u ch   as  th n u m b er   o f   wo lv es  ,   th n u m b e r   o f   it er atio n s ,   an d   th e   n u m b er   o f   clu s ter s   k ,   wh ich   a r s et  b y   th e   u s er ,   as  s h o w n   i n   Step   1 .   Step   2   in v o lv es  th e   in itializatio n   o f   th e   p o p u latio n   wh er e   ea ch   a g en t   ass ig n ed   d o cu m e n clu s ter in g   s o lu tio n   b ased   o n   t h m ed o id s   o f   th s am e   ag en t,  wh ich   ar r an d o m ly   g en er ated .   T h is   s tep   is   ex p lain ed   in   Sectio n   4 . 1 ,   wh i ch   in clu d es  ag en t   r ep r esen tatio n   an d   p o p u la tio n   in itializatio n .   I n   Step   3 ,   ea c h   ag en ca lcu lates  its   f itn ess   f u n ctio n   to   f in d   th t h r e e   b e s t   w o l v e s ,   w h i c h   i n c l u d e s   ,   a n d     i n   a s ce n d i n g   o r d e r ,   a s   d e s c r i b e d   i n   S ec t i o n   4 . 2 .   I n   S t e p s   4   a n d   5 ,   th alg o r ith m   b e g in s   its   iter at io n   f o llo wed   b y   Step   6   an d   7 ,   wh er ein   th p o s itio n   o f   ea c h   ag e n is   u p d ated   ac co r d in g   th th r ee   b est  wo lv es,  n am ely ,   ,   an d   .   T h o p er atio n   aim s   to   m o v th p o s itio n   o f   th ag e n in to   b etter   p o s itio n   n ea r   th e   th r ee   b est  wo lv es.  Step   7   is   d escr ib ed   in   d etail  in   Sectio n   4 . 3 ,   wh ich   co n tain s   th co n tr ib u ti o n   o f   th is   r esear ch .   I n   Step s   9 ,   1 0 ,   an d   1 1 ,   th a lg o r ith m   co m p u tes  th f itn ess   o f   all  wo lv es  af ter   u p d atin g   th p o s itio n   an d   id e n tify in g   th th r ee   b est  wo lv es      ,   an d     b ased   o n   th f itn ess   o f   ea ch   ag en t,  as  s h o wn   in   Step   1 0 .   T h is   s tep   i s   f o llo wed   b y   in cr ea s in g   th lo o p   to   s tar im p r o v in g   th f itn ess   f u n ctio n   o f   ea ch   ag en t   ag ain .   T h f in al  s o lu tio n   in   Step   1 3   ap p lies   ag g lo m er ativ e   clu s ter in g   to   p r o d u ce   th e   h ier ar ch ical  clu s ter in g   t r ee   o f   ea ch   s in g le  clu s ter .     M - GW a lg o r ith m   1:   Se tu th pa ra me te rs nu mb er   of   wo lv es N,  and  maximum  number  of  iterations   _    and number of clusters  k   2:   Generate  initial  wolf   po pu la ti on N wh er e   ea ch   wo lf , = { 1 , 2 , 3 , , }   an ea ch     has  own clustering assignment and own medoids randomly generated.   3:   Calculate  fitness,  f ( X i ) fo ea ch   wo l f,  X i   an id en ti fy   th re be st   wo lv es   in   th e   population   ba se on   fi tn es of   ea ch   on an so rt   th em   in   as ce nd in or de r   as   X α X β ,   and X δ   4:   Set   = 0   5:      while  (    <      _    )   do   6:            for  each    = 1  to   do   7:               Update position of agents   8:            end - for   9:        Compute fitness of all wolves   10:        Update value of      , and    based on fitness    11:         =  + 1   12:     end - while   13   Print     to ur   so lu ti on   wi t it fi tn es an ap pl th ag gl om er at iv cl us te r in on     tour solution   end - algorithm     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       Grey  w o lf  o p timiz a tio n   a lg o r ith fo r   h iera r ch ica l d o cu me n clu s teri n g   ( A ya d   Mo h a mme d   Ja b b a r )   1749   3 . 1 .     Ag ent   re presenta t io n a nd   po pu la t io n initia liza t io n   T h M - GW alg o r ith m   b eg i n s   with   th in itial  clu s ter in g   s o lu tio n ,   wh er ea c h   d o cu m en t r ep r esen ted   b y   u n i q u m ed o id   n u m b er .   As  s h o wn   in   Fig u r 2 ,   clu s te r in g   s o lu tio n   c o n s is ts   o f   n in d o cu m e n ts   wh er e   ea ch   d o cu m e n is   ass ig n ed   to   clo s et  m ed o id ,   s u ch   as  f ir s o n to   m ed o id   1 ,   s ec o n d   d o c u m en to   m ed o id   3 ,   an d   s o   o n .   T h m e d o id s   o f   ea ch   clu s ter in g   s o lu tio n   ca n   b r e p r esen ted   as  th r ee   m ed o id s   f o r   th is   s in g le   s o lu tio n ,   as  s h o w n   as  e x am p l in   Fig u r 2 .   I n   Fig u r 3 ,   a n   ex am p le   o f   ag e n h as  th r ee   m ed o id s ,   th e   th r ee   m ed o id s   ( th r ee   d o cu m en ts )   a r p r esen ted   to   p er f o r m   clu s ter in g   s o lu tio n   as  s h o wn   in   Fig u r 2 .   T h f ir s t,   s ec o n d ,   an d   th ir d   m e d o id s   h a v two   attr ib u tes  ea ch   ( 0 . 9 9 ,   0 . 8 7 ) ,   ( 0 . 3 4 ,   0 . 5 4 ) ,   an d   ( 0 . 6 8 ,   0 . 9 8 ) ,   r esp ec tiv ely .   Me d o id s   ar u n iq u e,   w h ich   m ea n s   n o   m ed o i d s   h av e   d u p licat ed   attr ib u tes.           Fig u r 2 .   So lu tio n   r ep r esen tatio n           Fig u r 3.   Me d o id   r e p r esen tatio n       E ac h   ag en in   th in itial  s o lu tio n   p h ase  is   r ep r esen ted   b y   s in g le  s o lu tio n   ( Fig u r 2 ) ,   an d   th m ed o id s   ar s et  o n   th e   b asis   o f   th e   m a x im u m   o f   n u m b er   o f   clu s ter s   k n o wn   as   s et,   as  s h o wn   in   Fig u r e   3 .   I n   th e   in itial  p h ase,   th m ed o id s   ar s elec ted   r an d o m l y .   Su b s eq u e n tly ,   d u r in g   th alg o r ith m   r u n ,   th m ed o id s   ar e   s to ch asti ca lly   im p r o v ed   to   f in d   th b est s et  o f   m e d o id s   th at  p r o d u ce   m in im u m   er r o r   am o n g   th clu s ter s .     3 . 2 .     F i t nes s   f un ct io n c o m pu t a t io n   T h f itn ess   f u n ctio n ,   as  s h o wn   in   ( 1 ) ,   is   th co s in s im ilar ity   m ea s u r em en b etwe en   th m ed o id s   an d   th d o cu m en ts   ,       wh er ,     is   th f ir s m ed o id   an d       is   d o cu m en t.  No tab ly ,   th is   f itn ess   f u n ctio n   is   u s e d   as  th m ain   o b jectiv f u n ctio n   in   t h e   clu s ter in g   ass ig n m en t   th at  id en tifie s   th e   d is tan ce   b e twee n   th m e d o id s   an d   th e   d o c u m en ts   an d   later   u s ed   as  f itn ess   f u n ctio n   to   ca lcu late  th to tal  d is tan ce   b e twee n   ea ch   clu s ter   m ed o id   a n d   th r em ain in g   d o c u m en ts   in   th s am clu s ter .      (   ,     ) =         2     = 1         2     = 1   ( 1 )     An   ag en h as  th r ee   m e d o id s ,   a s   s h o wn   in   Fig u r 3 ,   an d   d o cu m en is   r eq u ir e d   to   b ass ig n ed   to   o n o f   th m ed o i d s ,   s u ch   as  m ed o id   1 ,   m ed o i d   2   o r   m e d o id   3 .   I f   th d o cu m e n   h as  two   attr ib u tes  ( ter m s ) ,   s u ch   as ( 0 . 4 3 ,   0 . 9 8 ) ,   th e n   th ass ig n m en t w ill b e   p er f o r m ed   as f o ll o ws:      (   1 ,   d   )   0 . 9 0 6    (   2 ,   d   )   0 . 9 8 9    (   3 ,   d   )   0 . 9 8 1     T h co s in s im ilar ity   m ea s u r e m en in d icate s   th at  th e   s im ilar ity   b etwe en   m e d o id   2   an d   th e   d o cu m e n is   h ig h e r   th an   th o s o f   th o t h er   m e d o id s ,   th u s   th d o c u m en will  b ass ig n ed   to   th clo s m e d o id   3 .   No tab l y ,   th e   d etails o f   ca lcu latio n   ar d escr ib ed   in   th p r e - p r o ce s s in g   s ec tio n .     3. 3   P o s it io n u pd a t ing   Me d o id   g r ey   wo lf   o p tim izati o n   ( M - GW O)   f o llo wed   th e   s am p r o ce d u r o f   GW in   it s   h ier ar ch y   lead er s h ip s ,   wh er e   f o u r   m ain   wo lv es  in cl u d ,   an d   th r em ain in g   m em b er s   ar o m eg ( ) ,   a r av ailab le.   T h   wo lv es  u p d ate  th eir   p o s itio n   o n   th s ea r c h   s p ac a cc o r d in g   t h b est  p o s itio n s   r ep r esen ted   b y   ,   an d   .   I n   M - GW O,   th c o n tr ib u tio n   o f   th is   r esear ch   is   th at   th p o s itio n   o f     wo lv es  ( m ed o id s )   ar o n ly   u p d ated   ac co r d i n g   to   th t h r ee   m ain   wo lv es,  w h ich   ar e   ,   an d   .    T h p r o ce s s   o f   u p d ate   p o s i tio n   b eg i n s   b y   s elec tin g   o n m ed o id   f r o m   th   wo lf   in   r a n d o m ly   m a n n er .   T h tar g et   o f   th is   s elec tio n   is   to   p e r f o r m   s wap   o p er atio n   b e twee n     wo lf   an d   ,   an d   ,   as  s h o wn   in   Fig u r 4 .   As  s h o wn   in   Fig u r 4 ,   t h s wap   o p er atio n   will  b p er f o r m ed   b etwe en     a n d   th e   th r ee   m ain   wo lv es.   Nu m b er     is   r an d o m ly   g en er ated   wh er < Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   3 Dec em b er   2 0 2 1 1 7 4 4   -   1 7 5 8   1750   Su b s eq u en tly ,   b ased   o n     v alu e ,   th alg o r ith m   s elec ts   o n e   o f     m ed o id s   as  an   ac tiv m ed o i d   to   b s wap p ed   with   o n o f   ,   an d     m ed o id s .   Ho wev er ,   th s wap   o p er atio n   h er is   co n d itio n al  if   an d   o n l y   if   th f itn ess   o f   n ew  s et  o f   m ed o id s   is   b etter   th an   th o ld er   o n e.   T h o t h er   co n d itio n   is   th at  th s wap   o p e r a tio n   alwa y s   lo o k s   f o r   t h f ir s im p r o v em en t,   wh ich   m ea n s   s wap p in g   is   s to p p ed   af ter   th e   f ir s im p r o v e m en is   ac h iev ed .   Su c h   co n d itio n   allo ws  th alg o r ith m   to   co n v er g to   th o p tim al  s o lu tio n   s lo wly   an d   av o id   s tac k   at  th lo ca o p tim a   b ec au s if   we  ac ce p ted   h ig h - q u ality   s o lu tio n s   in   th b eg i n n in g   o f   th r u n ,   th alg o r ith m   will  ig n o r th e   ex p lo r atio n   o f   th wid r eg io n s   o f   th s ea r ch   s p ac e.   T h s wap   o p er atio n   th at  r ep r esen ted   in   Fig u r 4   is   th m ain   o p e r atio n   u s ed   in   PAM  k n o wn   as  th m e d o id   ca lc u latio n   p r o ce s s ,   wh ich   allo ws  th e   d is co v er y   o f   o th er   o p tim al  clu s ter in g   ass ig n m en ts   in   th s ea r ch   s p ac e.   An   ad v an ta g o f   th e   o p er ati o n   in clu d es  r e d u ce d   ca lcu latio n s   p r o ce s s   wh en   o n ly   th   wo lf   an d   th th r ee   b es wo lv es  ar ca lcu lated .   T h is   o p er atio n   is   also   b etter   th an   PAM  alg o r ith m ,   wh ich   r eq u i r es  m o r ca lc u latio n   b etwe en   t h m ed o id   th at  n ee d   to   b ch a n g e d   with   all  o th er   ca n d id ate  m ed o id s   in   th s ea r ch   s p ac e.   No t th at  in   Fig u r 4   co r r esp o n d s   to   th cu r r en t   m ed o id ,   a n d   T   r ef er s   to   th e   ter m .           Fig u r 4 Me d o id s   p o s itio n   u p d ate  r ep r esen tatio n       As  s h o wn   in   Fig u r 5 ,   th s wap   o p er ati o n   is   p e r f o r m ed   b etwe en   th   wo lf   a n d   th th r ee   m ain   wo lv es.  T h f ir s co n d itio n   is   to   en s u r th at  t h s wap   o p er at io n   is   ac tiv e.   Activ m ea n s   th at  th m ed o i d   th at   n ee d s   to   b e   c h an g e d   is   n o d u p licated   with   o n o f   th   m ed o id s .   T h is   co n d itio n   is   r eq u ir ed   b ec au s e   d u p licated   m ed o id s   p r o d u ce   wr o n g   ass ig n m en ts   b y   g e n er a tin g   s m aller   n u m b er   o f   clu s ter s   th an   wh at   was  d ec id ed   b y   t h u s er .   Ho wev e r ,   th s wap   o p er atio n   wo r k s   in   s eq u en ce ,   th at  is ,   all  m ed o id s   o f   th r ee   m ai n   wo lv es  will  b ex am in e d .   On ce   im p r o v em en is   o b s er v ed ,   t h o p e r atio n   s to p s   f in d in g   th e   f ir s im p r o v em en t,   o th er wis e,   th o p er atio n   co n tin u es  in   th e   cu r r en m ed o id s .   T h f u ll  s tep s   s h o w   in   p r o ce d u r m ed o id s   p o s itio n   up d ate .           Fig u r 5 .   Me d o id s   p o s itio n   s w ap   o p er atio n     Pro ce d u r m ed o id s   p o s itio n   u p d ate   1:   Initialize a new memory called             %  The Memory keeps only alpha, beta and  delta medoids, Initialize     ,      where     short memory keeps one medoid from  omega medoids,      is amemory keeps not selected medoids from omega medoids,     is  temporary medoid mem ory keeps one medoids selected from      2:   Memory   alpha, beta and delta medoids        % Copy the medoids into the memory   3:   Generate    random number (1 - k )                   % generate random number, minimum  equals 1 and maximum equals  k   4:   Swapping operation starts   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       Grey  w o lf  o p timiz a tio n   a lg o r ith fo r   h iera r ch ica l d o cu me n clu s teri n g   ( A ya d   Mo h a mme d   Ja b b a r )   1751   5:   Select one of omega medoids based on    value and calculate the fitness function    of  the current assignment    6:      omega ( ) % Copy   the selected medoid into the omega memory medoid   7:       omega (Medoid! = ) % Copy the not selected medoid into the not selected  medoid memory    8:   Status= false   9:   Count=0   10:     While   (Count < Memory length)  do   11:               Select single medoid from Memory based on count value     % Copy the  single   medoid into the temporary medoid memory    12:              if   (     !=   )   then      % to ensure no duplicated medoids occurs   13:                   Status= true   14:             e lse    15:                  Status= false                   Count=Count +1   16:            end - if   17:            if   (Status= true)  then   18:               Perform swap operation and calculate the new fitness function    of the new  soaution   19:           end - if   20:           if   ( < )   then   21:               Accept the swap operation and break the while loop   22:         else    23:              Count=Count +1   24:         end - if   25:   end - while   end - procedure      T h p r o d u ce r   b eg in s   b y   in itializin g   all  s h o r m e m o r ies,  i n clu d in g       ,   an d       u s ed   to   co p y   an d   k ee p   all  alp h a,   b eta,   an d   d elta  m ed o id s ,   wh ich   ar u s ed   later   in   th s wap   o p er atio n   b etwe en   th e   m ed o i d s   in   t h m em o r y   an d   o m e g m e d o id s .   I n   Step   2 ,   m e d o id s   f r o m   alp h a ,   b eta,   a n d   d elta  ar e   co p ied   in to   th m em o r y   f o llo wed   b y   Step   3 ,   wh ich   g en e r ates  r an d o m   n u m b er   b etwe en   1   an d   t h m ax im i n   v alu k.   Step   4   in d icate s   th s tar o f   s wap p in g   o p er atio n   b etwe en   th o m eg m ed o id s   a n d   th   wh ich   k ee p s   th alp h a,   b eta,   an d   d elta  m ed o id s .   I n   Step s   5   an d   6 ,   th o m eg a   m ed o id   th at  is   r eq u ir e d   to   b e   ch an g ed   b ased   o n   th e   r an d o m   n u m b e r   p r o d u ce d   in   p r e v io u s   s tep   is   s elec ted   an d   k e p in      m em o r y ,   wh ich   is   s h o r m em o r y   u s ed   to   k ee p   o n m ed o id .   Step   7   co p i es  an d   k ee p s   all  r em ain in g   m ed o id s   th at  ar n o t   s elec ted   in   a   s h o r t   m em o r y   ca lled    .   T h ta r g et  o f   th is   m em o r y   is   to   en s u r e   n o   m ed o id s   ar e   d u p licated   in   th s elec ted   m ed o id s   f r o m   th   .   I n   Step s   8   an d   9 ,   th S tatu s   an d   co u n v ar ia b les  ar in itialized   in to   f alse  v al u a n d   0 ,   r esp e ctiv ely .   T h e   Statu s   v ar iab le   i s   u s ed   to   ch ec k   wh eth er   d u p l icate d   m ed o i d s   ar av ailab le  o r   n o t.  Me a n wh ile,   t h co u n v a r iab le  is   u s ed   in   th lo o p   to   c h ec k   all  m ed o id s   in   th   .   I n   Step   1 0 ,   th p r o ce d u r s tar ts   its   m ain   lo o p   b y   co p y in g   o n m ed o id   f r o m   t h     in to   th s h o r m em o r y     as  s h o wn   in   s tep   1 1 .   C h ec k   if   th er is   n o   d u p licated   m e d o id s   b etwe en   th o m eg m e d o id s      an d   th m ed o id   s av ed   in   .   T h r e s u lt  is   tr u if   n o   d u p licatio n   o c cu r s ,   o th er wis e,   th r esu lt  is   f alse,  as  s h o wn   in   Step s   1 2 1 5 .   I f   th c o n d iti o n   is   tr u e ,   th en   th e   s wap   o p e r atio n   is   p er f o r m e d   an d   ac ce p t ed   o n l y   if   th n ew  f itn ess     is   b etter   th an   th o ld   f itn ess   ,   as  s h o wn   in   Step s   1 7 2 4 .   T h o u tp u o f   th is   p r o ce d u r is   s et  o f   m ed o id s   u s ed   in   t h n e x t iter atio n   to   co n s tr u ct  n ew  ass ig n m en t.       4.   P RE - P RO CE S SI NG   T E X T   F O CL US T E R I NG   T h tex clu s ter in g   b eg i n s   with   d ata  in s p ec tio n   p h ase,   wh ich   is   co n s id er ed   p r e - p r o ce s s in g   s tep   wh er ein   th d ata  s h o u ld   b p r ep ar ed .   Data   in s p ec tio n   co n s id er s   th p r ep ar atio n   o f   d ata,   wh ich   in clu d es  d ata   co llectio n ,   d ata  clea n in g ,   an d   d ata  r ep r esen tatio n .   Data   co lle ctio n   r ef er s   t o   th task   o f   c o llectin g   th d ata  th at   w i l b e   u s e d   a n d   e v a l u a te d   i n   th i s   r es e a r c h .   T h b e n c h m a r k   d a t a s et s   t h a t   w i ll   b e   u s e d   a r e   t h o s e   f r o m   UC I   [ 5 0 ] .   B ef o r p er f o r m in g   tex clu s te r in g ,   p r e - p r o ce s s in g   s tep   is   r eq u ir ed   to   c o n v e r th u n s tr u ctu r ed   tex in to   a   s tr u ctu r ed   f o r m at  th at  is   r ea d ab le  in   clu s ter in g   alg o r ith m s .   T h p r e - p r o ce s s in g   in cl u d es  to k en izatio n ,   s tem m in g   o f   d o c u m en w o r d s ,   an d   s to p   wo r d   r em o v al  [ 5 1 ] [ 5 2 ] .   T o k en izatio n   co r r es p o n d s   to   g en er al   p r o ce s s   th at  is   u s ed   to   b r ea k   tex co r p u s   in to   i n d iv id u al  elem en ts .   Stem m in g   is   d ef in e d   as  th p r o ce s s   o f   co n v er tin g   o r   tr a n s f o r m in g   wo r d   in to   b ase  wo r d ,   th at  is ,   wo r d   is   co n v er ted   in to   its   o r ig in al  r o o f o r m .   T h n ex s tep   is   to   r em o v s to p p in g   w o r d s   th at  ar co m m o n   an d   u n i n f o r m ativ in   tex c o r p u s ,   s u ch   as  s o ,   an d ,   o r ,   an d   th e.   T h ese  s to p p in g   wo r d s ,   wh ich   ar n o im p o r tan in   in f o r m atio n   r etr iev al,   ar av ailab le  in   ev er y   d o cu m en b ec a u s th ey   d o   n o ca r r y   an y   in f o r m atio n   r elate d   to   th eir   d o c u m en ts .   I n   tex clu s ter in g ,   d o cu m e n ts   ar n o s u itab l in   th eir   o r ig in al  f o r m at  u n less   r e p r esen ted   in   s u itab le  f o r m .   VSM  is   an   ef f ec tiv e   r ep r esen tatio n   m o d el  th at   tr ea ts   d o cu m en ts   as  b a g - of - wo r d s   an d   u s es  wo r d s   as  m ea s u r to   d is co v er   t h s im ilar ity   am o n g   d o c u m en ts   [ 5 3 ] .   L et  = { 1 , 2 , 3 }   d en o te  co llectio n   o f   d o cu m en ts ,   an d     is   th e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   3 Dec em b er   2 0 2 1 1 7 4 4   -   1 7 5 8   1752   n u m b er   o f   d o cu m e n ts   in   th at  co llectio n .   E ac h   d o cu m e n   r ep r esen ts   v ec to r   o f   ter m s ,   w h ich   is   d en o ted   as  = { 1 , 2 , 3 } ,   wh er ter m     r ep r esen ts   w o r d ,   an d     is   th n u m b er   o f   ter m s .   T h d o cu m en   h as  a   r elatio n   with   ter m   ,   wh ich   is   d en o ted   as  ter m   f r eq u e n cy   ( T F);  T ca n   b e   r ep r esen ted   b y   f ix ed   v alu e   th at   r ef lects  th d eg r ee   o f   ter m   f r e q u en cy   in   th at   d o c u m en t     [ 5 4 ] .   Ho wev er ,   b ased   o n   th d ef i n itio n   o f   VSM,   i t   r ep r esen ts   all  th co llectio n   o f   d o cu m e n f o r m s   as  m atr ix   wh er th r o ws  ar d o c u m en ts   an d   co lu m n s   ar e   wo r d s ,   an d   ea ch   ce ll  co n tain s   th T v alu e   o f   th w o r d   with in   th d o cu m e n t.  Fig u r e   6   s h o ws  th e   ter m   f r eq u e n cy   m atr ix .           Fig u r 6 .   T e r m   f r e q u en c y   m at r ix       T o   clar if y   th i d ea ,   let  u s   s u p p o s th at  th r ee   d o cu m e n t s   co n tain   f o u r   ter m s ,   in clu d in g   class ,   u n iv er s ity ,   b o o k ,   an d   lectu r e,   as  d escr ib ed   an d   s h o wn   in   T a b le  1 .    E ac h   d o c u m en is   r elate d   to   its   ter m   co u n t,   wh ich   is   th s im p lest   ch o i ce   o f   T F.  H o wev er ,   o th er   p o s s ib le  T v ar ian ts   in   th e   s ch em e,   s u ch   as   lo g ar ith m ically   s ca led   f r e q u en cy ,   wh ich   is   u s ed   in   t h is   r esear ch ,   ca n   b u s ed ,   as  s h o wn   in   ( 2 )   an d   ap p lied   in   T ab le  2 .      ( , ) = 1 + l og (  , )   ( 2 )       T ab le  1 .   T er m   f r e q u en cies ( co u n ts )   Te r ms   D o c 1   D o c   2   D o c   3   c l a ss   1 1 5   58   0   u n i v e r si t y   10   7   0   b o o k   2   0   6   l e c t u r e   0   0   38     T ab le  2 .   L o g   f r eq u e n cy   weig h tin g   Te r ms   D o c   1   D o c 2   D o c   3   C l a s s   3 . 0 6   2 . 7 6   0   U n i v e r si t y   2 . 0 0   1 . 8 5   0   B o o k   1 . 3 0   0   1 . 7 8   Le c t u r e   0   0   2 . 5 8         T h n ex s tep   in v o lv es  in v er s d o cu m e n f r e q u en c y   ( I DF) ,   wh ich   r ef er s   to   t h weig h o f   ea ch   ter m   with   r eg ar d   to   th to tal   n u m b e r   o f   d o c u m en ts   ( )   an d   th n u m b er   o f   d o c u m en ts   th at   co n tain   t h at  ter m   i n   th co llectio n   (  )   as a   s co r e.   I DF c an   b ca lcu lat ed   u s in g   ( 3 )   an d   a p p lied   in   T ab le  3 .      = l og (  )   ( 3 )       T ab le  3 .   L o g   I DF w eig h tin g   Te r ms   I D F   C l a s s   lo g ( 3 2 ) = 0 . 176   U n i v e r si t y   lo g ( 3 2 ) = 0 . 176   B o o k   lo g ( 3 2 ) = 0 . 176   Le c t u r e   lo g ( 3 1 ) = 0 . 477       T h n ex t step   is   to   o b tain   th weig h t o f   ter m s ,   wh ic h   is   ca lcu lated   u s in g   ( 4 )   an d   ap p lied   in   T ab le  4 .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       Grey  w o lf  o p timiz a tio n   a lg o r ith fo r   h iera r ch ica l d o cu me n clu s teri n g   ( A ya d   Mo h a mme d   Ja b b a r )   1753   , =    ,    ( 4 )     T h n ex s tep   is   to   p er f o r m   n o r m aliza tio n   f o r   th len g th   o f   ea ch   ter m   b etwe en   ( 0 , 1 ) .   I n   ( 5 )   s h o ws  th e   n o r m aliza tio n   f o r   th e   len g th   a n d   ap p lie d   in   T ab le  5 .     , , 2 1   ( 5 )     Fin ally ,   we  ca lcu late   th s im ilar ity   am o n g   d o cu m e n ts   u s i n g   a   co s in e   s im ilar ity   s co r e,   as  s h o wn     in   ( 1 )   p r e v io u s ly    wh e r ,       ar th d o cu m en v ec t o r s ,   th er e b y   p r o d u cin g   c o s in s im ilar ity   ta b le  am o n g   all  d o cu m e n ts ,   as  s h o wn   in   T a b le   6 ,   an d   an   ex am p le  o f   th e   ca lc u latio n   o f   c o s in s im ilar ly   b et wee n   d o c u m en ts   1   an d   2   is   p r o v id e d ,   as sh o wn   b ef o r T ab le  6 .      (  1 ,  2 ) = 0 . 94 2 0 4 1 5 5 99999 998 0 . 9998 8 8 90 4 4 3 2 2 6 0 3 =   0 . 942146228 2701233         T ab le  4 .   W eig h t o f   th ter m   Te r ms   D o c   1   D o c 2   D o c   3   C l a s s   0 . 5 3 8 5   0 . 4 8 5 7   0   U n i v e r si t y   0 . 3 5 2   0 . 3 2 5 6   0   B o o k   0 . 2 2 8 8   0   0 . 3 1 3 2   Le c t u r e   0   0   1 . 2 3 0 6     T ab le  5 .   L e n g th   n o r m aliza tio n   Te r ms   D o c 1   D o c   2   D o c 3   C l a s s   0 . 7 8 8 6   0 . 8 3 0 6   0   U n i v e r si t y   0 . 5 1 5 5   0 . 5 5 6 8   0   B o o k   0 . 3 3 5 0   0   0 . 2 4 6 6   Le c t u r e   0   0   0 . 9 6 9 1     T ab le.   6   C o s in s im ilar ity   tab l f o r   Do c1 ,   Do c2 ,   an d   D o c3     D o c 1   D o c 2   D o c 3   D o c 1   1   0 . 9 4   0 . 0 8   D o c 2   0 . 9 4   1   0   D o c 3   0 . 0 8   0   1         5.   RE SU L T S AN D I SCU SS I O N   E v alu atio n   p e r f o r m an ce   is   a n   im p o r ta n s tep   in   d ata  clu s ter in g   to   in d icate   th e   ac cu r ac y   o f   th e   p r o v id e d   s o lu tio n s .   T h r e b est  k n o wn   b e n ch m ar k s   u s ed   in   class if icatio n   an d   clu s ter in g   f ield   ar u s ed   in   th e   ev alu atio n   p r o ce s s .   T h f ir s b en ch m ar k ,   d en o te d   as  2 0 Ne wsGro u p ,   was  also   o b tain ed   f r o m   th UC I .   T h e   2 0 New s g r o u p   u s ed   in   th is   r esear ch   co n tain s   2 0 0 0   d o c u m en ts   d is tr ib u ted   in to   2 0   class es  wh er 1 0 0   d o cu m e n ts   in   ea ch   class .   T h is   r esear ch   h as  s elec ted   th r ee   cl ass es:  h ar d war e,   b aseb all,   an d   elec tr o n ic  with   a   to tal  n u m b er   o f   3 0 0   d o cu m e n ts .   T h n u m b er   o f   ter m s   co llected   af ter   p r e - p r o ce s s in g   s tep   is   2 2 ,   wh ich   in clu d es th m o s t im p o r tin g   ter m s   am o n g   th s elec ted   th r ee   class es.  T h s ec o n d   b en ch m ar k ,   wh ich   is   d en o te d   as  R eu ter s - 2 1 5 7 8 ,   was  o b tain ed   f r o m   UC I .   T h is   b en ch m a r k   in clu d e s   f iv ca teg o r ies,  in clu d in g   ex c h an g es,   p eo p le,   to p ics,  o r g an izatio n s ,   an d   p lace s .   E ac h   o f   th ca teg o r ies  is   d iv id ed   in to   s u b ca teg o r ies.  Fo u r   s u b ca teg o r ies  u s ed   in   th e   ev al u atio n   in cl u d t h r ee   class es  with   to tal  n u m b er   o f   1 9 0 7   d o cu m en ts ,   in   wh ich   1 6 5 0   d o cu m e n ts   b elo n g   to   ac q   class ,   3 7   d o cu m en ts   b elo n g   to   g as  clas s ,   9 4   d o cu m en ts   b elo n g   to   g o ld   class ,   an d   1 2 6   d o cu m e n ts   b elo n g   to   s u g ar .   T h ese  s u b ca teg o r ies  ar s elec ted   b ec au s th n u m b er   o f   d o cu m e n ts   in   ea ch   class   d if f er s   f r o m   th o th er   g r o u p .   T h u s ,   t h p r o b le m   o f   f i n d in g   th b est  co n f ig u r atio n   is   d if f ic u lt,  esp ec ially   if   th b en ch m a r k   c o n tain s   d if f e r en d e n s ities .   T h n u m b er   o f   ter m s   c o llected   a f ter   p r e - p r o ce s s in g   s tep   is   1 0 ,   wh ich   in clu d es th m o s t im p o r tan t te r m s   am o n g   t h d o cu m e n ts   o f   all  clas s es.  T h th i r d   b en ch m ar k   in clu d es  web   p ag es  p lu s   th r atin g s   o f   s in g le   S y s k ill  an d   W eb er web   p ag r atin g s ,   w h ich   ar d e n o ted   as   Sy s k illW eb er b en ch m ar k   also   o b tain ed   UC I   with   f o u r   d if f er en k in d s   o f   d o cu m e n ts ,   in clu d in g   B an d s ,   B io   Me d ial,   Go ats,  an d   Sh ee p .   T h last   b en c h m ar k   u s ed   in   t h is   r esear ch   is   s en ten ce   class if icatio n   b en c h m ar k ,   wh ich   is   k n o wn   as  th Sen te n ce C o r p u s .   I t   r ep r esen ts   t h ab s tr ac o f   ar ticles  c o llected   in   d if f er en p u b lis h er s .   I n   th is   s tu d y ,   th e   two   p u b lis h er s   u s ed   ar e   th J am   an d   Plo s ,   wh er t h m a x im u m   n u m b e r   o f   d o c u m en ts   ar e   6 0 0 .   T h n u m b er   o f   ter m s   co llected   af ter   th p r e - p r o ce s s in g   s tep   is   8 0   ter m s   wi th   tw o   class es.  T ab le  7   d escr ib es a ll b en ch m ar k s   u s ed   in   th is   r esear ch ,   wh ich   in clu d es 1 3   d if f er en t k in d s   o f   class .       T ab le  7 .   C h ar ac ter is tics   o f   b en ch m ar k s   B e n c h mar k   R e s o u r c e s   N u mb e r   o f   d o c u m e n t s   To t a l   n u m b e r   o f   d o c u me n t s   N u mb e r   o f   t e r ms   N u mb e r   o f   c l a sse s   2 0   n e w sg r o u p s   B a se b a l l   1 0 0   3 0 0   22   3   El e c t r o n i c s   1 0 0   H a r d w a r e   1 0 0   R e u t e r s - 2 1 5 7 8   A c q   1 6 5 0   1 9 0 7   10   4   G a s   37   G o l d   94   S u g a r   1 2 6   S y sk i l l W e b e r t   B a n d s   61   2 9 0   5   4   B i o   M e d i a l   1 2 4   G o a t s   57   S h e e p   48   S e n t e n c e C o r p u s   Jd m   3 0 0   6 0 0   80   2   P l o s   3 0 0   Evaluation Warning : The document was created with Spire.PDF for Python.