I n d on e s ian   Jou r n al   o f   E lec t r ica l   E n gin e e r in a n d   Com p u t e r   S c ience   Vo l .   24 ,   N o .   2 N o v e m b e r   2021 ,   pp.   1054 ~ 1062   I S S N:  2502 - 4752,   DO I 10 . 11591/i j e e c s . v 24 .i 2 . p p1054 - 1062             1054       Jou r n al  h o m e page ht tp: // ij e e c s . iaes c or e . c om   N e w  al gor ith m  f or  c lu st e r in g u n la b e le d  b ig   d at a       M ar wan  B .   M oh am m e d Waf aa   AL - Ham e e d   Co l l eg e   o I n f o r m at i o n   T ec h n o l o g y ,   U n i v e rs i t y   o f   Bab y l o n ,   Bag h d ad ,   I raq       Ar t ic l e   I n f o     AB S T RA CT   A r ti c le  h is tor y :   R e c e i ve A pr   18 2021   R e vi s e S e p   11 2021   A c c e pt e S e p   16 2021       T h e   cl u s t e r i n g   a n al y s i s   t ec h n i q u e s   p l a y   an   i m p o rt an t   r o l i n   t h e   ar e a   o d at mi n i n g .   A l t h o u g h   fr o m   e x i s t en ce   s e v e ra l   c l u s t e ri n g   t ech n i q u e s .   H o w ev e r,   i t   s t i l l   t o   t h e i t ri e s   t o   i m p ro v e   t h e   c l u s t e ri n g   p ro ce s s   e ff i c i e n t l y   o p ro p o s e   n ew   t e ch n i q u e s   s eek s   t o   al l o c at e   o b j ec t s   i n t o   c l u s t e rs   s o   t h at   t w o   o b j ec t s   i n   t h s am e   cl u s t e ar e   mo r e   s i m i l ar  t h an   t w o   o b j ec t s   i n   d i ffe r en t   cl u s t e rs   an d   c ar e fu l   n o t   t o   d u p l i c at e   t h e   s a me   o b j ec t s   i n   d i ff e r e n t   g r o u p s   w i t h   t h e   ab i l i t y   t o   co v e a l l   d at as   m u ch   as   p o s s i b l e .   T h i s   p ap e p re s en t s   t w o   d i r ec t i o n s .   T h fi rs t   i s   t o   p ro p o s e   n ew   a l g o ri t h m   t h at   c o i n ed   n a me   ( MB  A l g o r i t h m t o   c o l l ec t   u n l ab e l ed   d at an d   p u t   t h em   i n t o   ap p ro p ri at e   g ro u p s .   T h e   s ec o n d   i s   t h e   c r e at i o n   o f   l e x i c a l   ch ai n   s e n t e n ce   ( L CS b as ed   o n   s i m i l ar  s em an t i s e n t en ce s   w h i c h   ar e   d i ff e r en t   fro m   t h e   t rad i t i o n al   l e x i cal   w o r d   c h a i n   ( L CW b as e d   o n   w o rd s .   T h e   r e s u l t s   s h o w ed   t h at   t h e   p e rf o rm a n ce  o f   t h e   MB   al g o r i t h m   h as   g e n e ra l l y   o u t p e rfo r med   t h e   t w o   al g o r i t h m s   t h e   h i e rar ch i c a l   c l u s t e ri n g   al g o r i t h m   an d   t h e   K - m e an   al g o r i t h m .   K e y w o r ds :   DB I   H i e r a r c hi c a l   c l us t e r i n g   K - m e a n   c l us t e r i n g   L e xi c a l   c h a i n   s e n t e n c e   USE     Th i s   i s   a n   o p en   a c ces s   a r t i c l u n d e r   t h CC  B Y - SA   l i cen s e.     C or r e s pon din A u th or :   M a r wa n   B .   M o h a m m e d   C o l l e g e   o f   I nf o r m a t i o n   T e c hn o l o g y   Uni ve r s i t y   o f   B a byl o n   B a g h da d,   I r a q   E m a i l m a r wa n . bm r . ph d @s t ude n t . u o b a by l o n . e du. iq       1.   I NT RODU C T I ON   I n   r e c e n t   de c a de s   r a p i gr o wt h   i n   a pp li c a t i o n s   s uc h   a s   I n t e r n e t   s e a r c h ,   d i g i t a l   im a g i ng,   e t c   a n s to r a ge   t e c h n o l o g y   l e a t o   t h e   c o n s t r uc t i o n   o f   a   lot   o f   hi g h - v o l u m e ,   hi g h - d i m e ns i o n a l   da t a s e t s .   T hi s   da t a   i s   s to r e di g i t a ll y   i e l e c t r o ni c   d e vi c e s ,   c o ns e q ue n t l y ,   i m pr o v e m e n t   i n   d if f e r e n t   t e c h ni que s   s uc h   a s   c l a s s if i c a t i o n ,   a uto m a t i c   da t a   a n a ly s i s ,   a n r e t r i e v a l   t e c h ni que s   b e c o m e   r e qu i r e d.   Us ua ll y ,   t hi s   da t a   t i de   is   un s t r uc t ur e d   t h us   i t   i s   d i f f i c u l t   to  a n a ly z e   t h e m   [ 1] .   T h e   c l us t e r i n i ge n e r a l   c o n c e pt   i s   a n   uns upe r vis e a ggr e ga t i o n   t e c hni que   t h a t   o wn s   w i t h   a   h uge   n u m be r   o f   a pp li c a t i o n s   i s e v e r a l   f i e l d s   l i ke   m e d i c i n e ,   b u s i ne s s ,   i m a g i ng,   m a r ke t i n g,   i m a ge   s e g men t a t i o n ,   c h e mi s t r y ,   r o b ot i c s ,   a n c li m a t o l o g y   a n us ua ll y,   t hi s   t e c hni que   i s   us e t o   i de n t i f y   t h e   i de n t i c a l   c l a s s   o f   e l e m e n t s   b a s e o n   t h e i r   c ha r a c t e r i s t i c s   a n i t   a   s u bf i e l o f   da t a   m i n i ng  t e c hni qu e   a n i t   i s   v e r y   e f f ic i e n t   to  s e l e c t i n o u b e n e f i t   i nf o r m a t i o n   f r o m   t h e   da t a s e t   [ 2] ,   [ 3 ] .   T h e   M e t h o ds   o f   c l us t e r   a n a l y s i s   a r e   p l a c e a m o n g   s t a t i s t i c s   a n i nf o r m a t i c s .   O n e   o f   t h e   c o n d i t i o n s   o f   t h e   c l u s t e r s   i s   t h a t   t w o   o bj e c t s   f r o m   t h e   s a m e   c lus t e r   a r e   m o r e   s im il a r   t h a n   t wo   o bj e c t s   f r o m   d if f e r e n t   c l u s t e r s   a n t h e   pr o c e s s   o f   pa r t i t i o ni ng  s h o u l a c hiev e   t wo  im po r t a n t   a tt r i b ut e s .   T h e   f i r s t ,   h o m o ge n e i t y   w i t hi t h e   c l u s t e r s   ( i . e   da t a   whi c b e l o n t o   t h e   s a me  c l u s t e r   s h o u l b e   s im il a r ) .   T h e   s e c o n d,   h e t e r o ge n e i t y   b e t we e n   t h e   c l u s t e r s   ( i . e   da t a   whi c h   b e l o n t o   t w o r   m o r e   d i f f e r e n t   c l us t e r s   s h o u l b e   a s   d i s s im il a r )   [ 1] ,   [ 4] .   T h i s   w or k   h a s   tw c o n tr i b u t i o n s .   T h e   f i r s c o n tr i b ut i o n   i s   to  c r e a te   a   l e xi c a l   c h a i n   b a s e d   o n   s e n t e n c e s   l e xi c a l   c h ai n   s e n ten c e   ( L C S )   a s   a   n e w   i de a   i n s tea o f   a   tr a di t i o n a l   l e xi c a l   c h a i n   c o m m o n   us e   b a s e d   o n   w or ds   l e xi c a l   w or d   c h a i n   ( L C W )   to  ov e r c o m e   tw o f   t h e   ob s tac l e s   a r e :   F i r s t,   th e   w or d   m a y   h a v e   m or e   th a n   on e   s e n s e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:  2502 - 4752       N e w   algo r it hm  f or   c lus ter ing  unlabele big  da ta   ( M ar w an  B .   M ohamm e d )   1055   th i s   n a m e d   ( a m b ig u o u s   w o r d )   a n d   th us   th e   tr u e   s e n s e   m us a s s i gn .   A n ot h e r   c h a l l e n ge ,   a   w or d   m a y   b e   a s s oc i a t e d   wi t h   w or ds   i n   v a r i o us   c h a i n s  . T h e   s e c on d   c o n tr i b u t i o n   i s   p r op o s i n g   a   n o v e l   m e t h od   c o i n e d   n a m e ( MB   a l g o r it h m )   to   c o l l e c t   n um e r i c   da ta   unl a b e l e d   i n to  c l us t e r s   i g e n e r a l   a n d   th e   oth e r   s i de   i s   c o n tr i b u t i n g   i f or m i n L CS   i n   pa r t i c u l a r .   T h e   MB   a l g o r it h m   di f f e r s   f r o m   c l us t e r i n a l g o r i t hm s   i n   pr i n c i pl e   b e c a us e   i d oe s   n ot   r e qui r e   i de n t i f y i n t h e   n um b e r   o f   c l us t e r s   i n   t h e   b e gi nni n g ,   b u i de c i de s   t h e   n um b e r   o f   c l us te r s   a u to m a t i c a l ly   b a s e o n   t h e   t h r e s h o l v a l ue .   H i ghl i g h t h e   K m e a ns   a l g o r it h m   a n d   h ie r a r ch ica l   a l g o r i th m   to  c o m pa r e r e s u l t s   wi t h   t h e   p r op o s e d   a l g or i t hm .     I n   t h e   r e pe t i t i o n   c y c l e   o f   hi e r a r c hi c a l   c l u s t e r i n ( HC ) ,   e i t h e r   s m a l l e r   c l u s t e r s   a r e   m e r ge i n t o   t h e   l a r ge r   c l us t e r s   o r   l a r ge r   c l us t e r s   a r e   d i vi de i n t o   s m a ll e r   c l us t e r s ,   t h e   go a l   i s   t o   b u i l a   hi e r a r c hy   o f   c l u s t e r s   whi c i s   c a l l e a   de n dr o gr a m   [ 1] .   H i e r a r c hi c a l   a p pr o a c h e s   h a v e   e nj o y e d   s u b s t a n t i a l   po pu l a r i t y   i g e n o m i c s   a n o t h e r   f i e l ds   f o r   t h e i r   a bil i t y   t o   s i m u l t a n e o us ly   u n c o v e r   m u l t i p l e   l a y e r s   o f   c l u s t e r i n s t r uc t ur e   [ 5]   T h e r e   a r e   t w o   ki n ds   o f   a ppr o a c h e s   i HC .   T h e   f i r s t   a ppr o a c h   i s   n a m e a gg l o m e r a t i v e   c l us t e r i n w hi c h   r u ns   o n   t h e   pr i n c i p l e   o f   b ott o m - up,   w hi c h   i s   s m a l l   c l us t e r s   a r e   c o m bi ne d   i n t o   t h e   l a r ge r   o n e s .   T h e   s e c o n a pp r o a c h   i s   c a l l e d i v i s i ve   c l us t e r i n w hi c h   de pe n ds   o n   t h e   pr i n c i p l e   o f   t h e   to p - d o wn   a ppr o a c h ,   whi c h   i s   t h e   l a r ge r   c l u s t e r s   a r e   b r o ke n   i n to   s m a l l e r   o n e s .   H i e r a r c hi c a c l us t e r i n ( HC )   f a c e s   a   f u n da m e n t a l   pr o bl e m   li e s   i n   da t a   a n a l y s i s ,   wh e r e   gi v e n   d a ta   p o i n ts   a n d   t h e i r   p a i r w i s e   s i m i l a r i t i e s ,   i n   th e   f or m   o f   a   tr e e   wh o s e   l e a v e s   c or r e s p o n to  d a ta   p o i n t s   a n d   i n t e r n a l   n ode s ,   c or r e s p o n d   to  c l us t e r s .   I i s   th e   s uf f e r i n g   o f   s l ow ,   a n d   t h e   HC   th e or y   i s   c o n s i de r e d   un de r de v e l o p e d   De s pi t e   t h e   a b un da n c e   o f   HC   a l g or i t hm s ,   b e c a us e   o f   n g l o b a l   o b j e c t i v e   [ 6 ] - [ 8 ] .   T h e   k - m e a n s   a l g or i t hm   c o n s i de r s   i s   t h e   c o n tr a s o f   H C .   S i n c e   i i s   o n e   o f   t h e   f l a tec h ni que s   [ 1 ]   a n t r e a t e a s   o n e   o f   t h e   m o s t   ge n e r a l ly   u s e c l us t e r i n t e c hniques   f o r   v a r i o us   a pp l i c a t i o ns   [ 9] ,   [ 10] .   T h e   i de a   o f   t h e   k - m e a ns   c l us t e r i n i nc l ude s   t h e   pa r t i t i o ni ng  o f   a   g i v e n   n u m be r   o f   da t a   i n t o   c l us t e r s ,   wh e r e   i s   de f i ne i p r i or ,   s uc h   t h a m us b e   k   <   N   a t h e   b e g g i n s te i n   t h e   a l g or i t hm   r e q ui r e s   i ni t i a l   a s s i gnm e n o f   o bj e c ts   i n t o   th e   s e l e c t i o n   o f   k   c l us t e r   c e n tr o i ds   s th a th e   c e n tr o i ds   h a v e   m i ni m u m   s i m il a r i t y   a m o n g   t h e m s e l v e s   [ 4 ] ,   [ 11 ] .   T h e   k - m e a n   a l g o r i t hm   s uf f e r s   s e v e r a l   d r a wb a c k s .   T h e   f i r s d r a wb a c k ,   i t h a i s   un s tabl e   i n   s e l e c t i n g   i ni t i a l   c e n tr o i ds   f or   c l us t e r s ,   wh i c h   de n s e l y   a f f e c ts   t h e   p e r f or m a n c e   i n   te r m s   o f   e f f e c t i v e n e s s   [ 1 2 ] T he   s e c o n d r a wb a c i s   t h e   a l g or i t hm   r a n d o m l y   c h oos e s   i nit i a l   c e n tr o i ds   by   de f a ul t.   F i n a l l y ,   i t   d oe s   n ot  s up pl y   a ny   a s s u r a n c e   o f   p r od uc i n uni que   r e s u l t s   a f t e r   c l us ter i n g.   T h e r e f or e ,   to  ou tp u e f f e c t i v e   r e s ul ts ,   m us b e   i ni t i a l   c l us t e r   c e n tr o i ds   a r e   pi c k i n us i n g   a   c r i ter i o n   b a s e d   on   s tan da r d   de v i a t i o n   [ 1 3 ]   S o m e   o f   t h e   s t ud i e s   pr e vi o us   w h e t h e r   r e l a t e to   h i e r a r c hi c a l   a n d   k - m e a n s   a l go r i t hm s   a n a l s o   t a l k s   a b o ut   t h e   l e xi c a l   c h a i n.   T h e s e   s t udi e s   s t a r f r o m   20 15  i n t o   2021 .   W e i   e al .   [ 14 ]   a tt e m pt e to wa r ds   i n t e gr a t i n g   W o r dNe t   wi t h   l e xi c a l   c h a i ns   t o   r e duc e   f r o m   pr o bl e m s   whi c h   s t i ll   e xi s t   s e v e r a l   c h a ll e n ge s ,   l i k e   s y n o nym   a n po l y s e m y ,   hi g h   d im e n s i o n a li t y ,   e x t r a c t i n c o r e   s e m a n t i c s   f r o m   t e x t s ,   a n a s s i g ni ng  a ppr o pr i a t e   de s c r i pt i o f o r   t h e   ge n e r a t e c l us t e r s .   T h e   a ut h o r s   pr o p o s e a ppr o a c h   e x p l o i t e o n t o l o g y   hi e r a r c hi c a l   s t r uc t ur e   a n r e l a t i o n s   pr o vi de   a   m o r e   a c c ur a t e   a s s e s s m e n t   o f   t h e   s i mi l a r i t y   b e t we e n   t e r m s   f o r   wo r s e n s e   d i s a m biguat i o n .   Al s o ,   t h e y   i n t r o duc e l e xi c a l   c ha i ns   to   e x t r a c a   s e t   o f   s e m a n t i c a l ly   r e l a t e wor ds   f r o m   t e x t s ,   w hi c h   c a r e pr e s e n t   t h e   s e m a n t i c   c o n t e n t   o f   t h e   t e x t s .   Ab ua li ga e al .   [ 15]   pr o p o s e a   n e w   a l go r i t hm   t ha t   i m pr o v e t h e   pe r f o r m a n c e   o f   t h e   t e x t   c l us t e r i n t e c h ni que ,   s o   th a t   wa s   c o m bi ne t wo   di f f e r e n t   m e a s ur e s   ( i . e .   E uc l i de a d i s t a nc e   a n d   c o s i ne   s i mi l a r i t y )   a s   o bj e c t i v e   f u n c t i o n   j o i n t ly   t o   m a ke   a n   a c c ur a t e   de c i s i o d ur i n t h e   c l u s t e r i n pr o c e s s   t he s e   be c a m e   a n t he y   n a m e d   t hi s   a l go r i t hm   m u l t i - o bj e c t i v e   k - m e a n   ( M KM ) .   A s   t h e   r e s e a r c h e r s   s h o we c a us e i t h e   c o m bi ne m u l t i - o bj e c t i v e   w i t h   k - m e a ns   c l us t e r i n i s   t h e   m u l t i - o bj e c t i v e   f u n c t i o n   i t h e   t e x t   c l us t e r i n do m a i i s   n o t   popu l a r ,   a n i t   c o ns i de r s   t hi s   e s s e n c e   i s s ue   t h a t   a f f e c t s   t h e   pe r f o r m a n c e   o f   t h e   t e x t   c l u s t e r i n t e c hni qu e .   T h e r e f or e ,   t h e   i n c r e a s e d   pe r f or m a n c e   o f   t h e   m ul t i - o bj e c t i v e s   f un c t i o n   wa s   i nv e s t i ga ted   by   us i n g   t h e   k - m e a n   tex t   c l us t e r i n te c h ni que .   Ki m e s   a n e t   al .   [ 5 ]   s tu d i e d   f oc us   o n   th e   p r o bl e m   i n   c l us t e r   a n a l y s i s   i s   wh e t h e r   t h e   i de n t i f i e c l us t e r s   r e p r e s e n t h e   i m por tan un de r l y i n s tr uc tu r e   or   a r e   a r t i f a c t s   o f   n a tur a l   s a m p l i n v a r i a t i o n .   S i n c e   t h e r e   f e w   n um b e r s   f r o m   t h e   a pp r oa c h e s   h a v e   b e e n   pr op os e wh i c h   a d d r e s s e d   thi s   p r o b l e m   i n   t h e   c o n tex o f   h i e r a r c hi c a l   c l us t e r i n g ,   t h i s   p r o bl e m   i s   f ur t h e r   c o m p l i c a ted   by   th e   n a tu r a l   tr e e   s tr uc tu r e   o f   t h e   p a r t i t i o n ,   a n d   t h e   m ul t i p l i c i t y   o f   tes t s   de s i r e d   to  p a r s e   th e   l a y e r s   o f   n e s te c l us t e r s .   T h e r e f or e ,   t h e y   s o l v e d   t h i s   p r o b l e m   by   pr op os i n a   M o n te   C a r l o - b a s e d   a pp r oa c h   f or   tes t i n g   s ta t i s t i c a l   s i gni f i c a n c e   i n   hi e r a r c hi c a l   c l us te r i n wh i c h   a d dr e s s e d   t h e s e   i s s ue s .   T hi s   a p pr oa c h   w a s   i m p l e m e nte d   a s   a   s e qu e n t i a l   tes t i n g   p r o c e d ur e   gua r a n t e e i n g   c o n tr o l   o f   th e   f a m i l y - w i s e   e r r or   r a te .   K a l r a   e t   a l .   [ 1 6 ]   p r op os e d   a   f r a m e w or k   f o r   p ur p os e   a n a l y s i s   a n d   da ta   m i ni n g   o f   h e te r oge n e ous   da ta   o f   t h e   m u l t i p l e   h e t e r og e n e ou s   da ta  s ou r c e s . i c a m e   to  s o l v e   t h e   c h a l l e n g i n g   tas k   o f   d e v e l o pi n g   e x pl o r a tor y   a n a l y t i c a l   tec h ni que s   to   e x pl o r e   c l us t e r i n g   t e c h ni que s   o n   h e te r oge n e ous   da ta   c o n s i s of   h e te r oge n e ous   d o m a i n s   s uc h   a s   c a te g or i c a l ,   n um e r i c a l ,   a n d   bi n a r y   or   a   c o m bi n a t i o n   o f   a l l   t h e s e   da ta   t h r ough   a ppl i e t h e   k - M e a n   c l us t e r i n g   a l g or i t hm   i n   r e a l   l i f e .   T h e   a u t h or s '   s uc c e e d   to  a c hi e v e   t h e   g oa l   o f   t h i s   w or k   to  r e tr i e v e   t h e   r e s ul i n d i vi dua l l y   f r o m   a l l   t h e   da ta   s our c e s   i n to   on e   f or m a t,   a n a l y s i s   o f   a l l   t h e   h e ter og e n e ous   s o ur c e s   i n c l ud i ng  t e x t   c o r pus ,   s o c i a l   m e d i a ,   im a ge ,   a n d   h o m o ge n e o us   da t a ,   a pp l y i ng  t he   c l us t e r i n a l go r i t hm   i nd i vi du a l ly   o n   e a c h   h e t e r o ge n e o us   da t a   s our c e   f o r   e x t r a c t i n t h e   hi dde n   k n o w l e dg e .   B ut   t h e y   s h o we t h a t   c a o c c ur   l o s s   i n f o r m a t i o w h e n   c o nve r t e da t a   h e t e r o ge n e o us   to   h o m o ge n e o us .   T i w a r i   a n De m b l a   [ 17]   ha v e   pr o p o s e a   n o ve l   a l go r i t hm   f o r   t h e   a uto m a t i c   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i ,   Vo l .   24 ,   N o .   2 ,   N o v e m b e r   2021 1054  -   1062   1056   t e x t   s um m a r i z a t i o n   s y s t e m   t h a t   ut i li z e l e xi c a l   c ha i n   c a l c u l a t i o n   a n i t   wa s   i m p l e m e n t e us i ng  e c l ips e   J a va   de v e l o p m e n t   too l ,   e n t e r pr i s e   e d i t i o n   f o r   we b   d e ve l o pe r s .   T hi s   m e t h o a l s o   i nv o l v e t h e   n o un s   a nd  pr o pe r   n o un s   i t h e   c o m put a t i o n   o f   l e xi c a l   c h a i ns .   t hi s   a lgo r i t hm   a ddr e s s e t h e   m o s t   vi t a l   i nf o r m a t i o n   a n i t   i s   n o l o n ge r   t h a n   h a lf   o f   t h e   s o ur c e   da t a   a n a l s o ,   i t   i s   t h e   b e s t   s o l ut i o n   f o r   t h e   i nf o r m a t i o n   o v e r l o a d i n pr o bl e m   a s   do   n ot   h a ve   t o   s c a n   t h r o ugh   e a c h   li ne   o f   l o n len gt h   do c u m e n t s   a n s t i ll   r e c e i ve   t h e   f o r e m o s t   i m po r t a n i n f o r m a t i o n .   T h e r e f o r e ,   i n   t hi s   a ppr o a c h ,   t h e y   h a v e   t a ke n   t h e   c o n c e pt   o f   t h e   s i g ni f i c a n c e   a nd  ut i l i t c a l c u l a t i o n   f o r   e a c h   c h a i s o   t h a t   t h e   c h a i ns   r e l a t e to   t h e   do c um e n t s   a r e   s e l e c t e a n us e i t h e   s u m m a r ge n e r a t i o n   pr o c e s s .   T h e   a d va n t a ge   o f   t hi s   m e t h o i s   b e t t e r   o u t pu t   i n   t e r m s   o f   E x e c ut i o t i m e   a s   c o m pa r e to  t h e   e xi s t i n a l go r i t hm ,   I m pr o v e m a t c h   o f   wo r ds   b e t we e n   t h e   h u m a n - ge n e r a t e s u m m a r y   a n pr o p o s e a l go r i t hm - ge n e r a t e s u m m a r y ,   a n b e t t e r   r e c a l l ,   whi c h   a r e   c o m m o nl y   u s e c r i t e r i a   f o r   s u m m a r y   e v a l ua t i o n .   C ha m i   e a l .   [ 6]   pr o p o s e a   n e m e t h o c a l l e hy pe r b o l i c   hi e r a r c hi c a l   c l us t e r i n ( H y pHC )   t o   di s p l a yi ng  a   d i r e c t   c o r r e s p o n de nc e   f r o m   d i s c r e t e   t r e e s   to   c o n t i n uo us   r e pr e s e n t a t i o n s   t h r o ugh   t h e   hy pe r b o l i c   e mb e dd i ng s   o f   t h e i r   l e a f   n o de s   a n t h e b a c by   a   de c o d i n a lgo r i t hm   t h a t   m a ps   l e a f   e m be dd i ng s   t o   a   de n dr o g r a m ,   w hi c h   a l l o w s   t h e m   t o   s e a r c t h e   s pa c e   o f   d i s c r e t e   bi na r y   t r e e s   w i t h   c o n t i n uo us   o pt i m i z a t i o n .   T h e y   c o n s i de r   t his   m e t h o a s   t he   f i r s t   c o n t i n uo us   r e l a x a t i o n   o f   Da s g upt a s   d i s c r e t e   o p t i m i z a t i o pr o bl e m   w i t h   pr o v a ble  qua li t y   gua r a n t e e s   s o   t h a t   t h e y   de r i ve a   c o n t i n uo us   a na l o f o r   t h e   n o t i o n   o f   t h e   l o w e s t   c o m m o n   a n c e s t or   de pe n o a n a l o g i e s   be t we e n   t r e e s   a n hy pe r b o l i c   s pa c e .     T hi s   pa p e r   i s   o r ga ni z e a s   f o ll o ws ,   s e c t i o n   e x p la i ns   t h e   d if f e r e nc e s   be t we e n   t h e   t r a di t i o n a l   l e xi c a c h a i wo r a n a   n e l e xi c a l   c h a i s e n t e n c e .   S e c t i o n   d i s p l a y s   de t a i l s   o f   t h e   pr o p o s e m e t h o d,   f i na ll y ,   s e c t i o n   i ll us t r a t e s   t h e   e x pe r im e n t ' s   r e s u l t   w hi c h   s h o ws   r e s u l t s   a n de ba t e s .   T h e   de r i ve c o n c l us i o n   is   s h o wn   i s e c t i o n   5.       2.   L e x ica l   c h ain   s e n t e n c e   ( L CS )   T hi s   s e c t i o n   e x p l a i ns   t h e   d if f e r e n c e   b e t we e n   t h e   l e xi c a l   c ha i n   s e n t e n c e   ( L CS pr o p o s e a n t h e   l e xi c a l   c h a i n   wo r ( L CW ) .   T h e   l e xi c a l   c h a i n   ( i . e .   L CW )   i s   bu i l t   by   c a l c u l a t i n t h e   s e m a n t i c   d i s t a nc e   b e t we e t h e   wo r d s   us i n W o r dNe t.   t h e   l e xi c a l   r e l a t i o ns hi e xi s t s   b e t we e n   wo r ds ,   t h e s e   l e xi c a l   r e l a t i o n s   b e t we e n   wo r ds   a r e   e x t r a c t e by   us i ng  W o r dNe t.   A L CW   E a c h   wo r d   m u s t   b e l o n t e x a c t l y   o n e   c h a i w h e n   l e xi c a l   c h a i ns   a r e   c o m put e d.   B u t   t h e r e   a r e   t w c h a ll e n ge s   a r e F i r s t ,   t h e r e   m a y   be   m o r e   t h a n   o n e   s e ns e   f o r   a   w o r d   ( a m bi guo us   wo r d)   a n t h us   t h e   c o r r e c t   s e ns e   m u s be   i de n t i f i e d.   An o t h e r   c h a ll e n ge ,   a   wo r m a y   be   r e l a t e t wo r ds   i n   d i f f e r e n t   c h a i ns .   T he   l e xi c a l   c h a i a im s   t o   f i n t h e   b e s t   wa y   o f   gr o up i n t h e   wo r ds   t h a t   wi l r e s u l t   i t h e   l o n ge s t   a n s t r o n ge s t   c h a i ns   [ 18] ,   [ 19] .   C o n s i de r   l e xi c a l   c h a i n i ng  a s   a n   e x a m p l e   o f   s e m a n t i c   a ppr o a c h e s   o r   a l s o   kn o w n   a s   li ngu i s t i c   a ppr oa c he s "   b e c a u s e   wo r s e ns e   d i s a m b i gua t i o n   t r i e s   to   b u i ld   r e l a t i o n s hi p s   a m o n wo r ds   o r   s e n t e n c e s   t o   l e a t o   t h e   pa r t i a l   c o m pr e h e n s i o n   o f   t h e   do c u m e n t .   M o r r i s   a n d   H i r s t   we r e   t h e   r s t   to   i m p l e m e n t   a n   i de a   o f   l e xi c a c ha i ni ng  i 1991.   T h e   l e xi c a l   c h a i m a i n ly   de a l s   w i t h   t h e   pr o bl e m   o f   wo r s e n s e   d i s a m b i gua t i o n   ( WS D ) .   I t   i s   c r e a t e b a s e o n   t h e   s a m e   to pi c   wo r ds   o f   t h e   do c um e n t .   Ge n e r a ll y ,   l e xi c a l   c h a i ns   pr o vi d e   a   be tt e r   i n d i c a t i o n   o f   d i s c o ur s e   to pi c   t h a n   do e s   wor f r e que n c s i m p l y   b e c a us e   d i e r e n t   wo r ds   m a y   r e f e r   to   t h e   s a m e   top i c .   E v e w i t h o ut   s e ns e   d i s a m b i gua t i o n ,   t h e s e   a p pr o a c h e s   c a n   de r i ve   c o n c e pt s   [ 20] .   W hil e   t h e   i d e a   o f   pr o p o s e   L CS   i s   to  m a ke   t h e   L CS   d e a l   w i t h   t h e   pr o bl e m   o f   s e n t e n c e   s e ns e   d i s a m bi gu a t i o n   ( SSD )   a n h o to   m a ke   i t   i n   t h e   c o r r e c c h a i n .   L e xi c a l   s e n t e n c e   c ha i ns   a r e   c r e a t e d   b a s e o n   s i mi l a r   s e n t e n c e s   s e n s e   a n a n o t h e r   h a n s a m e   b a s e o n   to pi c   s e n t e n c e s   o f   t h e   do c um e n t .   t h e   pr o p os e L CS   i s   c o n s t r uc t e by   c o m put i n t h e   s e m a n t i c   d i s t a n c e   a m o n s e n t e nc e s   t h r o ugh   us i ng  m e m e t i c   b e t we e uni ve r s a l   s e n t e n c e   e n c o de r   whi c h   pr o po s e m o de l   [ 21]   a n c o s i ne   s im il a r i t y   d i s t a nc e   c o i n e uni ve r s a s e n t e n c e   e n c o de r   c o s i n e   s im il a r i t y   ( U S E CS )   wi t h o ut   us i n g   W o r dNe t   a s   L CW .   Al s o ,   t h e   L CS   r e l a t i o n s hi t h a t   e xi s t s   b e t we e n   s e n t e n c e s   i s   e x t r a c t e f r o m   U S E CS .   E a c h   s e n t e n c e   m us t   b e l o n t o   e x a c t l y   o ne   c h a i ( c l u s t e r )   wh e n   l e xi c a l   c h a i ns   a r e   c o m put e d.   T h e   L CS   o v e r c o m e   t h e   c ha l l e nge   o f   L CW   by   t a k i n s e n t e n c e s   c o m p l e t e l w i t h o ut  to ke ni z i ng  s e n t e n c e s   i n t w o r ds   l i ke   L CW .   E a c h   s e n t e nc e   h a s   o n e   s e ns e   d i f f e r e n c e   a b o ut  w or ds   whi c h   m a y   b e   m o r e   t h a n   o n e   s e ns e .   Ha nc e ,   i de n t i f y   c o r r e c t   s e n t e n c e   s e ns e   be c o m e s   e a s y ,   a l s o   t h e   L CS   pr e v e n t s   r e dde ne s e n t e n c e s   i m o r e   t h a n   o n e   c h a i ( c l us t e r ) .   I t   c o l l e c t s   s e n s e   s e n t e n c e   s im il a r i t y   i o n e   c h a i s e n t e n c e   a s   m u c h   a s   po s s i bl e .   T h us ,   t h e   L CS   s e e ks   to   f i n t h e   be s t   m e t h o to  c o l l e c t s   s e n t e n c e s   t h a w i ll   r e s u l t   i n   t h e   l o n ge s t   a n s tr o n ge s t   c h a i ns .   F i gur e s   1 ( a )   a n ( b )   s h o wn   d i f f e r e nc e s   a t   w o r k   L CW   a nd   pr o p o s e   L C S   r e s pe c t i ve ly .       Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:  2502 - 4752       N e w   algo r it hm  f or   c lus ter ing  unlabele big  da ta   ( M ar w an  B .   M ohamm e d )   1057   E x tr a c Wo r d   S e n s e   S i mi l a r i ty   A n d   Pu t   I n   A p p r o p r i a t Cha i n   (c l u s te r ) O r i g i n a l   T ext L i s t   L exica l   C h a i n   W o r d   ( L C W )   D a t a b a se   W o r d N e t   E x tr a c S e n te n c e s   S en s S i m i l a r i ty   A n d   Pu I n   A p p r o p r i a te   Cha i n   (c l u s t e r ) Meme tic   U n i v er s a l   S en te n c E n c o d er   A n d   Co s i n S i mi l a r i t y   D i s t a n c (U S E CS) O r i g i n a l   T e xt L i s L ex i c a l   Cha i n   S en te n c   (L CS)    ( a )   ( b )     F i gur e   1.   ( a )   L e xi c a l   c h a i n   wo r gr a ph   f o r   e x t r a c wo r d   s e m a n t i c   s im i l a r i t y   f r o m   t e x t ,   a n   ( b )   L e xi c a l   s e n t e n c e s   gr a ph   f o r   e x t r a c t   s e n t e n c e s   s e m a n t i c   s im il a r i t y   f r o m   t h e   t e x t       3.   T HE   AL GO RI T HM   P ROP OS E D   T h e   pr o po s e Al go r i t hm   h a s   s i x - p h a s e s   a s   s h o we i n   F i gur e   2.   I n   t hi s   s e c t i o n ,   t h e   m a i s t e ps   o f   t he   pr o p o s e a l go r i t hm   a r e   de s c r i be l i s t e a s   f o l l o ws   i n   d e t a i l :   -   T h e   po pul a t i o n   i s   t a ke n   f r o m   da t a s e t   d o c um e n t   un de r s t a n d i n c o nf e r e n c e   ( DU C )   2002  whi c h   c o n t a i n s   a   s e t   o f   to pi c s   up  t h e   n u m be r   to   59  to pi c s .   T h e   T a bl e   e x p l a i n i ng  i n   d e t a i l   t h e   c o n t e n t   o f   t hi s   da t a s e t.   T h e   s e n t e n c e s   i do c u m e n t s   a r e   s e pa r a t e by   t h e   s e n t e n c e   t o ke ni z a t i o n   pr o c e s s ,   a f t e r   t h a t   us i ng  t h e   u niv e r s a s e n t e n c e   e n c o de r   ( USE )   m o de l   pr o p o s e [ 21]   f o r   c r e a t i n a n   e m be dd i ng  s e n t e n c e   v e c t o r   f o r   e a c h   s e n t e n c e   w i t h   a   f i xe l e n gt h .   T hi s   m o d e l   i s   i n t e r e s t i n w i t s e n t e n c e s   ( i . e   c o n t e x t - b a s e r e pr e s e n t a t i o n )   o nly   s o   t h a t r a n s f o r m s   e a c h   s e n t e n c e   c o m p l e t e l y   i n t o   a n   e mb e dd i ng  s e n t e n c e   v e c t o r   i n s t e a o f   l e a r ni ng  ve c t o r s   f o r   i nd i v i dua l   wo r ds   i n   t h e   s e n t e n c e ,   t h e y   c o m put e   a   v e c t o r   f o r   s e n t e n c e s   o n   t h e   w h o l e ,   by   t a k i n i n t o   a c c o un t h e   o r de r   o f   wo r ds   a n t he   s e t   o f   c o - o c c ur r i n wo r ds .   T h us ,   t hi s   m o de l   i s   d if f e r e n t   f r o m   t h e   wo r d2v e c t o r   m o de l   w hi c h   de a l s   w i t h   wo r ds   b a s e d   [ 22] .   T h i s   m o de l   h a s   o v e r c o m e   o n   s pa r s e   m a t r i x   pr o bl e whi c o c c ur s   i n   c o s i n e   s im il a r i t y   d i s t a n c e   b e c a u s e   i t   t a ke s   to   c o n s i d e r   s e n t e n c e s   s e m a n t i c a ll y t h us ,   t hi s   wor k   de pe n d e o n   t h e   pr i n c i p l e   m e m e t i c   b e t we e n   USE   a n c o s i n e   s im il a r i t y   d i s t a nc e   i n   t hi s   s t a t e .       C a l c u l a t e   s i m il a r i t y   be t we e n   s e n t e n c e   e m b e dd i ng  v e c t o r s   by   us i ng  c o s i n   d i s t a n c e   a s   s h o wn   i n   ( 1 )   [ 23 ] :     Co s in e   Dis ta nce ( , ) =   ×   = 0 2 = 0   ×   2 = 0   ( 1 )     wh e r e     i   i s   c o un t e r   f o r   v e c t or s   a n c e n t r o i c o l u m n s   a n     i s   r e pr e s e n t   v e c t o r   s e n t e n c e   a n   i s   r e pr e s e n t   c e n t r o i f o r   e a c h   c l u s t e r .   T h e   r e s u l t s   o f   t hi s   m e a s ur e   d i s t a nc e   a r e   put   i n   a   m a t r i x   n a m e d        .   T h e   s i z e   o f   t hi s   m a t r i x   i s   ( × )   ( i . e   s qua r e   m a t r i x ) .     I n   t h e   pr o p o s e m e t h o t h e   c e n t e r   s e l e c t i n f r o m   t h e   e m b e dd i ng  s e n t e n c e s   v e c t o r   ( E S V ) ,   t h i s   s e l e c t i n is   b e i ng  s e que n t i a l T hi s   c e n t e r   a tt r a c t s   s e n t e n c e s   t h a t   s i mi l a r   i t   s e m a n t i c a ll y   t h r o ugh   s im i l a r   va l u e   r e s u l t a n t   f r o m   c e n t e r   a n s e n t e n c e   w hi c h   m u s t   b e   gr e a t e r   or   e qua l   t a   t h r e s h o l v a l ue .   T hi s   m e t h o i de n t i f i e s   t h e   t h r e s h o l v a l u e   pr e vi o u s ly   a n do e s   n o t   i de n t i f a   n u m be r   o f   t h e   c l u s t e r s   b e c a us e   i t   i s   de c i d i ng   t h e   n u m be r   o f   c l us t e r s   o p t i m a l i t y   b a s e o n   t h e   t h r e s ho l va l ue   a uto m a t i c a l ly .   T h e   s e n t e nc e s   c o m pa t i bl e   w i t h   c e n t e r   a c c o r di n t t h r e s h o l v a l u e   o n - b a s e   i t s   i n de x   n u m be r   to  b e   p l a c e i n   t h e   c l us t e r   n a m e d   Cl u s te r   E S V i   wh e r e ( E S V i )     i s   r e pr e s e n t   s e n t e n c e   v e c t or   i n d e x   whi c h   b e c o m e s   t h e   c e n t e r   a n c l us t e r   E S V i r e pr e s e n t   s ub - m a t r i x   i nc l ude   s e n t e n c e   n u m be r s   t h a a tt r a c t e d.   H o we v e r ,   wh e n   s e l e c t i n a   n e c e n t e r   ( i . e   E S V i + 1 )   to  b r i n t h e   r e s t   o f   t h e   s e n t e n c e s   w hi c h   n o c o m pa t i bl e   w i t h   t h e   c e n t e r   pr e vi o us   ( i . e   E S V i )   f o r   pur po s e   c r e a t e   a n ot h e r   c l us t e r .   T hi s   s t a t e   s h o u l be   E S V i + 1    n ot   m e n t i o n e i t h e   c o n t e n t   o f   o t h e r   c l u s t e r s   t h a t   p r e c e de i t .   B e c a us e   s e l e c t i n i t   a s   n e c e n t e r s   m a y be   f r e que n t s   s a m e   da t a   i n   a   n e c l u s t e r   a n t h i s   l e a d s   to   i n c r e a s e   c l u s t e r   n u m b e r s   a n we a ke n s   a c hi e vi ng  o pt i m a l i t y   c l u s t e r s   whi c h   a im   t c o v e r   a l da t a   w i t h o ut   r e pe a t.   T h us ,   m u s t   i g n o r e   i t   a n c o n t i n u e   t h e   l o o to  t a ke   a   s e n t e n c e   a s   t h e   n e c e n t e r   i s   n o t   m e n t i o n e pe r vi o u s .       Af t e r   c o m p l e t i n t h e   c o l l e c t i o n   pr o c e s s   s e n t e n c e s   i n   c l us t e r s   a n ke e t h e m   i n   a   l i s t   n a m e Cl u s te r   E S V ,   t h e   pr o p o s e m e t h o m u s t   e n s ur e   t h a t   c l us t e r s   c on t e n t   f r e e   o f   r e dun da n t   t h e   s a m e   s e n t e nc e   i n   m o r e   t h a n   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i ,   Vo l .   24 ,   N o .   2 ,   N o v e m b e r   2021 1054  -   1062   1058   o n e   c l u s t e r .   I f   s uc h   a   s i t ua t i o n   e xi s t s ,   i t   c o m pa r e s   s im il a r   va l u e s   i t h e   s e n t e n c e   i a ll   c l us t e r s   a n s ur vi va l   o f   t hi s   s e n t e n c e   i n   t h e   c l us t e r   whi c h   h a v e   a   hi g h e r   s i mi l a r i t y   v a l ue   t h a n   o t h e r   c l us t e r s ,   t h e n   t h e   s i mi lar i t y   v a l ue s   o f   t hi s   s e n t e n c e   a r e   de l e t e i n   t h e   r e s t   o f   t h e   c l us t e r a bl e .       C he c t h e   n u m be r   o f   s e n t e n c e s   i t h e   c l us t e r   c r e a t e d.   t hi s   m e t h o i s   r e qu i r e t h a t   t h e   c l u s t e r   c o n t e n t   m us t   b e   gr e a t e r   t h a n   t wo  to  a v o i t h a b e i ng  c o n t e n t   c l us t e r   l e s s   t h a n   t w o   a f t e r   dupl i c a t e   r e m o va l .       No w,   m a y be   t h e r e   e xi s t   s e n t e n c e s   w i t h   s i mi l a r i t y   v a l ue s   w i t h   c e n t e r s   b ut   n o c o m pa t i bl e   b a s e o n   a   t h r e s h o l v a l ue ,   t h us   b e c a m e   t h e s e   s e n t e n c e s   c a ll e o ut l i e r s .   T o   i nc l ud e   t h e s e   o u t l i e r s   t h r o ugh   t a k i n g   s i mi l a r i t y   v a l ue s   e a c h   o n e   o f   t h e m   w i t h   c e n t e r s   only   a n c o m pa r e s   a m o n t h e m   a n s e l e c t i n a   high e r   v a l ue   a n put   i t   i n   t h e   c l us t e r   t h a t   b e l o n g s   to   t h a t   c e n t e r .   T h i s   l i s t   i s   c o n s i de r e c e r t i f i e l e xi c a l   c h a i n   s e n t e n c e s .   I n   t hi s   s t e p,   t h e   pr o c e s s   e n ds   c r e a t e   L CS   pr o p o s e d   o r   s e o f   c l u s t e r s   t h a t   c o v e r a ge   a l l   s e n t e n c e s   i n   t h e   do c u m e n t .           F i gur e   2 .   F l o wc h a r t   e x p l a i ns   s t e ps   M B   a l go r i t hm   p r o p o s e to  c o l l e c t   s e n t e n c e s   i n   t h e   c l u s t e r s   a c c or di n to   t h e   t h r e s h o l v a l ue       T a bl e   1 .   De s c r i pt i o n   DU C   2002  da t a s e t   D e s c r ip ti o n   D U C  2002 da ta s e t   N umbe r   of   t o pi c s   59 ( d061j t hr o ugh d120i)   N umbe r   of  d oc um e nt s  i e a c h t o pi c   ~ 10   T ot a numbe r   of  d oc um e nt s   567   D a ta  s o ur c e   T R E S   S umm a r y  l e ng th   200 d 400 wo r ds   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:  2502 - 4752       N e w   algo r it hm  f or   c lus ter ing  unlabele big  da ta   ( M ar w an  B .   M ohamm e d )   1059   4.   RE S UL T S   A ND  D IS CU S S I ON    T hi s   wo r de a l   w i t a   t e x t   da t a s e t   n a m e d   DU C   2002.   T h e   do c u m e n t   un de r s t a n d i n g   c o nf e r e nc e   ( DU C )   i s   t h e   m o s t   c o m m o n   b e n c hm a r k i ng  da t a s e t   us e f o r   t e x t   s u m m a r i z a t i o n   [ 24] .   T h e   DU C   2002  c o n t a i ns   a   s e t   o f   to pi c s   up  t h e   n u m be r   to  59   to pi c s ,   e a c h   t o pi c   i nc l ude s   a   gr o up  o f   do c um e n t s   ( a r ti c l e s )     = { 1 , 2 , . , }   t a l k i ng  a b o ut  t h a to pi c .   e a c h   _   c o n t a i ns   a   s e t   o f   s e n t e n c e s   = { 1 , 2 , . ,   } .   Al l   do c um e n t s   s e n t e n c e   s pe c i a l   t a   s pe c i f i c   t o pi c   m a k e s   i n t o n e   f il e   = { 1 , 2 , 3 , . , }   f o r   s i m p li f yi ng.   Us i n t h e   Da vi e s   b o u l d i n   i nde x   ( DB I )   m e t h o to   a s s e s s   c l us t e r s   a n t h e   s t r o n r e l a t i o ns hi be t we e t h e m ,   a n o t h e r   s i de   t o   e v a l ua t e   c o r r e l a t i o c o n t e n t   be t we e n   t he m   f o r   e a c c l us t e r .   F i na ll y ,   i t   g i ve s   a   s c o r e .   T hi s   s c o r e   wh e n e v e r   a   po s i t i v e   a n l o v a l ue   i s   g oo a n i n d i c a t e s   t h a t   t hi s   m e t h o i s   s t r o n a n be tt e r .   T h e   DB I   i n t r o duc e s   a   s c a tt e r i n g   m e a s ur e      to  m e a s ur e   th e   s c a t t e r i n w i t hi t h e   s a m e   c l u s t e r   a n m a xim i z e s   t h e   r a t i o   o f   s c a tt e r i n m e a s ur e   to  t h e   c l us t e r   c e n t e r   i s o l a t i o n   a n to   gi v e   t h e   DB I   f o r   m a ny   c l us t e r s   .   C a n   t a l k   t h a t   t h e   DB I   c o n s i d e r s   t h e   a v e r a ge   c a s e   o f   e a c h   c l u s t e r   by   us i ng  t h e   m e a n   e r r or   o f   e a c h   c l u s t e r .   T h us ,   t h e   e qua t i o n   f o r   DB I   c a n   b e   e x pr e s s e a s   ( 4 )   [ 2] ,   [ 25] .      , = ( 1 | | ) 1   ( 2 )     =  = &  ,  ,   ( 3 )     = 1 = 1   ( 4 )     W h e r e      i s   s c a t t e r i n m e a s ur e ,     i s   t h e   s i z e   o f   c l u s t e r   I ,     b e   a n   n - d i m e ns i o n a l   f e a t ur e   v e c t or   a s s i g ne to  t h e   c l us t e r ,     i s   t h e   c e n t r o i d   o f   t h e   c l us t e r ,     i s   a   m e a s ur e   o f   h o goo d   t h e   c l u s t e r i n s c h e m e ;     i s   a   n u mb e r   c l u s t e r .     T h e   r e s u l t s   o f   t h e   pr o po s e m e t h o a r e   c om pa r e w i t h   t h e   r e s u l t s   o f   t wo   a l go r i t hm s ,     k m e a ns , a nd   h ie r a r ch ica l   cl u s te r in g   a l go r i t hm   t f i nd  e f f i c i e nc y   a n s t r e n gt h   to  c oll e c t   s e n t e n c e s   i c o r r e c t   c l us t e r s .   Us i n t h e     m e t h o to   e v a l ua t e   t h e   po we r   o f   t h e s e   a l go r i t hm s .   T hi s   wo r t a ke s   f i ve   t op i c s   ( 061 - 065)   f r o m   DU C   2002   da t a s e to   di s p l a y   h o d i s t r i b ut e s e n t e n c e s   i t h e   c l us t e r s   b a s e o n   t h r e s h o l d   v a l ue   a s   pr o p o s e m e t h o or   b a s e o n   t h e   n u m be r   o f     a s   i n      a l go r i t hm   o r   b a s e o n   m a x   d i s t a n c e   b e c a us e   i t   de a l s   w i t h   s im il a r   s e n t e n c e s   a s   i n   hi e r a r c hi c a l   c l us t e r i n g.     A   s e r i e s   o f   t h r e s h o l v a l ue s   we r e   e x pe r i m e n t e w i t h   w i t hi t h e   pr o p o s e m e t h o f o r   t h e   f i ve   to pi c s   a b o v e   t o   f i n o ut   t h e   n u m be r   o f   c l u s t e r s   t h a t   t h e   m e t h o de c i de s   b a s e o n   t h e   t h r e s h o l v a l ue   a s   s h o wn   in  T a bl e   2 .   T h e   s e l e c t e n u m be r   o f   c l us t e r s   i n   t h e   K m e a ns   a l go r i t hm   i s   t h e   s a m e   n u m be r   o f   c l u s t e r s   t h a t h e   m e t h o pr o p o s e ge n e r a t e d.   I n   t hi s   pa p e r ,   c l u s t e r   v a li d i t y   a n a ly s i s   wa s   a pp li e d   t o   e n s ur e   t h e   v a li d i t y   o f   t h e   n u m be r   o f   c l us t e r s   c o ns i de r e i e a c h   c l u s t e r i ng  a l go r i t hm ,   a l s o ,   i t   o f f e r s   n u m e r i c a l   va l ue   f o r   d i f f e r e n t   gr o ups   v a li d i t y   i nd i c e s   w hi c h   i n d i c a t e   t h e   n u m be r   o f   c l u s t e r s .   O n e   o f   t h e   c l us t e r   v a li d i t y   i nd i c e s   us e f o r   c l u s t e r   v a l i d a t i o n   c a ll e d a v ie s   b o u l d in   in d e x   ( DB I ) .   T h e   pur p o s e   i s   t e v a l ua t e   t h e   t w a l go r i t hm s   i n   t e r m s   o f   e f f i c i e n c y   a n s t r e n gt h   by   us i ng  t h e   DB I   s c a l e .   A s   f o r   t h e   c o m pa r i s o n   o f   t h e   pr o p o s e m e t h o wi t t h e   hi e r a r c hi c a l   c l us t e r i n g,   t hi s   w i ll   f o c us   o n   t h e   nu m b e r   o f   c l u s t e r s   ge n e r a t e i n   t h e   t wo  m e t h o ds   o nl y   a s   e x pe ns i ve   o r   n ot,   s i n c e   t h e   hi e r a r c hi c a l   c l us t e r i n do e s   n ot   de t e r m i ne   t h e   c l u s t e r   i n   a dva n c e .   T h e   T a bl e   e x p l a i n i ng  t h a t   t h e   n u m be r   o f   c l us t e r s   i n   t h e   pr o p o s e m e t h o i n   a ll   t o pi c s   c o m pa r e d   w i t h   hi e r a r c hi c a l   c l u s t e r i n i s   b e tt e r .   B e c a us e   t h e   n u m be r   o f   c l us t e r s   ge ne r a t e a c c o r di n to   t h e   th r e s h o l d   v a l ue   i s   s m a ll e r   t h a n   t h e   n u m be r   o f   c l us t e r s   ge n e r a t e i n   t h e   hi e r a r c hi c a l   c l us t e r i n a l go r i t hm .   T he r e f o r e ,   t h e   pr o p o s e m e t h o c o n s i de r s   l e s s   e x pe ns i ve   t h a hi e r a r c hi c a l   c l u s t e r i n g.   Al t h o ugh   t h r e s h o l v a lues   a r e   d i f f e r e n t .   B ut   t h e   n u m be r   o f   t h e   c l u s t e r s   m a y   b e   f r e que n t i n a n t hi s   do e s   n o t   m e a n   f r e que n t   s a m e   s e n t e n c e s   o r   s a m e   c e n t e r s .   Due   to   i t   b a s e o n   c o n d i t i o n ,   mea m a y be   a   s e t   o f   s e n t e n c e s   c o m pa t i bl e   w i t o ne   c e n t e r .   T h us ,   b e c o m e   t hi s   a   s e t   w i t hi a   c o n t e n t   t hi s   c e nt e r   a s   l i ke   w h e T = 0. 59  t h e   n u m be r   c l us t e r   i s   wh e r e a s   wh e n   b e i ng  T = 0. 55  t h e   n u m be r   o f   c l u s t e r s   i s   f o r   e x a m p l e   i n   t o pi c   062.   Al s o ,   i n   t hi s   t a bl e   e xi s t   t h e   wo r d   'n u ll '   w hi c h   m e a n s   t h e   pr o p o s e m e t h o d o e s   n o t   c r e a t e   c l us t e r s   b e c a us e   t h e   s e n t e nc e s   a r e   n o m a y b e   t h e   a gr e e m e n t   w i t t h e   t h r e s h o l d   v a l ue   s pe c i a ll y   o r   w i t h   t h e   c o n d i t i o n   ge n e r a ll y .   T a bl e   e x p l a i ns   t he   r e s u l t s   e v a l ua t i o n   k - m e a n   a l go r i t hm   a n pr o p o s e m e t ho us i n DB I   m e a s ur e .   M o s e x pe r i m e n t s   i n   e va l ua t i o n u m be r   o f   c l u s t e r s   ge n e r a t e tot a l ly   i n   t h e   pr o po s e m e t h o s uc c e s s f u ll y   i n   gr o up i n c l us t e r s   f o r m   m o r e   c o r r e l a t i o n   a n e f f i c i e n c y   t h a n   t h e   k - m e a n   a l go r i t hm .   Us u a l ly ,   DB I   s c o r e s   f o r   t h e   a l go r i t hm s   w h e n   b e i n a n   a l go r i t hm   l o we r   s c o r e   t h a n   a n o t h e r   a l go r i t hm   w hich   m e a ns   t h e   a l go r i t hm   i s   go o d.   S i n c e ,   a s   DB I   s c o r e   l o t hi s   m e a n s   go o d .           Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i ,   Vo l .   24 ,   N o .   2 ,   N o v e m b e r   2021 1054  -   1062   1060   T a bl e   2 .   Num be r   o f   c l us t e r s   ge n e r a t e f r o m   t wo  a l go r i t hm s   T o p ic  na m e   T h r e s ho ld   N o . of c lu s t e r s   in   th e  p r o p o s e m e th o d   N o .   of c lu s t e r s   in  t he   hi e r a r c h ic a c lu s te r in g   061   0.5   19   343   0.55   15   0.56   12   0.57   10   0.58   9   0.59   9   0.6   7   0.61   5   0.62   4   0.63   4   0.64   3   0 .65   3   0.66   2   062   0.5   7   233   0.55   4   0.56   3   0.57   3   0.58   4   0.59   3   0.6   3   0.61   3   0.62   4   0.63   2   0.64   2   0.65   N ul l   0.66   N ul l   063   0.5   7   405   0.55   7   0.56   6   0.57   3   0.58   2   0.59   2   0.6   2   0.61   2   0.62   2   0.6 3   2   0.64   2   0.65   N ul l   0.66   N ul l   064   0.5   5   189   0.55   N ul l   0.56   N ul l   0.57   N ul l   0.58   N ul l   0.59   N ul l   0.6   N ul l   0.61   N ul l   0.62   N ul l   0.63   N ul l   0.64   N ul l   0.65   N ul l   0.66   N ul l   065   0.5   13   365   0.55   7   0.56   4   0.57   2   0.58   2   0.59   2   0.6   N ul l   0.61   N ul l   0.62   N ul l   0.63   N ul l   0.64   N ul l   0.65   N ul l   0.66   N ul l       T h e   T a bl e   i s   c o n t a i n   f i ve   t o pi c s   c o i n e ( 061, 062, 063, 064, 065 ) .   E a c h   to pi c   c o n t a i n s   e v a l ua t i o ns   b e t we e n   t h e   pr o p o s e a l go r i t hm   a n K m e a ns   al go r i t hm   by   u s i ng    m e a s ur e .   T h e   r e s ul t s   T o pi c   061  d i s p l a y   t h a t   t h e   pr o p o s e m e t h o i s   n o t   s uc c e s s f u l   w i t h   k - m e a n   w h e n   c l us t e r   n u m be r   i s   a n 3,   b ut   i n   r e m a i n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:  2502 - 4752       N e w   algo r it hm  f or   c lus ter ing  unlabele big  da ta   ( M ar w an  B .   M ohamm e d )   1061   c l u s t e r s   s uc c e s s f u l   i t .   T o pi c   062  s h o wn   t h e   pr o po s e m e t h o b e t t e r   t h a n   t h e   k - m e a ns   m e t h o i n   a ll   n u m be r s   o f   c l u s t e r s   e xc e pt   c l u s t e r   n u m be r   2.   T o p i c   063   t he   pr o p o s e m e t h o s uc c e s s   o nly   i c l u s t e r   n u m be r   w hi l e   i r e m a i c l us t e r s   to   t h e   s a m e   t o pi c   i s   f a il e d.   I to pi c   064  t h a t   t h e   pr o po s e m e t h o i s   a d v a n c i n o n   t h e     k - m e a n   a l go r i t hm .   I n   t o pi c   06 t h e   pr o p o s e m e t h o o u t pe r f o r m s   t h e      a l go r i t hm   i n   a l l   c l us t e r s   e x c e pt   c l u s t e r   n u m b e r   2.     T h e r e f o r e ,   c a n   c o n c l ud e   t h a t   t h e   e v a l ua t i o n   DB I   m e t r i c   s h o we t h e   pr o p o s e a l go r i t hm   s uc c e e de i e v a l ua t i o n   im pr e s s i ve ly   i m a ny   e x pe r i m e n t s ,   wh e t h e r   t h e   n u m be r   o f   c l u s t e r s   i s   o r   m o r e ,   o r   wh e n   t h e   n u m be r   o f   gr o ups   i s   s m a ll ,   r e ga r d l e s s   o f   t h e   pr e s e n c e   o f   s o m e   mi n o r   f a il ur e s .   T h us ,   i t   c a n   b e   s a i t h a t   e a c a l go r i t hm   h a s   s uc c e s s e s   a n f a i l ur e s .   T h e   pr o p o s e M B   a l go r i t hm   c o ns i de r   i s   t h e   b e s t   c o m p a r e w i t h        a l go r i t hm   i t e r m s   o f   r e l a t i o n s hi p s   a n c o r r e l a t i o n s   b e t we e n   c l us t e r s ,   a n w i t h   a   hi e r a r c hi c a c l u s t e r i n a l go r i t hm   f r o m   t h e   n u m be r s   o f   c l us t e r s   ge n e r a t e d.       T a bl e   3 .   E v a l ua t i o n   k - m e a ns   a n pr o po s e m e t h o ds   by   u s i ng  DB I   m e a s ur e   T o p ic  061   N o c lu s te r   D B I  w it k - m e a ns  s c o r e   D B I  w it h pr o p o s e d m e th o d s c o r e   2   3.708   28.712   3   3.987   4.8568   4   3.717   1.6798   5   3.671   1.0024   7   3.201   1.6853   9   3.108   0.7809   10   2.937   0.5763   12   2.817   0.3108   15   2.646   0.0237   19   2.477   0.4966   T o p ic  062   2   3.810   9.4344   3   3.451   2.4584   4   3.435   0.8233   7   3.29 1   0.2568   T o p ic  063   2   4.270   13.7099   3   4.652   11.0973   6   3.971   9.6804   7   3.892   2.04537   T o p ic  064   5   3.538   0.3378   T o p ic  065   2   3.700   12.4589   4   4.708   1.2410   7   3.908   0.3986   13   3.050   0.0265       5.   CONC L USI ON     All   s e n t e n c e s   o f   do c u m e n t s   a r e   r e l e v a n t   to   a   s pe c i f i c   t o pi c   ga t h e r e i o ne   f il e   f o r   s im p li f y i ng ,   t h e n ,   s i mi l a r   s e m a n t i c   s e n t e n c e s   w il l   b e   c o l l e c t e f r o m   t hi s   f il e   a n put   i n   a n   a ppr o pr i a t e   c l us t e r   c o i n e d - c a ll e d   c h a i s e n t e n c e .   Af t e r   c o m p l e t i n t h e   a s s e m b ly   pr oc e s s ,   a   l e xi c a l   c h a i n   s e n t e n c e   ( L CS )   w i ll   be   c r e a t e d.   T h e s e   pr o p o s e m e t h o c h a r a c t e r i s t i c s   a r e   d i f f e r e n t   f r o m   c l u s t e r i n g   a l go r i t hm s   i pr i nc i p l e   b e c a u s e   i t   do e s   n o r e qu i r e   i de n t i f yi ng   t h e   n u m be r   o f   c l u s t e r s   a t   t h e   s t a r t ,   b ut   i t   de c i de s   t h e   n u m be r   o f   c l u s t e r s   a ut om a t i c a ll b a s e o n   t h e   t h r e s h o l va l u e .   W hil e   m o s t   c l u s t e r   a l go r i t hm s   r e qu i r e   i de n t i f yi ng  t h e   n u m be r   o f   c l us t e r s   k   in  b e g i nn i ng  l i k e   K m e a ns   a l g o r it h m .   I i s   s im il a r   t t h e   hi e r a r c hi c a c l us t e r i n a l go r i t hm   i pr i nc i p l e   n o r e qu i r e   t h e   n u m be r   o f       c l u s t e r s   a t   t h e   b e g i nn in g.   W h e r e a s   i t   d if f e r s   f r o m   t h e   hi e r a r c hi c a l   c l u s t e r i n g   a l go r i t hm   be c a u s e   w h e n   wa n t i n t o   m e r ge   a n   i t e m   i a   c l u s t e r ,   t h e   pr o p o s e m e t h o c o m put e s   t h e   d i s t a n c e   b e t we e n   c e n t e r   a n i t e m   o nly   t o   de c i de   m e r ge   o r   not   wi t h o ut   c o m put i n d i s t a n c e   b e t we e n   c o n t e n t   c l u s t e r   a n i t e m .   T h e   m e r ge   c o n d i t i o n   w h e t h e r   mi n \ m a x   de p e n d s   o n   t h e   d a t a   t y pe   u s e i wo r a l s o   a c c o r di ng  to   t h e   t h r e s h o l v a l ue .   T h us ,   t hi s   m e t h o i s   l e s s   e x pe n s i v e .   W hil e   i n   hi e r a r c hi c a l   c l us t e r i n m e r ge   pr o c e s s   i t e m   w i t c l u s t e r   o c c ur s   by   c o m put i n d i s t a n c e   b e t we e n   c o nt e n t   c l us t e r   w i t h   a n   i t e m   t he n   s e l e c t   m i n \ m a x   d i s t a n c e   t hi s   de pe n d s   o n   t h e   da t a   t y pe   a n n o r e qui r e   t o   i de nt i f y   t h r e s h o l v a l u e   i n   o r de r   gr o upi n po i n t s   ( s e n t e n c e s ) .   T h us ,   hi e r a r c hi c a l   c l u s t e r i n c o ns i de r s   m o r e   e x p e n s i ve .   I n   ge n e r a l ,   t hi s   m e t h o i s   s u i t a bl e   f o r   c l u s t e r i n a ny   n u m e r i c a l   d a t a   t y pe .   T h e   c o l l e c t   n u m e r i c a l   da t a   a r e   unl a be l e i n   c l us t e r s .   T hi s   i s   v e r y   im po r t a n f o r   e a s i l y   de a l i ng.   T h e   c l u s t e r i n a l go r i t hm s   h e l t o   pl a c e   c l o s e   da t a   i a   s pe c if i c   c l u s t e r .   T hi s   wo r ha s   t a ke n   t wo   a l go r i t hm s   c l us t e r i n a r e   hi e r a r c hi c a l   c l u s t e r i n ( HC ) ,   a n K - c l us t e r i n a n c o m pa r e t h e m   to  t h e   pr opo s e m e t h o r e s u l t s .   T h e   o u t pu t   o f   t hi s   a ppr o a c h   c l a r if ied  t h a t   i t   i s   t h e   be s t   i n   m o s t   e x pe r i m e n t s   c o n duc t e d.   Al s o ,   t hi s   pa pe r   s uc c e s s   i n   c r e a t i n a   l e xi c a l   c h a i b a s e d   o n   s e n t e n c e   ( L CS )   t h us   be c o m e s   t h e r e   f l e xi b l e   t o   de a l   w i t h   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i ,   Vo l .   24 ,   N o .   2 ,   N o v e m b e r   2021 1054  -   1062   1062   s e n t e n c e s   a s   a   c o m p l e t e   s e n t e n c e   i n   t h e   c h a i b a s e o n   s e m a n t i c   s e n t e nc e   s im il a r i t y .   T he   f ut ur e   wo r i s   t a pp l y   t hi s   pr o po s e m e t h o to   ot h e r   da t a s e t s   a n c o m pa r e   i t   w i t h   ot h e r   a l go r i t hm s .   Al s o ,   a f t e r   s uc c e s s   in   c r e a t i n a   l e xi c a l   c h a i b a s e o n   s e n t e n c e   ( L C S ) ,   w i ll   u s e   to   e x t r a c s e n t e n c e s   to   f o r m i ng  a   s u mm a r y   i n   t he   n e x t   l a t e r .       RE F E R E NC E S   [1 ]   S.   V .   W azark ar   an d   A .   A .   Man j r e k ar,   " H FRE CC A   fo r   c l u s t e ri n g   o t e x t   d at fro m   t rav e l   g u i d e   art i c l e s , "   i n   2 0 1 4   In t e r n a t i o n a l   Co n f er en ce  o n   A d v a n ce s   i n   Co m p u t i n g ,   Co m m u n i c a t i o n s   a n d   I n f o r m a t i c s   (ICA CCI) ,   D e l h i ,   In d i a,   2 0 1 4 ,   d o i :   1 0 . 1 1 0 9 / I CA CCI . 2 0 1 4 . 6 9 6 8 3 4 9 .   [2 ]   M.   A .   B.   S i d d i q u e ,   R.   B .   A r i f,   M.   M.   Rah m a n   K h an ,   an d   Z .   A s h rafi ,   " Im p l eme n t at i o n   o F u zz y   C - M e a n s   an d   Po s s i b i l i s t i c   C - M e an s   Cl u s t e ri n g   A l g o ri t h m s ,   Cl u s t e T e n d en cy   A n al y s i s   an d   C l u s t e r   V a l i d at i o n , "   A r X i v,   v o l .   1 ,     p p .   1 - 8 ,   N o v   2 0 1 8 ,   d o i :   1 0 . 2 0 9 4 4 / p re p ri n t s 2 0 1 8 1 1 . 0 5 8 1 . v 1 .   [3 ]   F.   K u w i l ,   Ü .   A t i l a,   R.   A b u - I s s a ,   an d   F.   M u rt ag h ,   " A   n o v el   d at c l u s t e ri n g   a l g o ri t h m   b as ed   o n   g ra v i t y   cen t e r   me t h o d o l o g y , "   E xp er t   S ys t em s   w i t h   A p p l i c a t i o n s ,   v o l .   1 5 6 ,   O c t   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . e s w a. 2 0 2 0 . 1 1 3 4 3 5 .   [4 ]   H .   R e zan k o v á  a n d   B.   E v e ri t t , " C l u s t e r   a n al y s i s   an d   c at eg o ri c a l   d at a, "   S t a t i s t i ka ,   v o l .   8 9 ,   n o .   3 ,   p p .   2 1 6 - 2 3 2 ,   2 0 0 9 .   [5 ]   P.   K .   K i me s ,   Y .   L i u ,   D .   N .   H a y e s ,   an d   J .   S.   Marro n ,   " St at i s t i c a l   Si g n i fi c a n ce   fo H i e rar ch i c a l   Cl u s t e ri n g , "   B i o m et r i cs ,   v o l .   7 3 ,   n o .   8 ,   p p .   8 1 1 - 8 2 1 ,   2 0 1 7 ,   d o i :   1 0 . 1 1 1 1 / b i o m . 1 2 6 4 7 .   [6 ]   I .   C h a m i ,   A .   G u ,   V .   C h at zi afrat i s ,   an d   C .   Ré,   " Fr o m   T ree s   t o   Co n t i n u o u s   E m b ed d i n g s   an d   Ba ck : H y p e r b o l i c   H i e rar c h i c al   Cl u s t e ri n g , "   a r X i v,   v o l .   1 ,   p p .   1 - 2 7 ,   1   O c t   2 0 2 0 ,   d o i :   2 0 1 0 . 0 0 4 0 2 v 1 .   [7 ]   J .   L e s k o v ec,   R.   A n a n d ,   an d   D .   U .   J e ffr ey ,   Mi n i n g   o m as s i v e   d at s e t s ,   Cam b ri d g e   u n i v e rs i t y   p r e s s ,   2 0 2 0 ,     p p .   5 6 6 ,   d o i :   1 0 . 1 0 1 7 / c b o 9 7 8 1 1 3 9 9 2 4 8 0 1 . 0 0 1 .   [8 ]   M.   Ch ari k ar ,   V .   Ch at zi afrat i s ,   an d   R.   N i aza,   " H i e rar c h i cal   Cl u s t e r i n g   b e t t e t h an   A v e ra g e - L i n k ag e , "   i n   P r o ceed i n g s   o f   t h 2 0 1 9   A n n u a l   A CM - S IA M   S ym p o s i u m   o n   D i s c r et e   A l g o r i t h m s ,   2 0 1 9 ,   d o i :   1 0 . 1 1 3 7 / 1 . 9 7 8 1 6 1 1 9 7 5 4 8 2 . 1 3 9 .   [9 ]   M.   A .   Raj ab   an d   L .   E .   G eo rg e ,   " St a m p s   e x t rac t i o n   u s i n g   l o c al   ad ap t i v e   k -   me a n s   an d   ISO D A T A   al g o r i t h m s , "   In d o n e s i a n   J o u r n a l   o f   E l ect r i c a l   E n g i n ee r i n g   a n d   C o m p u t er   S ci e n ce,   v o l .   2 1 ,   n o .   1 ,   p p .   1 3 7 - 1 4 5 ,   J an   2 0 2 1 ,     d o i :   1 0 . 1 1 5 9 1 / i j e ec s . v 2 1 . i 1 . p p 1 3 7 - 1 4 5 .   [1 0 ]   S.   Y u ,   S.   C h u ,   C.   W a n g ,   Y .   K .   Ch an ,   an d   T .   C.   C h an g ,   " T w o   i m p ro v e d   k - me an s   al g o r i t h m s , "   A p p l i e d   S o f t   Co m p u t i n g ,   v o l .   6 8 ,   p p .   7 4 7 - 7 5 5 ,   J u l   2 0 1 8 ,   d o i :   1 0 . 1 0 1 6 / j . as o c . 2 0 1 7 . 0 8 . 0 3 2 .   [1 1 ]   S.   G u h a   an d   N .   M i s h ra,   " Cl u s t e ri n g   d at s t re a m s .   In   D at s t re a m an a g eme n t , "   D a t a - Cen t r i S ys t em s   a n d   A p p l i ca t i o n s ,   p p .   1 6 9 - 1 8 7 ,   2 0 1 6 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 540 - 2 8 6 0 8 - 0 _ 8 .   [1 2 ]   S.   Z ah ra,   M.   A .   G h azan far,   A .   K h al i d ,   M.   A .   A za m ,   U .   N a eem ,   a n d   A .   P.   B e n n e t t ,   " N o v e l   C e n t ro i d   S el ec t i o n   A p p ro ac h e s   fo r   K M e an s - Cl u s t e ri n g   Bas ed   R ec o mmen d e r , "   In f o r m a t i o n   S ci e n ces ,   v o l .   3 2 0 ,   p p .   1 5 6 - 1 8 9 ,   2 0 1 5 ,     d o i :   1 0 . 1 0 1 6 / j . i n s . 2 0 1 5 . 0 3 . 0 6 2 .     [ 1 3 ]   A .   M u s t a q e e m ,   S .   M .   A n w a r ,   a n d   M .   M a j i d ,   " A   M o d u l a r   C l u s t e r   B a s e d   C o l l a b o r a t i v e   Re c o m m e n d e r   Sy s t e m   f o r   C a rd i ac   P a t i e n t s , "   A r t i f i c i a l   I n t e l l i g e n c e   i n   M e d i c i n e ,   v o l .   1 0 2 ,   p .   1 0 1 7 6 1 ,   J a n   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . a r t m e d . 2 0 1 9 . 1 0 1 7 6 1 .     [ 1 4 ]   T .   W e i ,   Y .   L u ,   H .   C h a n g ,   Q .   Z h o u ,   a n d   X .   B a o ,   " A   s e m a n t i c   a p p r o ac h   f o r   t e x t   c l u s t e ri n g   u s i n g   W o r d N e t   a n d   l e x i c al   c h ai n s , "   E x p e r t   S y s t e m s   w i t h   A p p l i c a t i o n s ,   v o l .   4 2 ,   n o .   4 ,   p p .   2 2 6 4 - 2 2 7 5 ,   Mar  2 0 1 5 ,   d o i :   1 0 . 1 0 1 6 / j . e s w a . 2 0 1 4 . 1 0 . 0 2 3 .   [1 5 ]   L .   M.   A b u al i g a h ,   A .   T .   K h ad e r ,   an d   M.   A .   A l - B e t ar ,   " Mu l t i - o b j ec t i v e s - b as e d   t e x t   cl u s t e r i n g   t ec h n i q u e   u s i n g     K - me a n   a l g o ri t h m , "   i n   7 t h   i n t er n a t i o n a l   C o n f er e n ce  o n   Co m p u t er   S ci e n ce  a n d   I n f o r m a t i o n   Tec h n o l o g (CS IT) A mm an ,   J o r d an ,   2 0 1 6 ,   d o i :   1 0 . 1 1 0 9 / CSI T . 2 0 1 6 . 7 5 4 9 4 6 4 .   [1 6 ]   M.   K a l ra,   N .   L a l ,   an d   S.   Q am ar,   " K -   Me a n   Cl u s t e r i n g   A l g o ri t h m   A p p ro ac h   fo D at Mi n i n g   o H e t e r o g en e o u s   D at a, "   In f o r m a t i o n   a n d   Co m m u n i ca t i o n   Tec h n o l o g f o r   S u s t a i n a b l D evel o p m e n t ,   p p .   6 1 - 7 0 ,   2 0 1 8 ,     d o i :   1 0 . 1 0 0 7 / 9 7 8 - 9 8 1 - 10 - 3 9 2 0 - 1 _ 7 .   [1 7 ]   A .   T i w ari   an d   D .   D em b l a ,   " A   N o v el   A l g o r i t h m   fo A u t o m at i c   T e x t   Su mm ari zat i o n   S y s t em   U s i n g   L e x i c a l   Ch ai n , "   A d va n ce s   i n   I n t e l l i g e n t   S y s t em s   a n d   Co m p u t i n g ,   v o l .   9 0 4 ,   p p .   1 0 3 - 1 1 2 ,   2 0 1 9 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 9 81 - 13 - 5 9 3 4 - 7 _ 1 0 .   [1 8 ]   M.   Be r k e an d   T .   G ü n g ö r,   " U s i n g   G e n e t i c   A l g o r i t h m s   w i t h   L e x i c a l   Ch a i n s   fo A u t o m at i c   T e x t   Su mm ar i zat i o n , "   P r o ceed i n g s   o f   t h 4 t h   In t e r n a t i o n a l   Co n f e r e n ce  o n   A g en t s   a n d   A r t i ci a l   I n t e l l i g e n ce ,   2 0 1 2 ,     d o i :   1 0 . 5 2 2 0 / 0 0 0 3 8 8 2 4 0 5 9 5 0 6 0 0 .   [1 9 ]   S.   Sax e n a   an d   A .   Sax e n a,   " A n   E ffi ci e n t   Me t h o d   b as ed   o n   L e x i c al   Ch a i n s   fo A u t o m at i c   T e x t   Su mm ar i zat i o n , "   In t e r n a t i o n a l   Jo u r n a l   o f   Co m p u t e r   A p p l i c a t i o n s ,   v o l .   1 4 4 ,   n o .   1 ,   p p .   4 7 - 5 2 ,   2 0 1 6 ,   d o i :   1 0 . 5 1 2 0 / i j c a2 0 1 6 9 1 0 1 0 4 .     [2 0 ]   C.   Mal l i ck ,   M.   D u t t a,   A .   K .   D as ,   A .   Sar k ar ,   a n d   A .   K .   D as ,   " E x t rac t i v e   S u mm ari zat i o n   o a   D o c u men t   U s i n g   L e x i c a l   C h ai n s , "   S o f t   Co m p u t i n g   i n   D a t a   A n a l yt i cs ,   p p .   8 2 5 - 8 3 6 ,   2 0 1 9 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 9 8 1 - 13 - 0 5 1 4 - 6 _ 7 8 .   [2 1 ]   D .   C e et   a l . ,   " U n i v e rs al   S en t en ce   E n c o d e r, "   a r X i v,   v o l .   2 ,   2 0 1 8 ,   d o i :   arX i v : 1 8 0 3 . 1 1 1 7 5 v 2 .   [2 2 ]   A .   J o s h i ,   S.   K ari mi ,   R.   Sp ark s ,   C.   Pari s ,   an d   C.   R.   Ma cI n t y r e,   " A   C o m p ari s o n   o W o r d - b as e d   an d   Co n t e x t - b a s e d   Re p re s e n t at i o n s   fo Cl as s i fi c at i o n   Pr o b l em s   i n   H e al t h   In fo r m at i c s , "   i n   1 8 t h   B i o NLP   W o r ks h o p   a n d   S h a r e d   Ta s k Fl o r e n ce,   I t al y ,   2 0 1 9 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / w 19 - 5 0 1 5 .   [2 3 ]   R.   A h u j an d   W .   A n an d ,   " M u l t i - d o cu me n t   T e x t   Su mm ari zat i o n   U s i n g   Sen t en ce   E x t rac t i o n , "   S p r i n g er ,   v o l .   5 1 7 ,     p p .   2 3 5 - 2 4 2 ,   2 0 1 7 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 9 8 1 - 10 - 3 1 7 4 - 8 _ 2 1 .   [ 2 4 ]   N .   Mo ra t an c h   an d   S.   Ch i t rak al a ,   " A   Su rv e y   o n   A b s t rac t i v e   T e x t   Su m m ari z a t i o n , "   i n   I n t e r national  C onf e re n c e   on  C i r c u i t ,   P o w e r   a n d   C o m p u t i n g   T ec h n o l o g i e s   [ IC CP CT ] ,   N ag e rc o i l ,   I n d i a,   2 0 1 6 ,   d o i :   1 0 . 1 1 0 9 / I C CP C T . 2 0 1 6 . 7 5 3 0 1 9 3 .   [2 5 ]   D .   L .   D a v i e s   an d   D .   W .   Bo u l d i n ,   " A   C l u s t e S e p arat i o n   M e as u r e , "   IE E E   Tr a n s a c t i o n s   o n   P a t t e r n   A n a l y s i s   a n d   M a ch i n In t e l l i g e n ce,   vol .   PA M I - 1 ,   n o .   2 ,   p p .   2 2 4 - 2 2 7 ,   1 9 7 9 ,   d o i :   1 0 . 1 1 0 9 / t p am i . 1 9 7 9 . 4 7 6 6 9 0 9 .   Evaluation Warning : The document was created with Spire.PDF for Python.