I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   7 ,   No .   1 Feb r u ar y   201 7 ,   p p .   5 5 1 ~ 55 8   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 7 i 1 . p p 5 5 1 - 5 5 8           551       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   A n I m pro v ed Si mila rity Ma tching  b a sed Cluste ring   Fra m ew o rk   for Sho rt  and Sen tence  L ev el Tex t       M .   J o hn   B a s ha 1 ,   K . P .   K a liy a m u rt hie 2   1 De p a rtme n o f   CS E,   P . T . C o ll e g e   o f   En g in e e rin g   &   T e c h n o l o g y ,   M a d u ra i,   T a m il   Na d u   6 2 5 0 0 8 ,   I n d ia   2 De p a rtme n o f   CS E,   Bh a ra th   Un i v e rsit y ,   Ch e n n a -   6 0 0 0 7 3 ,   T a m il   Na d u ,   I n d ia         Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Au g   1 9 ,   2 0 1 6   R ev i s ed   Oct   2 1 ,   2 0 1 6   A cc ep ted   No v   5 ,   2 0 1 6       T e x c lu ste rin g   p la y a   k e y   ro le  in   n a v ig a ti o n   a n d   b ro w sin g   p ro c e ss .   F o a n   e ff ici e n tex c lu ste rin g ,   th e   lar g e   a m o u n o f   in f o rm a ti o n   is  g ro u p e d   in to   m e a n in g f u c lu ste rs.  M u lt i p le  te x c lu ste rin g   tec h n i q u e d o   n o t   a d d re ss   th e   issu e su c h   a s,  h ig h   ti m e   a n d   sp a c e   c o m p lex it y ,   in a b il it y   to   u n d e rsta n d   th e   re latio n a a n d   c o n tex tu a a tt rib u te o f   th e   w o rd ,   les ro b u stn e ss ,   ris k re late d   to   p riv a c y   e x p o su re ,   e tc.  T o   a d d re ss   th e se   issu e s,  a n   e ff icie n tex b a se d   c lu ste rin g   f ra m e w o rk   is  p ro p o se d .   T h e   Re u ters   d a tas e t   is  c h o se n   a th e   in p u t   d a tas e t.   On c e   th e   in p u d a tas e is  p re p ro c e ss e d ,   th e   sim il a rit y   b e tw e e n   th e   w o rd a re   c o m p u ted   u sin g   th e   c o sin e   sim il a rit y .   T h e   si m il a rit ies   b e twe e n   th e   c o m p o n e n ts  a re   c o m p a re d   a n d   th e   v e c to d a ta  is  c re a ted .   F ro m   th e   v e c to d a ta  th e   c lu ste rin g   p a rti c le  is  c o m p u ted .   T o   o p ti m ize   th e   c lu ste ri n g   re su lt s,  m u tatio n   is  a p p li e d   t o   t h e   v e c to d a ta.  T h e   p e rf o rm a n c e   th e   p ro p o se d   tex t   b a se d   c lu ste rin g   f r a m e w o rk   is  a n a ly z e d   u sin g   th e   m e tri c su c h   a M e a n   S q u a re   Err o (M S E) ,   P e a k   S ig n a No ise   Ra t io   (P S NR)  a n d   P ro c e ss in g   ti m e .   F ro m   th e   e x p e rim e n tal  re su lt s,  it   is  f o u n d   th a t,   t h e   p r o p o se d   t e x b a se d   c lu ste rin g   f ra m e w o rk   p ro d u c e d   o p ti m a M S E,   P S NR  a n d   p ro c e ss in g   ti m e   w h e n   c o m p a r e d   to   t h e   e x isti n g   F u z z y   C - M e a n (F CM a n d   P a irw ise   Ra n d o m   S w a p   (P RS m e t h o d s.   K ey w o r d :   Fu zz y   c - m ea n s   ( F C M)   Me an   s q u ar er r o r   ( MSE )   P air w is r an d o m   s w ap   ( P R S)   P ar ticle  s w ar m   o p ti m izatio n   ( P SO)     P ea k   s ig n al  n o i s r atio   ( P SNR )   T ex t c lu s ter i n g   Co p y rig h ©   2 0 1 7   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   M.   J o h n   B ash a ,   A P   &   Hea d ,     Dep ar t m en t o f   C SE,     P . T . R   C o lleg o f   E n g i n ee r in g   &   T ec h n o lo g y ,   Ma d u r ai,   T am il Na d u   6 2 5 0 0 8 ,   I n d ia .   E m ail:        1.   I NT RO D UCT I O N   T ex clu s ter i n g   i s   th p r o ce s s   o f   m a n ag in g   t h lar g a m o u n t   o f   d ig itall y   s to r ed   elec tr o n ic  d ata.   T h h ig h   v o l u m o f   d ata  is   u s ed   f o r   th d ata  an aly s is ,   clas s i f icatio n   an d   r etr iev al  tech n iq u es.  I n   ca s o f   th e   p r o to ty p b ased   clu s ter i n g ,   t h s eq u en ce   o f   t h p r o to t y p e s   ar u s ed   f o r   f i n d in g   t h b e s f it  d ata  w i th   th e   u n k n o w n   s tr u ct u r es.  T o   r ep r esen t h cl u s ter s   in   k - m ea n s ,   o n l y   s in g le  p r o to t y p is   u s ed .   Mu ltip le  r ea ap p licatio n s   u s t h p r o to ty p b ased   clu s ter in g   b ec au s e,   it   p r o v id es  less   co m p u tatio n a an d   m e m o r y   s p ac e.   Sev er al  o t h er   m e th o d s   h a v b ee n   d ev elo p ed ,   w h ic h   ar b ased   o n   s to ch ast ic  g lo b al  o p ti m izat io n   s u c h   a s   s i m u lated   an n ea li n g   an d   g en e tic  alg o r ith m s .   B u th e s m et h o d s   p r o v id h ig h   ti m co m p lex i t y .   C l u s ter in g   alg o r ith m   a n d   cl u s ter   v al id it y   ar t h e   co m m o n l y   u s ed   co r r elate d   p ar ts   i n   t h cl u s ter   an a l y s i s .   Ge n er all y ,   to   p r ev en t h in itializatio n   p r o b le m s ,   t h k - m ea n s   al g o r ith m   i s   ex ec u ted   m an y   ti m e s   w it h   d if f er en p ar a m e ter s .   T h o p tim al  s o l u tio n   i s   p r o v id ed   as  th r esu lt.  T h q u alit y   o f   th cl u s ter i n g   i s   co m p u ted   u s i n g   co s f u n ctio n .   T h ec ateg o r izatio n   o f   th d ataset  d ep en d s   o n   th co s f u n ctio n .   T h clu s ter i n g   m et h o d s   ar class if ied   a s   d en s it y - b a s ed   m eth o d s ,   g r ap h   b ased   m eth o d s ,   g r id   b ased   m et h o d s   an d   m eth o d s   f o r   h i g h   d i m en s io n a s p ac d ata.   T h m aj o r   is s u es  i n   t h ex is t in g   cl u s ter i n g   al g o r ith m s   in cl u d e,   h i g h   p r o ce s s in g   t i m co n s u m p tio n   an d   h ig h   co m p le x it y .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   55 1     558   552   Gra n a d o s ,   et  a l   [ 1 ]   p r o p o s ed   B   Or j ae   tech n iq u to   clu s ter   t h te x ts   b ased   o n   th s tr i n g   co m p r es s io n .   I ef f ec ti v el y   co m p u ted   th d is to r tio n   p r e s e n in   th i n f o r m atio n   o f   t h tex t.  W h en   th p r o p o s ed   tech n iq u w as  ap p lied   f o r   th s tr u ctu r al  d ataset s ,   th s tr u ct u r o f   th d ataset  w a s   co m p le tel y   d estro y ed .   Lee,   et  a l   [ 2 ]   s u g g ested   f u zz y   b ased   m et h o d   to   class i f y   th t ex p r esen in   m u lti  ca te g o r y   d o cu m en t.  A   f u zz y   r elev an ce   m ea s u r w as  u s ed   to   co n v er th h i g h   d i m e n s io n al  d o cu m en in to   lo w   d i m en s io n al  d o cu m en t.   T h p r o p o s ed   clu s ter in g   tec h n iq u s p litt ed   t h r elev a n ce   s p a ce   in to   m u lt ip le  s u b   r eg io n s .   T h in d iv id u a s u b   r eg io n s   w er t h en   co m b i n ed   to   cr ea te  th in d iv id u a ca teg o r y .   T h s u g g e s ted   clu s ter in g   m eth o d   p r o v id ed   o p tim a p er f o r m an ce   a n d   s p ee d   th an   th o t h er   tex cl u s ter i n g   tec h n iq u es.  W e i,  et  a l   [ 3 ]   p r o p o s ed   lex ical   ch ain   b ased   w o r d n et.   I t   u s ed   t h eo n to lo g y   h ier ar ch ica s tr u ct u r to   d eter m in e   th e   s i m ilar i t y   b et w ee n   th e   ter m s   o f   th w o r d s .   T h lex ical  ch ai n   w a s   u s ed   to o b tain   t h s e m a n tic  r ela tio n s h ip   o f   th e   w o r d s   p r esen i n   th e   te x t.  W h en   co m p ar ed   to   th clas s ic al  m et h o d s ,   th p r o p o s ed   m et h o d   in cr ea s ed   th p er f o r m an ce .   P en g ,   et  a [ 4 ]   p r o p o s ed   n o v el  C F u - tr ee   b ased   d o w n - to p   in cr e m e n tal   co n ce p tu a h ier ar ch ical  te x t   clu s ter i n g   ap p r o ac h   f o r   clu s te r in g   t h tex i n   t h d o cu m e n t.  T h co m p ar is o n   v ar ia tio n   ( C V)   cr iter io n   d ec id ed   w h et h er   to   m er g o r   s p lit  t h clu s ter s .   W h en   co m p ar ed   to   th ex is ti n g   K - Me an s   al g o r ith m ,   t h p r o p o s ed   tex clu s ter i n g   alg o r ith m   w as  e f f ici en t.  Yu a n   a n d   S h i   [ 5 ]   p r o p o s e d   tex clu s ter in g   alg o r it h m   t o   p r ev en th is s u e s   in   th d i v is io n   b ased   clu s ter i n g   m et h o d .   T h co m p lex   f ea tu r es  s u c h   as,  s y n o n y m   an d   co - o cc u r r in g   w o r d s   w er o b tain ed   f r o m   th m u lti p le  s e m a n tic  in f o r m at io n .   U s i n g   th e   d iv id a n d   co n q u er   tec h n iq u e,   t h iter atio n   en d ed   w it h   t h ex p ec ted   cl u s ter   n u m b er .   B y   d y n a m ica ll y   u p d atin g   th ce n ter   n u m b er ,   o p tim a clu s ter i n g   r esu lt s   w er o b tain ed .   B h a r th i,  et  a l   [ 6 ]   s u g g ested   t h r ee - s tag d i m e n s io n   r ed u ctio n   m o d el  to   g en er ate  an   in f o r m ati v f ea tu r s u b s p ac e.   T h d im e n s io n s   o f   t h f ea t u r s p ac w er m in i m ized .   T h to tal  ex ec u tio n   ti m e   f o r   cr ea tin g   t h clu s ter   an d   cr ea tin g   t h d o cu m e n cl u s ter   was  s i g n if ica n tl y   r ed u ce d .   S o n g ,   et  a l   [ 7 ]   p r o p o s e d   n o v el  h y b r id   s e m a n tic   s i m il ar it y   m ea s u r b ased   f u zz y   co n tr o Gen e tic  A l g o r ith m   ( G A)   f o r   clu s ter in g   t h e   d o cu m en ts .   T h Se m a n tic   Sp ac Mo d el  ( SS M)   w a s   u s ed   a s   t h co r p u s - b ased   m et h o d .   T h r ed u ctio n   i n   th e   d i m en s io n s   o f   t h S SM  w as  u s ed   to   o b tain   th tr u r elatio n s h ip   b et w ee n   t h d o cu m e n ts .   T h t h esa u r u s   b a s ed   m et h o d   w as  co m b in ed   w it h   t h SS to   p r o v id th s e m a n tic  s i m i lar it y   m ea s u r e.   W h e n   co m p ar ed   to   th tr ad itio n al  G A ,   t h p r o p o s ed   h y b r id   s e m a n tic  s tr ate g y   p r o v id ed   o p tim al  p er f o r m a n ce .   Go n g ,   et  a l   [ 8 ]   p r o p o s ed   v alid it y   in d e x   b as ed   m eth o d   to   ad d r ess   t h is s u es  o f   t h ad ap tiv f ea t u r s ele ctio n   f o r   cl u s ter i n g   th tex s tr ea m .   T h th r es h o ld   o f   th clu s ter   v alid   i n d ex   w as   u s ed   to   r eselect  th f ea tu r e s   f o r   cr ea tin g   v alid   clu s ter .   T h q u alit y   o f   th p r o p o s ed   clu s ter in g   al g o r ith m   w a s   h i g h .   Ya o ,   et  a l   [ 9 ]   p r o p o s e d   k - m ea n s   b ased   C h i n e s tex cl u s ter in g   al g o r ith m   to   clu s ter   th te x t.  T h av er ag s i m ilar it y   p ar a m eter   w a s   u s ed   to   o b tain   t h e   s i m ilar it y   th r es h o ld   v al u e.   I n it iall y ,   t h o r ig i n al  cl u s ter   ce n te r   th at  w as  ab o v th t h r es h o ld     v al u w as  c h o s e n   as th e   ca n d id ate  co llectio n ,   th en   t h cl u s ter   L in ,   et  a l   [ 1 0 ]   p r o p o s ed   n o v el  s i m ilar it y   m ea s u r to   co m p u te  t h e   s i m ilar it y   b et w ee n   t w o   d o cu m en ts .   T h p r o p o s ed   m et h o d   co n s id er ed   th s i tu at io n s ,   s u c h   as,  f ea tu r e s   in   b o t h   th d o cu m e n t s ,   f ea t u r es  i n   o n l y   o n d o cu m e n a n d   f ea t u r es  ab s en i n   b o th   th d o cu m en ts .   I f   b o th   t h e   d o cu m en ts   h ad   t h f ea t u r es,   th s i m ilar it y   b et w ee n   t h e m   w a s   i n cr ea s ed .   I f   o n l y   o n e   d o cu m e n h ad   t h f ea t u r es,  t h en   f i x ed   v a lu w a s   ch o s en   a s   t h s i m i lar it y .   I f   n o n o f   th d o cu m e n ts   h ad   th f ea tu r es,  th e   s i m ilar it y   v alu e   w as   f o u n d   t o   b ab s en t.  W h en   co m p ar e d   to   th e   o th er   m ea s u r e s ,   t h e   p r o p o s ed   m et h o d   p r o d u ce d   o p tim a l r esu l ts .   Liu ,   et  a l   [ 1 1 ]   p r o p o s ed   a   s em an tic  tr ee   b ased   tex clu s ter in g   al g o r ith m   f o r   clu s ter in g   t h p ar allel   tex ts .   T h p ar allel  alg o r it h m s   w er e   u s ed   to   m in i m ize   t h t i m co m p lex i t y .   I t   in itiated   t h p r o ce s s es   at  t h e   s a m t i m e.   T h m aster   p r o ce s s   p er f o r m ed   t h d ata  p ar titi o n i n g ,   i n f o r m atio n   co llect io n   an d   cl u s ter i n g   p r o ce s s es.  T h s la v p r o ce s s   ca lcu lated   t h w o r d   f r eq u en c y .   T h p r o p o s ed   alg o r ith m   p r o d u ce d   ac c u r ate  r esu lt s   w i th   les s   ti m co m p lex it y .   L i,  et  a l   [ 1 2 ]   s u g g est ed   Fu zz y   Ma h ala n o b is   d is tan ce s   b ased   tex t   clu s ter i n g   al g o r ith m   to   i n cr ea s th e   p r ec is io n   a n d   e f f icien c y   o f   th e   d ataset.   T h p r o p o s ed   m et h o d   w a s   f o u n d   to   b m o r v alid   th a n   t h tr ad i tio n al  f u z z y   p ar titi o n i n g   te x c lu s ter i n g   alg o r it h m s .   N g u ye n ,   et  a l   [ 1 3 ]   an aly ze d   th q u alit y   is s u e s   o f   th cl u s t er in g   r es u lts .   T h ex te n d ed   Se m an tic  E v al u atio n   b y   E x p lo r atio n   ( SEE )   m e th o d   w a s   u s ed   to   r etr iev e   th e   I N FON A   d o cu m e n ts .   Ga o ,   et  a [ 1 4 ]   p r o p o s ed   g en etic   a lg o r ith m   b ased   te x t   clu s ter i n g .   I in te g r ated   th l aten s e m a n tic  a n al y s i s .   W h e n   co m p ar ed   to   th s i n g le  cl u s ter in g   m eth o d ,   th e   p r o p o s ed   clu s ter in g   al g o r ith m   p r o v id ed   o p tim a clu s ter in g   s o lu tio n s .   S h i,  et  a l   [ 1 5 ]   p r o p o s ed   p aten ted   tex t   clu s ter i n g   al g o r i th m   n a m ed ,   C l u s ter i n g   b y   Gen et ic  A l g o r ith m   Mo d el  ( C G A M) .   T h p r o p o s ed   m o d el  in te g r ated   th e   f it n es s   f u n ctio n   i n   th e   Ge n etic  Alg o r it h m   ( GA )   an d   co n v er g en ce   cr iter i o n   i n   t h K - Me a n s   alg o r ith m .   W h en   co m p ar ed   to   th tr ad itio n al  GA   an d   K - Me an s ,   th p r o p o s ed   alg o r ith m   o b tai n ed   o p tim a l   clu s ter i n g   r esu lt s .   Su m m ar iza tio n   o f   d o cu m e n ts   b ased   o n   th s a m to p ics  p la y   t h m aj o r   r o le   in   th q u ick   u n d er s ta n d in g   a n d   cr ea tio n   o f   lea g al  j u d g e m en t s   b et w ee n   th d o cu m en t s   an d   to p ics.  V e n ka tesh   et  a l   [ 16 ]   u tili ze d   th e   h ier ar c h ical  L ate n D ir ich let   A llo ca tio n   ( h L D A )   u s in g   s i m ilar it y   m ea s u r b et w ee n   to p ics   an d   d o cu m en ts   an d   to   f i n d   th s u m m ar izatio n   o f   ea ch   d o cu m en u s i n g   t h s a m to p ics.  T h p r o ce s s in g   o v er h ea d   is   h ig h   d u to   t h m o r n u m b er   o f   p o s tag g er s ,   p r o ce s s i n g   to o ls   a n d   d iv er s c h o ices  o f   n at u r al  la n g u a g e   p r o ce s s in g   s ce n ar io s   i n   cl u s t er in g   al g r o tih m s .   B a n o   et  a [ 17 ]    cr ea ted   th lar g s ca le  co r p u s   w it h   t h e   an n o tatio n   o f   d is ea s n a m e s   t h at  tr ai n   th p r o b ab ilis tic  n eu r al  n et w o r k   m o d el.   T h e y   e m p lo y ed   t h co n te x t   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708     A n   I mp r o ve d   S imila r ity  Ma tch in g   B a s ed   C lu s teri n g   F r a mewo r fo r   S h o r t a n d   S en te n ce     ( M.  Jo h n   B a s h a )   553   r an k   b ased   h ier ar ch ical  cl u s t er in g   m eth o d   an d   o p ti m al  r u le  f il ter in g   alg o r it h m   to   r em o v t h u n w an te d   s p ec ial  ch ar ac ter s   i n   th d atas ets.   T h s en ten ce   clu s ter in g   is   u s e d   in   m u ltip le  ap p licatio n s   s u c h   as,  class i f icatio n   an d   ca teg o r izatio n   o f   th d o cu m e n t s ,   au to m at ic  s u m m ar y   g e n er atio n ,   o r g a n izi n g   th d o cu m en t s ,   etc.   I n   tex p r o ce s s in g ,   th e   s en te n ce   clu s ter i n g   is   u s ed   f o r   th tex m in in g   p r o ce s s .   T h s ize  o f   th cl u s ter   is   u n iq u f o r   ea ch   clu s ter .   T h ex is t in g   s en te n ce   cl u s ter in g   al g o r ith m s   cr e ate  m u l tip le  is s u e s ,   s u ch   as,  co m p le x it y ,   s en s iti v it y ,   i n s tab ilit y ,   etc .   C o m p ar ed   to   th s en te n ce   cl u s ter in g ,   th cl u s ter i n g   o f   th s h o r tex ts   ar v er y   d i f f ic u lt.  As  th s h o r tex t s   in   th co m m er cial  p r o d u cts,  n e w ,   F A Q s   an d   s cie n ti f ic  ab s tr ac ts   ar w id el y   u s ed   b y   th u s er s   in   r ea lif e,   t h clu s ter i n g   o f   th e   s h o r tex t s   d em a n d s   f o c u s .   I n   t h is   p ap er ,   th p r o p o s ed   tex b ased   cl u s ter in g   f r a m e w o r k   clu s ter s   th s e n te n ce s   a s   w ell  as th s h o r t te x t s .   T h p r o p o s ed   alg o r ith m   i s   e x ec u ted   till   t h d u p licate  c lu s te r s   ar r e m o v ed .   A f ter   th r e m o v al  o f   t h u n w an ted   w o r d s ,   t h p r o p o s e d   s y s te m   c h ec k s   all   th w o r d s   in   t h d o cu m en f o r   f in d i n g   t h ex ac w o r d .   T h e   s i m ilar ities   b et w ee n   th s e n t en ce s   ar u s ed   to   f i n d   th r atio   o f   th s i m ilar it y   o f   th e   w o r d s .   Do cu m e n t   clu s ter i n g   is   a n   au to m atic  a n a l y tic  p r o ce s s   t h at  as s ig n s   d o c u m e n t s   to   u n k n o w n   ca teg o r ie s .   I n   th i s   tas k ,   o n l y   th in h er e n s tr u ctu r o f   d ata  is   co n s id er ed th er e f o r e,   it  is   m o r d i f f icu l th a n   s u p er v is ed   tex ca teg o r izatio n   b ec au s n o   in f o r m atio n   ab o u co r r ec tly   ca te g o r ized   ex a m p les  is   p r o v id ed   in   ad v an ce .   T o   o v er co m th i s   d if f ic u lt y ,   i n   th i s   p ap er   th C L UDI P SO  b ased   clu s ter in g   is   p r o p o s ed .   T h k ey   ad v a n ta g o f   C L UDI P SO  is   th cr ea tio n   o f   r ea n u m b er   v ec to r s   f o r   ea ch   p ar ticle.   T h v ec to r s   r ep r esen th s ea r c h   s p ac d e f in ed   b y   t h e   v ar iab les co r r esp o n d in g   to   t h e   p r o b lem   to   s o lv e.   T h r em ai n d er   o f   t h p ap er   is   s y s te m at ized   as  f o llo w s :   Sectio n   I I   d escr ib es  t h e x is ti n g   te x t   clu s ter i n g   tech n iq u e s .   Sectio n   I I I   illu s tr ates  th p r o p o s ed   t ex b ased   clu s ter i n g   f r a m e w o r k   an d   s ec t io n   I V   d escr ib es  th p er f o r m a n ce   r esu lt s   o f   t h p r o p o s ed   tech n iq u e.   Sectio n   ill u s tr ates  th co n clu s io n   o f   t h i s   p ap er .       2.   RE S E ARCH   M E T H O D   I t is co m p o s ed   o f   f o llo w i n g   p r o ce s s es to   ac h ie v t h r ed u cti o n   in   p r o ce s s i n g   ti m a n d   MS E .     a.   P r ep r o ce s s in g   b.   Si m i lar it y   C o m p u tatio n     c.   Vec to r   Data   Fo r m at io n   d.   C lu s ter i n g   p ar ticle   e.   Mu tatio n           Fig u r 1 .   Ov er all  Flo w   o f   t h P r o p o s ed   T ex t B ased   C lu s ter i n g   Fra m e w o r k   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   55 1     558   554   Fig u r 1   s h o w s   th w o r k f lo w   o f   t h p r o p o s ed   tex t - b ased   clu s ter i n g   f r a m e w o r k   th at  i n clu d es  th e   s eq u en tial  p r o ce s s es.  I n it iall y ,   th d ataset  is   p ass ed   to   th e   p r ep r o ce s s in g   b lo ck   w h er t h d ata  w ar e h o u s e   en tr ies  a n d   t h tab le  d ec lar ati o n   ar d is c u s s ed   in   d etai l.  T h en ,   t h co s i n s i m ilar it y   b et wee n   t h to p ics  a n d   d o cu m en ts   i n   t h d ataset  is   co m p u ted .   B ased   o n   th e   s i m ilar i t y   v a lu e s ,   th v ec to r s   t h at  r ep r esen t h d ata  ar co m p u ted   b ased   o n   th r an k i n g   v al u es.  T h en ,   t h P ar ticle  Sw ar m   Op ti m izatio n   ( P SO)   alg o r ith m   i s   u s ed   as th e   clu s ter i n g   to o l to   f in d   t h o p tim alit y .     2 . 1 .   P re pro ce s s ing   E ac h   v a lu o f   t h i n p u d at aset  is   p r ep r o ce s s ed   an d   t h e   r esu lta n d ata s et  is   s to r ed   b ac k   i n   t h e   d atab ase.   T h d atab ase  lo a d   u tili t y   r ea d s   th u s er - p r o v id ed   d ata   an d   s to r es  th e m   in   t h tab le.   T h in p u R eu ter s   d ataset  co n tai n s   t h u s er   p r o v id ed   d ata.   T h d atab ase  lo ad   u tili t y   s u p p o r ts   f o u r   d if f er e n f o r m a ts   o f   f iles . B e f o r th d ata  lo ad in g ,   th tab le  m u s b d ef i n ed .   T h d ata  w ar eh o u s s to r es  t h p r iv ate  d ata  an d   also   m ak e s   t h ed g d ec is io n   s u p p o r t s y s te m .   T h k e y   ai m   o f   th e   d ata  w ar eh o u s is   to   co llect  m u ltip le  in f o r m a tio n   f r o m   v ar io u s   s o u r ce s   t h at  f o llo w s   d if f er en t p lat f o r m .   T h co llected   v ar iab le  d ata  ar u n ited   f o r   p er f o r m in g   t h e   b u s i n ess   d ec i s io n s .     2 . 2 .   Si m ila rit y   Co m pu t a t io n   B ased   o n   th i n p u d ata s et,   t h s i m ilar it y   is   ca lc u lated .   F u r t h er   d ev iatio n   i n   th e   in p u d ata s et  ar also   co n s id er ed   to   r ef i n t h d ata  i n   t h f iles .   I n   t h i s   p ap er ,   th v ec to r   s i m ilar i t y   is   ac co m p lis h ed   u s i n g   t h co s i n s i m ilar it y . C o s i n s i m ilar it y   is   u s ed   to   esti m ate  th s i m ilar i t y   b et w ee n   t h v ec o r s   o f   an   i n n er   p r o d u ct  s p ac e   an d   m ea s u r es  th co s in e   o f   th e   an g le  b et w ee n   t h e m . C o s in s i m ilar it y   is   co m m o n l y   u s ed   f o r   th p o s iti v s p ac e   w h o s o u tco m e   al w a y s   lie s   b et w ee n   [ 0 , 1 ] .   C o s i n s i m ilar it y   i s   m o s t   s u ited   f o r   t h h i g h - d i m e n s io n al  p o s iti v e   s p ac es.I ts   m er its   ar u s ed   i n   th f ield   o f   d ata  m i n i n g   f o r   m ea s u r in g   th e   co h e s io n   b et wee n   t h cl u s ter s . T h tech n iq u is   also   u s ed   to   m ea s u r co h esio n   w it h in   cl u s ter s   in   th f ield   o f   d ata  m in in g . T h C o s in Si m ilar it y   o f   t w o   v ec to r s   d 1   an d   d 2   is   ca lcu lated   as d ep icted   in   ( 1 ) ,          (           )          (           )                       ( 1 )     w h er e,            (           )       [   ]       [   ]       [   ]       [   ]                 (     [   ]           [   ]       2 . 3 Vec t o Da t a   F o rm a t io   T h ter m   v ec to r   is   a n   alg eb r ai m o d el  f o r   r ep r esen ti n g   te x d o cu m en ts   as  v ec to r s   o f   id en t if ier s .   I i s   u s ed   in   i n f o r m atio n   f ilter i n g ,   in f o r m at io n   r etr iev al,   in d e x in g   an d   r elev a n c y   r an k i n g s .   E ac h   d im e n s io n   co r r esp o n d s   to   s ep ar ate  ter m .   I f   ter m   o cc u r s   in   t h d o cu m en t,  its   v al u in   th v ec to r   is   n o n - ze r o   o th er w i s e   ze r o .     2 . 4 Clus t er ing   P a rt icle    T h clu s ter i n g   o f   t h v ec t o r s   is   p er f o r m ed   u s i n g   t h e   P SO  alg o r ith m .   W h en   th e   s ize  a n d   d i m en s io n al it y   o f   th e   d ataset  is   lar g e,   th e   tr ad itio n al   P SO  i s   n o t   b est  o p tio n ,   h e n ce   i n   th is   p ap er ,   n e v er s io n   o f   t h P SO  n a m ed ,   C L UDI P SO  i s   p r o p o s ed .   T h r ee   s p ec if ic  c h ar ac ter is tic s   o f   t h C L UI DI P SO  m a k es   it  s u itab le  f o r   h an d li n g   t h e   la r g er   d atasets .   T h ch ar ac ter i s tics   i n cl u d e,   n e w   r ep r esen tati o n   o f   p ar ticles  f o r   r ed u cin g   th d i m e n s io n alit y ,   r ed u ce   th co m p u tatio n al  ti m an d   in cr ea s in g   th s p ee d   o f   th s ilh o u e tte   co m p u tatio n .   B ased   o n   th s i m ilar it y   d is ta n ce   th r e s h o ld   v al u e,   o p ti m al  cl u s ter s   ar g e n er a ted .       2 . 5 M ut a t io   T h m u ta tio n   p r o ce s s   is   u s e d   to   u p d ate  th e   p ar ticle’ s   p o s itio n .   T h tr ad itio n al  P SO  i s   u s ed   f o r   s o lv i n g   o n l y   t h co n tin u o u s   p r o b lem s ,   b u th p r o p o s ed   m u tatio n   p r o ce s s   is   n o d ep en d en o n   th p o s itio n   o f   th p ar ticles   an d   f u r th er   at   ea ch   iter atio n ,   t h p o s itio n   u p d a tin g   p r o ce s s   i s   ca r r ied   o u i n   all  th e   d i m e n s io n s .   T o   co m p u te  t h d i m en s io n   at  w h ic h   th p ar ticle  is   u p d ated   th f o llo w i n g   s tep s   ar p er f o r m ed .       Ste ps   inv o lv ed  in t he  pro po s ed  CL UD I P SO   ba s ed  m uta t io   S tep   1 :   A ll t h d i m en s io n s   o f   t h v elo cit y   v ec to r   ar n o r m al ized   b etw ee n   [ 0 , 1 ]   r an g e.     S tep   2 :   B ased   o n   [ 1 8 ]   th r an d o m   n u m b er   i s   ca lcu la ted   S tep   3 :   A ll t h d i m en s io n s   th at  ar ab o v r   ar ch o s en   i n   t h p o s iti o n   v ec to r   an d   u p d ated .     S tep   4 :   Up d ated   C lu s ter   is   p r o v id ed   as th r es u lt.    Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708     A n   I mp r o ve d   S imila r ity  Ma tch in g   B a s ed   C lu s teri n g   F r a mewo r fo r   S h o r t a n d   S en te n ce     ( M.  Jo h n   B a s h a )   555   3.   RE SU L T S AN AN AL Y SI   T h p er f o r m a n ce   o f   t h p r o p o s ed   tex b ased   cl u s ter i n g   a l g o r ith m   i s   co m p ar ed   w ith   th ex is t in g   Fu zz y   C - Me a n s   ( F C M)   an d   P air w i s R a n d o m   S w ap   ( P R S)  clu s ter i n g   tech n iq u e s   f o r   t h m etr ics,  s u c h   as,   a.   Me an   Sq u ar E r r o r   ( MSE )   b.   P r o ce s s in g   T i m   c.   P ea k   Sig n al  No is R atio       3 . 1 .   M ea n Squ a re   E rr o ( M SE )   T h MSE   is   ca lcu lated   u s i n g   t h eq u atio n   ( 2 ) ,                                                                 ( 2 )     W h er e,   in d icate s   t h i n d ica to r   f u n ctio n .   T h d en o te s   t h n u m b er   o f   o b j ec ts   an d   th E   d en o tes  th n u m b er   o f   cl u s ter s .   E ac h   o b j ec b elo n g s   to   t h cl u s ter   w it h   t h m i n i m u m   E u clid ea n   d is tan ce   to   t h ce n ter   ce n tr o id .             F ig u r 2 .   C o m p ar is o n   o f   t h MSE   f o r   th p r o p o s ed   f r a m e wo r k   w it h   t h F C an d   P R S       Fig u r 2   s h o w s   th co m p ar ati v an al y s is   o f   p r o p o s ed   tex t - b ased   clu s ter i n g   w i th   th e x is tin g   F C M   an d   P R tech n iq u es  r eg ar d i n g   th MSE   v a lu e s .   T h ef f ec tiv e n ess   o f   an y   p r o to co p r o p o s ed   is   d eter m i n ed   w it h   t h m i n i m u m   M SE  v al u es.  T h ex is tin g   F C an d   P R p r o v id es  th MSE   v alu e s   o f   1 9 1   an d   1 4 0   f o r   s in g le  cl u s ter .   T h e y   p r o v id 1 7   an d   1 6   f o r   1 5   clu s ter s .   B u t,  th o p ti m al  cl u s ter i n g - b a s ed   s i m ilar it y   m ea s u r e m e n i n   p r o p o s ed   tex t - b ased   clu s ter in g   r ed u ce s   t h e   v alu e s   to   1 1 0   an d   1 5   f o r   s in g le  an d   1 5   clu s ter s   r esp ec tiv el y .   T h co m p ar ati v an al y s is   b et w ee n   th p r o p o s ed   T B C   w it h   t h ex i s ti n g   P SR   ( w h ich   p r o v id es  m i n i m u m   v al u e s )   s tated   th a t h p r o p o s ed   T B C   ac h iev ed   th 2 1 . 4 2   an d   6 . 6 7   r ed u ctio n   in   MSE   co m p ar ed   to   P SR   f o r   m in i m u m   an d   m ax i m u m   cl u s ter s   r esp ec ti v el y .     3 . 2 .   P r o ce s s ing   T i m e     T h p r o ce s s in g   t i m o f   t h p r o p o s ed   f r a m e w o r k   a n d   t h e   ex is tin g   F C a n d   P R i s   s h o w n   i n     Fig u r 3 .   Fro m   t h f ig u r it s   o b v io u s   t h at  t h p r o p o s ed   m eth o d   p r o d u ce d   o p tim al  P SN R   th a n   t h e x is tin g   clu s ter i n g   tech n iq u e s .   Fig u r 3   s h o w s   th co m p ar ati v an al y s is   o f   p r o p o s ed   tex t - b ased   clu s ter i n g   w i th   th e x is tin g   F C M   an d   P R tech n iq u es  r eg ar d in g   th p r o ce s s in g   ti m v al u es.   T h ef f ec tiv e n es s   o f   an y   p r o to co p r o p o s ed   is   d eter m in ed   w it h   th m in i m u m   p r o ce s s in g   ti m e.   T h p r o ce s s in g   ti m o f   t h ex i s ti n g   F C a n d   P R ar 7 3   an d   1 7   s ec s   f o r   s i n g le   clu s ter .   T h e y   p r o v id 3 6   an d   3 4   s ec s   f o r   1 5   clu s ter s .   B u t,  t h o p ti m a clu s ter in g - b ased   s i m il ar it y   m ea s u r e m en in   p r o p o s ed   tex t - b ased   clu s ter in g   r e d u ce s   th v al u es  to   1 0   an d   2 4   s ec s   f o r   s i n g le  an d   1 5   clu s ter s   r esp ec ti v el y .   T h co m p ar ati v a n al y s is   b et w ee n   th p r o p o s ed   T B C   w it h   th e x is t in g   P SR   ( w h ic h   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   55 1     558   556   p r o v id es  m in i m u m   v al u es)  s t ated   th at  th p r o p o s ed   T B C   ac h iev ed   th 4 1 . 1 7   an d   2 9 . 4 1   r e d u ctio n   in   p r o ce s s in g   t i m co m p ar ed   to   P SR   f o r   m i n i m u m   a n d   m a x i m u m   cl u s ter s   r esp ec ti v el y .           Fig u r 3 .   P SNR   C o m p ar is o n   Fo r   th P r o p o s ed   Me th o d   an d   E x is ti n g   F C A n d   P R S M et h o d       3 . 3 .   P e a k   Sig na l N o is Ra t io   ( P SNR)   T h P SNR   is   th r atio o f   th m ax i m u m   p o s s ib le  v al u o f   t h s ig n al  an d   t h p o w er   o f   d is to r tin g   n o is e   th at  a f f ec t s   t h q u alit y   o f   t h r ep r esen tatio n   it i s   ca lcu lated   b y   th f o llo w i n g   eq u a tio n ,                           (            )                 ( 3 )     W h er e,           d en o tes  th m a x i m u m   s ig n al  v alu t h at  ex is ts   in   t h e   o r ig in al  d ata.   Fig u r 4   s h o w s   th e   P SNR   co m p ar is o n   f o r   th p r o p o s ed   m et h o d   an d   th e x is ti n g   FC an d   P R m et h o d .           Fig u r 4 .   P SNR   C o m p ar is o n   f o r   t h P r o p o s ed   Me th o d   a n d   E x is t in g   F C a n d   P R S M et h o d       Fig u r 4   s h o w s   th co m p ar ati v an al y s is   o f   p r o p o s ed   tex t - b ased   clu s ter i n g   w i th   th e x is tin g   F C M   an d   P R tech n iq u es  r eg ar d i n g   th P SN R   v alu e s .   T h ef f e ctiv e n ess   o f   a n y   p r o to co p r o p o s ed   is   d eter m i n ed   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708     A n   I mp r o ve d   S imila r ity  Ma tch in g   B a s ed   C lu s teri n g   F r a mewo r fo r   S h o r t a n d   S en te n ce     ( M.  Jo h n   B a s h a )   557   w it h   th h i g h er   P SNR .   T h P SNR   v al u es   f o r   F C a n d   P R ar e   2 5 . 3   an d   2 6 . 7   d B   f o r   s in g le   cl u s ter .   T h e y   p r o v id 3 5 . 7   an d   3 6 . 1   d B   f o r   1 5   clu s ter s .   B u t,  th o p tim al  clu s ter i n g - b ased   s i m ilar i t y   m ea s u r e m e n i n   p r o p o s ed   tex t - b ased   cl u s ter i n g   in cr ea s e s   t h v alu e s   to   2 8 . 1   an d   3 7 . 5   d B   f o r   s in g l an d   1 5   clu s ter s   r esp ec tiv el y .   T h co m p ar ati v an al y s is   b et w ee n   th p r o p o s ed   T B C   w it h   t h ex i s ti n g   P SR   ( w h ich   p r o v id es  m ax i m u m   v alu e s )   s tated   t h at  t h p r o p o s ed   T B C   ac h iev ed   th 4 . 9 8   an d   3 . 7 3   i m p r o v e m e n i n   P SNR   v al u e s   co m p ar ed   to   P SR   f o r   m i n i m u m   an d   m ax i m u m   clu s ter s   r esp ec tiv el y .       4.   CO NCLU SI O N   T ex clu s ter i n g   is   t h p r o ce s s   o f   g r o u p i n g   th lar g a m o u n o f   in f o r m at io n   i n to   m ea n i n g f u clu s ter s .   E x is ti n g   FC M   an d   P R cl u s t er in g   tech n iq u es  ar e   u s ed   f o r   clu s ter in g   th e   tex ts   in   th e   d o cu m e n t.   B u t,  t h es e   m et h o d s   d o   n o p r o d u ce   an   o p ti m al  p r o ce s s i n g   t i m e,   p ea k   s ig n al  n o is r atio   an d   m ea n   s q u ar er r o r   v alu es,  h en ce   i n   t h is   p ap er   an   ef f icie n tex b ased   clu s ter in g   f r a m e wo r k   is   p r o p o s ed   to   clu s ter   th t ex d o cu m e n t s   th a t   co n tain s   b o th   t h s e n ten ce s an d   s h o r tex t s .   I n itial l y ,   t h d ataset  is   p r ep r o ce s s ed   to   r em o v th n o i s e,   th e n   t h e   s i m ilar it y   b et w ee n   t h w o r d s   is   ca lc u lated   u s in g   th e   co s i n s i m ilar it y .   B ased   o n   t h co m p u ted s i m ilar it y ,   t h e   v ec to r   d ata  is   g e n er ated .   T h v ec to r   d ata  is   t h en   clu s ter ed   u s in g   t h C L UI DI P SO  tec h n iq u e.   T o   o p tim ize   t h e   clu s t er s ,   m u ta tio n   p r o ess   is   d e p lo y ed .   T h m u ta tio n   p r o ce s s   is   r ep ea ted   till   a n   o p ti m al  cl u s ter   is   o b tain ed .   T h e   p er f o r m a n ce   o f   th p r o p o s ed   tex b ased   clu s ter i n g   f r a m e w o r k   is   co m p ar ed   w i th   t h ex is t i n g   F C an d   P R clu s ter i n g   m e th o d s .   W h e n   co m p ar ed   to   th e x i s t i n g   m et h o d s ,   th p r o p o s ed   m et h o d   r ed u ce d   th p r o ce s s in g   ti m e   an d   M SN  v al u es   an d   i n c r ea s ed   th P SN R   v al u e.   T h u s   o u r   tex t   b ased   cl u s ter i n g   f r a m e w o r k   is   p r o v ed   to   b b etter   th an   th e x is t in g   cl u s ter in g   FC a n d   P R m et h o d s .       RE F E R E NC E S   [1 ]   A .   G ra n a d o s,  K.  K o ro u tch e v ,   a n d   F .   d e   B o rja  Ro d rig u e z ,   " Disc o v e rin g   Da ta  S e Na tu re   t h ro u g h   A lg o rit h m ic   Clu ste r in g   Ba se d   o n   S tri n g   Co m p re ss io n " ,   IEE T r a n s a c ti o n o n   Kn o wled g e   a n d   Da t a   E n g i n e e rin g ,   v o l .   2 7 ,   p p .   699 - 7 1 1 ,   2 0 1 5 .   [2 ]   S . J.  L e e   a n d   J.Y.  Jia n g ,   " M u lt il a b e T e x Ca teg o riza ti o n   Ba se d   o n   F u z z y   R e lev a n c e   Clu ste rin g " ,   IEE T ra n sa c ti o n s   o n   F u zz y   S y ste ms ,   v o l.   2 2 ,   p p .   1 4 5 7 - 1 4 7 1 ,   2 0 1 4 .   [3 ]   T .   Wei,   Y.  L u ,   H.  Ch a n g ,   Q.  Zh o u ,   a n d   X .   Ba o ,   " A   s e m a n ti c   a p p r o a c h   f o tex c lu ste rin g   u sin g   W o rd Ne a n d   lex ica c h a in s" ,   Exp e rt   S y ste ms   wit h   A p p l ica ti o n s,  v o l.   4 2 ,   p p .   2 2 6 4 - 2 2 7 5 ,   2 0 1 5 .   [4 ]   T .   P e n g   a n d   L .   L iu ,   " A   n o v e in c re m e n tal  c o n c e p tu a h iera rc h ica tex c lu ste rin g   m e th o d   u si n g   CF u - tree " ,   Ap p li e d   S o ft   Co mp u ti n g ,   v o l.   2 7 ,   p p .   2 6 9 - 2 7 8 ,   2 0 1 5 .   [5 ]   M .   Yu a n   a n d   Y.  S h i,   " T e x Clu st e rin g   Ba se d   o n   a   Div id e   a n d   M e rg e   S trate g y " ,   Pro c e d ia   Co m p u te S c ien c e ,   v o l.   5 5 ,   p p .   8 2 5 - 8 3 2 ,   2 0 1 5 .   [6 ]   K. K.  Bh a rti   a n d   P . K.  S in g h ,   " A   t h re e - sta g e   u n su p e rv ise d   d im e n sio n   re d u c ti o n   m e th o d   f o tex c lu ste rin g " ,   J o u rn a l   o Co m p u t a ti o n a S c ien c e ,   v o l.   5 ,   p p .   1 5 6 - 1 6 9 ,   2 0 1 4 .   [7 ]   W .   S o n g ,   J.Z .   L ian g ,   a n d   S . C.   P a rk ,   " F u z z y   c o n tro G A   w it h   a   n o v e h y b rid   se m a n ti c   si m il a ri t y   s trate g y   f o tex c lu ste rin g " ,   In fo rm a ti o n   S c ie n c e s,  v o l.   2 7 3 ,   p p .   1 5 6 - 1 7 0 ,   2 0 1 4 .   [8 ]   L .   G o n g ,   J.  Zen g ,   a n d   S .   Zh a n g ,   " T e x stre a m   c lu ste rin g   a lg o rit h m   b a se d   o n   a d a p ti v e   f e a tu re   se l e c ti o n " ,   Exp e rt   S y ste ms   wit h   Ap p li c a ti o n s,  v o l .   3 8 ,   p p .   1 3 9 3 - 1 3 9 9 ,   2 0 1 1 .   [9 ]   M .   Ya o ,   D.  P i,   a n d   X .   Co n g ,   " Ch in e se   tex c lu ste rin g   a lg o rit h m   b a se d   k - m e a n s" ,   Ph y sic s   Pro c e d ia ,   v o l.   3 3 ,   p p .   301 - 3 0 7 ,   2 0 1 2 .   [1 0 ]   Y. S .   L in ,   J. Y.  Jia n g ,   a n d   S . J.  L e e ,   " A   si m il a rit y   m e a su re   f o te x c las sif ic a ti o n   a n d   c lu ste rin g " ,   IEE T ra n sa c ti o n s   o n   K n o wle d g e   a n d   Da t a   E n g i n e e rin g ,   v o l.   2 6 ,   p p .   1 5 7 5 - 1 5 9 0 ,   2 0 1 4 .   [1 1 ]   G .   L iu ,   Y.  W a n g ,   T .   Zh a o ,   a n d   D.  L i,   " Re s e a rc h   o n   th e   p a ra ll e tex c lu ste rin g   a lg o rit h m   b a se d   o n   th e   se m a n ti c   t re e " ,   in   6 th   In ter n a ti o n a Co n fer e n c e   o n   Co mp u ter   S c ien c e a n d   Co n v e rg e n c e   In fo rm a ti o n   T e c h n o lo g y   ( ICCIT ) 2 0 1 1 ,   p p .   4 0 0 - 4 0 3 .   [1 2 ]   C.   L i,   Y.  T a n ,   a n d   J.  Ko n g ,   " A n   M a h a lan o b is  d istan c e b a se d   tex c lu ste rin g   a lg o rit h m " ,   In ter n a ti o n a Co n fer e n c e   o n   A u t o ma ti c   C o n t r o a n d   Arti fi c i a In telli g e n c e   ( ACA 2 0 1 2 ),   p p .   4 6 5   -   4 6 8 ,   2 0 1 2 .   [1 3 ]   S . H.  Ng u y e n ,   W .   S w ieb o d a ,   a n d   H.S .   Ng u y e n ,   " On   se m a n ti c   e v a lu a ti o n   o f   tex c lu ste rin g   a lg o rit h m s " ,   in   IE E E   In ter n a t io n a C o n fer e n c e   o n   Gr a n u l a r Co m p u ti n g   ( Gr C) ,   2 0 1 4 ,   p p .   2 2 4 - 2 2 9 .   [1 4 ]   M .T .   Ga o   a n d   B. J .   W a n g ,   " T e x c lu ste rin g   e n se m b le  b a se d   o n   g e n e ti c   a lg o rit h m s " ,   in   In ter n a ti o n a Co n fer e n c e   o n   S y ste ms   a n d   In f o rm a ti c s ( ICS AI) ,   2 0 1 2 ,   p p .   2 3 2 9 - 2 3 3 2 .   [1 5 ]   K.  S h a n d   L .   L i,   " Hig h   p e r f o rm a n c e   g e n e ti c   a lg o rit h m   b a se d   t e x c lu ste rin g   u sin g   p a rts  o f   sp e e c h   a n d   o u tl ier   e li m in a ti o n " ,   Ap p li e d   I n telli g e n c e ,   v o l.   3 8 ,   p p .   5 1 1 - 5 1 9 ,   2 0 1 3 .   [1 6 ]   R. K .   V e n k a tes h   a n d   N.I. E. M .   I n d ia,  " L e g a Do c u m e n ts  Clu ste rin g   a n d   S u m m a riz a ti o n   u sin g   Hie r a rc h ica L a ten t   Dirich let  A ll o c a ti o n " ,   IAE S   I n ter n a ti o n a J o u rn a o Arti fi c ia I n te ll ig e n c e   ( IJ - AI) ,   v o l.   2 ,   p p .   2 7 - 3 5 ,   2 0 1 3 .   [1 7 ]   S .   Ba n o ,   K.L .   Un iv e rsity ,   K.R.   Ra o ,   a n d   E.   S r P ra k a sh   Co ll e g e   o f ,   " P a rti a C o n tex S im il a rit y   o f   Ge n e /P r o tein in   L e u k e m ia  Us in g   Co n tex Ra n k   Ba se d   Hie ra rc h ica Clu ste rin g   A lg o rit h m " ,   In ter n a ti o n a J o u rn a o f   El e c trica a n d   Co mp u ter   E n g in e e rin g   ( IJ ECE ),   v o l.   5 ,   p p .   4 8 3 - 4 9 0 ,   2 0 1 5 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  7 ,   No .   1 Feb r u ar y   2 0 1 7   55 1     558   558   [1 8 ]   X .   Hu ,   R. C.   E b e rh a rt,   a n d   Y.  S h i,   " S w a r m   in telli g e n c e   f o p e r m u tatio n   o p ti m iza ti o n a   c a se   stu d y   o n - q u e e n s   p ro b lem " ,   in   Pro c e e d i n g o t h e   2 0 0 3   IEE E   S w a rm   In telli g e n c e   S y mp o siu m,   2 0 0 3 .   S IS '0 3 . ,   2 0 0 3 ,   p p .   2 4 3 - 2 4 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.