I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   9 ,   No .   2 A p r il   201 9 ,   p p .   1 3 1 3 ~ 1 3 2 0   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v9 i 2 . pp 1 3 1 3 - 1320          1313       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   Feature  select io n ,   o pti m i z a tion   a nd   clusteri ng  strateg ies   o text  do cu m ents       A.   K o us a Nikh a t h 1 K .   Su b ra h m a ny a m 2   1 De p a rtme n o f   Co m p u ter S c ien c e   a n d   E n g in e e rin g ,   Ko n e ru   L a k sh a m a iah   Ed u c a ti o n   F o u n d a ti o n ,   In d ia   2 De p a rtme n o f   Co m p u ter S c ien c e   a n d   E n g in e e rin g ,   Ko n e ru   La k sh a m a iah   Ed u c a ti o n   F o u n d a ti o n ,   In d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   2 8 ,   2 0 1 7   R ev i s ed   Sep   1 6 ,   2 0 1 8   A cc ep ted   O ct  1 ,   2 0 1 8       Clu ste rin g   is  o n e   o f   th e   m o st  re s e a rc h e d   a re a o f   d a ta  m in in g   a p p li c a ti o n in   th e   c o n tem p o ra ry   li tera tu re .   T h e   n e e d   f o e ff icie n c lu ste rin g   is  o b se rv e d   a c ro ss   w id e   s e c to rs  in c lu d in g   c o n su m e r   se g m e n tatio n ,   c a teg o riza ti o n ,   sh a re d   f il terin g ,   d o c u m e n m a n a g e m e n t,   a n d   in d e x in g .   T h e   re s e a rc h   o f   c lu ste rin g   tas k   is  to   b e   p e r f o r m e d   p rio to   it a d a p tatio n   in   th e   tex e n v iro n m e n t.   Co n v e n ti o n a a p p r o a c h e ty p ica ll y   e m p h a siz e d   o n   th e   q u a n ti tativ e   in f o rm a ti o n   w h e re   th e   se l e c ted   fe a tu re a re   n u m b e rs.  E ff o rts  a lso   h a v e   b e e n   p u f o rw a rd   f o a c h iev in g   e ff ici e n c lu ste rin g   in   th e   c o n tex o f   c a teg o rica l   in f o rm a ti o n   w h e re   th e   s e lec ted   f e a tu re c a n   a ss u m e   n o m in a v a lu e s.  T h is   m a n u sc rip p re se n ts  a n   in - d e p th   a n a ly sis  o c h a ll e n g e s   o f   c lu ste rin g   in   th e   tex e n v iro n m e n t.   F u rth e r,   th is  p a p e a lso   d e tai ls  p ro m in e n m o d e ls  p ro p o se d   f o c lu ste rin g   a lo n g   w it h   th e   p ro a n d   c o n o f   e a c h   m o d e l.   In   a d d it io n ,   it   a lso   f o c u se o n   v a rio u late st  d e v e lo p m e n ts  in   th e   c lu ste rin g   tas k   in   th e   so c ial   n e tw o rk   a n d   a ss o c iate d   e n v iro n m e n ts.   K ey w o r d s :   Featu r ex tr ac tio n   Featu r s elec t io n   Se m i - s u p er v i s ed   lear n i n g   Un s u p er v i s ed   lear n i n g     Co p y rig h ©   2 0 1 9   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e .     Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   A .   Ko u s ar   Nik h at h ,   Dep ar t m en t o f   C o m p u ter   Scie n ce   an d   E n g i n ee r in g ,   Ko n er u   L ak s h a m aia h   E d u ca ti o n   Fo u n d atio n ,     Gu n tu r - 5 2 2 5 0 2 ,   A P ,   I n d ia .     E m ail:  k o u s ar n i k h a th @ v n r v j iet. in       1.   I NT RO D UCT I O N   C lu s ter i n g   o f   d o cu m e n t s   i s   a n   e s s e n tial   p r o ce s s   a n d   e f f ici en al g o r it h m s   n ee d   to   b e   e m p lo y ed   to   en s u r ef f ec ti v d o cu m e n clu s ter in g .   T h p r o ce s s   o f   clu s te r in g   i n cl u d es  ca teg o r izatio n   o f   g i v e n   d o cu m e n ts   in to   i n d iv id u al   g r o u p s .   T h ese  clu s ter s   s h o u ld   b m ea n in g f u l   an d   p r o v id r i g h d escr ip tio n   o f   th e   d o cu m en t s .   Ho w e v er ,   f o r   an   e f f icie n cl u s ter in g ,   r esear ch er s   o f te n   f ac th c h alle n g o f   co m p le x it y   i n   ter m s   o f   lar g e   n u m b er   o f   w o r d s .   W h en   th e   clu s ter in g   is   d o n in   th f o r m   o f   m atr ices,  ea ch   an d   ev er y   d o cu m e n i s   co n s id er ed   as  an   in s ta n ce   an d   all  th ter m s   ass o ciate d   w ill  b f ea tu r es.  I n   g e n er al,   th v o lu m o f   f ea t u r es  is   al m o s e q u al  to   d ictio n ar y ,   p o s in g   s tr o n g   c h alle n g e s   f o r   alg o r ith m   d e v elo p er s .   T h clu s ter i n g   al g o r ith m   ef f icien c y   lar g el y   f l u ctu a tes  w it h   in cr ea s in g   n u m b er   o f   w o r d s .   A cc o r d in g l y ,   r esear ch er s   s ea r ch   f o r   n o n - co n tex r elate d ,   r ed u n d an t   wo r d s   an d   s to p   w o r d s   a n d   at t e m p to   ig n o r o r   r e m o v s u ch   w o r d s   to   b o o s ef f icien c y   o f   al g o r ith m .   Do cu m e n cl u s ter i n g   co n tai n s   p ar ticu lar   m et h o d s   an d   alg o r ith m s   b u il o n   u n s u p er v is ed   d o cu m en t   m an a g e m e n [ 1 ] .   I n   clu s ter in g   th as s ets,  m e m b er s h ip s ,   a n d   n u m b er   o f   t h clas s es  n o r ec o g n i ze d   i n   ad v a n ce .   Do cu m e n t s   ca n   g r o u p   to g et h er   b u ilt  o n   an   e x ac t y p e,   s u ch   a s   leg al,   ec o n o m ic,   an d   m ed ical.   Ma ch i n e   lear n in g   alg o r it h m s   h a v b ec o m p r ev a len t   i n   n u m er o u s   d o m ai n s ,   i m p ac ti n g   a   w id d i v er s it y   o f   ap p licatio n s .   I n   th p ast  p er io d s ,   th m ac h i n e - l ea r n i n g   co m m u n it y   h as  el ab o r ated   to   d ec r ea s th lab elin g   w o r k   d o n b y   th h u m a n   f o r   s u p er v i s ed   m ac h in e   lear n in g   p r o ce d u r es  o r   to   d ev elo p   u n s u p er v is ed   lear n in g   w it h   o n l y   s m al lest   s u p er v is io n .   Nev er t h eless ,   t h er ar s till   s e v er al  ca s es  t h at  n eit h er   s e m i - su p er v is ed   lear n in g   n o r   tr an s f er   lear n i n g   ca n   h elp .   P r o v id en tiall y ,   w it h   t h p r o p ag atio n   o f   g en er a l - d eter m i n atio n   k n o w led g e   b ase s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   2 A p r il 2 0 1 9   :   1 3 1 3   -   1320   1314   ( o r   k n o w led g g r ap h s ) ,   e. g . ,   W ik iT ax o n o m y   W ik ip ed ia,   F r ee b ase ,   P r o b ase ,   T ex tR u n n er ,   DB p ed ia ,   NE L L   an d   Kn o w led g Va u lt ,   w h av p r o f u s io n   o f   a v ailab le  w o r ld   k n o w led g e.   W ca ll  th ese   k n o w led g b ase s   w o r ld   k n o w led g e .   T h co n ce p o f   r ep r esen tin g   t h g i v en   d o cu m en b y   th g r o u p   o f   wo r d s   in clu d ed   in   th d o cu m en is   u n d er l y in g   m an y   tex m in i n g   s t u d ies.  O f ten   r e f er r ed   to   as  b ag - of - w o r d s ,   t h co n ce p r eq u ir es  ac cu r ate  d escr ip tio n   o f   th e   wo r d   p o s itio n   in   t h g iv e n   d o cu m e n t.  A cc o r d in g l y ,   r esear ch er s   o p f o r   v ec to r   r ep r esen tatio n   o f   t h e   w o r d   p o s itio n   a n d   as s i g n   an   i m p o r tan c e‟   v al u to   ea c h   w o r d .   T h v e cto r   s p ac m o d el  i s   v er s atile   b ec au s e   v ec t o r   r ep r esen tatio n   ca n   u s a s   f e atu r v ec to r   f o r   lar g n u m b er   o f   cl u s ter in g   alg o r ith m s .   T h v ec to r - b ased   d o cu m e n m o d el s   d o   n o h a v t h in f o r m a tio n   ab o u t h o r d er   b y   w h ic h   t h e   w o r d s   o cc u r   in   d o cu m e n t.  I n   p r ev io u s   ar ticle s ,   r esear ch er s   d ev elo p ed   m u ch - ad v a n ce d   d o cu m e n m o d el   ter m ed   ST m o d el .   T h ap p r o ac h   is   b ased   o n   s to r in g   co m p lete  w o r d   s eq u e n ce   d ata.   Ov er lap p in g   b et w ee n   s tr in g s   i n   th co m b i n ed   s u f f i x   tr ee   is   u s ed   to   r ep r esen th d o cu m e n s i m ilar i t y .   A   n o v el  m o d el  r ely i n g   o n   lin ea r   co n v ex   m i x   o f   d o cu m en ts   i s   s t u d ied   b y   r esear c h er s   in .   T o   en ab le   f ea tu r b asi s   as  th is   m ix tu r e,   co n v e x - NM ap p r o ac h   is   p r o p o s ed .   T h m o d el  also   attain ed   s i m ilar   f ac to r izatio n   a s   attain ed   b y   C F   f ac to r izatio n   ap p r o ac h .       2.   T AXO NO M Y   2 . 1 .   Sub  s ec t io n   1   f ea t ure  ex t ra ct io n   Feat u r E x tr ac tio n   ( FE)   p r o ce s s   is   ca teg o r ized   in to   th r ee   t y p es  in clu d i n g   S y n tactica l,  Se m an tic  an d   Mo r p h o lo g ical  An al y s i s .   O f   t h ese,   M A   i s   p r i m ar il y   e n g ag e d   in   d ea lin g   w it h   ea ch   a n d   ev er y   w o r d   ( in d i v id u al   w o r d s )   o f   t h g i v en   te x d o cu m e n t.   P r ed o m i n an t l y ,   it  c o m p r i s es   to k e n izatio n ,   s to p   wo r d   eli m in a tio n   an d   s te m m i n g   [ 2 ] .   I n   to k en izatio n   p r o ce s s ,   th tex d o cu m en i s   o f ten   co n s id er ed   as  w o r d   s tr in g s   w h ic h   ar w o r d   s eq u en ce s   a n d   d iv id es  t h e m   b y   eli m i n ati n g   p u n ct u atio n s   [ 3 ].   T h r esear ch er s   in   [ 4 ]   atte m p ted   to   u n d er s tan d   th ex ac lo g ic  r ep r esen ted   b y   p ar ticu lar   s e n te n ce .   T h at  is ,   s en ten ce   s h o u ld   h a v p r o p er   g r am m at ical  co n n ec ti v es.  S A   ca ter s   u n d er s tan d in g   o f   th g r a m m atica ar r an g e m e n o f   ce r tain   lan g u ag e,   o f ten   r ef er r ed   to   as  s y n tax ”.   F u r th er ,   P OS   T ag g i n g   p r o ce s s   allo w s   ad d in g   o f   co n te x t u al  g r a m m ar   k n o w l ed g f o r   s p ec i f ic   w o r d   in   t h g iv e n   s en te n ce .   B y   id e n ti f y in g   t h o p en   wo r d   class ,   lin g u i s tic  a n al y s i s   ca n   b p er f o r m ed   ea s il y   [ 5 ] .   Nu m er o u s   ap p r o ac h es  w er p r o p o s ed   in   s cien tific   liter atu r ai m i n g   to   i m p le m en P OS  T ag g i n g   p r o ce s s   d ep en d in g   o n   t h d icti o n ar ies [ 6 ] .       2 . 1 . 1 .   F ea t ure  s elec t io n   A   f ea t u r r ef er s   to   an   in d i v id u al  m ea s u r ab le  p r o p er ty   o f   p r o ce s s ,   w h ic h   is   b ein g   o b s er v ed .   T h r o u g h   th u s o f   s et  o f   f e atu r es,  an y   m ac h i n lear n i n g   alg o r ith m   is   ca p ab le  o f   p er f o r m i n g   cla s s i f icatio n .   Ov er   th e   p ast  y ea r s   i n   th e   ap p licatio n s   o f   p atter n   r ec o g n it io n   o r   m ac h i n lear n i n g ,   th d o m ai n   o f   f ea t u r es  h as   g en er all y   ex te n d ed   f r o m   ten s   to   h u n d r ed s   o f   f ea t u r es  o r   v ar iab les  w h ic h   ar em p lo y ed   in   th o s ap p licatio n s .   Nu m er o u s   tec h n iq u e s   h av b e en   i n v e n ted   s o   a s   to   ef f ec ti v el y   ad d r ess   t h p r o b le m   o f   r ed u cin g   ir r elev a n t,  a s   w ell   as   r ed u n d an v ar iab les   th at  ar b u r d e n   o n   ch a llen g i n g   ta s k s   [ 7 ] .   I i s   i m p er ativ e   t h at  Feat u r Selec tio n   ( v ar iab le  eli m i n atio n )   is   h i g h l y   b en e f icial  i n   u n d er s ta n d i n g   d ata,   m i n i m izi n g   co m p u t atio n   r eq u ir e m e n t,   m i n i m izi n g   t h ef f ec t o f   cu r s e   o f   d i m en s io n al it y   b es id es e n h an cin g   t h p r ed icto r   p er f o r m a n ce .     2 . 1 . 2 .   F ilte r   m et ho d s   Fil ter   tech n iq u e s   u s v ar iab l r an k i n g   ap p r o ac h es  as  t h e   m ain   s ta n d ar d s   f o r   v ar iab le  s elec tio n   th r o u g h   o r d er in g .   R a n k in g   te ch n iq u es  ar e m p lo y ed   b ec au s o f   t h eir   s i m p lic it y .   A t h s a m ti m e,   g o o d   s u cc e s s   is   o f te n   r ep o r ted   f o r   p r ac tical  ap p licatio n s .   A   h i g h l y   ap p r o p r iate  r an k in g   p r in ci p le  is   e m p lo y ed   i n   s co r in g   th e   v ar iab les.  Ag ai n ,   th r es h o ld   is   o f te n   e m p lo y ed   f o r   th e   r e m o v al  o f   v ar iab les  b elo w   t h t h r es h o ld .   R an k i n g   tec h n iq u es  ar e   f i lter   m et h o d s   b ec au s t h e y   ar u s ed   p r io r   to   clas s if icatio n   f o r   f ilter i n g   o u t h e   v ar iab les,  w h ich   ar le s s   r el ev an t.   s i m p le  p r o p er ty   o f   u n iq u f ea tu r i s   to   h a v h ig h l y   b en e f icia in f o r m atio n   r e g ar d in g   th d i v e r s class es i n   t h g i v e n   d ata.       2 . 1 . 3 .     Wra pp er   m et ho ds   W r ap p e r   tech n iq u es  g e n er all y   e m p lo y   th e   p r ed icto r   as  b lack   b o x   a n d   t h p r ed icto r   p r esen tatio n   a s   o b j ec tiv f u n ctio n   f o r   t h e v a l u atio n   o f   t h v ar iab le  s u b s et.   B ec au s t h e v alu at io n   o f   2 s u b s et s   h as  b ec o m e   an   NP - h ar d   p r o b lem ,   s u b o p tim al  s u b s et s   ca n   b g o t h r o u g h   t h u s o f   s ea r ch   al g o r ith m s ,   w h ic h   f in d   s u b s et   h eu r i s ticall y .   N u m er o u s   s ea r ch   alg o r it h m s   m a y   b ad o p ted   f o r   f in d i n g   s u b s et  o f   v ar iab les,  w h ic h   m ax i m izes  th e   o b j ec tiv f u n ctio n   t h at  i s   t h c lass if icatio n   p r ese n tatio n   [ 8 ].   W g en er all y   ca te g o r ize  t h e   W r ap p e r   tech n iq u es  in to   Seq u en tial  Selectio n   A l g o r ith m s ,   a s   w ell  a s   He u r is t ic  Sear c h   A l g o r ith m s .   Seq u e n tia s elec tio n   al g o r it h m s   co m m e n ce   w it h   a n   e m p t y   s e ( f u ll   s e t ) .   I th er ea f ter   ad d s   f ea t u r es  ( r e m o v e   f ea t u r es)   u p   to   th p o in t o f   ac h iev e m e n t o f   m ax i m u m   o b j ec tiv f u n ctio n .       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       F ea tu r s elec tio n ,   o p timiz a tio n   a n d   clu s teri n g   s tr a teg ies o f te xt  d o cu men ts   ( A .   Ko u s ar   Nik h ath )   1315   2 . 1 . 4 .   E m be dd ed  m et ho ds   T h e m b ed d ed   m et h o d s   ai m   t o   p er f o r m   f ea t u r s elec tio n   t h r o u g h o u t h tr ai n i n g   p r o ce d u r an d   ar ess e n tial  a n d   d is tin c to   th v ar io u s   m ac h i n lear n i n g   alg o r ith m s   i m p le m e n ted .   E m b ed d ed   tech n iq u e s   [ 9 w a n to   m i n i m ize  t h co m p u t atio n   ti m w h ic h   is   ta k e n   u p   in   t h r ec las s i f icatio n   o f   d iv er s s u b s e ts   t h at  i s   d o n in   w r ap p er   tech n iq u es.  T h m aj o r   ap p r o ac h   en tails   t h i n co r p o r atio n   o f   th f ea t u r s elec tio n   as  a n   ele m e n t o f   t h p r o ce s s   o f   tr ain in g .       2 . 1 . 5 .   H y brid a pp ro a ches   T h ap p r o ac h   co m b i n es  f ilter ,   as  w el as  t h w r ap p er - b ase d   tech n iq u es.  Fil ter   ap p r o ac h   s elec ts   a   clu s ter   o f   ca n d id ate  f ea t u r es  f r o m   h ig h   d i m en s io n al  a n d   ef f icien o r ig i n al  f ea t u r s et.   T h en ,   b y   u tili z in g   a   w r ap p er   tech n iq u e,   th is   ca n d id ate  f ea tu r s et  w ill  b r ef i n ed .   I g en er all y   ex p lo it s   th v ar io u s   k i n d s   o f   ad v an ta g es  w h ic h   ar b r o u g h t a b o u t b y   t h u s o f   t h t w o   m eth o d s .   Featu r s elec tio n   [ 5 ]   g en er all y   p la y s   h u g e   r o le  in   t h d etec tio n   o f   th e   an o m alie s   o f   n et w o r k s .   I n   t h a n o m al y   b ase d   d etec tio n   s y s te m s ,   b y   m o n ito r i n g   th e   p er f o r m a n ce   o f   t h r eg u lar   d ata  th o r o u g h l y   in   co n tr a s w it h   th o n es  w h ic h   ar ir r eg u lar ,   in co n s i s te n c y   w i ll   b id en tifie d   w it h in   th n et wo r k .   T h u s ,   t h is   k i n d   o f   d etec t io n   s y s te m   w ill  p la y   v ital  r o le  in   r ec o g n izi n g   v ar io u s   i n tr u s io n s   d ep en d in g   o n   th d is ti n ct  c h ar ac ter is tic s   o f   n et w o r k   tr a f f ic.       2 . 2 .   Si m ila rit y   m ea s ure s   P r io r   to   clu s ter in g ,   t h er is   t h n ee d   f o r   th d eter m i n atio n   o f   s i m ilar it y   o r   d is tan c m ea s u r e.   Gen er all y ,   t h m ea s u r r e f le cts  t h p r o x i m it y   o f   th e   tar g eted   o b j ec ts   o r   t h d eg r ee   o f   v ec to r   s ep ar atio n .   I s h o u ld   r elate   d i f f er en t   ch ar ac ter is tics   u s ed   to   s ep ar at th e   clu s ter s .   I n   s ev er al   ci r cu m s tan ce s ,   t h ese   ch ar ac ter is tic s   v ar y   in   ac co r d an ce   w i th   d ata  an d   ca n   also   d ep en d   o n   t h p r o b le m   co n te x t .   Ho w e v er ,   as   ea ch   clu s ter i n g   p r o b le m   d if f er s   f r o m   o th er ,   n o   s u ch   m ea s u r is   e x is t in g   to   s a tis f y   ev er y   k i n d   o f   clu s ter in g   p r o b le m .   Fu r t h er ,   s elec ti n g   a n   ap p r o p r i ate  s i m ilar it y   m ea s u r w ill  b e   k e y   d r iv er   in   C l u s ter   An al y s i s ,   p r ed o m i n an tl y   f o r   s p ec if ied   clu s ter i n g   m o d el s   [ 10 ] .   T h u s ,   r ea lizin g   th s i g n i f ican ce   a n d   ef f ic ien c y   o f   v a r io u s   m ea s u r es  w ill   s u p p o r th s elec tio n   o f   th m o s s u itab le  o n e.   T h is   v al u e   in - tu r n   r elies  o n   t w o   d is ti n ct   f ac to r s   s u ch   a s   t h e   p r o p er ties   o f   b o th   o b j ec ts   an d   o n   th m ea s u r e m e n m etr ic s .   T h f iv m ea s u r es  h a v b ee n   d is cu s s ed   b elo w .   T h d if f er en m ea s u r b r in g s   ab o u d if f er e n f in a p ar titi o n .   A t h s a m ti m e,   it  als o   im p o s e s   d iv er s e   r eq u ir e m en ts   f o r   s i m i lar   clu s te r in g   al g o r ith m .     2 . 2 . 1 .   E ucli dea n d is t a nce   E u clid ea n   d is ta n ce   r ef er s   to   a   s tan d ar d   m etr ic  u s ed   f o r   g eo m e tr i ca p r o b lem s .   A th s a m ti m e,   it  ca n   b d ef i n ed   as  t h o r d in ar y   d i s tan ce   b et w ee n   t w o   p o in ts .   Me a s u r i n g   it  ca n   ea s il y   b d o n th r o u g h   t h e   u s o f   r u ler   in   t w o -   o r   in   th r ee - d i m e n s io n al  s p ac e.   I n   ad d itio n ,   it  is   also   o b s er v ed   th at  E u clid ea n   d is ta n ce   w il l a ls o   b s elec ted   in   cl u s ter in g   p r o b le m s ,   w h ic h   co m p r is e s   clu s ter in g   te x t.     I is   s ati s f y i n g   all   t h f o u r   m a in   co n d itio n s   w h ic h   h a v b ee n   g i v en   ab o v a n d   a s   a   r esu lt,   it  i s   a   tr u e   m etr ic.   A th s a m ti m e,   it  i s   th d ef a u lt  d is ta n ce   m ea s u r th at  is   u s ed   w it h   k - m ea n s   a lg o r ith m .   R e s o lv i n g   th d i s tan ce   m ea s u r b et w ee n   tex t   d o cu m en ts   x d   a n d   y d   w ill  b e   d en o ted   b y   th e ir   r esp ec ti v t er m   v ec to r s   ca lled   x t an d   y t   .   Hen ce ,   th E u clid ea n   m etr ic  o f   th e s t w o   d o cu m en ts   co u ld   b d ef i n ed   as:     1 / 2 2 ,, 1 , n E x y t x t y t D t t w w     ,   ( 1 )     I n   w h ic h   th ter m   s et  is 1 { , . . . . } n T t t .   As  d is cu s s ed   in   ab o v s ec tio n ,   t f i d f   v a lu ca n   b co n s id er ed   as  ter m   w ei g h ts ,   i.e . , , ( , ) t x x w t f i d f d t .     2 . 2 . 2 .   Co s ine s i m ila rit y   As  p o in ted   ab o v e,   th tex d o cu m e n t s   ar in d icate d   as  ter m   v ec to r s .   I n   th is   s ce n ar io ,   th s i m ilar it y   m ea s u r b et w ee n   2   tex t   d o cu m en ts   i m p l ies  th e   as s o ciatio n   in   b et w ee n   th e   s elec ted   v ec to r s .   I n   g e n er al,   t h i s   i s   ev alu a ted   as  t h C o s i n f u n ct io n s   b et w ee n   g i v e n   ter m   v ec t o r s   an d   is   ca lled   C o s in Si m ilar it y .   I is   w o r t h   p o in tin g   o u t t h at  co s i n s i m ila r it y   f o r m s   p ar t o f   t h m o s t p o p u lar   m ea s u r o f   s i m ilar it y   th at  is   u s ed   i n   o r d er   to   tex t d o cu m en t s .   T h C o s in Si m ilar it y   ( C S)  m ea s u r f o r   x t   d o cu m e n t a n d   y t d o c u m e n t i s   d ep icted :   . , xy Z x y xy tt S IM t t tt   ,   ( 2 )   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   2 A p r il 2 0 1 9   :   1 3 1 3   -   1320   1316   W h er x t   an d   y t ar ca lled   m u ltid i m en s io n a v ec to r s   o f   th Vec t o r - ter m   s et  1 { , . . . . } n T t t .   E ac h   d im en s io n   co n tain s   it s   o w n   w eig h t   an d   co r r esp o n d s   to   ter m   s e t.  T h v al u o f   t h ese   d i m en s io n s   i s   al w a y s   m o r th a n   ze r o .   Hen ce ,   th C h o ld s   p o s itiv v alu e s   an d   w il l a l w a y s   b b o u n d   b et w ee n   [ 0 ,   1 ] .   A   n o te w o r th y   p r o p er ty   o f   th i s   k i n d   o f   s i m ilar it y   is   t h at  i is   in d ep en d e n o f   d o cu m e n l en g t h .   Fo r   in s ta n ce ,   b y   m er g i n g   t w o   co p i es  o f   a   p ar ticu lar   te x t   d o cu m e n d   to   g e n er ate  p s e u d o - d o cu m en t ' d ,   th C S   v alu co m p u ted   b et w ee n   d   an d   ' d   w i ll  b eq u al  to   1 .   T h is   r ef er s   th a t,  m atc h i n g   s h o u ld   b ca r r ied   o u a m o n g   t w o   d o cu m e n t s .   W h e n   f ed   w it h   a n o th er   d o cu m e n t   m d an d   ' d w o u ld   lik el y   to   r esu l in   s a m s i m ilar it y   to   m   an d   is ' ,, d m m d s i m t t s i m t t .   On   th e   o th er   h an d ,   it  ca n   also   b ex p r ess ed   as,  f o r   tex t   d o cu m en ts   w it h   s i m ilar   co n te n o r   w o r d s ,   d iv er s to tals   w il b m a n ag ed   id en tical l y .   Ho w e v er ,   th is   i s   u n ab le  to   s atis f y   th m etr ic s   s ec o n d   co n d itio n   b ec au s w ith   t h co n s o lid atio n   o f   t w o   s i m ilar   co p ies,  co m p letel y   d is s i m ilar   o b j ec w ill  b o b tain ed   f r o m   o r ig i n al  tex d o cu m en t.  I n   ad d itio n ,   it  is   ess e n tial   to   n o te  th at,   if   th e   v ec to r s   ar n o r m al ized   to   f i x ed   u n it le n g th ,   t h is   ca s r ef lect s   s i m ilar   n o tatio n s   f o r   b o th   d   a n d   d 0 .       2 . 2 . 3 .     J a cc a rd  c o ef f icient   J ac ca r d   C o ef f icien o r   T an im o to   C o ef f icie n i s   also   p r o p o s ed   to   ca lcu late  s i m ilar it y .   Acc o r d in g   to   th i s   co m p u tatio n ,   s i m ilar it y   is   m e asu r ed   a s   th i n ter s ec t io n   to   co m b i n ed   s p ec if ied   o b j ec ts   r a tio ”.   Fo r   th g iv e n   tex d o cu m en t,  t h i s   co ef f icie n t   ev alu ate s   t h to tal  w eig h o f   t h m u t u al  ter m s   e x is ti n g   i n   b o th   d o cu m en t s   w it h   th to tal  w ei g h o f   a ll  ter m s   ex is t in g   i n   at  lea s o n o f   t h e   t w o   d o cu m e n ts   b u u n iq u t er m s .   B ased   o n   t h is   co m p u tatio n ,   m atc h i n g   a m o n g   th d o cu m e n t s   w ill  b ca r r ied   o u t.  T h g en er al  co m p u tatio n   f o r m u la  h a s   b ee n   d ep icted :     22 . , . xy H x y x y x y tt S IM t t t t t t      ( 3 )     J ac ca r d   co ef f icien i s   s i m ila r it y   m ea s u r an d   it  b o u n d s   b et w ee n   0   an d   1 .   T h m ea s u r e   w i ll  b 1   if   b o th   th d o cu m en ts   ar s i m i l ar   an d   0   w h en   t h e y   ar d is s i m ilar .   I n   g en er al,   co e f f icien v alu o f   1   r ep r esen ts   th at  b o th   g i v e n   o b j ec ts   ar s a m e,   w h er ea s ,   co ef f icie n t   v a lu o f   0   d en o tes   th at   t h s p ec if ied   o b j ec ts   ar ex tr e m e l y   d if f er en t.  I n   ad d itio n ,   d is s i m ilar it y   s h o u ld   also   b e   o b s er v ed   in   th is   s i m ilar it y   m ea s u r e -   th J ac ca r d   d is tan ce   m ea s u r [ 11 ].   T h d is s i m ilar it y   a m o n g   t h g i v e n   o b j ec ts   w i ll  b co m p u ted   u s i n g   d i s tan ce   m etr ic s   an d   is   1 HH D S I M  H D   ca n   also   b u s ed   as a n   alter n ati v in   f o llo w in g   e x p er i m e n ts .     2 . 3 .   All a bo ut  c lus t er ing   Data   m in in g   r e f er s   to   t h p r o ce s s   w h ich   m ain l y   en tails   th e   ex tr ac tio n   o f   i m p licit,   p r ev io u s l y   u n k n o w n   as  w e ll  as  p o ten tial l y   b e n e f icial  i n f o r m atio n   f r o m   d ata.   I is   im p er ati v th a d o cu m e n cl u s ter in g ,   w h ic h   is   s u b g r o u p   o f   d ata  clu s ter i n g ,   r ef er s   to   d ata  m in i n g   ap p r o ac h   th a in c lu d es  v ar i o u s   co n ce p ts   f r o m   in f o r m atio n   r etr iev al,   n at u r al  lan g u a g p r o ce s s i n g ,   as  w e ll  as  m ac h i n lear n i n g   f ie ld s   [1 2 ].   T h h i g h - qu alit y   an d   ef f icie n d o cu m e n cl u s te r in g   m et h o d s   p la y   v ital  r o l in   s u p p o r tin g   t h clie n ts   in   ter m s   o f   e f f ec ti v e   n av i g atio n ,   s u m m ar izi n g   an d   o r g an izi n g   d iv er s if ied   s et   o f   i n f o r m atio n   ef f ec t iv el y .   s p ec if ied   d o cu m e n w i ll   al w a y s   h a v p r o b ab ilit y   to   o cc u r   in   m u ltip le  cl u s ter s   [ 1 3 ]   in   t h o v er lap p in g   p ar titi o n .   Fu r t h er ,   in   d is j o in t   p ar titi o n ,   th te x t d o cu m e n will a p p ea r   in   o n l y   o n cl u s ter .   As   p o in ts   o u t,  d o cu m en cl u s ter in g   ca n   b g r o u p ed   in to   tw o   m a in   s u b ca teg o r ies,  w h ic h   in cl u d es:   So f ( o v er lap p in g )   a n d   Har d   C lu s ter in g .   Ov er lap p in g   C l u s ter in g   is   cl u s ter ed   in to   Hier ar ch ical  clu s ter in g ,   P ar titi o n in g   an d   I te m s et - b ased   C lu s ter in g .     a.   Dis j o in ( Har d ) I w il co m p u te  d is j o in ass i g n m e n t s   o f   a   s p ec if ied   t ex d o cu m en to w ar d s   clu s ter .   T h at  is ,   a s   m en tio n ed   ab o v e,   h ar d   clu s ter i n g   w ill   al w a y s   as s ig n   a   d o cu m en to   s i n g le   cl u s ter ,   w h ich   t h en   ca ter s   s et  o f   d if f er en t c lu s ter s .   b.   Ov er lap p in g   ( So f C l u s ter in g ) T h is   t y p o f   cl u s ter i n g   p r o ce s s   s o f a s s i g n m e n ts   w ill   b ca r r ied   o u t.   T h at  is ,   ev er y   te x d o cu m e n t   is   ca n   b e   p r esen ted   in   d is ti n ct  clu s ter s .   Hen ce ,   s o f cl u s ter in g   p r o d u ce s   m u ltip le  o v er lap p in g   clu s ter s .     c.   P ar titi o n in g I is   p r im ar il y   en g a g ed   in   ass ig n i n g   d o cu m en ts   i n to   s p ec if ic  v o lu m o f   No n - E m p t y   C lu s ter s .   I n   p ar ticu lar ,   k - m ea n s   alo n g   w it h   it s   alter n ativ e s   a r h ig h l y   r ep u d iated   p ar titi o n in g   tec h n iq u e s   as p er   [ 1 ] .   d.   Hier ar ch ical:  I t   i n v o l v es   d ev elo p in g   d e n d r o g r a m s ,   w h er clu s ter s   ar e   o r g an ized   in   h ier ar ch ical  tr e e   p atter n s .   I n   th tr ee ,   th L ea f   n o d r ep r esen ts   th s u b - s et   o f   g iv e n   d o cu m e n co llecti o n .   B o th   HAC   clu s ter i n g   an d   UP GM A   clu s te r in g   ar g r o u p ed   in   t h h ier ar ch ical  s tr u ct u r [ 1 4 ].     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       F ea tu r s elec tio n ,   o p timiz a tio n   a n d   clu s teri n g   s tr a teg ies o f te xt  d o cu men ts   ( A .   Ko u s ar   Nik h ath )   1317   2 . 3 . 1 .   Do cu m ent   c lus t er i ng   Do cu m e n C l u s ter i n g   p la y s   a   v ital  r o le  i n   cl u s ter i n g   t h g iv e n   d o cu m e n ts   in to   n u m er o u s   to p ics   w it h o u h a v i n g   a n y   i n f o r m ati o n   o f   t h s tr u ctu r o f   th ca t eg o r y   av a ilab le  in   g i v en   d o cu m e n co llect io n .   E ac h   an d   ev er y   Se m a n tic  I n f o r m at io n   is   o b tai n ed   f r o m   w i t h i n   th g i v e n   d o cu m e n t s   an d   is   Un - s u p er v i s ed .   On   t h o t h er   s id e,   d o cu m e n t   class i f icat io n   i s   co n ce r n ed   w it h   a s s i g n i n g   th e   tex d o cu m en ts   to   p r e - d ef i n ed   ca teg o r ies,  w h er lab eled   in s tan ce s   f o r   lear n i n g   f r o m   t h clu s ter i n g   f o r   cla s s i f icatio n   is   ca lled   s u p er v i s ed   lear n in g   in   w h ic h   g iv e n   clas s if ier   is   lear n ed   f r o m   t h lab eled   ex a m p les.  I is   th en   u s ed   f o r   p r e d ictin g   clas s es   o f   u n s ee n   d o cu m e n t s .   Do cu m en clu s ter in g   i s   e m p lo y ed   in   n u m er o u s   d i v er s co n te x ts ,   lik ex p lo r in g   t h e   s tr u ct u r i n   g i v e n   d o cu m en t   co llec tio n   f o r   t h d is co v er y   o f   k n o w led g e   [ 8 ] ,   d i m en s io n a lit y   co n tr ac tio n   f o r   all  o th er   ta s k s   s u c h   as   clas s i f icatio n   [ 1 5 ] ,   g r o u p in g   s ea r c h   o u tco m es   to   r an k ed   lis t   [ 9 ]   f o r   ex ec u ti n g   an   alter n ati v p r esen tatio n   an d   al s o   e m p lo y ed   f o r   p s eu d o - r ele v an ce   f ee d b ac k .     2 . 4 .   Clus t er   ev a lua t io m ea s ures   E v alu a tio n   o f   d o cu m e n cl u s t er in g   i s   d i f f ic u lt   tas k .   B u ilt - in   q u al it y   m ea s u r es   li k d is to r tio n   o r   lo g   p o s s ib ilit ies  i m p l y   h o w   ce r t ain   al g o r ith m   o p ti m izes   g iv en   r ep r esen tat io n .   Me a n w h ile ,   in ter n a m ea s u r es   co u ld   n o b co m p ar ed   a m o n g   d if f er en r ep r esen tatio n s .   I n   ad d itio n ,   it‟s  n o te w o r th y   p o in th at  ex ter n al   v ie w s   o f   tr u t h   ar h u m a n - m a d e.   T h e y   co n ti n u to   s u f f er   f r o m   t h m aj o r   s h i f f o r   h u m an s   to   u n d er s tan d   d if f er e n d o cu m e n to p ics  in   d is tin ct  m a n n er .   P r e d o m i n an t l y ,   w h et h er   th ce r tain   d o cu m en b elo n g s   to   th at   p ar ticu lar   to p ic  o r   n o m i g h b s u b j ec tiv e.   Ho w e v er ,   a s   cl u s ter in g   o f   d o cu m en h as  f ea s i b ilit y   to   ex ec u te  in   n u m b er   o f   w a y s ,   ab o v m e n t io n ed   s ce n ar io   co u ld   ev e n   co m p licate  t h co n d itio n s .     T h m aj o r   ad v an tag o f   t h is   m ea s u r i n   co m p ar ed   to   ev al u atio n   th r o u g h   te x cla s s i f icat io n   is   th a t   th er is   n o   n ee d   o f   s u c h   co n d i tio n s   w h ich   ar d ep icted   ab o v e.   T h is   m ea s u r d o es  n o in clu d eith er   test   b ed   p latf o r m   ( co m p r i s es  lab eled   d o cu m e n ts )   o r   co n s i s ten c y   f ac t o r   a m id   cl u s ter s   an d   tar g eted   ca teg o r ies.  O n   t h e   o th er   h a n d ,   it   ap p r o x i m atel y   e v alu a tes  th e   o u tco m o f   te x c lu s ter i n g   [1 3 ] ,   o n l y   w h en   t h lab eled   d o cu m e n t s   ar u tili ze d   a s   te s b ed .   T ex c lass i f icatio n   p ar a m eter s   li k a cc u r ac y ,   r e - ca ll,  F1   a n d   p r ec is io n   m ea s u r es  w er e   u s ed   f o r   esti m ati n g   t h p r esen tatio n   o f   tex cl u s ter i n g   i n   [ 1 4 ] ,   [ 1 6 ] .   B ased   o n   p r o p er l y   class i f ied   tex t   d o cu m en ts   a n d   ea ch   a n d   ev e r y   d o cu m e n p r ese n i n   t h t est  b ed ,   th r ate  o f   ac c u r ac y   w i ll  b co m p u ted .   Fu r t h er ,   th m ea s u r is   th s i m p lest   m ea s u r i n g   p ar a m eter   i n   ass o ciate d   clas s i f icatio n   p r o b le m s .   T h is   m ea s u r e   is   d ir ec tl y   ap p licab le  to   th Mu lti - C lass if icatio n   P r o b lem s .     Ho w e v er ,   s ig n i f ica n m ea s u r es  lik e   p r ec is io n ,   r e - ca ll  an d   F1   ca n   b d ir ec tl y   ap p lied   to   th b in ar y   class i f icatio n   tas k s .   Hen ce ,   t o   ev alu ate  t h class if icatio n   p e r f o r m an ce   b y   m a k in g   t h u s o f   th o s m ea s u r es,  th r esp ec ti v p r o b le m   i s   to   b s p lit  i n to   b in ar y   clas s i f icatio n   p r o b le m s .   E ac h   an d   e v er y   c lass   co r r esp o n d s   to   s p ec if ic   b in ar y   clas s i f icati o n   tas k   i n   M u lt i - C las s i f icati o n   tas k .   O f   t h cla s s e s ,   p o s i tiv o n es  r ep r ese n t   B elo n g i n g   to   th e   clas s ”  a n d   th No n - P o s iti v o n es  r ep r es en No t - B elo n g in g   to   th e   cl ass ”.   T h ev o l u tio n   m ea s u r m aj o r l y   co n ce n tr ates  o n   th p o s iti v clas s .     I n   th tex ca te g o r izatio n ,   r e - ca ll  m ea s u r w i ll  b o b ta in ed   b y   th r atio   o f   th s p ec i f ic  tr u p o s itiv e   d o cu m en to   all  d o cu m e n t s   th at  ar tr u e.   P r ec is io n   m ea s u r r ef er r ed   as  th r ate  o f   class if ied   tr u p o s iti v e   d o cu m en ts   to   e v er y   clas s if ied   p o s itiv d o cu m e n t i n cl u d es b o th   tr u p o s iti v es a n d   f alse p o s i tiv es.  W h er ea s ,   F 1   is   u s ed   to   d eter m i n v al u u s in g   b o th   R e - ca ll  R an d   P r ec is io n   P m ea s u r es b y   u s i n g   ( 4 ).     2 1 RP F m e a s u r e RP     ( 4 )     Var io u s   m etr ics  li k F1 ,   ac cu r ac y ,   d etec tio n   co s ts   ar e m p lo y ed   i n   tex ca teg o r izatio n .   T h ese  ar e   p r im ar il y   e m p lo y ed   to   ca lcu l ate  th e   p er f o r m a n ce   m etr ic  i n   te x cl u s ter in g .   W h e n   th e s e   m ea s u r es   ar u s ed   th er al w a y s   ex i s t w o   co n d i tio n s .   E ac h   a n d   ev er y   g i v en   d o cu m en i n s id th s p ec i f i ed   test   b ed   s h o u ld   co n tain   tar g e ca teg o r ie s   an d   m u s b lab eled .   I t   is   s o m e w h at  cr itical  in   r ea l - ti m in   ter m s   o f   g etti n g   lab eled   d o cu m en w h en   co m p ar ed   to   th d o cu m en w h ich   i s   u n lab e led .   Me an w h i le,   th p r o ce s s   w h ic h   is   e n g ag ed   i n   lab elin g   d o cu m e n t s   f o llo w s   i n   p r ac tice  w it h   clu s ter i n g   d o c u m e n t s .   I n   ad d itio n ,   it  is   al s o   s ig n i f ica n to   n o te   th at,   v as ti m e   w ill   b co n s u m ed   b y   t h p r o ce s s   w h ich   i s   e n g a g ed   i n   e v al u ati n g   t h ap p r o ac h es  to   tex t   clu s ter i n g   w h en   p r ep ar atio n   o f   lab eled   d o cu m en t s   i s   o n g o in g .   Seco n d l y ,   t h cl u s ter   n u m b er   m u s b co n s ta n t   w it h   tar g et  ca teg o r ies   n u m b er .   Fo r   ex a m p le,   w h en   s eq u en c o f   d o cu m en ts   h a v in g   s a m t ar g et  ca te g o r y   w i ll   b p ar titi o n ed   in to   t w o   cl u s ter s ,   th e n   th e   ev o l u tio n   m ea s u r es   o f   te x c h ar ac ter izatio n   w ill   n o b ap p licab le  in   s u c h   ca s e.             Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   2 A p r il 2 0 1 9   :   1 3 1 3   -   1320   1318   3.   RE VI E W   O F   L I T E RA T UR E   3 . 1   F e a t ure   ex t ra ct io n str a t eg ies   T h ese  tech n iq u es  ar in tr o d u ce d   b ased   o n   k e y w o r d s .   T h ese  k e y w o r d s   ar e m p lo y e d   to   d e p ict   v ar io u s   e m o t io n s   w h ich   e x is t   in s id e   th e   te x [ 1 7 ] .   I n   co n tr as t,  th e   m ain   d is ad v a n ta g o f   t h is   m et h o d   is   th at   it   r elies  o n   p r esen ce   o f   v ar io u s   a f f ec t iv e   w o r d s   i n   t h te x t .   T o   o v er co m s u c h   d r a w b a ck s   a n d   to   ac h ie v e   ac cu r ate  ex tr ac tio n s   an d   o u tc o m e s ,   th a u t h o r s   p r o p o s ed   a   n o v el  m o d el  ca lled   Se m a n tic   Net w o r k s   i n   [ 1 5 ] .   T h ese  n et w o r k s   r ep r esen e v e n ts ,   r elatio n s h ip s   an d   v ar io u s   co n ce p ts   a m o n g   t h e m .   U n li k e   f ea tu r ex tr ac tio n ,   th ese  s e m an t ic  n et w o r k s   ar i n d ep en d en o n   k e y w o r d s   to   d ep ict  th h u m a n   e m o t io n s   in   t h te x t.  Hen ce ,   [ 1 8 m ad v al u ab le  co n cl u s io n s   a b o u th p r o ce s s   o f   ac h iev in g   en h a n ce d   p er f o r m an ce   i n   d etec tin g   t h h u m a n   e m o tio n s   th r o u g h   s e m a n tic  n et w o r k s .   I n   t h ese  n et w o r k s ,   h u m a n   e m o tio n s   w i ll  b id en ti f ied   th r o u g h   co n tex t u al  i n f o r m atio n .   I n   p ar ticu lar ,   a n d   p r esen ted   r a n g o f   ex p la n atio n s   o f   th is   ap p r o ac h .   Ho w ev er ,   t h e y   f ailed   to   e x p lain   th r e s p ec tiv o u tco m e s   o f   th e x p er i m e n t s .   Mo r eo v er ,   th er is   n ec es s it y   o f   h u g e   d atab ases   lik Se n tiW o r d Net  an d   W o r d Net - Af f ec t to   i m p r o v t h ac c u r ac y   o f   r es u lt s .     3 . 2 .   F e a t ure  s elec t io n s t ra t e g ies   Mu ltip le  f ea t u r id e n ti f icatio n   p r o g r a m s ,   ar e   i m p le m e n ted   f o r   class i f icatio n .   Ho w ev er ,   a ll   p r o j ec te alg o r ith m s   h a v co m m o n   g o a l,  i.e . ,   s ea r ch i n g   f o r   ef f icie n f ea t u r es  s et   w h ich   ca ter s   r es u lts   i n   ter m s   o f   b est   class i f icatio n s .   I n   g e n er al,   v ar i o u s   alg o r it h m s   in v o l v ed   in   f ea tu r s elec tio n   e m p lo y   d is ti n ct  ev alu a tio n   m etr ics   lik i n f o r m atio n   g ai n   a n d   co r r e latio n .   I n   ad d itio n ,   t h e y   o f ten   u s p o p u latio n - b ased   h e u r is tics   s u c h   as   an t   co lo n y   o p ti m izatio n ,   s i m u late d   an n ea li n g ,   p ar ticle - s w ar m   o p ti m izatio n ,   an d   g e n etic  alg o r ith m s .   A cc o r d in g   to   b y   u s i n g   f ea t u r s i m ilar it y ,   Un - Su p er v i s ed   Featu r S u b - Set  Select io n   T ec h n iq u wer e   p r o p o s ed   [ 1 9 ].   T h is   ap p r o ac h   is   u s ed   to   av o i d   th d u p licatio n s   a m o n g   th s elec ted   f ea t u r es.  T h is   ap p r o a ch   u s e s   n e w   m etr ics   ca lled   MI C   I n d ex   f o r   ca lcu l atin g   th s i m ilar it y   m ea s u r e   b et w ee n   t w o   d i f f er en v ar i ab les  f o r   s elec ti n g   f ea t u r e.   In   F u zz y   r o u g h   s e th eo r y   i s   e m p lo y ed   f o r   th e   s elec tio n   o f   f ea t u r b y   co n s id er in g   t h n at u r al  p r o p er ties   o f   b o th   f u zz y   lo g i t - n o r m s   an d   t - co n o r m s .   A d d itio n all y ,   i n   MI FS - al g o r ith m   i s   in tr o d u ce d   to   h an d le   r estrictio n s   li n k ed   w it h   MI F S.  T h p r i m ar y   o b j ec tiv o f   t h is   ap p r o ac h   is   to   g et   i m p r o v ed   s i m ilar   in f o r m atio n   a m o n g   in p u ch ar ac ter is tics   an d   o u tp u class e s   o f   th MI FS .   Si m ilar l y ,   [ 1 2 ]   a ls o   p r o p o s ed   f ea tu r s elec tio n   tec h n iq u ca lled   M ax - R ele v an ce   a n d   Min - R ed u n d an c y   ( MRM R )   b ased   o n   m u tu al  i n f o r m atio n   co n ce p t.  I n   g e n er al,   th is   tec h n iq u m in i m ize s   t h r ed u n d a n c y   b et w ee n   th f ea t u r es  a s   w ell   as  m a x i m ize s   th e   d ep en d en c y   b et w ee n   cla s s   la b el  an d   s u b - s et  o f   f ea t u r es.      3 . 3 .     Clus t er ing   t ec hn iqu es   C lu s ter i n g   Alg o r it h m s   ar c h a r ac ter ized   b ased   o n   t w o   m aj o r   p r o p er ties .   T h f ir s p r o p er ty   p r im ar il y   d ea ls   w it h   w h e th er   ce r tain   m e m b er s h ip   o f   clu s ter   is   d is tin ct.   T h h ar d   o r   d is jo in clu s ter i n g   al g o r ith m s   allo ca te  ea ch   an d   e v er y   d o cu m en to   j u s ti f y   s in g le  c lu s ter .   T h o th er   s id e,   t h s o f t   o r   o v er lap p in g   cl u s ter in g   alg o r ith m s   allo ca te  d is s i m i lar   d o cu m en ts   to   s in g le  o r   m u ltip l clu s ter s   in   d i s cr ete  m e m b er s h ip   d eg r ee .   On   t h e   o th er   h a n d ,   t h s ec o n d   p r o p er t y   co n tr o ls   t h cl u s ter s   s tr u ct u r e.   I n   g e n er al,   t h s tr u ct u r m a y   b o b s er v ed   i n   eith er   f lat  o r   h ier ar ch ical.   On   f lat  cl u s ter in g   tec h n iq u e   f r o n t,  i g e n er ates   r ig id   cl u s ter s ,   w it h o u a n y   co r r elatio n   b et w ee n   th e m .   O n   th co n tr ar y ,   t h h ier ar ch ical  a lg o r ith m s   ar e n g ag ed   i n   g e n e r atin g   c lu s ter s   i n   a   tr ee   s tr u ct u r e.   I f o llo w s   b o tt o m - u p   ap p r o ac h ,   as  it   i n v o l v es  ex ec u ti n g   t h p r o ce d u r e   f r o m   it s   b o tto m   m o s t   clu s ter   ( at  t h r o o t)   o f   th tr ee   s tr u ct u r e.     3 . 3 . 1 .     P a rt i t io nin g   a nd   hiera rc hica l do cu m ent   clu s t er ing   T h m aj o r it y   o f   tr ad itio n al  cl u s ter i n g   alg o r it h m s   ar ca te g o r ized   in to   t w o   m ai n   g r o u p s   in cl u d in g   p ar titi o n in g   al g o r ith m s   a n d   h i er ar ch ical  al g o r ith m s   [ 1 8 ] .   T h h ier ar ch ica cl u s ter i n g   al g o r ith m s   ar p r i m ar il y   in v o l v ed   in   d ec o m p o s in g   s p ec if ied   d ataset  h ier ar ch ical l y .   Hen ce ,   it  f o r m s   d en d r o g r am   tr ee   w h er g iv e n   d ataset  is   s p li r ep ea ted l y   i n to   s m all  s u b - s e ts .   T h u s ,   th e   d o cu m e n t s   w i ll  b r ep r esen ted   in   Mu lti - L ev el   s tr u ct u r as  d ep icted .   T h ese  alg o r ith m s   ar o f te n   g r o u p ed   in to   eith er   d iv is i v alg o r it h m s   o r   ag g lo m er ati v e   alg o r ith m s ,   On   t h o t h er   h a n d ,   in   ag g lo m er ativ e   p r o ce d u r e ,   ea ch   d o cu m en is   allo ca ted   to   s ep ar ate  clu s ter .   L at er ,   th p r o ce d u r in v o l v e s   m er g in g   s i m ilar   cl u s ter s   r e p ea ted ly   u n t il  ter m i n atio n   cr iter io n   is   o b s er v ed .   W h ile  o n   t h d iv i s i v alg o r it h m s   f r o n t,  it  i n cr ea s e s   th n u m b er   o f   clu s ter s   at  ea c h   iter ati v s tag b y   s p litt i n g   th w h o le  d o cu m e n i n to   s p ec if ied   q u a n tit y   o f   cl u s ter s .   I n   ad d itio n ,   an o th er   clu s ter i n g   a lg o r ith m   b ased   o n   P ar titi o n in g   is   o n o f   th m o s s tu d ied   ca teg o r ies   [1 7 ] .   I u p h o ld s   ex tr e m r ea lis tic  tec h n iq u es  to   clu s ter   b i g   d atasets   as  r ep r esen ted ,   u n l ik e   d en d r o g r a m   tr ee   s tr u c tu r e,   th ese  tec h n iq u e s   clu s ter   d ata  in   s i n g le  lev e l.   I n   g en er al,   t h ese  ap p r o ac h es  ar en g ag ed   i n   d iv id in g   g i v en   d o cu m e n t   co llectio n   in to   d is ti n ct  clu s ter s ,   w h ic h   in - tu r n   i n cr ea s es  t h p r e - d e f in ed   o b j ec tiv v al u e.   B y   co n tai n in g   e f f icie n cl u s ter i n g   ch ar ac t er is tics   i n   ter m s   o f   q u alit y   a n d   ac cu r ac y ,   th e s h i er ar ch ical  clu s ter i n g   alg o r ith m s   d o   n o o f f er   r e - allo ca tio n   o f   d o cu m en ts .   T h is   is   m aj o r   d r a w b ac k   o f   th i s   ap p r o ac h   an d   h e n ce   t h er ca n   b c h an ce s   o f   p o o r   p er f o r m an ce   m ea s u r es   i n   t h ea r l y   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       F ea tu r s elec tio n ,   o p timiz a tio n   a n d   clu s teri n g   s tr a teg ies o f te xt  d o cu men ts   ( A .   Ko u s ar   Nik h ath )   1319   s tag e s   o f   cl u s ter in g .   A cc o r d in g l y ,   in   v ar io u s   d ata  o b j ec ts ,   th ti m ta k e n   to   ex ec u te  h ier a r ch ical  al g o r ith m   is   Qu ad r atic.   I n   t h r ec en p ast,   it  w a s   d e m o n s tr ated   t h at  t h p ar tit io n   tec h n iq u es   ar b est  s u itab le  f o r   a p p licatio n s   w h ic h   co m p r is b i g   d ataset s   d u to   it s   Mi n i m ized   C o m p u tatio n al  C o m p lex it y ,   T i m co m p le x it y   i s   co m p ar ati v el y   les s   as  co m p ar ed   to   h ier ar ch ical  tech n iq u e s   an d   is   lin e ar .   T h u s ,   p ar titi o n in g   tec h n iq u e s   ar e   h ig h l y   ad ap tab le  f o r   b ig   s c ale  clu s ter in g .   I n   ad d itio n ,   t o   less en   th l i m i tatio n s   b r o u g h ab o u b y   t h e   co n v e n tio n al   p ar titi o n   clu s ter i n g   tech n iq u es  d i s cu s s ed   ea r li er ,   m u ltip le  m o d els  ar i n tr o d u ce d   in   th e   r ec en t   f e w   y e ar s .   T h ese  m et h o d s   f o c u s ed   o n   i m p le m e n ti n g   o p ti m iz atio n   tec h n iq u es o v er   p r e - d eter m i n ed   clu s ter in g   th r o u g h   o b j ec tiv f u n c tio n .     3 . 3 . 2 .     M a chine  lea rning   ba s ed  do cu m ent   clu s t er ing   Nu m er o u s   k n o w led g b ases   lik C y p r o j ec t,  Fre eb ase ,   Kn o w I t All,   W ik ip ed ia,   T e x tR u n n er ,   W ik iT ax o n o m y ,   P r o b ase,   DB p ed ia,   YA G O,   NE L L   [ 8 ]   as   w ell   as   K n o w led g e   Vau lt   g e n er all y   p la y   a   h i g h l y   v ital r o le  in   t h p r o ce s s   o f   d o cu m e n t c l u s ter in g   w it h   r eg ar d s   to   co n tex t,  co n ce p t a n d   s e m a n tic  r elatio n s .   So ,   as   to   n o tice  all  o f   t h ese  r elatio n s   b e t w ee n   th d o cu m e n ts ,   p r io r   k n o w led g i s   v ital.  T h is   w il l   p o in o u t h n ee d   o f   h i g h l y   s o p h i s ticated   lear n i n g   tech n iq u e s   to   n o tify   t h r e latio n s .   O n   t h co n tr ar y ,   t h a f o r esaid   k n o w led g e   b ases   h a v t h ab ilit y   o f   tr ai n in g   t h lear n i n g   ap p r o ac h es  s o   as  to   cl u s ter   t h g iv e n   d o c u m e n t s   b ased   o n   a   s in g le  o r   ad d itio n al  co n tex t,  c o n ce p as  w ell  a s   s e m a n tic  r el atio n s .   T h ar g u m en ill u s tr at es  th h u g e   r o le  o f   m ac h in lear n in g   w h e n   it  co m es  to   Do cu m e n C l u s ter in g . Usag o f   m u ltip le  e x is ti n g   k n o w led g b ases   i s   p r im ar il y   ai m ed   at  en h an c in g   d o cu m en t s   f ea t u r es  o f   m u lti - s et  o f   w o r d s   r ep r esen ta tio n .   Fo r   ex a m p le,   u s in g   W o r d Net,   lin g u i s tic  k n o w l ed g b ase,   r eso l v es   s y n o n y m s   w h ile  in tr o d u ci n g   v ar io u s   W o r d Net  co n ce p ts .   Utilizatio n   o f   s u c h   i n n o v ati v e   k n o w led g b ase  co n ce p ts   i m p r o v es  th q u ali t y   o f   tex t   d o cu m e n a s   d ep icted   in   [ 4 ] .   B y   m ap p in g   th e   g i v e n   co n ten t   to   th e   s e m an tic  s p ac w h ic h   is   o f f er ed   th r o u g h   W ik i p ed ia  p ag es,  it  h as   b ee n   p r o v ed   as  an   ef f icien k n o w led g b ase  an d   is   b est  s u i tab le  f o r   Sh o r T ex C lass i f ica tio n   an d   D o cu m e n t   C lu s ter i n g   [ 9 ] ,   [ 20 ] .   I n   ad d itio n ,   in   [ 1 6 ] ,   o th er   t w o   k n o w le d g b ases   in cl u d in g   P r o b ase  an d   T ax o n o m y   ar in tr o d u ce d .   T h ese  k n o w led g b ases   ar m aj o r l y   in v o l v ed   in   en h a n ci n g   th ad   k e y w o r d s   f ea tu r es  i n   o r d er   to   b u ild   n o v e tax o n o m y   o f   k e y w o r d s   w h i c h   ar d o m ai n   d e p en d en t.  T h u s ,   i m ig h b s ig n i f ican to   co n s id er   th k n o w led g a s   S u p er v i s io n ”  to   d ir ec t h o t h er   Ma c h i n L ea r n in g   T ec h n iq u e s   a n d   d is tin c tas k s .   Di s tan t   Su p er v i s io n   lear n i n g   s c h e m e m p lo y s   in f o r m a tio n   e n tit ies  a n d   r esp ec tiv e   r elatio n s   f r o m   F r ee b ase  k n o w led g e   b ases   as  s u p er v is io n   to   ex ec u t en tit y   an d   r elatio n   e x tr ac tio n   [ 1 5 ] ,   [ 1 3 ]   an d   [ 1 4 ] .   I n   ad d itio n ,   it  also   e m p lo y s   k n o w led g s u p er v is io n   f o r   ex tr ac tin g   m o r e n titi e s   an d   r ela tio n s h ip s   f r o m   t h n o v el  co n t en o r   also   u s ed   f o r   g en er ati n g   a n   e f f icie n in s tall atio n   o f   b o th   en t ities   an d   r ela tio n s .   T h u s ,   e x p lo itatio n   o f   d i r ec s u p er v is io n   i s   r estricte d   to   k n o w led g e n titi e s   an d   r elatio n s   a m o n g   t h e m .         4.   CO NCLU SI O N   T h is   r esear ch   p ap er   d is c u s s e s   d etailed   s u r v e y   o f   d i f f er en t   clu s ter i n g   ap p r o ac h es  f o r   d ata  m i n i n g   i n   th te x en v ir o n m e n t.  An   ef f i cien te x cl u s ter i n g   ap p r o ac h   m u s c h o o s o p ti m al  attr ib u t es  alo n g   w it h   th e   r ig h t   al g o r ith m   f o r   e x ec u tio n .   Of   v ar io u s   t y p e s   o f   al g o r ith m s   f o u n d   in   liter at u r e,   d is ta n ce - b ased   ap p r o ac h es   ar o b s er v ed   to   b b o th   ef f ici en a n d   w id el y   i m p le m en ted   ac r o s s   d if f er en d o m a in s .   Ov er   th p ast  f e w   y ea r s ,   r esear ch er s   w o r k i n g   o n   tex t c l u s ter i n g   f o cu s ed   o n   t w o   t y p es  o f   ap p licatio n s .   a.   D y n a m ic Hu g v o lu m i n o u s   i n f o r m atio n   g e n er ated   in   d y n a m ic  e n v ir o n m e n t s   in cl u d i n g   s o cial  n et w o r k i n g   p latf o r m s   o r   o n li n c h at  r es u l ted   in   s tr o n g   r eq u ir e m en f o r   s tr ea m in g   i n f o r m atio n .   T h ese  ap p licatio n s   s h o u ld   b ad ap tab le  to   s ce n ar io s   w h er th te x t is o f ten   n o t c lear   lik th s o cial  n et w o r k in g   p latf o r m s .   b.   Hete r o g en eo u s I n   t h ese   ap p licatio n s ,   t h te x t   is   o f te n   p r ese n a s   li n k s   a n d   d i f f er e n m u lti m ed ia  f o r m at s .   Fo r   in s tan ce ,   in   p lat f o r m s   li k Fli c k r ,   te x cl u s ter in g   s h o u l d   b ad ap ted .   A cc o r d in g l y ,   it   is   i m p o r tan to   ef f icien tl y   i m p le m e n t te x m i n in g   ap p r o ac h es i n   th is   e n v ir o n m en t.   T h is   m a n u s cr ip o b s er v es  t h at  th ar ea   o f   cl u s ter in g   i n   t ex m i n in g   ap p licatio n s   is   wid an d   is   ch alle n g i n g   to   co m p letel y   p r esen i n   o n p ap er .   C er tain   ap p r o ac h es  lik co m m ittee - d r iv en   clu s ter in g   co u ld   n o b clea r ly   ca te g o r ized   in t o   an y   g r o u p s   as  t h e y   i n co r p o r ate  m u l tip le  clu s ter in g   tech n i q u es  to   g en er ate  t h f i n al  o u tco m e.   T h in ten t io n   o f   th is   w o r k   is   to   p u f o r w ar d   co m p lete  b r ief   o f   p r o m in e n ap p r o ac h es   p r o p o s ed   f o r   tex m i n i n g ,   to   s e r v as a n   i n itial  s tep   f o r   o th er   p r o p o s ed   r esear ch   co n tr ib u tio n s .       RE F E R E NC E S   [1 ]   Ja in ,   A n il   K. ,   " Da ta  Clu ste rin g 5 0   Ye a rs  b e y o n d   K - M e a n s , Pa tt e rn   re c o g n it io n   letter s ,   v o l.   31 ( 8 ) ,   p p .   6 5 1 - 6 6 6   2 0 1 0 .   [2 ]   V ij a y   S o n a w a n e ,   D.  Ra jes h w a ra   Ra o ,   A n   Op ti m isti c   A p p ro a c h   f o Clu ste rin g   M u lt i - v e rsio n   X M L   D o c u m e n ts   Us in g   Co m p re ss e d   De lt a , ”  In ter n a ti o n a J o u r n a o El e c c trica a n d   Co m p u ter   En g in e e rin g ,   v o l. 5   ( 6 ) ,   p p . 1 4 7 2 - 1 4 7 9 De c   2 0 1 5 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   2 A p r il 2 0 1 9   :   1 3 1 3   -   1320   1320   [3 ]   S riv id y a   S iv a sa n k a r,   S ru th Na ir,   M . V.   Ju d y ,   F e a tu re   Re d u c ti o n   in   Cli n ica Da ta Cl a ss i f ica ti o n   u si n g   a u g m e n ted - G e n e ti c   A l g o rit h m ,   In ter n a ti o n a J o u rn a o E lec trica a n d   C o mp u ter   En g in e e rin g ,   v ol 5 ( 6 ) ,   p p . 1 5 1 6 - 1 5 2 4 De c   2 0 1 5 .   [4 ]   M u g u n t h a d e v K.,   e a l. ,   " S u rv e y   o n   F e a tu re   S e lec ti o n   i n   Do c u m e n Clu ste rin g , In ter n a ti o n a J o u rn a o n   Co mp u ter   S c ien c e   a n d   E n g in e e rin g ,   v o l. 3   ( 3 ) ,   p p .   1 2 4 0 - 1 2 4 1 2 0 1 1 .   [5 ]   F o rm a n ,   G e o rg e ,   a n d   Ev a n   Ki rsh e n b a u m ,   " Ex tre m e l y   F a st  T e x F e a tu re   Ex tr a c ti o n   f o Clas s if ica ti o n   a nd  In d e x in g , Pro c e e d in g s o th e   1 7 t h   ACM   c o n fer e n c e   o n   I n fo rm a ti o n   a n d   k n o wle d g e   ma n a g e me n t.   A CM ,   2 0 0 8 .   [6 ]   L i,   Ya n ju n ,   S o o n   M .   Ch u n g ,   a n d   Jo h n   D.  Ho lt ,   " T e x t   Do c u m e n C lu ste rin g   Ba se d   o n   F re q u e n W o rd   M e a n in g   S e q u e n c e s , Da ta   &   Kn o wled g e   En g i n e e rin g ,   v o l.   64   ( 1 ),   p p .   3 8 1 - 404 2 0 0 8 .   [7 ]   Ch a n d ra sh e k a r,   G iri sh ,   a n d   F e r a tS a h in ,   " A   S u rv e y   o n   F e a tu re   S e lec ti o n   M e th o d s , Co mp u ter &   El e c trica En g i n e e rin g .   V o l.   40   ( 1 ) ,   p p .   16 - 28 2 0 0 8 .   [8 ]   P e d ra m   V a h d a n Am o li ,   Om id   S o jo o d S h ,   S c ien ti f ic  Do c u m e n ts  Clu ste rin g   Ba se d   o n   T e x S u m m e ri z a ti o n ,   In ter n a t io n a J o u rn a o E lec trica a n d   C o mp u ter   En g in e e rin g   ( IJ ECE ) ,   V o l 5   ( 4 ),   p p .   7 8 2 - 7 8 7 A u g   2 0 1 5 .   [9 ]   L a w ,   M a rti n   HC . ,   M a rio   A T .   F ig u e ired o ,   a n d   A n il   K.  Ja i n ,   " S im u lt a n e o u F e a tu re   S e lec ti o n   a nd  Cl u ste rin g   u sin g   M ix tu re   M o d e ls, IEE T ra n s a c ti o n o n   P a tt e rn   An a lys is  a n d   M a c h in e   I n telli g e n c e ,   v o l.   26 ( 9 ),   1 1 5 4 - 1 1 6 6 2 0 0 4 .   [1 0 ]   G a b ril o v ich ,   Ev g e n i y ,   a n d   S h a u l   M a rk o v it c h .   " F e a tu re   G e n e r a ti o n   f o T e x Ca te g o riza ti o n   Us in g   W o rld   Kn o w led g e , IJ CAI ,   v o l.   5 ,   2 0 0 5 .   [1 1 ]   A.   Ko u sa Nik h a th ,   K.   S u b ra h m a n y a m ,   In c re m e n tal  Ev o lu ti o n a ry   Ge n e ti c   A lg o rit h m   Ba se d   O p ti m a Do c u m e n t   Clu ste rin g ,   J o u r n a l   o f   T h e o riti c a a n d   Ap p li e d   In f o rm a ti o n   T e c h n o lo g y v ol 87 ( 3 ) ,   M a y   2018 .   [1 2 ]   A.   Ko u sa Ni k h a th ,   K.   S u b ra h m a n a y m ,   Co n c e p tu a Re lev a n c e   Ba se d   Do c u m e n Clu ste r in g   Us in g   Co n c e p t   Util it y   S c a le, ”  Asia n   J o u r n a o S c ien ti fi c   Res e a rc h ,   v o l .   1 1 (1 ) ,   p p .   22 - 31,   2 0 1 8 .   [1 3 ]   W h isse ll ,   Jo h n   S . ,   a n d   Ch a rles   LA .   Clark e .   " I m p ro v in g   Do c u m e n Clu ste rin g   u sin g   Ok a p B M 2 5   F e a tu re   W e ig h ti n g , In fo rm a ti o n   re triev a l ,   v o l.   14   ( 5 ),   p p .   4 6 6 - 4 8 7 2 0 1 1 .   [1 4 ]   Kw a k ,   No ju n ,   a n d   Ch o n g - Ho   C h o i ,   " In p u F e a tu re   S e lec ti o n   f o C las sif ic a ti o n   P ro b lem s , IEE T ra n sa c ti o n o n   Ne u ra Ne two rk s ,   v o l.   13   ( 1 ),   p p .   143 - 1 5 9 2 0 0 2 .   [1 5 ]   L e e ,   K y u n g   S o o n ,   W .   Bru c e   Cro ft,   a n d   Ja m e s   A ll a n .   " C lu ste r - b a se d   Re sa m p li n g   M e th o d   f o P se u d o - re lev a n c e   F e e d b a c k , Pro c e e d in g s o th e   3 1 st a n n u a in ter n a ti o n a ACM   S IGIR  c o n fer e n c e   o n   Res e a rc h   a n d   d e v e lo p me n in   in fo rm a ti o n   re triev a l.   ACM ,   2 0 0 8 .   [1 6 ]   P e n g ,   Ha n c h u a n ,   F u h u L o n g ,   a n d   Ch ris  Din g .   " F e a tu re   S e lec ti o n   Ba se d   on  M u t u a In f o rm a ti o n   C rit e ria  o f   M a x - De p e n d e n c y ,   M a x - re le v a n c e ,   a n d   M in - r e d u n d a n c y , IEE T ra n sa c ti o n o n   p a t ter n   a n a lys is   a n d   ma c h i n e   in telli g e n c e ,   v o l.   27   ( 8 ),   p p .   1 2 2 6 - 1 2 3 8 2 0 0 5 .   [1 7 ]   S u n   Y.,   C.   F .   Ba b b s,  a n d   E.   J.  De lp .   " A   Co m p a riso n   o f   F e a tu re   S e lec ti o n   M e th o d f o th e   De t e c t io n   o f   Bre a st   Ca n c e rs  in   M a m m o g r a m s:  A d a p t iv e   S e q u e n ti a F lo a ti n g   S e a rc h   v s.  G e n e ti c   A lg o rit h m , En g in e e rin g   in   M e d icin e   a n d   Bi o lo g y   S o c iety ,   2 0 0 5 .   IE EE - EM B S   2 0 0 5 .   2 7 t h   A n n u a l   In ter n a ti o n a C o n fer e n c e   o f   th e .   IEE E,   2 0 0 6 .   [1 8 ]   L u ,   Yiju a n ,   e a l .   " F e a tu re   S e lec ti o n   u si n g   P r in c ip a F e a tu re   A n a l y sis, Pro c e e d in g o th e   1 5 th   ACM   in ter n a t io n a l   c o n fer e n c e   o n   M u lt i me d ia .   ACM ,   2 0 0 7 .   [1 9 ]   W o lf ,   L io r,   a n d   Am n o n S h a sh u a .   " F e a tu re   S e lec ti o n   f o Un su p e rv i se d   a n d   S u p e rv ise d   In f e re n c e Th e   e m e r g e n c e   o f   S p a rsit y   in   a   Weig h t - b a se d   Ap p r o a c h , "   J o u rn a o M a c h in e   L e a rn in g   Res e a rc h ,   v o l.   6 ,   p p .   1 8 5 5 - 1 8 8 7 No v   2 0 0 5 .   [2 0 ]   S u n ,   Z h a n q u a n ,   e a l.   " A   P a ra ll e Clu ste rin g   M e th o d   C o m b in e d   In f o rm a ti o n   Bo tt len e c k   T h e o ry   a n d   Ce n tro i d - Ba se d   Clu ste rin g , T h e   J o u rn a o S u p e rc o mp u ti n g ,   v o l .   69   ( 1 ),   p p .   4 5 2 - 4 6 7 ,   2 0 1 4 .       B I O G RAP H I E S   O F   AUTH O RS       A.   K o u sa r   Ni k h a t h   is  c u rre n tl y   w o rk in g   a A s st.  P ro f e ss o in   Co m p u ter  S c ien c e   &   En g in e e rin g   De p a rtme n a V NR V JIET ,   H y d e ra b a d .   S h e   is  i n t o   tea c h in g   p r o f e s sio n   f o th e   p a st  1 3   y e a rs.  S h e   is  c u rre n tl y   p u rsu in g   P h . D.  a Ko n e ru   L a k sh a m a iah   Ed u c a ti o n   F o u n d a ti o n ,   G u n tu r . S h e   h a p u b l ish e d   n e a rly   a b o u 1 0   p a p e rs   in   v a rio u s   Jo u rn a ls/   In tern a t i o n a l   c o n f e re n c e s.   He re se a rc h   a re a   in tere st  in c lu d e d   T e x m in in g ,   Da ta m in in g ,   Do c u m e n Clu ste rin g ,   A rti f icia In telli g e n c e   a n d   Ne u ra Ne tw o rk .         Dr .   K   S u b r a h m a n y a m ,   a   G o ld   M e d a li st  f ro m   A n d h ra   Un iv e rsit y   (1 9 9 2 - 9 3 is  c u rre n tl y   w o rk in g   a a   P r o f e ss o in   Co m p u ter  S c ien c e   &   En g in e e rin g   De p a rt m e n o f   Ko n e ru   L a k sh a m a iah   Ed u c a ti o n   F o u n d a ti o n ,   G u n tu r.   He   is  in   te a c h in g   p ro f e ss io n   f o th e   p a st   2 5   y e a rs   a n d   p ri o to   jo i n in g   Ko n e ru   L a k sh a m a iah   Ed u c a ti o n   F o u n d a ti o n   h e   w o rk e d   a s   P ro g ra m m e   Lea d e in   th e   S c h o o o f   En g in e e rin g ,   S c ien c e   &   Tec h n o lo g y   a KD Un iv e rsit y ,   M a la y sia   f o a b o u 1 0   y e a rs.  He   h a p u b li s h e d   m o re   th a n   4 0   p a p e rs  in   b o th   n a ti o n a a n d   i n ter n a ti o n a j o u r n a ls  a n d   c o n f e re n c e a n d   a tt e n d e d   v a rio u w o rk sh o p in   M a la y sia ,   S in g a p o re ,   USA   &   In d ia.  His  re se a rc h   in tere sts  in c lu d e   Kn o w led g e   &   S o f t w a re   En g in e e r in g ,   Da ta  M in in g ,   S o f S y ste m M e th o d o lo g ies .   He   h a g u i d e d   1 0 0   o v e stu d e n ts   to w a rd th e ir   M a ste r‟s  a n d   Ba c h e lo Diss e rtatio n s,  a n d   c u rre n tl y   g u id in g   8   to w a rd s th e ir  P h D.     Evaluation Warning : The document was created with Spire.PDF for Python.