I AE I nte rna t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.   3 ,   No .   2 J u n e   201 4 ,   p p .   7 3 ~7 8   I SS N:  2252 - 8938          73       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J AI   Ex tractive  B a sed  Sing le Docu m en Tex Su mm a ri z a t io n Using   Clustering   Appro a ch       P a nk a j   B ho le A.   J .   Ag ra w a l   De p a rte m e n o f   Co m p u ter S c ien c e   a n d   E n g in e e rin g ,   S RCOEM ,   Na g p u , I n d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Dec  2 2 ,   2 0 1 3   R ev i s ed   Ma r   2 2 ,   2 0 1 4   A cc ep ted   A p r   2 8 ,   2 0 1 4       T e x   su m m a riza ti o n   is    a n     o ld   c h a ll e n g e     in     te x   m in in g     b u   in     d ire    n e e d     o f   re se a rc h e r’s  a tt e n ti o n   in   t h e   a re a o c o m p u tatio n a i n telli g e n c e ,   m a c h in e   lea rn in g     a n d     n a tu ra   lan g u a g e     p ro c e ss in g .   W e   e x trac a   se t   o f   fe a tu re s f ro m   e a c h   se n ten c e   th a h e lp id e n ti fy   it i m p o rtan c e   in   th e   d o c u m e n t.   Ev e r y   ti m e   re a d in g   f u ll   tex is  ti m e   c o n su m i n g .   Clu ste rin g   a p p ro a c h   is  u se f u to   d e c i d e   w h ich   t y p e   o f   d a ta  p re se n in   d o c u m e n t.   In   t h is  p a p e w e   in tro d u c e   th e   c o n c e p o f   k - m e a n   c lu ste rin g   f o n a tu ra lan g u a g e   p ro c e ss in g   o f   te x f o w o rd   m a tch in g   a n d   i n   o r d e to   e x trac m e a n in g f u in f o rm a ti o n   f ro m   la rg e   se o o f f li n e   d o c u m e n ts,   d a ta m in in g   d o c u m e n c lu ste rin g   a lg o rit h m   a re   a d o p te d .   K ey w o r d :   K - m ea n   cl u s ter in g   Ste m m i n g   T er m   Fre q u en c y   T ex t su m m ar izatio n   Co p y rig h ©   201 4   In s t it u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   P an k aj     B h o le,   Dep ar te m en t   o f   C o m p u ter   Sci en ce   an d   E n g i n ee r in g ,   Sh r i Ra m d eo b ab C o lleg o f   E n g i n ee r i n g   a n d   Ma n e g m en t,  Nag p u r   E m ail: b h o lep a n k aj 1 2 3 @ g m ai l.c o m       1.   I NT RO D UCT I O N     W ith   th r ap id   g r o w i n g   p o p u l ar it y   o f   t h I n ter n et  a n d   v ar i et y   o f   i n f o r m atio n   s er v ices,  o b tain i n g   th e   d esire d   in f o r m atio n   w it h i n   a   s h o r a m o u n t   o f   t i m e   b ec o m es   s er io u s   p r o b le m   i n   th in f o r m atio n   a g e.   Au to m a tic  te x t s u m m ar izatio n   p r o v id es a n   e f f ec tiv m ea n s   t o   ac ce s s   th e   ex p o n e n tial l y   i n c r ea s ed   co llectio n   o f   in f o r m atio n .   Do cu m e n s u m m ar izatio n   ca n   g e n er at s u m m ar y   t h at  co n tai n s   t h m o s im p o r ta n p o in ts   o f   a   d o cu m en t,  w h ic h   h a s   b ee n   ap p lied   to   m an y   s p ec i f ic  d o m ai n s   i n clu d i n g   b io m ed ical  ( L i n g   et  al. ,   2 0 0 7 ) ,   em ail   th r ea d s   s u m m ar izat io n   ( Z aj ic  et  al. , 2 0 0 8 )   an d   p aten d o cu m e n a n al y s i s   ( T s en g   et  a l .   2 0 0 7 )   [ 3 ] .   T h is   tech n o lo g y   m a y   also   b en e f it   tex p r o ce s s in g   s u c h   as  d o cu m e n clas s i f icatio n   ( Sh e n   et  al.   2 0 0 4 )   [ 4 ]   an d   q u esti o n   a n s w er in g   ( De m n er - Fu s h m a n   an d   L in   2 0 0 6 )   [ 5 ] .   Au to m a ted   tex s u m m ar izatio n   f o cu s ed   t w o   m ain   id ea s   h av em er g ed   to   d ea w i th   t h is   ta s k t h f ir s t   w a s   h o w   s u m m ar izer   h as  to   tr ea h u g q u a n tit y   o f   d ata  a n d   th s ec o n d ,   h o w   it  m a y   b p o s s ib le  to   p r o d u ce   h u m an   q u ali t y   s u m m ar y .   Dep en d in g   o n   t h n at u r o f   tex t   r ep r esen tatio n   in   th s u m m ar y ,   s u m m ar y   ca n   b e   ca teg o r ized   as  an   ab s tr ac a n d   an   e x tr ac t.    An     e x tr ac   i s     a     s u m m ar y     co n s is t in g     o f     n u m b er     o f     s alie n t     tex   u n its     s elec ted     f r o m     t h   in p u t.    An   ab s tr ac i s   s u m m ar y ,   w h ic h   r ep r esen t s   t h s u b j ec m atter   o f   t h e   ar ticle  w it h   th te x u n its ,   w h i ch   ar g en er ated   b y   r ef o r m u la tin g   th s alie n u n it s   s elec ted   f r o m   th i n p u t.  An   ab s tr ac m a y   co n tain   s o m e   t ex u n its ,   w h ic h   ar n o p r es en i n   to   t h i n p u t   tex t.  I n   g en er al,   th e   tas k   o f   d o cu m en s u m m ar iza tio n   co v er s   g en er ic  s u m m ar izatio n   an d   q u er y - o r ien ted   s u m m ar i za tio n .   T h q u er y - o r ien ted   m eth o d   g e n er ates  s u m m ar ies  o f   d o cu m e n t s   ac co r d in g   to   g i v en   q u er ie s   o r   to p i cs,  an d   th g e n er ic  m et h o d   s u m m ar izes t h o v er al l sen s o f   th d o cu m e n w it h o u t a n y   ad d itio n al  i n f o r m atio n .   Yo n g   et  al.   [ 6 ]   w o r k ed   o n   d ev elo p in g   a n   a u to m atic  tex t   s u m m ar izatio n   s y s te m   b y   co m b in i n g   b o th   a   s tatis t ical  ap p r o ac h   an d   a   n e u r al  n et w o r k .   Mo h a m ed   A b d el  Fattah   &   F u j i   R e n   [ 7 ]   ap p lied   m o d el  b ased   o n   a   g en et ic      alg o r it h m       ( G A )       a n d       m at h e m atica r e g r ess io n   ( MR)  in   o r d er   to   o b tain   s u ita b le  co m b i n atio n   o f   f ea t u r w e ig h t s   to   s u m m ar ize   o n h u n d r ed   E n g lis h   ar ticle s .   Ha m id   et  al.   [ 8 ]   p r o p o s ed   n e w   tec h n iq u to   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.   3 ,   No .   2 J u n e   201 4 :   73    78   74   o p tim ize  tex s u m m ar izatio n     b ased     o n     f u zz y   lo g ic  b y     s ele ctin g       s et    o f   f ea tu r e s     n a m e l y   s e n ten ce     le n g th ,     en ten ce     p o s itio n ,     ti tles   s i m il ar it y ,   k e y w o r d s   s i m ila r it y ,     s e n ten ce - to - s e n te n ce   co h es io n   a n d     o cc u r r en ce     o f     p r o p er     n a m es   [9 ] .   T r a d itio n al  d o cu m e n ts   cl u s ter in g   al g o r it h m s   u s th f u ll - te x in   t h d o cu m en ts   to   g e n er ate  f ea t u r v ec to r s .   Su c h   m e th o d s   o f te n   p r o d u ce   u n s atis f ac to r y   r es u l ts   b ec au s t h er is   m u c h   n o i s y   i n f o r m atio n   i n   d o cu m en ts .   T h v ar y i n g - len g t h   p r o b le m   o f   t h d o cu m en ts   i s   also   a   s i g n if ican t   n e g ati v f ac to r   af f ec tin g   t h e   p er f o r m a n ce .   T h is   tec h n iq u r etr iev es  i m p o r tan s en te n ce   e m p h a s ize  o n   h i g h   in f o r m a ti o n   r ich n es s   i n   t h e   s en te n ce   as  w ell  as  h ig h   in f o r m atio n   r etr iev al.   T h ese  m u lt ip le  f ac to r s   h elp   to   m a x i m ize   co v er ag o f   ea ch   s en te n ce   b y   ta k i n g   i n to   ac co u n t th s en ten ce   r elate d n e s s   to   all  o th er   d o cu m e n t se n te n ce .   T h ese  r elate d   m a x i m u m   s e n t en ce   g en er ated   s co r es  ar cl u s ter ed   to   g e n er ate  t h s u m m ar y   o f   t h e   d o cu m en t.  T h u s   w u s k - m ea n   cl u s ter i n g   to   th e s m a x i m u m   s e n te n ce s   o f   t h d o cu m e n an d   f i n d   t h r elatio n   to   ex tr ac cl u s ter s   w it h   m o s r elev an s et s   i n   t h d o cu m en t,  t h ese  h elp s   to   f i n d   t h s u m m ar y   o f   th d o cu m e n t.   T h m ai n   p u r p o s o f   k - m ea n   clu s ter i n g   al g o r ith m   i s   to   g en er ate  p r d ef i n len g t h   o f   s u m m ar y   h a v i n g   m ax i m u m   in f o r m a tiv s en te n ce s .   I n   th is   p ap er   w p r esen t h ap p r o ac h   f o r   au to m atic  tex s u m m ar izatio n   b y   ex tr ac tio n   o f   s en te n ce s   f r o m   t h R eu ter s - 2 1 5 7 8   co r p u s   w h i ch   i n cl u d n e w s p ap er   ar ticle s   an d   u s ed   clu s ter i n g   ap p r o ac h   f o r   ex tr ac tio n   s u m m ar y .   W o r k   d o n f o r   T ex Su m m ar izat io n   is   g i v e n   in   t h s ec tio n   ( I I ) .   Sectio n   ( I I I )   p r o v id ed   o u r   m e th o d o lo g y   f o r   T ex Su m m ar izatio n ,   Sectio n   ( I V)   p r o v id th e   r esu lt  o f   o u r   te x t   s u m m ar izatio n   s y s te m .     1 . 1 .    M o t iv a t io n   T h m o ti v atio n   o f   n at u r al  la n g u a g b ased   tex s u m m ar iz atio n   s y s te m   o n   n e w s p ap er   co m f r o m   n e w s   b ased   ap p licatio n   f o r   m o b ile.   E v er y   p er s o n   w an t s   to   b g lo b alize d   w ith   k n o w led g an d   i n f o r m atio n .   Mo s o f   th u s er   r ea d   n e w s   o n   m o b ile  ap p licatio n .   B u t h n e w s   al w a y s   v er y   lar g a n d   d escr ip tiv e.   I n   m o d er n   w o r ld   ev er y o n w a n ts   f ast  a n d   f u l i n f o r m atio n ,   s o   in   th is   ca s r ea d in g   co m p lete  n e w s   ti m co n s u m i n g .   So   f o r   f a s te n   an d   i m p o r tan t   n e w s   w ca n   p r o v id te x s u m m ar izatio n   s y s te m   t h at  w ill  a n al y s i s   te x t   in f o r m a tio n   an d   g e n er ate  s h o r t,  o p tim a l,  k n o w led g e   b ased   s u m m ar y   to   en d   u s er .   T h is   will  h e lp   u s   to   s a v e   ti m a n d   w i ll h elp s   in   b etter   s u m m ar y .       2.   P RO P O SE M E T H O D   Au to m a tic  T ex Su m m ar izatio n   i m p o r tan f o r   s e v er al  tas k s ,   s u c h   as  i n   s ea r ch   e n g in w h ic h   p r o v id s h o r ter   in f o r m atio n   as  r es u lt.  Ass u m in g   t h at  t h s u m m ar iza tio n   tas k   is   to   f i n d   th s u b s et  o f   s en ten ce s   in   tex t   w h ic h   i n   s o m e   w a y   r ep r ese n ts   m a in   co n ten o f   s o u r ce   te x t,  t h en   ar i s es  n at u r al  q u es tio n w h a ar th e   p r o p er ties   o f   tex t h at  s h o u ld   b r ep r ese n ted   o r   r etain ed   in   a   s u m m ar y .   A   s u m m ar y   w il b co n s id er ed   g o o d ,   if   t h s u m m ar y   r ep r ese n ts   th e   w h o le  co n te n o f   t h d o cu m en t.  Mo tiv ated   f r o m   T ex S u m m ar izatio n ,   w h av e   u s ed   d ec id ed   to   u s th is   ap p r o ac h   f o r   in f o r m atio n   e x tr a ctio n .   T h is   is   v er y   d i f f icu l t   to   d o   ab s tr ac tiv e   s u m m ar izatio n   b ec a u s o f   v e r y   lar g te x a n d   th e ir   in ter d ep en d en ce   b et w ee n   s e n ten ce s ,   d if f ic u lt  to   m a k e   ab s tr ac tiv s u m m ar y .   W h av p r o p o s ed   T ex t Su m m ar izat i o n   m et h o d o lo g y   as  f o llo w s .   I n   th i s   s ec tio n ,   w d escr ib e   in   d etail  t h v ar io u s   co m p o n en t s   o f   t h f r a m e w o r k   o f   th o u r   m et h o d o lo g y   T h m aj o r   co m p o n e n ts   ar e:   a.   P r e - p r o ce s s in g   b.   Sen te n ce   clu s ter i n g   c.   C lu s ter   o r d er in g   d.   R ep r esen tat iv s e n te n ce   s elec t io n   e.   Su m m ar y   g en er atio n             Fig u r e   1 .   T h f r am e w o r k   o f   t h p r o p o s ed   s en ten ce   cl u s ter i n g   b ased   s u m m ar izatio n   s y s te m     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       E xtra ctive   B a s ed   S in g le  Do c u men t Tex t S u mma r iz a tio n   Usi n g   C lu s teri n g   A p p r o a ch   ( P a n ka j B h o le )   75   2 . 1 .   P re - P ro ce s s ing   W p r o v id th in p u i n   th e   f o r m   o f   tex d o cu m en t.  T h is   t ex co n tai n s   m a n y   u n n ec es s ar y   te x t   d ata  an d   s y m b o ls . So   th at  tex t   w ill  n o g i v a n y   o p ti m al   s o l u tio n .   Fo r   ef f icie n a n d   i m p o r tan t   s u m m ar y   w n ee d   to   r e m o v t h u n n ec es s ar y   d ata.   T h er ef o r p r e - p r o ce s s in g   i s   th n ec ess ar y   a n d   f ir s s tep   o f   a p p licatio n .   I n   p r e - p r o ce s s in g   w ap p l y   Sto p   W o r d   R em o v a l,  Sto p   S y m b o R e m o v al,   W h ite  s p ac r e m o v al ,   an d   Ste m m in g   to   m ak r o o t f o r m   o f   w o r d   in   p r e p r o ce s s   tex t.  Her w u s t h W o r d   Net  L ib r ar y   f o r   ef f icie n t   s te m m i n g .   I f   t h er ar d if f er en w o r d s   b u s a m r o o t f o r m   t h it c o u n t a s   s in g le  w o r d   in s tead   o f   co u n t in g   i n d iv id u all y .     S to p   W o r d s ={ th at,   in ,   t h is ,   s o ,   w e,   is   ,   ar ,   h ad ,   h av e,   b ec au s e,   …}   Sto p   S y m b o l={   @ ,   & ,   # ,   * ,   ( ,   ) ,   ! . ”,   +,   _   , -   , ….   }         Fig u r 2 .   E x a m p le  o f   s te m m i n g   o f   d if f er en t f o r m s   o f   w o r d   b r o k en       2 . 2 .   So m F ea t ure  Ca lcula t i o n:   Fo r   ef f icie n s u m m ar izatio n ,   it  is   n ec e s s ar y   to   ca lc u late   s o m e f f icie n f ea t u r f o r   o p tim izi n g   t h clu s ter i n g   an d   s u m m ar y   o f   te x t.   a.   T er m   F re qu e ncy :     T h h y p o th e s is   ass u m ed   b y   t h i s   ap p r o ac h   i s   t h at  i f   t h er ar m o r s p ec i f i w o r d s   i n   g i v en   s en te n ce ,   t h en   th s en ten ce   i s   r el ativ e l y   m o r e   i m p o r ta n t.  T h tar g et   w o r d s   ar u s u all y   n o u n s   e x ce p f o r   te m p o r al  o r   ad v er b ial  n o u n s   ( Sato s h et  al. ,   2 0 0 1 )   [ 1 ]   ( Mu r d o ck ,   2006)   [ 2 ] .   T h is   alg o r ith m   p er f o r m s   co m p ar is o n   b et w ee n   t h ter m   f r eq u en c ies ( T F )   in   d o cu m e n       T F(W)=                                                                                                                  b.   Co s ine Si m ila rit y :   C o s i n s i m ilar it y   i s   p o p u lar   s en te n ce - to - s en te n ce   s i m ilar it y   m etr ic  u s ed     i n     m an y     cl u s t er in g     a n d     s u m m ar izatio n     tas k s   [ 1 0 ] ,   [ 1 1 ] .     Sen ten ce s     ar   r ep r esen t ed     b y       v ec to r     o f     w ei g h t s   w h ile    co m p u ti n g     co s in   s i m ilar it y .     B u t,    th   f ea t u r   v ec to r   co r r esp o n d in g     to       s en ten ce     b ec o m es    to o     s p ar s   b ec au s e   s en te n ce s     ar   to o     s h o r     i n       s ize    co m p ar ed     to     th   in p u t   co llectio n     o f     s en te n ce s .     So m eti m es    it    m a y     h ap p en     th at    t w o   s e n te n ce s     s h ar in g     o n l y     o n   h i g h er     f r eq u en t   w o r d     s h o w     h ig h   co s i n s i m ilar it y     v al u e.         Sim ( S , S j   ) =( 2*| S i ᴖS j |  )  /  (  |  S i   | + |  S j |)     W h er   S i      an d     S j       ar   an y     t w o     s e n ten ce s    b elo n g i n g     to     th e   in p u t c o llectio n     o f     s e n te n ce s .     T h n u m er ato r   | Siᴖ   S j | r ep r ese n ts       n u m b er       o f       m atch in g       w o r d s       b et w ee n       t w o   s en te n c es a n d   |   Si is   th le n g th   o f   th i - t h   s e n te n ce ,   w h er len g th   o f   a   s en ten ce   =n u m b er   o f   w o r d s   i n   t h s en t en ce .       2 . 3 .   Sente nce  Clus t er ing   Sen te n ce   cl u s ter i n g     i s   t h i m p o r ta n   co m p o n e n   o f     th clu s ter i n g   b ased   s u m m ar iza tio n   s y s te m   b ec au s s u b - to p ics  o r     m u ltip le    th e m es  i n     th   in p u   d o c u m e n   s et    s h o u ld   p r o p er ly       b     id en tif ied       to       f i n d       th     s i m ilar ities       a n d   d is s i m ilar itie s   ac r o s s   t h d o cu m en ts .   C lu s ter i n g   o f   s e n te n ce s   p r o v id g r o u p in g   t h s e n te n ce   w h i ch   p r o v id s i m ilar   i n f o r m atio n .   Se n te n ce     clu s ter i n g     is     t h   i m p o r tan t     co m p o n e n t     o f     t h cl u s ter i n g   b ased   s u m m ar izatio n   s y s te m   b ec au s s u b - to p ics   o r     m u ltip le    th e m es     in     th   in p u   d o cu m e n   s et    s h o u ld   p r o p er ly   b id en ti f ied   to   f i n d   th s i m i lar ities   a n d   d is s i m ilar itie s   ac r o s s   t h d o cu m en ts .   C lu s ter in g   s h o u ld   b tig h a n d   n o g e n er ate  r ed u n d a n c y   o f   s e n te n ce s   i n   in ter - c lu s ter   an d   in tr a - cl u s ter .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.   3 ,   No .   2 J u n e   201 4 :   73    78   76   Her K - Me a n   is   s u itab le  f o r   th is   t y p o f   clu s ter i n g .   I m ak es  cla s s i f icatio n   o f   v ec to r   o n   d is tan m ea s u r e.   W ar ca lcu latin g   d is tan ce   m atr i x   f r o m   th co s i n e   s i m i lar it y   m atr i x .     Dis t( s 1 , s 2 ) =1 - C o s in e( s 1 ,   s 2 )     2 . 4 .   Clus t er   O rder ing   Sin ce   o u r     s en te n ce - c l u s ter i n g   alg o r ith m   i s     f u ll y   s u p er v i s e d   an d   it    ass u m p r io r   k n o w le d g ab o u th n u m b er   o f   cl u s ter s   to   b f o r m ed ,   it  i s   cr u cial  to   d ec id   w h ich     cl u s ter     w o u l d     co n tr ib u te     th e     r ep r esen tativ f ir s   to     t h   s u m m ar y .     I n s tead     o f   co n s id er i n g     th   co u n   o f     s e n ten ce s     i n       cl u s ter     a s     t h e   clu s ter     i m p o r tan ce ,     w   m ea s u r   th   i m p o r ta n ce     o f     clu s ter   b ased   o n   th n u m b er   o f   i m p o r tan     w o r d s       it  co n tain s .     2 . 5 .   Repre s ent a t iv Sente nce  Select io n   Selectin g   m o s t   i n f o r m ati v s en ten ce s   f r o m   c lu s ter   n ee d   r an k i n g   al g o r ith m   to   g i v t h e   s en ten ce s .   Af ter     r an k i n g     s en te n ce s     in     t h   clu s ter     b ased     o n     its   s co r e s ,     t h   s e n te n ce     w it h     h ig h es t     s co r   is     s elec ted     as   th r ep r esen tati v s e n te n ce     2 . 6 .   Su m m a ry   G e nera t io n   W s elec o n s e n te n ce   f r o m   t h to p m o s cl u s ter   f ir s an d   t h en   co n ti n u s elec t in g   t h s e n te n ce s   f r o m   th s u b s eq u e n t c l u s ter s   i n   o r d er ed   lis t u n t il a   g i v e n   s u m m ar y   len g th   i s   r ea ch ed .       3.   RE SU L T S     T h E x p er im e n tal  r es u lt i s   ap p lied   o n   r eu ter   2 1 5 7 8   n e w s p ap er   co r p u s .         T ab le  1 .   Deta il o f   R eu ter 2 1 5 7 8   d ataset   N u mb e r   o f   F i l e s   21   D o c u me n t   i n   e a c h   f i l e   N e a r l y   1 0 0 0   T o t a l   D o c u me n t   2 1 5 7 8                                             Fig u r 3 .   Ma in   GUI   o f   o u r   ap p licatio n   p r o v id in p u t te x t b o x ,   in ter m ed iate  r es u lt a n d   o u tp u t te x t b o x     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       E xtra ctive   B a s ed   S in g le  Do c u men t Tex t S u mma r iz a tio n   Usi n g   C lu s teri n g   A p p r o a ch   ( P a n ka j B h o le )   77       Fig u r 4 .   T h T er m   Fre q u e n c y   tab le  o f     in p u t te x t           Fig u r 5.   T h Dis tan ce   m a tr ix   o f   in p u t te x t p r o v id d is s i m i la r it y   v al u o f   s en te n ce s           Fig u r 6.   C lu s ter in g   o f   s en te n ce s   u s in g   K m ea n   al g o r ith m       4       CO NCLUS I O AN F UT UR E   WO RK   I n   th i s   p ap er   w h a v s ee n   t h h o w   t h K m ea n   clu s ter in g   i s   ap p licab le  in   s u m m ar izatio n   an d   h o w   th clu s ter   n u m b er   is   ef f ec ti v o n   q u alitativ s u m m ar y   Ou r     w o r k     f o cu s es    o n     th   d esig n     o f       s u cc ess f u l   clu s ter i n g     b ased     s u m m ar izati o n     a n d     th e     r elate d     i s s u es   s u ch     as     h o w     to     c lu s ter     s e n ten ce s ,     h o w     to     o r d er     clu s ter s   an d     h o w     to     s elec   r ep r esen tati v   s en te n ce s     f r o m     th clu s ter s .   T h b etter   s i m il ar it y   m ea s u r w il l   i m p r o v t h cl u s ter i n g   p er f o r m a n ce   an d   t h i s   m a y   i m p r o v t h s u m m ar izat io n   p er f o r m an ce .   T h is   s u m m ar izatio n   ap p lied   o n   n e w s   ar tic le  o r   d o cu m e n f o r   b r i ef   s u m m ar y .   I f   th s en te n ce   i n   in p u te x in cr ea s es   th en   f o r   b etter   s u m m ar y   n u m b er   o f   clu s ter   s h o u ld   b in cr ea s es.       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.   3 ,   No .   2 J u n e   201 4 :   73    78   78       F ig u r 7.   T h r elatio n   b et w ee n   n u m b er   o f   cl u s ter   to   n u m b er   o f   s en te n ce s       RE F E R E NC E S   [1 ]   S a to sh i,   C h ik a sh No b a ta.,   S a to s h i,   S e k in e . ,   M u ra ta,  M a sa k i. ,   Uc h im o to ,   Kiy o tak a . ,   Uti y a m a ,       M a sa o . ,   &   Isa h a ra ,       Hito sh i.   Ke ih a n n a   h u m a n   in f o - c o mm u n ica t io n .   S e n ten c e   e x tra c ti o n   sy ste a ss e mb li n g   mu lt i p le  e v id e n c e .   In   P r o c e e d in g s 2 n d   NT CIR w o rk sh o p ,   p p .   3 19 3 2 4 ,   2 0 0 1 .   [2 ]   M u rd o c k ,     V a n e ss a     G ra h a m .       As p e c ts    o f     se n ten c e     re tri e v a l.     P h . D.    t h e sis,  Un iv e rsity   o f   M a ss a c h u se tt s,  Am h e rst.   2 0 0 6 .     [3 ]   T se n g ,   Y.,   L in ,   C. ,   &   L in ,   Y.  Te x m in in g   tec h n iq u e f o p a ten a n a ly sis .   In fo rm a ti o n   Pro c e ss in g   &   M a n a g e me n t v o 4 3 ( 5 ),   p p   1 2 1 6 1 2 4 7 ,   2 0 0 7 .   [4 ]   S h e n ,   D. ,   Ch e n ,   Z. ,   Ya n g ,   Q.,   Ze n g ,   H.,   Z h a n g ,   B. ,   L u ,   Y . ,   e a l.   W e b - p a g e   c la ss ifi c a ti o n   th r o u g h   su m m a riza ti o n .   I n   P r o c e e d in g o f   th e   2 7 t h   a n n u a i n tern a ti o n a A CM   S IG IR  c o n fe r e n c e   o n   re se a rc h   a n d   d e v e lo p m e n in   i n f o rm a ti o n   re tri e v a l.   A CM ,   p p .   2 4 9 ,   2 0 0 4 .   [5 ]   De m n e r - F u sh m a n ,   D.,   &   L in ,   J.  An swe e x tra c ti o n ,   se ma n ti c   c lu ste rin g ,   a n d   e x tra c ti v e   su mm a riza ti o n   f o c li n ica l   q u e stio n   a n swe rin g .   I n   P r o c e e d i n g o f   th e   2 1 st  in ter n a ti o n a c o n f e r e n c e   o n   c o m p u tatio n a l in g u is ti c a n d   th e   4 4 th   a n n u a m e e ti n g   o f   th e   a ss o c iatio n   f o c o m p u tatio n a li n g u isti c s.  A s so c iatio n   f o c o m p u tatio n a li n g u isti c s,  p p .   8 4 8 ,   2 0 0 6 .   [6 ]   Yo n g ,   S . P . ,   A h m a d   I. Z.   A b id in   a n d   C h e n ,   Y.Y .   Ne u r a B a s e d   T e x S u mm a riza ti o n   S y ste m ,   6 th   I n tern a ti o n a l   Co n f e re n c e   o f   D ATA   M ININ G ,   p p .   4 5 - 5 0 ,   2 0 0 5   .   [7 ]   M o h a m e d   A b d e F a tt a h   a n d   F u ji   Re n .   A u to m a ti c   Tex S u m m a ri z a ti o n ,   In ter n a ti o n a J o u rn a o C o mp u ter   S c ien c e No . 1 ,   p p . 2 5 - 2 8 ,   2 0 0 8 .   [8 ]   Ha m id   Kh o sra v i,   Esf a n d iar  Esla m i,   F a rsh a d   Ky o o m a rsi  a n d   P o o y a   Kh o sra v y a n   De h k o rd y .   Op ti m izin g   Tex t       S u m m a riz a ti o n   Ba se d   o n   F u z z y   L o g ic” ,   S p rin g e r - Ver la g   Co m p u t e a n d   In f o rm a ti o n   S c ien c e ,   S CI  1 3 1 ,   p p .   1 2 1 - 1 3 0 ,   2 0 0 8 .   [9 ]   M o h a m m e d   S a le m   Bin w a h lan ,   Na o m ie  S a li m   a n d   L a d d a   S u a n m a l i.     S w a r m     Ba se d     F e a tu re   S e l e c ti o n     f o   T e x   S u m m a riz a ti o n ,   In ter n a ti o n a   J o u rn a   o   Co m p u ter     S c ien c e     a n d     Ne two rk     S e c u rity ,   Vo l.   9 ,   No .   1 ,   p p .   1 7 5 - 1 7 9 ,   2 0 0 9 .   [1 0 ]   G .     Erk a n   a n d   D.    R.     Ra d e v .     L e x Ra n k   Gra p h - b a se d   c e n tralit y   a s   sa li e n c e   in   te x su m m a riza t io n .   J o u rn a o f   Arti fi c ia I n telli g e n c e   Res e a rc h   ( J AIR ),   2 0 0 4 .     [1 1 ]   X .   W a n .   Us in g   o n ly   c ro ss - d o c u m e n re latio n sh i p f o b o t h   g e n e ric  a n d   to p ic - f o c u se d   m u lt i - d o c u m e n su m m a riza ti o n s.    In f o rm a ti o n Re tri e v a l.   V o 1 1 2 5 4 9 ,   2 0 0 8 .       B I O G RAP H I E S O F   AUTH O RS         P a n k a   Bh o le         re c e iv e d   B a c h e lo   o f     En g in e e rin g     De g re e     in   In f o rm a ti o n             T e c h n o l o g y             f ro m   Am ra v a ti     Un iv e rsit y ,     a n d     M a ste   o f   T e c h n o lo g y       d e g re e       in       Co m p u ter   S c ien c e     &     En g in e e rin g     f ro m     S h ri    Ra m d e o b a b a   Co l leg e   o f   En g in e e rin g   &       M a n a g e m e n     Na g p u r,     I n d ia      i n     2 0 1 2 a n d   2 0 1 4   re sp e c ti v e l y .   His  r e se a rc h   a re a   is  Na tu ra Lan g u a g e     P r o c e ss in g .     He     is    h a v in g     1 1     m o n th s   o f   tea c h in g   e x p e rien c e .                 Av in a sh         J.         A g ra wa l:      re c e iv e d   Ba c h e lo   o f     En g in e e rin g     De g re e     in   C o m p u ter    T e c h n o l o g y     f ro m     Na g p u   Un iv e rsit y ,       In d ia      a n d       M a ste     o f     Tec h n o lo g y       d e g r e e       in       Co m p u ter   T e c h n o lo g y     f ro m     Na ti o n a   In s ti tu te    o f       T e c h n o lo g y ,       Ra ip u r,       In d ia      in     1 9 9 8       a n d       2 0 0 5       re sp e c ti v e l y .       He     re c e iv e d   P h . D.  f ro m   V isv e s v a ra y a   Na ti o n a In stit u te   o f     T e c h n o l o g y ,   Na g p u r,   In d ia  i n   2 0 1 3 .   His  re se a rc h   a re a   is    Na tu ra   L a n g u a g e     P ro c e ss in g     a n d     Da tab a se s.    He     is    h a v in g   1 5   y e a rs  o f   tea c h in g   e x p e rien c e .   P re se n tl y   h e   is    A ss istan   P ro f e ss o   in     S h ri    Ra m d e o b a b a     C o ll e g e     o f     En g in e e rin g     &     M a n a g e m e n t     Na g p u r,     In d ia    He     is    th e   a u th o   o f     se v e n     re se a r c h     p a p e rs    in     In tern a ti o n a   a n d   Na ti o n a J o u r n a l,   Co n f e re n c e s.     Evaluation Warning : The document was created with Spire.PDF for Python.