I nte rna t io na l J o urna l o f   Adv a nces in Applie d Science s   ( I J AAS)   Vo l.   4 ,   No .   1 M ar ch   2 0 1 5 ,   p p .   6 ~ 12   I SS N:  2252 - 8814           6       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J AAS   An Integra t ed A p pro a ch f o r Co m p endiu m   G ene ra tor  using   Custo m i z ed  Alg o rith m s         M .   Su m a n,  T ha run M a dd u,  M .   M o ha n   De p a rtme n o f   El e c tro n ics   a n d   C o m p u ter E n g in e e rin g ,   K.L .   Un iv e rsity ,   In d ia       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Dec   1 2 ,   2 0 1 4   R ev i s ed   Feb   15 ,   2 0 1 5   A cc ep ted   Feb   2 8 ,   2 0 1 5       T e x S u m m a riza ti o n   is  a   p ro c e ss   th a is  to   g iv e   th e   sh o rter  v e rsio n   o f   a   tex d o c u m e n t.   F o m a n y   re se a rc h   sc h o lars   w h o   w a n to   d o   th e ir  re se a rc h   o n   a   sp e c if ic  d o m a in   h a to   se a rc h   a   lo o f   d o c u m e n ts  o n   th a to p ic  re late d   to   a   sp e c if ic  d o m a in .   It  is  a lso   d if f i c u lt   to   g o   t h ro u g h   th e   l o o f   th e   re se a r c h   p a p e rs  p re se n   i n   t h a p a rti c u lar   d o m a in   w h ich   tak e a   lo t   o f   ti m e   a th is  m o m e n o ti m e   th e re   a r e     lo ts  o f   c h a n c e in   m is sin g   so m e   k e y   w o rd p re se n in   th o se   re se a r c h   p a p e rs.    S o   th a S u m m a riz e is  u se d   to   g i v e   th e   su m m a r y   o a   p a p e r.   T h e   a i m   o f   o u p ro jec is  to   re d u c e   th e   b o d y   o f   th e   tex a n d   m a in tain in g   c o h e re n c e   a n d   a v o id i n g   re d u n d a n c y .   W in n o w in g   is   a n   a lg o rit h m   th a g iv e th e   c o h e re n c e   b e tw e e n   th e   m u lt ip le  p a p e rs  w h e n   m u lt ip le  p a p e rs   a re   g iv e n   a th e   in p u t .   Re d u n d a n c y   th a is  th e   re p e a ted   w o rd o se n ten c e c a n   b e   a v o id e d   u sin g   t h e   M M R   a lg o rit h m .   K ey w o r d :   C o h er en ce   L e x ical  s i m ilar it y   Re d u n d an c y   Sen te n ce   p o s itio n   Sen te n ce   r ese m b la n ce   Su m m ar izer     Co p y rig h ©   201 5   In s t it u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   M.   Su m an ,   Dep ar t m en t o f   E lectr o n ics a n d   C o m p u ter   E n g i n ee r i n g ,   K. L .   Un iv er s it y ,   Vad d es w ar a m ,   Gu n t u r .   E m ail:  s u m a n . m alo j i@ k l u n i v e r s it y . i n       1.   I NT RO D UCT I O N   T h r ap i d   g r o w th   o f   t h I n ter n et  y ield ed   m as s i v in cr ea s o f   th a m o u n o f   i n f o r m atio n   av ailab le,   esp ec iall y   r eg ar d in g   tex t   d o cu m en ts   ( e. g .   n e w s   ar ticles,   elec tr o n ic  b o o k s ,   s cien tific   p ap er s ,   b lo g s ,   etc. ) .   D u to   th h u g v o lu m o f   i n f o r m atio n   i n   th I n t er n et,   it  h a s   b ec o m u n f ea s ib le  to   ef f ic ien tl y   s ie v u s e f u in f o r m atio n   f r o m   t h h u g e   m a s s   o f   d o cu m en ts .   T h u s ,   it   is   n ec ess ar y   to   u s a u to m a tic  m et h o d s   to   u n d er s ta n d ,   in d ex ,   clas s i f y   a n d   p r esen a ll  in f o r m atio n   in   clea r   an d   co n cise  w a y ,   allo w i n g   u s er s   to   s av ti m a n d   r eso u r ce s .   T h n ee d   f o r   to o th a ta k es   te x t   an d   s h o r ten s   it   i n to   b r ie f   a n d   s u cc i n ct  s u m m ar y   h as   n e v er   b ee n   g r ea ter   th an   n o w .   W ith   th h u g a m o u n o f   in f o r m a tio n   o n   th in ter n et  an d   th n ec es s it y   to   g et  t h e   ess e n tial  o f   th i s   in f o r m atio n   in   s h o r tim e,   th n ee d   f o r   s u m m ar izer s   b ec o m es e v er y d a y   p r ess i n g ,   esp ec iall y ,   f o r   p eo p le  w ith   s p ec ial  n ee d s   lik b li n d   o r   eld er ly   p eo p le.   Fo r   th o s p eo p le  it  is   v ital  to   g o   d ir ec tl y   to   t h ess e n tial  i n f o r m atio n   r at h er   th an   h av in g   to   r ea d   th r o u g h   m a n y   p as s ag e s .   On s o lu tio n   i s   u s tex t   s u m m ar izatio n   tec h n iq u e s .   T e x s u m m ar izatio n   ( T S)  is   th p r o ce s s   o f   au to m atica ll y   cr ea tin g   co m p r ess ed   v er s io n   o f   o n o r   m o r d o cu m en ts .   I atte m p ts   to   g et  th m ea n in g   o f   d o cu m e n ts .   E s s en tiall y ,   T tech n iq u e s   ar class i f ied   as   E x tr ac ti v a n d   A b s tr ac ti v e.   E x tr ac tiv e   s u m m ar ies  p r o d u ce   s et  o f   t h m o s t   s i g n if ican t   s en te n ce s   f r o m   d o cu m en t,  ex ac tl y   as  t h e y   ap p ea r .   A b s tr ac tiv s u m m ar ies  atte m p to   i m p r o v th co h er en c e   a m o n g   s e n ten ce s   b y   eli m in a ti n g   r ed u n d an cie s   an d   clar if y i n g   th co n te s o f   s e n te n ce s .   I m a y   e v en   p r o d u ce   n e w   s en ten ce s   to   th e   s u m m ar y .   C u r r en tl y ,   t h e x tr ac tiv e   s u m m ar ie s   ar co m m o n l y   u s e d   b ec au s t h e y   ar e   ea s ier   to   cr ea te.   E x tr ac tiv m e th o d s   ar u s u all y   p er f o r m ed   in   th r ee   s tep s .     1.   C r ea te  an   i n ter m ed iate  r ep r ese n tatio n   o f   th o r ig in al  te x t,    2.   Sen te n ce   s co r in g ,     3.   Select  h i g h   s co r es se n ten ce s   t o   th s u m m ar y .     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       A n   I n teg r a ted   A p p r o a ch   fo r   C o mp en d iu Gen era t o r   u s in g   C u s to miz ed   A lg o r ith ms   ( M.  S u ma n )   7   T h f ir s t   s tep   cr ea tes  a   r ep r esen tatio n   o f   t h d o cu m e n t.  U s u all y ,   it   d iv id e s   t h te x t   i n to   p ar ag r ap h s ,   s en te n ce s ,   an d   to k e n s .   So m et i m es   s o m p r ep r o ce s s in g ,   s u c h   a s   s to p   w o r d   r e m o v al   is   al s o   p er f o r m ed .   T h e   s ec o n d   s tep   tr ies  to   d eter m i n e   w h ich   s en te n ce s   ar i m p o r ta n to   th d o cu m en o r   to   w h ic h   ex ten it  co m b in e s   in f o r m atio n   ab o u d if f er e n to p ics,  b y   s e n te n ce   s co r in g .   T h s co r s h o u ld   b m ea s u r o f   h o w   s ig n i f ica n a   s en te n ce   i s   to   t h u n d er s tan d i n g   o f   th e   tex as   w h o le.   T h last   s tep   co m b i n es   t h s co r p r o v id ed   b y   th e   p r ev io u s   s tep s   an d   g e n er ates a   s u m m ar y .   I n   o r d er   to   b ab le  to   m ak e   g o in g   t h r o u g h   I E E E   p ap er s   a   lo ea s ier   an d   a   lo m o r ef f ec tiv e,   t h e   co m p e n d i u m   g en er ato r   an al y s es  th p ap er   an d   s h o w s   th u s er   d etails  f o r   h i m / h er   an d   co m p r e h e n d   w h at  t h e   p ap er   is   ab o u t.  I allo w s   th e   u s er   to   s av e   th is   s h o r s u m m ar y   i n   ca s m u ltip le   p ap er s   ar b ein g   r ef er r ed   to .   T h is   m ak e s   it  s i m p le  to   k ee p   tr ac k   o f   all  r ef er en c es.  Usi n g   an   al g o r ith m   t h at  co m b in es  T F/IDF,   C u e - P h r ases ,   an d   R e s e m b lan ce   to   t itle,  r esu lt s   ar p r o v en   to   b m o s ef f ec ti v e.   T h o r d er   o f   th s en te n ce s   ar k ep t   in tact.   T h to o al s o   allo w s   t h u s er   to   co m p ar t w o   o r   m o r p ap er s   g i v i n g   an   o u tp u o f   j o in t   n o n   r ed u n d a n t   s u m m ar y ,   w h ic h   ca n   f o r m   t h e   b asis   f o r   n e w   p ap er .   I h elp s   u s   to   d eter m i n co h er e n ce   o r   h o w   s tr o n g l y   t h p ap er s   p er tain in g   to   t h s a m d o m ai n   ar lin k ed .   Fin g er p r in ts   ar g e n er ated   t o   ch ec k   h o w   s tr o n g   t h r elev an ce   b et w ee n   t w o   d o cu m en ts   i s .   W in n o w i n g   alg o r ith m   is   u s e d   to   d ete r m i n t h is .   T h ese  ar m e th o d s   u s ed   to   d eter m i n e   p lag iar is m ,   w it h   a   d eg r ee   o f   m o d if ica tio n   it  h as b ee n   u s ed   to   d eter m i n d eg r ee   o f   r elev an ce .       2.   L I T E R AT U RE   SU RVE Y   T h er ar p len t y   o f   s u m m ar izer s   av ailab le.   T h o n lin e   s u m m a r izer s   d o   n o t   p r o v to   b v e r y   ef f ec ti v e   as  o n l y   s e n ten ce s   w it h   m o r e   n o   o f   w o r d s   ar ch o s e n ,   n o n ec ess ar il y   t h s e n te n ce s   w it h   k e y w o r d s   o r   i m p o r tan s e n ten ce s   th at  r ese m b le  th titl o f   th d o cu m en t .   A   C o n te x B ased   T ex Su m m ar izatio n   S y s te m ,   ex p lain s   h o w   co m b i n in g   al g o r ith m s   ca n   p r o v id m o r ef f ec tiv r es u lt s   [ 2 ] .   Dep en d in g   o n   t h co n te x t,  h o w ev er ,   s o m tech n iq u e s   m a y   y ie ld   b etter   r esu lts   t h a n   s o m o th er s .   Ass e s s i n g   s en ten ce   s co r in g   tec h n iq u e s   f o r   ex tr ac tiv te x s u m m ar iz atio n   p r o p o s es  n e w   s u m m ar iza tio n   s y s te m   t h at  ea s il y   co m b i n es  d if f er en t   s en te n ce   s co r in g   m et h o d s   in   o r d er   to   o b tain   th b est  s u m m ar ies  d ep en d in g   o n   t h co n t ex t   [ 4 ] .   T h f i f tee n   s en te n ce   s co r in g   m et h o d s   m o s w id el y   u s ed   an d   r ef er e n ce d   in   th tec h n ical  liter at u r in   t h last   1 0   y ea r s   ar ap p lied   to   s in g le  d o cu m e n s u m m ar izat io n .   B o th   q u an t itati v an d   q u alitat iv m ea s u r es  a r u s ed   to   ev alu ate   w h ic h   co m b in at io n   o f   t h s en ten ce   s co r in g   m et h o d s   y ie ld   b etter   r esu lts   f o r   ea ch   co n tex t.  C o m b i n in g   3   to   5   s p ec if ic  s e n te n ce s   s co r in g   m et h o d s   in   ce r tain   co n tex t p r o v id es  m u c h   b etter   q u alit y   r es u lts .     T h ch o ice  o f   th o s m et h o d s   d ep en d   o n   co n tex o f   t h d o cu m en t.  Get  O n l y   t h e   E s s en t ial   in f o r m atio n : T ex t s u m m ar izer   b ased   o n   i m p licit d ata   w a s   u s ed   to   ex p er i m e n t a n d   d eter m i n t h b est p o s s ib le   co m b i n at io n   to   s u m m ar ize   p ap er s   [ 1 ] .   T h er eb y   cr ea ti n g   cu s to m ized   al g o r ith m   i n cl u d in g ,   C u e - P h r ase s ,   R ese m b lan ce   to   titl an d   T F/IDF  d r asti ca ll y   i m p r o v es  ac cu r ac y .   T h is   h elp s   u s   to   s u m m ar ize  s in g le  d o cu m en w it h o u m i s s i n g   an y   i m p o r ta n s e n te n ce s   a n d   th co n tex t   o f   t h p ap er   is   also   p r eser v ed .   R ec en t   r esear ch   i n   m u lti - d o cu m en t   s u m m ar izat io n   h as   f o c u s ed   o n   r e m o v i n g   r ed u n d a n c y   an d   s tat is tic  ap p r o ac h es  i n   m ac h in lear n i n g   a n d   lan g u ag m o d elin g   to   f i n d   i m p o r ta n s en te n ce s   a n d   w o r d s   i n   m u lti p le  d o cu m en t s .   C o n te x t u a Q u er y   E x p a n s io n   B ased   Mu lti - d o cu m e n Su m m ar izer   f o r   S m ar L ea r n i n g ,   p r o v id es  in s i g h o n   h o w   r ed u n d a n c y   ca n   b r e m o v ed   u s in g   tec h n iq u ca lled   Ma x i m u m   Ma r g i n al  R ele v a n c ( MM R )   [ 6 ] .   T h is   tech n iq u i s   p r o p o s ed   as  r elativ el y   b etter   ap p r o ac h   to   tack le  r ed u n d an c y .   [ 3 ] A   s u r v e y   o f   te x t   s u m m ar izatio n   tec h n iq u es   ex p lain s   t h at  P r ec is io n   is   d ef i n e d   as  th p er ce n tag o f   th r el ev an ite m s   in   t h e   r etu r n ed   s et  an d   R ec all  is   t h e   p er ce n tag o f   t h r elev a n it e m s   i n   t h r etu r n ed   s et  co m p ar ed   to   th o s in   th e   co llectio n .   I f   t h w h o le  co llect io n   is   r etr ie v ed ,   th e n   t h R ec a ll  is   m a x i m u m ,   b u t   P r ec is io n   i s   lo w .   Mo s s ea r c h   en g i n e s   s u f f er   f r o m   th i s   p r o b le m   ( h i g h   R ec all  a n d   lo w   P r ec is io n ) .     I f   s ea r ch   en g i n es  s ea r c h   o n l y   d o cu m e n ts   p r i m ar y   id ea s ,   in s tead   o f   ev er y   w o r d ,   th e n   R ec all  w il l   lik el y   n o b d ec r ea s ed   b u P r ec is io n   w ill   li k el y   i m p r o v e .   Hen ce ,   a n   a u to m ated   f ac ilit y   f o r   s u m m ar iz in g   d o cu m en ts   to   i m p r o v p r o d u c tiv it y   is   d es ir ab le.   A   g o o d   s u m m ar izatio n   s y s te m   s h o u ld   i n clu d o n l y   s e n ten ce s   th at  ar m o s i m p o r ta n to   d o cu m e n ts   t h e m e it  m u s als o   co v er   all  d o cu m e n ts   to p ics.   Usi n g   s u m m ar y   in s tead   o f   t h w h o le  d o cu m e n ts   as   r ep r esen ta tiv e   o f   w h a th d o cu m e n ts   ar ab o u w o u l d   m ea n   p r o ce s s i n g   f r ac tio n   ( 2 0   p er ce n o r   le s s )   o f   t h d o cu m e n ts   te x t,  y et  y ie ld   b etter   p r ec is io n   a n d   le s s er   p r o ce s s in g   ti m e.   I n   o r d er   to   d eter m i n t h r eq u ir em en ts   o f   g o o d   s u m m ar izati o n   s y s te m ,   m a n y   tex s u m m ar izatio n   ap p r o ac h es   w er r ev ie w ed .   A n   i n - d ep t h   r ev ie w   o f   tex s u m m ar izatio n   liter atu r w a s   co n d u cted   an d   r esu lts   f r o m   t h i s   s tu d y   alo n g   w i th   d escr ip tio n   o f   ea ch   alg o r it h m .   C o h er e n ce   W in n o w in g L o ca A l g o r i th m s   f o r   Do cu m e n Fin g er p r in ti n g   p r o v id es   in s i g h o n   p lag iar is m   d etec t io n   tec h n iq u es.  tech n iq u to   g e n e r ate  u n iq u v al u es   f o r   ch u n k s   o f   te x t   [ 5 ] .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   1 Ma r ch   201 5     6     12   8   3.   P RO P O SE SYS T E M   T o   d esig n   co m p en d i u m   g e n er ato r   th er ar s o m s p ec i f ic atio n s   s u c h   as  f u n ctio n al  s p e cif icatio n s   an d   p r o g r am   s p ec if ica tio n s .     3 . 1 .   F un ct io na l Specif ica t io n s   1.   T h co m p en d i u m   g e n er ato r   m ai n l y   ai m s   to   g en er ate  i m p o r tan s en te n ce s   a f ter   p ass i n g   th r o u g h   th d o cu m e n t.  A l s o   w h e n   t wo   o r   m o r ac ad e m ic  p ap er s   ar g i v en   as  i n p u t h en   co m b i n ed   n o n   r ed u n d an t   s u m m ar y   i s   g e n er ated     2.   B y   cr ea tin g   c u s to m ized   al g o r ith m   th a d r asti ca l l y   i m p r o v es   ac cu r ac y   o f   t h s u m m ar y .   T h is   h elp s   u s   s u m m ar ize  s i n g le  d o cu m e n w it h o u m is s in g   a n y   i m p o r tan t se n te n ce s   a n d   p r ese r v in g   t h co n te x t o f   th p ap er .     3.   Ma in tai n i n g   co r r elatio n   w i th   t h m ai n   id ea ,   i s   k e y   to   p r o v id i n g   t h id ea s u m m ar y .   T h u s   m u ltip le  d o cu m en ts   b elo n g i n g   to   t h s a m d o m ai n   ca n   b s u m m ar ize d .       3 . 2 .   P r o g ra m   S pecif ica t io ns   3 . 2 . 1 .   T o k enizer   1.   E v er y   w o r d   n ee d s   to   b s p lit in to   in d i v id u al  to k en s ,   ev er y   wo r d   b ec o m es a   to k en .     2.   P UNKT   m o d u le  in   N L T is   u s ed   f o r   th is .       3 . 2 . 2 .   Sto p Re m o v a l   1.   NL T s to p w o r d s   p ac k ag i s   u s ed   to   r em o v s to p   w o r d s .     2.   T h is   h elp s   i m p r o v ca lc u lat io n   o f   w o r d   f r eq u en c y .       3 . 2 . 3 .   Ste m m er   a nd   L e mm a t izer   1.   An   i n b u ilt le m m atize r   ca lled   W o r d n et  is   u s ed .     2.   T h Ste m m er   u s ed   is   S n o w b al l ste m m er .       3 . 2 . 4 Cue - P hra s e   1.   A   co r p u s   o f   c u p h r ase s   th a t a r m o s t c o m m o n l y   u s ed   in   r es ea r ch   p ap er s   is   cr ea ted .     2.   I n   s u m m ar y ,   i n   co n cl u s io n ,   o u r   in v e s tig a tio n ,   t h p ap er   d esc r ib es,  etc.   ar f e w   ex a m p les.       3 . 2 . 5 .   Rese m bla nce  t o   T it le   1.   A   li s t h at  s to r es  t h ti tle  is   cr ea ted   an d   s en te n ce s   t h at  h av r ese m b la n ce   to   t h ese  w o r d s   ar e   r an k ed   h i g h er .     2.   T h is   h elp s   m ain tain   t h co r ess e n ce   o f   th p ap er .       3 . 2 . 6 .   TF - I DF   1.   A   n u m er ical  s tatis t ic  th at  i s   in te n d ed   to   r ef lect  h o w   i m p o r tan w o r d   is   to   d o cu m e n in   a   co llectio n   o r   co r p u s     2.   I u s es  th m o s n o   o f   o cc u r r en ce s   as  an   u p p er   en d   v alu e.   T h o th er   f r eq u en c ies  ar co m p ar ed   t o   th is   v al u e.     3.   A   c u s to m   co m b in a tio n   o f   t h ese  th r ee   a lg o r it h m s   r a n k s   s e n ten ce s   ap tl y   f o r   ac ad e m ic  r esear ch   p ap er s .     3. 2 . 7 .   Sente nce  Select io n   T h s en ten ce s   w h ich   h av r a n k   ab o v t h th r e s h o ld   r an k   ar s elec ted .     3 . 2 . 8 .   Redund a ncy   Re m o v a l   1.   Ma x i m u m   Ma r g in a l Rele v an c alg o r ith m   is   u s ed   to   r e m o v r ed u n d an c y .     2.   A   co m b i n ed   n o n   r ed u n d an t s u m m ar y   is   g e n er ated   f o r   m u ltip le  d o cu m en ts .     3 . 2 . 9 .   F ing er printing   1.   C r ea ted   h as h   v al u f u n ctio n   u s in g   len g t h   o f   f in g er   p r i n a s   2 0 .   T h is   i s   a n   id ea n u m b er   as  it   is   lo w   e n o u g h   to   p r o v id ac cu r at r esu lts .   I t is lar g en o u g h   to   b co m p u tab le.     2.   A   f o r m u la  f r o m   th p ap er   is   u s ed   to   g en er ate  u n iq u f i n g er p r in ts .       3 . 2 . 1 0 .   Winn o w ing   An   al g o r ith m   p r i m ar i l y   u s e d   to   d etec p lag iar is m   m o d if ied   to   d eter m i n r ele v an ce   b et w ee n   d o cu m en ts .   Used   to   id en ti f y   le v el  o f   co h er e n ce   b et w ee n   d o cu m e n t s   b ased   o n   th f i n g er p r i n ts   m atc h ed .     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       A n   I n teg r a ted   A p p r o a ch   fo r   C o mp en d iu Gen era t o r   u s in g   C u s to miz ed   A lg o r ith ms   ( M.  S u ma n )   9   4.   I M P L E M E NT AT I O N   4 . 1   T ex t   Seg m ent a t io n   T h r ee   m ai n   p r o c ess es ta k p lace   in   th i s   m o d u le.     4 . 1 . 1 .   T o k eniza t io n     Sp litt in g   s e n te n ce   in to   i n d iv i d u al  w o r d s .   N L T P UNKT   is   u s ed .     4 . 1 . 2 .   L e mm a t iza t io n   C o n v er tin g   w o r d   to   its   r o o t f o r m .   E . g .   s a y s ,   s aid ,   s a y i n g   w i ll a ll  m ap   to   r o o t f o r m     s a y .     4 . 1 . 3 .   Ste m m er   I is   s i m ilar   to   a   le m m atize ,   b u it   s te m s   w o r d   r ath er   th an   g et  to   th e   r o o f o r m .   eg .   L a u g h ed ,   lau g h i n g   w ill  s te m   to   la u g h .   Ho w e v er ,   s aid ,   s a y i n g   w ill  m ap   to   s -   w h ic h   is   n o p ar t icu lar l y   en l ig h te n i n g   i n   ter m s   o f   w h at, s a”   m ea n s .   Sto p   w o r d   r em o v al  also   tak e s   p lace   w h er co n s ta n tl y   r ep ea ted   w o r d s   ar r e m o v ed .     4 . 2 .     Sente nce  Ra nk ing   Sin ce   th w o r d s   ar to k e n ized ,   th e y   ar n o w   r a n k ed   ac co r d in g   to   C u P h r ase,   Sen ten ce   P o s itio n   a n d   R es e m b lan ce   to   titl al g o r ith m s .     4 . 2 . 1 .   Cue  P hra s e   C u e - P h r ase s I n   g e n er al,   th s en ten ce s   s tar ted   b y   i n   s u m m a r y ,   i n   co n clu s io n ,   o u r   in v esti g atio n ,   th e   p ap er   d escr ib es  an d   e m p h asiz es  s u c h   as   t h b est,  t h m o s i m p o r tan t,  ac co r d in g   to   t h e   s t u d y ,   s ig n i f ica n tl y ,   i m p o r tan t,  i n   p ar ticu lar ,   h ar d l y ,   i m p o s s ib le  as  w ell  a s   d o m ai n - s p ec if ic  b o n u s   p h r ases   ter m s   ca n   b g o o d   in d icato r s   o f   s i g n i f ican t c o n te n t o f   te x t d o cu m e n t.     4 . 2 . 2 .   TF - I DF   T FID F,  s h o r t f o r   ter m   f r eq u en c y   in v er s d o cu m e n f r eq u en c y ,   is   n u m er ical  s tatis t ic  th a t i s   in te n d ed   to   r ef lect  h o w   i m p o r tan t   w o r d   is   to   d o cu m e n t   in   co llec tio n   o r   co r p u s .   I t   u s es   th e   m o s n o   o f   o cc u r r e n ce s   as a n   u p p er   en d   v al u e.   T h o th er   f r eq u en cie s   ar co m p ar ed   to   th is   v a lu e.     4 . 3   Sente nce  Select io n   Sen te n ce s   w i th   r an k   ab o v t h r esh o ld   f r eq u e n c y   ar s e lecte d .     4 . 4   Redund a ncy   Re m o v a l   As  m u ltip le  d o cu m e n ts   ar b ein g   s u m m ar ized ,   s o m d o cu m en ts   m a y   h a v p o in ts   t h at  ar e   r ep ea ted .   W h en   co m b i n ed   s u m m ar y   o f   all  th d o cu m e n ts   i s   b ein g   d is p la y ed   th i s   r ed u n d an c y   co n ti n u es.  MM R   alg o r ith m   is   u s ed   to   g et  r id   o f   th is   r ed u n d an c y .     4 . 5 .     F ing er printing   Fin g er p r in ti n g   is   tec h n iq u u s ed   to   d etec P la g iar is m   i n   a ca d em ic  d o cu m en ts .   T h is   m et h o d   f o r m s                                   r ep r esen tativ d i g est s   o f   d o cu m en ts   b y   s elec ti n g   s et  o f   m u ltip le  s u b s t r in g s   ( n - g r a m s )   f r o m   t h e m .   So   th f ir s t   s tep   is   to   d o   tex t   s e g m e n tat io n   as  m atc h es  s h o u ld   b u n a f f ec ted   b y   ex tr s p ac e,   ca p ital s   an d   p u n ct u atio n ,   etc.   T h en   k - g r a m s   ar f o r m ed   w h er k   i s   2 0 .   I t is f o u n d   to   b th id ea l v al u e.     4 . 6   Winn o w ing     T h is   h elp s   u n d er s ta n d   h o w   s t r o n g l y   v ar io u s   p ap er s   p er tain i n g   to   s in g le  d o m a in   ar li n k ed .   I g iv es   u s   g o o d   p er s p ec tiv o f   h o w   t h d ata  ca n   b o r g an ized   an d   u s ed .   L e v el  o f   s i m ilar it y   th at  n ee d s   to   b m atc h ed   is   g iv e n   a   v alu e.   lo w er   t h r esh o ld   w o u ld   b a   n o is e   t h r es h o ld   th a d eter m i n es   if   t h er e’ s   s o m e   a m o u n o f   s i m ilar it y   b et w ee n   th d o cu m en t s   b ein g   co m p a r ed .   Fro m   t h er o n   th r e s h o ld s   ar s et  at  cu s to m   p o in ts   th a t d eter m i n s i m ilar it y .       5.   RE SU L T S   5 . 1   M o du le  1   Su m m ar izatio n   f o r   th s i n g le  o r   m u ltip le  I E E E   p ap er s .   E n ter   th n u m b er   o f   p ap er s   to   s u m m ar ize .     I np ut s :     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   1 Ma r ch   201 5     6     12   10       Fig u r 1 .   T o   en ter   th n u m b er   o f   p ap er s         P ap er   1 :         Fig u r 2 .   I E E E   p a p er   1   as I n p u t       P ap er   2 :                     Fig u r 3 .   I E E E   p a p er   2   as I n p u t     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       A n   I n teg r a ted   A p p r o a ch   fo r   C o mp en d iu Gen era t o r   u s in g   C u s to miz ed   A lg o r ith ms   ( M.  S u ma n )   11   O utput :         Fig u r 4 .   Ou tp u t o f   m u ltip le  p ap er s       5 . 2   M o du le  2   T o   ch ec k   th co h er en ce   f o r   th m u l tip le  I E E E   p ap er s .     I np ut:   P ap er   1         Fig u r e   5 .   I E E E   p a p er   2   as in p u t       P ap er   2         Fig u r 6 .   I E E E   p a p er   2   as in p u t   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   1 Ma r ch   201 5     6     12   12   O utput :         Fig u r 7 .   Ou tp u f o r   C o h er en c e       6.   E VA L UA T I O N   R o g u m et h o d   w ill  b u s ed   to   ev al u ate  t h s u m m ar izer .   T h o f f icial   ev a lu at io n   to o l k it  f o r   te x t   s u m m ar izatio n   i n   D UC ,   to   e v alu a te  th p er f o r m a n ce   o f   o u r   s u m m ar izatio n   s y s te m .   I in v o l v es  m a n u all y   s u m m ar izin g   d o cu m e n a n d   th en   co m p ar i w it h   t h e   au to m a ted   s u m m ar y .   Als o   in v o l v es  m a n u all y   d eter m in i n g   co h er en ce   b et w ee n   d o cu m e n t s ,   an d   co m p ar in g   i w it h   t h d o cu m e n t s .   7.       RE F E R E NC E S   [1 ]   H.  Ch o rf i,   G e o n ly   th e   e ss e n ti a in f o rm a ti o n T e x su m m a riz e b a se d   o n   im p li c it   d a ta” ,   p p .   1 - 4 ,   2 0 1 3 .   [2 ]   F re it a F . e a l. ,   c o n tex b a se d   tex su mm a riza ti o n   sy ste m ,   In   Do c u m e n A n a l y sis  S y st e m (D A S ),   2 0 1 4   1 1 t h   IA P In tern a ti o n a W o rk sh o p ,   p p .   6 6 7 0 ,   2 0 1 4 .   [3 ]   A .   N e n k o v a   a n d   K.  M c Ke o w n ,   A   su rv e y   o tex su m m a riza ti o n   tec h n iq u e s” ,   In   M in i n g   T e x D a ta   S p rin g e US. p p .   4 3 - 7 6 ,   2 0 1 2 .     [4 ]   R.   D.  L in s e a l. ,   A ss e ss in g   se n ten c e   sc o rin g   tec h n i q u e s f o e x trac ti v e   tex su m m a ri z a ti o n V ol 4 0 ,   2 0 1 3 .     [5 ]   W il k e rso n   D.  S . e a l. ,   W in n o win g l o c a a l g o rit h ms   fo d o c u me n fi n g e rp ri n ti n g ,   In   P r o c e e d in g o f   th e   2 0 0 3   A CM   S IG M O D i n tern a ti o n a c o n f e r e n c e   o n   M a n a g e m e n o f   d a ta ,   p p .   7 6 - 8 5 ,   2 0 0 3 .     [6 ]   W e n   D. e a l . ,   A   c o n tex tu a q u e r y   e x p a n sio n   b a se d   m u lt i - d o c u m e n su m m a rize f o s m a rt  lea rn in g ,   In   S ig n a l - Im a g e   T e c h n o l o g y   a n d   In tern e t - B a se d   S y st e m s (S IT IS ) ,   p p .   1 0 1 0 - 1 0 1 6 ,   2 0 1 3 .     [7 ]   I.   Ku p iec ,   e a l. ,   " tra i n a b le  d o c u me n su mm a rize r " ,   In   P ro c e e d i n g o f   th e   1 8 th   A CM S IG IR  Co n fe re n c e pp.   68 - 7 3 ,   1 9 9 5 .       B I O G RAP H I E S   O F   AUTH O RS       Dr.  M .   S u m a n   p ro f e ss o (S ig n a ls  a n d   S y ste m s)  in   d e p a rtm e n o f   El e c tro n ics   a n d   Co m p u ter   En g in e e rin g   (ECM )   h a e x ten d e d   h is  se rv ice a HO in   ECM   d e p a rtm e n t,   L   Un iv e rsit y .   He   w a a wa rd e d   w it h   P h . D.  f ro m   JN T UH ,   H y d e ra b a d   f o th e   th e sis  e n ti tl e d   " ENHA NCEM ENT  OF   COMP R ES S ED  NO IS Y S P EE C H S IG N AL" .   H e   is  a l so   th e   li f e   m e m b e o f   Co m p u ter S o c iet y   o f   In d ia (CS I) .             T h a ru n   M a d d u   stu d e n o f   El e c tro n ics   a n d   Co m p u ter  E n g in e e rin g   (ECM p u rsu in g   4 th   y e a o B. T ECH  in   L   Un iv e rsity .   M y   p re v io u re se a rc h   w o rk a re   b a se d   o n   d a ta  m in in g .   T h e   p re se n t   w o rk   is  re late d   to   NL TK  o n   w h ich   th e   p re se n p a p e re se a rc h   is  d o n e .               Evaluation Warning : The document was created with Spire.PDF for Python.