I AE I nte rna t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.   3 ,   No .   3 Sep tem b er   201 4 ,   p p .   112 ~ 120   I SS N:  2252 - 8938          112       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J AI   Effec o Featur Selection o n  S m a l l a nd La rg e Docu m en Su m m a ri z a tion         D . Y .   Sa kh a re *   Ra j k u m a r **   * R e se a rc h   sc h o lar Bh a ra ti   V e e d y a p e e th   d e e m e d   u n iv e rsity ,   P u n e ,   A d d re ss   M a h a ra sh tra,  In d ia   ** D RD O S c ien ti st ‘ D’,   DIA T ,   P u n e   M a h a ra sh tra ,   I n d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Ma y   2 2 ,   2 0 1 4   R ev i s ed   A u g   8 ,   2 0 1 4   A cc ep ted   A u g   2 0 ,   2 0 1 4       A th e   a m o u n o f   tex tu a In f o rm a ti o n   i n c re a se s,   w e   e x p e rien c e   a   n e e d   f o r   A u to m a ti c   T e x S u m m a ri z e rs.  In   A u to m a ti c   su m m a riza ti o n   a   tex d o c u m e n o a   larg e c o rp u o f   m u lt ip le  d o c u m e n ts  a r e   re d u c e d   to   a   sh o rt  se o f   w o rd o p a ra g ra p h   t h a c o n v e y th e   m a in   m e a n in g   o f   th e   tex S u m m a ri z a ti o n   c a n   b e   c las si f ied   in to   tw o   a p p ro a c h e s:   e x tra c ti o n   a n d   a b stra c ti o n .   T h is  p a p e f o c u se o n   e x tra c ti o n   a p p r o a c h . T h e   g o a o f   te x su m m a riz a ti o n   b a se d   o n   e x trac ti o n   a p p r o a c h   is  se n te n c e se lec ti o n .   T h e   f irst  ste p   in   su m m a r iza ti o n   b y   e x trac ti o n   is  th e   id e n ti f ica ti o n   o f   im p o rtan f e a tu re s.  In   o u a p p r o a c h   sh o rt   sto ries   a n d   b io g ra p h ies   a re   u se d   a tes d o c u m e n ts.   Eac h   d o c u m e n is   p re p a re d   b y   p re - p ro c e ss in g   p ro c e ss :   se n ten c e   s e g m e n tatio n ,   t o k e n iza ti o n ,   sto p   w o rd   re m o v a l,   c a se   f o ld in g ,   le m m a ti z a ti o n ,   a n d   ste m m in g .   Th e n ,   u si n g   im p o rtan f e a tu re s,  se n ten c e   f i lt e rin g ,   d a ta  c o m p re ss io n   a n d   f in a ll y   c a lcu latin g   sc o re   f o e a c h   se n ten c e   is  d o n e .   In   t h is  p a p e w e   p ro p o s e d   v a rio u f e a tu re o f   S u m m a r y   Ex tr a c ti o n   a n d   a lso   a n a ly z e d   f e a tu re th a a re   to   b e   a p p li e d   d e p e n d in g   u p o n   th e   siz e   o f   th e   Do c u m e n t.   T h e   e x p e ri m e n tatio n   is   p e rf o r m e d   w it h   th e   DU 2 0 0 2   d a tas e t.   T h e   c o m p a ra ti v e   re su lt o f   th e   p ro p o se d   a p p ro a c h   a n d   th a o f   M S - W o rd   a re   a lso   p re se n ted   h e re .   T h e   c o n c e p b a se d   f e a tu re a re   g iv e n   m o re   w e i g h tag e .   F ro m   th e se   re su lt w e   p ro p o se   th a u se   o f   th e   c o n c e p b a se d   f e a tu re s   h e lp in   im p ro v in g   th e   q u a li ty   o f   th e   su m m a r y   in   c a se   o f   larg e   d o c u m e n ts.   K ey w o r d :   A b s tr ac tio n     DUC 2 0 0 2   E x tr ac tio n   F ea tu r es     Su m m ar izer s   Co p y rig h ©   2 0 1 4   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   D . Y .   Sak h ar e   R esear ch   s ch o lar   B h ar ati  V ee d y ap ee t h   Dee m ed   Un i v er s it y ,   P u n e,   Ma h ar as h tr a,   I n d ia .   E m ail  d ip ti y s ak h ar e @ g m ail. co m       1.   I NT RO D UCT I O N     No w ad a y s ,   e n o r m o u s   a m o u n t   o f   d i g itall y   s to r ed   in f o r m ati o n   is   av ai lab le  o n   in ter n et. .   I n   o r d er   to   p r ev en s i n k i n g   i n   it,  f ilter i n g   an d   ex tr ac tio n   o f   in f o r m a tio n   ar n ec es s ar y .   A   s ig n i f ica n t   an d   o p p o r tu n to o th at  as s is t s   an d   in ter p r ets  h u g q u an titi es  o f   tex p r ese n te d   in   d o cu m e n ts   is   a u to m atic  tex s u m m ar iza tio n   ( A T S).     T h o b j ec tiv o f   A T is   to   m ak b r ief   v er s io n   o f   t h o r ig in al  te x w it h   th m o s s ig n if ican t   in f o r m atio n   at  t h s a m ti m r etain i n g   its   m ai n   co n ten an d   to   en ab le  th u s er   to   q u ick l y   co m p r eh e n d   h u g e   q u an tit ies  o f   in f o r m at io n   [ 1 ] .   T h s u m m ar y   s h o u ld   m ee t h m aj o r   co n ce p t s   o f   th o r i g in a d o cu m e n s et,   s h o u ld   b r ed u n d an t - less   a n d   o r d er ed .   T h ese  attr ib u tes  ar th b asis   o f   th g en er at io n   p r o ce s s   o f   th e   s u m m ar y .   T h q u alit y   o f   s u m m ar y   i s   s e n s i tiv f o r   th o s a ttrib u tes  r elati n g   to   h o w   t h s e n t en ce s   ar s co r ed   o n   th b asi s   o f   th e   e m p lo y ed   f ea t u r es.  C o n s eq u en t l y ,   t h e s ti m atio n   o f   th e f f icac y   o f   ea ch   a ttrib u te  co u ld   r es u l t   th m ec h a n is m   to   d is ti n g u i s h   t h attr ib u te s   p o s s es s in g   h ig h   p r io r ity   a n d   lo w   p r io r it y   [ 1 ] .   Sin g le  d o cu m en s u m m ar izati o n   is   th p r o ce s s   o f   cr ea tin g   a   s u m m ar y   f r o m   s in g le  te x d o cu m en t.  Mu lti - d o cu m en s u m m ar izati o n   s h o r ten s   co llectio n   o f   r elate d   d o cu m e n ts ;   i n to   s in g le  s u m m ar y .   U s er - f o cu s ed   s u m m ar ie s   co n tai n   in f o r m atio n   m o s r elev a n to   th e   in itial  s ea r ch   q u er y w h er ea s   g en er ic  s u m m ar ies   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       E ffect  o f F ea tu r S elec tio n   o n   S ma ll a n d   La r g e   Do cu men S u mma r iz a tio n   ( D . Y .   S a kh a r e )   113   co n tain   in f o r m at io n   ab o u th e   o v er all  p er ce p tio n   o f   t h d o c u m e n t s   co n te n t.  A b s tr ac ti v s u m m ar y   m et h o d s   g en er ate  ab s tr ac ts   b y   ex a m i n in g   a n d   i n ter p r etin g   th tex u til izin g   li n g u is tic  m et h o d s .   E x tr ac ti v e   s u m m ar izatio n   m et h o d s   s elec th b est - s co r in g   s e n ten ce s   f r o m   t h o r ig in a d o cu m e n b ased   o n   s et  o f   ex tr ac tio n   cr iter ia  an d   p r esen t th e m   in   t h s u m m ar y   [ 2 ] .   Au to m a tic  te x s u m m ar izatio n   i s   u tili ze d   i n   a   v ar iet y   o f   a p p licatio n s ,   i n cl u d in g   s ea r c h   en g i n h i t   s u m m ar izatio n   ( s u m m ar izin g   th in f o r m a tio n   i n   h it  l is f e tch ed   b y   ce r tain   s ea r c h   en g i n e) p h y s icia n s   aid s   ( to   s u m m ar ize  a n d   co m p ar t h p r escr ib ed   tr ea t m e n t s   f o r   p atien t) cr ea ti n g   t h b r ie f   o f   b o o k   an d   s o   o n   [ 3 ] .   B est  p er f o r m a n ce   o f   a u t o m a tic  tex s u m m ar izatio n   is   ac h iev ed   i f   th d o cu m e n is   w ell - s tr u ct u r ed ,   f o r   ex a m p le  n e w s ,   r ep o r ts ,   ar ticles  an d   s cie n ti f ic  p ap er s   [ 4 ] .   No r m a ll y ,   a u to m atic  d o cu m en s u m m ar izatio n   ac ce p ts   o n o r   m o r s o u r ce   d o cu m e n ts   as   in p u a n d   p r o v id es  an   ele g an t   s u m m ar y   a s   o u t p u to   t h u s er   b y   ex tr ac ti n g   th e   g is t o f   t h s o u r c e( s ) .   T h p r o ce s s   co n s i s ts   o f   t h r ee   p h a s es,  n a m el y ,   an al y s is ,   tr an s f o r m at io n   a n d   s y n t h esi s .   I n   t h a n al y s i s   p h a s e,   s m all  n u m b er   o f   s i g n if i ca n f ea t u r es  ar ch o s en   b y   a n al y z in g   t h i n p u t   d o cu m en t.  I n   th tr an s f o r m a tio n   p h ase  s u m m ar y   co r r esp o n d in g   to   th u s er s   n ee d   is   g en er ate d   b y   tr an s f o r m i n g   t h o u tp u o f   th an al y s is   p h ase.   Feat u r es  s e lecte d   ar s ig n i f ica n f ac to r s   th at  in f l u e n ce   th e   o v er all  q u alit y   o f   th s u m m a r y .   I n   t h i s   p r o p o s ed   w o r k   th e   ef f ec o f   f ea t u r s elec tio n   o n   s u m m ar izatio n   is   ev alu a ted .   T h r est  o f   th p ap er   is   o r g an ized   as  f o llo w s Sectio n   2   d escr ib es  th r ev ie w   o f   r ec en w o r k s   p r esen ted   in   t h liter atu r e.   Se ctio n   3   d escr ib es  th p r e - p r o ce s s i n g   s tep .   Sectio n   4   p r esen t s   th m at h e m a tical   m o d ell in g   f o r   f ea tu r s e lectio n .   Sectio n   5   p r esen t s   th r es u lt s   an d   d is cu s s io n .   Sectio n   6   co n clu d e s   th p ap er .       2.   L I T E R AT U RE   SU RVE Y   Au to m a ted   tex s u m m ar izatio n   is   a n   o ld   e m in e n r esear c h   ar ea   an d   d ates  b ac k   to   t h 1 9 5 0 s .   A s   a   r esu lt  o f   t h i n f o r m atio n   o v er l o ad in g   o n   th e   w eb   th er is   lar g e - s ca le  i n ter est   i n   au to m atic   tex s u m m ar izatio n   d u r in g   th e s d a y s   T h ea r ly   w o r k   o n   s i n g le - d o cu m e n t   s u m m ar izatio n   w a s   d o n b y   L u h n   [ 3 ] .   He  p r esen ted   m et h o d   o f   au to m at ic  ab s tr ac tin g   i n   th e   y ea r   1 9 5 8 .   T h is   alg o r ith m   s ca n s   th o r ig i n al  te x d o cu m en f o r   th m o s t   i m p o r tan i n f o r m atio n .     T h f ea tu r es  u s ed   h er ar w o r d   f r eq u en c y   a n d   s e n ten ce   s co r in g .   Dep en d i n g   o n   a   th r es h o ld   v al u f o r   i m p o r tan t   f ac to r s   t h f ea t u r ed   s en te n ce s   ar ex tr ac ted .   T h W ea k n es s   o f   th is   s y s te m   i s   t h s u m m ar y   p r o d u ce d   lack s   in   q u alit y .   T h s y s te m   w as  r e s tr icted   to o   f e w   s p ec i f ic  d o m ai n s   o f   liter at u r e.   B ax en d ale  [ 4 ]   u s ed ed   s en te n ce   p o s itio n   as  f ea t u r to   ex tr ac i m p o r tan p ar ts   o f   d o cu m e n ts .     E d m u n d s o n   [ 5 ]   p r o p o s ed   th co n ce p o f   cu w o r d s .   T h s tr en g th   o f   E d m u n d s o n ’s   ap p r o ac h   w as  t h in tr o d u ctio n   to   f ea t u r es   lik s e n te n ce   p o s itio n   i n   tex t,  cu w o r d s   a n d   titl an d   h ea d i n g   w o r d s   [ 5 ] .     P o llo ck   [ 6 ]   Used   s en ten ce   r ejec tio n   al g o r ith m .   T h ai m   o f   t h p ap er   w as   to   d ev elo p   s y s te m   w h ic h   o u tp u ts   s u m m ar y   co n f o r m in g   to   th s ta n d ar d s   o f   th C h e m ical  A b s tr ac ts   Ser v ice  ( C A S).     T h ab s tr ac tiv s u m m ar y   g e n er atio n   w a s   p io n ee r ed   b y   A D A Su m m ar izer   [ 7 ] .   Ma ch in L ea r n i n g   f r a m w o r k   i s   u s ed   to   g e n er ate  s u m m ar ies  u s i n g   s e n te n ce   r an k i n g .   T h s tr en g t h   o f   t h is   ap p r o ac h   w a s   it s   p o ten tial  to   h a n d le  n e w   d o m ain s   i n   ad d itio n   to   r ed u n d an c y   eli m i n at io n .   K. R .   Mc   Keo w n   i n   h i s   t h esi s   [ 7 ]   g en er ated   t h s u m m ar y   s y s te m   u s i n g   Nat u r al  L an g u ag e   P r o ce s s in g   ( NL P ) . T h ap p r o ac h   w as  b ased   o n   co m p u tatio n al  m o d el  o f   d is co u r s e   an al y s is     [ 1 1 ]   P r esen ted   T er m   W ei g h t in g   a n d   Se n te n ce   W eig h ti n g   as  i m p o r tan f ea t u r es   to   r ec o g n ize   t h e   f ea t u r ed   s en ten ce s .   I h as  al s o   ad d r ess ed   th p r o b le m   o f   a n ap h o r r eso lu tio n .   B o g u r ae v   &   Ken n ed y   [ 1 0 ] ,   Me r ce r   [ 9 ]   in   1 9 9 7 ,   T r u n e y   a n d   Fra n k   [ 8 ]   in   1 9 9 9 ,   all  o f   th e m   u s ed   k e y   p h r a s es  ex tr ac tio n   as  s u p er v is ed   lear n in g   ta s k .   Fo r   th ese  s y s t e m s   s ep ar ate  tr ain i n g   d o cu m en s et  w it h   alr ea d y   as s i g n ed   k e y   p h r a s es  i s   r eq u ir ed   to   f u n ct io n   p r o p er ly .   T h is   is   ag ai n   an   o p en   c h alle n g f o r   r esear ch   co m m u n it y .     C u a n d   P aste  [ 1 2 ]   is   th f ir s d o m ai n   in d ep en d e n ab s tr ac tiv s u m m ar izatio n   to o l.   T h is   w a s   d ev el o p ed   u s in g   s en te n ce   r e d u ctio n   a n d   s en ten ce   co m b i n atio n   tec h n iq u e s .   Her s en ten ce   e x tr ac tio n   alg o r ith m   w as   i m p le m e n ted   a lo n g   w it h   o t h er   f ea tu r e s   li k lex ical   co h er en ce ,   tf × id f   s co r e,   cu p h r ases   an d   s en te n ce   p o s itio n s   etc.     ME A [ 1 3 ]   w as  m u lti  d o cu m e n s u m m ar izatio n   to o lk i it  h as  u s ed   m u lt ip le  p o s itio n - b ased ,   T F×I DF,  lar g est  co m m o n   s u b s eq u en ce ,   a n d   k e y w o r d s   f ea t u r es.  T h m et h o d s   f o r   ev alu at in g   th q u ali t y   o f   t h e   s u m m ar ies  ar b o th   i n tr in s ic  ( s u c h   as  p er ce n a g r ee m e n t,  p r ec is io n /r ec all,   an d   r elati v u t il it y )   a n d   ex tr i n s ic   ( d o cu m en t r a n k ) . A   late s t v er s i o n   o f   ME A is   b ased   o n   ce n tr o id   b ased   m u lti d o cu m en s u m m ar izatio n .       [ 1 5 ]   Has  p r o p o s ed   k e y w o r d   s elec tio n   s tr ateg y .   T h is   i s   co m b in ed   w it h   t h KFI D m ea s u r to   s elec th m o r m ea n i n g f u s en ten ce s   to   b in c lu d ed   i n   t h s u m m ar y .     T h No n - n e g ati v co n s tr ain ts   u s ed   he r ar e   s i m ilar   to   th h u m a n   co g n itio n   p r o ce s s .   [ 1 4 ]   Pro p o s ed   tr a in ab le  s u m m ar izer   b ased   o n   f ea tu r s elec tio n   a n d   Su p p o r Vec to r   Ma ch in ( SV M) . E v o lu tio n ar y   co n n ec tio n i s m o d el  f o r   A T is   d ev elo p e d   b y   [ 1 6 ]   w h ic h   is   b ased   o n   ev o lu tio n ar y ,   f u zz y   an d   co n n ec tio n is tech n iq u e s .   All  th p ap er s   d is c u s s ed   ab o v u s v ar io u s   f ea t u r es  f o r   s u m m ar y   g e n er at in . O u r   ai m   i n   th is   p ap er   i s   t o   p er f o r m   t h co m p ar ativ e   s t u d y   o n   t h e   u s o f   v ar io u s   f ea t u r es  u s ed   f o r   d o c u m e n s u m m ar izatio n   d ep en d in g   u p o n   t h s ize  a n d   t y p o f   th d o cu m en t.  T h e   f o llo w in g   s ec t io n   d escr ib es t h v ar io u s   s tep s   in   t h p r o p o s ed   s tu d y .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   201 4   :   1 1 2     1 2 0   114       3.   P RE   P RO CE SS I NG   T h p r o p o s ed   au to m atic  te x t s u m m ar izat io n   s y s te m   co n s is ts   o f   th f o llo w in g   co m p o n e n t s   1.   P r ep r o ce s s in g     2.   Featu r ex tr ac tio n     3.   Mo d el  b u ild in g     4.   Sen te n ce   s elec t io n   an d   as s e m b ly   T h is   s ec tio n   d ea ls   w it h   th p r e - p r o ce s s in g   p h ase.   T h in p u d o cu m e n ca n   b o f   an y   d o cu m e n t   f o r m at  ( d o c,   tx t,  p d f ,   h t m l,  r t f ) ,   h e n ce   th s y s te m   f ir s ap p lies   d o cu m e n co n v er ter s   to   e x tr ac th tex f r o m   th in p u t d o cu m en t.      3. 1 Tex t   Pr ologu i ng     P r e - p r o ce s s in g   th tex t   b ef o r in ce p ti n g   to   s u m m ar izatio n   a n d   ca teg o r izatio n   is   T ex P r o lo g u i n g .   I t   co n s is ts   o f   s ix   p h a s es  w h ic h   a r lis ted   in   th f o llo w i n g   s u b s ec tio n s .     3. 1 .1 .   Tex t   S egme nt a t i on     T ex Seg m e n tat io n   i s   t h p r o ce s s   o f   d ec o m p o s i n g   t h g i v en   te x i n to   its   co n s ti tu e n s en te n ce s ,   ca lcu lati n g   ea c h   s e n te n ce   le n g th   an d   w o r d   co u n t.  T h is   m o d u le  d iv id e s   t h d o cu m en i n t o   s en te n ce s .   At  f ir s t   g lan ce ,   i m a y   ap p ea r   th at  u s in g   e n d   o f   s en te n ce   p u n c t u ati o n   m ar k s ,   s u c h   as  p er io d s ,   q u esti o n   m ar k s ,   a n d   ex cla m atio n   p o in t s ,   is   s u f f icie n t f o r   m ar k i n g   t h s e n te n ce   b o u n d ar ies.     3. 1 .2 .   N o r m a l iza t io   No r m a lizatio n   is   t h p r o ce s s   o f   co n v er ti n g   w o r d s   i n to   n o r m al ized   f o r m .   T h f o llo w i n g   ar t h p r o ce s s es th at  co m u n d er   n o r m aliza tio n   tech n iq u es.     3. 1 .3 .   To k eni z a t i on     I t is th p r o ce s s   o f   s p lit tin g   o f   th s e n te n ce   in to   w o r d s       3. 1 .4 S t op   wo r d   Rem ov a l     Du r in g   t h r etr ie v al  o f   r elev a n i n f o r m atio n   w h av e   to   r em o v f e w   w o r d s ,   n u m b er s ,   a n d   s p ec ia l   s y m b o ls   etc. ,   w h ich   h a v less   s i g n if ica n ce .   n e w   ap p r o ac h   i s   u s ed   f o r   s to p   w o r d   r e m o v al.   T h s to p   w o r d s   ar class i f ied   as  u s e f u l a n d   u s eless   s to p   w o r d   an d   t h r e m o v ed   ac co r d in g l y .   T h is   w ill  h elp   in   f aster   o p er atio n s   at  later   s te m m i n g   s ta g e.     3. 1 .5 .   C a se   F old ing     C o n v er tin g   en tire   w o r d s   i n   th s en te n ce s   i n to   lo w er   ca s s o   as  to   av o id   r ep etitio n   o f   s am w o r d   i n   d if f er e n t c ase s   lik s en te n ce   c ase,   ca p ital c ase,   titl ca s e,   u p p er   ca s etc.       3. 1. 6.   S t emmi ng     Me ch an icall y   r e m o v in g   o r   ch an g i n g   t h s u f f ix e s   o f   s o m n o u n s   o r   v er b s .   Ste m m i n g   i m p r o v es  th e   r etr iev al  p er f o r m a n ce   b ec au s th e y   r ed u ce   v ar ian ts   o f   t h e   s a m e   r o o w o r d   to   co m m o n   co n ce p t.  I also   r ed u ce s   t h s ize   o f   t h i n d ex i n g   s tr u ctu r b ec a u s th n u m b er   o f   d is ti n ct  i n d ex   ter m s   is   r e d u ce d .   T h d esig n   o f   s te m m er   is   la n g u a g s p ec if ic,   a n d   r eq u ir es   s o m s i g n i f i ca n li n g u is tic   ex p er tis e   i n   t h e   lan g u a g e.   Her e   w p r o p o s ed   an   in te g r ated   s te m m i n g   ap p r o ac h   w h ich   in v o l v es  b o th   r u le  b ased   ap p r o ac h   a n d   d ictio n ar y   b ased   ap p r o ac h .   T h p r o p o s ed   in teg r ated   m o d el  s h o w ed   b etter   i m p ac tin g   r e s u lt s   w it h   r esp ec to   w o r d s   a f f ec ted   a n d   co m p u ti n g   t i m [ 1 7 ] .       4.   M AT H E M AT I CAL M O DE L L I N G   F O F E AT URE  SE L E C T I O N   Af ter   p r e - p r o ce s s in g ,   th i n p u d o cu m en i s   s u b j ec ted   to   f ea tu r ex tr ac tio n   b y   w h ic h   ea ch   s en te n ce   in   t h tex d o cu m e n o b tain s   a   f ea tu r s co r b ased   o n   its   i m p o r tan ce .   T h i m p o r tan te x f ea tu r es  u s ed   in   t h e   p r o p o s ed   s y s te m   ar e:   ( 1 )   Fo r m at  b ased   s co r ( 2 )   Nu m er ic al  d ata  ( 3 )   T e r m   w eig h ( 4 )   T itle  f ea tu r ( 5 )   C o - r elatio n   a m o n g   s e n te n ce   ( 6 )   C o - r elatio n   a m o n g   p ar ag r ap h ,   ( 7 )   C o n ce p t - b ased   f ea t u r an d   ( 8 )   P o s itio n   d ata.   T h co n ce p t b ased   f ea tu r is   u s ed   f o r   th f ir s t ti m e.     4. 1 .   F e a t u r e   comp u t a t io n   On ce   t h f ea t u r es  ar d ec id ed ,   o n n ee d s   to   p r ep ar th m a th e m atica m o d el  f o r   th eir   co m p u tat io n .   T h f o llo w i n g   s u b s ec tio n s   d es cr ib th m at h e m a tical  co m p u tatio n   o f   t h ese  f ea t u r es.   4. 1 .1 .   F or m a t   ba s ed  s co re :     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       E ffect  o f F ea tu r S elec tio n   o n   S ma ll a n d   La r g e   Do cu men S u mma r iz a tio n   ( D . Y .   S a kh a r e )   115   T h tex i n   d i v er s f o r m at  E . g .   I talics,  B o ld ,   u n d er li n ed ,   b ig   f o n t   s ize   an d   m o r in   m an y   d o cu m e n ts   s h o w s   th i m p o r tan ce   o f   t h s en te n ce s .   T h is   f ea t u r n ev er   d ep en d s   o n   th e   w h o le  d o cu m en i n s tead   to   s o m e   ex ac s in g le   s e n te n ce .   Sco r c an   a s s i g n ed   to   t h s e n te n ce   co n s id er in g   th e   f o r m at  o f   t h w o r d s   in   th e   te x t.  T h e   r atio   o f   th e   n u m b er   o f   w o r d s   a v ailab le  i n   t h s en te n ce   w it h   s p ec ial  f o r m at   to   t h to tal  n u m b er   o f   w o r d s   i n   th e   s en te n ce   o f f er s   o n to   f o r m   th f o r m at  w h ich   i s   d ep en d en t r elativ o n   t h s co r o f   t h s en t en ce .     4. 1 .2 .   N u me r ic a l   da t a   T h i m p o r tan ce   s tats   co n ce r n in g   th e   v ital  p u r p o s o f   th d o cu m e n t   ar u s u a ll y   s h o w n   b y   t h e   n u m er ical  d ata   w it h i n   t h s e n ten ce   a n d   th is   h as   its   o w n   co n tr ib u tio n s   o n   t h b asic   th o u g h o f   t h d o cu m en t   th at  u s u a ll y   m a k w a y   to   s u m m ar y   s elec t io n .   T h r atio   o f   th n u m b er   o f   n u m er ical  d ata  th at  h ap p en s   in   s en te n ce   o v er   th s en ten ce   le n g th   i s   t h u s   u s ed   to   ca lcu late  t h s co r f o r   th is   f e atu r e.     4. 1 .3 .   Ter m   w eig ht   T er m   w eig h i s   f ea t u r v alu w h ich   i s   e m p lo y ed   to   lo o k   in to   th p r o m i n e n s e n ten ce s   f o r   s u m m ar izin g   t h tex d o cu m e n ts .   T h ter m   w ei g h o f   s e n ten ce   i s   ca lcu lated   as  th r a tio   o f   th s e n ten ce   w ei g h to   t h m a x i m u m   s en te n ce   w ei g h i n   t h g iv e n   tex t   d o cu m e n t.  T h s e n te n ce   w ei g h is   t h s u m m atio n   o f   th w eig h f ac to r   o f   al l t h w o r d s   i n   s e n te n ce .   T h w e ig h f ac to r   is   t h p r o d u ct  o f   w o r d   f r eq u en c y   a n d   th e   in v er s o f   t h s en ten ce   f r eq u e n c y .         ) (     i S M a x S TW w D i w     n j j w W S 1       )   ( T ) /   (       ) ( N N og l t I S F     W h er e,   w S     Sen te n ce   w ei g h   j W          W eig h f ac to r   o f   th w o r d   in   s en te n ce     n             Nu m b er   o f   w o r d s   i n   s en te n ce     TF         T h n u m b er   o f   o cc u r r en ce s   o f   th ter m   o r   w o r d   in   te x t d o cu m e n t   I S F        I n v er s Se n te n ce   Fre q u e n c y   N           T o tal  n u m b er   o f   s e n te n ce s   in   d o cu m en t   ( T ) N     T o tal  n u m b er   o f   s e n te n ce s   th at  co n tai n   t h ter m   ( T )     4. 1 . 4.     T it le  f ea t ures   A   s e n te n ce   is   g i v en   g o o d   s co r o n ly   w h e n   t h g i v e n   s e n te n ce   h a s   th ti tle  w o r d s .   T h in ten tio n   o f   th d o cu m e n i s   s h o w n   v ia  t h w o r d   b elo n g i n g   to   t h t itl if   a v ailab le  in   th a s e n te n c e.   T h r atio   o f   th e   n u m b er   o f   w o r d s   in   t h s e n te n ce   th at  o cc u r   in   tit le  to   th to tal  n u m b er   o f   w o r d s   in   t h titl h elp s   to   ca lcu lat e   th s co r o f   s en ten ce   f o r   th i s   f ea tu r e.         4. 1 . 5.     Co - re la t io n a m o ng   s e nte nce     A f ir s t,  th co r r elatio n   m atr i x   C   is   g en er ated   in   s ize  o f   N x M ,   in   w h ic h   N   is   th n u m b er   o f   s en te n ce   a n d   t h M   i s   t h n u m b er   o f   u n iq u k e y w o r d s   in   t h d o cu m e n t.  E v er y   ele m e n o f   t h e   m atr i x   is   f illed   w i th   ze r o   o r   o n e,   b as ed   o n   w h et h er   t h co r r esp o n d in g   k e y w o r d   is   p r esen ted   o r   n o t.  T h en ,   th e   co r r elatio n   o f   ev er y   v ec to r   w it h   o th er   v ec to r   ( s e n ten ce   w it h   o th er   s e n ten ce )   i s   co m p u ted   f o r   all  co m b in atio n s   s o   th at  th m atr i x   o f   N x N is   g e n er at ed   w h er ev er y   ele m en is   th e   co r r elatio n   o f   t w o   v ec to r   ( t w o   s en te n ce s ) .     T h en ,   ev er y   ele m en t o f   t h r o w   v ec to r   is   ad d ed   to   g et  th s e n ten ce   s co r e.       4. 1 .6 .   Co - re la t io n a m o ng   pa ra g ra ph   I S F TF W i Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   201 4   :   1 1 2     1 2 0   116   Her e,   th co r r elatio n   is   co m p u ted   f o r   e v er y   p ar ag r ap h   i n s te ad   o f   s en ten ce s .   f o r   t h at,   t h co r r elatio n   m atr i x   C   is   g en er ated   in   s ize  o f   P x M ,   in   w h ic h   P is   th n u m b er   o f   p ar ag r ap h   an d   th M   is   th n u m b er   o f   u n iq u k e y w o r d s   i n   t h d o cu m e n t.  E v er y   ele m e n t o f   t h m atr i x   is   f illed   w it h   ze r o   o r   o n e,   b ased   o n   w h et h er   th co r r esp o n d in g   k e y w o r d   is   p r esen ted   o r   n o i n   t h p ar ag r ap h .   T h en ,   t h co r r elatio n   o f   ev er y   v ec to r   w it h   o th er   v ec to r   ( p ar ag r ap h   w it h   o th er   p ar ag r ap h )   is   co m p u ted   f o r   all  co m b in atio n s   s o   t h at  th m atr ix   o f   P x P is   g en er ated   w h er ev er y   ele m e n is   th co r r elatio n   o f   t w o   v e cto r   ( tw o   p ar ag r ap h ) .     T h en ,   ev er y   ele m en o f   t h e   r o w   v ec to r   is   ad d ed   to   g et  th e   s c o r o f   ev er y   p ar ag r ap h s   a n d   th s co r o f   ev er y   w i ll  o b tain   th s a m s co r o f   w h at  it s   r elev a n t p ar ag r ap h   o b tain ed .     4. 1 .7 C on cep t - ba s ed  f ea t ure   I n itiall y ,   t h co n ce p is   ex tr ac ted   f r o m   th e   i n p u d o cu m en u s i n g   t h m u t u al  i n f o r m atio n   a n d   w i n d o w in g   p r o ce s s .   A   w i n d o w i n g   p r o ce s s   is   ca r r ied   o u th r o u g h   th d o cu m e n t,  in   w h ic h   v ir tu al  w i n d o w   o f   s ize   ' k '   i s   m o v ed   f r o m   le f to   r ig h u n til  t h en d   o f   th d o cu m en t.  T h en ,   th f o llo w i n g   f o r m u lae  ar e   u s ed   to   f i n d   th w o r d s   th at  co - o cc u r r ed   to g eth er   w it h in   ea c h   w i n d o w .       ) ( * ) ( ) , ( 2 l o g ) , ( j i j i j i w P w P w w P w w MI     W h er e,   ) , ( j i w w P T h j o in t p r o b a b ilit y   t h at  b o th   k e y w o r d   ap p ea r ed   t o g eth er   i n   tex w in d o w   ) ( i w P   T h p r o b ab ilit y   t h at  k e y w o r d   i w   ap p ea r s   in   tex w i n d o w   T h p r o b a b ilit y   ) ( i w P   is   co m p u te d   b ased   o n     sw sw t   ,   w h er t sw   is   t h n u m b er   o f   s l id in g   w i n d o ws   co n tain i n g   t h k e y w o r d   i w   an d   sw is   th e   to tal  n u m b er   o f   w i n d o w s   co n s tr u cted   f r o m   te x t   d o cu m en t.   Si m i lar l y ,   ) , ( j i w w P is   th e   f r ac tio n   o f   t h n u m b er   o f   w i n d o w s   co n ta in i n g   b o th   k e y w o r d s   o u t   o f   t h to tal   n u m b er   o f   w i n d o w s .   T h en ,   f o r   ev er y   co n ce p ex tr ac ted ,   th e   co n ce p w e ig h is   co m p u ted   b ased   o n   th ter m   w ei g h p r o ce d u r a n d   t h s e n ten ce   s co r is   also   co m p u ted   as  p er   t h e   p r o ce d u r d escr ib ed   in   ter m   w ei g h - b ased   f ea tu r co m p u tatio n .     4. 1 .8 Pos i t i on   da t a     P o s itio n - b ased   f ea t u r is   co m p u ted   w it h   r elev an to   th s en te n ce   lo ca ted   in   th d o cu m en t.  W ith   p er s p ec tiv o f   d o m ai n   e x p er ts ,   i n itial   s e n ten ce   a n d   th e   las t   s e n ten ce   o f   th e   d o cu m en t   is   i m p o r tan th a n   th e   ot h er   s en ten ce .   So ,   th m a x i m u m   s co r is   g i v en   f o r   t h o s e   s en te n ce s   an d   t h m ed iu m   v alu i s   g i v e n   to   t h s en te n ce   lo ca ted   in   t h s tar ti n g   an d   en d i n g   o f   ev er y   p ar a g r ap h .         5.   F E AT U RE   M AT RIX F O T RAI NIN G   O F   F E A T UR E - B ASE N E URA L   NE T WO RK   T h is   s ec tio n   d escr ib es  th f e atu r m atr i x   u s ed   f o r   tr ain in g   th f ea tu r e - b ased   n e u r al  n e t w o r k .   T h e   f ea t u r m atr i x   is   r ep r esen ted   w it h   t h s ize  of Nx F ,   w h er N   is   th n u m b er   o f   s e n te n ce   an d   F   is   th e   n u m b er   f ea t u r u s ed   in   t h p r o p o s ed   ap p r o ac h .   ( Her e 8 F ) .   E v er y   ele m e n o f   th m atr ix   is   th f ea t u r s co r o b tain ed   f o r   th co r r esp o n d in g   s en ten ce   w i th   t h f ea tu r e.       5 . 1 .   T ra ini ng   ph a s e   Her e m u lti - la y er   p er ce p tr o n s   f ee d   f o r w ar d   n eu r al  n et w o r k   is   u tili ze d   f o r   lear n in g   m ec h an is m ,   in   w h ic h   t h b ac k - p r o p ag atio n   alg o r ith m   i s   e f f ec ti v el y   u tili z ed   to   tr ain   n eu r al   n et w o r k s .   T o   tr ain   th n eu r a l   n et w o r k   e f f ec ti v el y ,   t h i n p u t   la y er   is   a n   i n d iv id u al  ( f ea t u r v ec to r )   o b tain ed   f r o m   t h f ea tu r co m p u tatio n   s tep s   an d   th tar g et  o u tp u is   ze r o   o r   o n th at  s ig n i f ies  wh eth er   it s   i m p o r tan ce   o r   n o t.  T esti ng   p ha s e:   I n   test i n g   p h a s e,   th in p u tex t   d o cu m en i s   p r e   p r o ce s s ed   an d   th f ea t u r s co r o f   ev e r y   s en te n ce   in   t h d o cu m en is   co m p u t ed .   T h co m p u ted   f ea t u r s co r is   ap p li ed   to   th tr ain ed   n et w o r k   t h at  r etu r n s   t h s e n ten c e   s co r o f   ev er y   s e n te n ce   p r esen ted   in   th i n p u t te x t d o cu m en t       Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       E ffect  o f F ea tu r S elec tio n   o n   S ma ll a n d   La r g e   Do cu men S u mma r iz a tio n   ( D . Y .   S a kh a r e )   117   5 . 2 Ra nk ing   o f   s ent ence   Her e,   th r an k in g   o f   s en ten ce   i s   ca r r ied   o u t u s i n g   th s en ten c s co r o b tain ed   f r o m   th p r ev io u s   s tep .   I n itiall y ,   s en ten ce s   p r esen ted   in   th i n p u te x d o cu m e n ar s o r ted   in   d escen d in g   o r d er   ac co r d in g   to   th f i n al   s en te n ce   s co r e.   T h en ,   t h to p - N   s en te n ce s   ar s elec ted   f o r   th s u m m ar y   b ased   o n   th co m p r e s s io n   r ate   g iv e n   b y   t h in p u u s er .   Fi n all y ,   th e   s elec ted   to p - N   s en ten ce s   ar o r d er e d   in   s eq u e n tial  w a y   b ased   o n   t h e   o r d er   o f   th r ef er en ce   n u m b er   o r   u n iq u I to   o b tain   th f i n a l su m m ar y .       1 0 0                S N C N     W h er e,   S N   T o tal  n u m b er   o f   s e n ten ce s   i n   th d o cu m e n t                   C   C o m p r es s io n   r ate       6.   RE SU L T S AN D I SCU SS I O N   T h is   s ec tio n   d escr ib es  t h d etailed   th e x p er i m e n tal  r e s u l t s   an d   it   an d   a n al y s i s   o f   t h d o cu m en t   s u m m ar izatio n .   T h p r o p o s ed   s y n tact ic  an d   s en te n ce   f ea tu r e - b ased   h y b r id   ap p r o ac h   is   i m p le m e n ted   in   MA T L A B   ( Ma tlab 7 . 1 1 )   an d   t h ex p er i m en ta tio n   is   ca r r ied   o u w ith   i5   p r o ce s s o r   h a v in g   3 GM   R A M.       6 . 1 DUC   2 0 0 2   da t a s et   Fo r   ex p er i m e n tatio n ,   w h a v u s ed   DU C   2 0 0 2   d ataset  [ 18 ]   th at  co n tai n s   d o cu m e n ts   o n   d if f er en t   ca teg o r ies an d   ex tr ac tiv s u m m ar y   p er   d o cu m e n t.     6 . 2 E x peri m ent a l   Res ults        T ab le  1 .   Featu r s co r f o r   th e   tex t d o cu m en t ( C lu s ter   No .   d 0 7 1 f   an d   Do cu m e n t N o .   A P 8 8 0 3 1 0 - 0 0 6 2 )   S e n t e n c e   ID   F e a t u r e   sco r e   F 1   F 2   F 3   F 4   F 5   F 6   F 7   F 8   1   0   0   0 . 2 5 0 0   0 . 4 0 0 2   0 . 0 6 9 5   0 . 1 8 5 0   0 . 2 3 0 7   0 . 2 5 0 0   2   0   0   0   0 . 5 6 9 5   - 0 . 0 0 4 4   0 . 1 1 8 0   0 . 3 2 8 3   0 . 2 5 0 0   3   0 . 4 5 5   0   0   1 . 0 0 0 0   - 0 . 3 5 6 8   - 0 . 1 6 4 0   0 . 5 7 6 4   0 . 2 5 0 0   4   0   0   0   0 . 3 3 8 5   0 . 0 1 4 1   - 0 . 0 7 9 0   0 . 1 9 5 1   0   5   0   0   0   0 . 2 7 3 3   0 . 2 8 3 8   - 0 . 0 7 9 0   0 . 1 5 7 5   0 . 2 5 0 0   6   0   0   0   0 . 2 4 7 0   0 . 6 6 6 1   0 . 1 3 8 6   0 . 1 4 2 4   0   7   0 . 1 0 0 0   0 . 1 0 0 0   0   0 . 4 4 2 6   0 . 0 3 7 0   0 . 1 3 8 6   0 . 2 5 5 1   0 . 2 5 0 0   8   0   0   0   0 . 5 3 1 1   0 . 3 7 9 2   0 . 4 3 6 4   0 . 3 0 6 2   0 . 2 5 0 0       T ab le  2 .   Neu r al  n et w o r k   s co r e   S e n t e n c e                                                                                           ID   N e u r a l   n e t w o r k   sco r e   1.     0 . 1 5 1 8   2.     0 . 1 3 9 1   3.     0 . 1 6 4 8   4.     0 . 0 9 9 1   5.     0 . 0 7 5 2   6.     0 . 0 7 4 7   7.     0 . 1 1 6 4   8.     0 . 1 0 4 5       A t   f ir s t,  t h in p u d o cu m e n i s   g iv e n   to   th e   p r o p o s ed   ap p r o ac h   f o r   d o cu m e n t   s u m m ar izat io n .   T h en ,   th f ea tu r s co r is   co m p u te d   f o r   ev er y   s e n ten ce   b ased   o n   th f ea tu r e s   u ti lized   in   t h p r o p o s ed   h y b r id   ap p r o ac h .   T h s am p le  r es u lt s   o b tain ed   f o r   th f ea t u r m a tr i x   is   g i v e n   in   tab le  1 .     Su b s eq u en t l y ,   t h s y n tact ic   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   201 4   :   1 1 2     1 2 0   118   f ea t u r is   co m p u ted   f o r   th e   in p u t te x t d o cu m en t t h o s s a m p l r esu lt   is   g i v en   i n   tab le  2 .   T h is   m a tr ix   is   g i v en   to   th n eu r al  n et w o r k   to   o b tain   t h s e n te n ce   s co r e.   T h f in al   s en ten ce   s co r o b tain ed   f r o m   t w o   n eu r al   n et w o r k s   ar g iv en   i n   tab le  3 .   Her e,   th n eu r al  n e t w o r k   is   tr ain ed   w it h   th s en te n ce s   a v ailab le  in   th DUC  2 0 0 2   an d   th e   co r r esp o n d in g   tar g et  lab el  i s   i d en tifie d   w i th   t h s u m m ar y   g i v en   i n   DU C   2 0 0 2   d ataset.       6 . 3 P er f o r m a nce  E v a lua t io M ea s ure   Fo r   p er f o r m an ce   ev al u atio n ,   w e   h a v u s ed   t h p er f o r m a n ce   m ea s u r n a m el y ,   p r ec is io n ,   r e ca ll a n d   F - m ea s u r e.   P r ec is io n   m ea s u r es  th r atio   o f   co r r ec tn ess   f o r   th s e n ten ce s   in   t h s u m m ar y   w h er eb y   r ec all  is   u tili ze d   to   co u n t h r atio   o f   r elev an s e n te n ce s   i n cl u d ed   in   s u m m ar y .   Fo r   p r ec is io n ,   th h i g h er   t h v a lu e s ,   th e   b etter   th s y s te m   i s   i n   e x cl u d i n g   ir r elev a n s e n ten ce s .   O n   t h o th er   h an d ,   t h h i g h er   t h r e ca ll v a lu e s   t h m o r ef f ec tiv e   th s y s te m   w o u ld   b in   r etr iev in g   t h r elev a n s en t en ce s .   T h w ei g h ted   h ar m o n i m ea n   o f   p r ec is io n   an d   r ec all  is   ca lled   as F - m ea s u r e.       | s e n t e n c e s }   { R e t r i e v e d | | s e n t e n c e s } { R e l e v a n t   }   s e n t e n c e s   { R e t r i e v e d |      P r e c i s i o n       | s e n t e n c e s } { R e l e v a n t   | | s e n t e n c e s } { R e l e v a n t   s e n t e n c e s }   { R e t r i v e d |       R e c a l l       W h er e,   s e n t e n c e s R e l e v a n t     Sen te n ce s   t h at  ar i d en tifie d   in   t h h u m an   g en er at ed   s u m m ar y   s e n t e n c e s   R e t r i e v e d   Sen ten ce s   th a t a r r etr iev ed   b y   t h s y s te m     R e c a l l P r e c i s i o n R e c a l l P r e c i s i o n                        2          m e a s u r e - F     6 . 4 P er f o r m a nce   a na ly s is   As  p er   th ap p licatio n   o f   ab o v f ea t u r es,  th an al y s is   s h o w s   t h at  d if f er en t y p es  o f   d o cu m en ts   r eq u ir e   d if f er en co m b in a tio n s   o f   f ea t u r es  to   g et   p r ec is Su m m ar y .   T h s u m m ar y   e v a lu atio n   is   d o n o n   d if f er e n d o cu m e n ts   o f   Sta n d ar d   DUC  Fo u n d atio n .   Do c u m e n t s   ar ca te g o r ized   as  t y p e   1   an d   t y p e   2   d o cu m en ts .   a.   T y p 1   d o cu m e n ts   Do cu m e n t s   ab o u t   s in g le   s h o r t sto r y   n o m o r th a n   1 5   s en te n ce s .   b .   T y p 2   d o cu m en ts   Do cu m e n t s   a b o u a   b io g r ap h y   o f   p er s o n   m o r t h an   1 5   s en ten ce s   a n d   les s   t h an   5 0 s en te n ce s .   Sen te n ce s .     W h av e   co m p ar ed   MS   W o r d   Su m m ar y   a n d   o u r   p r o p o s e d   ap p r o ac h   u s i n g   all  e ig h f e atu r es.  T h e   p r ec is io n   ( Fi g u r 1 ) ,   r ec all  ( F i g u r 2 )   a n d   f - m ea s u r e   ( Fi g u r e   3 )   f o r   th e   t w o   t y p e   o f   d o cu m en t s   ar e   ev al u ated .   T h r esu lts   s h o w   th a t o u r   p r o p o s ed   ap p r o ac h   ( u s i n g   all  ei g h f ea t u r es)  o u tp er f o r m s   th M S w o r d   s u m m ar ies.             F ig u re   1 .   Ef fe c o n   P re c isio n     F ig u re   2.   Ef fe c o n   re c a ll       Fig u r e   [ - 3 ]   s h o w   t h at  t h p r o p o s ed   ap p r o ac h   o u tp er f o r m s   th MS   w o r d   s u m m ar ies.   Fig u r 4   s h o ws   th ef f ec t o f   in cl u s io n   o f   co n c ep t b ased   f ea tu r es o n   s h o r t a n d   lar g d o cu m en ts .     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       E ffect  o f F ea tu r S elec tio n   o n   S ma ll a n d   La r g e   Do cu men S u mma r iz a tio n   ( D . Y .   S a kh a r e )   119         F ig u re   3 .   Ef fe c o n   F   m e a su re     F ig u re   4 .   C o m p a riso n   b a se d   o n   c o n c e p b a se d   f e a tu re                                           7.   CO NCLU SI O   T h e   re su lt sh o w   th a t,   su m m a r y   g e n e ra ted   u sin g   p ro p o se d   m o d u l e   o u t p e rf o rm to   th a o f   M S - W ORD   m o d u le  f o a ll   th e   p e r f o r m a n c e   p a ra m e te rs.  T h e   e x p e ri m e n is   a lso   c a rrie d   o u w it h   c o n sid e ra ti o n   o f   c o n c e p b a se d   f e a tu re a n d   w it h o u c o n c e p b a se d   f e a tu re .   T h e   re su lt s ,   in   f ig u re   4 ,   s h o w   th a f o larg e   d o c u m e n su m m a ries   th e   c o n c e p b a se d   f e a tu re   in c re a se s   th e   q u a li ty   c o n sid e ra b ly .   S o   w e   c a n   c o n c lu d e   t h a a d d it i o n   o f   th e   c o n c e p b a se d   f e a tu re h e lp in   im p ro v in g   th e   q u a li ty   o f   th e   su m m a r y .   T h e se   re s u lt s ac h iev e d   a re   a   p ro m isi n g   sta rt   t o w a rd   f u rth e r   stu d ie s .         RE F E R E NC E S     [1 ]   A u to m a ti c   tex t   su m m a riz a ti o n   u s in g   se n ten c e   F e a tu re s:  a   r e v ie w ,   I n ter n a ti o n a J .   o E n g g .   Res e a rc h   &   In d u .   Ap p ls.   ( IJ ER IA) .   IS S N 0 9 7 4 - 1 5 1 8 ,   V o l. 4 ,   No .   I V ,   No v e m b e 2 0 1 1 ,   p p .   3 1 -   42   [2 ]   Oi  M e a n   F o o n g ,   A lan   Ox le y   a n d   S u z iah   S u laim a n ,   ‘Ch a ll e n g e a n d   tren d in   a u to m a ti c   tex su m m a riza ti o n ,   IJ IT T ,   V o l .   1 ,   Iss u e   1 ,   2 0 1 0   p p   3 4 - 3 9   [3 ]   L u h n   H. P ,   ‘T h e   A u to m a ti c   Cre a ti o n   o f   L it e ra tu re   A b stra c ts’,   IBM   J o u rn a l   A p ril   1 9 5 8   p p .   1 5 9 1 6 5   [4 ]   Ba x e n d a le,  P .   ( 1 9 5 8 ) ,   ‘M a c h i n e - m a d e   In d e x   f o T e c h n ica L it e ra tu re ’A n   Ex p e rime n t‘,   IBM   J o u r n a o Res e a rc h   De v e lo p me n t ,   V o l .   2 ,   No . 4 ,   p p .   3 5 4 - 3 6 1   [5 ]   Ed m u n d so n   H. P ,   ‘Ne w   M e th o d s   in   A u to m a ti c   Ex trac ti n g ’,   J o u rn a o f   th e   Asso c i a ti o n   f o Co m p u t in g   M a c h in e ry V o l   1 6 ,   N o   2 ,   A p ril   1 9 6 9 ,   P P .   2 6 4 - 28 5   [6 ]   J.J.P o ll o c k   a n d   A .   Za m o ra ,   A u t o m a ti c   A b stra c ti n g   Re se a rc h   a Ch e m ic a A b stra c ts  S e r v ice , J o u rn a o C h e mic a l   In fo rm a t io n   a n d   Co mp u ter   S c ien c e s,   1 5 ( 4 ),   2 2 6 - 2 3 2 ( 1 9 7 5 )   [7 ]   Ka th lee n   R.   M c Ke o w n ,   ‘Disc o u rse   S trate g ie f o G e n e ra ti n g   N a tu ra L a n g u a g e   T e x t’,   De p a rt m e n o f Co m p u ter   S c ien c e ,   Co lu m b ia Un iv e rsity ,   N e w   Yo rk ,   1 9 8 2     [8 ]   T u rn e y , ’  L e a rn in g   to   e x trac k e y p h ra se f ro m   te x t’,   tec h n ica re p o rt  ERB - 1 0 5 7 .   (NRC# 4 1 6 2 2 ),   N a ti o n a Re se a rc h   Co u n c il ,   I n stit u te f o I n f o rm a ti o n   T e c h n o lo g y ,   1 9 9 9   [9 ]   M a rc u ,   D.  T h e   a u to m a ti c   c o n str u c ti o n   o l a rg e - sc a le  c o rp o r a   fo r   su mm a riza ti o n   re se a rc h .   In   P r o c e e d in g o f   th e   2 2 n d   I n tern a ti o n a Co n f e re n c e   o n   Re se a rc h   a n d   De v e lo p m e n in   In f o rm a ti o n   Re tri e v a l,   Un iv e rsit y   o f   Ca li f o rn ia,   Be rk e le y ,   A u g u st  1999   [1 0 ]   Bo g u ra e v ,   Ke n n e d y ,   Be ll a m y ,   D y n a mic   p re se n ta ti o n   o p h ra s a l - b a se d   d o c u me n a b s tra c ti o n s’ ,   3 2 n d   In tern a ti o n a C o n f e re n c e   o n   S y ste m   S c ien c e s,  1 9 9 9   [1 1 ]   Bra n d o w ,   R. ,   M it z e ,   K.,   Ra u , ’  A u to m a ti c   c o n d e n sa ti o n   o f   e lec tro n ic  p u b li c a ti o n b y   se n ten c e   se lec ti o n ’.   In fo rm a t io n   Pro c e ss in g   a n a g e me n t, 3 1 (5 ) :6 7 5 - 6 8 5 ,   1 9 9 5   [1 2 ]   Ra d e v ,   R. ,   Blair - g o ld e n so h n ,   S ,   Zh a n g ,   Z. ,   ‘Exp e rime n ts  in   S in g le  a n d   M u lt i - Do c u e mt n   S u m ma riza ti o n   u sin g   M EA D ’.   In   F irst   Do c u m e n Un d e rsta n d in g   C o n f e re n c e ,   Ne w   Orle a n s,  L A ,   2 0 0 1 .     [1 3 ]   Jin g ,   Ho n g y a n   a n d   Ka th lee n   M c Ke o w n . ,   Cu a n d   p a ste   b a se d   te x su mm a riza ti o n .   In   1 st  Co n f e r e n c e   o th e   No rth   Am e rica n   Ch a p ter o f   th e   A ss o c iat io n   f o C o m p u tatio n a L in g u isti c s ,   2 0 0 0   [1 4 ]     Na d ira  Be g u m ,   M o h a m e d   A b d e F a tt a h ,   F u j Re n ,   ‘A u to m a ti c   te x su m m a riz a ti o n   u si n g   su p p o rt  v e c to m a c h in e ’,   In ter n a t io n a J o u rn a o I n n o v a ti v e   Co mp u ti n g ,   V o l u m e   5 ,   p p 1 9 8 7 - 1 9 9 6 ,   2 0 0 9 .     [1 5 ]   Ra fe e q   A l - Ha sh e m i,   ‘T e x S u m m a riza ti o n   Ex trac ti o n   S y ste m   ( T S ES )Us in g   Ex trac ted   Ke y w o rd s’,   In ter n a ti o n a l   Ara b   J o u rn a o e - T e c h n o l o g y ,   Vo l.   1 ,   No .   4 ,   p p 1 6 4 - 1 6 8 ,   2 0 1 0   [1 6 ]   Ra jes h   S h a rd a n a n d   P ra sa d ,   Ud a y   Ku lk a rn i,   Im p le m e n tatio n   a n d   Ev a lu a ti o n   o f   Ev o lu ti o n a ry   Co n n e c ti o n ist   A p p ro a c h e to   A u to m a ted   T e x t   S u m m a riza ti o n ’  J o u r n a l   o f   Co mp u ter   S c ie n c e   6 (1 1 ):,   2 0 1 0   I S S 1 5 4 9 - 3 6 3 6 ,   p p 1 3 6 6 - 1 3 7 6 .   [1 7 ]   D.Y.S a k h a re ,   Dr.Rak ju m a r   ‘S y n t a c ti c a Kn o w led g e   b a se d   S tem m e f o A u to m a ti c   Do c u m e n S u m m a riza ti o n ’,   CII T   in ter n a t io n a j o u r n a o d a ta   min in g   k n o wled g e   e n g in e e rin g   p ri n t:   IS S 0 9 7 4     9 6 8 3   &   o n l in e iss n   0 9 7 4     9 5 7 8     Iss u e m a r c h   2 0 1 2     d o i:   d m k e 0 3 2 0 1 2 0 0 2 .   [1 8 ]   d u c . n ist. g o v /d a ta.h tm                                           B I B L I O G R AP H O F   AUT H O RS    Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  3 ,   No .   3 ,     Sep tem b er   201 4   :   1 1 2     1 2 0   120       . Y.S a k h a re   is  re se a rc h   sc h o lar  a t   Bh a ra V e e d y a p e e th , De e m e d Un iv e rsit y , P u n e ,   M a h a ra sh tra,In d ia.  S h e   is  c u rre n t ly   w o r k in g   a A s sista n P r o f e ss o in   De p a rtm e n o f e le c tro n ics   En g in e e rin g   a M A E, A lan d i, P u n e .   S h e   h a to tal   Ei g h t   y e a r tea c h in g   e x p e rien c e .   He tea c h in g   a re a s are Dig it a s y ste m s,In f o r m a ti o n   Re tri v a l, V L S De sig n           Ra Ku m a wa b o rn   o n   1 4 th   M a y   1 9 6 3   in   M u z a ff a rn a g a U.P . ,   I n d ia.  He     h a c o m p lete d   h is  M .   S c . (El e c tro n ics De g re e   in   1 9 8 7   f ro m   Un iv e rsit y   o f     M e e ru t,   M e e ru t.   He   h a b e e n   a w a rd e d   M .   T e c h .   a n d   P h .   d e g re e     in   1 9 9 2   a n d   1 9 9 7   re sp e c ti v e l y   f ro m     Un iv e rsit y   o f     De lh i,   Ne w   De lh i.   He   w o rk e d   a CEE RI  P il a n f ro m   1 9 9 3   t o   1 9 9 4   a a   re se a rc h   a ss o c iate .   F ro m     M a y     1 9 9 7       t o       Ju n e       1 9 9 8 ,   h e     w o rk e d     a s     As si sta n P r o f e ss o in   De p a rt m e n El e c tro n ics   a n d   Co m m u n ica ti o n s   En g g ,   V e ll o re   C o ll e g e   o f   En g g . (No w   V IT ),   V e ll o re .   H e   w o rk e d   in   DL RL   (DRD O),  H y d e ra b a d   a S c ien ti st      f ro m   Ju n e   1 9 9 8   t o   A u g u st  2 0 0 2   a n d   late o n     c a m e   i n   DIA T   (D U)  in   S e p 2 0 0 2 .     A p re se n t,   h e   is  S c ien ti st  ‘E’   in   De p a rtme n o f   El e c tro n ics   En g g . ,   DI A (De e m e d   Un iv e r sit y ),   P u n e .   He   e sta b li sh e d   a   M icro w a v e   a n d   M il li m e ter   Wav e   A n ten n a   Lab o ra to ry   in   DI AT   (DU ),   P u n e   a n d   f o rm u late d   th e   M .   T e c h .   P r o g ra m m e   in   th e   De p a rtm e n o f   El e c tro n ics   En g g .   in   2 0 1 0 .   He   h a s w rit ten   se v e r a tec h n ica p a p e in   re p u ted   I n tern a ti o n a J o u r n a a n d   c o n f e re n c e s.        Evaluation Warning : The document was created with Spire.PDF for Python.