I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   9 ,   No .   4 A u g u s t   201 9 ,   p p .   3 1 6 7 ~ 3 1 7 4   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 9 i 4 . p p 3 1 6 7 - 3174           3167       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   ro bust au thors hip attri bution o n  big perio d       M ub in Sh o u k a t   T a m bo li 1 R a j esh   P ra s a d 2   1 M a to sh ri  C o ll e g e   o f   En g in e e rin g   a n d   Re se a rc h   Ce n tre ,   I n d ia   2 S in h g a d   I n stit u te o f   T e c h n o lo g y   a n d   S c ien c e   Na rh e ,   I n d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Au g   26 ,   2 0 1 8   R ev i s ed   Mar   13 ,   2 0 1 9   A cc ep ted   A p r   4 ,   2 0 1 9       A u th o rsh ip   a tt ri b u t io n   is  a   tas k   t o   id e n ti f y   th e   w rit e o f   u n k n o wn   tex a n d   c a teg o rize   it   to   k n o w n   w rit e r.   W r it in g   sty le  o f   e a c h   a u th o is  d ist in c a n d   c a n   b e   u se d   f o th e   d isc rim in a ti o n .   T h e re   a re   d iff e re n p a ra m e t e rs  re sp o n sib le  f o re c ti fy in g   su c h   c h a n g e s.  W h e n   th e   w rit in g   s a m p les   c o ll e c ted   f o a n   a u th o w h e n   it   b e l o n g t o   sm a ll   p e rio d ,   it   c a n   p a rti c i p a te  e f f i c ien tl y   f o r   id e n ti f ica ti o n   o f   u n k n o w n   sa m p le .   In   th is  p a p e a u t h o i d e n ti f ica ti o n   p ro b lem   c o n sid e re d   w h e re   w rit in g   sa m p le   is  n o t   a v a il a b le  o n   t h e   sa m e   ti m e   p e rio d .   S u c h   e v id e n c e c o ll e c ted   o v e l o n g   p e rio d   o f   ti m e .   A n d   c h a ra c t e n - g ra m ,   w o rd   n - g ra m   a n d   p o n - g ra m   f e a tu re u se d   to   b u i ld   th e   m o d e l.   As   th e y   a r e   c o n tri b u ti n g   to w a rd st y l e   o f   w r it e in   ter m o f   c o n ten a we ll   a sta ti stic   c h a ra c teristic  o f   w rit in g   st y le.  We  a p p li e d   su p p o rt  v e c to m a c h in e   a lg o rit h m   f o c las si f ica ti o n .   Ef f e c ti v e   re su lt a n d   o u tco m e   c a m e   o u f ro m   th e   e x p e ri m e n ts.  W h il e   d isc ri m in a ti n g   a m o n g   m u lt ip le  a u th o rs,  c o r p u se lec ti o n   a n d   c o n str u c ti o n   w e re   th e   m o st  ted io u tas k   w h ich   w a i m p lem e n ted   e ffe c ti v e l y .   It  is  o b se rv e d   th a a c c u ra c y   v a ried   o n   f e a tu re   ty p e .   W o rd   a n d   c h a ra c ter n - g ra m   h a v e   sh o w n   g o o d   a c c u ra c y   th a n   P o S n - g ra m .   K ey w o r d s :   Au t h o r   id en tific atio n   A ttrib u tio n   Featu r ex tr ac tio n   St y lo m etr y   SVM   Co p y rig h ©   2 0 1 9   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   Mu b in   S h o u k at  T a m b o li,    Dep ar t m en t o f   C o m p u ter   E n g i n ee r in g ,   Ma to s h r i Co lle g o f   E n g i n ee r i n g   a n d   R esear c h   C e n tr e,   Nash i k ,   Ma h ar ash tr a,   I n d ia .   E m ail:  m u b i n . ta m b o li @ g m ail. co m       1.   I NT RO D UCT I O N     Au t h o r s h ip   id en tific atio n   i s   d is ti n g u is h i n g   tas k   o f   r ec o g n iz in g   w r i ter   o f   g i v en   co n ten t   f r o m   h is   w r iti n g   s t y le.   R esear c h   o f   au t h o r   id en tif ica tio n   h a s   g o ex p o n en tial  g r o w th   i n   r ec en y ea r s   d u to   its   v alu ab le   co n tr ib u tio n   in   f o r e n s ic,   li n g u is t ic  r esear ch ,   s o cial  p s y c h o lo g y ,   l iter ar y   s ci en ce ,   s o cial  m ed ia  a n al y s is   an d   e - co m m er ce   ac tiv i ties .   Du to   th b lo o m   o f   I n ter n et  co m m u n icatio n   h as  b ec o m ea s ier   an d   co m m o n   tu r n   w a s   d iv er ted   in to   v en o m o u s   m o v e m en ts .   W id en t if y   s u c h   s u s p i cio u s   e n titi e s   o v er   t h n et w o r k .   A ct u all y ,   th i s   i s   a   ted io u s   tas k   b u it  ca n   b s i m p lif ied   u s in g   au th o r s h ip   attr ib u tio n .   Ge n er all y ,   m es s ag e s   o n   w eb   ar n a m e less .   Ma n y   au t h o r s   i n   t h eir   w r iti n g ,   th e y   d o n g iv e   th eir   g e n u in e   ch ar ac ter   d ata.   Fo r   ex a m p le,   n a m e,   a g e,   s ex   a n d   ad d r ess .   I n   n u m er o u s   ab u s e s   o r   w r o n g d o in g   i n s ta n ce s   o f   o n lin m es s ag e s ,   it  is   r eq u i r ed   to   f in d   th r ea id en tit y   o f   a u th o r s .   Alo n g   t h e s li n es,  th e   o b s cu r it y   o f   o n li n m es s ag e s   f o r ce s   s o m e   k i n d   o f   d if f ic u lt ies  to   id en ti f y   a u t h o r   o f   co n te n t s   a v ailab le  o n   I n ter n et.   I n   t h n atu r o f   attr ib u tio n ,   ca te g o r izatio n   is   m ad f o r   u n k n o w n   tex d o cu m en to   o n e,   f r o m   li m ited   s et  o f   ca n d i d a te  au t h o r   w h o s e   d ata - s et  is   in   ter m s   o f   w r iti n g   s a m p le  [ 1 ] .     W r itin g   o f   ea ch   a u t h o r   is   u n iq u el y   id en ti f ied   w it h   w r iti n g   s t y le.   So ,   w r i tin g   s t y le  w o u ld   b ec o m o n e   m etr ic  o f   d is cr i m in a tin g   au th o r s .   T h er ar f ac to r s   af f ec t h p er f o r m an ce   o f   attr ib u tio n   s y s t e m n u m b er   o f   au th o r s ,   w r iti n g   s a m p le,   s ize  o f   w r it in g   s a m p le,   p er io d   o f   k n o w n   an d   u n k n o w n   w r iti n g   s a m p les  a v ailab le.   W r itin g   s t y le  o f   a u t h o r   ch a n g es  o v er   ti m e.   T o   o b s er v s u c h   c h an g e   an d   i ts   e f f ec t   o n   a u th o r   id en ti f ica tio n ,   d ataset  s h o u ld   co n tain   s a m p l o v er   b ig   tim p er io d ,   s o   th at  p er f o r m an ce   o f   s y s te m   ca n   b ev alu ated   co r r ec tly .   T h er ar s ev er al  p ar a m eter s   w h ich   a f f ec ts   w r i tin g   s t y le  o f   i n d iv id u al  w h e n   b ig   p er io d   c o n s id er ed .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t   201 9   :   3 1 6 7   -   3174   3168   T h ese  f ac to r s   ef f ec ts   o n   s t y le   o f   w r iti n g   in c lu d es  ed u ca tio n ,   n atio n alit y ,   g e n r e,   ag e,   to p ic,   f o r m al  co n te n t,   w r itte n   in   t h s a m p er io d .   T h ese  s a m p les  ar w r itte n   o v er   d if f er e n ti m p er io d ,   co g n i tiv d is to r tio n ,   th i n k i n g ,   e m o tio n s ,   p s y c h o lo g y   etc.   T h ese  ch alle n g es  h av o n ce   in   w h ile  b ee n   te n d ed   to   b y   th r esear c h   g r o u p .   Ma n y   t ec h n iq u e s   h a v s h o w n   r e m ar k ab le  ad eq u ac y   in   d is t in g u is h i n g   t h g e n u i n w r iter s ,   a n d   in   r ev ie w   s e v er al  r esear ch e s   m a d b y   co n s id er in g   s a m p le  i n   s a m ti m p er io d   h en ce   d is to r t io n   in   w r i tin g   s t y l e   co n s id er ed   n e g li g ib le  [ 2 ] .   A r t if icial   n e u r al  n et w o r k   ca n   b u s ed   b y   tex p r o ce s s i n g   [ 3 ] .   T h er is   r e m ar k ab le   ch an g i n   w r it in g   s t y le   at  d if f er en a g at   co m p o s itio n   n o v el,   co n cl u d t h at  v o ca b u lar y   s ize  li m ited   o v e r     ti m [ 4 ] .   T em p o r al  ch an g e s   o cc u r r ed   in   w r iti n g   s t y le  a n d   v o c ab u lar y   u s a g o n   s h o r t te x t o v er   ti m e.   A ut h o r   d o   h av c h a n g i n   h is   w r i tin g   s t y le  b u d if f er en a u t h o r s   h a v d if f er en s t y le  [ 5 ] .   T im a n d   to p ics  ar r esp o n s ib le  f o r   ch an g i n   w r iti n g   s t y le s   an d   also   af f ec t t h ac cu r ac y   o f   at tr ib u tio n   tas k   [ 6 - 7 ] .     I n   tr ad itio n al   ap p r o ac h es,  t h e r ar s o m e   d is ad v a n ta g es.   F ir s i s   t h at   w r iti n g   s a m p le  u s ed   in   th e   attr ib u tio n   ta s k   ar ir r esp ec ti v o f   ti m p er io d .   P r o b ab ly   all  s a m p le s   b elo n g   to   n ea r   p er io d s .   So ,   th ti m e   ef f ec o n   e v er y   s a m p le  is   n u l lif ied .   Seco n d   is   t h at  r esear c h   li m i ted   to   f i x ed   n u m b er   o f   f ea tu r es  w o r k ed   o n   li m ited   to   s i m ilar it y - b a s ed   ap p r o ac h   f o r   co n ten t y p es  o f   f ea t u r es  a n d   d o cu m e n s ta tis tic  f ea tu r e s   u s e s   m ac h in e   lear n i n g   ap p r o ac h es.   A za r b o n y ad   H .   [ 8 ]   f o cu s ed   o n   au th o r   id e n ti f icatio n   w i th   t h co n s id er atio n   o f   ti m p er io d   b u t a p p r o ac h   tim e   p er io d   lim ited   to   f o u r   y ea r s   a n d   u s ed   f ea tu r t y p i s   ch ar ac t er   4   g r am .   I n   th i s   p ap er ,   w f o u n d   ac c u r ac y   af f ec ted   o n   id e n ti f icatio n ,   f o r   d o cu m e n s a m p le  co llecte d   o v er   b ig   ti m e.   W ac cu m u late  d ataset  f r o m   n e w s   ar ticle s   an d   co llec ted   letter s   f r o m   f a m o u s   p er s o n alitie s .   F o r m u late   n e w   ap p r o ac h   f o r   au t h o r   id e n ti f icatio n   f r o m   th i n s p ir ati o n   o f   ti m e - ba s ed   lan g u a g m o d el s   [ 5 ,   9 ,   1 0 ] .   Data s et  co n s is o f   w r it in g   s a m p le  w r itte n   b y   a u t h o r   o v er   a n d   av er a g th ir t y   y ea r s   o f   ti m p er io d .   Featu r es,  s elec ti v s et  o f   at tr ib u tes  o n   w h ic h   m ac h i n lear n in g   ap p r o ac h   is   f o llo w ed .   O u r   m et h o d o lo g y   w o r k ed   o n   f ea t u r es  as  c h ar ac ter   s eq u en c in g ,   w o r d   s eq u e n ci n g ,   p ar o f   s p ee ch   s eq u e n cin g   a n d   co m b in at io n   o f   t h e m .   T h is   is   f o llo w ed   b y   m ac h i n lear n i n g   ap p r o ac h   f o r   cla s s i f icatio n .   SVM   s u p er v is ed   m ac h i n lear n in g   ap p r o ac h   u s ed   f o r   d is tin g u i s h in g   t h u n k n o w n   s a m p le  to   m ak it  k n o w n .   I n   d escr ib ed   ap p r o ac h ,   B ag   o f   W o r d   ( B o W )   r ep r esen tatio n   s tr ateg y   ap p lied .   Si m p li f ied   co r p u s   s tr u ct u r is   u s ed ,   r a w   tex t   s a m p les   d is tin g u is h ed   o v er   ti m s p ac w it h   t h id en ti f icatio n   o f   m o n t h   an d   y ea r   i n   w h ich   d o cu m en w r itte n .   R e m a in i n g   p ap er   is   o r g an ized   as  b elo w .   Sectio n   2   d escr ib es  th r elate d   w o r k   d o n in   th e   ar ea .   Me th o d o lo g y   d escr ib ed   in   s ec tio n   3 .   Secti o n   4   elab o r ates  ex p er i m e n r esu lt s   a n d   d is cu s s io n   a n d   co n clu s io n   b th la s s ec tio n   5   o f   th is   p ap er .       2.   RE L AT E S T UDY   Au t h o r s h ip   attr ib u t io n   w o r k s   in   th r ee   m ain   d o m ai n s -   a u th o r   id en tif icatio n ,   s i m ilar it y   d et ec tio n   an d   ch ar ac ter izatio n .   I n   id e n ti f icat io n   tas k ,   t h h i s to r y   o f   a u t h o r s h ip   s t y le  i s   k n o w n   i n   ad v an c an d   li k eli h o o d   o f   w r iti n g   s a m p le  w it h   av ailab l in f o r m atio n .   Au t h o r   ch ar ac ter izatio n   o u tli n es  t h attr ib u tes  o f   w r i ter   an d   p r o d u ce s   th w r iter   p r o f ile  i n   lig h o f   h i s   o r   h er   w o r k .   So m o f   th e s q u ali ties   i n cl u d s ex ,   i n s tr u cti v a n d   s o cial  f o u n d atio n   an d   d ialec t   co m m o n alit y .   I n   s i m ilar it y   d etec tio n ,   w o r k   o f   d i f f er en t   au th o r s   is   co m p ar ed   w it h   s i n g le  au t h o r   to   f in d   it  its   clo s en ess   [ 1 1 ] .   Deta iled   r ev iew   [ 7 ]   d escr ib es  th m e th o d o lo g ies  f o r   au th o r s h ip   attr ib u tio n   s tar ti n g   f r o m   s t y lo m etr y   f ea tu r es,   w h ich   co n s is t   o f   le x ical   f ea tu r es,   ch ar ac ter   f ea t u r es,  s y n tact ic   f ea t u r e,   s e m a n tic  f ea t u r es,  a p p licatio n   s p ec i f ic  f ea t u r es.  L e x ical  h i g h lig h t s   ar w o r d s   o r   ch ar ac ter - b ase d   f ac t u al  m ea s u r es   o f   a   le x ica v ar iet y   [ 1 2 ] .   C h ar ac ter   b as ed   f ea t u r es  co n s i s o f   s eq u e n ce   o f   c h ar ac ter s ,   m ea s u r ed   a ch ar ac ter   lev e l.   S y n tactic  f ea t u r in v o lv e s   s y n tax   o f   la n g u a g u s ed   f o r   w r itin g   an d   s e m a n ti c   co r r esp o n d s   to   m ea n i n g   o f   s en ten ce   f o r   w h ich   N L P   to o ls   c an   b u s ed ,   ap p licatio n   ty p in v o l v es  s p ec i f icall y   t y p o f   d o cu m e n t,  d o m ai n   o f   d is cu s s io n   in   co r p u s   [ 1 1 ] .   Featu r es  ar n o th i n g   b u s t y le  m ar k er s .   P ap er   [ 1 3 ]   u s e s   s i m ilar it y - b a s ed   ap p r o ac h   w it h   r an d o m   f ea t u r es,  w h ich   ca p tu r es  in f o r m at io n   ab o u to p ic  an d   w r it in g   s t y le  a n d   ap p lied   n o v el  alg o r ith m   to   p r o d u ce   r esu lt.  R es u lt  b y   t h e m   w as  o b s er v ed   o n   ab o u 1 0 0 0   au t h o r   w it h   9 3 . 2 p r ec is io n .   Fo cu s   w as  g iv e n   o n l y   f o r   ch ar ac ter   4 - g r a m ,   s in g le   f ea t u r w i th   ab o u 2 0 0 0 0   attr ib u tes.   T h en   th is   r es u lt  w a s   co m p ar ed   w it h   d is tr ib u tin g   d ataset  i n to   t r ain in g   a n d   test i n g ,   r ep ea ted l y .     R esear ch   i n   v is u alize d   ev e n d r iv en   ap p r o ac h   [ 1 4 ]   ca n   b v is u al ized   an d   in ter p r eted .   A p p r o ac h   w a s   b ased   o n   v is u aliza t io n   o f   f i n g er p r in co m p ar is o n .   Feat u r s et  is   b ased   o n   t w o   t y p e s ,   s et  o n is   u n i f ied   a n d   an o th er   is   clas s   s p ec i f ic.   A   g r o u p   o f   w r iti n g   s t y le  f ea t u r g ath er ed   as  ev id e n ce   u n it  alo n g   w i t h   it s   s co r in g   v ec to r .   An al y s i s   w as  m ad o n   s u c h   ev e n s co r to   f i n d   tar g e ted   cr ea to r .   Su itab ilit y   o f   m et h o d   is   li m ited   to   2 0   au th o r s .   W o r d   n - g r a m ,   ch ar ac ter   n - g r a m ,   P o n - g r a m   f ea tu r es  u s ed   to   co n s tr u ct  ev en t.  T h ap p r o ac h   ex p lain ed   i n   [ 1 5 ] ,   b ased   o n   th eo r etica s tu d y   o f   f u n ctio n   w o r d s   in   au t h o r s h ip   attr ib u t io n .   Fu n ctio n   w o r d s   ar e   n o th i n g   b u e x tr an eo u s   w o r d s   u s ed   w i th o u a f f ec ti n g   m ea n i n g   o f   s e n te n ce .   Sta m ato s   [ 1 6 ]   elab o r ated   f ast  te s t   ca teg o r izatio n   m e th o d s .   I n   th w o r k ,   u s ed   N L P   to o to   er a d icate   th s t y l is tic  f ac ts .   Mu l t ip le  r eg r ess io n   an d   d is cr i m i n an an al y s i s   clas s i f i ca tio n   m o d els  w er u s ed   to   ca teg o r ize  cr ea t o r s   f ac t s .   O n o f   th r esear c h   p ap er   [ 1 7 ]   d ea ls   w it h   s o u r ce   co d w r itte n   b y   d if f er en p r o g r a m m er   w h ic h   w as  id en ti f i ed   o n   th b asis   o n   n - g r a m   a u t h o r   p r o f ile.   T h is   m eth o d   is   b ased   o n   b y te  lev el   n - g r a m   f ea tu r es   o n   d if f er en t   s o u r ce   co d w r itte n   b y   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       A   r o b u s t a u th o r s h ip   a ttr ib u tio n   o n   b ig   p erio d   ( Mu b in   S h o u k a t Ta mb o li )   3169   d if f er e n a u t h o r   in   j av o r   C ++   lan g u a g e.   I n   t h is   ap p r o ac h ,   f ix ed   n u m b er   o f   m o s f r e q u en n - g r a m   f r o m   s o u r ce   co d f ile  w as c o n s id er ed .     A   s i m ilar it y   m ea s u r e   d ef i n ed   b y   Kesej [ 1 8 ]   w as   u s ed   to   f in d   r ela ti v d is ta n ce   a m o n g   t w o   s t y le s .   On   t h a v ailab le   d ataset,   t h e   ap p r o ac h   s h o w s   8 8 ac c u r ac y .   Sp ati u m - L 1 ,   a n   e f f ec ti v au th o r   v er i f icatio n   m o d el  b ased   s tr u c tu r o f   u n s u p er v i s ed   lear n i n g   al g o r ith m   [ 1 9 ] .   I m ak e s   u s o f   2 0 0   m o s tl y   o cc u r r ed   ter m s   o f   u n k n o w n   tex t.  T h m et h o d   d escr ib ed   in   th p ap er   w a s   d is tan ce   b ased .   Au t h o r   h as  r ep r esen ted   h is   w o r k   i n   P A C L E 2 0 1 4   an d   g iv e s   g o o d   co m p ar ativ r es u lt  a g ain s e x i s tin g   al g o r ith m s .   U s ed   f ea tu r es  i n   t h m et h o d s   w er w o r d   t y p e   an d   p u n ct u atio n   s y m b o l s .   ca s s t u d y   o n   v o ca b u lar y   c h an g es  [ 4 ]   o n   le x ical,   s y n tactic  a n d   d is co u r s w a s   o b s er v ed .   C o r p u s   f r o m   n o v el   w a s   u s ed   f o r   ex p er i m e n ts   a n d   o n l y   f ir s 5 0 0 0 0   w o r d s   u s ed .   Ob s er v ed   f ac ts   wer co u n o f   v o ca b u lar y   s ize,   r ich n e s s   a n d   u n iq u w o r d s   as  o n m ea s u r an d   w o r d   n - g r a m ,   w o r d   len g th   was  o th er   an d   th ir d   t y p as  o cc u r r en ce s   o f   v ag u an d   in d ef i n ite  w o r d s   w er e   ass u m ed   a s   f ac ts .   A t   d if f er en t   ag o f   co m p o s itio n   f o u n d   v a r iatio n s   o n   co n s id er ed   f ac ts .   An o th er   c h alle n g in g   task   i n   a u t h o r s h ip   attr ib u tio n   i s   to   h a n d le  m e s s a g es  w i th   v ar y in g   le n g th .   Dig i tal  co m m u n i ca tio n   o v er   i n ter n et   is   al w a y s   i n   f o r m   o f   s h o r m es s ag e s   in   ter m s   o f   e m ail,   c h at  m es s ag e s ,   t w ee ts   etc.     Z h en g   [ 1 1 ]   co m es  w i th   o n o f   th id ea   to   id en ti f y   au t h o r   f o r   o n lin m e s s a g es.  E n g li s h   a n d   C h in e s e   lan g u a g c h o s en   f o r   ex p er i m en ti n g .   Featu r e s   w er co n s id er ed   in   g r o u p s   a s   le x ical  f e atu r es,  w o r d - b ased   f ea t u r es,  s y n tact ic  f ea t u r es,  co n ten t - s p ec i f ic  f ea t u r es,  s tr u ctu r al  f ea t u r es,  C 4 . 5 ,   NN,   SVM  class if icatio n   m o d el s   u s ed   f o r   id en ti f icatio n .   R es u lt s   b ased   o n   f ea t u r t y p e s   an d   tec h n iq u es  li k SV an d   NN  p r o d u ce d   ch alle n g i n g   r es u lt s .   C o g n iti v er r o r   is   an o t h er   a s p ec f o r   attr ib u tio n .   w r iter   m a k es   b asic  m is tak e s   w i th   r eg ar d   to   f e w   is s u e s   s p ec i f icall y C au s al  P r e m is e,   P r o b ab ilit y   J u d g m en a n d   C o n d itio n al  R elia n ce .   T h r esear ch er s   b lu n d er s   ar i m p er ativ s i n ce   th e y   h a v lar g ef f ec o n   h i s   co n clu s io n s   an d   s i n ce   co m p ar ati v m i s tak e s   f r eq u e n tl y   h ap p en   w h e n   in d i v id u al s ,   b o th   s p ec iali s ts   an d   a m ate u r s   ar co n f r o n ted   w it h   th ch al len g es   o f   B a y esia n   in f er en ce   [ 2 0 ] .   C h en g   [ 2 1 ]   r ec o g n izes  t h at  t h is s u o f   s ex u al  o r ien tatio n   r ec o g n izab le  p r o o f   f r o m   te x i s   an   in ter ac tio n   b et w ee n   p s y c h o - li n g u is tic s ,   n o n s p ec if ic  w r i tin g   s t y les  o f   m e n   an d   lad ies.  I n   th eir   s tu d ie s   th e y   h av u s ed   th r ee   alg o r it h m s   v iz  SVM,   B a y esia n   lo g i s tic  r eg r ess io n   a n d   A d ab o o s d ec is io n   tr ee .   A cc u r ac y   ca p t u r ed   is   ar o u n d   8 5 %.  C o n tr ib u ted   f ea tu r e s   i n   d is cr i m i n atio n   w er e   f u n ctio n   w o r d s ,   w o r d - b ased   f ea t u r es,  s tr u ct u r al  f ea tu r es.  T h m o d el  ap p lied   o n   C o r p u s   f r o m   r eu ter s   an d   en r o n   e m a il  d ataset.   T ex is   r ep r esen ted   in   t h f o r m   o f   v ec to r s .   Ma n y   t y p es  o f   w i n d o w   a lg o r ith m s   ar ap p lied   to   d is cr i m i n ate  a m o n g   s e v er al   au t h o r s   [ 2 2 ]   to   p r o d u ce   co m p r o m i s in g   ac c u r ac y .   W r itep r in t,  n e w   tech n iq u e   in tr o d u ce d   [ 1 2 ]   in   w h ic h   s lid in g   w in d o w   f ea t u r es  w er co n s id er ed   f o r   th ap p licatio n   o f   la n g u a g m o d el.   Ma n y   t y p e s   o f   f ea t u r es  w er ac cu m u lated   an d   ap p lied   o n   t h is   n e w   m o d el  w h ich   p r o d u ce s   ac c u r ac y   ar o u n d   g r ea ter   th an   9 0 %.  A ll  t h ese   r ev ie w ed   r esear ch es  f o cu s e d   o n   th m et h o d s   f o r   au th o r   attr ib u tio n   an d   id en ti f icatio n ,   ti m w h en   t h d o cu m e n t g e n er ated   w as  n o t c o n s id er ed .     A za r b o n y ad   [ 8 ]   s t u d ied   attr ib u tio n   w h er w r iti n g   n at u r o f   au th o r   c h a n g e s .   T h ese   te m p o r al  ch a n g es  ar o b s er v ed   w it h   r esp ec to   w o r d   d is tr ib u tio n   in   w r iti n g   s a m p les.  I n   th ex p er i m en d o n e,   t w ee a n d   en r o n   e m ail  d ata  s et  w as  co n s id er ed   o v er   th p er io d   o f   5   y ea r s .   C h ar ac ter   4 - g r a m   w as  t h o b s er v ed   f ea tu r es .   T em p o r al  ch an g es  w er ca p t u r ed   w it h   al g o r ith m   d ef i n ed   i n   p ap er   [ 9 ,   1 0 ] ,   tim e - b ased   l an g u a g m o d el  an d   ca lcu lated   f r o m   li n ea r   r eg r ess io n   tech n iq u es.  R e s ea r ch   w o r k   [ 4 ]   elab o r ates  ch an g i n   v o ca b u lar y   u s ag b y     w r i ter   an d   p r o v ed   t h at  s ize  o f   v o ca b u lar y   g o es  o n   d ec r ea s in g   o v er   t i m e.   T i m e   f r a m o v er   th w o r k   w as   b ig   ab o u u p   to   3 5   y ea r s .   Au th o r   [ 6 ]   also   in v esti g ated   an d   co n clu d ed   w r iti n g   s t y le  o f   au t h o r   ch an g es  o v er   ti m e   an d   au t h o r s h ip   v er if icatio n   ac cu r ac y   i n cr ea s es  w h e n   r ec o r d   is   co m p o s ed   in   b r ief   p er io d   o f   ti m e.   R ev ie w   o f   d if f er e n m et h o d s   o f   clas s i f ica tio n   a n d   th e ir   r es u lts   is   e lab o r ated   in   p ap er   [ 2 ] .   An d   [ 2 3 ]   u s es  m ac h i n lear n i n g   ap p r o ac h   f o r   co n t en t y p es  o f   f ea t u r w h er w r iti n g   s a m p les   ar s h o r ts   a n d   ir r esp ec tiv o f   ti m e.   I n   [ 2 4 ]   s h o w   th v ar iatio n   o f   f ea tu r es   o v er   t i m e.   Var iat io n   w er n o t   s tat io n ar y   in   t h w o r k .   B u in d icate s   t h er is   c h an g i n   w r iti n g   s t y le  o f   au th o r .   I n   th s u r v e y   [ 2 5 ] ,   d escr ib es  d if f e r en t y p es  o f   f ea t u r es  an d   th e ir   co m b i n atio n   a n d   ap p lied   o n   ar ab ic  tex t f o r   to   th au th o r s h ip   attr ib u tio n   tas k .     2 . 1 .   F ea t ure  s elec t io n   Au t h o r s h ip   a ttrib u tio n   i s   a n   i n f o r m atio n   r etr ie v al  ta s k ,   w h er f ea t u r u s ed   i n   th e   w o r k   ca n   af f ec th e   o u tco m e s   p r o d u ce d .   Fro m   ab o v liter atu r e,   f ea t u r es  ar b r o a d ly   ca te g o r ized   in   t y p es  s u c h   as  w r iti n g   s t y le  an d   co n ten t   s p ec i f ic.   I n   w r i tin g   s t y le,   w r iti n g   s t y le  o f   a u t h o r   is   ca p tu r ed   in   d i f f er en m ea n s   as  s t y le  o f   a u th o r .   I n   co n ten s p ec if ic,   i m p o r ta n ce   is   g iv e n   t o   w r i tin g   co n te n an d   its   m ea n i n g .   I n   co n te n t   s p ec if ic  f ea t u r es,   w ar m o s tl y   co n ce r n ed   ab o u w o r d   n - g r a m ,   ch ar ac ter   n - g r a m ,   f r eq u e n c y   o f   w o r d   u s a g e,   co g n iti v er r o r s   m ad e,   co n ten s p ec i f ic  f ea t u r e s   etc.   T h ese  f ea tu r es  ar co n s i d er ed   as  g r o u p   b ec au s ea ch   ty p o f   t h f ea t u r is   co n s is tin g   o f   m a n y   attr ib u tes.  I t is al w a y s   ev al u ated   i n   g r o u p s .   So m eti m er r o r   o cc u r r ed   in   d o cu m en t c an   al s o   b tr ea ted   as  o n o f   t h e f f ec tiv f ea t u r es.  T h er ar f ea t u r es  w h ich   ca p t u r es  b o th   a s p ec t   co n ten t   an d   s t y le,   ch ar ac ter   n - g r a m   is   o n o f   th e m .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t   201 9   :   3 1 6 7   -   3174   3170   2 . 2 .   Cha ra ct er   n - g ra m   I n   lin g u is tic  ar it h m etic,   ch ar a cter   n - g r a m   i s   co n s i s ti n g   o f   co n tin u al  s eq u en ce   o f   n   ter m s   in   g iv e n   s a m p le.   I ca n   b p h o n e m wh ich   is   g e s t u r o f   s o u n d   w h i ch   d if f er en t iates  o n f r o m   a n o th er ,   s y llab le  w h ic h   d is tin g u is h es   s eq u e n ce   o f   s p ee ch   s o u n d   in   w o r d s   e. g .   m ath e m atic s   co m p o s ed   o f   t w o   s y ll ab les  v iz   m at h a n d   m atic s ,   letter s ,   w o r d s   etc.   I n   co n tin u al  s eq u e n ce ,   it  i s   n ee d ed   to   d ef in w h et h er   it  i s   i n   w o r d   o r   co m p lete  d o cu m en t.  I m ea n s   w h eth er   it   co n s id er s   th s p ac e,   o p er ato r ,   an d   p u n ct u atio n   i n   w o r d s   o r   n o t.     2 . 3 .   Wo rd  n - g ra m   I n   th is   co n tex t,  te x is   v ie w ed   as  s eq u e n ce   o f   w o r d s .   I n   w o r d   n - g r a m   w o r d s   ar co llected ,   w h ic h   h as   n   co n t ig u o u s   w o r d s .   I ca p t u r es  co n ten t   s p ec i f ic  i n f o r m atio n   r ath er   th a n   s t y lis tic   i n f o r m atio n   f r o m   t h   co r p u s   [ 7 ] .   A cc o r d in g   to   s u r v e y   m ad b y   Sta m atato s ,   w o r d   n - g r a m   i s   u s ed   f o r   au th o r   id en ti f icatio n .   I t d o esn t   al w a y s   g i v p r o m i s i n g   r es u l ts   r ath er   th a n   o th er s .   Ma n y   ti m es,  s u c h   co n tig u o u s   w o r d s   ar n o alw a y s   o cc u r r in g   i n   s y s te m ,   s p ec if i c all y   s h o r tex t.  I m a y   n o g i v co r r ec in f o r m atio n   a ll  t h e   ti m b ec au s it  i s   in ca p ab le  w h en   w r it in g   er r o r   is   in tr o d u ce d   in   s a m p le.   I ca p tu r es  h u m a n   b eh a v io r   b u it  is   p o s s ib le  th at  t h e   b eh av io r   m a y   c h an g o v er   ti m e.   Fo r   s h o r t   tex t,  t h er is   le s s   p o s s i b ili t y   o f   ca p tu r i n g   s u c h   r ep ea tin g   b eh a v io r .   I n   p ap er   [ 2 3 ]   w o r d   n - g r a m   f ea tu r is   u s ed   to   g at h er   s e m a n ticall y   m ea n in g f u i n f o r m ati o n   f r o m   s a m p le  o f   s h o r t te x t.     2 . 4 .   P a rt   o f   s peec h   n - g ra m   T h is   f ea t u r ca p tu r es  s t y lis tic  in f o r m atio n   f r o m   g i v e n   s a m p l o f   tex t.  T o   g en er ate  t h i s   f ea t u r e,   f ir s i t   is   r eq u ir ed   to   tag   th tex s a m p le.   I is   th w a y   o f   i n cr ea s in g   w o r d   in   co n te n ( co r p u s )   as  co m p ar in g   to     s p ec if ic  g r a m m at ical  f o r m ,   in   lig h o f   t h t w o .   I ts   d ef i n it io n   an d   r elatio n s h ip   w it h   n ea r b y   w o r d ,   s en ten ce   a n d   p ar ag r ap h .   I t is f ir m l y   f i x i n g   to   co r p u s   et y m o lo g ical.   Un iv er s al  ta g   s et  co n s is t o f   f o llo w i n g   tag s .     2 . 5 .   F un ct io w o rds   Fu n ctio n   w o r d s   ar w o r d in g   w h o s d esig n   is   to   ad d   th lin g u is tic  s tr u c tu r as  o p p o s ed   to   th s ig n i f ica n ce   o f   s en te n ce .   I is   o p en   class   w o r d ,   w h ic h   in cl u d es  ad j ec tiv e,   n o u n ,   v er b   etc.   E x am p le  o f   f u n ctio n   w o r d s   ar o f ,   at ,   i n ,   t h at ,   d o   etc.   F u n ctio n   w o r d s   ca n   b co n s id er ed   as  b ase  f o r   te x t u al   co m p ar is o n .   I n   g e n er al  co u n t   o f   f u n ctio n   w o r d s   i n   a n y   s a m p le  is   lar g w h ic h   ca n   a ct  a s   d is ti n g u is h ed   f ea t u r f o r   id en ti f y i n g   au t h o r .   I i s   n o f o cu s i n g   to w ar d s   t h co n t en o f   te x t;  it  f o cu s es  o n   s t y lis tic  f ea t u r o f   a n   au th o r .   I ca n n o b d ir ec tl y   a p p lied   to   d is cr im i n ate  b et w ee n   au th o r s .   I n   [ 2 6 ]   m et h o d o lo g y   h a v m o r t h a n   1 7 5   f u n ctio n   w o r d s .     2 . 6 .   Cla s s if ica t io n   Au t h o r s h ip   v er i f icatio n   p r o b le m   ca n   b s o lv ed   b y   s i m i lar it y - b a s ed   ap p r o ac h   an d   m ac h in lear n i n g   ap p r o ac h .   Ma ch in lear n in g   class i f icatio n   m o d el  f o llo w s   i n s ta n ce - b ased   ap p r o ac h .   I n   i n s ta n ce - b ased   ap p r o ac h   ea ch   tr ain in g   s a m p l is   id en tif ied   u n iq u e l y   i n   attr ib u tio n   m o d el.   C la s s i f icatio n   m o d el  u s es  v ar io u s   s u p er v i s ed   an d   u n s u p er v i s ed   m et h o d   f o r   th attr ib u tio n .   I n   th d escr ip tio n   w o b e y   SV m ac h in lear n i n g   m et h o d   as  i n s ta n ce - b ased   ap p r o ac h   f o r   class i f ica tio n   [ 7 ] ,   [ 2 3 ] ,   [ 1 9 ] .   I n   m a c h i n lear n i n g   b ased   ap p r o ac h ,   w r iti n g   s t y le  o f   ea ch   k n o w n   a u th o r   i s   id e n ti f ied   as   tr ain in g   s a m p le,   w h ic h   is   u s ed   to   b u ild   class i f ier ,   w h ic h   o n   n ex t   u s ed   to   clas s i f y   u n k n o w n   s a m p le.   Her is   n ee d   o f   e n o u g h   s a m p le  to   tr ai n   clas s i f ier   s o   it  ca n   b u s ed   o n   f u r t h er   [ 1 3 ] .   Dec is io n   tr ee   a lg o r ith m   [ 2 7 ]   u s ed   in   au t h o r   id en ti f icatio n   f o r   Ma r at h la n g u a g e.   Si m ilar it y   b ase d   ap p r o ac h   is   an o th er   o n e,   h er e   d is tan ce   m etr ic  is   u s ed   to   d is cr i m i n ate  b et w ee n   t w o   s a m p l e,   if   o n s a m p le  is   m o s s i m ilar   w ith   a n o th er   t h e n   co n cl u d th at  i s   w r itte n   w it h   s a m au t h o r .   T h is   is   d ir ec ap p r o ac h   h en ce   n o t   co n s id er ed   in   an   i n s ta n ce - b ase d   ap p r o ac h .     Su p p o r Vec to r   Ma ch i n ac t   as  d is cr i m i n ati n g   clas s i f ier   w h ic h   s ep ar ates  d ata  s a m p le  th r o u g h     h y p er p la n e.   A   n u m b er   o f   h y p er p lan es se p ar ate  o u t d ata  s a m p le  i n to   n u m b er   o f   clas s es.  I t is   s u itab le  to   w o r k   w it h   h i g h   d i m e n s io n al  d ata,   h en ce   s u i tab le  f o r   o u r   ap p r o ac h .   I co n s i s ts   o f   s et   o f   tr ain in g   p o in ac t   as   v ec to r   w h ic h   is   r ep r esen ted   in   b ag   o f   w o r d s   [ 2 8 ]   f o r m .   Var io u s   k er n el  f u n c tio n s   c a n   b u s ed ,   it  is   k in d   o f   alg o r ith m   u s ed   f o r   p atter n   an a l y s i s .   A   k er n el  i s   u s ed   to   m ak lin ea r   m o d el  to   n o n li n ea r   m o d el.   SVM  s u p p o r ts   f o r   d if f er e n t t y p o f   k er n e l [ 2 9 ] .         3.   M E T H O DO L O G Y   Ou r   ap p r o ac h   is   b ased   o n   r e p r esen tatio n   o f   s a m p led   tex t   to k en   an d   t h ei r   g r o u p i n g s .   M o s s i m ilar   au th o r   f o r   th e   id en t if ica tio n   b ased   th cla s s i f icatio n   m ad e   b y   o u r   s y s te m .   W f o llo w e d   m ac h in e   lear n i n g   ap p r o ac h   to   b u ild   m o d el.   Fea tu r es  r ep r esen tatio n   in   ter m s   o f   v ec to r   an d   u s ed   in s tan ce   b ase  ap p r o ac h   an d   f o llo w ed   b y   SVM  a lg o r i t h m   f o r   co n s tr u c tin g   m o d el.   Dif f er en t   f e at u r s e ts   u s e d   to   s etu p   m o d el,   f o r   v er i f icatio n   o f   th e   m o d el  w d e f i n o n e   s et   o f   s a m p le s   a s   tr ain in g   a n d   o n e   s et  a s   te s ti n g .   An d   f r o m   t h is   w e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       A   r o b u s t a u th o r s h ip   a ttr ib u tio n   o n   b ig   p erio d   ( Mu b in   S h o u k a t Ta mb o li )   3171   d ec id th ef f ec ti v e n ess   o f   o u r   alg o r ith m .   P r o p o s ed   m et h o d o lo g y   b u i ld s   w it h   f ea t u r r ep r esen tat io n ,   f ea tu r e   s elec tio n ,   ap p licatio n   o f   cla s s if icatio n   alg o r it h m   to   b u i ld   m o d el  a n d   th e n   v er i f y in g   r es u lts .   I n   t h f ea tu r e   s elec tio n ,   i n itial l y   w r e m o v o u all  t h s p ec ial  s y m b o l s ,   UR L s ,   f u n ctio n   w o r d s   f r o m   th te x t.  F u n ct io n   w o r d s   r e m o v ed   as  i is   co m m o n l y   u s ed   r ep ea ti n g   ter m s ,   an d   i n   t h p r o ce d u r ex tr ac tio n   o f   s t y le  i s   t h e   p r im ar y   o b j ec tiv e.   W h ile  ex tr ac tin g   ch ar ac ter ,   w o r d   an d   p o s   s eq u en ce   ar r esp ec tiv to   ea ch   s en te n ce .   A ll  th e   ex tr ac ted   f ea t u r es  ar r ep r es en ted   in   th b a g   o f   w o r d s .   R est  o f   th e   p r o ce d u r is   lis t ed   in   th a lg o r it h m   g iv e n   b elo w .     G iv en:   n   n u m b er   o f   s a m p le  f r o m   w h i ch   k   s a m p le  ac t a s   tr ain i n g   s a m p le  an d   n - k   ac t a s   test i n g   s a m p les.   Alg o rit h m :   V   f ea tu r Vec to r   in   ter m s   o f   B ag   o f   W o r d s   r ep r esen tatio n   ( v k   v n - k   )   t   = {  ch a r - n - g r a m,   w o r d - n - g r a m,   p o s - n - g r a m   }   R ep ea t f o r   ea ch   s a m p le  S i     Text  P r ep r o ce s s in g ( s a mp le )     V   B u ild F ea tu r e ( f ea tu r t y p t i ,   Text )     Fo r   ea ch   s a m p le  f ea tu r f r o m   V     V ne w , k , V ne w ,   n - k   R ed u ce Feat u r eDi m e n s io n ( V )   R   B u ild C lass if ier SVM( P o ly n o m ial Ker n el( p o w   2 ) ,   V k , V n - k )   Fo r   ea ch   s a m p le  s   f r o m   s et  o f   test i n g   s a m p le     b est  m atc h   f o r   s   is   d er iv ed   f r o m   R   O utput :   E ac h   s a m p le  f r o m   te s ti n g   s et  i s   ass i g n ed   to   b est  m atch   cla s s ,   n u m b er   o f   clas s es a r s a m as   au th o r   s et.     T h m ain   id ea   w it h   ab o v m eth o d o lo g y   i s   t h at  it  w o r k s   i n   g o o d   w a y   f o r   te x s a m p le  w h ic h   ar e   co llected   f r o m   u s er   o v er   lo n g   p er io d ,   it  p r o v es  t h al g o r ith m   p r o d u ce s   e f f ec ti v r es u lt s .   I n   o u r   B a g   o f   W o r d   s a m p le  is   d ictio n ar y - b ased   r ep r esen tatio n   o f   d ata.   I n   Featu r ex tr ac tio n   m et h o d o lo g y ,   w u s ed   NL T to o ls   to   ex tr ac c h ar ac ter   w o r d ,   P o n - g r a m s .   W u s ed   s k lear n   lib r ar y   to   r ep r esen o u r   d a ta  in   b ag   o f   w o r d s   f o r m atted   v ec to r .   A ll  t h ese  f e atu r es  co m b i n ed   to g et h er   w it h   co n ca te n atio n   o p er atio n   to   f r o m   alo n f ea t u r v ec to r .   I n   th s ec t io n   o f   n o r m a lizat io n ,   w n o r m alize d   th s a m p le  a m o n g   t h w h o le  f ea t u r e   v ec to r .       4.   E XP E R I M E NT   R E SU L T S   AND  DIS CUSS I O N   W h av co llected   n u m er o u s   E n g li s h   la n g u a g d ata  f r o m   r ea w o r ld   en tit y .   W h a v e   co llected   d ig ital  as  w e ll  as  h an d w r itte n   d o cs  w h o s d i g ital  co p y   i s   av ailab le   o n li n e.   W h a v c o llected   d ata  o f   1 1   au th o r s   o f   v ar io u s   ti m e   s p a n .   T h p er io d   in   w h ic h   d ata  i s   av ailab le   f r o m   4   y ea r s   to   m o r th an   3 0   y ea r s .   Mix   d atasets   w er co n s id er ed .   I n   o u r   d ataset,   m i x ed   ti m p er io d   c o r p u s   is   u s ed .   Fro m   av ailab le  r eso u r ce s ,   w ac c u m u late  h a n d w r itte n   le tter s   o f   f e w   a u t h o r s   w h ich   co n v er ted   to   d ig itized   f o r m .   An d   o n   f u r th er   u s ed   i n   id en ti f icatio n   p r o ce s s .   O u t   o f   elev en   a u th o r s ,   s i x   a u t h o r s   co r p u s   w a s   f r o m   ti m p er io d   5   t o   8   an d   f i v a u t h o r   h av i n g   co r p u s   f r o m   ti m e   p er io d   2 5   to   3 8 .   A n   ac cu m u lat ed   co r p u s   s ize   ab o u m o r t h an   3 0 0   w o r d s   i n     d o cu m en t.    Fro m   te x s a m p le   w f ir s r e m o v ed   s p ec ial  s y m b o ls ,   a n d   r ep ea ted   w o r d s   as   i n   f o r m at   o f   letter   w er e   r e m o v ed .   A S C I I   ch ar ac ter s   k e p as  it  i s   i n   s a m p les.  All  te x s a m p le  n o f r o m   s a m ti m e   p er io d   s o   o u r   s y s te m   b ec o m e s   r o b u s t.  W u s b a g   o f   w o r d s   f o r m at  f o r   r ep r esen t atio n   o f   o u r   f ea t u r v ec to r ,   as   u s ed   f ea tu r es  w er ch ar ac ter   n   g r a m ,   w o r d   n   g r a m   an d   p o s   n   g r a m .   W u tili ze d   all  s u c h   f ea tu r u n i q u el y . W ch ec k ed   co m p ar ati v r es u lt  f o r   th s a m e.   W h en   w co n s tr u cted   f ea tu r v ec to r ,   w s elec k   b est  f ea t u r f r o m   t h e m   a n d   ap p lied   class if icat io n   m o d el  t o   g en er ate  r es u lt.  Selec ted   f e atu r ev al u ated   o n   t h b asi s   o f   h o w   co r r ec tl y   th e   id en ti f icatio n   o f   au t h o r   m ad e.   Fo llo w i n g   T ab le   1   illu s tr ate  h o w   co r r ec tl y   th a u t h o r   id en ti f ied .         T ab le  1 .   T h p er f o r m an ce   o f   au th o r s h ip   attr ib u t io n   F e a t u r e     T i me   sp a n   A c c u r a c y   K a p p a   S t a t i s t i c s   P O S 2 g r a m   A v e r a g e   3 0   y e a r s   7 8 . 6 5   0 . 7 6   P O S 4 g r a m   7 0 . 1 7   0 . 6 7   W o r d 2 g r a m   8 4 . 2 1   0 . 8 2   W o r d 3 g r a m   7 0 . 4 6   0 . 6 7   W o r d 4 g r a m   5 0 . 8 7   0 . 4 6   C h a r 4 g r a m   8 6 . 9 8   0 . 8 6   C h a r 5 g r a m   8 8 . 5 9   0 . 8 7   P O S 2 W o r d d 2   8 3 . 3 3   0 . 8 1     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t   201 9   :   3 1 6 7   -   3174   3172   On   u s e   o f   s elec ted   f ea t u r t y p in d icate d   i n   T ab le   1 ,   th r es u lt  v ar ies   f r o m   5 0 to   8 8 %.  W h en   ta l k   ab o u P OS  as  f ea t u r es,  r es u lt  i s   g o o d   b u n o e n o u g h ,   it  s h o w s   f o r   p o s 2 g r a m   7 8 an d   p o s 4 g r a m   7 0 %,  m ea n s   as  n   in cr ea s es  f o r   P OS - n - g r a m   p er f o r m a n ce   o f   clas s if ier   d eg r ad ed .   I n   w o r d - n - g r a m   w o r d 2 g r a m   g i v es  g o o d   a cc u r ac y   as  t w o   co n ti n u o u s   w o r d   o cc u r r en ce   is   g o o d   ch ar ac ter is tic  to   id en ti f y   a u t h o r   h ab it  th a n   a n y   o t h er   f ea t u r e.   I m a k es  s e n s f o r   s el ec tin g   f ea t u r as  co m p ar ed   to   o th er s .   Fo r   ch ar ac ter   4   an d   5   g r a m   in d icate s   clo s e   r esu lt,  m o s o f   th r esear ch   wo r k   s u g g e s th ch ar ac ter   4   g r a m   ar g o o d   f ea tu r to   ca p tu r u s er s   w r iti n g   s t y le   as  w ell  co n te n u s ed   in   co r p u s .   B u it  m a k es  n o   s e n s e,   h o w   i g ets  ca p tu r b o th ,   if   u s ed ,   w e   id en tif ied   h ab it u al  m is tak e,   r ep etitio n   o f   w r i tin g ,   as  w o r d s   b r o k en   i n to   n   ch a r ac ter ,   it  d o esn t   h a v a n y   m ea n .   T h o u g h   s u c h   p r o b lem s   ar is i n   ch ar ac ter   n   g r a m ,   it  g i v es p r o m is i n g   r esu lt   th an   a n y   o t h er   f ea t u r es.   W also   tr ied   f o r   co m b in ed   f e atu r t y p as  p o s - 2 - g r a m   a n d   w o r d -   2 - g r a m   co m b i n ed l y ,   b u w it h   th is ,   f ea t u r s ize  i n cr ea s es  a n d   h e n ce   ex ec u tio n   ti m f o r   th s y s te m   i n cr ea s e s .   B u r es u lt s   ar ef f ec t iv b u as  co m p ar ed   to   w o r d - 2 - g r a m   i i s   les s .   T ab le  1   s h o w s   t h ac c u r ac y   a n d   k ap p s tati s tic   f o r   v ar io u s   f ea tu r t y p e.   Kap p s tatis tic  u s ed   to   m ea s u r in ter r ater   r eliab ilit y .   W h e n   s tatis t ic  is   g r ea ter   th a n   0 . 8   th en   ag r ee m en lev el   s tr o n g   a n d   i f   les s   t h an   0 . 6   th en   it  is   w ee k .   I n   T ab le  1 ,   w o r d - 2 - g r a m ,   c h ar - 4 - g r a m ,   ch ar - 5 - g r a m   a n d   p o s 2 w o r d 2   g r am   s h o w s   s tr o n g   lev el  o f   ag r ee m e n t.  Fi g u r 1   s h o w s   th A cc u r ac y   p lo wh en   co m p ar i n g   w i th   d if f er e n f ea t u r es  w it h   S VM .   W also   co m p ar ed   o u r   r es u lt s   w h en   SVM   clas s i f ier   u s ed   w it h   o th er   s y s te m s   w h e n   n ai v b a y es a n d   r an d o m   f o r est  m et h o d s   ap p lied   as sh o w n   i n   T ab le  2 .           Fig u r 1 .   A cc u r ac y   p lo w h e n   co m p ar i n g   w i th   d i f f er en f ea t u r es   w i th   S VM       T ab le  2 .   C o m p ar ativ r es u lt  wh en   u s i n g   d if f er en t c la s s i f ica ti o n   m et h o d s   F e a t u r e   Ty p e   A c c u r a c y   S V M   N a i v e   B a y e s   R a n d o m F o r e st   P O S 2 g r a m   7 8 . 6 5   6 6 . 0 8   7 5 . 4 3   P O S 4 g r a m   7 0 . 1 7   6 6 . 9 5   6 4 . 3 2   W o r d 2 g r a m   8 4 . 2 1   7 8 . 3 6   7 4 . 1 2   W o r d 3 g r a m   7 0 . 4 6   7 2 . 2 2   7 0 . 3 2   W o r d 4 g r a m   5 0 . 8 7   5 9 . 5 0   6 4 . 0 3   C h a r 4 g r a m   8 6 . 9 8   8 0 . 5 5   8 2 . 1 6   C h a r 5 g r a m   8 8 . 5 9   8 0 . 5 5   8 0 . 1 7       A cr o s s   all  t h f ea t u r es  t y p S VM   d o es  b est.  On ly   i n   ca s o f   w o r d   4   g r a m ,   SVM   s h o w s   p o o r   r esu lt   w h ile  n ai v b a y e s   an d   r an d o m   f o r est  d id   g o o d .   W h en   w i th   n aiv b a y es  a n d   r an d o m   f o r est  class i f icatio n   m et h o d s   co m p ar ed   o n   b i g   p er io d   d ataset  th e n   r a n d o m   f o r es m et h o d   d id   b est  f o r   P OS  2 - g r a m   an d   c h ar ac ter   4 - g r a m   a n d   f o r   all  o th er s   n ai v b ay e s   d id   b est.    W h ile,   th ac c u r ac y   co m p ar ed   w it h   t h m et h o d s   in   [ 1 3 ]   an d   [ 1 7 ] ,   s h o w n   in   T ab le  3 .   T h ese  m et h o d s   ar s i m ilar it y   b ased ,   an d   SV is   a   m ac h i n lear n i n g   alg o r ith m .   SVM  o u tp er f o r m s   t h o th er   t w o .   I n   o u r   d ataset  p er f o r m an ce   o f   SC A P   is   w o r s t a s   co m p ar ed   to   Featu r s a m p li n g   [ 1 3 ]   an d   SVM.       T ab le  3 .   C o m p ar in g   t h r esu l t s   w ith   t h attr ib u tio n   m et h o d   f o r   ch ar ac ter   4 - g r a m   M e t h o d s   S C A P   [ 1 7 ]   F e a t u r e   S a m p l i n g   [ 1 3 ]   S V M   A c c u r a c y   5 7 . 4 4   8 4 . 8 9   8 6 . 9 8   P r e c i si o n   5 8 . 1 3   8 6 . 1 2   8 8 . 2 5   R e c a l l   4 8 . 6 9   8 2 . 3 3   8 3 . 4 6   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       A   r o b u s t a u th o r s h ip   a ttr ib u tio n   o n   b ig   p erio d   ( Mu b in   S h o u k a t Ta mb o li )   3173   5.   CO NCLU SI O N   I n   th is   w o r k ,   w s tu d ied   a n d   i m p le m e n ted   s y s te m   w h ic h   i s   ca p ab le  to   h a n d le  au th o r s h ip   attr ib u tio n   p r o b lem   f o r   te x w r it ten   b y   a u th o r s   at  d i f f er en t   ti m f r a m e.   E x p er i m e n w as   m ad o n   E n g l is h   te x t   co r p u s   w r itte n   b y   a u t h o r   at  d if f er e n t   ti m e - f r a m e .   T ex co r p u s   f r o m   th n e w s g r o u p   co llectio n ,   l etter   co llectio n s   ar e   co n s id er ed .   W h ile  p er f o r m i n g   ex p er i m e n ts   f o cu s   is   g i v e n   o n l y   o n   f ea tu r s et,   h o w   f ea tu r es  e x tr ac ted   an d   r ep r esen ted   an d   th s elec tio n   p r o ce d u r o f   f ea tu r e s   d u r in g   m o d el  b u ild in g .   I n   th e x p er i m en ts ,   th SVM   m et h o d   g iv e s   v er y   g o o d   r esu lt   as  co m p ar ed   to   n av ie  b a y e s   an d   r an d o m   f o r est  a lg o r it h m   f o r   ch ar ac ter   n - g r a m ,   w o r d   n - g r a m   an d   p o s   n - g r a m .   Hig h est   ac h ie v ed   r es u lt   w as   8 8 . 5 9 w it h   c h ar ac ter   5 - g r a m   f ea tu r es.  C o m b i n ed   f ea t u r es  o f   p o s   2 - g r a m   a n d   wo r d   2 - g r a m   p r o d u ce s   r es u lt s   u p   to   8 3 . 3 3 w h er in d i v id u all y   th e y   p r o d u ce d   7 8 . 6 5 an d   8 4 . 2 1 r esp ec tiv el y .   Data s et  co llected   o v er   l o n g   ti m p er io d   av er ag e   3 0   y ea r s   o f   ti m e   s p a n .   Ou r   ex p er i m en is   b ased   o n   f ea tu r s elec t io n   cr iter ia.   W ca n   b r o ad en   o u r   v ie to   m ak o u r   s y s te m   m o r r o b u s t.  I n   f u t u r w o r k   ca n   b ex ten d ed   b y   ca te g o r izin g   d i f f e r en t c o r p u s   t y p e.   I m p r o v in g   s y s te m   b y   i n cr ea s i n g   ac cu r ac y   o f   s y s te m .       RE F E R E NC E S     [1 ]   M in   Ya n g ,   Ka m - P u Ch o w ,   " A u th o rsh ip   a tt ri b u t io n   f o f o re n sic   in v e stig a ti o n   w it h   th o u sa n d o f   a u th o rs, "   IFI P   In ter n a t io n a I n f o rm a ti o n   S e c u rit y   Co n fer e n c e S p rin g e r ,   Be rli n ,   H e id e lb e rg ,   p p .   3 3 9 - 3 5 0 2 0 1 4 .   [2 ]   T a m b o li   M .   S .   a n d   P ra sa d ,   R.   S . ,   " A u th o rsh i p   a n a ly sis  a n d   id e n ti f ica ti o n   tec h n iq u e s:  A   re v i e w , "   In ter n a ti o n a J o u rn a o Co m p u ter   A p p l ica ti o n s v o l.   77 ,   n o .   16 ,   2 0 1 3 .   [3 ]   Ra jes h   P ra sa d ,   U.   V.  Ku lk a rn i,   a n d   Ja y a sh re e   R.   P ra sa d ,   " A   n o v e e v o lu ti o n a ry   c o n n e c ti o n ist  te x su m m a rize r   (ECT S ), "   An ti - c o u n ter feiti n g ,   S e c u rity  a n d   Id e n ti fi c a ti o n   in   C o mm u n ic a ti o n ,   A S ID  2 0 0 9 3 rd   In ter n a ti o n a l   Co n fer e n c e   o n .   IEE E ,   2 0 0 9 .   [4 ]   L a n c a sh ire  I.   a n d   Hirst  G . ,   " V o c a b u lary   c h a n g e in   Ag a th a   Ch risti e ’s  m y ste rie a a n   in d ica ti o n   o f   d e m e n ti a   A   c a se   stu d y , "   1 9 th   An n u a R o tma n   Res e a rc h   In sti tu te  Co n fer e n c e ,   Co g n it ive   Ag i n g Res e a rc h   a n d   Pr a c ti c e ,   p p .   8 - 10 2 0 0 9 .   [5 ]   Ca n   F .   a n d   P a tt o n   J.  M . ,   " Ch a n g e   o f   w rit in g   st y le   w it h   ti m e , "   Co mp u ter a n d   th e   Hu ma n it ies v o l.   38 ,   n o .   1,     pp.   61 - 82 ,   2 0 0 4 .   [6 ]   V a n   Da m   M .   a n d   Ha u f f   C. ,   " Lar g e - sc a le  a u th o v e rif ica ti o n tem p o ra a n d   t o p ica i n f lu e n c e s, "   Pro c e e d in g o t h e   3 7 t h   i n ter n a t io n a l   ACM   S IGIR  c o n fer e n c e   o n   Res e a rc h   &   d e v e lo p me n t   in   in f o rm a ti o n   re triev a l A CM   2 0 1 4 ,     p p .   1 0 3 9 - 1 0 4 2 ,   2 0 1 4 .   [7 ]   S tam a t a to E. ,   " A   su rv e y   o m o d e rn   a u th o rsh i p   a tt rib u ti o n   m e th o d s, "   J o u rn a o th e   Asso c ia ti o n   fo In fo rm a t i o n   S c ien c e   a n d   T e c h n o l o g y v o l.   60 ,   n o .   3,   5 3 8 - 5 5 6 ,   2 0 0 9 .   [8 ]   A z a rb o n y a d   H.,   De h g h a n M . ,   M a rx   M .   a n d   Ka m p J.,   " T i m e - a w a re   a u th o rsh ip   a tt ri b u ti o n   f o sh o rt   tex stre a m s, "   In   Pro c e e d in g o t h e   3 8 t h   In ter n a ti o n a ACM   S IGIR  Co n fer e n c e   o n   Res e a rc h   a n d   De v e lo p me n t   in   In fo rm a t io n   Retrie v a l ,   p p .   7 2 7 - 7 3 0 2 0 1 5 .   [9 ]   Zh a C.   a n d   L a ff e rt y   J.,   " A   stu d y   o f   s m o o th in g   m e th o d f o la n g u a g e   m o d e ls  a p p li e d   t o   a d   h o c   in f o rm a ti o n   re tri e v a l, "   In   ACM   S IGIR  Fo r u m ACM   2 0 1 7 ,   v o l.   5 1 ,   n o .   2 ,   p p .   2 6 8 - 2 7 6 ,   2 0 1 7 .   [1 0 ]   Ke ik h a   M . ,   G e ra n S .   a n d   Cre sta n F . ,   " T i m e - b a s e d   re lev a n c e   m o d e ls, "   In   Pro c e e d in g o th e   3 4 t h   in ter n a ti o n a l   ACM   S IGIR  c o n fer e n c e   o n   Res e a rc h   a n d   d e v e lo p me n i n   I n fo rm a ti o n   Retrie v a l ,   ACM   2 0 1 1 p p .   1 0 8 7 - 1 0 8 8 ,   2 0 1 1 .   [1 1 ]   Zh e n g   R. ,   L J.,   Ch e n   H.  a n d   H u a n g   Z. ,   " A   f r a m e w o rk   f o a u th o r sh ip   i d e n t if ica ti o n   o f   o n li n e   m e ss a g e s:  W rit in g - st y le  f e a tu re a n d   c las si f ica ti o n   tec h n iq u e s, "   J o u rn a o t h e   Asso c ia ti o n   fo In fo rm a ti o n   S c ien c e   a n d   T e c h n o l o g y v o l.   57 ,   n o .   3,   p p .   3 7 8 - 3 9 3 ,   2 0 0 6 .   [1 2 ]   A b b a si  A .   a n d   Ch e n   H.,   " W rit e p rin ts:  A   sty lo m e tri c   a p p ro a c h   to   id e n ti ty - lev e id e n ti f ica ti o n   a n d   si m il a rit y   d e tec ti o n   in   c y b e rsp a c e , "   ACM   T r a n sa c ti o n o n   In f o rm a ti o n   S y ste ms   ( T OIS ) v o l.   26 ,   n o .   2,   p p .   7 ,   2 0 0 8 .   [1 3 ]   Ko p p e M . ,   S c h ler  J.  a n d   A r g a m o n   S . ,   " A u th o rsh i p   a tt rib u ti o n   in   th e   w il d , "   L a n g u a g e   Res o u rc e a n d   Eva l u a ti o n v o l.   45 ,   n o .   1 ,   p p .   83 - 9 4 ,   2 0 1 1 .   [1 4 ]   D in g   S .   H.,   F u n g   B.   a n d   De b b a b M . ,   " A   v isu a li z a b le  e v id e n c e - d riv e n   a p p ro a c h   f o a u th o rsh ip   a tt r ib u ti o n , "   ACM   T ra n sa c ti o n o n   In f o rm a ti o n   a n d   S y ste m S e c u rity ( T IS S EC) v o l.   17 ,   n o .   3 ,   p p .   1 2 ,   2 0 1 5 .   [1 5 ]   Ke ste m o n M . ,   " F u n c ti o n   W o rd in   A u th o rsh i p   A tt rib u ti o n .   F r o m   Blac k   M a g ic  to   T h e o r y ? ,"   In   Pro c e e d in g o th e   3 rd   W o rk sh o p   o n   C o mp u ta t io n a l   L in g u isti c s f o r L it e ra tu re   ( CL FL ) p p .   5 9 - 66 2 0 1 4 .   [1 6 ]   S tam a t a to E. ,   F a k o tak is  N.  a n d   Ko k k in a k is  G . ,   " A u to m a ti c   tex c a teg o riza ti o n   i n   term o f   g e n re   a n d   a u th o r, "   Co mp u t a ti o n a li n g u isti c s v o l .   26 ,   n o .   4 ,   p p .   4 7 1 - 4 9 5 ,   2 0 0 0 .   [1 7 ]   F ra n tze sk o u   G . ,   S tam a tato s E . ,   Gritza li s S . ,   Ch a sk C.   E.   a n d   Ho w a ld   B.   S . ,   " Id e n ti fy in g   a u th o rsh i p   b y   b y te - le v e n - g ra m s:  T h e   so u rc e   c o d e   a u t h o r   p ro f il e   (S CA P m e th o d , "   I n ter n a t i o n a J o u rn a o Di g it a Evid e n c e ,   v o l.   6 ,   n o .   1 ,   p p .   1 - 1 8 ,   2 0 0 7 .   [1 8 ]   Ke še lj   V . ,   P e n g   F . ,   Ce rc o n e   N .   a n d   T h o m a s   C. ,   " N - g ra m - b a s e d   a u th o p r o f il e f o a u th o rsh i p   a tt rib u t io n , "     In   Pro c e e d in g o th e   c o n fer e n c e   p a c if ic  a ss o c ia ti o n   f o c o mp u ta ti o n a li n g u isti c s ,   P A CL IN G   2 0 0 3 ,   v o l .   3 ,     p p .   2 5 5 - 264 ,   2 0 1 3 .   [1 9 ]   Ko c h e M .   a n d   S a v o y   J.,   " A   si m p le  a n d   e f f icie n a lg o rit h m   f o a u th o rsh ip   v e rif ica ti o n , "   J o u r n a o th e   Asso c ia t i o n   fo r In f o rm a ti o n   S c ien c e   a n d   T e c h n o l o g y v o l.   68 ,   n o .   1,   p p .   2 5 9 - 2 6 9 ,   2 0 1 7 .   [2 0 ]   Bu rn K. ,   " Ba y e sia n   in f e re n c e   i n   d isp u ted   a u t h o rs h ip A   c a se   s tu d y   o f   c o g n it iv e   e rro rs  a n d   a   n e w   s y st e m   f o r   d e c isio n   s u p p o rt , "   In fo rm a ti o n   S c ien c e s v o l.   1 7 6 ,   n o . 1 1 ,   p p .   1 5 7 0 - 1 5 8 9 ,   2 0 0 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t   201 9   :   3 1 6 7   -   3174   3174   [2 1 ]   Ch e n g   N.,   C h a n d ra m o u li   R.   a n d   S u b b a lak sh m K.  P . ,   " A u th o g e n d e r   id e n ti f ica ti o n   f ro m   tex t, "   Dig it a l   In v e stig a ti o n v o l.   8 n o .   1 ,   p p .   78 - 8 8 ,   2 0 1 1 .   [2 2 ]   A r g a m o n   S . ,   Š a ric  M .   a n d   S tein   S .   S . ,   " S ty le  m in in g   o f   e lec tro n ic  m e ss a g e f o m u lt ip le  a u t h o rsh ip   d isc rim in a ti o n :   f irst  re su lt s,”   In   Pro c e e d in g o th e   n in th   ACM   S IGKD in ter n a ti o n a c o n fer e n c e   o n   Kn o wled g e   d isc o v e ry   a n d   d a t a   min in g ,   ACM   2 0 0 3 ,   p p .   4 7 5 - 480 ,   2 0 0 3 .   [2 3 ]   Ro c h a   A . ,   S c h e irer  W .   J.,   F o rsta ll   C.   W . ,   Ca v a lca n te  T . ,   T h e o p h i lo   A . ,   S h e n   B.   a n d   S tam a tato E . ,   " A u th o rsh i p   a tt rib u t io n   f o so c ial  m e d ia  f o re n sic s, "   IEE T ra n sa c ti o n o n   In f o rm a ti o n   Fo re n sic a n d   S e c u rity v o l.   12 ,   n o .   1 ,   p p .   5 - 3 3 ,   2 0 1 7 .   [2 4 ]   T a m b o li ,   M u b in   S h o u k a a n d   Ra jes h   S .   P ra sa d . ,   " F e a tu re   S e l e c ti o n   i n   T im e   Aw a re   A u th o rs h ip   A tt rib u ti o n "   In ter n a t io n a C o n fer e n c e   on   A d v a n c e s in   C o mm u n ica ti o n   a n d   C o mp u ti n g   T e c h n o lo g y   ( ICACCT ) I EE E ,   2 0 1 8 .   [2 5 ]   M o h a m m e d   AL - S a re m ,   A b d e l - Ha m id   E m a ra " T h e   e ffe c o f   train in g   se si z e   in   a u th o rsh ip   a tt ri b u ti o n a p p li c a ti o n   o n   sh o rt  A ra b ic  tex ts, "   In ter n a ti o n a J o u r n a l   o El e c trica a n d   Co mp u ter   E n g i n e e rin g   ( IJ ECE ) v o l.   9 ,   n o .   1 ,     p p .   6 5 2 - 6 5 9 ,   2 0 1 9     [2 6 ]   Ke ste m o n M . ,   " F u n c ti o n   W o rd in   A u th o rsh i p   A tt rib u ti o n .   F r o m   Blac k   M a g ic  to   T h e o r y ? , "   In   Pro c e e d in g o th e   3 rd   W o rk sh o p   o n   C o mp u ta t io n a l   L in g u isti c s f o r L it e ra tu re   ( CL FL ) p p .   5 9 - 66 2 0 1 4 .   [2 7 ]   S u n i Ka le  a n d   Ra jes h   S .   P ra sa d ,   " A u th o Id e n ti f ica ti o n   u sin g   S e q u e n t ial  M in im a Op ti m iza ti o n   w it h   ru le - b a se d   De c isio n   T re e   o n   In d ian   L it e ra tu r e   in   M a ra th i , "   Pro c e d ia   Co mp u te r S c ien c e ,   v o l.   1 3 2 ,   p p .   1 0 8 6 - 1 1 0 1 2 0 1 8 .   [2 8 ]   M .   Rizz o   Irf a n ,   M .   A li   F a u z i,   T ib y a n i,   Nu ru l   Dy a h   M e n tari,   " Tw it ter  S e n ti m e n A n a l y sis  o n   2 0 1 3   C u rricu l u m   Us in g   En se m b le  F e a tu re a n d   K - Ne a re st  Ne i g h b o r ,"   In t e rn a ti o n a J o u rn a o El e c trica a n d   C o mp u t e En g in e e rin g   ( IJ ECE ) v o l.   8 ,   n o .   6 ,   p p .   5 4 0 9 - 1 4 ,   2 0 1 8   [2 9 ]   Die d e rich   Jo a c h im ,   e a l.   " A u th o rsh ip   a tt ri b u ti o n   w it h   su p p o rt  v e c to m a c h in e s, "   Ap p li e d   i n tell ig e n c e ,   v o l.   19   n o .   1 - 2 ,   p p .   1 0 9 - 1 2 3 2 0 0 3 .     Evaluation Warning : The document was created with Spire.PDF for Python.