I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   17 ,   N o .   1 J a n u a r y   20 20 ,   pp .   2 48~ 25 5   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 7 .i 1 . pp248 - 255             248       Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   A u t h o r   i d e n t i f i c a t i o n   f o r   u n d e r - r e s o u r c e d   l a n g u a g e   K a d a z a n d u su n       N u r s yah i r ah   Ta r m i z i ,   S u h ai l a   S ae e ,   D ayan g   H an an i   A b an I b r ah i m   F a c ul t y   o f   C o m put e r   S c i e nc e   a nd   I nf o r m a t i o T e c hno l o gy ,   U ni v e r s i t i   M a l a y s i a   S a r a w a k ,   M a l a y s i a       A r ti c l e   I n fo     A B S TR A C T     Ar t i c l e   h i s t or y :   R e c e i v e A pr   28 ,   201 9   R e v i s e J un   29 ,   2019   A c c e pt e J ul   1 2 ,   201 9       T hi s   p a pe r   pr e s e n t s   t he   t a s o f   A ut ho r   I de nt i f i c a t i o f o r   K a da z a nD us un   l a ng ua g e   by   us i ng   t w e e t s   a s   t h e   s o ur c e   o f   da t a   t o   pe r f o r m   A ut ho r   I de nt i f i c a t i o t a s o f   s ho r t   t e xt   o K a da z a nD us un,   w h i c i s   c o n s i d e r e a s   o ne   t he   unde r - r e s o ur c e l a ng ua g e   i M a l a y s i a .   T he   a i m   o f   t hi s   p a pe r   i s   t o   de m o ns t r a t e   A ut ho r   I de nt i f i c a t i o o f   s ho r t   t e xt   o K a da z a nD us un .   B e s i d e s ,   t hi s   pa pe r   a l s o   e xa m i n e s   t he   pe r f o r m a nc e   o f   t w m a c hi ne   l e a r ni ng   a l g o r i t hm s   o t he   K a d a z a nD us u da t a   s e t   by   a na l y z i ng   t he   s t y l o m e t r i c   f e a t u r e s .   S t y l o m e t r i c   f e a t u r e s   a r e   us e t o   qua n t i f y   t he   w r i t i ng   s t y l e s   o f   t he   a ut ho r s   w hi c i nc l u de s   c ha r a c t e r   n - g r a m s   a nd  w o r n - g r a m s .   T he   w o r kf l o w   o f   A ut ho r   I de nt i f i c a t i o i m pl e m e n t s   t he   m a c hi n e   l e a r ni ng   a pp r o a c t o   s o l v e   t he   s i ng l e - l a b e l l e m ul t i - c l a s s   pr o bl e m   a nd   pr e di c t   t h e   a ut ho r   o f   a   g i v e n   m e s s a g e   i K a d a z a nD us u n.   T w o   c l a s s i f i e r s   a r e   us e t o   c o m pa r e   t h e   a c c ur a c y   i nc l ud i ng   N a ï v e   B a y e s   a nd  S uppo r t   V e c t o r   M a c h i ne   ( S V M ) .   T he   r e s ul t s   s ho w   t ha t   t h e   c o m bi na t i o o f   n - g r a m s   w hi c i s   w o r d - l e v e l   uni g r a m   a nd    {1 - 5} - g r a m s   w i t c ha r a c t e r   3 - g r a m s   a r e   t h e   m o s t   r e l e v a nt   s t y l o m e t r i c   f e a t u r e s   i n   i de n t i f y i ng   t he   a ut ho r   o f   K a da z a nD us u m e s s a g e   w i t a a c c ur a c y   o f   80. 17% .   T he   r e s ul t s   a l s o   s ho w   t h a t   S V M   c l a s s i f i e r   h a s   o ut pe r f o r m e N a i v e   B a y e s   i t h i s   A ut ho r   I de nt i f i c a t i o t a s k   w i t t h e   a c c ur a c y   of   80. 17 % .   Ke y w or ds :   A ut h o i de n t i f i c a t i o n   K a da z a dus u n   M a c hi n e   l e a rni n g   S t y l o m e t r y   U n de r - r e s o ur c e l a n gu a ge   C opy r i gh t   ©   2020   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   N ur s y a h i ra B i nt i   T a rm i z i   F a c ul t y   of   Co m put e r   S c i e n c e   a n d   I n f o r m a t i o T e c hn o l o gy ,   U n i v e r s i t i   M a l a y s i a   S a r w a (U N IM A S ),   K o t a   S a m a ra h a n,   9430 0,   S a ra w a k,   M a l a y s i a .   E m a i l :   s y a hi r a hm i z i 93@ g m a i l . c o m       1.   I N TR O D U C TI O N     A ut h o r   Ide nt i f i c a t i o n   i s   a   p r o c e s s   of   i de n t i fy i n t h e   a ut h o o f   a n   a n o n y m o us   t e xt   gi v e n   t h e   pr e de f i n e s e t   o f   c a n d i da t e   a ut h o r s   a nd  c o rr e s po n di n s a m pl e s   o f   t h e i r   t e xt s .   A u t h o r   Ide nt i f i c a t i o n   t a s a n a l y s e s   t h e   w r i t i n s t y l e   of   e a c h   a ut h o r   by   e xt r a c t i n o ut   t h e   s t y l o m e t r i c   f e a t ur e s   f r o m   t h e   t e xt   a n t h e   f e a t ur e s   w i l l   r e p r e s e n t   a s   t h e   w r i t i ng  s t y l e   of  e a c h   a ut ho r   [ 1 ].   F r o m   a   m a c hi n e   l e a rn i ng  pe r s pe c t i v e ,   a pp r o a c h e s   i A ut h o r   Ide n t i f i c a t i o n   c a b e   v i e w e a s   a   s i n g l e - l a b e l l e d,   m ul t i - c l a s s   c l a s s i f i c a t i o n   p r o b l e m   i n   w h i c h   a   s e t   of   c l a s s   l a be l s   i s   kn o w n   a s   a   pri o r i .   T h e   c ha l l e n ge s   i n   A ut h o r   Ide nt i f i c a t i o n   t a s e xi s t   i m o de l l i n t h e   c l a s s i f i c a t i o t a s s o   t h a t   t h e   a u t o m a t i c   m e t h o ds   w i l l   b e   a b l e   t o   a s s i g n   c l a s s   l a b e l s   (a ut h o r s t t h e   o bj e c t s   (t e xt   s a m p l e s ).   P r e v i o us   s t udi e s   s h o w   t h a t   A u t h o r   I de nt i f i c a t i o n   t a s ha s   b e e n   us e i n   a   s m a l l   b ut   di v e r s e   n um b e r   o a ppl i c a t i o n   a r e a s   s uc h   a s   i de n t i fy i ng  a ut h o r s   i n   l i t e r a t u r e   [ 2 ],   i n   p r o gra m   c o de   a n i f o r e n s i c   a n a l y s i s   fo r   c r i m i na l   c a s e s   [ 3 ].   In   r e c e nt   y e a r s ,   t h e   v a s t   po pul a r i t y   of   s oc i a l   m e di a   ha s   c r e a t e a   s pe c i a l   i nt e r e s t   i n   a ut h o r s h i p   a t t ri b ut i o n   a r e a ,   b o t h   t h e o r e t i c a l l y   a n c o m put a t i o na l   i n   s ho r t   t e xt   [ 4 ].   T h e   c i r c um s t a n c e s   h a v e   l e t o   t h e   de ve l o pm e n t   o f   a ut h o r s hi a t t ri b ut i o n   p r o j e c t s   t h a t   e xpe ri m e n t e w i t h   w e b   da t a   i . e .   w e b   fo r um ,   e - m a i l s   [ 5 ],   b l o gs   [ 6 a n s o c i a l   m e di a   i . e .   T w i t t e r,   F a c e boo k,   In s t a g r a m   [ 7 ].   D ue   t o   t h e   i n c r e a s i ng  num b e r   o a v a i l a b l e   do c um e n t s   i n   d i g i t a l   f o r m   i n   s o c i a l   n e t w o r ks ,   A ut h o r   Ide n t i f i c a t i o n   ha s   b e c o m e   de c i s i v e   t a s i n   a na l y s i n t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A ut hor   i d e n t i f i c at i on  f or   u nde r - r e s o ur c e l angua ge   K adaz a n dus un   ( Nur s y ahi r a T ar m i z i )   249   di gi t a l   do c um e n t   t o   s o l ve   c y be r c r i m e   i s s ue s   s uc h   a s   c yb e r b ul l y .   O n e   of  t h e   s oc i a l   m e di a   pl a t f o r m s ,     T w i t t e c o m pri s e o f   m e s s a ge s   t h a t   a r e   po s t e by   us e r s   w h i c h   a r e   c a l l e t w e e t s   t ha t   a r e   s t ri c t l y   l i m i t e t o   280   c h a ra c t e r s .   T h e   c ha ra c t e r   r e s t ri c t i o n   i m po s e s   m a j o r   di f f i c ul t i e s   o n   A u t h o Ide n t i f i c a t i o s y s t e m s   s i n c e   a ut h o r s h i a t t ri b ut i o n   m e t h o ds   of t e n   w o r w e l l   o n   l o n t e xt   o r   m e s s a ge s   [ 8 9 n o t   a s   us e f ul   a ppl i e t o   s h o rt   t e xt   [ 1 0 1 1 ].   W hi l e ,   t o   t h e   b e s t   of   o ur   k n o w l e dge ,   n o n e   of   t h e   p r e v i o us   s t udi e s   ha s   f o c us e o n   A ut h o Ide n t i f i c a t i o n   t a s f o r   u n de r - r e s o ur c e l a n gu a ge s   l i ke   K a da z a n D us u n   a s   U n de r - R e s o ur c e L a n gu a ge   (U - R L )   i n   M a l a y s i a .   T hi s   pa pe r   w o r ks   o n   i de n t i fy i n t h e   a ut h o r   o f   s h o rt   t e xt   f o r   U - R L   us i n K a da z a nD us u n   t w e e t s   a s   t h e   s o ur c e   of   da t a .   T h e   o b j e c t i ve s   o f   t h i s   pa pe r   i s   t o   de m o n s t ra t e   a ut h o r   i de n t i f i c a t i o n   o f   s h o rt   t e xt   o n   K a da z a n D us u n   a n t o   e xa m i n e   t h e   pe r f o r m a n c e   of   s e v e r a l   m a c h i n e   l e a rni n a l go r i t hm s   s uc h   a s   N a ï v e   B a y e s   a n S u ppo r t   V e c t o r   M a c hi n e   o K a da z a n D us u l a n g ua ge   da t a   s e t .   T h e   r e s t   o f   t h e   pa pe r   i s   o r g a n i z e a s   f o l l ow s .   S e c t i o n   2   de s c r i b e s   t h e   l i t e r a t u r e   r e v i e w .   S e c t i o n   3   de s c r i b e s   t h e   a r c hi t e c t u r e   o f   A w o r kf l ow   a n t h e   i m p l e m e nt a t i o n   i n   de t a i l s .   S e c t i o n   4   r e po rt s   t h e   r e s ul t s   o t h e   e xpe ri m e n t s .   T h e   l a s t   s e c t i o n   o f   t h i s   pa pe s t a t e s   o ur  c o nc l us i o n   a n d   f ut u r e   w o r ks .       2.   LI TER A TU R R EV I EW   T h i s   s e c t i o n   di s c us s e s   t h e   de f i n i t i o n   o f   i n di ge n o us   l a n gu a ge   a nd  U - RL   b e s i de s   r e v i e w i n t h e   i s s ue   a n g a r e ga rdi n g   U - RL   b a s e o n   p r e v i o us   pa pe r s .   A l s o ,   w e   r e v i e w   t h e   s t a t e - of - a r t   o f   A ut h o r   Ide n t i f i c a t i o of   s h o rt   t e xt   ( t w e e t s i n c l u di n g   t h e   pe r f o r m a n c e   o f   t h e   s y s t e m s .     2. 1 .       I n d i g e n o u s   Lan gu age   i n   M a l ays i an d   U - RL   In   a n   a r t i c l e   by   [ 1 2 ],   M a l a y s i a   ha s   a   hi g h   de n s i t y   of  i n d i ge n o us   l a n gu a ge s .   I n di ge n o us   l a n gu a ge   i s   de f i n e a s   a   l a n gu a ge   t ha t   ha s   a   s t a b l e   c o m m uni t y   of   s p e a ke r s   w i t a   c o n s i de ra b l e   t i m e - de pt h ,   a   ge n e t i c   r e l a t i o n s h i p   w i t h   o t h e n a t i v e   l a n g ua ge s   i t h e   s a m e   ge o - l i n g ui s t i c   r e gi o n   a n d   r e c o gn i z e a s   a   n a t i v e   l a n gu a ge   by   t h e   c o m m u ni t y   t h e m s e l v e s .   In  M a l a y s i a ,   t h e r e   a r e   s l i g ht l y   a bo ut   100  o f   i n di ge n o us   l a ngua ge s   c ove r i n t h e   e a s t   a nd  w e s t   M a l a y s i a .   B e s i de s   M a l a y   l a n gu a g e ,   Ib a n   o S a r a w a a nd  K a da z a nD us u n   o f   S a b a h   c a n   b e   s a i ha v e   a   l a r ge   n u m b e r   o f   n a t i v e   s pe a ke r s   a s   M a l a y s i a n   i n di ge n o us   l a ngua ge s .   N o w a da y s ,   t h e   us e   o t h e s e   t hr e e   n a t i v e   l a n gu a ge s   i n   M a l a y s i a   h a v e   be e n   w i de l y   us e n o t   o n l y   a s   of  t h e   m o t h e r   t o n gue   o t h e   c o m m uni t y   b ut   r a t h e r   a c t i v e l y   b e e n   us e i n   s o c i a l   o n l i n e   c o m m u n i c a t i o n   a s   w e l l .   A l t h o ug h   t h e   na t i v e   l a n gu a g e s   (M a l a y ,   Ib a n   a n K a da z a nD us u n ha v e   a   w i de   r a n ge   o f   us a ge   i t h e i c o m m u n i t i e s ,   y e t ,   t h e r e   a r e   s t i l l   n o   w r i t i ng  s y s t e m   h a s   b e e n   a s c r i b e t t h e m   w h i c h   a pp e r t a i n   t h e s e   na t i v e   l a n gu a ge s   a s   un de r - r e s o ur c e l a n gu a ge s   [ 1 2 ].   A c c o r di n g   t o   [ 1 3 ] ,   u nde r - r e s o ur c e d   l a n gu a ge   (U - R L i s   r e f e r r e t o   a s   l a n gu a ge   w i t h   s o m e   (i f   n o t   a l l )   l a c o un i q ue   w r i t i n s y s t e m   o r   s t a b l e   o r t h o gra p h y ,   t h e   l i m i t e p r e s e n c e   of   t h e   w e b ,   l a c of   l i n gu i s t i c   e xpe r t i s e ,   a n d   l a c o f   e l e c t r o n i c   r e s o ur c e s   fo r   b o t h   s pe e c h   a nd  l a n gu a ge   p r o c e s s i n g.   H ow e v e r ,   t h e   i n f l a t i o n   o t h e s e   U - RL s   i n   o nl i n e   c o m m u n i c a t i o n   h a s   b e c o m e   a n   i m po r t a n t   f a c t o r   f o r   n a t u r a l   l a n gu a ge   p r o c e s s i n (N L P t a s ks   t o   b e   a b l e   t o   a n a l y z e   t h e s e   t e xt s   f o r   t h e   p u r po s e   of   c y b e r s e c ur i t y   a n c y b e r c r i m e   f o r   i n s t a n c e   i f   t h e   t e xt   i m p l i c a t e s   t h e   us a ge   o f   t h e   i n d i ge n o us   l a n g ua ge s .     2. 2 .       S ta te - of - ar t   A u th o r   I d e n ti fi c ati o n   A ut h o r   i de nt i f i c a t i o n   i s   a n   i m po r t a n t   t a s t o   de t e c t   o r   r e v e a l   t h e   c ul pri t   i n   t e r m s   o f   c y be r c r i m e   a nd  c y be r - a t t a c ks   [ 1 4 ].   A s   s t a t e by   [ 1 5 ],   A u t h o r   Ide nt i f i c a t i o n   t a s i n v o l v e s   t e c hn i q ue s   i n   pe r f o r m i ng  f o r e n s i c s   of   o n l i n e   m e s s a ge s   t o   c o l l e c t   pr a c t i c a l   e v i de n c e   by   a ut o m a t i c a l l y   a na l y s e s   a   l a r ge   c o l l e c t i o n   of   s us pi c i o us   o n l i n e   m e s s a ge s   f r o m   a   n um b e r   o f   s u s pe c t s .   T h e   t a s i n v o l ve s   t h e   c l a s s i f i c a t i o n   o a ut h o r s   a n t h e   a c c ura c y   of   t h e   s y s t e m   i s   i n f l ue n c e by   t h e   t e xt   l e n g t h ,   t h e   c o m b i n a t i o n   of   s t y l o m e t r i c   f e a t ur e s   a n t h e   a l go ri t hm   us e t o   c l a s s i fy   t h e   a ut h o r s . A   s t udy   do n e   by   [ 1 6 e xpl o r e s   t h e   s t y l o m e t r i c   l i k a b i l i t y   of  t w e e t s   da t a .   T h e y   us e d   c h a ra c t e n - g ra m s   a s   s t y l o m e t r i c   f e a t ur e s   a nd  N a ï v e   B a y e s   a s   t h e   c l a s s i f i e r .   W i t a   s ub s e t   o f   300 - 2000  t w e e t s   da t a   o f   a   v a r y i n n um b e r   o f   us e r s ,   t h e y   ob t a i n e 92%  o f   a c c ur a c y   a c   h i v e fo r   uni g ra m   m o de l   w h i l e   100%  a c hi e v e t hr o ugh   t h e   b i - gra m s   m o de l .   A c c o r di n t o   [ 1 7 ],   N a ï v e   B a y e s   i s   s i m pl e   y e t   e ffe c t i v e   m e t h o i n   de s i gni n a   t e xt   c l a s s i f i e w i t h   hi g h   a c c ura c y   ra t e   a nd  f a s t   s pe e gi v e n   a   l a rge   n u m b e r   o f   t ra i ni n g   da t a .     O n   t h e   o t h e r   h a n d ,   [ 7 s t ud i e t h e   us e   of   c h a r a c t e r   n - g ra m s   us i n Co n v o l ut i o n a l   N e ur a l   N e t w o r (CN N a s   t h e   c l a s s i f i e r   t o   i de n t i f y   t h e   a ut h o r .   U s i n 100 t w e e t s   pe r   us e r   w i t h   9000  us e r s ,   t h e   b e s t   c h a ra c t e r   n - g r a m s   m o de l   t h e y   ob t a i n e w a s   c h a ra c t e r   u ni g ra m   m o de l   w i t h   76 . 1%  of   a c c ur a c y .   W h i l e   [ 1 8 c o n s i de r e v e r i fy i n c o m pr o m i s e T w i t t e a c c o un t   us i n g   A ut h o r   V e r i f i c a t i o n   b y   us i n a   r a nge   o f   50 - 100  w o r ds   pe us e r   w i t h   10, 000  us e r s .   I n   t hi s   s t udy ,   t h e y   us e pr o f i l e - b a s e a ppro a c h   w h e r e   t h e y   i m pl e m e n t   S i m pl i f i e P r o f i l e   Int e r s e c t i o n   (S P I)  m e t h o t o   ve r i fy   t h e   a ut h o r.   U s i n w o r n - g ra m s   (N = 6)  a s   t h e i r   b e s t   s t y l o m e t ri c   fe a t u r e s   w i t 100   w o r ds   f r o m   e a c h   us e r ,   t h e y   ob t a i n e a n   a c c ura c y   of  95 . 8% .         Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   17 ,   N o .   1 J a n u a r y   20 20  :     248 - 255   250   3.   M ET H O D O L O G Y   In   t h i s   p a pe r,   w e   pr o po s e d   t h e   w o r kf l ow   o A ut h o r   I de nt i f i c a t i o n   f o r   s h o rt   t e xt   t o   i de n t i fy   t h e   a ut h o of   K a da z a n D us u n   t w e e t s   f r o m   T w i t t e r.   W e   us e t w o   s u pe r v i s e m a c h i n e   l e a rni n a l go r i t h m s ,   S uppo r t   V e c t o r   M a c hi n e s   (S V M a n d   N a ï v e   B a y e s ,   t o   l e a rn  t h e   s t y l o m e t r i c   f e a t u r e s   f r o m   e a c h   us e r .   T h e   s t y l o m e t r i c   f e a t ur e s   a r e   e xt r a c t e f r o m   t h e   t r a i n i ng  da t a   t ha t   ha s   b e e n   c o l l e c t e f r o m   di f fe r e nt   T w i t t e r   us e r s .   F i gu r e   s h o w s   t h e   w o r kf l ow   of   t h e   p r o po s e a ppr o a c h .   T he   e xpl a na t i o n   o f   e a c h   p h a s e   i t h e   w o r kf l ow   i s   de s c r i b e i t h e   f o l l ow i n s ub s e c t i o n s   r e s pe c t i v e l y .             F i gu r e   1 .   T h e   w o r kf l ow   of   a ut h o Ide n t i f i c a t i o o f   s h o r t   t e xt       3. 1 .       Tw e e ts   C o l l e c ti o n   A c c o r di n t o   [ 3 ] ,   t h e r e   a r e   n o   pub l i c   da t a   s e t   e xi s t   f o r   a ut h o r s hi a t t r i b ut i o n .   T h e r e f o r e ,   w e   n e e t c r a w l   o ut   ow n   s e t   o da t a   f o r   t h e   e xpe r i m e n t   pu rpo s e   f r o m   T w i t t e r   us i n T w i t t e r   A P n a m e l y   t w e e py .     S i n c e   T w i t t e i s   a   v e r y   po pul a r   p l a t f o r m   w h e r e   c y be r c r i m e   a c t i v i t i e s   f r e que n t l y   h a ppe n e [ 1 ],   t h e   d a t a   s e t   i s   b ui l t   o a   l i s t   of   t w e e t s   t h a t   a r e   e xt ra c t e b a s e o n   a   l i s t   o f   vul ga r   w o r ds   i n   K a da z a n D us u n   l a ngua ge   w h i c h   i s   ob t a i n e f r o m   a   w e b   b l o [ 19 ].   A   l i s t   o f   13  v ul ga r   w o r ds   w a s   i n s e r t e i n   t h e   c ra w l e r   t o   c r a w l   a   l i s t   o f   t w e e t s   c o n t a i ni n g   gi v e v ul ga w o r ds .   B e l ow   e xa m pl e s   s h o w   t w e e t s   i K a d a z a n D us u w i t h   v ul g a w o r ds   i n   t h e m :   a)   " ni   b k n   s t kt   pa l ui i i . .   bas u g !   ki m b e t t o bu r u s !"   b)   " N da   l a m a   ko   a k a po s t   s u r u o r g   pg i   m a t i   s b b   j a ga   j o do h .   M u l au .   D u ni a 2. "     3. 2 .       Pre - p r o c e s s i n g   T h e   t w e e t s   a r e   c o l l e c t e i n   J S O N   f o r m a t   us i n c r a w l e r   p rov i de by   T w i t t e r   A P I.   A f t e r   a   l i s t   o t w e e t s   i s   c o l l e c t e d,   a dd i t i o n a l   t w e e t s   a r e   c o l l e c t e f r o m   e a c h   us e r   b a s e o n   t h e   ' us e r _ i d'   a nd  a r e   s a v e i n   CS V   fo r m a t   f o r   da t a   p r e - p r o c e s s i n g.   A f t e r   c o l l e c t i n t h e   t w e e t s   f ro m   e a c h   a ut h o r ,   t h e   t w e e t s   a r e   pr e - p r o c e s s e b y   r e m o v i n t h e   m e t a - d a t a   a n n o i s e s .   S o m e   i n f o r m a t i o n   i s   e xc l ude dur i n t h e   e xt ra c t i o n   i n c l udi ng  t h e   r e t w e e t s   m e s s a ge s   a nd  a l s o   t w e e t s   t h a t   c o nt a i n   m e m e .   T he   o n l y   i n f o r m a t i o n   t ha t   i s   ke pt   a r e   t h e   t e xt   a n d   a ut h o r   c o l um n s .   T w e e t s   w i t l e s s   t ha f o ur   w o r ds   a r e   r e m o ve d.   In  t hi s   pa pe r,   t h e   p r e - p r o c e s s i n g   s t a ge   w i l l   b e   fo c u s i n g   m o r e   o n   t e xt   n o rm a l i z a t i o w h e r e   t h e   t w e e t s   a r e   n o r m a l i z e t o   s t a n d a r t e xt .   H e n c e ,   t h e   pr e - p r o c e s s o r   t a ke s   a w a y   t h e   o r i gi na l   t e xt   a nd  r e pl a c e   t h e   t e xt   w i t h   s t a n d a r d   t a gs   t ha t   r e p r e s e n t   t h e   r e pl a c e c o n t e n t .   T h i s   p r o c e s s   i s   i m po rt a nt   a s   i t   w o ul g r e a t l y   r e duc e   t h e   n u m b e r   o f   f e a t ur e s   t o   b e   a na l y s e d,   f o r   e xa m pl e ,   l o n num b e rs   o r   w e b   l i nks   a n r e pe a t e d a t e   a n d   t i m e .     T h e   f o l l ow i n e x a m p l e s   s h o w   t w e e t s   be fo r e   a n d   a f t e r   t h e   a f or e m e n t i o n e p r e - p r o c e s s i n g   p r o c e dur e :   B e fo r e   p r e - pr o c e s s i n g:   @ Q c Lyn   h a ha hha a   o ka y   s y a   s t ud y   s a t u   pu t i a d a   #fi n a l e x am   #s tr e s s   A f t e r   p r e - p r o c e s s i n g:   @R EF   ha ha hha a   o ka y   s y a   s t ud y   s a t pu n   t i a da   H TA G   H TA G     3. 2 . 1.     N ati v e   f e atu r e s   o Tw i tt e r   In   t h i s   pa pe r,   i n s t e a o f   d e pe n di n s o l e l y   o n   t h e   s t y l o m e t r i c   f e a t ur e s ,   n a t i v e   fe a t u r e s   of   T w i t t e r   s uc h   a s   ha s h t a gs ,   us e r   r e f e r e n c e s ,   w e b   l i n ks   a n E m o j i   a r e   ut i l i z e i n   a l l   t h e   e xpe r i m e nt s .   T h e   e m pl oy m e n t   o na t i v e   fe a t ur e s   o f   T w i t t e r   i n   A u t h o Ide n t i f i c a t i o i s   t o   f ur t h e r   r e f i n e   t h e   a c c ur a c y   of   a t t r i b ut i o n   by   pur s u i n a   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A ut hor   i d e n t i f i c at i on  f or   u nde r - r e s o ur c e l angua ge   K adaz a n dus un   ( Nur s y ahi r a T ar m i z i )   251   h y b r i a pp r o a c h   t ha t   e xt e n ds   b e y o n j us t   s t y l o m e t r y .   A s   s t a t e i n   [ 3 ha s h t a g   i s   r e f e r r e a s   ke y w o r ds   us e i t w e e t s   t o   i de n t i f y   m e s s a ge s   o n   a   s pe c i f i c   t o pi c   a n t h e y   a r e   p r e c e de by   a   ‘#’  c ha r a c t e r .   W hi l e   us e r e f e r e n c e s   a r e   t h e   us e r s   o f   T w i t t e r   t ha t   a r e   b e i n m e n t i o n e d   by   o t h e r   us e r s   i n   t w e e t s   us i n a n   @ ’  f o l l ow e d   by   t h e i r   us e rn a m e .   E m o j i   a r e   c a rt o o n   f i gu r e s   t ha t   us e t o   e xpr e s s   i de a s   o e m o t i o i t e xt .       3. 3 .       F e a tu r e   Ex tr a c ti o n   T o   b ui l a   f e a t ur e   v e c t o r ,   w e   n e e t o   t o k e n i s e   t h e   t e xt   b e fo r e h a nd.   T h e   p r o c e s s   of   t o ke n i s a t i o n   w i l l   us e   a   s ui t a b l e   t o ke ni z e r   t ha t   w i l l   b e   a b l e   t o   t o ke n i s e   t h e   K a d a z a n D us u t e xt   i s o c i a l   m e di a .   T h e   e xt ra c t i o n   o f e a t ur e s   i n c l ude s   t h e   l e xi c a l   a nd  s y n t a c t i c a l   s t y l o m e t r y   f e a t ur e s .   D i f fe r e nt   l e v e l   o f   n - g r a m s   w i l l   b e   e xt ra c t e i n c l ude   t h e   c h a ra c t e r - l e v e l   a n w o r d - l e v e l   n - g r a m s   w i l l   b e   e xt r a c t e a n r e p r e s e nt e i B a g - of - W o r (B o W )   m o de l s .     3. 4 .       C l as s i fi c at i o n   E a c h   t e xt   i s   r e p r e s e n t e a s   t h e   v e c t o r   a n e a c h   t e xt   i s   l a b e l l e w i t h   i t s   r e s pe c t i v e   a ut h o r   o r   c l a s s .   T h i s   i s   b a s e o n   t h e   i n s t a n c e - b a s e a ppr o a c h   w h e r e   e a c h   t ra i ni n t e xt   s a m pl e s   a c t   a s   a   u ni t   t ha t   c o n t r i b ut e s   s e pa ra t e l y   t t h e   a t t r i b ut i o n   m o de l .   T h e n   e a c h   f e a t u r e   s e t s   w i l l   b e   c l a s s i f i e us i n di f f e r e n t   t y pe s   o c l a s s i f i e r s   t o   b ui l t h e   c l a s s i f i c a t i o n   m o de l .   T h e   c l a s s i f i e rs   i n v o l v e a r e   N a ï v e   B a y e s   (N B )   a n S uppo r t   V e c t o r   M a c h i n e   (S V M ).   T h e s e   c l a s s i f i e r s   w i l l   y i e l di ffe r e n t   a c c ura c y   r e s ul t s   a n ru nn i ng  t i m e - b a s e o n   t h e i r   c a p a c i t y   t o   h a n d l e   t h e   hi g h   d i m e n s i o n a l i t y   of   fe a t ur e s .   T h e   e v a l ua t i o o f   t h e   m o de l   i s   b a s e o n   t h e   k - fo l c r o s s - v a l i da t i o n.   T hi s   v a l i da t i o n   w i l l   r e t u rn   t h e   m e a a c c ur a c y   of   t h e   m o de l   b a s e o n   t h e   k - f o l of  t r a i ni n g   a n t e s t i n g .       4.   EX P ER I M EN TA S E TU P   In   t h i s   s e c t i o n,   t h e   e xpe r i m e nt a l   s e t t i ngs   a r e   l a i o ut   a s   f o l l ow s .   F i r s t ,   t h e   e xpe ri m e nt a l   s e t up  i s   b r i e f l y   de s c r i b e f o r   t h e   pu r po s e   of   pr e s e nt i n g   t h e   c r i t e r i a   a do pt e i n   b ui l d i n g   a   b a l a n c e d a t a   s e t .   N e xt ,   t h e   s t y l o m e t r y   fe a t u r e s   us e i n   t hi s   e xpe r i m e nt   a r e   de s c r i b e i n   de t a i l   a s   w e l l .   L a s t l y ,   t w o   m a c h i n e   l e a rni ng  a l go ri t hm s   i m pl e m e n t e i n   t hi s   e xpe r i m e nt   a r e   di s c us s e fo l l ow e d   by   t h e   s t a n d a r e v a l ua t i o n   us e i n   t he   e xpe r i m e nt s .     4. 1 .       D at as e t   In   t hi s   pa pe r ,   t h e   e xpe ri m e n t   i s   c o n duc t e us i n a   da t a   s e t   c o n s i s t   o a   c o l l e c t i o n   of   K a da z a n D us u t w e e t s .   T h e s e   t w e e t s   a r e   c r a w l e b a s e o n   a   l i s t   o f   K a da z a nD us un   v ul g a r   w o r ds   a s   m e nt i o n e i n   S e c t i o n   3 T h e r e   a r e   a   t o t a l   o 14, 284  t w e e t s   c o l l e c t e f r o m   15  di f fe r e nt   T w i t t e r   us e r s .   T h e   n u m b e r   o w o r ds   t h a t   a r e   po s t e i n   a   t w e e t   v a r i e s   i t e r m s   o f   t h e   n u m b e r   o f   c h a r a c t e r s .   T w i t t e r   a l l o w s   280  c h a r a c t e r s   a s   t h e   m a xi m u m   c h a ra c t e r s   t ha t   a r e   a b l e   t o   po s t   i n c l ud i n g   t h e   a l p ha n u m e ri c ,   w e b   l i n k ,   e m o t i c o n s   e t c .   T h e   p r e pa ra t i o t o   b ui l d   a   t ra i ni n da t a   s e t   i n v o l ve s   r a n do m   s a m p l i ng.   U s e r s   t h a t   po s t e m o r e   t ha 400  t w e e t s   a r e   s e l e c t e d.   T h e r e   a r e   10  us e r s   a nd  t h e i r   t w e e t s   a r e   ra n do m l y   s e l e c t e d   up  t 400  t w e e t s   s t ha t   e a c h   a u t h o r   ha s   a   b a l a n c e d   di s t r i b ut i o n   o f   t w e e t s .   T h e   pu r po s e   of   r a n do m   s a m pl i n i s   t o   a vo i i m b a l a n c e da t a   s e t   a n b i a s   t o w a r ds   c e r t a i n   a u t h o r s   t ha t   ha v e   a   hi g h e r   n um b e r   o f   t w e e t s   dur i ng  t h e   c l a s s i f i c a t i o n   p r o c e s s   l a t e r.   A f t e r   r a ndo m   s a m pl i n o f   t h e   da t a   t a ke s   pl a c e ,   t h e   p r o c e s s   of   pr e - pr o c e s s i n a n n o r m a l i z a t i o n   a r e   c o n t i n ue s o   t h a t   t h e   da t a   i s   c l e a n e f r o m   n o i s e s   a n d   i a   s t a n d a r d   f o r m .     4. 2.      S ty l o m e tr i c   F e atu r e s   U s e d   In  t h e   p r o po s e w o r kf l ow ,   t h e   B a g - of - W o r (B o W a ppr o a c h   i s   i m p l e m e nt e w h i c h   c o n s i s t s   o l a n gu a ge - i nde pe n de n t   s t y l o m e t r i c   f e a t u r e s   i . e .   w o r a n d   c ha ra c t e n - g ra m s   a r e   us e [ 20 ] .       4. 2 . 1.     Wo r d   n - g r am s   A s   [ 2 1 po i n t s   o ut ,   w o r d - l e v e l   n - g ra m s   a r e   us e t o   t a ke   a dv a n t a ge   o f   c o n t e xt ua l   i n f o r m a t i o n.     W o r d - l e v e l   n - g ra m s   a r e   a   c o nt i n uo us   s e que n c e   of   n   w o r ds   of   a   l o n ge r   po r t i o n   o f   a   t e xt .   S uc h   pa t t e rn   o c h o i c e s   of   pa r t i c ul a w o r s e que n c e s   a r e   u ni que   a nd  d i f fe r e n t   f o r   e a c h   a ut h o r   a s   a n   i n d i v i dua l ' s   c o gn i t i v e   r e p r e s e n t a t i o n   o l a ngua ge   w h i c h   i s   i n f l ue n c e by   t h e   s oc i o - h i s t o ri c a l   l i n gui s t i c   b a c kgr o un o f   t h a t     a ut h o r   [ 2 2 ].   A s   a e xa m pl e ,   l e t   us   c o n s i de r   t h e   f o l l ow i n s a m pl e   t w e e t   f r o m   a   us e w i t h   a   l i s t   o f   w o r d - l e v e l   uni g ra m s   a n d   b i g r a m s   f r o m   t h e   t w e e t :   Te x t :   " b a gus   l a gi   ko   do a   m a l a m   d i a m 2   da ri   po s t 2. "     U n i gr am s :   ("b a gus " ,   " l a g i " ,   " ko " ,   " do a " ,   " m a l a m " ,   " d i a m 2" ,   " da r i " ,   " po s t 2" )   Bi gr am s :   ("b a gus   l a gi " ,   " l a gi   ko " ,   " ko   do a " ,   do a   m a l a m " ,   " m a l a m   d i a m 2" ,   " di a m d a r i " ,   " d a r i   po s t 2" )     Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   17 ,   N o .   1 J a n u a r y   20 20  :     248 - 255   252   4. 2 . 2.     C h a r a c te r   n - g r am s   Cha ra c t e r - l e v e l   n - g r a m s   a r e   a b l e   t o   c a pt ur e   t h e   nua n c e s   of  s t y l e   i n c l udi ng  t h e   l e xi c a l   i n f o rm a t i o a n s y n t a c t i c   i n f o r m a t i o n   [ 20 s uc h   a s   t h e   a l p h a b e t i c a l ,   d i g i t   c h a ra c t e r s ,   up pe r c a s e   a nd  l o w e r c a s e   c o un t s   a s   w e l l   a s   t h e   l e t t e r   f r e que n c i e s   a n pu n c t u a t i o n   m a r ks   c o un t s .   B e s i de s ,   t h i s   f e a t ur e   t y pe   i s   a b l e   t o   c a pt u r e   le xi c a l   a nd  e v e n   gra m m a t i c a l   a n o r t h o g r a p hi c   p r e f e r e n c e s   w i t h o ut   t h e   n e e fo r   l i n gu i s t i c   b a c kgr o un [ 2 3 ].   A pa r t   f r o m   t ha t   c h a ra c t e n - g ra m s   a r e   a l s o   t o l e ra n t   t o   n o i s e ,   t h e   us e   o f   t hi s   f e a t u r e   i s   c o m pa t i b l e   w i t h   s o c i a l   m e di a   t e xt   s uc h   a s   t w e e t s .   T w e e t s   us ua l l y   c o n t a i n   hi g g ra m m a t i c a l   e rr o r   a n hi g h   us a ge   o f   pun c t ua t i o n   w h i c t hi s   t y p e   of   f e a t ur e   c a h a ndl e .   B e l ow   s h o w s   a n   e xa m pl e   o f   c h a r a c t e 3 - g ra m s :   Te x t :   " p a l u i i i !!!"   3 - gr am s :   (" pa l " ,   " a l u" ,   " l u i " ,   " u i i " ,   " i i i " ,   " i i !",   " i !!" ,   " !!!")   4 - gr am s :   (" pa l u" ,   " a l ui " ,   " l u i i " ,   " u i i i " ,   " i i i !" ,   " i i !!" ,   " i !!!")     4. 3 .       C l as s i fi e r s   U s e d   A ut h o r s h i i de nt i f i c a t i o n   i s   a   s i n gl e - l a b e l l e a n m ul t i - c l a s s   t e xt   c l a s s i f i c a t i o n   p r o b l e m .   S e l e c t i o n   o c l a s s i f i e r   i s   a pp r o p r i a t e   i n   pe r f o r m i n t h e   i de n t i f i c a t i o n   a n d   s h o ul b e   do n e   c a r e f ul l y .   T h e   pu rpo s e   o c o n duc t i n t h e   e xpe r i m e n t   us i n a   d i f f e r e n t   t y p e   of   c l a s s i f i e r s   i s   t o   e v a l ua t e   t h e   pe r f o r m a n c e   o f   e a c h   c l a s s i f i e r   w i t h   t h e   s e l e c t e f e a t ur e   s e t s   us e d.   T h e   e v a l ua t i o n   i s   do n e   us i n k - f o l c r o s s - v a l i da t i o n   t o   m e a s u r e   t h e   pe r f o rm a n c e   o f   e a c h   c l a s s i f i e r .     4. 3 . 1.     N v e   Baye s   In   o u r   w o r k,   w e   us e   m ul t i n o m i a l   N a ï v e   B a y e s   (N B t h a t   m a ni pul a t e s   di s c r e t e   f e a t ur e s   i . e .   w o r c o un t s ,   w o r f r e que n c i e s   e t c .   w h i c h   i s   s u i t a b l e   f o r   o ur  c a s e .   T h i s   p r o b a b i l i s t i c   c l a s s i f i e r   h a s   s e c ur e   i n de pe n de n t   a s s u m pt i o n s   b a s e o t h e   a ppl i c a t i o n   o f   B a y e s   T h e o r e m .   L e t   t h e   s e t   o f   c l a s s e s   be   de n o t e by   C L e t   N   b e   t h e   s i z e   o f   t h e   v o c a b ul a r y .   T h e M ul t i n o m i a l   N B   w i l l   a s s i g t h e   t e s t   do c um e nt   t i   t o   t h e   c l a s s   t ha t   ha s   t h e   hi g h e s t   p r o b a b i l i t y   P r ( c | t i ).   T h e   c l a s s   pri o r   P r ( c )   c a n   b e   e s t i m a t e by   di v i di ng  t h e   num b e r   o do c um e n t s   t h a t   b e l o n t o   t h e   c l a s s   c   by   t h e   t o t a l   n u m b e r   of   do c um e n t s .   I n   a   s t u dy   d o n e   by   [ 2 4 ],   P r ( t i | c i s   t h e   pr o b a b i l i t y   of   ob t a i n i n g   a   do c um e nt   l i ke   t i   i c l a s s   c   i s   c a l c ul a t e a s   1:      ̂ ( | ) = Pr ( | )    (1)     W h e r e   α  i s   a   c o n s t a n t   a nd  f ni   i s   t h e   c o un t   o f   w o r n   i t h e   t e s t   do c um e n t   t i   w hi l e   P r ( w n | c i s   t h e   p r o b a b i l i t y   o f   w o r n   gi v e c l a s s   c .     4. 3 . 2.     S u p p o r V e c to r   M a c h i n e s   In   t h i s   pa pe r ,   w e   i m pl e m e n t   S uppo r t   V e c t o r   C l a s s i f i c a t i o n   (S V C)  a s   t h e   c l a s s i f i e r   w hi c t h e   i m p l e m e nt a t i o n   i s   b a s e o n   l i b S V M .   F o r   o pt i m i z a t i o n ,   K e rn e l   f un c t i o n s   c a n   b e   s pe c i f i e fo r   t h e   de c i s i o n   f un c t i o n.   I n   t h e   e xpe ri m e n t ,   t h e   ke rn e l   i s   s e t   a s   l i n e a r.   T h i s   a l go r i t hm   us e s   a   one - vs - r e s t   s t r a t e gy   fo r   m u l t i - c l a s s   pr o b l e m   w h i c h   i s   f a s t e r   a n c a b e   s c a l e a   l o t   b e t t e r .   I n   t h i s   a l go r i t hm ,   t h e   d a t a   i t e m   (t e xt )   i s   pl o t t e a s   a   po i nt   i n   n - di m e n s i o na l   s pa c e   (w h e r e   n = num .   o f   f e a t ur e s w i t h   t h e   v a l ue   o f   e a c h   fe a t u r e   b e i n t h e   v a l ue   o f   a   pa r t i c ul a r   c o o r di n a t e .   T h e n   t h e   c l a s s i f i c a t i o n   i s   pe r f o r m e by   f i n di ng  t h e   h y pe r - pl a n e   t h a t   di f f e r e n t i a t e   t h e   c l a s s e s   ve r y   w e l l   by   m a ki ng  t h e   d i s t a n c e   i nt e r v a l   b e t w e e n   e a c h   c a t e go r y   m a xi m i z e   e a c h   o t h e r .   A s   r e po rt e by   [ 2 5 ],   t h e   c a l c ul a t i o n   o f   m i ni m u m   di s t a n c e   o f   h y pe r - pl a n e   i s   de f i n e i n   2:     mi n ( , ξ ) = 1 2 ( . ) + ξ 1 = 1     (2)       5.   R ES U LTS   A ND  DISCUSSIO N   T h e   e xpe r i m e n t   s e t up   w a s   r u us i ng  a   f i xe po o l   of   10  a ut ho r s   a n i m pl e m e n t s   k - f o l ( k = 1 0)  c r o s s - v a l i da t i o n   t o   v a l i da t e   t h e   c l a s s i f i c a t i o n   m o de l .   I t hi s   s e c t i o n ,   t h e   r e s ul t s   o f   t h e   e xpe r i m e nt s   t ha t   w e   h a d   pe r f o r m e t o   e xa m i n e   t h e   a pp r o a c h   i n t r o duc e i S e c t i o n   3   a r e   a s   f o l l ow s :   a)   A c c ur a c y   c o m pa ri s o n   f o r   di f fe r e n t   s t y l o m e t r i c   f e a t ur e   s e t s   us i n a   f i xe poo l   of   400  t w e e t s   pe r   a ut h o us i n S V M   a s   t h e   b a s e   c l a s s i f i e r   b)   P e r f o r m a n c e   c o m pa ri s o n   b e t w e e n   t w o   c l a s s i f i e r s ,   N a ï v e   B a y e s   a n S V M ,   i n   t e r m s   o f   a c c ur a c y   a n d   t i m e   t a ke n   b y   v a r y i n g   t h e   num b e o f   t w e e t s     5 . 1 .       C o m p ar i s o n   o D i ffe r e n F e atu r e   S e t s   In   o r de r   t o   a c c e s s   t h e   us e f ul n e s s   of   t h e   f e a t ur e   t y pe s ,   t h e   e xpe r i m e n t   a r e   c o n duc t e us i n d i f fe r e nt   s e t s   of   f e a t ur e s   us i n g   S V M   a s   t h e   b a s e   c l a s s i f i e r.   I t h i s   pa pe r ,   t h e   f e a t u r e   s e t s   us e a r e :   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A ut hor   i d e n t i f i c at i on  f or   u nde r - r e s o ur c e l angua ge   K adaz a n dus un   ( Nur s y ahi r a T ar m i z i )   253   a)   W o r U n i g ra m   b)   W o r { 1 - 5 } - g r a m s   c)   Cha ra c t e 3 - g ra m s   d)   Cha ra c t e 4 - g ra m s   e)   Co m b i n a t i o 1 :   W o r d   U n i g r a m ,   W o r d   { 1 - 5} - g r a m s ,   C ha r a c t e r   3 - g r a m s   f)   Co m b i n a t i o 2 :   W o r d   U n i g r a m ,   W o r d   { 1 - 5} - g r a m s ,   C ha r a c t e r   4 - g r a m s   A t   t hi s   po i n t ,   o n e   c o ul w o n de r   w ha t   w o ul b e   t h e   i m p a c t   of   us i n g   o n l y   c h a ra c t e r   3 - g ra m s   a n 4 - gra m s   a s   w e l l   a s   w o r n - g ra m s   i n   t h e   i de n t i f i c a t i o n   t a s k .   O u r   c h o i c e   fo r   t h e   f e a t ur e s   s e t s   a s   l i s t e a b o ve   w a s   m o t i v a t e by   pr e v i o u s   w o r i n   t h e   a r e a   [ 4 ] [ 3 ]   an [ 22 ] .   D a t a   o b t a i n e i n   t h e   pr e v i o us   s t ud y   by   [ 3 ]   u s i n g   P M S V M   a s   t h e   b a s e   c l a s s i f i e r   y i e l ds   a   r e s ul t   o f   c h a r a c t e r - l e v e l   4 - gr a m s   a s   t h e   m o s t   r e l e v a n t   i n de pe n de nt   f e a t ur e   s e t   w h i c h   ha s   t h e   h i g h e s t   a c c u r a c y   us i n E n g l i s h   da t a   s e t .   A c c o r di n t o   [ 4 ] ,   w o r d - l e v e l   n - g ra m s   f e a t ur e s   s ub s t a nt i a l l y   i m pr o v e   ove r   c ha ra c t e r   n - g ra m   f e a t u r e s .   I n   t h i s   p a pe r ,   w o r d - l e v e l   a n d   c ha r a c t e r - l e v e l   n - gra m s   f e a t u r e s   t o ge t h e r   w i t h   t h e i r   c o m b i n a t i o n s   a r e   us e t o   a na l y s e   t h e   a c c ura c y   of   i de n t i f i c a t i o n   o a n o n y m o us   a ut h o r   f o r   a   g i v e n   t e xt   i n   K a da z a n D us u n .   F i gu re   de pi c t s   t h e   a c c ura c y   of   di ff e r e n t   f e a t u r e   s e t s   us i n 4 00  t w e e t s   fo r   e a c a ut h o us i ng  S V M   a s   t h e   b a s e   c l a s s i f i e r .           F i gu r e   2 .   T h e   a c c u r a c y   of   di ff e r e n t   f e a t ur e   s e t s       T h e   a c c ura c y   r e s ul t s   w e r e   c o m pa r e d   b e t w e e n   t h e   f e a t ur e   s e t s   t o   a na l y s e   w h i c h   f e a t ur e   s e t s   i s   m o r e   r e l e v a nt   i n   i de n t i f y i n t h e   a u t h o r   o f   a n   a n o n y m o us   t e xt   i n   K a da z a n D us u n F i gu r e   2   s h o w s   t h a t   w o r uni g r a m   f e a t ur e   s e t   i s   t h e   be s t   i n di v i du a l   f e a t u r e   s e t   w i t h   t h e   h i g h e s t   a c c ur a c y   of   76. 42%  fo l l ow e by   c h a ra c t e r - l e v e l   4 - g r a m s   a n 3 - g r a m s   w i t h   a   s l i g ht   di f f e r e n c e   of   0. 03%.   A s   c a n   b e   s e e n ,   t hi s   i s   r e l e v a nt   a s   t h e   w o r uni g r a m   f e a t ur e   s e t   i s   a b l e   t o   c a pt u r e   t h e   c h o i c e s   of   pa r t i c u l a r   w o r ds   w h i c h   a r e   u n i q ue   a n d i f fe r e nt   f o r   e a c h   a ut h o r.   A l t h o ug h   c h a ra c t e r - l e v e l   4 - gra m s   c o m b i n a t i o n   a   b i t   b e l ow   t h a n   c ha r a c t e r - l e v e l   3 - gr a m s ,   i t   s t i l l   o ffe r s   c o m pe t i t i v e   a c c ur a c y   w i t h   o n l y   a   s l i g h t   di f f e r e n c e .   T h e   i de nt i f i c a t i o n   a c c ur a c y   i m p r o v e e ve n   hi g h e r   (f a i rl y   by   4%)  a s   bo t h   w o r d - l e v e l   a n c h a ra c t e r - l e v e l   fe a t ur e   s e t s   a r e   c o m b i n e d.   A c c o r di n t o   F i gu r e   a b o ve ,     t h e   hi g h e s t   a c c ura c y   i s   ob t a i n e by   Co m b i n a t i o n   f e a t u r e   s e t s   w i t h   m o r e   t ha n   80 a c c u r a c y   fo l l ow e b y   Co m b i n a t i o n   2   f e a t u r e   s e t s ,   w h i c h   s l i g h t l y   be l ow   by   0. 3%.   It   c a n   b e   ob s e r v e d,   bo t h   Co m b i na t i o n   &   by   f a ga i n   hi g h e r   a c c u r a c y   w h i c h   s ugge s t   t ha t   c h a ra c t e r   3 - g ra m s   a n 4 - g ra m s   f e a t u r e   s e t s   a r e   a b l e   t o   c a pt ur e   t h e   di f fe r e nt   c h o i c e   of   e m o t i c o n s ,   a b b r e v i a t i o n s ,   a n d   c r e a t i v e   pun c t u a t i o us e by   e a c h   a ut h o r .     5 . 2 .       C o m p ar i s o n   o C l as s i fi e r s   T h e   pe r f o r m a n c e   of   t h e s e   t w o   c l a s s i f i e r s   i s   c o m pa r e i n   t e rm s   of   t h e   a c c ur a c y   a n t h e   c o s t   of  r u nni n t i m e   us i n Co m b i n a t i o n   f e a t u r e   s e t .   T h e   r e a s o n   f or   us i n Co m b i n a t i o n   f e a t ur e   s e t   i s   b e c a us e   t h i s   f e a t ur e   s e t   h a s   t h e   h i g h e s t   a c c ura c y   c o m pa r e t o   o t h e r   f e a t u r e   s e t s   f r o m   t h e   p r e v i o us   s e c t i o n .   T h us ,   i t   i s   r e l e v a nt   t o   c h o o s e   t hi s   f e a t u r e   s e t   for   t h e   i de nt i f i c a t i o n   t a s k.   F o t hi s   e xpe ri m e n t ,   w e   c o n s i de r e us i ng  10   a ut h o r s   w i t h   a   v a ri a b l e   n u m b e r   o f   t w e e t s   t h a t   r a nge   b e t w e e n   100  t o   400  t w e e t s .   T a b l e   1   b e l ow   s h ow s   t h e   pe r f o r m a n c e   o f   t w o   di f fe r e nt   c l a s s i f i e r s ,   N a i v e   B a y e s   a nd  S V M .       T a b l e   1 .   T h e   P e r f o r m a n c e   o f   N a i v e   B a y e s   a n d   S V M   w i t D i ff e r e n t   N um b e of  T w e e t s   N u m b e r   o t w e e t s   N a ï v e   Ba y e s   S V M   A c c u ra c y   ( % )   T i m e   T a k e n   ( s )   A c c u ra c y   ( % )   T i m e   t a k e n   ( s )   100   6 9 . 2 0   7 . 8   7 2 . 1 0   2 5 . 1   200   7 3 . 0 5   1 5 . 3   7 4 . 8 5   8 4 . 8   300   7 6 . 7 3   2 2 . 0   7 9 . 2 0   1 7 1 . 7   400   7 7 . 5 8   1 7 . 6   8 0 . 1 7   2 1 1 . 8     Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   17 ,   N o .   1 J a n u a r y   20 20  :     248 - 255   254     A s   c a n   b e   s e e n   i n   T a b l e   1 ,   t h e   r u nni n t i m e   fo r   b o t h   c l a s s i f i e r s   i n c r e a s e   a s   t h e   n u m b e r   o t w e e t s   i n c r e a s e .   T hi s   i s   r e l e v a n t   a s   t h e   f e a t u r e   v e c t o r s   i n c r e a s e   w i t h   t h e   h i g h e r   num b e r   o f   t w e e t s   us e a s     t r a i ni n g   d a t a .   R e s ul t   f r o m   T a b l e   p r o v e s   t h a t   t h e   t i m e   t a ke f o r   N a ï v e   B a y e s   t o   y i e l r e s ul t s   i s   f a s t e c o m pa r e t o   S V M .   T hi s   i s   b e c a us e   t h e   N a ï v e   B a y e s   p o s s e s s   m o r e   s i m pl e   m e t h o i n   b ui l di ng  up  a   c l a s s i f i c a t i o n   m o de l   t ha t   r e s ul t e i n   p r o duc i n g   f a s t   s pe e r e s ul t s   [ 1 7 ].   F i gu r e   s h o w s   t h e   c o m pa r i s o n   f o r   t h e   pe r f o r m a n c e   o f   t h e   c l a s s i f i e r s   i t e rm s   o f   t h e   a c c ura c y           F i gu r e   3 .   A c c ura c y   c o m pa ri s o n   b e t w e e n   N a ï v e   B a y e s   a n S V M       F i gu r e   de pi c t s   t h a t   S V M   ga i n s   s ub s t a n t i a l l y   h i g h   a c c ura c y   t h a n   N a i v e   B a y e s D a t a   f r o m   a   pr e v i o us   s t udy   [ 8 ]   s h o w e t ha t   t h e   a c c u r a c y   of   t h e   c l a s s i f i e r   w i l l   d r o gra du a l l y   w i t h   a n   i n c r e a s e   i t w e e t s   f r o m   300  t o   500  t w e e t s ,   a s   i t   i s   de pe n de nt   o n   t h e   da t a   s e t .   I n   t h e i r   pa pe r,   t h e   r e s ul t   s h o w s   t h a t   L i n e a r   S V h a s   o ut pe r f o r m e o t h e r   c l a s s i f i e r s   w i t h   300  t w e e t s   up  t o   72. 66%   b ut   t h e t h e   a c c u r a c y   dr o s i g n i f i c a n t l y   t o   68%  w h e n   t h e y   us e 500  t w e e t s .   T h e   a c c ur a c y   of   b o t h   c l a s s i f i e r s   ke e ps   i n c r e a s i ng  w i t h   t h e   n u m b e r   o f   t w e e t s   a n t h e   hi g h e s t   a c c ura c y   a c h i e v e by   S V M   w i t h   o v e r   80%   a c c ur a c y   us i n 400  t w e e t s .   It   c a n   b e   ob s e r v e d,     t h e   i n c r e m e nt   o f   a c c ur a c y   s ugge s t   t ha t   t h e   m o r e   t w e e t s   a r e   ga t h e r e a s   t ra i ni n da t a ,   t h e   b e t t e r   t h e   pe r f o r m a n c e   of   t h e   c l a s s i f i c a t i o n   m o de l .   B e s i de s ,   t h e   r e s ul t s   ob t a i n e p r o v e   t h a t   a s   m o r e   da t a   i s   a v a i l a b l e   t c a pt u r e   t h e   a u t h o r' s   s t y l e   a n di s c ri m i na t e   t h e   w r i t i n g   s t y l e s   of   t h e   a u t h o r s .       6.   C O N C LU S I O N     T h i s   p a pe r   h a s   i m pl e m e n t e t h e   K a d a z a n D us u n   t w e e t s   a s   a U n de r - R e s o ur c e l a n gu a ge   da t a   s e t   o A ut h o r   Ide n t i f i c a t i o n   t a s f o r   s h o r t   t e xt .   F o r   t h e   pu r po s e   of  a ut o m a t i c   A fo r   s h o rt   t e xt s ,   e xpe ri m e n t s   ha v e   b e e n   c o n duc t e by   c o m b i n i n g   di f f e r e n t   s e t s   o f   s t y l o m e t r i c   f e a t u r e s   t ha t   a r e   i nde pe n de n t - l a ngua ge   f e a t u r e s   i n c l udi ng  w o r d - l e v e l   a n c h a ra c t e r - l e v e l   n - g r a m s .   T h e   c o m b i n a t i o n   o f   w o r uni g ra m   a n c h a ra c t e r   3 - g r a m s   a n a l l   w o r n - g r a m s   r e s ul t s   w i t h   hi g h   a c c ura c y   w i t 80 . 1 7 a c c ura c y .   T h e   f e a t u r e s   s e t   c o m b i na t i o n s   a r e   hi g h l y   pr e di c t i v e   fo r   A t a s i n   K a da z a n D us u n   l a ngua ge   da t a   s e t .   O n   t h e   o t h e r   h a nd,   S V M   c l a s s i f i e r   a c h i e v e d   hi g h   pe r f o r m a n c e   i n   t h i s   t a s o n   t h e   c o m b i n a t i o n   o f   w o r d - l e v e l   n - gra m s   w i t h   c ha r a c t e r   3 - g ra m s   t ha t   ha v e   s h o rt e e xe c ut i o n   t i m e   c o m pa r e t o   c h a ra c t e 4 - gr a m s .   I n   f ut u r e ,   o t h e r   t y p e s   of   fe a t ur e s   r e l a t e t o   l a ngua ge - de pe n de nt   s uc h   a s   P a rt - of - S pe e c h   (P O S n - g r a m s   w i l l   b e   t e s t e d.   M o r e ove r ,   di f f e r e n t   c l a s s i f i e r s   c a n   b e   e xpl o r e t o   e xa m i n e   t h e   pe r f o r m a n c e   o f   t h a t   c l a s s i f i e r s   o n   t hi s   da t a   s e t .       R EF ER EN C ES   [ 1]   P .   J uo l a   a n G .   K . M i kr o s ,   C r o s s - L i ng ui s t i c   S t y l o m e t r i c   F e a t ur e s :   A   P r e l i m i na r y   I n v e s t i g a t i o n” ,   i J A D T 2 016 :   I nt e r n at i on al   C on f e r e nc e   on   S t at i s t i c a l   A na l y s i s   o f   T e x t ua l   D at a ,   F r a nc e ,   201 6.   [ 2]   R .   C h e n ,   L .   H o ng ,   C .   L a nd   W .   D e ng ,   " A ut ho r   I de nt i c a t i o o f   S o f t w a r e   S o ur c e   C o de   w i t P r o g r a m   D e pe nde nc e   G r a ph s , "   i n   2 010   I E E E   3 4t A nnua l   C om pu t e r   S of t w ar e   and   A pp l i c at i ons   C on f e r e nc e   W or k s ho ps ,   S e o ul ,   2 010 .   [ 3]   A .   R o c ha   a nd  W .   J .   S c he i r e r   e t   a l ,   A ut ho r s hi A t t r i bu t i o f o r   S o c i a l   M e d i a   F o r e n s i c s ,   I E E E   T r an s ac t i ons   o I nf or m a t i on  F or e ns i c s   a nd   Se c ur i t y ,   p p.   5 - 33 ,   2017 .   [ 4]   R .   S c hw a r t z   a nd  O .   T s u r   e t   a l ,   A ut ho r s h i A t t r i bu t i o o f   M i c r o - M e s s a g e s ,   i P r oc e e di ngs   of   t he   2013   C onf e r e nc e   on   E m p i r i c a l   M e t hods   i n   N at ur a l   L ang uage   P r oc e s s i n g ,   S e a t t l e ,   W a s h i ng t o n,   201 3 .   [ 5]   O .   d.   V e l   a nd  A .   A nde r s o e t   a l ,   M i ni ng   E - m a i l   c o nt e nt   f o r   A ut ho r   I de nt i f i c a t i o F o r e n s i c s ,   A C M   S I G M O D   R e c or d ,   N Y ,   U S A ,   2001 .   [ 6]   H .   M o ht a s s e a nd  A .   A hm e d,   M i ni ng   O nl i ne   D i a r i e s   f o r   B l o gg e r   I de nt i f i c a t i o n” ,   i n   Se c on I nt e r n at i ona l   C onf e r e nc e ,   B i g   D a t a   A n l ay t i c s   ( B D A )   201 3 ,   M y o s o r e ,   I ndi a ,   20 13 .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A ut hor   i d e n t i f i c at i on  f or   u nde r - r e s o ur c e l angua ge   K adaz a n dus un   ( Nur s y ahi r a T ar m i z i )   255   [ 7]   P .   S h r e s t ha ,   S .   S i e r r a   a n F .   G o nz a l e z ,   C o nv o l ut i o na l   N e u r a l   N e t w o r ks   f o r   A ut ho r s hi p   A t t r i bu t i o o f   S ho r t   T e xt s ,   i P r oc e e di ngs   o f   t he   15t h   C on f e r e nc e   of   t he   E ur o pe an  C hapt e r   of   t he   A s s oc i a t i on  f or   C om pu t at i o nal   L i ngu i s t i c s ,   V a l e nc i a ,   S pa i n ,   201 7 .   [ 8]   J .   S o l e r - C o m pa n y   a nd  L .   W a nne r ,   O t he   R e l e v a nc e   o f   S y nt a c t i c   a nd  D i s c o ur s e   F e a t u r e s   f o r   A ut ho r   P r o f i l i ng   a nd  I de nt i f i c a t i o n” ,   i n   P r oc e e di ngs   o f   t he   15 t h   C on f e r e nc e   of   t h e   E ur ope an  C hap t e r   o f   t he   A s s o c i a t i on   f o r   C om put at i ona l   L i ngu i s t i c s ,   V a l e nc i a ,   S pa i n ,   2 017 .   [ 9]   A .   M .   M o hs e n ,   N .   M .   E l - M a kky   a nd  N .   G h a ne m ,   A ut ho r   I de nt i f i c a t i o U s i ng   D e e L e a r n i ng ,   i n   201 15 t I E E E   I nt e r n at i ona l   C on f e r e nc e   on   M ac h i ne   L e ar n i n a nd   A pp l i c a t i o ns   ( I C M L A ) ,   A na he i m ,   C A ,   20 17.   [ 10]   S .   O kuno ,   H .   A s a i   a nd  H .   Y a m a n a ,   A   c ha l l e ng e   o f   a ut ho r s hi i de n t i f i c a t i o f o r   t e n - t ho us a nd - s c a l e   m i c r o bl o us e r s ,   i n   2 014   I E E E   I nt e r n at i on al   C on f e r e nc e   on   B i D at a   ( B i g   D at a) ,   W a s h i ng t o n,   D C ,   2 015 .   [ 11]   R .   B a ng a   a nd  P .   M e h nd i r a t t a ,   A ut ho r s h i a t t r i b ut i o f o r   t e xt ua l   da t a   o o nl i ne   s o c i a l   ne t w o r ks ,   i 2017  T e nt I nt e r n at i on al   C on f e r e nc e   on   C on t e m por a r y   C om pu t i ng   ( I C 3) ,   N o i d a ,   I ndi a ,   20 18.   [ 12]   A .   O m a r ,   P r o c e s s i ng   M a l a y s i a I ndi g e no us   L a ng ua g e s :   A   F o c us   o P ho no l o gy   a nd  G r a m m a r ,   O pe J o ur n al   o f   M ode r n   L i ngu i s t i s ,   4 ,   pp .   728 - 73 8,   20 14.   [ 13]   S .   K r a uw e r ,   T h e   B a s i c   L a ng ua g e   R e s o ur c e   K i t   ( B L A R K )   a s   t h e   F i r s t   M i l e s t o ne   f o r   t h e   L a ng ua g e   R e s o ur c e s   R o a dm a p” i P r oc e e di n gs   of   t he   20 03   I n t e r na t i ona l   W or k s hop   Spe e c and   C om p ut e r ,   M o s c o w ,   R us s i a ,   200 3.   [ 14]   I .   F r o m m h o l z   a nd  H .   M .   a l - K ha t e e e t   a l ,   O T e xt ua l   A na l y s i s   a nd  M a c h i ne   L e a r ni ng   f o r   C y be r s t a l ki ng   D e t e c t i o n” ,   D a t e nbank   Spe k t r um ,   v o l .   16 ,   no .   2,   p .   127 135 ,   201 6.   [ 15]   S .   N i r khi ,   R .   V .   D h a r a s ka r   a nd  V .   T ha ka r e ,   A E xpe r i m e n t a l   S t udy   o A ut ho r s hi I de nt i f i c a t i o f o r   C y be r   F o r e ns i c s ,   I J C SN   I n t e r na t i ona l   J ou r na l   of   C om p ut e r   Sc i e nc e   and   N e t w or k ,   p p.   75 6 - 60,   20 15 .   [ 16]   M .   A l m i s ha r i   a nd   D .   K a a f a r   e t   a l ,   S t y l o m e t r i c   L i nka b i l i t y   o f   T w e e t s ,   i W P E ' 14  P r oc e e di ngs   of   t he   13 t h   W or k s hop   on   P r i v a c y   i t he   E l e c t r on i c   Soc i e t y ,   A r i z o na ,   2 014 .   [ 17]   Y .   Y u   a nd   L .   Z ho u ,   " A c o us t i c   E m i s s i o S i g na l   C l a s s i f i c a t i o ba s e o S up po r t   V e c t o r   M a c hi n e , "   T E L K O M N I K A   I ndo ne s i an   J our nal   o f   E l e c t r i c a l   E ngi ne e r i ng ,   v o l .   10 ,   no .   5 ,   pp .   10 27 - 1032 ,   2012 .   [ 18]   R .   A .   I g a w a   a nd  A .   M .   G .   de   A l m e i da   e t   a l ,   R e c o g ni t i o o f   C om pr o m i s e A c c o unt s   o T w i t t e r ,   i SB SI   2 015   P r oc e e di ngs   of   t he   ann ual   c on f e r e nc e   on  B r a z i l i an  S y m pos i um   o I n f or m a t i on  S y s t e m s :   I nf or m a t i on  Sy s t e m s :   A   C om put e r   So c i o - T e c hn i c a l   P e r s pe c t i v e ,   G o i a s ,   20 15.   [ 19]   C .   J a f r a n ,   P e r k a t a a m a ki a da ku t uk a ( ba h a s a   ka s a r )   da l a m   ba h a s a   K a da z a n dus u n” ,   a v a i l a b l e   a t   ht t p: / / gaga r i t ab ada . b l og s po t . c om / 2014 / 0 2/ pe r k at aan - m ak i an - dan - k ut uk an - baha s a . h t m l ,   10  F e b r ua r y   2014.   [ 20]   M .   K o ppe l   a n J .   S c h l e r ,   C o m put a t i o na l   M e t ho ds   i n   A ut ho r s h i A t t r i but i o n” ,   J o ur n al   of   T he   A m e r i c an  Soc i e t y   f o r   I nf or m a t i on  Sc i e nc e   and   T e c hn ol o gy ,   v o l .   60 ,   no .   1 ,   pp .   9 - 26,   20 09 .   [ 21]   E .   S t a m a t a t o s ,   A   S ur v e y   of   M o de r A ut ho r s hi A t t r i bu t i o M e t ho ds ,   J our n al   o f   t he   A m e r i c an  S oc i e t y   f or   I nf or m a t i on  Sc i e nc e   and   T e c hn ol o gy ,   v o l .   60 ,   no .   3 ,   pp .   538 - 556 ,   2 009.   [ 22]   R .   L a y t o n,   P .   W a t t e r s   a nd  R .   D a z e l e y ,   A ut ho r s hi A t t r i but i o f o r   T w i t t e r   i 140  C h a r a c t e r s   o r   L e s s ,   in   2010   Se c ond  C y be r c r i m e   an T r u s t w or t hy   C om pu t i ng   W or k s ho p ,   B a l l a r a t ,   V I C ,   201 0.   [ 23]   D .   W r i g ht ,   U s i ng   w o r n - g r a m s   t o   i de n t i f y   a ut ho r s   a nd  i di o l e c t s :   A   c o r pus   a ppr o a c t o   a   f o r e ns i c   l i n g ui s t i c ,   I nt e r n at i on al   J o ur n al   o f   C o r pu s   L i n gui s t i c s ,   v o l .   22 ,   no .   2 ,   2017 .   [ 24]   D .   L i - g u o   a nd  L .   A . - p.   D i   pe ng ,   " A   N e w   N a i v e   B a y e s   T e xt   C l a s s i f i c a t i o A l go r i t h m , "   T E L K O M N I K A   I nd one s i a J our nal   o f   E l e c t r i c a l   E ngi ne e r i ng ,   v o l .   12 ,   no .   2 ,   pp .   947 - 952 ,   201 4 .   [ 25]   A .   A .   G .   G l a dw i n ,   M .   J .   L a v i a nd   D .   M .   L oo k,   " S t y l o m e t r y   a nd  c ol l a bo r a t i v e   u t ho r s hi p:   E dd y ,   L ov e c r a f t ,   a nd  ' T he   L o v e D e a d' , "   D SH ,   v o l .   32 ,   pp .   1 23 - 140 ,   2017 .   [ 26]   A.   M .   K i b r i y a   a nd  E .   F r a n e t   a l ,   R e v i s i t e d ,   M ul t i no m i a l   N a ï v e   B a y e s   f o r   T e xt   C a t e g o r i z a t i o n” ,   i A us t r a l a s i a J oi n t   C on f e r e nc e   on   A r t i f i c i al   I nt e l l i ge nc e ,   C a i r ns ,   2004 .     Evaluation Warning : The document was created with Spire.PDF for Python.