I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   14 ,   N o .   3 J u n e   20 1 9 ,   pp .   1508 ~ 1517   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 4 .i 3 . pp150 8 - 1517             1508       Jou r n al   h o m e pa ge ht t p: / / i ae s c or e . c om / j our na l s / i nde x . p hp/ i j e e c s   Y o u t u b e   sp a m   d e t e c t i o n   f r a m e w o r k   u si n g   n a ï v e   b a y e a n d   l o g i st i c   r e g r e ssi o n       N u r ’A i n   M au l at  S am s u d i n 1 C i k   F e r e s b i n t i   M o h d   F oo z y 2 N ab i l ah   A l i as 3 ,   P al an i ap p an   S h am al a 4 N u r   F ad z i l ah   O th m an 5 ,   Wan   I s n i   S o fi ah   Wan   D i n 6   1, 2 , 3 , 4 F a c ul t y   of   C o m put e r   S c i e nc e   a nd   I nf o r m a t i o T e c hno l o gy ,   U ni v e r s i t i   T u H u s s e i n   O nn   M a l a y s i a   ( U T H M ) M a l a y s i a   5 Fa c ul t y   of   I n f o r m a t i o a nd   C o m m uni c a t i o T e c hno l o gy ,   U ni v e r s i t i   T e kn i ka l   M a l a y s i a   M e l a ka   ( U T e M ) ,   M a l a y s i a   6 F a c ul t y   of   C o m put e r   S y s t e m s   a nd   S o f t w a r e   E ng i ne e r i ng ,   U n i v e r s i t i   M a l a y s i a   P a h a ng   ( U M P ) ,   M a l a y s i a       A r ti c l e   I n fo     A B S TR A C T     Ar t i c l e   h i s t or y :   R e c e i v e D e c   1 2 ,   2018   R e v i s e F e b   13,   201 9   A c c e pt e F e b   27,   201 9       Y o uT ube   ha s   b e c o m e   a   po pul a r   s o c i a l   m e d i a   a m o ng   t he   us e r s .   D ue   t o   Y o uT ube   po pul a r i t y ,   i t   be c a m e   a   p l a t f o r m   f o r   s pa m m e r   t o   di s t r i but e   s p a m   t hr o ug t he   c o m m e nt s   o Y o uT ube .   T hi s   ha s   b e c o m e   a   c o n c e r be c a us e   s pa m   c a l e a t o   phi s hi ng   a t t a c w hi c t he   t a r g e t   c a be   a ny   us e r   t ha t   c l i c k   a ny   m a l i c i o us   l i nk .   S pa m   h a s   i t s   o w f e a t ur e s   t h a t   c a n   be   a na l y z e a nd  de t e c t e by   c l a s s i f i c a t i o n.   H e nc e ,   e nha nc e m e nt   f e a t u r e s   a r e   pr o po s e t de t e c t   Y o uT ube   s p a m .   I o r de r   t o   c o nduc t   t he   e xp e r i m e n t s ,   a   Y o uT ube   S pa m   de t e c t i o f r a m e w o r t h a t   c o ns i s t s   o f   f i v e   ( 5)   pha s e s   s uc a s   da t a   c o l l e c t i o n,   pr e - pr o c e s s i ng ,   f e a t u r e s   s e l e c t i o a nd   e x t r a c t i o n,   c l a s s i f i c a t i o a nd   de t e c t i o w e r e   de v e l o pe d .   T hi s   pa pe r ,   pr o po s e t he   Y o uT ube   de t e c t i o f r a m e w o r k,   e xa m i ne a nd  v a l i d a t e   e a c o f   t he   pha s e s   by   us i ng   t w t y pe s   o f   da t a   m i n i ng   t o o l .   T he   f e a t u r e s   a r e   c o ns t r uc t e d   f r o m   a na l y s i s   by   us i ng   da t a   c o l l e c t e f r o m   Y o uT ube   S pa m   da t a s e t   by   us i ng   N a ï v e   B a y e s   a nd  L o g i s t i c   R e g r e s s i o a nd   t e s t e i t w o   di f f e r e n t   da t a   m i n i ng   t o o l s   w hi c i s   W e ka   a nd  R a p i M i ne r .   F r o m   t he   a na l y s i s ,   t h i r t e e ( 13 )   f e a t u r e s   t h a t   ha d   be e t e s t e o W e ka   a n R a pi d M i ne r   s ho w s   hi g a c c ur a c y ,   he nc e   i s   be i n g   us e t hr o u g ho ut   t he   e xpe r i m e nt   i n   t hi s   r e s e a r c h.   R e s ul t   o f   N a ï v e   B a y e s   a nd   L og i s t i c   R e g r e s s i o r un  i W e k a   i s   s l i g ht l y   hi g he r   t h a R a pi dM i ne r .   I a ddi t i o n,   r e s ul t   o f   N a ï v e   B a y e s   i s   hi g he r   t ha L og i s t i c   R e g r e s s i o w i t 87 . 21 %   a nd   85. 29 %   r e s pe c t i v e l y   i W e ka .   W hi l e   i R a pi dM i n e r   t h e r e   i s   s l i g h t l y   di f f e r e nt   o f   a c c ur a c y   be t w e e N a ï v e   B a y e s   a nd   L og i s t i c   R e g r e s s i o 80 . 41 %   a n 80 . 88 % .   B ut ,   p r e c i s i o o f   N a ï v e   B a y e s   i s   hi g he r   t ha L o g i s t i c   R e g r e s s i o n.   Ke y w or ds :   Cl a s s i f i c a t i o n   D e t e c t i o n   M a c hi n e   l e a rni n g   S pa m   C opy r i gh t   ©   201 9   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   Ci F e r e s a   M o h F o o z y ,     F a c ul t y   of   Co m put e r   S c i e n c e   a n d   I n f o r m a t i o T e c hn o l o gy ,     U n i v e r s i t i   T u n   H us s e i O nn  M a l a y s i a   (U T H M ),     P a ri t   R a j a ,   B a t u   P a ha t ,   8 6400   J o h o r,   M a l a y s i a .   E m a i l :   f e r e s a @ ut hm . e du. m y       1.   I N TR O D U C TI O N   Y o uT ub e   i s   o n e   of   t h e   f a m o us   a n w e l l - kn o w n   s o c i a l   m e di a .   Y o uT ub e   i s   f un c t i o n i n a s   f o r   t h e   us e t o   upl o a o r   s ha r e   a n y   r e l e v a n t   v i de o s .   A n y   In t e rn e t   us e r   f r o m   a l l   o v e r   t h e   w o r l c a n   w a t c h   t h e   v i de o   o n l i n e .   F r o m   t h e   v i de o   i Y o uT ub e ,   us e r s   n o t   o n l y   c a s h a r e   t h e i v i de o s ,   b ut   a l s o   c a n   c o m m e n t   o n   t h e   v i de o s .   Co m m e nt s   t ha t   c a m e   f r o m   t h e   us e r s   s o m e t i m e s   n o t   o nl y   t o   pr a i s e   t h e   go o v i de o   o r   c r i t i c i z e   v i de o s   t h e y   di s l i ke   b ut   a l s o   po s t   a n   u n w a nt e o r   un s o l i c i t e a nd  u nr e l a t e e l e c t r o n i c   m e s s a ge   t ha t   i s   s e nt   i n   b ul t o   a   gr o up  o f   r e c i pi e nt   w hi c a l s o   k n o w n   a s   s p a m   [1 ]   S pa m   c a us e s   m a n y   pr ob l e m s ,   i n c l udi ng  w a s t i n t h e   us e r’s   t i m e ,   m e m o r y   a n us e   up  n e t w o r b a n dw i dt h s .   O r g a ni z a t i o n s   a n us e r s   c o ul f a c e   f i n a n c i a l   l o s s   du e   t o   t h e   t hr e a t   o s pa m   [2] .   S o m e   of   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Y ouT ube   s p am   d e t e c t i on   f r am e w or k   us i ng  naï v e   ba y e s   and   l o gi s t i c   r e gr e s s i on   (C i k   F e r e s a   bi nt i   Mo hd  F ooz y )   1509   s pa m m e r s   us e   t h e   c o m m e n t   p a rt   o n   Y o uT ub e   f o r   a dv e r t i s i n i s s ue s ,   w h i l e   o t h e r s   a r e   r e s po n s i b l e   fo r   di s t r i b ut i n c o m put e r   v i r us e s   a n d   t h e r e   a r e   s o m e   s pa m   m e s s a ge s   i n t e n de t o   s t e a l   t h e   us e r   f i n a n c i a l     i de nt i t i e s   [3] .   T h e   m o s t   c o n c e rn e t hr e a t s   o f   s pa m   a r e   w h e n   i n v o l v i n m a l i c i o us   s pa m   t h a t   w i l l   l e a t o   phi s h i n w e b s i t e s   o n c e   t h e   us e r s   c l i c t h e   l i n [3]   a n t h e   di s t ri b ut i o n   o f   m a l w a r e   [4] .   G a nd r a   [4]  s t a t e s   t h a t   100  t o   r a t i o   of   s pa m   i s   o n   Y o uT ub e   a s   s h ow n   i n   T a b l e   1 .   T h i s   s h o w s   t h e   s e r i o us n e s s   o s pa m   a t t a c o Y o uT ub e .         T a b l e   1 .   R e po r t   o n   P o pul a S o c i a l   P l a t f o r m   f o r   S p a m   [4 ]   D e s c ri p t i o n   D a t a   S o c i a l   m e d i a   a p p s   t h a t   a r e   s p a m m y   5%   S p a m m y   s o c i a l   m e d i a   a p p s   t h a t   a r e   b ra n d - o w n e d   2 0 % (t h a t   i s   1 %   o v e ra l l )   A v e ra g e   n u m b e o f   s o c i a l   p r o f i l e s   c o n t a c t e d   b y   a   s p a m m i n g   a c c o u n t   23   N u m b e r   o n e w   s p a m   a c c o u n t s   c r e a t e d   5   o u t   o f   e v e r y   n e w   a c c o u n t s   M o s P o p u l a r   s o c i a l   p l a tfo r m   fo r   s p a m m e r s   Fa c e b o o k   &   Y o u   T u b e   P e r c e n t a g e   o s p a m   t h a t   c o n t a i n   U R L   15%   O v e ra l l   n u m b e o s o c i a l   m e d i a   m e s s a g e s   1   o u t   o f   e v e r y   2 0 0       2.   LI TER A TU R R EV I EW   S pa m   a t t a c ha b e e n   w o r w i de l y   di s t r i b ut e d.   N o t   o n l y   i n   s o c i a l   m e di a   s uc a s   F a c e boo k,   T w i t t e r ,   Y o uT ub e ,   b l o gs ,   b u t   a l s o   i n   S M S   a nd  e - m a i l s .   F o r   e m a i l   s pa m   i s   de f i n e a s   u n w a nt e e m a i l s   s e n t   by   di f fe r e nt   us e r s   da i l y   by   [5] .   A c c o r di n t o   T r a e t   a l .   [6] ,   e m a i l   s pa m   b ri n gs   t h e   m e a ni n g   o f   un s o l i c i t e b ul e m a i l s   r e c e i v e by   us e r s .   W hi l e   u n s o l i c i t e c o m m e r c i a l   e m a i l   o r   j unk  e m a i l   i s   t h e   de f i n i t i o n   o f   s pa m   de f i n e by   S t o n e   [7] .   F o r   S h o r t   M e s s a ge   S e r v i c e   (S M S s pa m   i s   kn o w n   a s   un s o l i c i t e o r   u n w a n t e m e s s a ge   r e c e i ve d   o n   a   m o b i l e   ph o n e   [8] .   I n   w e b   s pa m m i n g ,   s pa m   b r o ug h t   t h e   m e a n i ng   o f   a n   i nt e n de a c t i v i t y   t o   m i s l e a s e a r c h   e n g i n e   t o   ra n ki ng  s o m e   pa ge   hi g h e r   t ha n   t h e y   r e s e r v e [9] [1 0] .   S p a m   c o m m e n t s   ha b e e n   i de nt i f i e a s   a   c o m m e n t s   w h i c h   c o n s i s t s   o f   c o m m e r c i a l   c o n t e n t   t ha t   i s   u nr e l a t e t o   t h e   d i s c us s i o n   w i t h   u n w a n t e c o n t e n t   o r   r e que s t s   [1] I a d di t i o n,   v i de o   s pa m   a l s o   b e e n   de f i n e by   Y us of   a n S a do o n   [1]   a s   u nr e l a t e d ,   un w a n t e d   c o n t e n t   c o m pa r e t o   i t s   v i de o ’s   t i t l e .     2. 1 .       Ex i s ti n g   Y o u T u b e   S p am   D e te c t i o n   F r am e w o r k   F o r   Y o uT ub e   s pa m   de t e c t i o n   f ra m e w o r us e by   Y us of   a n S a do o n   [1] ,   A l b e r t o   e t   al . ,   [1 1],   Ch o w dur y   e t   al . ,   [1 3],   a n d   K i ra n   [12]  i s   d i s c us s e d.   I n   a   s t udy   c o n duc t e by   Y us of   a n d   S a do o n   [ 1],     a   f r a m e w o r us e c o n s i s t s   of   f i ve   (5)  ph a s e s   w h i c h   i s   da t a   c o l l e c t i o n ,   p r e - p r o c e s s i n g,   f e a t u r e   c o n s t r uc t i o n ,   s pa m   de t e c t i o n   a n e v a l ua t i o n.   T h e   f ra m e w o r us e by   A l b e r t o   e t   al . ,   [ 11]  h a s   t hr e e   (3)  p ha s e s   s uc h   a s   pr o c e s s e da t a ,   p r e - p r o c e s s i n a n d   c l a s s i f i c a t i o n .   W h i l e   f r a m e w o r i r e s e a r c c o n duc t e by   K i ra [12]   h a s   t hr e e   (3)  p ha s e s   c o n s i s t s   o f   da t a   c o l l e c t i o n ,   f e a t u r e   s e l e c t i o n   a n c l a s s i f i c a t i o n .   B e s i de s   t ha t ,   f ra m e w o r us e i n   r e s e a r c h   by   Ch ow dur y   e t   al . ,   [1 3]  c o n s i s t s   o f   da t a   c o l l e c t i o n ,   s e l e c t   a t t r i b ut e   a n c l a s s i f i c a t i o n s .     T a b l e   2   s h o w s   t h e   c o m pa r i s o o f   Y o uT ube   s pa m   de t e c t i o n   f ra m e w o r ks .       T a b l e   2 .   Co m p a r i s o o f   Y o uT ub e   S pa m   F r a m e w o r k   A u t h o r   T i t l e   F ra m e w o rk   D a t a   P re - p r o c e s s i n g   F e a t u r e s   Cl a s s i fi c a t i o n   E v a l u a t i o n   [1 ]   D e t e c t i n g   V i d e o   S p a m m e r s   i n   Y o u T u b e   S o c i a l   M e d i a             [1 1 ]   T u b e S p a m :   C o m m e n t   S p a m   F i l t e ri n g   o n   Y o u T u b e               [1 2 ]   D e t e c t i n g   s p a m m e r s   i n   Y o u T u b e :   A   s t u d y   t o   fi n d   s p a m   c o n t e n t   i n   a   v i d e o   p l a t fo r m .               [1 3 ]   A   D a t a   M i n i n g   Ba s e d   S p a m   D e t e c t i o n   S y s t e m   fo r   Y o u T u b e                 F r o m   t h e   T a b l e   2,   i t   s h o w s   m os t   of   t h e   r e s e a r c h e r s   a pp l i e da t a   c o l l e c t i o n ,   f e a t u r e   s e l e c t i o n   a n c l a s s i f i c a t i o n   i n   t h e i r   Y o uT ub e   S pa m   de t e c t i o n   f r a m e w or k .   T h e r e f o r e ,   fo r   t h e   f r a m e w o r us e i n   t hi s   r e s e a r c h   r e s e m b l e f r o m   t h e   f r a m e w o r us e by   Y us of   a n S a do o n   [1],   t h e r e   a r e   d a t a   c o l l e c t i o n ,     pr e - p r o c e s s i n g,   f e a t u r e s   s e l e c t i o n ,   c l a s s i f i c a t i o a n d   de t e c t i o n.     2. 2 .       D at C o l l e c t i o n   T h e r e   a r e   t w o   (2)  t y pe s   of   da t a   b e i n c o l l e c t e by   e xi s t i n re s e a r c h e r .   T h e   t w o   t y p e s   of   da t a s e t   a r e   Y o uT ub e   c o m m e n t s   a n Y o uT ub e   v i de o .   A l b e r t o   e t   a l . ,   [ 1 1]  us e Y o uT ub e   c o m m e nt s   da t a s e t   do w n l o a de d   Evaluation Warning : The document was created with Spire.PDF for Python.
                               IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1508     1517   1510   f r o m   U CI  M a c h i n e   L e a rn i ng  R e po s i t o r y   [ 28].   T h e   da t a s e t   c ont a i n   a   t o t a l   o f   1005  of   s pa m   c o m m e nt s   a n 95 of   h a m   c o m m e n t s .   O t h e   o t h e r   ha n d ,   K i r a [12 us e Y o uT ub e   V i de o   da t a   a r e   ga i n e f r o m   C r a w l i n g   A l go r i t h m   w i t h   a   t o t a l   o f   473  s pa m   v i de o   a n d   119  ha m   v i de o .   B e s i de s   t ha t ,   a n o t h e r   Y o uT ub e   v i de o   da t a s e t   i s   us e by   Y us of   a n d   S a do o n   [1 w hi c i s   e xt ra c t e f r o m   w e b   pa ge s .   T h e   da t a s e t   c o n s i s t   o f   a   t o t a l   o f   30621  s pa m   a n ha m   v i de o s .   M e a n w h i l e ,   C h o w dur y   e t   a l . ,   [13]   o bt a i t h e   d a t a s e t   f r o m   T ub e K i t   w i t h   6 85  o f   s pa m   v i de o s   a nd  1 115   o f   h a m   v i de o s .   T a b l e   s h o w s   t h e   t y pe   of   da t a s e t   a n t o t a l   n u m b e r   of   d a t a s e t s   h a b e e n   us e i n   t h e   e xi s t i n g   r e s e a r c h.   D ue   t o   t h e   a v a i l a b i l i t y   of   Y o uT ube   c o m m e n t s   i s   f ro m   U CI  M a c h i n e   L e a rni n g   R e pos i t o r y   [28]  a n ha b e e n   us e by   A l b e r t o   e t   al . ,   [11] ,   t h e   s a m e   Y o uT ub e   s pa m   c o m m e n t s   da t a s e t   i s   us e i t hi s   r e s e a r c h.       T a b l e   3 .   D a t a s e t   Co l l e c t i o n   A u t h o r   D a t a s e t   T y p e   T o t a l   N u m b e o f   D a t a s e t   [1 1 ]   Y o u T u b e   C o m m e n t   1 0 0 5   S p a m ,   9 5 1   H a m   [1 2 ]   Y o u T u b e   V i d e o   4 7 3   S p a m ,   1 1 9   H a m   [1 ]   Y o u T u b e   V i d e o   3 0 6 2 1   S p a m   a n d   H a m   [1 3 ]   Y o u T u b e   V i d e o   6 8 5   S p a m ,   1 1 1 5   H a m       2. 3 .       F e a tu r e   S e l e c ti o n   T h e r e   a r e   m a n y   t y p e s   of   fe a t u r e s   c a n   b e   s e l e c t e t b e   us e a s   a   pa r a m e t e r   i n   a   r e s e a r c h .   F o r   v i de s pa m   i n   Y o uT ub e   s t ud y   c o n duc t e by   Y us of  a n S a do o n   [1] ,   A l b e r t o   et   al . ,   [11] ,   a n K i ra n   [12]   di f f e r e n t   t y p e   of   f e a t ur e s   i s   b e i n s e l e c t e d.   S t udy   by   Y us of   a n d   S a do o n   [1] ,   t h e   f e a t u r e   b e i n s e l e c t e i s   t h e   E dge   R a n A l go r i t h m .   T hi s   a l go r i t hm   i s   i m pl e m e n t e b e c a us e   t h e   a l go r i t h m   i s   t h e   s a m e   a l go r i t hm   b e i n i m p l e m e nt e by   F a c e boo i n   de t e c t i n g   s pa m .   N e xt   r e s e a r c c o n duc t e by   K i r a [12]   us e t hr e e   (3)   f e a t u r e s   w h i c h   a r e   v i de o   b a s e d,   us e r   b a s e a n s o c i a l   n e t w o r f e a t ure s   i n   o r de r   t o   i de nt i fy   s pa m   us e r s .   F e a t u r e s   us e d   by   r e s e a r c h e r   C h o w du r y   e t   al . ,   [13]   i s   t h e   n um b e r   o f   us e r s ,   n u m b e r   of   c o m m e nt s ,   n u m b e r   of   di s t i n c t   us e r s ,   n u m b e r   o f   ra t i n g   c o un t s ,   a n num b e o f   di f fe r e n t   c a t e go ri e s .     O n   t h e   o t h e r   ha n d ,   f e a t ur e s   us e by   A l b e r t o   e t   al . ,   [11]   i n   de t e c t i n s p a m   i n   Y o uT ub e   s pa m   c o m m e n t s   i s   t h e   m o s t   o c c ur r e n c e   s pa m   ke y w o r ds .   Y o uT ub e   s pa m   c o m m e n t s   a r e   s t i l l   a   n e w   r e s e a r c h   a r e a ,   t h e r e f o r e   f e a t ur e s   o f   Y o uT ube   s pa m   a r e   r a r e l y   i de n t i f i e d.   S o ,   f e a t ur e   o f   c o m m e n t s   f r o m   w e b   b l o g,   T w i t t e r,   a n S M S   i s   b e i ng  s t u di e a n c a b e   i m p l e m e n t e d.   F e a t ur e s   e xt ra c t e f r o m   c o m m e n t s   i t h e   r e s e a r c c o n duc t e by   A l S a l e a n d   A l A r i f i   [1 4]   s uc h   a s   po s t - c o m m e nt s   s i m i l a r i t y ,   t h e   i n t e r v a l   b e t w e e n   po s t   a n d   c o m m e n t s ,   n u m b e r   o w o r ds   i n   t h e   c o m m e n t s ,   a   n u m b e r   of   s e n t e n c e s   i n   t h e   c o m m e n t s ,   c o m m e nt   l e n gt h,   ph o n e   i n f o r m a t i o n,   e m a i l   i n f o r m a t i o n,   U ni f o r m   R e s o ur c e   L oc a t o r   (U R L l i n k ,   b l a c w o r l i s t ,   s t o w o r d   ra t i o   a n w o r dupl i c a t i o n   r a t i o .   N e xt   i s   t h e   f e a t ur e s   us e by   U y s a l   e t   al . ,   [15] ,   i s   i n c l ude s   m e s s a ge   l e n gt h,   n u m b e r   o f   t e r m s ,   uppe r c a s e   c ha ra c t e r   ra t i o ,   n o n - a l p h a num e ri c   c ha r a c t e r   ra t i o ,   a l p h a num e r i c   c h a ra c t e r   ra t i o   a n t h e   p r e s e n c e   o f   U RL   i t h e   c o m m e n t s .   P e r v e e n   [16]   c o nduc t e a   s t udy   w i t h   t h e   f e a t u r e s   o f   n e ga t i v e   w o r d   c o un t ,   n e ga t i v e   w o r c o un t s ,   U R L ,   po s i t i v e   w o r c o un t ,   po s i t i v e   w o r ra t i o .     T a b l e   s h o w s   m o s t   r e s e a r c h e r s   us e h e u r i s t i c ,   ke y w o r a n U n i f o r m   R e s o ur c e   L o c a t o r   (U R L l i n k .   T hr e e   of   t h e   r e s e a r c h e r s   us e H e ur i s t i c   a n d   t h e   p r e s e n c e   of   U R L   l i n ks   a s   f e a t u r e s   w h i l e   o n l y   A l be r t o   e t   a l . ,   [11]  us e ke y w o r f e a t ur e s   i n   t h e   r e s e a r c h.   T h e r e f o r e ,   t h e   c om b i na t i o n   o f   h e uri s t i c ,   ke y w o r a n p r e s e n c e   o U R L   l i n ks   i s   c h o s e a s   f e a t u r e s   s e l e c t i o a nd  e xt ra c t e f r o m   t h e   da t a s e t s .       T a b l e   4 .   Co m p a r i s o o f   Co m m e nt s   F e a t u r e s   A u t h o r   T i t l e   Fe a t u r e s   H e u ri s t i c   K e y w o r d   U R L   L i n k s   [9 ]   T u b e S p a m :   C o m m e n t   S p a m   F i l t e ri n g   o n   Y o u T u b e         [1 4 ]   Co m b a t i n g   Co m m e n t   S p a m   w i t h   M a c h i n e   L e a r n i n g   A p p r o a c h e s         [1 5 ]   T h e   I m p a c t   o f   F e a t u r e   E x t ra c t i o n   a n d   S e l e c t i o n   o n   S M S   S p a m   F i l t e ri n g         [1 6 ]   S e n t i m e n t   Ba s e d   T w i t t e r   S p a m   D e t e c t i o n             2. 4 .       C l as s i fi c at i o n   Cl a s s i f i c a t i o n   i s   a   c r uc i a l   p r o c e s s   i n   de t e c t i o n   r e s e a r c h .   I n   t hi s   pha s e ,   c l a s s i f i e r   i s   b e i n c h o s e n   t r u f e a t u r e s   s e l e c t e by   r e s e a r c h e r s   t o   i de nt i f y   t h e   r e s ul t .   I n   t h e   r e s e a r c c o n duc t e by   Y us of   a n S a do o n   [1] Ch o w dur y   e t   al . ,   [1 3] ,   A l b e r t o   et   al . ,   [11] ,   a nd  K i r a n   [1 2 ] ,   c l a s s i f i c a t i o n   t e c hni que s   i s   us e d.   Y us of   a n S a do o n   [1]   us e s   n i n e   (9)  c l a s s i f i e r   i n   t h e   r e s e a r c h.   A l l   o f   t he   c l a s s i f i e r   i s   b e i n c l a s s e i n t o   t hr e e   (3)   c l a s s e s   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Y ouT ube   s p am   d e t e c t i on   f r am e w or k   us i ng  naï v e   ba y e s   and   l o gi s t i c   r e gr e s s i on   (C i k   F e r e s a   bi nt i   Mo hd  F ooz y )   1511   w h i c h   i s   D e c i s i o n   T r e e   (D T t h a t   c o n s i s t s   o f   F un c t i o n a l   T r e e   (F T ),   J 48,   R a n do m   F o r e s t   (R F ).   Cl a s s   F un c t i o n   ha s   L i b L IN E A (L L ),   L i b S V M   (L S V M ),   L o gi s t i c   (L R ),   M ul t i l a y e r   P e r c e pt r o n   (M L P a n Cl a s s   B a y e s i a w h i c h   c o n s i s t   o f   B a y e s   N e t w o r (B N ),   N a ï v e   B a y e s   (N B ).   A   s t ud y   c o n duc t e by   A l b e r t o   e t   al . ,   [1 1]   w e r e   us i n s i (6)  c l a s s i f i e r   t o   f i nd  w h i c h   c l a s s i f i e r   gi v e   b e t t e pe r f o r m a n c e   i n   de t e c t i n g   Y o uT ub e   s pa m   c o m m e n t s .   Cl a s s i f i e r   us e r   c o n s i s t s   o f   K - N e a r e s t   N e i gh b o r   ( K N N ),   D e c i s i o n   T r e e   (D T ),   R a n do m   F o r e s t   (R F ),   N a ï v e   B a y e s   (N B ),   S uppo r t   V e c t o r   M a c h i n e   (S V M ),   a n d   L o gi s t i c   Re gr e s s i o n   (L R ).   In   o r de r   t o   de t e c t   m a l i c i o us   us e r   i n   Y o uT ub e ,   K i ra n   [12]   us e S uppo r t   V e c t o r   M a c h i n e   (S V M a s   a   c l a s s i f i e r   t o   de t e c t   t h e   m a l i c i o us   us e r .   O t h e r   t h a n   t h a t ,   N a ï v e   B a y e s ,   Cl us t e r i n g   a nd  D e c i s i o n   T r e e   a r e   t h e   c l a s s i e r   us e b y   Ch o w dur y   e t   a l . ,   [13]   i t h e i r e s e a r c h.   F r o m   t h e   c o m pa r i s o n   T a b l e   5,   i t   s h o w s   t h a t   t hr e e   o ut   of   fo ur   r e s e a r c h e r s   c h o s e   N a ï v e   B a y e s   i n   de t e c t i n s p a m .   T h e n,   t w o   o f   t h e   r e s e a r c h e r s   c h o o s e   L o gi s t i c   Re gr e s s i o n ,   R a n do m   F o r e s t ,   a n   S V M   t e c hn i que s .         T a b l e   5 .   Co m p a r i s o o f   Cl a s s i f i e T e c hn i que   Cl a s s i fi e /   A u t h o r   [7 ]   [9 ]   [1 0 ]   [1 1 ]   FT           J 4 8           RF           LL           L S V M           LR           MP           BN           NB           K N N           DT           S V M           C               2. 5 .    D e t e c t i o n   T h i s   s e c t i o n   i s   t h e   r e s ul t   o de t e c t i o n   pe r f o r m a n c e   of   t h e   c l a s s i f i e r   t ha t   h a b e e n   e xpe r i m e n t e b y   Y us of   a n d   S a do o n   [ 1],   A l b e r t o   e t   a l . ,   [11] ,   K i r a [12 ],   a n d   Ch o w dur y   e t   al . ,   [1 3].   F o r   A l b e r t o   e t   al . ,   [11]   o ut   of   e ve r y   c l a s s i f i e r   ha b e e n   us e t h e   m o s t   r e l i a b l e   a c c ur a c y   a n b e t t e r   ra n k i n po s i t i o n   i s   D T ,   N a ï v e   B a y e s ,   S V M ,   R a n do m   F o r e s t   a nd  L o gi s t i c   Re gr e s s i o n   w i t h   99%  of   c o n f i de n c e   l e ve l .   W h i l e   K - N e a r e s t   N e i gh b o r   pe r f o r m a n c e   i s   t h e   w o r s t .     A pa r t   f r o m   t ha t ,   K i r a [12]   w h o   i s   us i ng  S V M   a s   a   c l a s s i f i e r   i n   de t e c t i n s p a m   us e r   i n   Y o uT ub e   m e a s u r e   by   us i n T r ue   P o s i t i v e   r a t e ,   T r ue   N e ga t i v e   r a t e ,   F a l s e   P o s i t i v e   r a t e ,   F a l s e   N e ga t i v e   r a t e ,   A c c ur a c y   a n d     F - M e a s ur e .   T h e   r e s ul t   o b t a i n e i s   T rue   P o s i t i v e   R a t e   i s   46. 9% ,   w hi c h   i n d i c a t e s   t ha t   S V M   de t e c t   46. 9 s pa m m e r s .   F o l e gi t i m a t e   us e r ,   99 . 1%   i s   i de n t i f i e d.   B e s i de s   t ha t ,   t h e   a c c u r a c y   r e s ul t   i s   90% .   Y us of   a n d   S a do o n   [1]   us i n g   s pl i t   pe r c e nt a ge   a n c r o s s   v a l i da t i o n   i n   r e p r e s e nt i n g   t h e   a c c ur a c y   r e s ul t .   T h e   s pl i t   pe r c e n t a ge   i s   by   70: 30,   80: 20 ,   a n 90: 10. T h e   r e s ul t   o b t a i n e f r o m   t h e   r e s e a r c h   s h o w s   t h a t   N a ï v e   B a y e s   c o m put e s   t h e   h i g h e s t   a c c ura c y   i n   a l l   t hr e e   s pl i t   pe r c e n t a ge s   w i t h   9 8%  i a v e r a ge .   W h i l e   M u l t i l a y e r   P e r c e pt r o n   t e c hn i que s   s h o w   l ow e s t   a c c ur a c y   w i t h   90 . 67 i n   a v e r a ge .   R e s ul t   f r o m   t h e   C h o w dur y   e t   al . ,   [13]  s t udy   i s   fo r   40%  o t h e   po pul a t i o n,   r e s ul t   o N a ï v e   B a y e s   i s   99. 75 %,   D e c i s i o n   T r e e   98. 66%  a n c l us t e r i n w i t h   98 . 98% .   B ut ,   a t   85%  o f   t o t a l   po pul a t i o n   N a ï v e   B a y e s   h a s   pr e di c t e a c c ura c y   of   80. 20%,   de c i s i o n   t r e e   h a s   82 . 11%  a n c l us t e r i n ha s   65. 79 %.   H e n c e ,   t h e   c o n c l us i o n   f r o m   t h e   r e s ul t   i s   s t a t e t h a t   N a ï v e   B a y e s   a n D e c i s i o n   T r e e   gi ve   b e t t e r   pe r f o r m a n c e   w h e n   t h e   t e s t   c a s e   i s   hi g h e r   i n   num b e r.   T h e   s u m m a r y   pe r f o r m a n c e   i s   s h o w n   i n   t h e   T a b l e   6.       T a b l e   6 .   P e r f o r m a n c e   R e s ul t   S u m m a r y   A u t h o r   T i t l e     A c c u ra c y   Re s u l t   [1 ]   D e t e c t i n g   V i d e o   S p a m m e r s   i n   Y o u T u b e   S o c i a l   M e d i a   N   98%   L   9 5 . 6 7   %   [1 1 ]   T u b e S p a m :   C o m m e n t   S p a m   F i l t e ri n g   o n   Y o u T u b e   D T ,   N a ï v e   Ba y e s ,   S V M ,   Ra n d o m   F o re s t   a n d   L o g i s t i c   Re g r e s s i o n   =   9 9 %   o f   c o n fi d e n c e   l e v e l   [1 2 ]   D e t e c t i n g   s p a m m e r s   i n   Y o u T u b e :   A   s t u d y   t o   fi n d   s p a m   c o n t e n t   i n   a   v i d e o   p l a t fo r m .   S V M     9 0 %       [1 3 ]   A   D a t a   M i n i n g   Ba s e d   S p a m   D e t e c t i o n   S y s t e m   f o r   Y o u T u b e   NB -   8 0 . 2 0 %   D T     8 2 . 1 1 %     6 5 . 7 9     Evaluation Warning : The document was created with Spire.PDF for Python.
                               IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1508     1517   1512   T a b l e   s h o w s   t h e   r e s ul t   o f   e a c h   c l a s s i f i e r   us e i t h e   e xi s t i ng  r e s e a r c h.   B a s e o t h e   r e s ul t s   ob t a i n e d,   i t   s h o w s   t h a t   N a ï v e   B a y e s   pr o duc e   h i g h   a c c ura c y   i de t e c t i n s p a m   f o l l ow e by   L o gi s t i c   R e gr e s s i o n   T e c h ni que s .   T h e r e f o r e ,   bo t h   N a ï v e   B a y e s   a n L o gi s t i c   R e gr e s s i o n   w e r e   c h o s e n   t o   v a l i da t e   t h e   t e c hn i q ue s   by   us i n g   f e a t u r e s   s e l e c t e i t hi s   r e s e a r c h .       3.   R ES EA R C H   M ET H O D O L O G Y   T h i s   s e c t i o n   w i l l   b e   e xpl a i n e f l ow   fo r   t h i s   r e s e a r c h   t h a t   w i l l   i n c l ude   da t a s e t   us e a n f ra m e w o r pr o po s e f o r   t hi s   r e s e a r c h   s o   t ha t   t h e   e xpe r i m e nt s   c a n   b e   o r ga ni z e c a rr i e o ut .   F i gu r e   i l l us t ra t e s   a ov e r v i e w   of   t h i s   r e s e a r c h   m e t h o do l o g y .   T hi s   r e s e a r c h   m e t h o do l o g y   c o n s i s t s   o f   f i ve   (5)  ph a s e s   t ha t   n e e t o   be   fo l l ow e d.   T h e   p ha s e s   s t a r t i ng  w i t h   da t a   c o l l e c t i o n,   p r e - pr o c e s s i n g ,   f e a t ur e   s e l e c t i o n   a nd  e xt ra c t i o n,   c l a s s i f i c a t i o a nd  e n de w i t de t e c t i o n.           F i gu r e   1 O v e r v i e w   of   r e s e a r c h   m e t h o do l o g y       3. 1 .       D at as e ts   C o l l e c ti o n   T h e   da t a s e t s   t ha t   w i l l   b e   us e i n   t h i s   pa pe r   w i l l   b e   Y ouT ub e   c o m m e n t   f r o m   Y o uT ub e   S pa m   Co l l e c t i o n   D a t a   S e t   f r o m   M a c hi n e   L e a rni n R e po s i t o r y   [2 6].   I n   t h e   da t a s e t s ,   t h e r e   a r e   f i v e   (5)  Y o uT ube   v i de o s   c o m m e nt s   h a b e e n   c o l l e c t e w i t h   t h e   t o t a l   o f   1956  c o m m e n t s .   O u t   o f   1005  o f   t h e   c o m m e nt s   i s   s pa w h i l e   t h e   r e s t   a r e   ha m   (l e gi t i m a t e c o m m e n t s .     T a b l e   s h o w s   t h e   d a t a s e t s .   T h i s   da t a s e t   i s   a l s o   us e by   A l b e r t o   e t   a l . ,   [ 11]   w hi l e   c o n duc t i n g   t h e i r e s e a r c h.   A pa rt   f r o m   t ha t ,   t h e s e   da t a s e t s   i s   a   pub l i c l y   a v a i l a b l e   da t a s e t   o n   t h e   I nt e rn e t .         T a b l e   7 .   N u m b e r   o f   S pa m   a nd  H a m   i t h e   D a t a s e t   [ 26]   N a m e   N u m b e r   o S p a m   N u m b e r   o H a m   P s y   175   175   K a t y   P e r ry   175   175   E m i n e m   245   203   L M F A O   236   202   S h a k i ra   174   196   T o t a l   1005   951       3. 2 .       Pre - P r o c e s s i n g   P r e - p r o c e s s i n i s   o n e   o f   t h e   i m po r t a n t   s t e ps   i m a c hi n e   l e a rni n t e c hn i que s .   T h i s   p r o c e s s   w i l l   c l e a t h e   da t a s e t   i n   o r de r   t o   i de n t i fy   t h e   s ui t a b l e   fe a t u r e s   fo r   t hi s   de t e c t i o n   f r a m e w o r k.   T h e   f l ow   c h a rt   a t   F i gu r e   2 s h o w s   t h e   p r o c e s s   h o w   t h e   p r e - p r o c e s s i n g   e xpe ri m e n t s   w e r e   do n e   by   us i n g   m a c h i n e   l e a rn i ng  t o o l .     T h e r e   a r e   t w o   pr o c e s s e s   t a ke n   i n   p r e - p r o c e s s i n s t e ps   f o r   t hi s   r e s e a r c h .   T h e   p r o c e s s   i s   t o k e n i z a t i o a n s t e m m i n g .   F i gu r e   2   i l l us t r a t e s   t h e   p r e - p r o c e s s i n p h a s e .   1)   T o ke n i z a t i o n   i s   t h e   pr o c e s s   of   s pl i t t i ng  t h e   c o m m e nt s   by   a   s pa c e   ( - ),   a n p u n c t ua t i o n   s y m bo l s   (!, ? a nd  us e by   P a t w a r i   [1 7] ,   G o m e s   e t   al . ,   [ 18] ,   V e rm a   [ 19] ,   Y a n a n Q i a [20] .   T o ke ni z a t i o n   m a de   t h e   c o m m e n t s   i s   r e a d   w o r by   w o r d.   It   e a s e s   t h e   n e xt   s t e m m i ng  pr o c e s s .   2)   S t e m m i ng  p r o c e s s   i s   t h e   pr o c e s s   of   c h a n g i n t h e   w o r i nt o   i t s   r o o t   w o r e xa m pl e   S ub s c r i b e   w i l l   b e   S ubs c r i b   by   A l b e r t o   e t   al . ,   [11 ] ,   G o m e s   e t   al . ,   [1 8] ,   V e rm a   [19]   a nd  Y a n g   a n d   Q i a [20] .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Y ouT ube   s p am   d e t e c t i on   f r am e w or k   us i ng  naï v e   ba y e s   and   l o gi s t i c   r e gr e s s i on   (C i k   F e r e s a   bi nt i   Mo hd  F ooz y )   1513       F i gu r e   2 .   P r o c e s s   of   pr e - p r o c e s s i n g       3. 3 .       F e a tu r e s   S e l e c ti o n   an d   Ex tr a c ti o n   F e a t u r e s   S e l e c t i o n   a n E x t r a c t i o n   i s   t h e   t hi r p h a s e   f o r   t h i s   d e t e c t i o n   f r a m e w o r k.   T h e   p r o c e s s   i n   t hi s   pha s e   a r e   s h o w n   a s   b e l ow   i n   F i gu r e   3 .   T h e r e   a r e   D a t a   t ha t   ha s   b e e n   c l e a n e d,   i de n t i fy   t h e   s ui t a b l e   f e a t ur e s   b a s e o n   t h e   Y o uT ube   c o m m e n t ,   s pl i t   t h e   f e a t ur e s   i n t o   t hr e e   s e t   i n   o r de r   t o   i de n t i fy   t h e   be s t   f e a t ur e s   s e t   a nd  f i n a l l y   i s   t e s t   t h e   fe a t ur e s   by   u s i n c l a s s i f i c a t i o n   t e c hn i que s   s uc h   a s   N a ï v e   B a y e s ,   L o gi s t i c   Re gr e s s i o n ,   N a ï v e   B a y e s   a nd  L o gi s t i c   R e gr e s s i o n.           F i gu r e   3 .   F e a t u r e s   s e l e c t i o n   a n d   e xt r a c t i o n       F o r   t h i s   r e s e a r c h ,   t hr e e   (3)  e xpe ri m e nt s   h a d   b e e n   c o n duc t e t o   i de nt i fy   m o s t   s ui t a b l e   f e a t ur e s   t o   b e   us e i n   t h i s   r e s e a r c h.   T h e r e fo r e ,   t h e   s e l e c t e f e a t ur e s   a r e   a s   f o l l ow s :   a.   P r e s e n c e   o f   L i n ks   R e s e a r c h   o n   de t e c t i n s pa m   by   A l S a l e h   a nd  A l A r i f i   [14] ,   P e r v e e n   [16] ,   U y s a l   e t   al . ,   [15]   a l s o   us e s   t h e   pr e s e n c e   o f   l i n ks   a s   o n e   o f   t h e   f e a t u r e s .   T h e   p r e s e n c e   of   l i nks   o r   U R L   i s   c o m m o n l y   de t e c t e a s   a   s pa m   m e s s a ge   o r   c o m m e nt s .   T h i s   f e a t u r e   w e   n o t e i n   b o o l e a n   e xpr e s s i o n   w h e r e   a   v a l ue   o f   a s   pr e s e n c e   a n d   v a l ue   o f   a s   a a b s e n c e .     b.   L e n gt o f   Co m m e n t s   T h e   l e n gt o f   c o m m e n t s   o n   t h i s   r e s e a r c h   i s   c a l c ul a t e a f t e p r e - p r o c e s s i n g .   T h e   v a l ue   o f   t hi s   f e a t u r e   i s   n u m e r i c a l .   T hi s   f e a t ur e s   a l s o   b e i n g   us e i t h e   r e s e a r c h   by   A l S a l e h   a n A l A r i f i   [14 ] ,   H i j a w i   e t   al . ,   [21] a n C r i s t i na   [2 2] .   c.   S pa m   K e y w o r d   T h i s   f e a t u r e   a l s o   de n o t e a s   B o o l e a n   e xpr e s s i o n   w h e r e   i f   t h e r e   a r e   t h e   s p a m   ke y w o r i n   t h e   c o m m e n t ,   t h e   v a l ue   w i l l   be   de n o t e w h i l e   v a l u e   0   i f   t h e r e   a r e   n o   s pa m   ke y w o r d.   T h e s e   f e a t ur e s   ha b e e n   us e b A l b e r t o   e t   al . ,   [1 1]   a n d   M e r c e r   e t   al . ,   [23 ] .   T a b l e   8   s h o w s   t h e   s pa m   ke y w o r b e i ng  us e i t hi s   r e s e a r c h.   Evaluation Warning : The document was created with Spire.PDF for Python.
                               IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1508     1517   1514   T a b l e   8 .   S p a m   K e y w o r U s e i n   t hi s   R e s e a r c h   S p a m   K e y w o rd   Cl i c k   V i s i t   S u b s c ri b   S p a m   M o n e y   Ch e c k   P l e a s   Co m   www   h t t p   Ch a n n e l       3. 4 .       C l as s i fi c at i o n   A   t e s t   i s   c o n d uc t e b e t w e e n   N a ï v e   B a y e s   a nd  L o gi s t i c   R e gre s s i o n   w i t K N N   a nd  S V M .   T h e   r e s ul t   s h o w s   t h a t   N a ï v e   B a y e s   a n L o gi s t i c   R e gr e s s i o n   p r o duc e   hi g h e r   a c c ura c y   t h a n   K N N   a nd  S V M .   T h e r e f o r e ,   N a ï v e   B a y e s   a n L o gi s t i c   R e gr e s s i o n   w e r e   c h o s e n   a s   c l a s s i f i e r   i n   t h i s   r e s e a r c h.   F i gu r e   4 ,   s h o w s   t h e   p r o c e s s   of   c l a s s i f i c a t i o t e c hni que s   us e i t h e   e xpe r i m e nt s .           F i gu r e   4 .   C l a s s i f i c a t i o n       3. 4 . 1    N v e   B ay e s   N a i v e   B a y e s   c l a s s i f i e r s   a r e   l i n e a r   c l a s s i f i e r s   t ha t   a r e   kn o w n   a s   a   s i m p l e   b ut   ve r y   e ff i c i e n t   c l a s s i f i e r.   T h e   p r o b a b i l i s t i c   m o de l   o f   N a i v e   B a y e s   c l a s s i f i e r s   i s   b a s e o n   B a y e s ’  t h e o r e m .   T h e   na ï v e ’  a c t ua l l y   c o m e s   f r o m   t h e   a s s um pt i o n   t ha t   t h e   f e a t u r e s   i n   a   da t a s e t   a r e   m ut ua l l y   i n de pe nde nt   r e s pe c t i v e l y   [21].   T h i s   i s   p r o v e n   by   t h e   us e   o f   N a ï v e   B a y e s   by   Y us o f   a n d   S a do o n   [1 ] ,   S t o n e   [ 7] ,   C h o w dur y   e t   al . ,   [13 ] ,   R a s c h k a   [ 24]     3. 4 . 2    Lo gi s ti c   R e gr e s s i o n   L o gi s t i c   r e g r e s s i o n   c l a s s i f i e r   i s   v e r y   p o pul a r   a nd  w i de l y   us e c l a s s i f i c a t i o n   t e c hn i que   [25] .   T hi s   i s   s i m pl e ,   e a s y   t o   i m pl e m e n t ,   a nd  p r o v i de   goo pe r f o r m a n c e   on   a   w i de   v a r i e t y   of   pr ob l e m s   s uc h   a s   p r e di c t i n g   s pa m .   L o gi s t i c   R e gr e s s i o n   a l s o   be s t   i p r e di c t i ng  di s c r e t e   pr o b a b i l i t y   w h e r e   t h e   o ut pu t   o f   t h e   p r o b a b i l i t y   e i t h e r   y e s   o r   n o   o r   w i n   o r   l o s e .   L o gi s t i c   R e gr e s s i o n   i s   s i m p l e   t o   e xe c ut e ,   a n g i v e   gr e a t   e xe c ut i o n   o n   a   w i de   a s s o r t m e nt   o f   i s s ue s   [26] .     3. 4 . 3    K - N e a r e s t   N e i gh b o r   K - N e a r e s t   N e i g h b o r   (K N N c l a s s i f i e r   i s   c o n s i de r e a s   a n   e xa m pl e - b a s e c l a s s i f i e r ,   m e a n s   t h e   t r a i ni n do c um e nt s   a r e   us e fo r   c o m pa ri s o n ,   ra t h e r   t ha n   a n   e xpl i c i t   c a t e go r y   r e pr e s e n t a t i o n ,   s uc h   a s   t h e   c a t e go r y   pr o f i l e s   us e by   o t h e r   c l a s s i f i e r .   A s   s uc h ,   t h e r e   i s   n o   r e a l   t ra i ni n p ha s e .   W h e n   a   n e w   d o c um e n t   n e e ds   t o   b e   c a t e go r i z e d,   t h e   m o s t   s i m i l a do c um e n t s   a l s o   kn o w n   a s   n e i g h b o r s   a r e   f o un a nd  i f   a   l a r ge   e n o ugh  p r o po r t i o n   o f   t h e   n e i g h b o r   ha v e   be e n   a s s i g n e t o   a   c e rt a i n   c a t e go r y ,   t h e   n e w   doc um e n t   i s   a l s a s s i g n e t o   t hi s   c a t e go r y ,   o t h e r w i s e   n o t .   I o r de r   t o   de c i de   w h e t h e r   a   m e s s a ge   o r   c o m m e n t s   i s   a   s p a m   o r   ha m ,   i t   i s   r e f e rr e t o   t h e   c l a s s   o f   t h e   m e s s a ge s   t h a t   a r e   c l o s e s t   t o   i t .   T h e   c o m pa r i s o n   b e t w e e n   t h e   v e c t o r s   i s   a   r e a l   t i m e   p r o c e s s   [27] .     3. 4 .4    S u p p o r V e c to r   M ac h i n e   (S V M )   A   s uppo r t   v e c t o r   m a c h i n e   (S V M i s   de f i n e a s   a   s e t   of  r e l a t e s upe r v i s e l e a rn i n m e t h o ds   t h a t   i s   us e fo r   c l a s s i f i c a t i o n .   I n   a   s i m pl e   w o r d,   i f   i t   i s   g i v e n   a   s e t   o f   t r a i n i ng  e xa m pl e s ,   e a c m a r ke a s   b e l o n gi ng  t o n e   of  t w c a t e go r i e s .   T h e   S V M   t r a i ni n a l go ri t hm   b ui l ds   a   m o de l   t ha t   p r e di c t s   w h e t h e r   a   n e w   e xa m pl e   f a l l s   i n t o   w h i c h   s pe c i f i c   c a t e go r y .   S V M   c o n s t ruc t s   a   h y pe r   pl a ne   o r   a   s e t   of   h y pe r   pl a n e s   i n   a   hi g h   d i m e n s i o n a l   s pa c e ,   w h i c h   c a b e   us e f o r   c l a s s i f i c a t i o n   [25] .     Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Y ouT ube   s p am   d e t e c t i on   f r am e w or k   us i ng  naï v e   ba y e s   and   l o gi s t i c   r e gr e s s i on   (C i k   F e r e s a   bi nt i   Mo hd  F ooz y )   1515   4.   R ES U LT  AND   DISCUSSIO NS   T h i s   s e c t i o n   w i l l   b e   di s c us s i ng  o r e s ul t s   o b t a i n   f r o m   t h e   e xpe r i m e nt s   t h a t   ha d   b e e n   c o n duc t e d.     4. 1 .       F e a tu r e s   S e l e c ti o n   Ex p e r i m e n ts   T h e r e   a r e   t hr e e   (3)   e xp e ri m e n t s   h a b e e n   c o n duc t e t o   f i n t h e   m o s t   s ui t a b l e   f e a t u r e s   t o   b e   us e i t h i s   r e s e a r c h .   T h e   f e a t u r e s   a r e   b e i n t e s t e w i t h   N a ï v e   B a y e s   a n d   L o gi s t i c   R e gr e s s i o n   i t w o   (2)  da t a   m i ni n t o o l s   of   W e ka   a n R a p i dM i n e r.       T a b l e   9 .   R e s ul t   o f   F e a t u r e s   S e l e c t i o n   S e t   F e a t u r e s   S e t   W e k a   Ra p i d M i n e r   N a ï v e   Ba y e s   L o g i s t i c   R e g r e s s i o n   N a ï v e   Ba y e s   L o g i s t i c   R e g r e s s i o n     7 4 . 2 6 %   7 4 . 2 6 %   7 2 . 8 5 %   7 2 . 7 5 %     7 5 . 5 4 %   7 5 . 4 2 %   7 1 . 2 4 %   7 2 . 7 0 %   13    8 7 . 2 1 %   8 5 . 4 2 %   8 0 . 4 1 %   8 0 . 8 8 %       F r o m   T a b l e   9,   t h e   f i r s t   e xpe r i m e n t   w hi c h   w a s   us i n s e v e n   ( 7)  f e a t ur e s   (p r e s e n c e   of   l i n ks ,   ke y w o r d   s uc h   a s   b a w o r d,   c l i c k,   v i s i t ,   s ub s c r i b ,   s p a m   a nd  m o n e y t h e   r e s ul t   i s   n o t   s a t i s f i e w h i c h   w a s   b e l ow   t ha n   80%  o f   A c c ur a c y   i n   b o t da t a   m i ni n g   t o o l s .     T h e   F e a t ur e   S e t   of  e xp e r i m e nt s   i s   a   h e u r i s t i c   fe a t u r e   i s   a dde d   w h i c h   i s   t h e   c o m m e nt   l e n g t h.     B a s e o n   t h e   T a b l e   9,   t h e   r e s ul t   s t a r t e t o   b e   i n c r e a s i n b ut   i t   s t i l l   b e l ow   80%  o f   A c c ur a c y .   T h e n,   t h e   f e a t u r e s   s e t   o f   13  e xpe r i m e nt ,   a r e   us e a n o t h e ke y w o r s uc a s   c h e c k,   pl e a s ,   c o m ,   ht t p,   c ha nn e l   a nd  w w w .     B a s e o n   t h e   e xpe r i m e n t a l   a b o ve ,   i t   s h o w s   t h a t   t h e   m o r e   f e a t u r e s   us e i n   t h i s   de t e c t i o n   f r a m e w o r k,   t h e   a c c ur a c y   r e s ul t   i s   i n c r e a s e   w h i c h   gi v e   m o r e   t ha n   80%  r e s ul t .   T o   v a l i da t e   t h e   r e s ul t ,   t w o   m a c h i n e   l e a rni n g   t o o l   s u c h   a s   W e ka   a n R a pi dM i n e r   a r e   b e e n   us e i n   t h i s   e xpe r i m e n t s   a n i t   i s   pr o v e n   t h e   r e s ul t   i s   i n   s i m i l a ra n ge   w hi c i s   a b o ve   80%  a c c u r a c y .       4. 2 .       C l as s i fi e r   Ex p e r i m e n ts   Cl a s s i f i c a t i o n   i s   a   p r o c e s s   t c l a s s i fy   t h e   Y o uT ub e   c om m e n t   i nt o   H a m   o r   S pa m   m e s s a ge .     T h e   c l a s s i f i c a t i o n   t e c hni que s   us e i t hi s   e xpe ri m e nt s   a r e   N a ï v e   B a y e s   a n d   L o gi s t i c   R e gr e s s i o n   a r e   b e i n g   t e s t e w i t h   K N N   a nd  S V M   c l a s s i f i e r .   T h e   s e t   f e a t ur e s   us e i n   t h i s   e xpe ri m e n t s   i s   13 .   T w o   m a c h i n e   l e a rni n g   of   W e ka   a n R a pi dM i n e r   h a s   b e e n   us e t o   t e s t   t h e   r e s ul t .   A c c o r di n t o   t h e   r e s ul t ,   i t   i s   s h o w s   t h a t   N a ï v e   B a y e s   a n L o gi s t i c   Re gr e s s i o n   c l a s s i f i e r   pe r f o r m   b e t t e r   i n   de t e c t i n Y o uT ub e   s pa m   c o m m e n t s .     T a b l e   10   s h o w s   t h e   r e s ul t s .         T a b l e   10 .   C l a s s i f i e r   R e s ul t   T e c h n i q u e s     W e k a   Ra p i d M i n e r   N a ï v e   Ba y e s   8 7 . 2 1   %   8 0 . 4 1   %   L o g i s t i c   R e g r e s s i o n   8 5 . 4 2   %   8 0 . 8 8 %   K N N   8 4 . 5 3   %   6 6 . 4 1   %   S V M   8 5 . 0 4   %   7 3 . 6 8   %       F r o m   T a b l e   10,   i t   s h o w s   t ha t   N a ï v e   B a y e s   a n L o gi s t i c   Re gr e s s i o n   c o m put e s   hi g h e r   a c c ura c y   i n   de t e c t i n Y o uT ub e   s pa m   c o m m e n t s .   T h e r e f o r e ,   N a ï v e   B a y e s   a n d   L o gi s t i c   R e gr e s s i o n   c l a s s i f i e r   w i l l   b e   c h o s e n   t o   t e s t   Y o uT ub e   s p a m   c o m m e nt s   i t e rm   o f   A c c ur a c y   a n d   P r e c i s i o n.     A c c ur a c y   =    +   +  +  +    ( 1)     P r e c i s i o =     +    ( 2)     W h e r e   i.   T P   i s   T rue   P o s i t i v e   ii.   T N   i s   T rue   N e ga t i v e   i i i .   F P   i s   F a l s e   P o s i t i v e   i v .   F N   i s   F a l s e   N e ga t i v e     Evaluation Warning : The document was created with Spire.PDF for Python.
                               IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1508     1517   1516   4. 3 .       D e te c ti o n   Ex p e r i m e n ts   In   t hi s   e xpe ri m e n t ,   t h e   pe r f o r m a n c e   of   t w o   (2)  c l a s s i f i e r s   w a s   c o m pa r e by   us i n t w (2)  di ff e r e n t   da t a   m i n i ng  t o o l s .   I n   o rde r   t o   m a ke   t h e   c o m pa ri s o n   f a i r,   t hi s   r e s e a r c h   us e s   t h e   s a m e   Y o uT ub e   S pa m   c o m m e n t s   da t a s e t   t o   e xt ra c t   t h e   f e a t u r e s .   T w o   (2)  e v a l ua t i o n   m e a s u r e s   s uc h   A c c ur a c y   a n P r e c e s s i o n   a r e   us e t o   e v a l ua t e   t h e   de v e l o pe s pa m   de t e c t i o m o de l s .   T h e   e v a l ua t i o n   i s   c o m put e b y   t h e   t w o   da t a   m i n i ng  t o o l s   (W e ka ,   a n d   R a pi dM i n e r).   T h e r e   a r e   13  f e a t u r e s   s e t   ha s   b e e n   us e i n   t h i s   e xpe ri m e n t s .   N a ï v e   B a y e s   a n L o gi s t i c   r e g r e s s i o n   s h o w s   a c c e pt a b l e   r e s ul t   i c l a s s i fy   t h e   Y o uT ub e   c o m m e n t   i n t o   H a m   a nd  S pa m   c l a s s .   T a b l e   11   s um m a ri z e s   t h e   r e s ul t s .         T a b l e   11 .   R e s ul t s   i n   W e ka   a nd  R a p i dM i n e r   f o N a ï v e   B a y e s   a n L o gi s t i c   R e g r e s s i o n   T e c h n i q u e s   W e k a   Ra p i d M i n e r   A c c u ra c y   ( % )   P re c i s i o n   ( % )   A c c u ra c y   ( % )   P re c i s i o n   ( % )   N a ï v e   Ba y e s   8 7 . 2 1   8 7 . 2   8 0 . 4 1   7 5 . 2 7   L o g i s t i c   R e g r e s s i o n   8 5 . 4 2   8 5 . 7   8 0 . 8 8   7 4 . 1 3       F r o m   t h e   T a b l e   11,   t h e   N a ï v e   B a y e s   a n L o gi s t i c   R e g r e s s i o n   r e s ul t ,   i t   s h o w s   N a ï v e   B a y e s   pe r f o r m e b e t t e r   de t e c t i n Y o uT ub e   s pa m   c o m m e n t s   i n   W e ka   t ha n   L o gi s t i c   R e gr e s s i o n .   W hi l e   i R a pi dM i n e r ,   t h e r e   i s   a   s l i g h t l y   di ffe r e n t   o f   A c c ur a c y   a n P re c i s i o n   r e s ul t .   T h e   r e s ul t   o f   L o gi s t i c   Re gr e s s i o n   c o m put e s   s l i gh t l y   h i g h e r   a c c ura c y   t h a n   N a ï v e   B a y e s .   B ut ,   t h e   pr e c i s i o n   o N a ï v e   B a y e s   i s   h i g h e r   t h a L o g i s t i c   R e gr e s s i o n .   D e s pi t e   t h e   di f fe r e n c e s   of  r e s ul t s   c o m put e by   bo t h   da t a   m i ni n t o o l s ,   i t   i s   v a l i d a t e t h a t   bo t h   o f   t h e   c l a s s i f i e r   pe r f o r m e go o pe r f o r m a n c e   due   t o   t h e   a c c ura c y   t ha t   b o t h   ha a c h i e v e m o r e   t h a 80%   i n   b o t da t a   m i ni n t o o l s   a f t e r   b e i n t e s t e d.       5.   C O N C LU S I O N     In   t hi s   r e s e a r c h,   t h e   de v e l o pm e n t   o a   s pa m   c o m m e n t   d e t e c t i o n   f r a m e w o r by   u s i n m a c hi n e   l e a rn i ng  t e c hn i q ue s   h a s   b e e n   do n e .   It   i s   i m po r t a n t   t o   i m p r o v e   s e c ur i t y   s i n c e   t h e   In t e rn e t   n o w a da y s   t h a t   i n di c a t i o t h e   s e c uri t y   i s s ue s   [29].   T h e r e   a r e   m a n y   s t udi e s   a i m e t o   r e duc e   a t t a c a nd  t o   p r o t e c t   us e r   p r i v a c y   b ut   y e t   l a c ki ng  i n   a pp l y i n t h e   t e c hn i que s   f o r   s o c i a l   m e di a   [30].   T hi s   pa pe r   a l s o   w a n t s   t o   c o n t ri b ut e   b e xa m i ni n g   t h e   s u i t a b l e   f e a t u r e s   b a s e o n   t h e   r e a l   c o m m e nt   f r o m   s o c i a l   m e d i a   s i t e   f o r   de v e l o pi n s p a m   c o m m e n t   de t e c t i o n   f r a m e w o r k.   T h e r e   a r e   s e ve r a l   p h a s e s   i n v o l v e i n   t h e   de v e l o pm e n t   o f   t hi s   f r a m e w o r s uc a s   D a t a   Co l l e c t i o n,   P r e - p r o c e s s i n g,   F e a t u r e s   S e l e c t i o n   a nd  E xt ra c t i o n,   C l a s s i f i c a t i o n   a n d   D e t e c t i o n .   E a c o f   t h e s e   pha s e s   ha s   b e e n   v a l i da t e t hr o ug e xpe ri m e n t s   by   us i n g   m a c h i n e   l e a rni n g   t e c hn i que s .   T h e   D a t a   Co l l e c t i o n   i s   do w n l o a de f r o m   U CI  M a c h i n e   L e a rni n a nd  t h e   P r e - p r o c e s s i n w i l l   c l e a n   t h e   da t a s e t   b e fo r e   t h e   e xpe r i m e n t s   a r e   pe r f o r m e d.   B a s e o t h e   r e s ul t ,   i t   s h o w s   t ha t   t h e   f e a t u r e   s e l e c t i o n   c o n t ri b ut e   a   go o d,   a c c ura t e   r e s ul t   a nd  s o m e   c l a s s i f i c a t i o n   t e c hn i q ue s   i s   n o t   s u i t a b l e   w i t t h e   f e a t u r e s   s e t .   H ow e ve r   i t   i s   i m po rt a nt   t o   de v e l o a   f r a m e w o r i n   de t e c t i n s pa m   c o m m e n t   i o r de r   t o   de v e l o a   go o S pa m   de t e c t i o n   t o o l   i f ut u r e .     T h e r e   a r e   t hr e e   (3)  t y pe s   of   f e a t ur e s   w h i c h   a r e   p r e s e n c e   of   l i n ks ,   l e n g t h   o f   c o m m e n t s   a n m o s t   o c c urr e n c e   s pa m   ke y w o r t ha t   a ppe a r e i n   t h e   p r o c e s s e da t a s e t s .   T h e   f e a t u r e   t h e n   i s   b e i ng  t e s t e w i t N a ï v e   B a y e s   a n d   L o gi s t i c   R e gr e s s i o n .   B o t a c c ura c y   a n p r e c i s i o r e s ul t   w e r e   c o m put e by   us i n t w o   da t a   m i ni n g   t o o l s   w h i c h   a r e   W e ka   a n R a pi dM i n e r   f o r   da t a   v a l i da t i o n.   T h e   e xpe ri m e n t a l   r e s ul t   s h o w e N a ï v e   B a y e s   a n d   L o gi s t i c   R e gr e s s i o n   a r e   go o d   c l a s s i f i e r s   i n   de t e c t i n Y o uT ub e   s pa m   c o m m e n t s .   F o r   f ut u r e   w o r ks   a   s pa m   d e t e c t i o n   t o o l   m a y   b e   a dde a n t e s t e w i t h   o t h e r   c l a s s i f i e b e c a us e   i t   i s   s i gni f i c a nt   t o   ha v e   a   t oo l   t o   de t e c t   s pa m   c o m m e nt   i n   o r de t o   a v o i t h e   us e r   t o   c l i c t h e   m a l i c i o us   l i nk.       A C K N O WL ED G E M EN TS   T h e   a ut h o r s   e xp r e s s   a pp r e c i a t i o n   t o   t h e   U n i v e r s i t y   T un   H u s s e i n   O nn   M a l a y s i a   (U T H M ).     T h i s   r e s e a r c h   i s   s uppo r t e b y   G P P S   G r a n t   v o t   n um b e H 0 61  a n T i e G ra nt   v o t   n um b e H 237.       R EF ER EN C ES   [ 1]   Y .   Y u s o f   a nd   O .   H .   S a do o n,   D e t e c t i ng   V i de o   S p a m m e r s   I Y o ut u be   S o c i a l   M e d i a ,   no .   082 ,   pp .   228 234 ,   201 7.   [ 2]   U .   K .   S a a nd  N .   P a r m a r ,   A a pp r o a c f o r   M a l i c i o us   S p a m   D e t e c t i o I E m a i l   w i t c o m pa r i s o o f   di f f e r e nt   c l a s s i f i e r s ,   I R J E T ,   v o l   4 ,   i . 8,   p p.   22 38 2 242 ,   2017 .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Y ouT ube   s p am   d e t e c t i on   f r am e w or k   us i ng  naï v e   ba y e s   and   l o gi s t i c   r e gr e s s i on   (C i k   F e r e s a   bi nt i   Mo hd  F ooz y )   1517   [ 3]   I .   D a ug he r   a nd  R .   A nt o un,   H a m -   S pa m   F i l t e r i ng   U s i ng   D i f f e r e n t   P C A   S c e na r i o s ,   I E E E   I n t .   C onf .   C om p ut .   Sc i .   E ng.   I E E E   I nt .   C on f .   E m be d.   U bi qu i t o us   C om pu t .   I nt .   Sy m p .   D i s t r i b.   C om p ut .   A ppl .   t o   B u s i ne s s ,   E ng .   S c i . ,     pp.   54 2 54 5,   20 16.   [ 4]     S .   G a ndr a ,   I m pl e m e n t a t i o O f   P r o t o t y pe   T o   D e t e c t   S pa m   I Y o uT ube   U s i ng   T he   A ppl i c a t i o T ube K i t   A nd  N a ï v e   B a y e s   A l go r i t hm ,   2014 .   [ 5]   M .   E s m a e i l i ,   e t   a l . ,   A A nt i - S pa m   S y s t e m   us i ng   N a i v e   B a y e s   M e t ho a nd  F e a t u r e   S e l e c t i o M e t ho ds ,   I nt e r n at i on al   J o ur n al   o f   C om put e r   A pp l i c a t i ons v o l .   16 5,   no .   4 ,   p p.   1 5 ,   201 7.   [ 6]   K .   T r a e t   a l . ,   T o w a r d s   a   F e a t ur e   R i c M o de l   f o r   P r e d i c t i ng   S pa m   E m a i l s   c o nt a i n i ng   M a l i c i o us   A t t a c hm e nt s   a n U R L s ,   i P r o c e e di ngs   o f   t he   11 - t A us t r a l a s i an  D at a   M i ni ng  C onf e r e nc e ,   2013 ,   pp .   161 171 .   [ 7]   T .   S t o ne ,   P a r a m e t e r i z a t i o o f   N a   ¨   ı v e   B a y e s   f o r   S pa m   F i l t e r i ng ,   2003 .   [ 8]   M .   S h a f i e   e t   a l . ,   A   R e v i e w   o M o bi l e   S M S   S pa m   F i l t e r i ng   T e c hn i qu e s ,   v o l .   5 ,   201 7.   [ 9]   H .   G a r c i a - m o l i n a ,   W e b   S pa m   T a xo no m y ,   pp .   1 9.   [ 10]   J .   Z ha ng   a nd   G .   G u ,   N e i g hbo r   W a t c he r :   A   C o nt e nt - A g no s t i c   C o m m e nt   S pa m   I nf e r e nc e   S y s t e m ,   no .   2 .   [ 11]   T .   C .   A l be r t o ,   J .   V .   L oc ht e r ,   a n T .   A .   A l m e i da ,   T ube S pa m :   C o m m e nt   s pa m   f i l t e r i ng   o Y o uT u be ,   P r o c .   -   2015   I E E E   14 t I n t .   C o nf .   M a c h .   L e ar n.   A pp l .   I C M L A   2015 ,   no .   201 2,   p p.   138 143 ,   201 6.   [ 12]   P .   S .   K i r a n ,   D e t e c t i ng   s pa m m e r s   i Y o uT ube :   A   s t ud y   t o   f i nd  s pa m   c o nt e nt   i a   v i de o   pl a t f o r m .,”   I O SR   J ou r na l   of   E ng i ne e r i ng   ( I O SR J E N ) ,   v o l .   05 ,   no .   0 7,   pp .   26 30 ,   2 015 .   [ 13]   R .   C ho w dur y ,   N .   M .   A dna n,   G .   A .   N .   M a hm u d,   a nd  R .   M .   R a hm a n,   A   D a t a   M i n i ng   B a s e S p a m   D e t e c t i o n   S y s t e m   f o r   Y o uT ub e ,   p p.   37 3 37 8,   20 13 .   [ 14]   M .   A l s a l e h   a nd  A .   A l a r i f i ,   C o m ba t i ng   C o m m e nt   S p a m   w i t M a c hi ne   L e a r ni ng   A ppr o a c he s ,   2 015 .   [ 15]   A .   K .   U y s a l ,   S .   G una l ,   S .   E r g i n,   a n E .   S .   G una l ,   T he   I m pa c t   o f   F e a t ur e   E xt r a c t i o a nd  S e l e c t i o o S M S   S pa m   F i l t e r i ng ,   E l e k t r on i k I r   E l e k t r o t e c hn i k a pp .   67 7 2,   20 13 .   [ 16]   N .   P e r v e e n ,   S e n t i m e n t   B a s e T w i t t e r   S pa m   D e t e c t i o n,   ( I J A C SA )   I nt e r n at i on al   J ou r na l   of   A dv anc e C om pu t e r   Sc i e nc e   a nd   A pp l i c at i o ns ,   v o l .   7,   no .   7 ,   pp.   5 68 5 73 ,   2 016 .   [ 17]   A .   P a t w a r i ,   I de nt i f y i ng   U nde s i r e bl e   B e h a v i o ur   i S o c i a l   M e di a :   T o w a r ds   A ut o m a t e F a c t - C he c k i ng   a nd   Y o uT ube   M e t a - D a t a   S pa m   D e t e c t i o n,   P ur d ue   U ni v e r s i t y 20 17.   [ 18]   S .   R .   G o m e s ,   S .   G .   S a r o a r ,   M .   A .   T e l o t ,   B .   N .   K ha n,   A .   C ha k r a b a r t y ,   a nd  M .   M o s t a k i m ,   A   C o m pa r a t i v e   A ppr o a c t o   E m a i l   C l a s s i f i c a t i o U s i ng   N a i v e   B a y e s   C l a s s i f i e r   a nd  H i dde M a r ko v   M o de l ,   i P r oc e e di ngs   of   t he   2017  4 t h   I nt e r n at i on al   C on f e r e nc e   on   A dv anc e s   i n   E l e c t r i c al   E n gi ne e r i n ( I C A E E ) ,   2 017 ,   pp.   2 8 30 .   [ 19]   T .   V e r m a ,   T o ke ni z a t i o a nd  F i l t e r i ng   P r o c e s s   i R a pi d M i ne r ,   I nt e r n at i on al   J our nal   of   A p pl i e e I nf o r m at i on   Sy s t e m s ,   v o l .   7 ,   no .   2 ,   pp .   16 1 8,   20 14 .   [ 20]   T .   Y a ng   a n K .   Q i a n,   S pa m   F i l t e r i ng   u s i ng   A s s o c i a t i o R u l e s   a nd   N a I v e   B a y e s   C l a s s i f i e r ,   pp .   638 642 ,   201 5.   [ 21]   W .   H i j a w i ,   H .   F a r i s ,   J .   A l q a t a w na ,   A .   M .   A l - z o ubi ,   a n I .   A l j a r a h ,   I m pr ov i ng   E m a i l   S pa m   D e t e c t i o U s i ng   C o nt e nt   B a s e d   F e a t ur e   E ng i ne e r i ng   A ppr o a c h ,   2016 .   [ 22]   R .   C r i s t i n a ,   I de nt i f i c a t i o o f   S pa m   C o m m e n t s   us i ng   N a t u r a l   L a ng ua g e   P r o c e s s i ng   T e c hn i qu e s ,   pp .   29 35,   2 014 .   [ 23]   R .   E .   M e r c e r ,   R .   S h a m s ,   a nd   R .   E .   M e r c e r ,   C l a s s i f y i ng   S pa m   E m a i l s   U s i ng   T e x t   a nd  R e a da bi l i t y   F e a t u r e s   C l a s s i f y i ng   S pa m   E m a i l s   us i ng   T e xt   a n R e a d a bi l i t y   F e a t ur e s ,   no .   D e c e m be r ,   2 013 .   [ 24]   S .   R a s c hka ,   I nt r o duc t i o a nd   T he o r y ,   p p.   1 20,   2 014 .   [ 25]   J .   B a dr e s i y a ,   A s ho k;   V o hr a ,   S a i f e e ;   T e r a i y a ,   P e r f o r m a nc e   A na l y s i s   o f   S upe r v i s e T e c hni que s   f o r   R e v i e w   S pa m   D e t e c t i o n,   I nt .   J .   A d v .   N e t w .   A ppl . ,   pp.   2 1 24 ,   201 4.   [ 26]   C .   V i s a n i   a n N .   J a d e j a ,   A   S t u dy   o D i f f e r e nt   M a c hi n e   L e a r n i ng   T e c hni qu e s   f o r   S pa m   R e v i e w   D e t e c t i o n ,     no .   A ug us t ,   201 7.   [ 27]   K .   Z a i na l ,   N .   F .   S u l a i m a n ,   a nd  M .   Z .   J a l i ,   A A na l y s i s   o f   V a r i o us   A l g o r i t hm s   F o r   T e x t   S p a m   C l a s s i f i c a t i o a n d   C l us t e r i ng   U s i ng   R a p i d M i n e r   a nd  W e ka ,   I n t .   J .   C om pu t .   S c i .   I n f .   S e c ur . ,   v o l .   13 ,   no .   3 ,   pp .   66 7 4,   20 15 .   [ 28]   L i c hm a n,   M . ,   U C I   M a c hi ne   L e a r ni ng   R e po s i t o r y ”,   [ ht t p: / / a r c h i v e . i c s . uc i . e du / m l ] .   I r v i ne ,   C A :   U ni v e r s i t y   of   C a l i f o r ni a ,   S c ho o l   o f   I n f o r m a t i o a n C o m put e r   S c i e nc e ,   2013 .   [ 29]   S a l l e h ,   S .   N .   M . ,   D i n,   R . ,   Z a ka r i a ,   N .   H . ,   &   M u s t a p h a ,   A . ,   A   R e v i e w   o S t r uc t u r e S c he m e   R e pr e s e n t a t i o o n   D a t a   S e c u r i t y   A ppl i c a t i o n ,” I ndone s i an  J our nal   o f   E l e c t r i c a l   E ngi ne e r i ng  a nd  C om pu t e r   Sc i e nc e ,   1 1( 2 ) ,     pp.   73 3 - 739,   2 018 .   [ 30]   U m a pa t hy ,   K . ,   &   K ha r e ,   N . ,   A E f f i c i e nt   &   S e c ur e   C o nt e n t   C o nt r i bu t i o a n R e t r i e v a l   c o nt e n t   i O nl i n e   S o c i a l   N e t w o r ks   us i ng   L e v e l - l e v e l   S e c ur i t y   O pt i m i z a t i o &   C o nt e nt   V i s ua l i z a t i o A l g o r i t hm ,   I ndo ne s i a J o ur n al   of   E l e c t r i c al   E ng i ne e r i ng   a nd  C om pu t e r   S c i e nc e ,   10 ( 2 ) ,   pp .   807 - 81 6,   2018 .     Evaluation Warning : The document was created with Spire.PDF for Python.