I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   19 ,   N o .   1 J ul y   20 20 ,   pp .   5 35 ~ 54 2   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 9 .i 1 . pp 5 35 - 54 2             535       Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   Im p r o v i n g   sp a m   e m a i l   d e t e c t i o n   u s i n g   h y b r i d   f e a t u r e   s e l e c t i o n   a n d   sequ e n t i a l   m i n i m a l   o p t i m i sa t i o n       A h m e d   A l - A je l i ,   R aa i d   A l u b ad y,   Em an   S .   A l - S h am e r y   C o l l e g e   o f   I nf o r m a t i o T e c hno l o gy ,   U ni v e r s i t y   of   B a by l o n,   I r a q       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e O c t   29 ,   2019   R e v i s e J a n   4 ,   2020   A c c e pt e J a n   19 ,   202 0       C o m m uni c a t i o by   e m a i l   i s   c o unt e d   a s   a   po pul a r   m a nne r   t h r o ug w hi c us e r s   c a e xc ha ng e   i n - f o r m a t i o n.   T he   e m a i l   c o ul be   a bus e by   s p a m m e r s   t o   s pr e a d   s u s p i c i o us   c o nt e nt   t o   t he   I nt e r n e t   us e r s .   T hu s ,   t he   ne e t o   a e f f e c t i v e   w a y   t de t e c t   s pa m   e m a i l s   a r e   be c o m i ng   c l e a r   t o   ke e t hi s   i nf o r m a t i o s a f e   f r o m   m a l i c i o us   a c c e s s .   M a ny   m e t ho ds   h a v e   be e de v e l o pe d   t o   a dd r e s s   s uc a   pr o bl e m .   I t hi s   pa pe r ,   a   m a c hi ne   l e a r n i ng   t e c hn i que   i s   a pp l i e d   t o   de t e c t   s pa m   e m a i l s .   I t hi s   t e c hni que ,   a   d e t e c t i o s y s t e m   ba s e o s e qu e nt i a l   m i ni m a l   o pt i m i z a t i o ( S M O )   i s   b ui l t   t o   c l a s s i f y   e m a i l s   i nt o   t w o   c a t e g o r i e s :   s pa m   a nd  no n - s pa m   ( ha m ) .   E a c e m a i l   i s   r e pr e s e n t e by   a   s e t   of   f e a t ur e s   e xt r a c t e f r o m   i t s   t e xt ua l   c o nt e nt .   A   h y br i f e a t u r e   s e l e c t i o i s   d e v e l o pe t o   c hoo s e   a   s ubs e t   o f   t he s e   f e a t u r e s   ba s e o t he i r   i m po r t a nc e   i p r o c e s s   o f   t he   de t e c t i o n.   T hi s   s ub s e t   i s   t h e i npu t   i nt o   t h e   S M O   a l g o r i t hm   t o   m a ke   t he   de t e c t i o de c i s i o n.   T he   us e   o f   s uc a   t e c hni que   pr o v i de s   a n   e f f i c i e nt   pr o t e c t i v e   m e c ha n i s m   t o   c o nt r o l   s pa m s .   T he   e xpe r i m e nt a l   r e s ul t s   s ho w   t ha t     t he   pe r f o r m a nc e   o f   t he   pr o po s e d   m e t ho i s   p r o m i s i ng   c o m p a r e d   w i t h     t he   e x i s t i ng   m e t ho ds .   Ke y w or ds :   E - m a i l   s p a m     F e a t u r e   s e l e c t i o n       M a c hi n e   l e a rni n g     S e que n t i a l   m i n i m a l   o pt i m i s a t i o n   C opy r i gh t   ©   20 20   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   A hm e A l - A j e l i ,   Co l l e ge   of   In f o r m a t i o n   T e c hn o l o gy ,   U n i v e r s i t y   of   B a by l o n ,   B a by l o n ,   I r a q   E - m a i l :   a . a l a j e l i @ i t n e t . uo b a by l o n . e du. i q       1.   I N TR O D U C TI O N   T h e   ra n ge   o f   s e r v i c e s   t h a t   c a n   b e   a c c e s s e v i a   In t e rn e t   g r o w   r a pi d l y   o n   da i l y   b a s i s .   T h i s   r e qui r e s   pr o v i di n a   c e r t a i n   l e v e l   of   s e c ur i t y   a ga i n s t   t h e   m a l i c i o us   be h a v i o ur   w h i c h   i s   g r a dua l l y   b e c o m i n a   r e a l   t hr e a t .   W i t h   t h e   f a s t   pr o g r e s s   i n   t e c hn o l o gy   a n a pp l i c a t i o ns ,   t h e   n e e t o   pr o v i de   t oo l s   t o   f a c e   t h e   t hr e a t   i s   b e c o m i n c l e a r.   T h e   s e c uri t y   i s s ue s   s u c h   a s   w o r m s   a n v i rus e s   h a v e   b e e n   r e ga r de t h e   m a i n   c h a l l e n ge s   b y   In f o r m a t i o n   T e c hn o l o g y   w o r l d.   A d di t i o na l l y ,   s pa m s   i t he   fo r m   o f   e m a i l s   c r e a t e s   a n o t h e r   d i m e n s i o n   o t hr e a t .   T h e s e   s pa m s   h a v e   i na pp r o p r i a t e   c o n t e nt   a n a r e   r e c e i v e d   by   un k n o w n   s e n de r s .   R e c e i v i n s uc h   e m a i l s   a t   h i g h   ra t e   o n   da i l y   b a s i s   a nn oy   t h e   us e r .   In   a ddi t i o n,   t h e   c o m put a t i o na l   r e s o ur c e s   a r e   c o n s um e c a us i n de gr a da t i o n   i n   t h e   v a l ue   of   e m a i l   s e r v i c e .   T h e   pr o b l e m   of   s p a m   e m a i l   de t e c t i o n   i s   de s c r i b e i n   t h e   f o l l ow i n g.   G i v e n   a   s e t   o f   e m a i l s   pa rt i t i o n e t o   t w o   s e t s   (c l a s s e s ):   h a m   a n s pa m ,   w h e r e   e a c h   e m a i l   h a s   a   l a b e l ,   e . g .   + 1   fo r   s pa m   a n f o r   h a m .   T h e   go a l   t o   a dd r e s s   s uc h   a   pr o b l e m   i s   t o   b ui l a   de t e c t o r   (c l a s s i f i e r s uc h   t ha t   f o r   a n y   un s e e r e c e i v e e m a i l ,   a   l a b e l   (a l s o   c a l l e d   t a rge t   c l a s s i s   gi v e n   t o   t ha t   e m a i l .   A   v a r i e t y   o a ppr o a c h e s   ha s   b e e n   pr o po s e t a ddr e s s   t h e   p r o b l e m   of   s pa m   e m a i l   de t e c t i o n .     T h e   pe r f o r m a n c e   of   m o s t   po pul a r   a pp r o a c h e s   w i l l   b e   b r i e f l y   r e v i e w e a n c r i t i c a l l y   a s s e s s e f o r   s o l v i n g     t h e   pr o b l e m   i n   h a n d .   C l us t e r i n t e c hn i que s   ha v e   b e e n   a pp l i e fo r   t h e   p r o b l e m   i n   w h i c h   t h e   u n s upe r v i s e d   l e a rn i ng  w e r e   a do pt e [1 - 5 ].   S t a rt i ng  f r o m   a n   u n l a b e l e d   da t a s e t ,   t h e   i n s t a n c e s   o f   t h e   s e t   a r e   g r o upe (c l us t e r e d)  i n t o   t w o   c l us t e r s :   s p a m   a n d   n o n - s p a m .   A   s i m i l a r i t y   m e a s ur e   i s   a ppl i e t o   i de n t i fy   t h e   i n s t a n c e s   i e a c h   g r o up.   I n   [2 ,   4],   k - n e a r e s t   n e i g h b o ur s   (kN N a p p r o a c h   ha s   b e e n   a do pt e d.   T hi s   a pp r o a c h   p r o duc e   n c l a s s i f i c a t i o n   m o de l   a n t h e   c l a s s i f i c a t i o n   i s   c a rri e o ut   by  de t e r m i n i ng  t h e   s i m i l a r i t y   b e t w e e n   t h e   t e s t i n g   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 0   :     5 3 5   -   54 2   536   e m a i l   a n d   t h e   t r a i n i ng  n e i g h b o ur s .   T h us ,   us e   o f   t h e   kN N   n o t i o n   c a us e s   a   hi g h   c o s t   i n   t e rm s   o f   t i m e   a n d   m e m o r y .   G e n e ra l l y   s pe a ki n g ,   t h e   c l us t e ri n t e c hni que s   r a i s e   a   di f f i c ul t y   t o   e v a l ua t e   t h e   r e s ul t s   o f   t h e   l e a rni n g   a l go ri t hm s .   A s   a   r e s ul t ,   t h i s   p r o b l e m   l i m i t s   t h e i r   us e   fo r   a ppl i c a t i o n s   i n   w hi c h   i t   i s   n o t   po s s i b l e   t o   h a v e   l a b e l l e da t a   s e t .   U n l i ke   c l us t e r i ng  t e c hn i q ue s ,   t h e   s t a t i s t i c a l   m e t h o ds   s uc a s   N a i v e   B a y e s   m e t h o ha v e   a l s o   b e e n   a ppl i e [6 - 11] .   I n   t h e s e   m e t h o ds ,   a   s upe r v i s e l e a rn i n g   b a s e o n   a   p r o b a b i l i s t i c   m o de l   ha v e   be e n   pr e s e nt e d.   T h e   n o t i o n   us e i s uc m e t h o ds   r e l i e s   o n   B a y e s i a n   t h e o re m   i n   o rde r   t o   b ui l d   a   m o de l   w h i c h   i s   a b l e   t di s t i ngui s h   b e t w e e n   s pa m   a n ha m   e m a i l s .   I n   i t s   s i m p l e   fo r m ,   a   s e t   of   s t a t i s t i c s   i s   c o l l e c t e f r o m   t h e   da t a s e t   pr o v i de w i t a   p ri o k n o w l e dge   a bo ut   e a c i n s t a n c e ’s   l a b e l   (c l a s s ).   A n o t h e r   g r o up  o pub l i c a t i o n s   i n   t h e   c o n t e xt   of   s u p e r v i s e l e a rni n h a v e   a do pt e s uppo r t   v e c t o r   m a c h i n e   (S V M n o t i o n   f o r   s pa m   e m a i l   de t e c t i o n   [12 - 16].   T hi s   n o t i o n   a dd r e s s e s   t h e   p r o b l e m   by   fo r m u l a t i n g   t h e   s pa m   de t e c t i o n   a s   a n   o pt i m a s t i o n   p r o b l e m   t o   pr o duc e   a   pr e di c t i o n   m o de l   i n   w hi c h   t h e   s e pa r a t i o n   b e t w e e n   t h e   t w o   c l a s s e s   of   s pa m   a nd  ha m   i s   m a x i m i s e d.   T h i s   m e t h o p r o v e t h e   a b i l i t y   t o   s o l ve   c o m pl e a n d   l a rge   c l a s s i f i c a t i o p r o b l e m s .   F o m o r e   de t a i l s   a b o ut   m o r e   r e l a t e d   w o r i t h i s   f i e l d,   w e   r e f e r   t h e   r e a de t o   [17] .   A l t h o ug h   m a n y   m e t h o ds   p r e s e n t e f o r   s pa m   e m a i l   de t e c t i o n,   y e t   n o   m e t h o c a h a ndl e   t h e   p r o b l e m   c o m pl e t e l y .   T h e   di f f i c ul t y   i s   a ri s e n   b e c a us e   t h e   t y p e   a n c o n t e n t   o f   s pa m   e m a i l s   c o n s t a nt l y   c h a n ge   o ve r     t h e   t i m e .   I n   t h i s   p a pe r ,   t h e   a i m   i s   t o   a dd r e s s   t h e   p r o b l e m   of   s pa m   e m a i l   de t e c t i o n   b a s e o n   t h e   t e xt ua l   c o n t e n t   of   e a c h   e m a i l .   F o r   t h i s   e n d,   t w o   ob j e c t i ve s   a r e   fo l l ow e d.   F i rs t ,   a   h y b r i f e a t ur e   s e l e c t i o n   m e t h o i s   p r o po s e d   t o   r e duc e   t h e   di m e n s i o na l i t y   a n s e l e c t   fe a t ur e s   w h i c h   a r e   m o r e   r e l e v a n t .   T h i s   h y b r i m e t h o i s   b ui l t   b a s e d   o n   t w o   e xi s t i n m e t h o d s :   c o r r e l a t i o n   a nd  ga i n   ra t i o .   A s   a   r e s ul t ,   a   s i m pl i f i e de t e c t i o n   m o de l   w i l l   be   ob t a i n e d.   S e c o n dl y ,   a   s t u dy   a bo ut   t h e   a pp l i c a t i o n   o f   t h e   n e w   S V M   l e a rni n g   a l go ri t hm   c a l l e s e que nt i a l   m i ni m a l   o pt i m i s a t i o n   (S M O [ 18 - 20]   i s   g i v e n   by   c o m pa ri n g   i t s   pe r f o r m a n c e   a ga i n s t   f o ur   o t h e c o m m o n   de t e c t i o n   a l go ri t hm s .   I n   f a c t ,   t h e   S M O   a l go r i t hm   i s   o r i gi na l l y   i n t r o duc e t o   r e duc e   t h e   h i g h   c o m put a t i o n a l   r e qui r e m e nt s   by   t h e   s t a nda r S V M ,   i n   a ddi t i o n   i t   i s   m o r e   s c a l a b l e .   T h i s   gi v e s   t h e   a l go ri t hm   t h e   c a pa b i l i t y   t de a l   w i t h   l a r ge   da t a s e t s .   H e r e ,   w e   a r e   i n   p a r t i c ul a r   i n t e r e s t e i n   e xpl o ri n h o w   a c c ur a t e   t h e   r e s ul t s   c o ul be   by   a ppl y i n t h e   S M O .   T h e   r e s t   of   t h i s   pa pe r   i s   o r ga ni s e a s   fo l l ow s .   T h e   de t a i l s   o t h e   r e s e a r c h   m e t h o i n c l udi ng  d a t a s e t s   de s c r i p t i o n,   f e a t u r e   s e l e c t i o a n d   t ra i ni n g   a l go r i t h m   a r e   c o v e r e i n   S e c t i o n   2.   R e s ul t s   a n d   di s c us s i o n   a r e   gi v e i S e c t i o 3.   T hi s   pa pe r   w i l l   b e   e n de d   u w i t h   a   c o n c l us i o n .       2.   R ES EA R C H   M ET H O D   T h i s   s e c t i o c o ve r s   t h e   de t a i l s   o f   t h e   r e s e a r c m e t h o a s   de pi c t e i n   F i g u r e   1 .   B y   t h i s   m e t h o d,     s upe r v i s e l e a rni n i s   us e t o   b ui l t h e   de t e c t i o n   m o de l   pro duc e d   t o   s e pa r a t e   b e t w e e n   e m a i l   c l a s s e s :   s pa m   a n ha m .   I t hi s   w o r k,   t h e   f o c us   i s   o n   t h e   t e xt u a l   c o nt e nt   ( bo d y of   e m a i l s   i t s e l f ,   i . e .   t h e   o n l y   i n f o r m a t i o c o n s i de r e i s   c o n t a i n e d   i t h e   b o d y   of   t h e   e m a i l   b e i n a na l y s e d.           F i gu r e   1 .   S ke t c h   o f   t h e   r e s e a r c m e t h o d       2. 1 .      D at as e ts   d e s c r i p ti o n   In   t h i s   p a pe r ,   t w o   da t a s e t s   w h i c h   ha v e   di f fe r e n t   r e p r e s e nt a t i o n s   o f   e m a i l s   a r e   us e d.   T h e   f i r s t   o n e   c o n t a i n s   p r e p r o c e s s e da t a   o f   a b o ut   (960)  e m a i l s   i n   t h e   f o r m   o f   t e xt .   T h i s   d a t a   s e t   i s   b a l a n c e w h e r e   s pa m   a n ha m   e m a i l s   a r e   e qua l l y   di s t r i b ut e d.   A l s o ,   t h e   e m a i l s   a r e   pa s s e t hr o ug p r e p r o c e s s i n g   s t e ps   a s   f o l l ow s :   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im pr ov i ng   s pam   e m a i l   de t e c t i on   us i ng   h y br i d   f e at ur e   s e l e c t i on  and   s e q ue n t i a l   m i ni m a l   ( A hm e A l - A j e l i )   537   a)   T ok e n i z at i on :   T h e   t e xt u a l   c o n t e n t   o f   e m a i l s   i s   s p l i t   i n t o   w o r ds   (t o ke n s f o r   f u r t h e c o n s i de r a - tio n.   b)   R e m o v al   of   non - t ok e w or ds :   W o r ds   w h i c h   a r e   c o m m o n   i n   E n gl i s h   b ut   ha v e   n o   m e a n i ng  s uc h   a s   t h e ,   a n d   a nd  o f   a r e   r e m o v e d,   i n   a ddi t i o n um b e r s   a n pu n c t ua t i o n   a r e   r e - m o v e d.   T h e s e   w o r ds   ha v e   n o   i m p a c t   o de c i di n w h e t h e t h e   e m a i l   b e i n a na l y s e i s   s pa m   o r   ha m .   A l s o ,   w h i t e   s pa c e s   s uc h   a s   t a b s ,   n e w l i n e s   a n d   s pa c e s   h a v e   a l l   b e e n   t ri m m e t o   a   s i n gl e   s p a c e .   c)   L e m m at i z a t i on :   W o r ds   ha v i n t h e   s a m e   m e a ni n g   b ut   di f fe r e nt   f o r m s   a r e   a dj us t e t o   a   s i ngl e   f o r m   (r e t u rn  t h e m   t o   t h e i r   r o o t ).   F o r   e xa m p l e ,   t h e   w o r ds   i n c l ude ,   i n c l ude s   a n i n c l ude d   a r e   r e pl a c e b y   i n c l ude .   A ddi t i o na l l y ,   a l l   w o r ds   i t h e   b o d y   of   e m a i l s   a r e   e n s u r e d   t o   b e   i n   l o w e r   c a s e   f o r m .   T h e   s e c o n d a t a   s e t   h a s   a n   i n f o r m a t i o n   a b o ut   (4601)  e m a i l s   e a c h   o f   w h i c h   i s   r e p r e s e nt e by   a   ve c t o r   of   (57)  f e a t u r e s   i n   t h e   f o r m   o f   t e r m   f r e que n c y - i n v e r s e   doc um e n t   f r e que n c y   (T F - ID F ).   T h e   e m a i l s   i t hi s   da t a s e t   i s   pa rt i t i o n e t o   (1813)   s pa m   e m a i l s   a n ( 2788)   h a m   e m a i l s .   N o t e   t h a t   e a c h   e m a i l   i n   b o t da t a s e t s   i s   a s s o c i a t e w i t a   l a b e l   de n o t i ng  t h e   c l a s s   t o   w h i c t h e   e m a i l   b e l o n gs .     2. 2 .      F e a tu r e   e x tr ac t i o n   F e a t u r e   e xt r a c t i o n   p l a y s   a n   i m po r t a n t   r o l e   i n   t h e   p r o c e s s   o f   c l a s s i fy i n t h e   t e x t ua l   c o n t e n t   of  do c um e n t s   s uc h   a s   e m a i l s .   T hr o ug h   t h e   f e a t u r e   e xt r a c t i o n ,   w e   a r e   l o o ki n f o r   a   r e p r e s e nt a t i o n   w hi c h   m a ke s   e m a i l s   di s t i n g ui s h a b l e .   A s   pr e v i o us l y   m e n t i o n e t h e   c o n t e nt   of   e m a i l s   i s   pr o c e s s e i n   o r de r   t o   e xt ra c t   a n   i m po rt a nt   i n f o rm a t i o n   w hi c h   c a n   b e   us e t o   c l a s s i fy   i n c o m i n e m a i l s   i n t o   s pa m   a n ha m .   S i n c e   t h e   c o n t e nt   of   t h e   e m a i l s   i s   u n s t ruc t u r e da t a ,   a   t ra n s f o r m a t i o n   (f e a t u r e   e xt ra c t i o n)  i s   a pp l i e t o   m a ke   i t   a p p r o pri a t e   fo r   f ur t h e r   p r o c e s s i n (de t e c t i o n ).   I n   t h i s   t ra n s f o r m a t i o n ,   a   v e c t o r   r e pr e s e nt a t i o n   (a l s o   c a l l e f e a t ur e   v e c t o r i s   ge n e ra t e d .   E a c h   e n t r y   i n   t hi s   v e c t o r   c o r r e s po n ds   t o   a   f e a t ur e   i n   t h e   e m a i l   b e i n t ra n s f o r m e d.   S e v e r a l   m e t h o ds   ha v e   b e e n   p r o po s e fo r   f e a t u r e   e xt r a c t i o (f o r   m o r e   de t a i l s   s e e   [21 2 2]).   In  t h e   p r e s e nt   a pp r o a c h,   a   b i n a r y   r e p r e s e n t a t i o n   f o r   t h e   v a l ue s   of   e n t r i e s   i t h e   f e a t u r e   v e c t o r   i s   us e d.   A s s um e   t h a t   B   =   { b 1 b 2 ,   ,   b k i s   a   s e t   o f   a l l   di f f e r e n t   w o r ds   t ha t   a ppe a r s   i n   a l l   e m a i l s   o f   t h e   d a t a s e t .     T h e n,   gi v e n   a n   e m a i l   do c um e n t   e i ,   a   n - d i m e n s i o na l   f e a t u r e   v e c t o r   x i   { x 1 x 2 ,   ,   x k }   i s   ge n e ra t e d.   A   f e a t u r e   x i   e qua l s   i f   t h e   c o rr e s po n d i n w o r b i a ppe a r s   i e i ,   a n o t h e r w i s e .   I n   c a s e   o f   t h e   p r o c e s s e da t a s e t ,   ob t a i n i ng  a   b i n a r y   r e pr e s e nt a t i o n   r e qui r e s   t h e   a pp l i c a t i o n   o a   s t e f un c t i o n   de f i n e a s   f o l l ow s :   i f   t h e   fe a t ur e   x i   i s   g r e a t e t ha 0   t h e n ,   a s s i g n   t o   x i ,   o t h e r w i s e   a s s i g n   0 ,   s e e   F i g u r e   1.     2. 3 .      H yb r i d   f e atu r e   s e l e c t i o n   T o   r e duc e   t h e   di m e n s i o na l i t y   a n s e l e c t i ng  t h e   f e a t ur e s   w h i c h   a r e   r e l e v a n t   f o r   t h e   pu r po s e   o de t e c t i o n ,   a   f e a t ur e   s e l e c t i o n   i s   a pp l i e d.   T hr o ug h   t h e   p r o c e s s   of   s e l e c t i o n ,   t h e   m o s t   r e p r e s e nt a t i v e   fe a t u r e s   a r e   s e l e c t e a n d   t h e t h e y   w i l l   b e   us e fo r   pr e d i c t i n t h     e   t a r ge t   c l a s s   f o r   a   gi v e n   e m a i l .   L e t   t h e   s e t   B   a s   de f i n e d   a b ov e ,     a   n e w   s e t     i s   p r o duc e s uc t ha t   t h e   i n f o r m a t i o a b o ut   e m a i l s   c l a s s e s   a r e   s t i l l   r e s e r v e d.   V a ri o us   m e t h o ds   fo r   f e a t ur e   s e l e c t i o n   ha v e   be e n   de ve l o pe [23 - 27].   I n   t h i s   p a pe r ,   a   h y b r i m e t h o i s   de v e l o pe us i n t w o   of   t h e s e   m e t h o ds ,   n a m e l y   G a i R a t i o   a n d   Co rr e l a t i o n.   A   ps e udo c o de   of   t h i s   de v e l o pe m e t h o i s   g i v e n   i n   A l go r i t h m   1.   G i v e n   a   d a t a s e t   D   w i t h   k   f e a t u r e s   a n d   t hr e e   t hr e s h o l v a l ue s ,   A l go ri t hm   1   de t e rm i n e s   t h e   b e s t   s ub s e t   o f   f e a t ur e s     w i t | | = 1 ,   w h e r e   1 .   S t a r i n g   f r o m   l i n e   3,   t w o   s e t s   o f   w e i gh t s   i s   a s s i g n e t bo t   a n .   T h e s e   s e t s   o f   w e i gh t s   a r e   o b t a i n e d   by   a ppl y i n bo t G a i R a t i o   a n d   Co rr e l a t i o m e t h o d.   T h e n,   t h e   w e i gh t s   ge n e r a t e by   t h e s e   m e t h o ds   a r e   us e t o   t e s t ,   a g a i n s t   t h e   t hr e e   pr e de f i n e t hr e s h o l ds   Θ ,   Θ 1   a n d   Θ 2 ,   w h e t h e a   c e rt a i f e a t u r e   i s   s e l e c t e (a dde d   t o   a   s e t   o f   s e l e c t e f e a t ur e s   ).   A l l   de t a i l s   a b o ut   t h e   t e s t i n p r o c e s s   a r e   i n c l ude i t h e   a l go ri t hm   (l i n e   6 - 9) .     A l go r i t h m   1   :   H y br i d   F e a t u r e   S e l e c t i o n.   I n p u t :     = { ( x 1 , 1 ) , , ( x , ) }   i s   a   da t a s e t   i n   w hi c h   e v e r y   ( x , )     i s   s uc t ha t   x   { 0 , 1 } ,                           w h e r e   k   i s   t he   num b e r   o f   f e a t u r e s .   Θ ,   Θ 1   a nd   Θ 2   a r e   pr e de f i ne t hr e s ho l d s   O u t p u t :     i s   a   s e t   o f   s e l e c t e f e a t u r e s   w i t | | = 1   a nd   1 .           1:       I n i t i al i s e   = Ø           2:       L e t   ,             3:       =  _  ( )           4:       =    ( )           5:       f o r   a l l   f e a t u r e s   ,   { 1 , , }   do           6:                 if   > Θ      >   Θ   t h e n           7:           =               8:                 e l s e   i f   > Θ 1      >   | Θ 2 |   t h e n           9:                       =           10:                   e n d   i f      11:       e n d   f o r     Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 0   :     5 3 5   -   54 2   538   2. 4 .      L e a r n i n g   al go r i th m   In   t hi s   s e c t i o n ,   t h e   de t a i l s   of   t h e   l e a rni n a l go r i t hm   a do pt e i n   t hi s   pa pe r   fo r   s pa m   e m a i l   de t e c t i o a r e   c ov e r e d.   T h e   o ut pu t   o f   t hi s   a l go ri t hm   i s   a   h y pe r pl a n e   t ha t   c l a s s i f i e s   t h e   da t a s e t   i n t o   t w o   c a t e go r i e s .   F o r   t h i s   e n d ,   t hi s   a l go r i t hm   a dd r e s s e s   a   qua d ra t i c   p r o g r a m   (Q P pr o b l e m   fo r m u - l a t e a s   f o l l ow s .   L e t   x i   be   t h e   i n put   t ra i ni n v e c t o r   i   a nd  y i   be   i t s   l a b e l   fo r   a l l   i   =   1 , ,   m .   T h e n   t h e   go a l   of   t h i s   Q P   pr o b l e m   i s   t o   f i n a   s o l ut i o n   f o r   α i   a n d   α j   ( a l s o   c a l l e L a g ra n ge   m ul t i p l i e r s w h i c o pt i m i s e   t h e   f o l l ow i n o b j e c t i ve   f un c t i o n:     ma x   α ( α ) = α 1 2 y y ( x , x ) = 1 = 1 = 1 α α   s . t .             0     α           = 1 α   (1)     w h e r e   C   i s   a   c o n s t a n t   a nd  K ( x i x j r e pr e s e n t s   t h e   ke rn e l   f un c t i o n   us e t o   de t e r m i n e   t h e   s i m i l a ri t y   b e t w e e n     t h e   ve c t o r s   x i   a n x j .   T h e r e   a r e   s e ve r a l   e xa m p l e s   of   t h i s   f unc t i o n ;   i n   t h i s   pa pe r   t h e   po l y n o m i a l   f o r m   i s   us e d   [28].   N o t e   t ha t   t h e   r e l a t i o n s hi b e t w e e n   t h e   α i   a nd  x i   i s   o n e - to - o n e .   T h e   s o l ut i o n s   o b t a i n e f o r   α’s   a r e   us e t de t e r m i n e   t h e   n o rm a l   v e c t o r   w   a n d   t h e   t hr e s h o l b   e xpl a i n e i n   t h e   f o l l ow i n g:     w = y = 1 α   x   ( 2 )     = w . x y   ,       f o r   s o m e   α > 0   ( 3 )       A l go r i t h m   2   :   S M O   l e a r ni ng   a l g o r i t hm .     I n p u t :   = { ( 1 , 1 ) , ( 2 , 2 ) , , ( , ) } ,   a   s e t   o f   t r a i n i ng   i ns t a nc e s ,   w he r e       a nd   k   is     t he   num b e r   o f   f e a t u r e s ;   { + 1 , 1 }   i s   t he   l a be l   o f   T ol e r a nc e C   a nd   ϵ   a r e   p r e d e f i ne d   c o ns t a n t s .     O u t p u t :   t h e   bi a s   b   a nd   L a g r a ng i a n   m ul t i pl i e r s   α s .           1:   I n i t i al i s e   α = 0       s . t .     ( , ) , = 0 , = 0               2:   w h i l e   <   _    do         3:       = 0         4:       f o r   al l   = 1 , ,   do         5:             ( ) = α × = 1 < , > +         6:             i f   ( × <       α < )  ( × >          α > )   th en         7:                 S e l e c t   f r o m   [ 1, n ]   r a ndo m l y         8:                 ( ) = α × = 1 < , > +         9:                 = ( )      10:               α 1 =   α      11:              α 2 =   α      12:               i f   (     )   t h e n        13:                  = m a x   ( 0 , α α )      14:                   = m i n ( , + α α )      15:                 e l s e      16:                   = m a x   ( 0 , α α + )        17:                   = m i n ( , α α )      18:                   e n d   i f      19:                   if   ( = )   t h e n     c o nt i n ue   t o   t he   n e xt   i      20:                   e n d   i f        21:                   = 2     ( , )     ( , )     ( , )              22:                   if   (   0 t h e n    c o nt i nu e   t o   t he   ne x t   i      23:                   e n d   i f           24:                   α = α ( )         25:                   if   ( α > t h e n     α =         26:                   e n d   i f         Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im pr ov i ng   s pam   e m a i l   de t e c t i on   us i ng   h y br i d   f e at ur e   s e l e c t i on  and   s e q ue n t i a l   m i ni m a l   ( A hm e A l - A j e l i )   539         27:                   if   ( α < t h e n     α =         28:                   e n d   i f           29:                   if   ( | α α 2 | < t h e n    c o nt i nue   t o   t h e   n e x t   i         30:                     e n d   i f           31:                     α = α +   × ( α 2 α )         32:                     1 = ( α α 1 ) < , > ( α α 2 ) < , >         33:                     2 = ( α α 1 ) < , > ( α α 2 ) < , >         34:                     if   ( α > 0     α < t h e n     = 1         35:                     e l s e   i f   ( α > 0      α < t h e n     = 2         36:                     e l s e   = 1 +   2 2         37:                     e n d   i f           38:                     if   ( = 0 t h e n      = + 1         39:                     e l s e   = 0         40:                     e n d   i f         41:                 e n d   i f         42:             e n d   f o r         43:       = + 1         44:     e n d   w h i l e     O n c e   α s   a n b   a r e   de t e r m i n e d,   t h e   o ut p ut   o f   t h e   t r a i n i ng  a l go r i t h m   i s   o b t a i n e d   us i n g     = y = 1 α ( x , y )   (4)     w h e r e   xi   i s   t h e   t r a i n i ng  i nput   v e c t o r   a nd  xj   i s   t h e   s t o r e t r a i n i n g   v e c t o r .   T h e n ,   f o r   u n k n o w n   v e c t o r   x ,   t h e   c l a s s   t o   w h i c t h e   e m a i l   b e l o n gs   c a n   b e   de t e rm i n e d   by   f i n di n g .     ( x ) = ( w . x )   ( 5 )     T o   s o l v e   t h e   Q P   pr o b l e m   i n   ( 1),   t h e   S M O   m e t h o i s   a ppl i e d.   T hi s   m e t h o c o n s i s t s   o f   t h r e e   c o m po n e n t s   w h o s e   f un c t i o n s   a r e   t o   1)  f i n a   s o l ut i o f o r   t h e   t w o   L a gra n ge   m u l t i pl i e r s ,   2)   us e   a   h e u r i s t i c   m e t h o t o   c h oo s e   w h i c h   w i l l   b e   o pt i m i s e d,   a nd  3)  c o m put i n t h e   t hr e s h o l b .   T h e   ps e udo c o de   of  t h e   e n t i r e   m e t h o i s   de s c r i b e i A l go ri t hm   2.   G i v e n   a   t ra i ni n s e t   T   a n d   pa ra m e t e r s   T o l e r a n c e ,   a n ϵ,   t h e   S M O   a l go r i t hm   p r o duc e s   t h e   b i a s   b   a n t h e   L a g ra n g i a m u l t i pl i e r s   α ’s .   T hi s   a l go ri t hm   us e s   a n   i t e r a t i v e   m e t h o t o   s o l v e   t h e   Q P   pr o b l e m   fo r m u l a t e a b ove .   T hi s   pr o b l e m   i s   de c o m po s e i n t o   a   n u m b e r   o s m a l l e r   s ub - pr o b l e m s   e a c h   of  w h i c h   i s   t h e s o l ve a na l y t i c a l l y .   B r i e f l y ,   w i t h o ut   l o s s   of   ge n e ra l i t y   t h e   S M O   a l go r i t hm   p r o c e e ds   a s   fo l l ow s :   i c o m put e   th e   s e c o n L a g r a nge   m u l t i pl i e α2   w h i c h   do e s   n o t   s a t i s fy   t h e   K a r us h K u hn T uc ke r   (K K T c o n d i t i o n s ,   i i s e l e c t   t h e   f i r s t   L a g ra n ge   m ul t i p l i e r   α1  a nd  o pt i m i s e   bo t h   1,   α2)  a nd  i i i l o o ove r   s t e (i a nd  (i i u n t i l   a   s t o ppi n c r i t e ri o n   i s   r e a c h e d,   i . e .   n o   m o r e   L a g r a ngi a n   m u l t i pl i e r s   v i o l a t e   (K K T c o n di t i o n s .   C h o o s i n t w L a gra n g i a n   m ul t i p l i e r s   t o   o pt i m i s e   y i e l ds   t h e   S M O   a n   a dv a nt a ge   o ve r   t h e   e xi s t i n m e t h o ds .   T hi s   a dv a n t a ge   c o n s i s t s   i t h e   a b i l i t y   t o   ha n dl e   l a rge   a nd  c o m pl e d a t a s e t s   w i t l e s s   c o m put a t i o na l   r e s o ur c e s .       3.   R ES U LTS   A N D   A N A L Y S I S   In  t hi s   s e c t i o n ,   t h e   pe r f o r m a n c e   of   t h e   S M O   a l go r i t hm   i s   t e s t e a g a i n s t   f o ur   c o m m o n   m e t h o ds :   B ay e s   Ne t Na i v e   B a y e s L ogi s t i c   F unc t i on   a n t h e   s t and ar SV M .   I n   o ur   s e t t i ngs ,   f o ur   m e t r i c s   a r e   us e fo r   m e a s u r i n t h e   pe r f o r m a n c e   o f   t h e   di ff e r e n t   m e t h o ds   n a m e l y   pr e c i s i o n ,   r e c a l l ,   F - m e a s u r e   a n a c c ur a c y .   M o r e ov e r ,   t hr e e - fo l c r o s s   v a l i da t i o n   i s   a pp l i e o n   t h e   t w o   da t a s e t s   m e n t i o n e i n   S e c t i o n   2. 1.   A l l   r e s ul t s   ob t a i n e by   w o r ki n o n   t h e s e   da t a s e t s   a r e   o r ga ni s e i n t o   t w o   s c e n a r i o s .   I n   c a s e   of   t h e   S M O   fo r   t h e s e   s c e n a r i o s ,   t h e   da t a s e t s   ha v e   b e e n   t r a i n e w i t h   =   0 . 8 a n d   ϵ  =   0 . 001 .   N o t e   t h a t   a l l   e xpe ri m e n t s   a r e   c a rri e o ut   by   t a ki n f e a t u r e s   c o r r e s po n di ng  t o   t h e   (2556)  m o s t   fr e que n t   w o r ds   i n   a l l   e m a i l s   i n   c a s e   of   t h e   r a w   da t a s e t   a nd  i g n o r e   t h e   l a s t   t hr e e   f e a t u r e s   o f   t h e   p r o c e s s e da t a s e t .   In   t h e   f i r s t   s c e n a ri o ,   t h e   l e a rni n a l go ri t hm s   b e i n s t ud i e a r e   a ppl i e o n   t h e   o r i g i n a l   da t a s e t s   a n d     t h e   r e s ul t s   w h i c h   h a v e   b e e n   ob t a i n e a r e   s h o w n   i n   T a b l e s   a n 2.   T h e s e   r e s ul t s   i n   b o t h   t a b l e s   i l l us t r a t e   t ha t   t h e   S M O   o ut pe r f o r m s   t h e   o t h e r   a l go r i t hm s   w i t r e ga r ds   t o   a l l   e v a l ua t i o m e t ri c s .   A n o t h e r   o b s e r v a t i o n   i s   t h a t   t h e   v a l ue s   of   t h e s e   m e t r i c s   i n   c a s e   o f   r a w   da t a s e t   i s   h i g h e r   t ha n   i n   c a s e   o f   t h e   p r o c e s s e da t a s e t .   O n e   i n di c a t i o n   i s   t h a t   t h e   b i na r y   r e pr e s e n t a t i o n   o f   fe a t ur e s   i s   m o r e   a pp r o pr i a t e   t o   e xpr e s s   e m a i l s   t ha n   T F - ID F   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 0   :     5 3 5   -   54 2   540   r e p r e s e n t a t i o n.   O t h e   o t h e ha n d ,   T a b l e   hi g h l i g ht s   t ha t   t ra n s f o r m i n g   t h e   T F - ID F   r e p r e s e n t a t i o n   t o   b i na r y   r e p r e s e n t a t i o h a s   a   s l i g h t   e f fe c t   o n   t h e   pe r f o r m a n c e   o f   t h e   S M O .   T h e   s e c o n s c e n a ri o   i s   a r i s e n   t o   s t udy   t h e   i m p a c t   o f   r e duc i ng  t h e   f e a t u r e s   a n t h e m e a s u r e     t h e   pe r f o r m a n c e .   By   a ppl y i n t h e   h y b r i f e a t u r e   s e l e c t i on   m e t h o o f   S e c t i o n   2. 3 .   o n   t h e   r a w   da t a s e t ,     t h e   n um b e o f   f e a t ur e s   h a s   b e e n   r e duc e f r o m   (2 556)  f e a t u r e s   t o   o n l y   (32)  f e a t ur e s ,   i . e .   t h e   r e duc t i o n   ra t e   w a s   a b o ut   (98%).   A l t h o ug h   o b t a i ni n a   s i g ni f i c a nt   r e duc t i o n   r a t e ,   t h e   r e s ul t s   of   t h e   c o m pa r a b l e   a l go ri t hm s   h a v e   i n c r e a s e d,   s e e   T a b l e   4 .   F u rt h e r m o r e ,   t h e   r e s ul t s   s t i l l   gi v e   a   p re fe r e n c e   t o   t h e   S M O   o v e r   o t h e r   a l go r i t h m s .   G e n e ra l l y   s pe a ki n g ,   w e   o bs e r v e   t h a t   us e   of  t h e   b i n a r y   r e pr e s e n t a t i o n   i s   pr e f e rr e fo r   a l l   a l go r i t hm s .   In   a ddi t i o n,   c o m pa r i n t h e   r e s ul t s   o b t a i n e by   l e a rn i n a l go ri t hm s   b e fo r e   a n a f t e r   a ppl y i n f e a t u r e   s e l e c t i o n   i n di c a t e s   a n   i m p r o v e m e n t   s e e   T a b l e s   a n d   4.   A n o t h e r   o bs e r v a t i o n   po i nt s   o ut   t ha t   t h e   S M O   m e t h o y i e l ds   a   b e t t e r   pe r f o r m a n c e   t ha t h e   S V M   m e t h o i t h e   d i f f e r e n t   s c e na r i o s .       T a b l e   1 .   E v a l ua t i o n   i n   c a s e   o f   ra w   da t a s e t   L e a r n i n g   a l g o ri t h m   P re c i s i o n   Re c a l l   F - m e a s u r e   A c c u ra c y   ( % )   Ba y e s   N e t   0 . 9 7   0 . 9 7   0 . 9 7   9 6 . 9 7 9   N a i v e   Ba y e s   0 . 9 6 8   0 . 9 6 8   0 . 9 6 8   9 6 . 7 7 0   L o g i s t i c   F u n c t i o n   0 . 9 6 5   0 . 9 6 5   0 . 9 6 5   9 6 . 4 5 8   S V M   0 . 9 7   0 . 9 7   0 . 9 7   9 6 . 9 7 9   SMO   0 . 9 7 2   0 . 9 7 1   0 . 9 7 1   9 7 . 0 8 3       T a b l e   2 .   E v a l ua t i o n   i n   c a s e   o f   t h e   p r o c e s s e da t a s e t   L e a r n i n g   a l g o ri t h m   P re c i s i o n   Re c a l l   F - m e a s u r e   A c c u ra c y   ( % )   Ba y e s   N e t   0 . 8 9 9   0 . 8 9 9   0 . 8 9 8   8 9 . 8 7 1   N a i v e   Ba y e s   0 . 8 4 4   0 . 7 9 6   0 . 7 9 8   79 . 6 3 4   L o g i s t i c   F u n c t i o n   0 . 8 4 4   0 . 7 9 6   0 . 7 9 8   7 9 . 6 3 4   S V M   0 . 9   0 . 9   0 . 8 9 9   8 9 . 9 5 8   SMO   0 . 9 3   0 . 9 3   0 . 9 2 9   9 2 . 9 7 9       T a b l e   3 .   E v a l ua t i o n   i n   c a s e   o f   t h e   p r o c e s s e da t a s e t   o f   b i n a r y   r e p r e s e n t a t i o n   L e a r n i n g   a l g o ri t h m   P re c i s i o n   Re c a l l   F - m e a s u r e   A c c u ra c y   ( % )   Ba y e s   N e t   0. 885   0 . 8 8 5   0 . 8 8 4   8 8 . 5 0 2   N a i v e   Ba y e s   0 . 8 7 4   0 . 8 6 5   0 . 8 6 1   8 6 . 4 8 1   L o g i s t i c   F u n c t i o n   0 . 9 3 1   0 . 9 3 1   0 . 9 3 1   9 3 . 1 3 1   S V M   0 . 9 2 6   0 . 9 2 6   0 . 9 2 5   9 2 . 5 8 8   SMO   0 . 9 3 3   0 . 9 3 3   0 . 9 3 3   9 3 . 3 0 5       T a b l e   4 .   E v a l ua t i o n   i n   c a s e   o f   t h e   r a w   d a t a s e t   a f t e r   a ppl y i n g   t h e   h y b r i f e a t u r e   s e l e c t i on   L e a r n i n g   a l g o ri t h m   P re c i s i o n   Re c a l l   F - m e a s u r e   A c c u ra c y   ( % )   Ba y e s   N e t   0 . 9 7 2   0 . 9 7 2   0 . 9 7 2   9 7 . 1 8 7   N a i v e   Ba y e s   0 . 9 6 8   0 . 9 6 8   0 . 9 6 8   9 6 . 7 7 0   L o g i s t i c   F u n c t i o n   0 . 9 7 9   0 . 9 7 9   0 . 9 7 9   9 7 . 9 1 6   S V M   0 . 9 7 6   0 . 9 7 6   0 . 9 7 6 4   9 7 . 6 0 4   SMO   0 . 9 8 1   0 . 9 8 1   0 . 9 8 1   9 8 . 1 2 5       4.   C O N C LU S I O N   E m a i l   i s   a n   i m po rt a nt   t o o l   t o   e xc h a n ge   m e s s a ge s   be t w e e n   us e r s .   S pa m m e r s   c a n   us e   t hi s   t o o l   t m i s l e a d   us e r s   by   s e n di ng  t h e m   s p a m   e m a i l s   w hi c a r e   n o t   s u ppo s e t o   r e c e i ve .   T h e r e f o r e ,   i t   i s   i m po r t a nt   h e r e   t o   di s t i n g ui s h   b e t w e e n   s pa m   a nd  h a m .   T h e   m a i l b o c o ul r e c e i v e   m a n y   s pa m s   w h i c h   r e p r e s e n t   s us pi c i o us   b e h a v i o r   a ga i n s t   us e r s .   T h us ,   p r o t e c t i n t h e s e   e m a i l s   f r o m   m a l i c i o us   a c c e s s   h a s   b e c o m e   a   n e c e s s a r y   t a s t ke e us e r s ’  e m a i l   s a f e .   I n   t hi s   pa pe r,   t h e   p r o b l e m   of   d e t e c t i n s p a m   e m a i l s   i s   a dd r e s s e by   de v e l o pi n de t e c t i o n   a p p r o a c h   b a s e o h y b r i f e a t u r e   s e l e c t i o n   a n d   t h e   S M O   m e t h o ds .   U s i n g   t h e s e   m e t h o ds   l e a ds   t o   pr o duc i n a   s i m p l i f i e m o de l ,   i . e .   l e s s   c o m put a t i o na l   c o s t   n e e de fo r   s pa m   de t e c t i o n .   T h e   pe r f o r m a n c e   e xpe r i m e nt s   po i n t   o ut   t ha t   t h e   de v e l o pe a ppr o a c h   o ut pe rfo r m s   i t s   c o un t e r p a r t s   a c c o r di n t o   t h e   a ppl i e e v a l ua t i o m e t ri c s   i n   c a s e   o f   b a l a n c i n g   a n d   u n b a l a n c i n d a t a s e t s .   I n   a dd i t i o n ,   t h e s e   e xpe r i m e n t s   p r o v e t ha t   t h e   b i n a r y   r e pr e s e nt a t i o n   o f   fe a t u r e s   i m p r o v e t h e   ob t a i n e r e s ul t s .   O n e   f ut ur e   di r e c t i o n   c a n   b e   e xpl o r e b e xt e n di ng  t h e   p r e s e nt   w o r t o   t h e   c a s e   w h e r e   t h e r e   a r e   m ul t i pl e   t y pe s   of   s pa m   e m a i l s .       Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im pr ov i ng   s pam   e m a i l   de t e c t i on   us i ng   h y br i d   f e at ur e   s e l e c t i on  and   s e q ue n t i a l   m i ni m a l   ( A hm e A l - A j e l i )   541   R EF ER EN C ES   [ 1]   W Y i ng ,   Y K a i ,   a nd  Z J i a nz ho ng ,   U s i ng   dbs c a c l u s t e r i ng   a l g o r i t hm   i s pa m   i de nt i f y i ng ,   2nd   I n t e r na t i ona l   C onf e r e nc e   on   E d uc a t i on  T e c hno l og y   a nd   C om pu t e r ,   v o l .   1 ,   pp .   V 1 398 V1 402 ,   201 0.   [ 2]   S .   T h i r um u r ug a na t h a n,   A   de t a i l e i n t r o duc t i o t o   k - ne a r e s t   ne i g hb o r   ( kN N )   a l g o r i t hm ,   R e t r i e v e M ar c h,   v o l .   20 ,   p p .   20 12,   2 010 .   [ 3]   J.   S .   W hi s s e l l   a nd  C .   L .   A .   C l a r ke ,   C l u s t e r i ng   f o r   s e m i - s up e r v i s e d   s pa m   f i l t e r i ng ,   P r o c e e di ngs   o f   t he   8t h   A nnu al   C ol l abo r at i o n,   E l e c t r o ni c   M e s s a gi ng,   A n t i - A b us e   a nd  Spam   C on f e r e nc e ,   pp .   125 - 134 ,   201 1.   [ 4]   S .   Z h u,   W .   D o ng ,   a n W .   L i u ,   H i e r a r c hi c a l   r e i nf o r c e m e nt   l e a r ni n g   ba s e o knn  c l a s s i f i c a t i o a l g o r i t hm s ,   I n t   J   H y br i I n f   T e c hno l ,   v o l .   8 ,   no .   8,   pp .   175 - 18 4,   2 015 .   [ 5]   M .   S he i k ha l i s ha h i ,   e t   a l . ,   F a s t   a nd   e f f e c t i v e   c l us t e r i ng   o f   s pa m   e m a i l s   ba s e o s t r uc t u r a l   s i m i l a r i t y ,   I nt e r n at i ona l   Sy m pos i um   on   F ounda t i ons   a nd  P r a c t i c e   o f   S e c ur i t y ,   pp .   195 - 21 1 ,   2016 .   [ 6]   J .   W u ,   a nd  T .   D e ng ,   R e s e a r c i a nt i - s pa m   m e t ho ba s e o ba y e s i a f i l t e r i ng ,   I E E E   P ac i f i c - A s i W or k s hop  on   C om put at i ona l   I n t e l l i ge nc e   and   I n dus t r i a l   A pp l i c at i on ,   v o l .   2 pp .   8 87 - 891 ,   2 008 .   [ 7]   M .   N .   M a r s o no ,   M .   W .   E l - K ha r a s h i ,   a nd  F .   G e ba l i ,   B i na r y   l ns - ba s e n a i v e   ba y e s   i nf e r e nc e   e ng i ne   f o r   s pa m   c o nt r o l :   no i s e   a na l y s i s   a nd   f pg a   i m p l e m e n t a t i o n,   I E T   C om pu t e r s   &   D i gi t a l   T e c h ni q ue s ,   v o l .   2,   no .   1 ,   pp .   56 - 62 ,   2008 .   [ 8]   B .   I s s a c   a nd  W .   J .   J a p ,   I m pl e m e n t i ng   s p a m   de t e c t i o us i ng   ba y e s i a a nd  po r t e r   s t e m m e r   k e y w o r s t r i pp i n a ppr o a c he s ,   T E N C O N   20 09 - 2009   I E E E   R e g i on   10   C on f e r e nc e ,   pp.   1 - 5 ,   20 09 .   [ 9]   S .   B .   R a t ho a n T .   M .   P a t t e w a r ,   C o nt e nt   b a s e s p a m   de t e c t i o i e m a i l   us i ng   ba y e s i a c l a s s i f i e r ,   I n t e r na t i ona l   C onf e r e nc e   on   C om m u ni c at i on s   and   S i gna l   P r oc e s s i ng ,   pp.   1 257 - 1 261 ,   2 015 .   [ 10]   L .   K a ng ,   e t   a l . ,   U s i ng   na i v e   ba y e s   m e t ho t o   c l a s s i f y   t e xt - ba s e e m a i l ,   9t I n t e r na t i o nal   Sy m po s i um   on  P ar a l l e l   A r c h i t e c t ur e s ,   A l go r i t hm s   a nd   P r ogr am m i ng ,   2018 ,   pp .   94 - 98 ,   2018 .   [ 11]   N .   F .   O t hm a n a nd  W .   I .   S .   W .   D i n ,   Y o ut ub e   s pa m   d e t e c t i o f r a m e w o r us i ng   na i v e   ba y e s   a nd  l o g i s t i c   r e g r e s s i o n ,   I nd one s i an  J ou r na l   of   E l e c t r i c a l   E ng i ne e r i ng  and  C o m put e r   Sc i e nc e ,   v o l .   14,   no .   3,   pp.   15 08 - 1517 ,   2019 .   [ 12]   H .   D r uc ke r ,   D .   W u ,   a nd  V .   N .   V a pn i k ,   S u ppo r t   v e c t o r   m a c hi ne s   f o r   s pa m   c a t e g o r i z a t i o n,   I E E E   T r an s ac t i ons   on   N e ur al   ne t w or k s ,   v o l .   10 ,   no .   5 ,   pp .   1048 - 10 54 ,   1999 .   [ 13]   D .   S c ul l e y   a nd  G .   M .   W a c hm a n,   R e l a x e o nl i n e   s v m s   f o r   s p a m   f i l t e r i ng ,   P r oc e e di ngs   of   t he   30 t annu al   i nt e r n at i on al   A C M   SI G I R   c on f e r e nc e   on   R e s e ar c h   and   de v e l opm e n t   i n   i n f or m a t i on   r e t r i e v a l ,   pp .   415 - 42 2 ,   20 07.   [ 14]   C .   T s e ng ,   a nd   M .   C he n ,   I nc r e m e nt a l   s v m   m o de l   f o r   s p a m   d e t e c t i o o dy na m i c   e m a i l   s o c i a l   ne t w o r k s ,   I nt e r n at i on al   C on f e r e nc e   on   C om pu t a t i ona l   Sc i e nc e   and   E ng i ne e r i ng,   v o l .   4 ,   pp .   128 - 135 ,   200 9.   [ 15]   G .   C a r ua na ,   M .   L i ,   a nd  M .   Q i ,   A   m a p r e duc e   ba s e pa r a l l e l   S V M   f o r   l a r g e   s c a l e   s pa m   f i l t e r i ng ,   E i gh t h   I nt e r n at i on al   C on f e r e nc e   on   F uz z y   Sy s t e m s   an K n ow l e dge   D i s c ov e r y ,   v o l .   4 ,   p p.   26 59 - 266 2 ,   20 11.   [ 16]   V .   V i s ha g i n i ,   a nd  A .   K .   R a j a n ,   A i m pr o v e s pa m   de t e c t i o m e t ho w i t w e i g ht e s uppo r t   v e c t o r   m a c hi ne ,   I nt e r n a t i on al   C on f e r e nc e   on   D at Sc i e nc e   and   E ng i ne e r i n g ,   pp .   1 - 5 ,   2018 .   [ 17]   E .   G .   D a da ,   e t   a l . ,   M a c hi n e   l e a r ni ng   f o r   e m a i l   s pa m   f i l t e r i ng :   r e v i e w ,   a p pr o a c he s   a nd  o pe n   r e s e a r c p r o bl e m s ,   H e l i y on ,   v o l .   5 ,   no .   6 ,   201 9.   [ 18]   J .   P l a t t ,   F a s t   t r a i ni ng   of   s uppo r t   v e c t o r   m a c hi ne s   us i ng   s e que nt i a l   m i n i m a l   o pt i m i z a t i o n,   A dv an c e s   i K e r ne l   M e t hod s - Supp or t   V e c t or   L e ar n i ng ,   E ds .   M I T   P r e s s ,   199 8.   [ 19]   M .   A .   H e a r s t ,   e t   a l . ,   S uppo r t   v e c t o r   m a c hi n e s ,   I E E E   I n t e l l i ge n t   Sy s t e m s   a nd  t he i r   ap pl i c a t i on s ,   v o l .   13 ,   no .   4 ,     pp.   18 - 28 ,   199 8.   [ 20]   N .   C r i s t i a ni ni ,   J .   a nd  S ha w e - T a y l o r ,   A i nt r o duc t i o t o   s uppo r t   v e c t o r   m a c hi ne s   a nd  o t he r   ke r n e l - ba s e l e a r n i ng   m e t ho ds ,”   C am br i dge   un i v e r s i t y   p r e s s ,   2000 .   [ 21]   T .   S .   G uz e l l a a nd  W .   M .   C a m i n ha s ,   A   r e v i e w   o f   m a c hi ne   l e a r n i n g   a ppr o a c he s   t o   s pa m   f i l t e r i ng ,   E x pe r t   S y s t e m s   w i t A p pl i c a t i ons ,   v o l .   3 6,   no .   7,   p p.   10 206 - 102 22 ,   2 009 .   [ 22]   A .   A de l e k e ,   e t   a l . ,   A   t w o - s t e f e a t ur e   s e l e c t i o m e t ho f o r   qur a ni c   t e xt   c l a s s i f i c a t i o n,   I ndo ne s i an  J ou r na l   of   E l e c t r i c al   E ng i ne e r i ng   a nd  C om pu t e r   S c i e nc e ,   v o l .   1 6,   no .   2 ,   p p.   7 3 0 - 736,   20 19.   [ 23]   L .   Y u ,   a nd  H .   L i u,   F e a t u r e   s e l e c t i o f o r   hi g h - di m e ns i o na l   d a t a :   A   f a s t   c o r r e l a t i o n - ba s e f i l t e r   s o l u t i o n,   P r o c e e di ng s   o f   t he   20 t h   i n t e r na t i o na l   c o nf e r e nc e   o m a c hi ne   l e a r ni ng ,   pp .   856 - 86 3 ,   20 03.   [ 24]   A .   G .   K a r e g o w da ,   A .   M a nj un a t h,   a n M .   J a y a r a m ,   C o m pa r a t i v e   s t udy   of   a t t r i bu t e   s e l e c t i o us i ng   g a i r a t i o   a nd   c o r r e l a t i o ba s e d   f e a t ur e   s e l e c t i o n,   I n t e r na t i ona l   J our nal   of   I nf or m a t i on  T e c hn ol ogy   and  K now l e dge   M an age m e nt ,   v o l .   2 ,   no .   2 ,   pp .   271 - 277 ,   201 0.   [ 25]   J .   T a ng ,   S .   A l e l y a ni ,   a nd  H .   L i u,   F e a t ur e   s e l e c t i o f o r   c l a s s i f i c a t i o n :   A   r e v i e w ,   D at c l a s s i f i c a t i on :   A l go r i t hm s   and  app l i c a t i o ns ,   p.   37 ,   201 4.   [ 26]   J .   C a i ,   J .   L uo ,   S .   W a ng ,   a nd  S .   Y a ng ,   F e a t u r e   s e l e c t i o n   i m a c hi ne   l e a r n i ng :   A   ne w   pe r s pe c t i v e ,   N e ur oc om pu t i ng ,   v o l .   300 ,   pp .   70 - 79,   2 018 .   [ 27]   B .   N .   K um a r ,   M .   S .   B .   R a j u ,   a nd  B .   V .   V a r dha n,   A   no v e l   a ppr o a c f o r   s e l e c t i v e   f e a t ur e   m e c ha ni s m   f o r   t w o - pha s e   i nt r u s i o de t e c t i o s y s t e m ,   I ndo ne s i a J ou r na l   of   E l e c t r i c al   E ng i ne e r i ng  an C om put e r   S c i e nc e ,   v o l .   14,   no .   1 ,     pp.   10 1 - 112,   2 019 .   [ 28]   S .   S ha l e v - S hw a r t z   a nd  S .   B e n - D a v i d ,   Un de r s t a nd i ng   m a c hi ne   l e a r n i ng :   F r om   t he o r y   t o   a l g o r i t hm s ,”   C am b r i d ge   uni v e r s i t y   pr e s s ,   20 14 .           Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 0   :     5 3 5   -   54 2   542   B I O G R A P H I ES   O F   A U T H O R S       A hm e A l - A j e l i   r e c e i v e t h e   B S c   a nd  M S c   de g r e e s   i C o m put e r   S c i e nc e   f r o m   t he   U ni v e r s i t y   of   B a by l o n,   I r a q,   i 1999   a n 20 02,   r e s p e c t i v e l y .   A f t e r   c o m pl e t i ng   hi s   M S c ,   he   w o r ke a s   a n   a s s i s t a n t   l e c t u r e r   a t   t h e   D e p a r t m e n t   o f   C o m put e r   S c i e nc e ,   t he   U ni v e r s i t y   o f   B a b y l o n.   I 2017,   h e   r e c e i v e h i s   P hD   i C o m put e r   S c i e nc e   f r o m   t he   U ni v e r s i t y   o f   B i r m i ng ha m ,   t he   U K .   C ur r e n t l y ,   he   ho l ds   a   l e c t ur e r   po s i t i o a t   S o f t w a r e   D e pa r t m e n t ,   U ni v e r s i t y   o f   B a by l o n.   H i s   c ur r e n t   r e s e a r c h   i nt e r e s t s   i nc l u de   f a u l t   d i a g no s i s / pr o g no s i s   i d i s c r e t e - e v e nt   s y s t e m s ,   m a c hi ne   l e a r n i ng   a n d   s o f t w a r e   de v e l o pm e n t .         R a a i A l uba dy   r e c e i v e hi s   P h. D .   de g r e e s   i I nf o r m a t i o T e c hno l o gy   f r o m   t he   U ni v e r s i t i   U t a r a   M a l a y s i a ,   i 201 7.   H e   g o t   a   B a c he l o r ' s   de g r e e   i C o m put e r   S c i e nc e s   f r o m   U ni v e r s i t y   o f   B a by l o n - I r a q,   a   H i g he r   D i p l o m a   i D a t a   S e c ur i t y   f r o m   I r a qi   C o m m i s s i o f o r   C o m put e r s   a nd   I n f o r m a t i c s - I r a q,   a n a   M a s t e r ' s   de g r e e   i I nf o r m a t i o T e c hno l o gy   f r o m   U U M -   M a l a y s i a .   A l uba dy   i s   a   l e c t ur e r   a t   t he   N e t w o r I nf o r m a t i o D e pa r t m e nt ,   C o l l e g e   o f   I nf o r m a t i o n   T e c hno l o gy ,   U ni v e r s i t y   o f   B a b y l o n -   I r a q.   H e   i s   a   m e m b e r   o f   I E E E   a nd   a c t i v e l y   i nv o l v e i n   I E E E   a c t i v i t i e s .   I a dd i t i o n,   he   i s   a   m e m be r   o f   t he   I nt e r n e t   S o c i e t y   M a l a y s i a   C h a pt e r ;   a   m e m b e r   o f   t he   I r a qi   A s s oc i a t i o f o r   I T   S pe c i a l i s t s ,   I r a q;   a nd  a   r e v i e w e r   o f   s e v e r a l   i nt e r na t i o na l   a c a de m i c   j o ur na l s   a nd  c o nf e r e nc e s .   C u r r e nt l y   a t t a c he t o   t he   I nt e r N e t W o r ks   R e s e a r c L a bo r a t o r y   ( I R L ) .   R a a i c ur r e nt   a r e a   o f   r e s e a r c f o c us e s   o t he   F ut ur e   I nt e r ne t   ( I C N   a nd  N D N ) ,   W i r e l e s s   N e t w o r ki ng /   M A N E T ,   I nt e r ne t   o f   T hi ng s ,   R o ut i ng   P r o t o c o l ,   a nd   P e r f o r m a nc e   A na l y s i s .         E m a A l - S ha m e r y   r e c e i v e t he   B S c   a nd  M S c   de g r e e s   i C o m put e r   S c i e nc e   f r o m     t he   U n i v e r s i t y   of   B a b y l o n,   I r a q,   i 199 a nd  2 001 ,   r e s p e c t i v e l y .   A f t e r   c o m pl e t i ng   he r   M S c ,     s he   w o r ke a s   a a s s i s t a n t   l e c t ur e r   a t   t he   D e p a r t m e n t   o f   C o m put e r   S c i e nc e ,   t he   U n i v e r s i t y   of   B a by l o n.   I 2013 ,   s he   r e c e i v e h e r   P hD   i n   C o m put e r   S c i e nc e   f r o m   t he   U n i v e r s i t y   o f   B a b y l o n.   C ur r e nt l y ,   s he   ho l ds   a   pr o f e s s o r   po s i t i o a t   S o f t w a r e   D e pa r t m e nt ,   U ni v e r s i t y   o f   B a b y l o n.     H e r   c ur r e nt   r e s e a r c i n t e r e s t s   i nc l ud e   a r t i f i c i a l   i nt e l l i g e nc e ,   b i o i n f o r m a t i c s ,   m a c hi n e   l e a r n i ng ,   ne ur a l   n e t w o r ks ,   de e p   l e a r ni ng   a nd   da t a   m i ni ng .       Evaluation Warning : The document was created with Spire.PDF for Python.