I n d on e s ian   Jou r n al   o f   E lec t r ica l   E n gin e e r in a n d   Com p u t e r   S c ience   Vo l .   1 7 ,   N o .   3 M a r c h   20 20 ,   pp.   1210 ~ 1214   I S S N:  2502 - 4752,   DO I 10 . 11591/i j e e c s . v 1 7 .i 3 . pp1210 - 1214             1210       Jou r n al  h o m e page ht tp: / / ij e e c s . iaes c or e . c om   m a li c io u U R L d e t e c t io n  s y st e m  u si n g o p t i m i z at io n     an d   m ac h in e  l e ar n in g c la ss ifie r s       On Vie n n L e e ¹,   Ahm ad   Her yan t o 2 ,   M oh d   F aiz a l   Ab  Raz a k 3 ,   Ani s   F ar ih an   M at   Raf f e i 4   Danak o r n   Nin c ar e an   E h   P h on 5 ,   S h a h r e e n   K as im 6 ,   T ol e   S u t ik n o 7   1, 3, 4, 5 Fac u l t y   o C o m p u t e r   S y s t em s   S o ft w ar e   E n g i n ee r i n g ,   U n i v e rs i t y   Ma l a y s i Pa h an g ,   Ma l a y s i a   2 D e p art men t   o C o m p u t e r   E n g i n ee r i n g ,   U n i v e rs i t as   Sri w i j a y a ,   I n d o n e s i a   6 Fac u l t y   o Co m p u t e S ci e n ce   &   I n f o r m at i o n   T ech n o l o g y ,   U n i v e rs i t i   T u n   H u s s e i n   O n n   Mal a y s i a,   Ma l a y s i a   7 D e p art men t   o E l ec t ri c a l   an d   C o m p u t e E n g i n ee ri n g ,   U n i v e rs i t as   A h m ad   D ah l an ,   I n d o n e s i a       Ar t ic l e   I n f o     AB S T RA CT   A r ti c le  h is tor y :   R e c e i ve J u l   29,   2019   R e vi s e S e p   2 0,   2019   A c c e pt e Oc t   1 1 ,   201 9       T h e   o p en n e s s   o f   t h e   W o rl d   W i d e   W e b   (W e b h as   b e co me   mo r e   e x p o s ed   t o   cy b e r - at t ac k s .   A n   at t ac k e p e rfo r m s   t h cy b e r - at t ack s   o n   W e b   u s i n g   m al w ar U n i fo r m   R e s o u r ce   L o c at o rs   (U R L s s i n ce   i t   w i d el y   u s e d   b y   i n t e rn e t   u s e rs .   T h e r e fo r e,   s i g n i f i c an t   ap p ro ac h   i s   re q u i r e d   t o   d e t ec t   m al i c i o u s   U R L s   an d   i d e n t i f y   t h ei n at u r e   at t ac k .   T h i s   s t u d y   ai m s   t o   as s e s s   t h e   e ffi c i en cy   o t h m a c h i n e   l e arn i n g   ap p ro ach   t o   d e t ec t   an d   i d e n t i f y   m al i ci o u s   U R L s .   In   t h i s   s t u d y ,   w e   ap p l i ed   f e at u r e s   o p t i mi zat i o n   ap p ro ach e s   b y   u s i n g   b i o - i n s p i red   al g o r i t h m   f o s el ec t i n g   s i g n i f i c an t   U R L   f e at u r e s   w h i c h   ab l e   t o   d e t ec t   m al i c i o u s   U RL s   ap p l i c at i o n s .   B y   u s i n g   m a c h i n e   l e a rn i n g   ap p ro a c h   w i t h   s t a t i c   an a l y s i s   t ech n i q u e   i s   u s ed   fo d e t ec t i n g   m a l i c i o u s   U RL s   ap p l i c at i o n s .   Bas e d   o n   t h i s   co m b i n at i o n   as   w e l l   a s   s i g n i fi c a n t   f e at u re s ,   t h i s   p ap e s h o w s   p ro m i s i n g   re s u l t s   w i t h   h i g h e d e t ec t i o n   a ccu racy .   T h e   b i o - i n s p i r e d   a l g o ri t h m:   p art i c l e   s w ar m   o p t i m i zat i o n   (PSO i s   u s e d   t o   o p t i mi zed   U R L s   fe at u r e s .     I n   d e t ec t i n g   m al i c i o u s   U R L s ,   i t   s h o w s   t h at   n v e   Ba y e s   an d   s u p p o rt   v e c t o r   m a c h i n (SV M)  ar e   ab l t o   a c h i e v e   h i g h   d e t e c t i o n   a ccu racy   w i t h   rat e   v a l u o 9 9 % ,   u s i n g   U RL   as   f e at u r e .   K e y w o r ds :   An dr o i d   De t e c t i o n   s y s t e m   F e a t ur e s   o p t i m i z a t i o n   M a c hi ne   l e a r ni ng   UR L s   Co p yr i g h t   ©   2 0 2 0   In s t i t u t o f   A d va n ced   E n g i n ee r i n g   a n d   S ci e n ce.     A l l   r i g h t s   r e s er ved .   C or r e s pon din A u th or :   M o h F a i z a l   Ab   R a z a k   F a c u l t y   o f   C o m put e r   S y s t e m s   &   S o f t wa r e   E n g i n e e r i n g,   Uni ve r s i t y   M a l a y s i a   P a ha n g,   L e b u h r a y a   T un   R a z a k,   26300  Ga m b a n g,   K ua n t a n ,   P a h a n g,   M a l a y s i a .   E m a i l f i r da u s z a @ u m p. e du. m y       1.   I NT RODU C T I ON     we b pa ge s   s e r vi c e s   i nc r e a s i ng ly   pr e v a il c a u s i n g   b us i ne s s   a n pe o p l e s   m o v e   t o wa r we b   a pp l i c a t i o ns .   A t   pr e s e n t ,   m o s t   pe o pl e   hi g hl y   de pe n o n   we b   a pp l i c a t i o n s   f o r   r o u t i n e   a c t i vi t i e s   s uc h   a s   c o m m u ni c a t i o n s ,   i n t e r ne t   b a n k i ng,   o nl i ne   s h o pp i ng,   i nf o r m a t i o n   ga t h e r i ng,   f o r um   d i s c us s i o n   a n s o c i a li z i ng.   T h e   i n c r e a s i ng  o f   we b   a pp l i c a t i o ns   e x po s e t th e   v a r i o us   t h r e a t   t h a e x p l o i t   t h e i r   v u l ne r a bi li t i e s   [1 ,   2 ]   An   a tt a c ke r   us e we b   a pp li c a t i o v u l ne r a bi li t i e s   a s   a   s t e pp i n s t o n e   to   c o m pr o m i s e d   UR L s   f o r   hi de o us   pur po s e s   [ 3,   4 ] .   F o r   i n s t a n c e ,   a t t a c ke r s   us e UR L   to   pe r f o r m   a n   a t t a c o n   we b s i t e s .   A t t a c ke r s   i ns e r t   a   r e d i r e c t   c o de   i n t o   a   c o m pr o m i s e U R L s   s o   t h a t   t h e   us e r   w i ll   b e   n a vi g a t e a uto m a t i c a ll y   t o   m a li c i o u s   UR L s   [5 - 7 ]   T hi s   m a li c i o us   U R L s   a l s o   r e d i r e c t   t h e   us e r   to   do wnl o a a   m a li c i o u s   a pp li c a t i o n   s uc h   a s   b o t n e t   i n t o   a   c o m put e r   a n d   c a u s e   a tt a c ke r   a bl e   t o   c o l l e c t   c o nf i de n t i a l   i n f o r m a t i o s u c h   a s   b a n k i ng   n u m be r   a n d   c o n t a c i n f o r m a t i o n   [ 8,   9 ]   M a l i c i o us   UR L s   c o n t i n uo us   to  gr o a n t h e r e   a r e   230, 000  n e m a l wa r e   s a m p l e s   pe r   da y   [ 5] A c c o r d i n g   to   C y bi n t   Ne ws ,   t h e   a t t a c ke r s   l a u n c t h e i r   a t t a c f o r   e v e r y   39   s e c o n ds   a n h a ve   i n f e c t e 64%   o f   c o m pa ni e s   [ 10 ] .   Due   t o   t hi s   a tt a c k,   K a s p e r s k y   L a b   S o l ut i o n   h a s   bl o c ke d   m o r e   t h a n   mi ll i o n   a t tac ks   a n d   r e c o gni z e s   282, 807, 433  uni que   UR L s   a s   a   m a li c io us   [ 11 ] .   T h e s e   m a l i c i o us   a t t e m pt s   to  c o l l e c t   c o n f i de n t i a l   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:  2502 - 4752       A   malicious   UR L s   de tec ti on  s y s tem   us ing  opti miz ati on  and  mac hine  lear ning  c las s i f ier s   ( Ong  V ienna   L e e )   1211   i n f o r m a t i o n   s uc h   a s   a c c o un t   n u m be r   a n pa s s w o r to   s t e a l   m o n e y   f r o m   c o m put e r s   us e r s .   I n   a dd i t i o n ,     in   F e b r ua r y   2018  t h e r e   i s   bi gge s t   a tt a c l a u n c he by   a t t a c ke r s ,   wh e r e   100  o f   W o r dP r e s s   a n J o oml a   s i t e s   i n f e c t e by   m a l wa r e   k n o w n   a s   i o n C u be   [ 12 ] .   T h e s e   f i gur e s   s h o t h a t   a tt a c ke r s   us e d   a lm o s t   a ny   v u l n e r a bil i t y   w i t hi n   U R L s   a pp li c a t i o ns   i o r de r   to   pe r f o r m   a a tt a c a n e x p l o i t   ba s e d   a t t a c [ 13 ] .   T o   s o l v e   t hi s   pr o bl e m ,   t h e   us e r s   t r y   to   s hi e l t h e   c o m put e r   by   upda t i n t h e   v e r s i o n   o f   we bs i t e s   a pp li c a t i o n s ,   t h e   a n t i - m a l wa r e   a n in  t h e   m i d s t   o f   do i n s o ,   t h e   c o m put e r   us e r   h a s   to  gi ve   c o n s t a n t   a tt e n t i o n   to   t h e   a c c e s s e UR L s   a pp li c a t i o n .   R e c e n t l y ,   s t ud i e s   h a v e   s h o w n   t h a t   t h e r e   i s   a   n u m b e r   o f   d e t e c t i o n   a ppr o a c he s   a v a il a bl e   to   c o m b a t   t h e   i nc r e a s i n n u m be r   o f   m a li c i o us   UR L s .   F o r   a n   i ns t a n t ,   t h e   s i g n a t ur e - b a s e a n be h a vi o r a l   b a s e tec hni qu e   [ 14]   i s   us e t o   de t e c m a l i c i o u s   UR L s   [ 15,   1 6 ] .   I n   pa r t i c u l a r ,   t h e   s i g n a t ur e   a n a ly s i s   a im s   a t   de t e c t i n g   m a li c i o us   U R L s   by   a n a ly z i ng  t h e i r   s i g n a t ur e .   T hi s   s i g n a t ur e   s to r e d   i n   t h e   da t a b a s e   r e po s i t or y   w hi c r e pr e s e n t s   a l l   o f   t h e   kn o w l e dge   t h e   s i g n a t ur e - b a s e a ppr o a c h   ha s ,   a s   i t   c o n c e r ns   to   m a li c i o us   UR L s   de t e c t i o n .   F ur t h e r m o r e ,   t h e   b e ha vi o r a l   a na l y s i s ,   a l s o   kno wn   a s   h e ur i s t i c   a n a ly s i s   de t e c t s   m a li c i o u s   UR L s   by  i nve s t i g a t i n g   t h e   pr o gr a m   i a n   i s o l a t e e nv i r o nm e n t .   Ot h e r   t h a t h a t ,   t h e   h e ur i s t i c   a n a ly s i s   a pp l i e s   a   m a c hi ne   l e a r ni ng  a ppr o a c h   a n da t a   m i n i ng  t o   l e a r n   t h e   b e h a vi o r   o f   e x e c ut a bl e   m a l i c i o us   U R L s .   B e s i d e s ,   a i de n t i f i c a t i o n   o f   t h e   m o s t   a ppr o p r i a t e   s e t   o f   f e a t ur e s UR L ,   h o s t,   c o n t e n t ,   g r a ph   a n bl a c k l i s t ,   h e l in  e f f i c i e n t l y   d i s t i n gu i s hi ng  we b   pa ge s   a n UR L s   i n t o   m a l i c i o u s   be ni g n .   Al t h o ugh   m a ny   s e c ur i t y   de f e n s e s   a r e   de v e l o pe a ga i ns t   m a li c i o u s   UR L s ,   t h e   n a t ur e   o f   t h e   s e c ur i t y   s t i ll   h a s   a   l o n g   wa y   t o   g o .   T hi s   pa pe r   pr o po s e s   de ve l o p i n m a li c i o u s   UR L s   d e t e c t i o n   s y s t e m   w hi c h   i s   us e t i de n t i f y   n e v a r i a n t s   o f   k n o wn   m a l w a r e   a s   we ll   a s   t o   e x a m i ne   t h e   pr e s e n c e   o f   d a n ge r o us   UR L s   s e e n   in  we bs i t e s .   T h e   pr o p o s e s t udy   a pp l i e s   a   h e ur i s t i c   ba s e a ppr o a c h   a n c o l l e c t   UR L   f e a t ur e s   f r o m   t h e   we bs i t e s .   He n c e ,   t h e   f o c u s   o f   t hi s   pa p e r   i s   t o   de t e c t   m a li c io us   we b s i t e   ba s e o UR L ,   t h e   m a i c o n t r i b ut i o n s   o f   t his   pa pe r   a r e   t h e   f o l l o w i ng:   a)   T h e   e va l ua t i o n   s t ud y   a pp li e UR L s   f e a t ur e s   f o r   m a l i c i o u s   a n b e ni g n   s a m p l e   f r o m   K a gg l e   da t a s e t .   b)   T h e   pr o p o s e P S O   h a s   i m pr o v e t h e   o p t i mi z a t i o n   o f   UR L s   f e a t ur e s   us i n t e nf o l c r o s s - v a li da t i o n .   c)   T h e   pr o po s e n a ï ve   b a y e s   a n S V M   h a s   i nc r e a s e t h e   a c c ur a c y   i c l a s s i f yi ng  t h e   o pt i m i z e UR L s   f e a t ur e s   f r o m   m a l i c i o u s   a n b e ni g n   we b s i t e s   a pp l ica t i o ns .   T h e   r e s t   o f   t h e   pa p e r   i s   o r ga ni z e d   a s   f o l l o w s .   I S e c t i o n   2   d i s c u s e s   r e l a t e wo r ks   o f   t h e   r e s e a r c h .   S e c t i o n   de s c r i b e s   t h e   m e t h o do l o g y   w hi c h   i nc l ud e s   f e a t ur e s   o p t i m i z a t i o n   a n ge n e r a l   a r c hi t e c t ur e .   S e c t i o n   4   e v a l ua t e s   t h e   e f f e c t i v e n e s s   o f   m a li c i o us   UR L s   de t e c t i o n   s y s t e m .   L a s t l y ,   S e c t i o n   c o n c l us i o n   o f   t h i s   pa pe r .       2.   RE L AT E WORK   M a l i c i o us   UR L s   c o n t a i n s   v u l ne r a bi li t i e s   a n d   po s e s   a   s i g nif i c a n t   t h r e a t   to  t h e   c o m put e r .     T hi s   m a li c i o us   w e b s i t e   t h r e a t   h a s   b e c o m e   a n   im po r t a n t   r i s i ng  i s s u e   [ 17,   18 19 ] .   M a ny   s t udi e s   ha v e   be e pr o p o s e f o r   a n a ly z i ng  a n de t e c t i n m a li c i o us   UR L s .   T h r e e   t y pe s   o f   a ppr o a c h e s   a r e   u s e t o   de t e c t   m a li c i o us   UR L s   w hi c h   i s   s t a t i c   a n a ly s i s ,   d y na m i c   a n a ly s i s ,   a n h e ur i s t i c   a n a ly s i s .     T h e   s t a t i c   a n a ly s i s   d e t e r m i ne s   t h e   UR L s   w he t h e r   m a li c i o us   o r   b e ni g n   b a s e o t h e   e x t r a c t e s o ur c e   c o de .   M o s t l y ,   t h e   U R L s   t h a t   c o n t a i n   s us p i c i o us   c o de   wi ll   be   a s s i g n e a s   a   m a li c i o us   w e b s i t e .   In   [ 20 ]   e x a mi ne t h e   m a li c i o us   we b s i t e s   b a s e o n   HT M L   c o de s .   T h e y   a n a ly z e   t h e   c h a r a c t e r i s t i c   o f   m a li c i o us   UR L s   to   de t e c t   m a li c i o us   o r   n o t.   T h e i r   r e s u l t s   s h o t h a t h e i r   a ppr o a c h   i s   r e s il i e n t   to   c o de   o bf us c a t i o a nd  a bl e   t de t e r m i ne   c o r r e c t l y   w h e t he r   t h e   UR L s   i s   m a li c i o us   o r   n o t.   In   [ 21 ]   f o c us e o n   dr i ve - by   do wnl o a a tt a c to  de t e c t   m a li c i o us   U R L s   by   u s i ng  t r a f f i c   i a   r e a l   ne t w o r k .   T h e y   pr o p o s e   t w o - s t a ge   dr i v e - by   do wnl o a a tt a c de t e c t i o n   m e c ha ni s m   w hi c h   e x a mi ne s   m a l i c i o us   U R L s   b a s e o n   do m a i r e put a t i o n   a n a pp lyi ng  s a ndb o xi ng   a ppr o a c h   to   m o ni t o r   t h e   n e t wo r b a s e o n   U R L   a n r e duc e   t h e   de t e c t i o n   t i m e .   B a s e o n   t h e   e x p e r i m e n t ,     th e y   a c hi e ve 94%   o f   a c c ur a c y   a n a bl e   t r e duc e   t i m e   m o r e   t h a n   12  t i m e s   c o m pa r e   i n   r e a l     c o m put i n t r a f f i c .     M a ny   t y pe s   o f   r e s e a r c h   c o n c e r n e a b o ut   t h e   r i s a n im pa c t   o n   t h e i r   c o m put e r   wh e n   s ur f i ng   we bs i t e .   In   [ 18 ]   pr o p o s e r i s a s s e s s m e n t   to   m o ni t o r   t h e   r i s o n   UR L   by   u s i n t h e   de s t i na t i o n   i n f o r m a t i o n   wh e ge n e r a t i n a   s h o r t   UR L .   B y   m o ni t o r i n g   UR L ,   a ny   r i s k y   UR L   o r   r i s o ve r   t h e   t h r e s h o l d   w il l   be   bl o c ke d   to   pr e v e n t   m a li c i o u s   a t t a c [ 19 ] ,   e s pe c i a l ly   f r o m   dr i v e - by   do wnl o a t h r o ugh   t h e   s h o r t   UR L .   In   [ 20 ,   22]   a pp l i e m a c hi ne   l e a r ni ng  f o r   de t e c t i n m a l i c i o u s   we bs i t e s .   In   [ 22 ]   i m p l e m e n t e t h r e e   s upe r vi s e m a c hi ne   l e a r ni ng  t e c hni qu e s   s uc h   a s   S up po r t   Ve c tor   M a c hi ne   ( S VM ) ,   K - Ne a r e s t   Ne i g hb o r   ( K NN )   a n d   Na ï v e   B a y e s   ( NB ) .   B e s i de   t h e   s upe r vi s e m a c hi ne   l e a r ni ng,   t h e y   a l s o   a pp l y   u n s up e r vi s e m a c hi ne   l e a r ni ng  t e c hni que   t de t e c t   m a li c i o us   w e b s i t e s   s u c h   a s   Af f i n i t y   P r o pa ga t i o n   a n K - M e a n s .   B a s e o t h e   e x pe r im e n t ,   t h e i r   pr o p o s e pr o duc e 98 %   o f   a c c ur a c y   f o r   s upe r vi s e m a c hi ne   l e a r ni ng  a n 96%   o f   a c c ur a c y   f o r   uns u pe r vi s e d   m a c hi ne   l e a r ni ng  t e c h ni qu e .           Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i ,   Vo l .   1 7 ,   N o .   3 M a r c h   20 20    1210   -   1214   1212   3.   RE S E AR CH  M E T HO D   T hi s   s e c t i o n   de s c r i be s   t h e   a r c hi t e c t ur e   o f   t h e   e x pe r im e n t   a s   i t   i s   im po r t a n t   f o r   e x e c ut i n t h e   e x pe r im e n t s .   I n   t h e   pr o c e s s   f o r   de t e c t i n m a li c io us   UR L s ,   t hi s   pa pe r   a pp l i e o p t i mi z a t i o n   a n m a c hi ne   l e a r ni ng  a ppr o a c h e s   t o p t i mi z e   a n t r a i n   t h e   s a mp l e .   Opt i mi z i ng  a n t r a i ni ng  s a m p l e   a r e   i m po r t a n t   i n   o r de r   to  l e a r n   t h e   be h a vi o r   o f   m a l wa r e   a n b e n i g n   a pp li c a t i o n .     F i gur e   pr e s e n t s   t h e   m a i n   c o m po n e n t s   o f   t h e   ma l i c i o u s   UR L s   de t e c t i o n   s y s t e m .   T h e r e   a r e   t h r e e   ph a s e s   i n   de t e c t i o n   a r c hi t e c t ur e   i nc l ud i n da t a   c o l lec t i o n ,   m a c hi ne   l e a r ni ng,   a n d   da t a b a s e .   T h e   da t a   c o l l e c t i o b e g i ns   w i t h   c r a w l i ng   a ll   t h e   UR L   i nc l ud i ng   m a lwa r e   a n be ni g we bs i t e   a pp li c a t i o ns .   T h e t h e   da t a   a r e   pr o c e s s e t h r o ugh   a   f e a t ur e s   s e l e c t i o n   e n g i ne   to  c oll e c t   r e l e va n t   f e a t ur e s   f o r   t r a i ni ng  pur po s e s .       R es u l t B e n i g n D a t a b a s e F ea t u r es   E x t r a c t i o n L ex i c a l W HO IS HT M L M a c h i n L ea r n i n g F e a t u r e s   O p t i m i z a t i o n T r a i n ed   C l a s s i f i er E v a l u a t i o n M a l i c i o u s T r a i n i n g   a n d   T es t i n g C r a w l i n g E x t r a c t i o n S t o r i n g R es u l t s     F i gur e   1 .   M a l i c i o us   UR L s   de t e c t i o n   a r c hi t e c t ur e       3. 1.       F e at u r e s   E x t r ac t ion   an d   S e l e c t ion   A   r e l e va n t   o f   f e a t ur e s   i s   s i g ni f i c a n t   t o   ge t   t h e   hi g h   p e r f o r m a n c e   f o r   t h e   m a c hi ne   l e a r ni ng  [ 21 23 ] T h e   c r i t e r i a   o f   f e a t ur e s   a r e   i m po r t a n t   a s   to  pr e s e n t   t h e   e s s e n t i a l   c h a r a c t e r i s t i c s   o f   t h e   m a li c i o u s   we bs i t e   [ 24 ] T h e   pr o c e s s   i nc l ude s   r e m o vi ng  t h e   n o i s e   a n i r r e l e v a n t   f e a t ur e s   i n   t h e   d a t a s e t .   T a bl e   s h o ws   t h e   l i s t   o f   UR L s   f e a t ur e s   us e i n   t h e   e x pe r im e n t .   T a bl e   li s t s   t h e   UR L   f e a t ur e s   f o r   m a li c i o u s   UR L s   de t e c t i o n   s y s t e m .   T h e s e   f e a t ur e s   a r e   i m po r t a n f o r   t h e   c o n s t r uc t i o n   o f   t h e   c l a s s i f i c a t i o n   m o de l ,   ma l i c i o u s   UR L   de t e c t i o n   pr o c e s s   a n i de n t i f i c a t i o n   o f   a t t a c k   t y pe s .   He r e ,   m a li c i o u s   UR L s   a n b e ni g n   U R L s   f e a t ur e s   a r e   c l a s s e i a   bi na r y   n u m be r   ( o r   1) .   I t   i n d i c a t e s   1   if   t he   f e a t ur e s   a r e   a n   e xi s t   i n   UR L s   a n if   t h e   f e a t ur e s   a r e   a   n o n - e xi s t .   T h e n   t hi s   f e a t ur e s   a r e   us e to   tr a i n ,   t e s t   a n f e a t ur e s   o p t i mi z a t i o n   o n   W E KA .         T a bl e   1 .   L i s t   o f   UR L s   F e a t ur e s   F e a tu r e s   D e s c r ip ti o n   T o k e n C o unt   T h e  t o ta numb e r   c o unt   of  w o r ds  i n t he  U R L s   R a nk H o s t   T h e   p o pul a r i t y  r a nki ng  of  t h e  h o s tn a me s   R a nk C o unt r y   T h e  p o pul a r i t y  r a nki ng  of  t h e  U R L s  ( w e bs it e s )  a m o ng  c o unt r i e s   A S N no   A ut o n o m o us  S y s te m Numb e r  a s  t he  c la s s if i e r   f or  t h e  I P   of  e a c h  U R L s   S e c _s e n_w o r d_ c nt   T h e  s e c u r it y  s e ns it i ve  w o r c o unt   f r o m t he  U R L s   A v g_t o k e n_l e nght   T h e  t o ta a ve r a g e  numbe r  l e ngt c o unt   of  t h e  U R L s   N o _ of _d o ts   T h e  numb e r   of  d o ts  i n t he  U R L s   L e ngt h_ of _ur l   T h e  l e ngt of   th e  U R L s   A v g_pa th _t o k e n   T h e  a ve r a g e  numbe r   of  t h e   pa th   f o r  U R L s       3. 2.       M ac h i n e   L e ar n in g   T hi s   s e c t i o n   a im s   t o   a pp l y   a   m a c hi ne   l e a r ni ng  a pp r o a c h   f o r   s e l e c t i n t he   r e l e v a n t   f e a t ur e s   [ 25 ]   us e f o r   de t e c t i n m a l i c i o u s   UR L s .   I n   o r de r   to   s e l e c t   t h e   r e l e v a n t   f e a t ur e s ,   a n   o pt i mi z a t i o n   a ppr o a c h   i s   im p l e m e n t e to   o p t i mi z e   t h e   U R L s   f e a t ur e s .   T hi s   o p t i mi z a t i o n   a ppr o a c h   c o u l r e duc e   t h e   t i m e   f o r   t r a i ni ng,   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:  2502 - 4752       A   malicious   UR L s   de tec ti on  s y s tem   us ing  opti miz ati on  and  mac hine  lear ning  c las s i f ier s   ( Ong  V ienna   L e e )   1213   t e s t i n g   a n s im p li f yi ng  t h e   m a li c i o u s   UR L s   d e t e c t i o n   s y s t e m   [ 20 ,   26 ] .   B e s i de s ,   i t   i s   a l s o   i m po r t a n f o r   da t a   pr o c e s s i n [ 22 ] .   W i t h o ut   a   g oo d   kn o wl e dge   of   c las s if i c a t i o n ,   i t   i s   d i f f i c u l t   f o r   m a l wa r e   a na l y s i s   t i de n t i f y   r e l e v a n t   f e a t ur e s   f o r   m a li c i o us   U R L s .   T h e r e f o r e ,   f e a t ur e s   o p t i mi z a t i o n   i s   t h e   b e s t   a ppr o a c h   to  us e   f o r   i nc r e a s e   e f f e c t i v e n e s s   o f   m a li c i o u s   U R L s   de t e c t i o n   a n im pr o v e   a c c ur a c y .   H e n c e ,   t hi s   s t ud y   a pp li e d   pa r t i c le   s wa r m   o pt i m i z a t i o n   ( P S O)   f o r   f e a t ur e s   o p t i mi z a t i o n   b a s e o n   t e nf o l c r o s s - v a li d a t i o n   T h e n ,   t h e   pe r f o r m a nc e   o pt i m i z a t i o n   i s   c o m pa r e w i t h   d i f f e r e n t   c l a s s if i e r s   i o r de r   to   e v a l ua t e   t h e   e f f e c t i v e n e s s   i m a li c i o u s   UR L s   de t e c t i o n   s y s t e m .   F i ve   m a c hi ne   l e a r ni ng  c l a s s if i e r s ,   n a m e ly   Ada B o o s t,   S uppor t   Ve c tor   M a c hi ne   ( S VM ) ,   K - Ne a r e s t   Ne i g hb o ur   ( K NN ) ,   Na ï v e   B a y e s   a n R a n do m   F o r e s t   a r e   us e f o r   b u il d i ng  t h e   m a c hi ne   l e a r ni n m o de l   i W E KA .       4.   RE S UL T S   AN AN AL YSI S   I n   T o   e v a l ua t e   t h e   pe r f o r m a n c e   o f   t h e   m a c hi ne   l e a r ni ng  a ppr o a c h   i de t e c t i n m a li c i o us   U R L s ,     t h e   b e ni g n   a n d   m a li c i o us   UR L s   a pp li c a t i o n   we r e   m i xe t o ge t h e r   f o r   t r a i ni ng  a n d   t e s t i n g   pur po s e s .     T h e   t r a i ni n g   a n t e s t i n g   m o de l s   f o r   m a c hi ne   l e a r ni ng,   t h e   pa r a m e t e r   i n c l ud i ng  t h e   c r o s s - v a li da t i o n e e ds   t b e   s e t .   T a bl e   i ll u s t r a t e s   t h e   de t e c t i o n   pe r f o r m a n c e   o f   m a c hi ne   l e a r ni ng  a s   s e e n   i v a r i o u s   c a t e g o r i e s     o f   c l a s s if i e r s .       T a bl e   2 .   De t e c t i o n   P e r f o r m a n c e   o f   M a c hi ne   L e a r nin g   C la s s if ie r   A c c u r a c y   T P R   FPR   P r e c is i o n   R e c a ll   F - me a s ur e   R a ndo m F o r e s t   97%   0.960   0.020   0.980   0.960   0.970   N a ïv e  B a y e s   ( T hi s  s tu d y )   99%   0.980   0.000   1.000   0.980   0.990   k - NN   97%   0.980   0.040   0.961   0.980   0.970   S V M ( T h is  s tu d y )   99%   0.980   0.000   1.000   0.980   0.990   A da B oo s t   97%   0.960   0.020   0.980   0.980   0.970       T a bl e   s h o ws   t h e   de t e c t i o n   pe r f o r m a n c e   o f   f i ve   c l a s s i f i e r s   f o r   m a li c i o u s   UR L s   de t e c t i o n .     T h e   pe r f o r m a nc e   o f   e a c h   c l a s s if i e r   i s   e v a l ua t e by   s i pe r f o r m a n c e   m e t r i c s   s uc a s   a c c ur a c y ,   t r ue   po s i t i ve   r a t e   ( T P R ) ,   f a l s e   po s i t i v e   r a t e   ( F P R ) ,   pr e c i s i o n ,   r e c a l l ,   a n d   f - m e a s ur e .   T a bl e   i nd i c a t e s   t ha t   Na ï v e   B a y e s ,   k - NN   a n S V M   r e c o r de hi g he s t   T P   R a t e   wi t h   0. 98  c o m pa r e t o   a n ot h e r   t w o   a l go r i t hm s   w hi c h   a r e   R a n do m   F o r e s t   a n A da B o o s t,   b o t h   r e c o r de 0. 96 .   T hi s   mea n t   t h a t   t h e   t h r e e   a l go r i t hm s   h a v e   hi g h   s e n s i t i v i t to wa r ds   m a li c i o us   da t a .   F ur t h e r m o r e ,   b ot h   Na ï ve   B a y e s   a n S VM   d i n o t   tr a c e   a ny   f a l s e   po s i t i v e s   f r o m   t he   da t a s e s i nc e   b o t h   r e c o r de z e r o s   f o r   F P R .   Ot h e r   t h a t h a t ,   b ot h   Na ï v e   B a y e s   a n S VM   r e c o r de t h e   hi g h e s t   pr e c i s i o n   ( 1)   w hi c h   g i v i ng  pr e c i s e   i pr e d i c t i n t he   m a li c i o u s   da t a s e t .   He n c e ,   t h r o ugh   t h o s e   r e c o r de r e s u l t s ,   t h e   n a ï ve   B a y e s   a n S VM   pr e s e n t   a   b e t t e r   pe r f o r m a n c e   w i t h   99%   a c c ur a c y   c o m pa r e t o   t h e   ot h e r   c l a s s if i e r s .   I i s   wo r t h   n o t i n t h a t   m a c hi ne   l e a r ni ng  w i t h   f e a t ur e s   o p t i mi z a t i o n   p l a y s   im po r t a n t   r o l e   i i de n t i f yi ng  t h e   r e l e v a n t   f e a t ur e s   i n   de t e c t i n m a li c i o u s   UR L s .       5.   CONC L USI ON   T hi s   p a pe r   h a s   pr e s e n t e t h e   pe r f o r m a n c e   o f   t h e   pr o p o s e a ppr o a c h   i de t e c t i n g   m a li c i o us   UR L s .   T h e   pr o p o s e a ppr o a c h   t h a t   i m p l e m e n t s   t h e   o p t i mi z a t i o n   h a s   o p t i mi z e t h e   s e l e c t i o n   o f   U R L   f e a t ur e s   a n t h e   m a c hi ne   l e a r ni ng  c l a s s i f i e r   h a s   c o r r e c t l y   c l a s s if i e t h e   r e l e v a n t   m a l i c i o u s   f e a t ur e s .   I n   t h e   e x pe r i men t s ,   t hi s   pa pe r   c o n s i de r s   a pp li e r e a l   UR L   m a l w a r e   a n be ni g s a m p l e s   a pp li c a t i o da t a s e t .   T h e   e x pe r i m e n t   r e s u l t s   s h o t h a t   t h e   pr o p o s e a ppr o a c h   r e c or de hi g h   a c c ur a c y   i n   c l a s s if yi ng  t h e   UR L s   m a l wa r e   s a m p l e s .       AC K NOWL E D GE M E NT S   T hi s   wo r wa s   s uppo r t e by   U ni ve r s i t i   M a l a y s ia  P a h a n g,   u n de r   t h e   Gr a n t   F a c u l t y   o f   C o m put e r   S y s t e m s   a n S o f t wa r e   E n g i ne e r i n ( F S K 1000) ,   R DU 1803163.       RE F E R E NC E S   [1 ]   S.   G .   Se l v a g an ap at h y ,   M.   N i v aas h i n i ,   an d   H .   P.   N at araj an ,   D ee p   b e l i e n e t w o rk   b as e d   d e t ec t i o n   an d   c at eg o r i za t i o n   o m al i c i o u s   U R L s , ”  In f .   S ecu r .   J. ,   v o l .   2 7 ,   n o .   3 ,   p p .   1 4 5 1 6 1 ,   2 0 1 8 .   [2 ]   A .   Fi r d au s ,   N .   B .   A n u ar ,   M.   F.   A .   Razak ,   an d   A .   K .   S an g ai a h ,   Bi o - i n s p i r e d   c o m p u t at i o n a l   p arad i g m   f o f e at u re  i n v e s t i g at i o n   an d   m al w ar e   d e t ec t i o n :   i n t e ra c t i v e   an a l y t i cs , ”  M u l t i m ed .   To o l s   A p p l . ,   2 0 1 7 .   [3 ]   D .   R.   Pat i l   a n d   J .   B.   Pat i l ,   Fe at u r e - b as e d   Ma l i ci o u s   U RL   an d   A t t ack   T y p e   D e t ec t i o n   U s i n g   Mu l t i - c l as s   Cl as s i fi c at i o n , ”  In t .   J.   In f .   S ecu r . ,   v o l .   1 0 ,   n o .   2 ,   p p .   1 4 1 1 6 2 ,   2 0 1 8 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i ,   Vo l .   1 7 ,   N o .   3 M a r c h   20 20    1210   -   1214   1214   [4 ]   A .   K u l k ar n i   an d   L .   L . ,   Ph i s h i n g   W e b s i t e s   D e t ec t i o n   u s i n g   Ma c h i n e   L e ar n i n g , ”  In t .   J.   A d v.   Co m p u t .   S ci .   A p p l . ,   v o l .   1 0 ,   n o .   7 ,   2 0 1 9 .   [5 ]   N .   J a y ak a n t h an   an d   A .   V .   Ra m an i ,   Cl as s i fi c at i o n   M o d e l   t o   D e t ec t   Mal i ci o u s   U RL   v i B e h a v i o u A n a l y s i s , ”  In t .   J.   Co m p u t .   A p p l .   Tech n o l .   R es . ,   v o l .   6 ,   n o .   3 ,   p p .   1 3 3 1 4 0 ,   2 0 1 7 .   [6 ]   B.   L i ,   G .   Y u a n ,   L .   S h e n ,   R.   Z h a n g ,   an d   Y .   Y ao ,   I n co r p o rat i n g   U R L   em b e d d i n g   i n t o   e n s em b l e   cl u s t e r i n g   t o   d e t ec t   w e b   a n o m a l i e s , ”  Fu t u r .   G en er .   Co m p u t .   S y s t . ,   v o l .   9 6 ,   p p .   1 7 6 1 8 4 ,   2 0 1 9 .   [7 ]   Mu h a mm ad   T as ee Su l em a n   an d   Sh a h i d   Mah m o o d   A w an ,   O p t i m i zat i o n   o U RL - Bas e d   Ph i s h i n g   W e b s i t e s   D e t ec t i o n   t h r o u g h   G e n e t i A l g o ri t h m s , ”  A u t o m .   Co n t r o l   Co m p u t .   S c i . ,   v o l .   5 3 ,   n o .   4 ,   p p .   3 3 3 3 4 1 ,   2 0 1 9 .   [8 ]   N .   M.   M.   N o o r,   S .   M o h a m ad ,   Y .   M.   Sa m an ,   an d   M.   S.   H i t a m ,   Pro b ab i l i s t i c   k n o w l e d g e   b as e   s y s t em  fo f o r e n s i e v i d en ce   a n al y s i s , ”  J.   Th eo r .   A p p l .   In f .   Tech n o l . ,   v o l .   5 9 ,   n o .   3 ,   p p .   7 0 8 7 1 7 ,   2 0 1 4 .   [9 ]   A .   F i rd a u s ,   N .   B.   A n u ar ,   M.   F.   A .   Razak ,   I .   A .   T .   H as h e m ,   S.   Ba ch o k ,   an d   A .   K .   San g ai ah ,   Ro o t   E x p l o i t   D e t ec t i o n   an d   F e at u r e s   O p t i mi zat i o n :   M o b i l D ev i ce  an d   Bl o c k ch ai n   Bas ed   M ed i c a l   D at Ma n ag emen t , ”  J.   M ed .   S ys t . ,   v o l .   4 2 ,   n o .   6 ,   2 0 1 8 .   [1 0 ]   R.   Z u r,   1 2   A l armi n g   C y b e Secu ri t y   Fa c t s   an d   St at s , ”  Cy b r i n t ,   2 0 1 8 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s : / / w w w . cy b i n t s o l u t i o n s . co m / cy b e r - s ecu ri t y - fa c t s - s t at s / .   [A cce s s ed :   0 3 - D ec - 2 0 1 8 ].   [1 1 ]   V .   Ch e b y s h e v ,   F.   Si n i t s y n ,   D .   Pari n o v ,   A .   L i s k i n ,   an d   O .   K u p reev ,   I T   t h re at   e v o l u t i o n   Q 1   2 0 1 8 .   St a t i s t i c s ,   Ka s p e r s ky  La b ,   2 0 1 8 .   [O n l i n e ].   A v a i l ab l e:   h t t p s : / / s e cu r e l i s t . co m / i t - t h re at - e v o l u t i o n - q1 - 2 0 1 8 - s t a t i s t i c s / 8 5 5 4 1 / .   [A cce s s ed :   0 3 - D ec - 2 0 1 8 ].   [1 2 ]   A .   T al al a ev ,   Fe b ru ar y   2 0 1 8   W e b s i t e   H a ck i n g   St at i s t i c s , ”  W eb A R X   S ecu r i t y ,   2 0 1 8 .   [O n l i n e ].   A v a i l a b l e :   h t t p s : / / w w w . w e b arx s ec u r i t y . c o m / w e b s i t e - h a c k i n g - s t at i s t i c s - 2 0 1 8 - fe b ru ar y / .   [A cce s s ed :   0 3 - D ec - 2 0 1 8 ].   [1 3 ]   K .   T o w n s en d ,   1 8 . 5   Mi l l i o n   W e b s i t e s   In f ec t ed   W i t h   Mal w ar e   at   A n y   T i me , ”  S ecu r i t W eek ,   2 0 1 8 .   [ O n l i n e ] .   A v ai l ab l e :   h t t p s : / / w w w . s ec u r i t y w eek . c o m / 1 8 5 - m i l l i o n - w e b s i t e s - i n f ec t ed - m al w ar e - an y - t i me .   [ A cc e s s e d :   0 3 - D ec - 2 0 1 8 ].   [1 4 ]   A .   F i rd a u s ,   M.   Fa i zal ,   A .   Raza k ,   a n d   A .   F e i z o l l ah ,   Th r i s o f   “  b l o ckch a i n   ”:  b i b l i o m et r i a n a l ys i s   o f   b l o ckc h a i n   s t u d y ,   n o .   0 1 2 3 4 5 6 7 8 9 .   Sp ri n g e r   I n t e rn at i o n a l   Pu b l i s h i n g ,   2 0 1 9 .   [1 5 ]   F.   D o u k s i eh   an d   L .   W en j u an ,   Mal i ci o u s   U rl   D e t ec t i o n   U s i n g   Co n v o l u t i o n al   N e u ra l   N e t w o rk , ”  In t .   J.   Co m p u t .   S ci .   E n g .   In f .   Tech n o l . ,   v o l .   7 ,   n o .   6 ,   p p .   2 9 3 6 ,   2 0 1 7 .   [1 6 ]   R.   W a n g ,   Y .   Z h u ,   J .   T an ,   an d   B .   Z h o u ,   D e t ec t i o n   o mal i c i o u s   w e b   p ag e s   b as e d   o n   h y b r i d   an a l y s i s ,   J.   In f .   S ecu r .   A p p l . ,   v o l .   3 5 ,   p p .   6 8 7 4 ,   2 0 1 7 .   [1 7 ]   M.   F.   A .   Razak ,   N .   B.   A n u ar,   F.   O t h m a n ,   A .   Fi r d au s ,   F.   A fi f i ,   an d   R.   Sal l e h ,   Bi o - i n s p i r e d   f o F e at u re s   O p t i m i zat i o n   an d   Mal w ar e   D e t ec t i o n , ”  A r a b .   J.   S ci .   E n g . ,   2 0 1 8 .   [1 8 ]   H .   J .   Mu n   an d   Y .   L i ,   Sec u r e   Sh o rt   U RL   G en e rat i o n   Me t h o d   t h at   Rec o g n i z e s   Ri s k   o T arg e t   U R L , ”  W i r el .   P er s .   Co m m u n . ,   v o l .   9 3 ,   n o .   1 ,   p p .   2 6 9 2 8 3 ,   2 0 1 7 .   [1 9 ]   W .   I .   S.   W .   D i n ,   S.   Y ah y a,   R .   J ai l a n i ,   M.   N .   T ai b ,   A .   I .   M.   Y as s i n ,   a n d   R.   Raza l i ,   Fu zz y   l o g i fo cl u s t e r   h e ad   s e l ec t i o n   i n   w i r el e s s   s e n s o n e t w o r k , ”  A I P   Co n f .   P r o c. ,   v o l .   1 7 7 4 ,   2 0 1 6 .   [2 0 ]   Y .   T .   H o u ,   Y .   Ch a n g ,   T .   Ch en ,   C.   S.   L ai h ,   an d   C.   M.   Ch e n ,   Mal i ci o u s   w e b   c o n t en t   d e t ec t i o n   b y   m a ch i n e   l e ar n i n g , ”  E xp er t   S ys t .   A p p l . ,   v o l .   3 7 ,   n o .   1 ,   p p .   5 5 6 0 ,   2 0 1 0 .   [2 1 ]   C.   M.   Ch en ,   J .   J .   H u an g ,   an d   Y .   H .   O u ,   E ffi ci e n t   s u s p i c i o u s   U RL   fi l t e r i n g   b as e d   o n   re p u t at i o n , ”  J.   In f .   S e cu r .   A p p l . ,   v o l .   2 0 ,   p p .   2 6 3 6 ,   2 0 1 5 .   [2 2 ]   H .   B.   K az em i a n   an d   S.   A h med ,   Co m p ari s o n s   o m a c h i n e   l e arn i n g   t ec h n i q u e s   fo d e t e c t i n g   m a l i ci o u s   w e b p ag e s , ”  E xp er t   S y s t .   A p p l . ,   v o l .   4 2 ,   n o .   3 ,   p p .   1 1 6 6 1 1 7 7 ,   2 0 1 5 .   [2 3 ]   M.   A k i y a m a,   T .   Y a g i ,   T .   Y a d a,   T .   Mo ri ,   an d   Y .   K a d o b a y as h i ,   A n al y z i n g   t h e   ec o s y s t em   o m a l i ci o u s   U RL   re d i r ec t i o n   t h r o u g h   l o n g i t u d i n a l   o b s e rv at i o n   fr o m   h o n ey p o t s , ”  Co m p u t .   S ec u r . ,   v o l .   6 9 ,   p p .   1 5 5 1 7 3 ,   2 0 1 7 .   [2 4 ]   S.   B.   Rat h o d   an d   T .   M.   Pat t ew ar ,   A   c o m p arat i v p e r fo rm a n ce   ev al u at i o n   o c o n t en t   b as e d   s p am   a n d   m a l i ci o u s   U RL   d e t ec t i o n   i n   E - m a i l ,   2 0 1 5   IE E E   In t .   Co n f .   Co m p u t .   G r a p h .   V i s .   In f .   S ec u r .   CG V IS   2 0 1 5 ,   p p .   4 9 5 4 ,   2 0 1 6 .   [2 5 ]   M.   H azi m,   N .   B .   A n u ar ,   M.   F.   A b   Razak ,   a n d   N .   A .   A b d u l l a h ,   D e t ec t i n g   o p i n i o n   s p am s   t h r o u g h   s u p e rv i s e d   b o o s t i n g   ap p ro a c h ,   P Lo S   O n e ,   v o l .   1 3 ,   n o .   6 ,   p p .   1 2 3 ,   2 0 1 8 .   [2 6 ]   M.   F.   A .   Razak ,   N .   B.   A n u ar,   R .   Sal l e h ,   A .   F i rd a u s ,   M .   Fai z,   a n d   H .   S.   A l a m r i ,   ‘L e s s   G i v e   M o r e ’:   E v a l u at e   an d   zo n i n g   A n d r o i d   ap p l i c at i o n s , ”  M ea s .   J.   In t .   M ea s .   Co n f e d. ,   v o l .   1 3 3 ,   p p .   3 9 6 4 1 1 ,   2 0 1 9 .   Evaluation Warning : The document was created with Spire.PDF for Python.