I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   40 ,   No .   1 Octo b er   2 0 2 5 ,   p p .   3 5 6 ~ 3 6 5   I SS N:  2 5 0 2 - 4 7 5 2 ,   DOI : 1 0 . 1 1 5 9 1 /ijeecs.v 40 .i 1 . pp 356 - 3 6 5           356     J o ur na l ho m ep a g e h ttp : //ij ee cs.ia esco r e. co m   Phishing  U RL pr ediction    t wo - ph a se mo del using  l o g istic  regres sio n and  f in ite  sta t e auto ma ta       Nis ha   T   N Dha ny a   P ra m o d   S y mb i o si C e n t r e   f o r   I n f o r mat i o n   Te c h n o l o g y ,   S y m b i o si s   I n t e r n a t i o n a l   ( D e e me d   U n i v e r si t y ) ,   P u n e ,   I n d i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Oct   25 2 0 2 4   R ev is ed   Mar   21 2 0 2 5   Acc ep ted   J u l   3 2 0 2 5       Th e   h u m a n   fa c to r   in   se c u rit y   i m o re   imp o r tan w h e n   th e y   b e c o m e   th e   c a rriers   o a tt a c k s o n   e n terp rise s.  P h ish i n g   a tt a c k s c a n   b e   c las sified   a s in sid e r   a tt a c k wh e n   th e   e m p lo y e e u n i n ten ti o n a ll y   p a rti c i p a te   in   t h e   a tt a c k   p ro p a g a ti o n .   S in c e   c o m p lete   u s e train in g   is  a   m y t h ,   e n ter p ri se m u st  imp lem e n d e tec ti o n   to o ls  fo p h ish in g   a tt a c k o n   th e ir  n e tw o rk   p e rime ters .   Th is  re se a rc h   d isc u ss e a   two - p h a se   m o d e fo p h is h in g   URL  d e t e c ti o n ,   i n   wh ich   th e   first  p h a se   id e n ti fies   t h e   p ro p e rti e o URLs  th a d e tec p h ish in g   a n d   th e ir  re lativ e   we ig h u si n g   l o g isti c   re g re ss io n .   T h e   se c o n d   p h a se   c h e c k s   th e   p r o b a b i li ty   o a   n e URL   b e in g   c a teg o rize d   a p h is h in g   u sin g   t h e   k n o wle d g e   a c h iev e d   d u rin g   th e   first  p h a se   u si n g   th e   d y n a m ica ll y   c re a te d   F in it e   sta te  m a c h in e s.  Th e   m o d e d e fin e a   m a li c io u sc o re   (M S ),   wh ich   c a n   b e   u se d   t o   c h e c k   a n y   URL   in   re a l - ti m e   to   id e n ti fy   wh e t h e r   it   is  p h ish i n g   o r   n o t.   T h e   m o d e l   d e sc rib e d   in   th is  wo rk   h a b e e n   e x p e rime n ted   wit h   d iffere n t   b e n c h m a rk in g   d a tas e ts  to   v e rif y   th e   p e rfo rm a n c e .   T h e   m o d e p ro v i d e d   a   d e c e n re su lt   i n   c las sify i n g   a   UR a p h ish in g   o n a iv e .   Th e   m a li c io u s   sc o re   (M S d e fin e d   b y   t h is  m o d e c a n   b e   u se d   t o   e v a l u a te  a n y   URL  a n d   c a n   b e   u se d   a a   fil teri n g   m e c h a n ism   fo e n d - p o in t   p h ish i n g   URL  d e tec ti o n .   Th e   k e y   c o n tri b u t io n   is   to wa rd s   d e v e lo p i n g   a   tw o - p h a se   m o d e w h ich   e v a lu a tes   th e   URL  wit h   t h e   h e lp   o f   se lf - c ra fted   fe a tu re with o u re l ian c e   o n   a   fe a tu re   se t.   Th is  a c c o m m o d a tes   th e   m o d e l' h y p e r - c o m p e ti ti v e   p h ish in g   UR L   d e tec ti o n   a re a   in   c y b e se c u rit y .   K ey w o r d s :   Attack   p r o b a b ilit y   d etec tio n   Featu r s elec tio n   Fin ite  s tate  m ac h in e   L o g is tic  r eg r ess io n   Ma licio u s   s co r e   Ph is h in g   s ites   Un in ten tio n al  in s id er   th r ea ts   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Nis h T   N   Sy m b io s is   C en tr f o r   I n f o r m at io n   T ec h n o lo g y Sy m b i o s is   I n ter n atio n al  ( Dee m ed   Un iv er s ity )   Pu n e,   I n d ia   E m ail:  n is h a@ s cit. ed u       1.   I NT RO D UCT I O N     I n f o r m atio n   s ec u r ity   is s u es  ar in cr ea s in g   d aily ,   r eg ar d le s s   o f   th in v en tio n s   h ap p e n in g   in   th e   s ec u r ity   ar ea .   As  th s ay in g   g o es,  "A  ch ain   is   o n ly   as  s tr o n g   as  th wea k est  lin k . T h e   wea k est  lin k   in   in f o r m atio n   s ec u r ity   is   h u m a n s .   Desp ite  th r o b u s s ec u r i ty   ar ch itectu r an d   p o licies,  o r g an izatio n s   s till   ex p er ien ce   b r ea ch   b ec au s o f   t h ac tio n s   o f   h u m an s   in v o lv ed   in   th in f o r m atio n   s ec u r ity   ar ch itectu r e.   Fo r   an y   o r g an izatio n ,   em p lo y ee s   ar e   c o n s id er ed   t o   b e   th e   g r ea test   a s s et.   Ho wev er ,   f r o m   a   s ec u r it y   p er s p ec tiv e ,   th ey   ca n   b liab ilit y   to   th co m p an y .   Hu m a n   ac tio n s ,   wh et h er   in ten tio n al  o r   u n in te n tio n al,   g iv r is to   s ec u r ity   im p licatio n s .   As  p er   th 2 0 2 4   d ata  s ec u r ity   in cid en r e p o r b y   B ak er   Ho s tetler ,   s ec u r ity   in cid en ts   h av e   co n tin u ed   to   b e   th lead i n g   i n   th m ar k et,   an d   r a n s o m war h as  b ee n   t h ca u s f o r   th e   last   f iv y ea r s   [ 1 ] .   Acc o r d in g   to   an   I B r ep o r t ,   th er h as  b ee n   7 1 in cr ea s in   cy b er   th r ea ts ,   an d   in   m an y   ca s es,  th attac k s   wer in itiated   b y   u tili zin g   h u m an   b eh av i o u r   [ 2 ] .   T h ese  p h i s h in g   attac k s   ac co u n f o r   m o s s ec u r ity   in cid en ts ,   wh ich   ca n   b e   class if ied   as  u n in ten tio n al  th r ea ts ,   d esp ite  a   s m all  f r ac tio n   o f   in ter n al  t h ef ts ,   wh ich   ca n   b co n s id er ed   in ten tio n al.   On r e aso n   f o r   th is   u n i n ten tio n al  ex p lo it  o f   an   o r g an izatio n ' s   s ec u r ity   p o s tu r is   s o cial  Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       P h is h in g   UR L p r ed ictio n     tw o - p h a s mo d el  u s in g   l o g is tic  r eg r ess io n   a n d   fin ite    ( N is h a   T N )   357   en g in ee r in g   attac k s .   So cial  en g in ee r in g   ca p italizes  o n   h u m a n   p s y ch o lo g y   an d   d ec eiv es  th v ictim s   to   d o   th e   attac k .   Attack s   ar s h if tin g   f r o m   au to m ated   t o o ls   to   s o cial   en g in ee r in g   attac k s ,   with   em ail  b ein g   th m o s u s ed   to o l   [ 3 ] .     B ased   o n   an ti - p h is h in g   w o r k i n g   g r o u p ' s   ( APW G )   r ep o r t   o n   th p h is h in g   s ce n f o r   th e   y ea r   2 0 2 4 ,   phone - b ased   p h is h in g   attac k s   ar s h o win g   an   all - tim h i g h   tr e n d   an d   ar e   g o i n g   u n d etec ted .   I t   s h o ws  co n tin u o u s ly   in cr ea s in g   tr e n d   ev e n   in   p r ev io u s   y ea r s ,   a n d   f o r   y ea r s ,   t h e   n u m b er   o f   r ep o r ted   p h is h in g   web s ites ,   em ails ,   an d   tar g eted   b r an d s   h as  r is en   s tead ily .   AP MG   also   r ep o r ts   th at   p h is h in g   attac k s   o cc u r   m o s t   f r eq u e n tly   o n   th d o m ain s   web m ail,   f in an cial  a n d   p a y m en s ec to r s   [ 4 ] .     C r ea tin g   s ec u r ity - awa r e   u s er s   th r o u g h   t r ain in g   is   th e   p r ee m in en s o lu tio n   f o r   p h is h i n g   attac k   d etec tio n .   As  th is   aim   is   ch all en g in g   to   ac h iev e,   en ter p r is es  n ee d   to   d ep en d   o n   t h class if icatio n   o f   p h is h in g   s ites   b y   b lack lis t in g ,   h eu r is tics ,   v is u al  s im i lar ity   o r   m ac h in lear n in g .   Ph is h in g   d etec ti o n   b y   b lack lis tin g   r eq u ir es  th UR L   to   b p r ev io u s ly   d etec ted   as  p h is h ,   h e u r is tics   d ep en d   o n   th alr ea d y   p r e s en ch ar ac ter is tics   o f   th p h is h in g   UR L   an d   v is u al  s im ilar ity   d etec tio n   is   b ased   o n   th c o n ten t c o d e.     Du to   th av ailab ilit y   o f   m ass iv d ata  s ets   o f   p h is h in g   an d   n aïv UR L   d atab ases ,   m ac h in lear n in g - b ased   p h is h in g   d etec tio n   m eth o d s   ar e   p r o m in e n in   th e   ar e a.   Du t o   th is   r ea s o n ,   d ata  m in in g   a n d   m ac h in e   lear n in g   tech n iq u es  ar e   f in d in g   th eir   im p o r tan ce   in   p h is h in g   UR L   d etec tio n ,   a n d   m o d els   ar co n s tr u cted   b y   tak in g   ad v an tag o f   d if f er en t c lu s ter in g   alg o r ith m s .   T h f ir s lay e r   o f   d ef en ce   a g ain s p h is h in g   is   ac h iev e d   b y   id e n tify in g   th e   co n te x o f   p h is h in g ;   b asically ,   th e m ail  ca r r y in g   p h is h in g   UR L s   to   t h v ictim ' s   s ig h t.  Featu r es  o f   e m ail  ar i d en tifie d   an d   m o d elled   th class if ier s   u s in g   d if f er en m ac h in lear n i n g   te ch n iq u es  lik SVM  [ 5 ] ,   W o r d Net  o n to lo g y   [ 6 ] ,   m u ltip le  d ee p   lear n in g   m o d els   [ 7 ] ,   r ec u r r en t c o n v o l u tio n al  n eu r al  n etwo r k   m o d el  [ 8 ] ,   T F - I DF b ased   d etec tio n     [ 9 ] ,   d ee p   lear n i n g   m o d el  [ 1 0 ]   ar em p lo y ed   eith er   as  Sig n atu r e - b ased   o r   r u le - b ase d   m eth o d s   f o r   th e   class if icatio n   o f   p h is h in g   em ai l [ 1 1 ] [ 1 2 ] .         T h UR L   to   th m alicio u s   s ites   lo o k s   d if f er en t h an   n o r m al  UR L .   T h is   id ea   is   ap p lied   to   UR L - b ased   p h is h in g   em ail  d etec tio n .   T h lex ical  f ea tu r es  o f   UR L s   ar id en tifie d   an d   u s ed   to   d etec p h is h in g   UR L s .   T h ese  lex ical  f ea tu r es a r an aly ze d   u s in g   d if f er en m ac h in lear n i n g   tec h n iq u es  s u c h   as  SVM,   r an d o m   f o r est,  Naïv B ay es,  lo g is tic  r eg r ess io n ,   d ec is io n   tr ee ,   co n f i d en ce   weig h ted   alg o r ith m ,   ad ap tiv r eg u latio n   o f   weig h t s   AR O W   K - m ea n s ,   n eu r al  n etwo r k s ,   SOM,   an d   c o m p ar ed   th r esu lts   [ 1 3 ] .   UR L   o p t im al  f ea tu r es  o th er   th an   th ese  ar ex tr ac ted   a n d   a p p lied   to   th f r eq u e n r u le  r e d u ctio n   ( FR R )   alg o r ith m   to   d et ec p h is h in g   UR L s   [ 1 4 ] .   Stu d ies  with   m u ltip le  ML   m o d els  an d   th eir   en h an c em en ts   ar also   p r o p o s ed   wit h   h ig h   ac cu r ac y   an d   ef f icien cy   [ 1 5 ] ,   wh ich   d o es n o t n ec ess ita te  web p ag v is it [ 1 6 ] .   Attack er s   o b f u s ca te  th UR L   u s in g   d if f er en tech n iq u es  to   av o id   d etec tio n   b y   an aly zi n g   lex ical   f ea tu r es.  L ex ical  f ea tu r es  co m b in ed   with   d o m ai n - b ased   a n d   co n ten t - b ased ,   th u s   p r o v i d ed   g o o d   d etec tio n   ac cu r ac y   wh ile  u s in g   th e   s am m ac h in lear n in g   tech n iq u e s   [ 1 7 ] .   R u le - b ased   alg o r ith m s   s u ch   as  R I PP E R ,   R I SM,   C 4 . 5 ,   C B A,   an d   ar tific ial  n eu r al  n etwo r k s   ar also   u s ed   f o r   p h is h in g   d etec tio n   b ased   o n   UR L s   an d   o th er   f ea tu r es [ 1 8 ] .         Oth er   th an   lex ical   f ea tu r es,   th d if f e r en ce s   b etwe en   th e   v is u al  lin k   an d   ac tu al   lin k   an d   m is s p elt  o r   lar g h o s n am es  ar s o m e   o f   th u n iq u e   f ea tu r es  r esear ch er s   id en tify .   two - p h ase  m o d el  with   a   UR L   p r ed ictio n   co m p o n en an d   an   ap p r o x im ate  UR L   m atch in g   co m p o n en th at  m atch es  th n ew  UR L   with   th b lack lis is   al s o   d ev elo p ed   [ 1 9 ] .   Alo n g   with   lex ical  an d   o t h er   f ea tu r es,  s o m m o d els  co m b in ed   f u zz y   lo g ic   [ 2 0 ] ,   s o m e   with   b lac k lis ted   d o m ain s   [ 2 1 ] ,   an d   SHA1   h ash   an d   p r esen ce   o f   l o g in   ag e   [ 2 2 ]   to   d etec p h is h in g .   T h ese  m u lti - s tag d etec tio n s   a ls o   p r o v id e d   n ew  m o d els f o r   p h is h in g   d etec tio n .   C o n ten t - b ased   p h is h in g   d etec tio n   is   also   em p lo y ed ,   b u t   is   cr iticized   f o r   th d a n g er   o f   d o wn lo ad in g   th co n ten t   f o r   ex am in atio n   a n d   th c o s o f   tim e,   b an d wid th   an d   r eso u r ce s .   T h e   an o m alies in   th web   p ag e   b y   an aly zin g   t h co n ten o f   th w eb   p ag e   with   weig h ted   T F - I DF  m o d el   [ 2 3 ] ,   s ig n atu r f o r   t h p ag e   [ 2 4 ] ,   MD 5   h ash es o f   th p a g es [ 2 5 ] ,   lo g i n   p ag f ea tu r es [ 2 6 ] ,   k e y wo r d s   [ 2 7 ] ,   i m ag es a n d   s cr ip ts   [ 2 8 ] [ 2 9 ] .       Ph is h in g   UR L   d etec tio n   tech n iq u es  ev o lv e d   u s in g   lex ical,   h o s t - b ased ,   an d   c o n ten t - ba s ed   f ea tu r es   an d   lev er a g in g   d ee p   lear n in g   tech n iq u es  [ 3 0 ] [ 3 1 ] .   Dee p   le ar n in g   m o d els  b ased   o n   lo n g   s h o r t - ter m   m em o r y   an d   d ee p   n eu r al  n etwo r k s   a r also   em p lo y ed   s u cc ess f u lly   f o r   p h is h in g   UR L   d etec tio n   [ 3 2 ] .   T ec h n i q u es  ev alu atin g   th w o r d   em b ed d i n g s   an d   c h a r ac ter   em b ed d in g s   f r o m   th UR L   with   C NN - b ased   UR L Net  [ 3 3 ]   an d   d ee p   lear n in g - b ased   T e x c ep tio n   [ 3 4 ]   also   ev o lv ed .       T h is   r esear ch   u s es URL - b ased   class if icatio n   as  it will p r o v id g o o d   am o u n t o f   p r ed ictab il ity   d u to   th av ailab ilit y   o f   lar g e   n u m b er s   o f   p h is h in g   an d   N aïv UR L   d atab ases ,   an d   ca n   h an d le  f alse  n eg ativ es   ef f ec tiv ely .   T h is   m o d el  ca p ita lis es  o n   th av ailab ilit y   o f   a   v ast  d ata  s et  f o r   id en tif y in g   th e   f ea tu r es  th at  tr u l y   class if y   th p h is h in g   UR L s ,   c o n f ir m in g   th f ea tu r es  id en tifi ed   b y   th liter at u r r ev iew ,   an d   is   v er if ied   u s in g   lo g is tic  r eg r ess io n   a p p lied   o n   d if f er en t   d atasets .   T h is   m o d el  also   r elies  o n   th e   k n o wled g e - b ased   s tate  m ac h in e   m o d el  as  t h p r o b a b ilis tic  m o d el   to   p r ed ict   th UR L   as  a   m alicio u s   UR L .   T h is   m o d el  i s   d if f er en t   f r o m   t h s tate  m ac h in e - b ased   m o d el   s u g g ested   b y   Ph is h   t ester   [ 3 5 ] ,   wh er th e   b eh a v io u r   o f   th e   web p ag e   is   ev alu ated   u s in g   th r eq u est - r esp o n s p a ir   f o r   ea ch   we b p ag c o m p o n en t.  T h n aiv i d ea   o v e r   h er e   is   th at  it  d o es  n o d ir ec tly   d e p en d   o n   th e   in p u d ata  s et  o f   p h is h in g   a n d   n aïv e   UR L s .   I u s es  th {f ea t u r e,   weig h t}  tu p le   cr ea ted   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci Vo l.  40 ,   No .   1 ,   Octo b er   20 25 :   356 - 3 6 5   358   b y   th f ir s s tag in   id en tify in g   th p r o b ab ilit y   o f   UR L   b ei n g   p h is h in g ,   as  we  ar n o o p en in g   th m alicio u s   lin k   in   th is   m eth o d   u n less   th e   p r ev i o u s   m o d el  r e d u ce s   th e   ch an ce s   o f   b ein g   in f ec ted .   T h is   will  co n f ir m   t h UR L   to   b p h is h in g   b y   co n v e r g in g   th ef f ec o f   p r im ar ily   u s ed   f ea tu r an d   th p r o b a b ilit y   g en er ated   b y   th m o d el.       2.   M E T H O D   UR L - b ased   d etec tio n   is   cr iti cize d   f o r   th p o s s ib ilit y   o f   attac k er s   o b f u s ca tin g   th lin k   to   e v ad e   d etec tio n   a n d   th d elay   i n   b lack lis tin g ,   wh ich   in cr ea s es  th e   f alse  n eg ativ es  in   th e   d etec tio n .   T o   a d d r ess   th ese   g ap s ,   th is   r esear ch   p r o p o s es  two - p h ase  m o d el  to   d etec p h i s h in g   UR L s   b y   p r ed ictin g   th UR L ' s   p r o b ab ilit y   o f   b ein g   m alicio u s   ( Fig u r 1 ) .   T h f ir s co m p o n en lear n s   th s tr u ctu r o f   p h is h in g   UR L   b y   im p lem e n tin g   lo g is tic  r eg r ess io n   o n   th f ea tu r es  an d   tr ain in g   th class if ier .   I id en tifie s   th p r o p er ties   th at  tr u ly   class if y   a   UR L   in to   n aiv an d   p h is h in g   u s in g   lo g is tic  r eg r ess io n ,   wh ich   ca lcu lates  th eir   r elativ r an k s   in   d etec tin g   UR L s .   T h clas s if ier   will  b tr ain ed   b y   b o th   b lac k lis an d   wh ite  lis U R L s   co llected   at  d if f er en s o u r ce s   at  d if f er en s co p es.  T h s ec o n d   co m p o n en th en   u tili s es  th i s   p r o b ab ilit y   in   id e n tify in g   UR L s   u s in g   s tate   ma ch in e - b ased   e v alu atio n .   T h m o d el  is   test ed   ag ain s t so m e   k n o wn   d atasets ,   an d   th r esu lt s   ar ev alu ated .             Fig u r 1 .   T wo - p h ase  p h is h in g   d etec tio n -   g e n er al  ar c h itectu r e       L o g is tic  r eg r ess io n   is   p o wer f u a n d   f lex ib le   m o d e th at  d e m o n s tr ates  th e   p r o b ab ilis tic  d ep en d e n cies  o f   th e   f ea tu r es  i n v o lv e d   in   d ec is io n - m ak in g .   Un lik th o th e r   m ac h in e   lear n in g   m o d els,  lo g is tic  r eg r ess io n   s u f f er s   t h lo west  Fals Po s it iv es,    s o   it  is   p r ef er r ed   as  f alse  p o s itiv es  ar m o r ex p en s iv th a n   f alse  n eg ativ es.  Ho wev e r ,   if   u s ed   in d ep en d e n tly ,   lo g is tic  r e g r ess io n   is   n o th b est  f it  f o r   p h is h in g   d etec tio n ,   an d   it  co n f licts   with   o th er   m e th o d s .   T h e   s im p licity   an d   i n ter p r etab ilit y   o f   lo g is tic  r eg r ess io n   ju s tify   th e   f ir s s tag o f   class if icatio n .   T h d is tin ctiv en ess   o f   th is   s tu d y   is   th u s o f   lo g is tic  r eg r ess io n   as a   p ar tial c o m p o n en t   in   class if icatio n ,   o th er   th an   u s in g   it  as  m eth o d   f o r   it.  I n s tead   o f   class if y in g   th UR L   o n ly   b ased   o n   th e   lo g is tic  r eg r ess io n   m o d el  tr ain ed   o n   a v ailab le  d atasets ,   we  tr y   to   lev er ag e   th p r o b ab ilit y   v alu g en er ated   as  f ea tu r weig h tag e   in   ab n o r m al ity   p r ed ictio n .     FS As  o n   th o th er   h an d ,   ar ex ce llen at  estab lis h in g   s eq u en tial  r elatio n s h ip   b etwe en   e v en ts   an d   k ee p in g   tr ac k   o f   ac tiv ities   o v er   tim e.   I g u ar a n tees  th at  th cu r r en b e h av io u r   d e p e n d s   o n   all  th p r ev i o u s   ev en ts ,   an d   th e   d ep e n d en c y   e f f ec tiv ely   p r e d icts   th p atter n ' s   l in ea r   b eh av io u r .   C o m b i n in g   th p r o b ab ilis tic  lo g is tic  r eg r ess io n   an d   lin ea r   FS ad d s   to   th s tr en g t h s   o f   th two - p h ase  m o d el.   T h is   en s u r es  th m o d el  wo r k s   with   tem p o r a d ep en d e n cies e n h an ce d   b y   p r o b ab ilit y - b ased   m o d el.     2 . 1 .     P ha s 1 :   f ea t ure  identif ica t io n a nd   ra nk ing   ( F I R )   As  th liter atu r r ev iew  s u m m ar is es,  th is   p h ase  h elp s   th m o d el  ch o o s th r i g h f ea t u r es  f o r   th e   n ex k n o wled g e - b ased   p h is h in g   UR L   p r ed ictio n   ( PUP)  p h ase.   T h p r o ce s s   m o v es  th r o u g h   th r ee   s tep s f ea tu r e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       P h is h in g   UR L p r ed ictio n     tw o - p h a s mo d el  u s in g   l o g is tic  r eg r ess io n   a n d   fin ite    ( N is h a   T N )   359   id en tific atio n ,   f ea tu r s elec tio n   an d   f ea tu r r a n k in g .   T h p r im ar y   f ea tu r e   s elec tio n   is   b ased   o n   th e   liter atu r e   r ev iew  o u tp u t a n d   t h en   ap p r ai s ed   u s in g   lo g is tic  r eg r ess io n .   Featu r i d en tific atio n   h elp s   to   d eter m in e   th e   r elativ im p o r t an ce   o f   th e   f ea tu r u n d er   co n s id er atio n .   T h p o wer   o f   lo g is tic  r eg r e s s io n   in   q u a n tify in g   th e   r el ativ ef f ec o f   a n   in d ep e n d e n v ar iab le   o n   th e   d ep en d e n v a r iab le  is   u s ed   in   th is   p h ase.   T h is   m o d el   d o es   n o t   d ep e n d   o n   th e   ex tr ac ted   UR L   f ea tu r es  lis t   av ailab le  o n lin e.   W ex tr ac ted   th UR L   f ea tu r es  f r o m   th e   UR L s   g iv en   an d   id en tifie d   s o m f ea tu r es  th at  s u cc ess f u lly   class if y   th p h is h in g   UR L   f r o m   t h b e n ig n   UR L .   T o   f in alis th f ea tu r es   an d   r ein f o r ce   th eir   r elativ im p o r tan ce   with   o th er   f ea tu r es,  th ey   ar ch ec k ed   ag ain s th s tan d ar d   d atasets .   T h r elativ p r esen ce   o f   th ese  f ea t u r es  is   ev alu ated   b y   th eir   r elativ p r esen ce   a n d   th eir   co n tr ib u tio n   to war d s   cl ass if y in g   th UR L s   a r s tu d ied .     T h co ef f icien v alu in   th lo g is tic  r eg r ess io n   ex p r ess es  th e   co n tr ib u tio n   o f   th p ar ticu lar   f ea tu r in   d eter m in in g   wh eth er   th e   UR L   is   p h is h in g   o r   n o t.  Th o d d s   r atio   m ea s u r es  th e   lik elih o o d   o f   an   ev en t,   an d   th e   p r o b a b ilit y   v alu is   d er iv e d   f r o m   th o d d s   r atio   as :      =      ( 1 +      )     ( 1 )     2 . 2 .     P ha s 2 :   p his hin g   UR L   p re dict io n ( P UP )   T h is   p h ase  p r ed icts   UR L   to   b m alicio u s   b y   em p lo y i n g   s ig n atu r cr ea tio n ,   FS A - b ased   d etec tio n   an d   th e   attac k   p r o b ab ilit y   p r ed ictio n .   Sig n atu r e   cr ea tio n   u tili ze s   th f o r m al   lan g u a g m o d el.   f o r m al   lan g u ag L 1   o v er   d ef i n ed   a lp h ab et  s et  Ʃ   i s   an   in f in ite  s et   o f   s tr in g s   d ef in ed   o v e r   th alp h ab et  Ʃ .   R eg u lar   lan g u ag e   ca n   b e   ex p r ess ed   u s in g   f o r m u la   o f   B o o lean   lo g ic,   k n o wn   as  r eg u lar   e x p r es s io n s .   W d ef in e   r eg u lar   lan g u ag e   with   2   s y m b o ls ,   {1 , 0 },   as a   b i n ar y   s tr in g   o f   n   p o s itio n s :     1 = { ϵ { 1 , 0 }   /                      }   ( 2 )     T h v alu n   is   th n u m b er   o f   f ea tu r es  u s ed   to   ev alu ate  wh eth er   th UR L   i s   p h is h in g   o r   n o t.  T h lan g u ag d e f in es  th m alicio u s   UR L   as  s tr in g   with   at  lea s o n ' 1   in   th s tr in g .   s tr in g   with   all  0 's  is   th UR L   with   n o   s ig n s   o f   m alicio u s   tr ac es.  T h g r ea ter   th f r eq u en cy   o f   1 ' s   it  h as,  th m o r p r o b a b le  th UR L   is   m alicio u s .   R eg u lar   lan g u ag es   ar en co d ed   u s in g   f in ite  s tat au to m ata ,   o r   in   o th er   w o r d s ,   ca n   b ev al u ated   u s in g   f in ite  s tate  au to m ata  d ef in ed   f o r   th at  lan g u ag e.   f in it s tate  au to m ata  ( d eter m in is tic  f in ite  au to m ata )   is   d ef in ed   as a   f i v e - tu p le  n o tatio n .     = ( , , , 0 , )   ( 3 )     W h er e     Q   d en o tes  f in ite  s et  o f   s tates,    d en o tes  f in ite  s et  o f   in p u s y m b o ls ,   δ   d e n o tes  t r an s itio n   f u n ctio n   , q0   is   th s tar s tate   wh er q 0   ϵ   an d   F   is   th s et  o f   f in al  o r   ac ce p tin g   s tates wh ich   is   s u b s et  o f   Q .     B ased   o n   th e   f o r m al   d ef in itio n   o f   f i n ite  s tate  au to m ata ,   P HI SH_ FS A,   wh ich   ev alu ates  th r eg u lar   ex p r ess io n   s ig n atu r e,   is   d ef in ed   as  g iv en   in   Fig u r 2 .   T h s tate  m ac h i n with   9   s tates  w h er s tate  Q 0   is   th e   in itial  s tate.   T h s tate  m ac h in class if ies  al s tr in g s   en d in g   in   Q 1   as  s af UR L   an d   d o es  n o co n tain   th e   f ea tu r es  th at  d ef in a   m alicio u s   UR L .   Strin g s   en d in g   o n   a n y   o th er   s tate  in d icate   th p r o b ab ilit y   o f   th UR L   b ein g   m alicio u s   an d   th p r o b a b ilit y   is   ca lcu lated   in   th p r o b ab ilit y   p r ed ictio n   p h ase.           Fig u r 2 .   PHI SH_ FS A   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci Vo l.  40 ,   No .   1 ,   Octo b er   20 25 :   356 - 3 6 5   360   T h e   last   s tep   in   th i s   p h ase  is   p r o b ab ilit y   p r ed ictio n ,   wh er th p r o b a b ilit y   o f   th UR L   b ein g   m alicio u s   is   ev alu ated   as  M S Ma licio u s _ Sco r is   d ef in ed   u s in g   two   f ac to r s ,   p r esen t   f ea tu r e   co u n ( PF C )   an d   p r o b a b ilit y   v alu ( PV) .   T h f o r m u latio n   co n d en s es th co n tr ib u tio n s   o f   ea ch   f ea tu r as a   f u n ctio n   o f   its   v alu e,   in d icatin g   th p r esen ce ,   p o s itio n   in d icatin g   t h r elev a n ce ,   an d   p r o b a b ilit y   in d icatin g   t h co n tr ib u tio n   i n   p r ed ictio n .   Po wer in g   th e   p o s i tio n   v alu e   with   2   will  claim   th co n v er s io n   o f   th e   b in ar y   p o s itio n al  v alu e   to   weig h tag e.   T h m ath em atica r ep r esen tatio n   o f   MS  is   d io s p lay ed   in   ( 4 )   a n d   ( 5 ) .      = ( ,  )   ( 4 )      = (     ×  ( 2 ,  ) ×  [  ] ) = 1   ( 5     wh er   ,   is   th v alu o f   r eg u lar   ex p r ess io n   at  p o s itio n   i   an d      i s   th p o s itio n   o f   th p r esen t f e atu r in   th r eg u la r   ex p r ess io n .   Pre s en t   f ea tu r e   co u n ( PF C )   r ef er s   to   th n u m b er   o f   f ea tu r es  f o u n d   p r esen in   th e   UR L   an d   its   p o s itio n   in   th r eg u lar   ex p r ess io n ,   wh ich   class if ies  it  to   m alicio u s   o n e   an d   i d en ti f ies  th s ev er ity   o f   th ch a n ce   o f   t h UR L   b ein g   b lack lis ted .   Pro b a b ilit y   v al u ( PV)   is   th e   f ea tu r e   p r o b ab ilit y   ar r ay   d e f in ed   f r o th p r ev io u s   s tag e.     C alcu latin g   m alicio u s   s co r es  u s es  two   f ea tu r e   p r o p er ties f ea tu r p o s itio n   in   t h r e g u lar   ex p r ess io n   an d   th e   ca lcu lated   p r o b a b ilit y   f r o m   lo g is tic  r eg r ess io n .   T h is   em p o wer s   th e   p r e d ictio n   o f   m alicio u s   UR L s   b y   im p lan tin g   th e   f ea tu r e   im p o r t an ce   with   p r o b ab ilit y   an d   f ea t u r r elev a n ce   with   p o s itio n .   As  th p r o b ab ilit ies   ar ca lcu lated   b y   an aly zi n g   a   d ata  s et  af ter   id en tify i n g   th p o p u lar   f ea tu r es  o f   th e   m alicio u s   UR L ,   th e   f alse   p o s itiv es  ar r e d u ce d .   Fin ally ,   th MS   is   ca lcu lated   f o r   ea ch   UR L   an d   is   aler ted   with   t h s co r e.   T h n etwo r k   ad m in   ca n   t h en   u tili ze   th s co r to   b lo ck   th UR L   f r o m   th n etwo r k .         T h is   d etec tio n ' s   cr itical  ar ea   is   id en tify in g   th t h r esh o l d   v alu e   with   wh ich   th M ca n   b e   b en ch m ar k ed .   C o n s id er in g   t h f lex ib le  n at u r o f   th UR L   f ea tu r es,  we  d ec id ed   t o   w o r k   with   a   f lex ib le  th r esh o ld   v alu e.   T h th r esh o ld   v alu is   ca lcu lated   b y   ev al u atin g   d if f er e n d atasets   av ailab le  an d   ag r ee i n g   o n   th MS  s co r e.   T h MS  v alu e   ca lcu lated   is   ev al u ated   to   f i n d   th e   co n f u s io n   m atr ix   to   e v alu ate  th e   m o d el' s   p er f o r m an ce .   T h is   en ab les  th e   m o d el  to   b f lex ib le  en o u g h   t o   ac co m m o d ate  an y   f u tu r ch an g in   th f ea tu r ev alu atio n .   T h is   n ec ess itates a   co n tin u o u s   f ix atio n   o f   th r esh o ld   v alu es b y   e v alu atin g   t h r ec en t d ataset  tr en d s .       3.   RE SU L T S AN D I SCU SS I O   3 . 1 .     Da t a   s et   a nd   ex perim ent a l set up   T h m o d el  r eq u ir es d ata  to   b f ed   in   two   d if f er e n p h ases .   T o   in clu d t h v ar ia b ilit y   in   th e   UR L   d ata  s et,   we  h av e   co llected   d ata  f r o m   v a r io u s   s o u r ce s ,   in clu d in g   Kag g le  [ 3 3 ] ,   Ph is h T an k   [ 3 4 ] ,   an d   th C o m m o n   cr awl  d ata  s et  [ 3 5 ] .   T h s elec t io n   o f   d if f er en d atasets   f r o m   d if f er en t   s co p es  co n v in ce s   th e   m o d el' s   r eliab ilit y   as  th UR L   d ata  is   v o latile  a n d   co n s tan tly   ch an g in g .   T h e   d a ta  s et  p r o v i d es  b o th   n aïv e   an d   p h is h in g   UR L s   to   tr ain   th m o d el.   Kag g le  d ata  s ets ar u s ed   to   tr ain   th m o d el ,   b u t o n ly   ex tr ac t th r aw  UR L s   f r o m   th d ata  s et.   Ph is h in g   d ata  s et  is   co llect ed   f r o m   Ph is h tan k   r eg u lar l y ,   an d   n aïv d ata  f r o m   C o m m o n   C r awl.   A   h eter o g en e o u s   d ata  s et  is   g en er ated   b y   co m b in in g   d atasets   co llected   f r o m   d if f er en d ata  s o u r ce s   at  d if f er en in ter v als.  W u s ed   f iv tr ain i n g   d atasets   with   b o th   p o s itiv an d   n e g ativ UR L s   u n if o r m ly   allo ca ted   an d   f iv e   d if f er en d atasets   f o r   test in g ,   wh ich   in clu d ed   u n ar y   d ata.   T h m o d el  is   d ev elo p e d   b y   Py th o n   co d e ,   v er s io n   3 . 1 1 . 5 ,   with   s tan d ar d   lib r ar ies .   T h ex p er im en ts   ar co n d u ct ed   in   an   e n v ir o n m en with   s p e cif icatio n s   s u ch   as  6 4 - b it  o p er atin g   s y s tem ,   1 6   GB   R AM ,   an d   1 . 3 0   GHz   I n tel  p r o ce s s o r .     3 . 2 .     F e a t ure  identif ica t io n a nd   f ea t ure  s elec t io n   T h UR L s   co llected   f r o m   d if f e r en t so u r ce s   ar p ar s ed ,   an d   th r eq u ir e d   f ea tu r es a r r etr ie v ed .   As th UR L s   ar co llec ted   f r o m   d if f er en s o u r ce s   to   p r eser v th u n p r ed ictab ilit y   in   th d at s et,   we  ar n o t   d ep en d e n o n   th f ea tu r d ata  s et  an d   is   g en er atin g   o u r   o wn   f ea tu r s et  b y   co m b i n in g   d if f e r en UR L   d atasets   an d   p a r s in g   th e   d ata.   T h s e v en   f ea tu r es  ar f in alize d   b y   an aly zin g   th r elativ f r e q u e n cy   o f   th o s in   th e   d ataset  u n d er   co n s id er atio n .   T h f ea tu r es  s elec ted   in clu d ed   b in ar y   f ea tu r es  as  well  a s   d is cr ete  v alu e - b ased   f ea tu r es.  T ab le  1   s u m m ar izes th s elec ted   f ea tu r es a n d   th eir   r elativ p r esen ce   in   th p r ev i o u s   s tu d ies.   T h f ea tu r es  s elec ted   a r f in al is e d   by  r ein f o r c in g   th eir   r elativ im p o r tan ce   with   o th er   f ea tu r es .   T h e   ev alu atio n   is   co n d u cte d   o n   m u ltip le  s tan d ar d   d atasets ,   an d   th ei r   r elativ im p o r tan ce   is   v er if ied .   B in ar y   f ea tu r es  lik th p r esen ce   o f   Un ico d an d   s ec o n d   d o u b le  s lash   in   UR L s ,   a s   well  as  I P - b ased   UR L s ,   s h o a   clea r   d is tin ctio n   b etwe en   p h is h in g   an d   g e n u in UR L s .   Feat u r es  lik th len g th   o f   th UR L   an d   th e   n u m b e r   o f   d o ts   an d   s lash es  in   th UR L   d is p lay   co n s tan v alu e   r an g f o r   g en u in a n d   p h is h in g   U R L s   to   in d icate   th s tr en g th   o f   th s am in   p h is h in g   UR L   d etec tio n .   Fig u r 3   s h o ws  th is   f ea tu r a n aly s is   co n d u cted   o n   o n e   tr ain in g   d ataset.   T h s am is   r ep ea ted   f o r   t h o th e r   d atas ets,  to o ,   to   s u p p o r t h r esu lt .   T h ese  h an d p ick e d   f ea tu r es a r f in alize d   an d   f o r w ar d ed   to   t h n ex t le v el  to   aid   i n   p h is h in g   UR L   d etec tio n .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       P h is h in g   UR L p r ed ictio n     tw o - p h a s mo d el  u s in g   l o g is tic  r eg r ess io n   a n d   fin ite    ( N is h a   T N )   361   T ab le  1 .   Featu r im p o r tan ce   a s   co n f ir m ed   b y   p r ev io u s   r esear ch er s   F e a t u r e   C o d e   F e a t u r e   N a me   D e scri p t i o n   R e f e r e n c e s   I S _ I P   I P   b a sed   U R L   A t t a c k e r s re p l i c a t e   t h e   p a g e   t o   l u r e   u s e r s t o   a v o i d   D N S   serv e r   r e g i st r a t i o n .   [ 1 0 ] ,   [ 1 3 ] ,   [ 1 7 ] ,   [ 1 8 ] ,   [ 2 0 ] ,   [ 2 2 ]   LEN _ U R L   Le n g t h   o f   U R L   A   t i n y   U R L   e n h a n c e s   s u sp i c i o n ,   j u st   a s a   v e r y   l a r g e   U R L.   [ 1 7 ] ,   [ 2 0 ] [ 3 3 ]   C H EC K _ @   P r e sen c e   o f   @   i n   U R L   B r o w sers  i g n o r e   a n y   p r e c e d i n g   c h a r a c t e r   o f   @ w h i l e   p a r s i n g   t h e   U R L ,   w h i c h   h e l p t h e   a t t a c k e r   t o   a d d   a   g e n u i n e - l o o k i n g   d o mai n   n a m e   b e f o r e   h i s   ma l i c i o u s   d o m a i n   a n d   d u p e   a   v i c t i m.   [ 1 3 ] ,   [ 1 7 ] ,   [ 2 0 ] ,   [ 2 2 ]   C H EC K _ U N I C O D E     P r e sen c e   o f   U n i c o d e   c h a r a c t e r i n   U R L   P h i s h i n g   d o m a i n t e n d   t o   i n c l u d e   U n i c o d e   t o   g e t   a   v i s u a l   si m i l a r i t y   t o   a   g e n u i n e   w e b s i t e .   [ 1 3 ] ,   [ 1 7 ] [ 1 8 ] ,   [ 2 0 ] ,   [ 2 2 ]   N O _ O F _ D O TS_ H N A M E   N u mb e r   o f   d o t s i n   h o st   h o s t n a me     I n c l u d i n g   d o t s i s a   t e c h n i q u e   a t t a c k e r s   a d o p t   t o   h i d e   t h e   p h i s h i n g   d o mai n   i n si d e   a   l e g i t i m a t e   d o m a i n .   [ 1 3 ] ,   [ 1 8 ] [ 2 2 ] [ 3 3 ]   S EC O N D _ D O U B _ S LA S H     P r e sen c e   o f   a   se c o n d   d o u b l e   sl a s h   i n   U R L   A d d i n g   a   s e c o n d   d o u b l e   s l a s h   i n   U R L   w i l l   c o n f u s e   t h e   c r a w l e r s w i t h   d i f f e r e n t   v e r si o n s.   N O _ O F _ S LA S H ES   N u mb e r   o f   sl a sh e i n   U R L   N u mb e r   o f   sl a sh e i n   a   U R i n d i c a t e s   t h e   n u m b e r   o f   su b d o m a i n a n d   i a   d i r e c t   i n d i c a t i o n   t h a t   a   U R i u n t r u s t e d .           Fig u r 3 .   Featu r e   d is tr ib u tio n       3 . 3 .     F e a t ure  r a nk ing   T h id en tifie d   f ea tu r p r o b a b i liti es  ar u s ed   f o r   f ea tu r r an k in g .   As  th tr ain in g   d ata  is   n o u n if o r m ,   th r esu lt  also   s h o ws  h eter o g e n eity   in   th e   p r o b ab ilit y   v alu es .   T h e   h eter o g en e o u s   v alu es  a n d   th e   r ea s o n   f o r   it  ar clea r ly   v is ib le   f r o m   th f ea tu r s u m m a r y   s tatis tics .   T h p r esen ce   o r   a b s en ce   o f   UR L   s am p les  with   in d iv id u al  f ea tu r es  lar g ely   in f lu en ce s   th p r o b ab ilit y   v al u es,  as  ev id en f r o m   th d atasets .   T h is   r ep licates  th e   r ea l - wo r ld   UR L   d ata,   wh e r t h m o d el  will wo r k ,   wh ich   h a s   n o   p r ed icta b ilit y   o n   th e   f ea tu r p r esen ce .     L o g is tic  r eg r ess io n   is   ap p lied   to   ea ch   d ata  s et  s ep ar ately ,   an d   attr ib u tes  lik co ef f icien ts ,   o d d s   r atio s ,   an d   p r o b a b ilit y   v al u es  ar e   c alcu lated   an d   an al y ze d .   T h e   ca lcu lated   c o ef f icien t   v alu e s ,   o d d s   r atio ,   a n d   p r o b a b ilit y   ar g iv e n   in   T a b le  2 .   T h a v er ag v alu o f   p r o b a b ilit y   is   f o u n d   to   b r ep r esen t ativ an d   is   u s ed   in   th f ea tu r r a n k in g   p h ase.   T h e   f ea tu r p r o b a b ilit y   tu p le  f in ali ze d   is   as g iv en   in   T a b le  3 .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci Vo l.  40 ,   No .   1 ,   Octo b er   20 25 :   356 - 3 6 5   362   T ab le  2 .   C o ef f icien t,   o d d s   r atio   an d   p r o b ab ilit ies o f   tr ain in g   s et   D a t a   set   A t t r i b u t e   N a mes   I S _ I P   LEN _ U RL   C H EC K _ @   C H EC K _   U N I C O D E   N O _ O F _ D O TS   _ H N A M E   S EC O N D _   D O U B _ S L A S H   N O _ O F _   S LA S H ES   TR A I N # 1   Ph i s h i n g :   5 7 4 1   N a ï v e :   5 7 4 0   C o e f f i c i e n t s   3 . 1 5   0 . 0 1   3 . 6 2   - 0 . 3 9   0 . 1 8   1 . 9 7   0 . 1 7   O d d s   R a t i o   2 3 . 4 2   1 . 0 1   3 7 . 3 8   0 . 6 8   1 . 2 0   7 . 1 7   1 . 1 8   P r o b a b i l i t i e s   0 . 9 6   0 . 5 0   0 . 9 7   0 . 4 0   0 . 5 5   0 . 8 8   0 . 5 4   TR A I N # 2   Ph i s h i n g :   5 5 0 4 2   N a ï v e :   4 0 8 6 8   C o e f f i c i e n t s   0 . 0 0   0 . 0 0   0 . 8 9   0 . 5 7   0 . 0 0   0 . 5 3   0 . 0 4   O d d s   R a t i o   1 . 0 0   1 . 0 0   2 . 4 3   1 . 7 6   1 . 0 0   1 . 7 0   1 . 0 4   P r o b a b i l i t i e s   0 . 5 0   0 . 5 0   0 . 7 1   0 . 6 4   0 . 5 0   0 . 6 3   0 . 5 1   TR A I N # 3   Ph i s h i n g :   9 8 0   N a ï v e :     8 5 8   C o e f f i c i e n t s   - 1 . 5 0   0 . 0 2   0 . 6 5   - 0 . 0 7   0 . 2 7   0 . 0 8   1 . 5 1   O d d s   R a t i o   0 . 2 2   1 . 0 2   1 . 9 2   0 . 9 3   1 . 3 1   1 . 0 8   4 . 5 2   P r o b a b i l i t i e s   0 . 1 8   0 . 5 1   0 . 6 6   0 . 4 8   0 . 5 7   0 . 5 2   0 . 8 2   TR A I N # 4   Ph i s h i n g :   3 6 1 2   N a ï v e :     3 2 9 7   C o e f f i c i e n t s   0 . 9 5   0 . 0 2   0 . 1 4   0 . 1 8   - 0 . 2 2   - 1 . 1 4   0 . 1 6   O d d s   R a t i o   2 . 5 9   1 . 0 2   1 . 1 5   1 . 1 9   0 . 8 0   0 . 3 2   1 . 1 8   P r o b a b i l i t i e s   0 . 7 2   0 . 5 0   0 . 5 3   0 . 5 4   0 . 4 5   0 . 2 4   0 . 5 4   TR A I N # 5   Ph i s h i n g :   1 9 2 8 3 0   N a ï v e :     1 7 9 4 8 5   C o e f f i c i e n t s   3 . 0 1   0 . 0 0   2 . 6 6   - 0 . 5 3   2 . 1 0   4 . 3 6   0 . 1 9   O d d s   R a t i o   2 0 . 2 8   1 . 0 0   1 4 . 2 7   0 . 5 9   8 . 1 7   7 8 . 4 4   1 . 2 0   P r o b a b i l i t i e s   0 . 9 5   0 . 5 0   0 . 9 3   0 . 3 7   0 . 8 9   0 . 9 9   0 . 5 5       T ab le  3 .   Selecte d   f ea tu r es p r o b ab ilit y   v alu es   F e a t u r e _ N a m e   P r o b a b i l i t y   v a l u e   ( A v e r a g e )   C H EC K _ @   0 . 7 6 1 6   I S _ I P   0 . 6 6 3 2   S EC O N D _ D O U B _ S LA S H   0 . 6 5 1 4   N O _ O F _ S LA S H ES   0 . 5 9 1 6   N O _ O F _ D O TS_ H N A M E   0 . 5 9 0 0   LEN _ U R L   0 . 5 0 2 8   C H EC K _ U N I C O D E   0 . 4 8 7 8       3 . 4 .     P UP - p his hi ng   URL  p re dict io   T h MS  o f   th UR L   is   ca lcu l ated   an d   is   aler ted   if   it  is   m o r th an   th ac ce p ted   th r esh o ld   v alu e.   T h e   th r esh o ld   v alu f o r   MS  is   ca lcu lated   b y   f ee d in g   th e   test in g   s et  U R L s   to   th f in ite  s tate  m ac h in e   ( PHI SH_ FS A)   cr ea ted   an d   th th r esh o ld   v alu es  ar f i n alize d .   T h d atasets   T E ST# 1   an d   T E ST# 2   r etu r n ed   a   th r esh o ld   v alu o f   2 ,   m ea n in g   an y   UR L   ev alu atio n   r esu lts   i n   MS  g r ea ter   th an   2   is   s u s p ec ted   as  m alicio u s   UR L s .   Fig u r 4   ( s ee   i n   A p p e n d ix r e p r esen ts   th ca lc u lated   MS  v alu e   f o r   th e   d if f e r en UR L   d atasets   u n d er   co n s id er atio n ,   with   u r r ef er e n ce   n u m b er   in   th a x is   an d   MS  o n   th ax is .   T h m a licio u s   s co r v alu e   d is tr ib u tio n   f o r   th e   test in g   d a tasets .   T h r esu lt  c o n f ir m s   th r esh o ld   v alu e   o f   2   is   en o u g h   f o r   a   UR L   to   b e   ca teg o r ized   as  p h is h in g   UR L .         4.   CO NCLU SI O N     As  th is   m o d el  p er f o r m s   th d etec tio n   b ased   o n   th s elf - g en er ated   f ea tu r s et,   th is   m o d el  s h o ws  d if f er en p er f o r m a n ce   in d icato r s   co m p ar ed   to   th p ar allel  r esear ch   f in d in g s .   Ph is h in g   tech n iq u es  ar ev o lv in g   d aily   an d   attac k er s   ar f in d in g   n ew  way s   to   o b f u s ca te  th ir r eg u lar ities   in   th e   UR L .   T h i s   m o d el  p u f o r th   a   h ig h ly   ad a p tab le  m o d el  f o r   th ese  ch an g es  wh ich   ca n   ac co m m o d ate  th n ew  f ea t u r es  co m i n g   u p   a n d   p r o v id e   p r o m is in g   r esu lts .   T h ch a n g e   ad ap tab ilit y   is   g u ar an teed   b y   co n tin u o u s   ch ec k in g   a n d   r e v i s in g   o f   th f ea tu r weig h ts   an d   th r esh o l d   v alu es.   T h n aiv id ea   o f   r ea tim p h is h in g   UR L   d etec tio n   u s in g   f in ite  s tate  au to m ata  is   im p lem en ted   s u cc ess f u lly   in   th is   m o d el.   T h r ea tim an aly s is   o f   th UR L   g iv es  th ad v an tag to   th m o d el  as  th m o d el  will  n o b b iased   to war d s   s in g le  d ata  s et  u s ed   in   th tr a in in g   p h ase.   T h m o d el  ex p e r im en tatio n   s h o ws  p r o m is in g   r ates  o f   f alse  p o s itiv es  wh ile  test ed   with   th n ai v d ata  s e t.  T h f alse  n eg ativ es  s till   n ee d   to   b im p r o v e d   an d   r ea s o n   f o u n d   to   b th v er s atility   o f   th p h is h in g   UR L s   we  co llect  an d   ev alu ate.   Ho wev er ,   th e   PHI SH_ FS i s   m o d elled   s o   t h at  th ese  ad ju s tm en ts   ca n   b e asil y   ac co m m o d ated ,   an d   th m o d el  ca n   b tu n ed .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       P h is h in g   UR L p r ed ictio n     tw o - p h a s mo d el  u s in g   l o g is tic  r eg r ess io n   a n d   fin ite    ( N is h a   T N )   363   T h F I R   p h ase  is   also   d ev elo p ed ,   co n s id er i n g   th at  th ese  n ew  f ea tu r es  s h o u ld   b ac co m m o d ated   with o u m an y   ch an g es in   th m o d el   T h m o d el  ca n   b im p lem e n t ed   to   f in d   th MS  o f   th UR L ,   an d   th ad m in is tr ato r   ca n   d ec id th th r esh o ld   an d   eith er   ac ce p o r   r ejec an y   n ew  UR L   en ter in g   th o r g an izatio n al  n etwo r k   te r r ito r y .   T h m o d el   n ee d s   to   b c o n s tan tly   tu n ed   with   n ew  d atasets   to   i n clu d e   n ew  f ea tu r es  t h at  th e   attac k er s   ca n   tr y ,   an d   it  also   n ee d s   to   r ev a m p   th PHI SH_ F SA a t r eg u lar   in ter v als s o   th at  th er r o r   r ates a r r ed u ce d .       F UNDING   I NF O R M A T I O   Au th o r s   s tate  n o   f u n d in g   in v o lv ed .       AUTHO CO NT RI B UT I O NS ST A T E M E N T     T h is   jo u r n al  u s es  th e   C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT)   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .       Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   Nis h T   N                               Dh an y Pra m o d                                 C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So f t w a r e   Va     Va l i d a t i o n   Fo     Fo r mal   a n a l y s i s   I     I n v e s t i g a t i o n   R     R e so u r c e s   D   :   D a t a   C u r a t i o n   O   :   W r i t i n g   -   O r i g i n a l   D r a f t   E   :   W r i t i n g   -   R e v i e w   &   E d i t i n g   Vi     Vi su a l i z a t i o n   Su     Su p e r v i s i o n   P     P r o j e c t   a d mi n i st r a t i o n   Fu     Fu n d i n g   a c q u i si t i o n         CO NF L I C T   O F   I N T E R E S T   ST A T E M E NT     Au th o r s   s tate  n o   co n f lict o f   in t er est.       DATA AV AI L AB I L I T   Data   av ailab ilit y   is   n o ap p li ca b le  to   th is   p ap er   as  n o   n e d ata  wer cr ea ted   o r   an aly ze d   in   th is   s tu d y .       RE F E R E NC E S   [ 1 ]     B a k e r h o s t e t l e r ,   B a k e r H o st e t l e r 2 0 2 5   d a t a   s e c u r i t y   i n c i d e n t   r e s p o n s e   r e p o r t   f i n d s   l e ss ma l w a r e   u s e d   i n   2 0 2 4 ,   2 0 2 5 ,   [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / w w w . b a k e r l a w . c o m / i n si g h t s/ b a k e r h o st e t l e r - l a u n c h e s - 2 0 2 4 - d a t a - s e c u r i t y - i n c i d e n t - r e s p o n s e - r e p o r t - p e r si s t e n t - t h r e a t s - n e w - c h a l l e n g e s / .   A c c e sse d :   N o v .   1 0 ,   2 0 2 4 .   [ 2 ]     En t e r p r i se   se c u r i t y   s o l u t i o n s ,   I b m. c o m.  [ O n l i n e ] .   A v a i l a b l e :   h t t p s : / / w w w . i b m . c o m/ s e c u r i t y .   A c c e ss e d :   N o v ,   1 3 ,   2 0 2 4 .   [ 3 ]     F .   L .   G r e i t z e r ,   J.   R .   S t r o z e r ,   S .   C o h e n ,   A .   P .   M o o r e ,   D .   M u n d i e ,   a n d   J.   C o w l e y ,   A n a l y s i s o f   u n i n t e n t i o n a l   i n s i d e r   t h r e a t s   d e r i v i n g   f r o m so c i a l   e n g i n e e r i n g   e x p l o i t s,   i n   2 0 1 4   I EE S e c u r i t y   a n d   Pr i v a c y   Wo r k sh o p s ,   2 0 1 4 .   [ 4 ]     A P W G ,   A p w g . o r g .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s : / / a p w g . o r g / t r e n d sr e p o r t s.   A c c e ss e d :   O c t .   1 3 ,   2 0 2 4 .   [ 5 ]     O .   C h r i s t o u ,   N .   P i t r o p a k i s,   P .   P a p a d o p o u l o s ,   S .   M c K e o w n ,   a n d   W .   B u c h a n a n ,   P h i s h i n g   U R d e t e c t i o n   t h r o u g h   t o p - l e v e l   d o ma i n   a n a l y si s :   A   d e s c r i p t i v e   a p p r o a c h ,   i n   P r o c e e d i n g o f   t h e   6 t h   I n t e r n a t i o n a l   C o n f e r e n c e   o n   I n f o r mat i o n   S y s t e ms  S e c u r i t y   a n d   P r i v a c y ,   2 0 2 0 ,   d o i :   1 0 . 5 2 2 0 / 0 0 0 8 9 0 2 2 0 2 8 9 0 2 9 8 .   [ 6 ]     A .   Y a si n   a n d   A .   A b u h a s a n ,   A n   i n t e l l i g e n t   c l a ssi f i c a t i o n   m o d e l   f o r   p h i sh i n g   e ma i l   d e t e c t i o n ,   I n t .   J .   N e t w .   S e c u r.  A p p l . ,   v o l .   8 ,   n o .   4 ,   p p .   5 5 7 2 ,   2 0 1 6 ,   d o i :   1 0 . 5 1 2 1 / i j n s a . 2 0 1 6 . 8 4 0 5 .   [ 7 ]     S .   A t a w n e h   a n d   H .   A l j e h a n i ,   P h i sh i n g   e ma i l   d e t e c t i o n   m o d e l   u si n g   d e e p   l e a r n i n g ,   El e c t r o n i c ( Ba s e l ) ,   v o l .   1 2 ,   n o .   2 0 ,   p .   4 2 6 1 ,   2 0 2 3 ,   d o i :   1 0 . 3 3 9 0 / e l e c t r o n i c s 1 2 2 0 4 2 6 1 .   [ 8 ]     Y .   F a n g ,   C .   Z h a n g ,   C .   H u a n g ,   L.   L i u ,   a n d   Y .   Y a n g ,   P h i s h i n g   e ma i l   d e t e c t i o n   u si n g   i mp r o v e d   R C N N   mo d e l   w i t h   m u l t i l e v e l   v e c t o r s a n d   a t t e n t i o n   me c h a n i sm ,   I E EE  A c c e ss ,   v o l .   7 ,   p p .   5 6 3 2 9 5 6 3 4 0 ,   2 0 1 9 d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 1 9 . 2 9 1 3 7 0 5 .   [ 9 ]     N .   B .   H a r i k r i s h n a n ,   R .   V i n a y a k u m a r ,   a n d   K .   P .   S o m a n ,   A   ma c h i n e   l e a r n i n g   a p p r o a c h   t o w a r d p h i s h i n g   e mai l   d e t e c t i o n ,   Pro c e e d i n g o f   t h e   A n t i - Ph i sh i n g   Pi l o t   a t   A C M   I n t e r n a t i o n a l   Wo r k s h o p   o n   S e c u ri t y   a n d   Pr i v a c y   A n a l y t i c ( I WS P A P) ,   v o l .   2 0 1 3 ,   p p .   4 5 5 4 6 8 ,   2 0 1 8 .   [ 1 0 ]     J.  Le e ,   F .   T a n g ,   P .   Y e ,   F .   A b b a si ,   P .   H a y ,   a n d   D .   M .   D i v a k a r a n ,   D - F e n c e : A   F l e x i b l e ,   e f f i c i e n t ,   a n d   c o m p r e h e n s i v e   p h i s h i n g   e mai l   d e t e c t i o n   s y st e m ,   i n   2 0 2 1   I EE E u ro p e a n   S y m p o s i u m   o n   S e c u r i t y   a n d   Pri v a c y   ( Eu r o S &P) ,   I EEE ,   2 0 2 1 ,   p p .   5 7 8 5 9 7 .   [ 1 1 ]     D .   L.   C o o k ,   V .   K .   G u r b a n i ,   a n d   M .   D a n i l u k ,   P h i s h w i s h :   A   st a t e l e s p h i s h i n g   f i l t e r   u si n g   m i n i ma l   r u l e s,”   i n   Fi n a n c i a l   C ry p t o g ra p h y   a n d   D a t a   S e c u ri t y ,   B e r l i n ,   H e i d e l b e r g :   S p r i n g e r   B e r l i n   H e i d e l b e r g ,   2 0 0 8 ,   p p .   1 8 2 1 8 6 .   [ 1 2 ]     P .   A g r a w a l   a n d   D .   M a n g a l ,   A   n o v e l   a p p r o a c h   f o r   p h i s h i n g   U R Ls  D e t e c t i o n ,   I n t e r n a t i o n a l   J o u r n a l   o f   S c i e n c e   a n d   R e se a rc h   ( I J S R) ,   v o l .   5 ,   n o .   5 ,   p p .   1 1 1 7 1 1 2 2 ,   2 0 1 5 .   [ 1 3 ]     M .   S .   K u mar  a n d   B .   I n d r a n i ,   F r e q u e n t   r u l e   r e d u c t i o n   f o r   p h i s h i n g   U R c l a ssi f i c a t i o n   u s i n g   f u z z y   d e e p   n e u r a l   n e t w o r k   m o d e l ,   I r a n   J .   C o m p u t .   S c i . ,   v o l .   4 ,   n o .   2 ,   p p .   8 5 9 3 ,   2 0 2 1 d o i :   1 0 . 1 0 0 7 / s4 2 0 4 4 - 0 2 0 - 0 0 0 6 7 - x .   [ 1 4 ]     A .   K a r i m,   M .   S h a h r o z ,   K .   M u st o f a ,   S .   B .   B e l h a o u a r i ,   a n d   S .   R .   K .   Jo g a ,   P h i s h i n g   d e t e c t i o n   s y st e m   t h r o u g h   h y b r i d   mac h i n e   l e a r n i n g   b a se d   o n   U R L,   I EEE   Ac c e s s,   v o l .   1 1 ,   p p .   3 6 8 0 5 3 6 8 2 2 ,   2 0 2 3 d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 2 5 2 3 6 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci Vo l.  40 ,   No .   1 ,   Octo b er   20 25 :   356 - 3 6 5   364   [ 1 5 ]     S .   Ja l i l ,   M .   U sma n ,   a n d   A .   F o n g ,   H i g h l y   a c c u r a t e   p h i s h i n g   U R L   d e t e c t i o n   b a se d   o n   m a c h i n e   l e a r n i n g ,   J .   Am b i e n t   I n t e l l .   H u m a n i z .   C o m p u t . ,   v o l .   1 4 ,   p p .   9 2 3 3 - 9 2 1 5 ,   2 0 2 3 ,   d o i :   1 0 . 1 0 0 7 / s 1 2 6 5 2 - 0 2 2 - 0 4 4 2 6 - 3 .     [ 1 6 ]     L.   X u ,   Z.   Zh a n ,   S .   X u ,   a n d   K .   Y e ,   C r o ss - l a y e r   d e t e c t i o n   o f   mal i c i o u s   w e b si t e s ,   i n   Pr o c e e d i n g o f   t h e   t h i r d   AC c o n f e re n c e   o n   D a t a   a n d   a p p l i c a t i o n   se c u ri t y   a n d   p r i v a c y ,   2 0 1 3 d o i :   1 0 . 1 1 4 5 / 2 4 3 5 3 4 9 . 2 4 3 5 3 6 6 .   [ 1 7 ]     R .   M .   M o h a mm a d ,   F .   T h a b t a h ,   a n d   L.   M c C l u s k e y ,   I n t e l l i g e n t   r u l e b a s e d   p h i s h i n g   w e b s i t e c l a ssi f i c a t i o n ,   I ET  I n f .   S e c u r. ,   v o l .   8 ,   n o .   3 ,   p p .   1 5 3 1 6 0 ,   2 0 1 4 d o i :   1 0 . 1 0 4 9 / i e t - i f s. 2 0 1 3 . 0 2 0 2 .   [ 1 8 ]     P .   P r a k a s h ,   M .   K u mar,   R .   R .   K o m p e l l a ,   a n d   M .   G u p t a ,   P h i s h N e t :   P r e d i c t i v e   b l a c k l i st i n g   t o   d e t e c t   p h i s h i n g   a t t a c k s,   i n   2 0 1 0   Pro c e e d i n g s IEE I N FO C O M ,   2 0 1 0 ,   p p .   1 - 5 ,   d o i :   1 0 . 1 1 0 9 / I N F C O M . 2 0 1 0 . 5 4 6 2 2 1 6 .   [ 1 9 ]     M .   A b u r r o u s ,   M .   A .   H o ssai n ,   K .   D a h a l ,   a n d   F .   T h a b t a h ,   I n t e l l i g e n t   p h i s h i n g   d e t e c t i o n   s y st e f o r   e - b a n k i n g   u si n g   f u z z y   d a t a   mi n i n g ,   E x p e rt   S y st .   A p p l . ,   v o l .   3 7 ,   n o .   1 2 ,   p p .   7 9 1 3 7 9 2 1 ,   2 0 1 0 ,   d o i :   1 0 . 1 0 1 6 / j . e sw a . 2 0 1 0 . 0 4 . 0 4 4 .   [ 2 0 ]     J.  H o n g ,   T.   K i m ,   J.  Li u ,   N .   P a r k ,   a n d   S .   W .   K i m,  P h i sh i n g   u r l   d e t e c t i o n   w i t h   l e x i c a l   f e a t u r e a n d   b l a c k l i st e d   d o mai n s Ad a p t i v e   a u t o n o m o u s s e c u re   c y b e r sy s t e m s ,   p p .   2 5 3 2 6 7 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 0 3 0 - 3 3 4 3 2 - 1 _ 1 2 .   [ 2 1 ]     G .   X i a n g ,   J.  H o n g ,   C .   P .   R o se ,   a n d   L .   C r a n o r ,   C a n t i n a +   a   f e a t u r e - r i c h   ma c h i n e   l e a r n i n g   f r a m e w o r k   f o r   d e t e c t i n g   p h i s h i n g   w e b   si t e s ,   A C T r a n sa c t i o n o n   I n f o rm a t i o n   a n d   S y st e m   S e c u ri t y   ( T I S S E C ) ,   v o l .   1 4 ,   n o .   2 ,   p p .   1 2 8 ,   2 0 1 1 ,   d o i :   1 0 . 1 1 4 5 / 2 0 1 9 5 9 9 . 2 0 1 9 6 0 6 .   [ 2 2 ]     A .   K .   J a i n ,   S .   P a r a s h a r ,   P .   K a t a r e ,   a n d   I .   S h a r ma,   P h i s h S K a P e :   A   c o n t e n t - b a se d   a p p r o a c h   t o   e sca p e   p h i s h i n g   a t t a c k s,   P ro c e d i a   C o m p u t .   S c i . ,   v o l .   1 7 1 ,   p p .   1 1 0 2 1 1 0 9 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . p r o c s . 2 0 2 0 . 0 4 . 1 1 8 .   [ 2 3 ]     Y .   Z h a n g ,   J .   I .   H o n g ,   a n d   L .   F .   C ra n o r,   C a n t i n a :   a   c o n t e n t - b a se d   a p p ro a c h   t o   d e t e c t i n g   p h i s h i n g   w e b   s i t e s ,   i n   Pr o c e e d i n g s   o f   t h e   1 6 t h   i n t e rn a t i o n a l   c o n f e re n c e   o n   Wo r l d   W i d e   W eb ,   2 0 0 7 ,   p p .   6 3 9 6 4 8 ,   d o i :   1 0 . 1 1 4 5 / 1 2 4 2 5 7 2 . 1 2 4 2 6 5 9 .   [ 2 4 ]     B .   W a r d ma n ,   T.   S t a l l i n g s,   G .   W a r n e r ,   a n d   A .   S k j e l l u m ,   H i g h - p e r f o r ma n c e   c o n t e n t - b a s e d   p h i sh i n g   a t t a c k   d e t e c t i o n ,   i n   2 0 1 1   e C ri m e   R e se a rc h e r S u m m i t ,   2 0 1 1 ,   d o i :   1 0 . 1 1 0 9 / e C r i m e . 2 0 1 1 . 6 1 5 1 9 7 7 .   [ 2 5 ]     Y .   C a o ,   W .   H a n ,   a n d   Y .   Le ,   A n t i - p h i sh i n g   b a se d   o n   a u t o m a t e d   i n d i v i d u a l   w h i t e - l i s t ,   i n   Pro c e e d i n g o f   t h e   4 t h   AC w o r k sh o p   o n   D i g i t a l   i d e n t i t y   m a n a g e m e n t ,   2 0 0 8 ,   p p .   5 1 - 6 0 ,   d o i :   1 0 . 1 1 4 5 / 1 4 5 6 4 2 4 . 1 4 5 6 4 3 4 .   [ 2 6 ]     G .   X i a n g   a n d   J .   I .   H o n g ,   A   h y b r i d   p h i s h   d e t e c t i o n   a p p r o a c h   b y   i d e n t i t y   d i sco v e r y   a n d   k e y w o r d s   r e t r i e v a l ,   i n   P ro c e e d i n g s   o f   t h e   1 8 t h   I n t e r n a t i o n a l   C o n f e re n c e   o n   W o rl d   Wi d e   W e b ,   2 0 0 9 ,   d o i :   1 0 . 1 1 4 5 / 1 5 2 6 7 0 9 . 1 5 2 6 7 8 .   [ 2 7 ]     S .   A f r o z   a n d   R .   G r e e n s t a d t ,   P h i s h Zo o :   D e t e c t i n g   p h i s h i n g   w e b s i t e b y   l o o k i n g   a t   t h e m,”   i n   2 0 1 1   I E EE   Fi f t h   I n t e r n a t i o n a l   C o n f e re n c e   o n   S e m a n t i c   C o m p u t i n g ,   2 0 1 1 ,   p p .   3 6 8 - 3 7 5 ,   d o i :   1 0 . 1 1 0 9 / I C S C . 2 0 1 1 . 5 2 .   [ 2 8 ]     M .   D u n l o p ,   S .   G r o a t ,   a n d   D .   S h e l l y ,   G o l d P h i s h :   U s i n g   i ma g e f o r   c o n t e n t - b a s e d   p h i s h i n g   a n a l y si s ,   i n   2 0 1 0   F i f t h   I n t e rn a t i o n a l   C o n f e re n c e   o n   I n t e r n e t   M o n i t o r i n g   a n d   Pr o t e c t i o n ,   2 0 1 0 .   [ 2 9 ]     A .   O z c a n ,   C .   C a t a l ,   E .   D o n me z ,   a n d   B .   S e n t u r k ,   A   h y b r i d   D N N - LST M   mo d e l   f o r   d e t e c t i n g   p h i sh i n g   U R L s,”   N e u r a l   C o m p u t .   Ap p l . ,   v o l .   3 5 ,   n o .   7 ,   p p .   4 9 5 7 4 9 7 3 ,   2 0 2 3 ,   d o i :   1 0 . 1 0 0 7 / s0 0 5 2 1 - 0 2 1 - 0 6 4 0 1 - z.   [ 3 0 ]     H .   L e ,   Q .   P h a m,   D .   S a h o o ,   a n d   S .   C .   H .   H o i ,   U R LN e t :   L e a r n i n g   a   U R L   r e p r e s e n t a t i o n   w i t h   d e e p   l e a r n i n g   f o r   ma l i c i o u U R L   D e t e c t i o n ,   a r X i v   [ c s. C R ] ,   2 0 1 8 .   [ 3 1 ]     F .   T a j a d d o d i a n f a r ,   J.  W .   S t o k e s,   a n d   A .   G u r u r a j a n ,   Te x c e p t i o n :   A   c h a r a c t e r / w o r d - l e v e l   d e e p   l e a r n i n g   m o d e l   f o r   p h i s h i n g   U R d e t e c t i o n ,   i n   I C AS S P   2 0 2 0   -   2 0 2 0   I EEE  I n t e rn a t i o n a l   C o n f e r e n c e   o n   Ac o u s t i c s,  S p e e c h   a n d   S i g n a l   Pro c e ss i n g   ( I C A S S P) ,   2 0 2 0 p p .   2 8 5 7 - 2 8 6 1 ,   d o i :   1 0 . 1 1 0 9 / I C A S S P 4 0 7 7 6 . 2 0 2 0 . 9 0 5 3 6 7 0 .   [ 3 2 ]     H .   S h a h r i a r   a n d   M .   Z u l k e r n i n e ,   P h i s h Te s t e r :   A u t o ma t i c   t e s t i n g   o f   p h i s h i n g   a t t a c k s ,   i n   2 0 1 0   F o u r t h   I n t e rn a t i o n a l   C o n f e re n c e   o n   S e c u r e   S o f t w a r e   I n t e g r a t i o n   a n d   R e l i a b i l i t y   I m p r o v e m e n t ,   2 0 1 0 ,   p p .   1 9 8 - 2 0 7 ,   d o i :   1 0 . 1 1 0 9 / S S I R I . 2 0 1 0 . 1 7 .   [ 3 3 ]     K a g g l e . c o m.   [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / w w w . k a g g l e . c o m / .   A c c e s se d :   S e p .   1 3 ,   2 0 2 4 .   [ 3 4 ]     P h i s h t a n k . c o m.  [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / w w w . p h i s h t a n k . c o m / .   A c c e sse d :   O c t .   1 3 ,   2 0 2 4 .   [ 3 5 ]     C o mm o n   c r a w l   -   o v e r v i e w ,   C o m mo n c r a w l . o r g .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / c o mm o n c r a w l . o r g / t h e - d a t a / .   A c c e sse d :   M a y .   1 3 ,   2 0 2 4 .       AP P E NDI X             Fig u r 4 .   Ma licio u s   s co r d is tr ib u tio n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       P h is h in g   UR L p r ed ictio n     tw o - p h a s mo d el  u s in g   l o g is tic  r eg r ess io n   a n d   fin ite    ( N is h a   T N )   365   B I O G RAP H I E S O F   AUTH O RS          Nisha   N           sh e   w o rk s   a As sista n P r o fe ss o a S y m b i o sis  Ce n tr e   fo In f o rm a ti o n   Tec h n o l o g y   (S CIT) ,   a   c o n stit u e n o t h e   S y m b i o sis  In ter n a ti o n a Un iv e rsity   ( S IU),  P u n e .   S h e   c o m p lete d   P h . D.   in   Co m p u ter  S c ien c e   fro m   S y m b io sis   In tern a ti o n a U n iv e rsit y   i n   n e two r k   in tru si o n   d e tec ti o n .   S h e   h a a   t e a c h in g   e x p e rie n c e   o fift e e n   y e a rs  in   th e   a re a su c h   a s   in fo rm a ti o n   se c u rit y ,   e th ica h a c k in g ,   p ro g ra m m in g   c o n c e p ts,   o p ti m iza ti o n   a n d   c y b e r   in telli g e n c e .   S h e   c a n   b e   c o n tac ted   a e m a il n ish a @s c it . e d u .             Dha n y a   Pra m o d           s h e   is   a   P ro fe ss o a n d   Dire c to r   a t h e   S y m b io sis  Ce n tre   fo In fo rm a ti o n   Tec h n o l o g y   (S CI T) ,   a   c o n sti tu e n t   o th e   S y m b i o sis  In tern a ti o n a U n iv e rsit y   (S IU),  P u n e .   S h e   h a a   Ph . D .   in   Co m p u ter  S c ien c e   fro m   S y m b io s is  In tern a ti o n a U n iv e rsit y ,   In d ia   a n d   h e tea c h in g   a n d   r e se a rc h   in tere sts  a re   in fo rm a ti o n   se c u rit y ,   n e two r k a n d   a p p li c a ti o n   se c u rit y   a n d   p re d ictiv e   a laly t ics .   Sh e   c a n   b e   c o n tac ted   a e m a il d h a n y a sp ra m o d @ g m a il . c o m .       Evaluation Warning : The document was created with Spire.PDF for Python.