I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   36 ,   No .   1 Octo b er   20 24 ,   p p .   63 1~ 6 3 8   I SS N:  2 502 - 4 7 52 ,   DOI 1 0 . 1 1 5 9 1 /ijee cs .v 36. i 1 . p p 63 1 - 6 3 8     631     J o ur na l ho m ep a g e h ttp : //ij ee cs . ia esco r e. co m   An optima l ma chi ne learning - ba sed  alg o rithm f o r d et ecting  phish ing  attacks   using  URL in for ma tion       Na nd ee s h a   H a llim y s o re   Dev a ra j P r a s a nn a   B a ntig a na ha lli T him a pp a   D e p a r t me n t   o f   C o mp u t e r   S c i e n c e   a n d   En g i n e e r i n g ,   JS S   S c i e n c e   a n d   Te c h n o l o g y   U n i v e r si t y ,   M y s o r e ,   I n d i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ma r   1 7 ,   2 0 2 4   R ev is ed   J u n   8 2 0 2 4   Acc ep ted   J u n   25 ,   2 0 2 4       In   re c e n y e a rs,  m o re   we b si tes   h a v e   b e e n   c o ll e c ti n g   p e rso n a i n fo r m a ti o n   fo m a n y   p ro c e ss e s,  su c h   a b a n k s,  in tern e c o n n e c ti o n s ,   a n d   g o v e rn m e n t   se rv ice s .   Th e   p u b li c   n e e d t o   p ro v id e   a ll   p e rso n a i n fo rm a ti o n ,   su c h   a Aa d h a r,   P AN   c a rd d a te  o b irt h ,   a n d   p h o n e   n u m b e r .   T h e   p e r so n a a n d   se n siti v e   in f o rm a ti o n   is  a risk   o b e in g   u se d   f o p h ish i n g   a tt a c k th ro u g h   URL  m a n ip u latio n .   In   a d d it i o n ,   a   p h ish in g   a tt a c k   c a u se ’s   fin a n c ial  a n d   re p u tatio n a lo ss .   He n c e   p r o te c ti n g   se n siti v e   in f o rm a ti o n   b y   a d a p ti n g   re q u ired   p ro tec ti o n   is  e x trem e ly   v a lu a b le  f o g lo b a se c u rit y .   T o   o v e rc o m e   th is,  we   p r o p o se d   a   m e th o d   t o   d e tec p h is h in g   a tt a c k b a se d   o n   p re v i o u s   h isto r y ,   in c l u d i n g   th e   d u ra ti o n   o o p e ra ti o n ,   c u st o m e re v iew s,   we b   traffic,   a n d   t h e   URL.   Ba se d   o n   t h e se   p a ra m e ters ,   th e   p ro p o se d   o p ti m a l   m a c h in e   lea rn in g - b a se d   a lg o rit h m   (Om LA)  a n a ly z e   th e   p re v i o u i n fo rm a ti o n   a b o u t   URLs  a n d   p re d ict  wh e t h e it   is  p h ish in g -   o r   leg it ima te.  As   p e sim u latio n   a n d   p e rf o rm a n c e   a n a ly sis,  th e   p ro p o se d   m e th o d   o u tp e rf o rm c o n v e n t io n a l   m e th o d s u c h   a ra n d o m   f o re st   (RF ) ,   su p p o rt  v e c to m a c h in e   (S VM),   a n d   g e n e ti c   a lg o rit h m s   (G A)   b y   8 % ,   1 8 % ,   a n d   2 3 % ,   re s p e c ti v e ly   in   term o f   a c c u ra c y .   Ad d it i o n a ll y ,   it   a c h iev e d e tec ti o n   ti m e o 0 . 2 % ,   0 . 6 % ,   a n d   0 . 9 % ,   re sp e c ti v e ly ,   a n d   e x c e ls  in   re sp o n se   ti m e o 0 . 4 5 % ,   0 . 5 6 % ,   a n d   0 . 6 2 % ,   re sp e c ti v e ly .   K ey w o r d s :   Gen etic  alg o r ith m s   O m L A   R an d o m   f o r est   Su p p o r v ec to r   m ac h in e   Un if o r m   r eso u r ce   lo ca to r   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Nan d ee s h Hallim y s o r Dev ar aj   Dep ar tm en t o f   C o m p u ter   Scie n ce   an d   E n g in ee r in g ,   J SS   Scien ce   an d   T ec h n o l o g y   U n iv er s ity   My s o r e,   5 7 0 0 0 9 ,   I n d ia   E m ail: h d n an d ee s h @ js s s tu n iv . in       1.   I NT RO D UCT I O N   T h is   p ap er   ex p l o r es  th e   u s o f   m ac h in e   lear n i n g   ( ML )   t o   d etec p h is h in g   attac k s   v ia  UR L   an aly s is .     I em p h asizes  th s o p h is ticati o n   o f   m o d er n   p h is h in g   s tr ateg ies  th at  em p lo y   d ec ep tiv UR L s ,   p o s in g   s ig n if ican t   ch allen g es  f o r   tr ad itio n al  d etec tio n   m eth o d s .   M L   alg o r ith m s   ar h ig h lig h te d   as  s u p er i o r   s o lu tio n ,   ca p a b le  o f   an aly zin g   ex ten s iv e   d atasets   o f   UR L   p atter n s   to   d is tin g u i s h   b etwe en   m alicio u s   an d   le g itima te  UR L s .   T h is   ap p r o ac h   n o o n ly   o v e r co m es  th lim itatio n s   o f   co n v en tio n a m eth o d s   b u t   also   ad a p ts   t o   n ew  th r ea ts   o v er   tim e.   Fig u r 1   s h o th f u n d am en ta d iag r am   o f   d etec tin g   p h is h in g   web s ites   u s in g   ML   tech n i q u es   [ 1 ] .   T h p r o p o s ed   ML - b ased   UR L   d etec tio n   tec h n iq u c o m p r is es  s ev er al  s tep s ,   s tar tin g   with   d ata  co llectio n   f r o m   s o u r ce s   lik e   Ph is h T an k   an d   web   cr a wler s   to   g ath er   b o th   m alicio u s   an d   leg itima te  UR L s .     T h is   is   f o llo wed   b y   f ea tu r ex tr ac tio n ,   wh er UR L   ch ar ac ter is tics   ar id en tifie d   f o r   ML   u s e.   r ec u r r en n eu r a l   n etwo r k   ( R NN)   th en   u n d er g o es  tr ain in g   p h ase  to   lear n   d if f er en tiatin g   f ea tu r es  b etwe en   h ar m f u an d   s af e   UR L s ,   an d   test in g   p h ase  to   e v alu ate  its   p er f o r m an ce   o n   n e UR L s .   T h ef f ec tiv en ess   o f   th R NN  is   as s es s ed   u s in g   m etr ics s u ch   as a cc u r ac y ,   p r ec is io n ,   r ec all,   an d   F1 - s co r [ 2 ] .   T h is   r esear ch   aim s   to   s h o wca s th p o ten tial  o f   ML   in   c o u n ter in g   p h is h in g   th r ea ts   b y   id en tify i n g   co m p lex   p atter n s   an d   an o m a lies   in   UR L   d ata.   I d is cu s s es  v ar io u s   ML   m o d els,  in clu d in g   s u p er v is ed   an d   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  36 ,   No .   1 Octo b er   20 24 63 1 - 6 3 8   632   u n s u p er v is ed   lear n in g ,   an d   th eir   ab ilit y   to   p r o ce s s   an d   class if y   UR L   in f o r m atio n   b ased   o n   ch ar ac ter is tics   lik e   lex ical  p r o p er ties   an d   h o s tin g   d etails.  T h p ap er   also   a d d r e s s es  ch allen g es  s u ch   as  th n ee d   f o r   lar g e,   d i v er s e   d atasets   an d   th r ed u ctio n   o f   f alse  p o s itiv es,  aim in g   to   en h an ce   d ig ital  s ec u r ity   an d   co n tr i b u te  to   s af er   o n lin en v ir o n m en t.           Fig u r 1 .   Fu n d am en tal  d iag r a m   o f   d etec tin g   p h is h in g   web s ites   u s in g   m ac h in e - lear n in g   tec h n iq u es       2.   RE L AT E WO RK   Z ien i   et  a l.   [3 ]   d ev elo p ed   C atch Ph is h ,   wh ich   u s es  UR L   f ea tu r es  an d   r an d o m   f o r est  ( R F)  class if ier .   I ts   lim itatio n   is   f o cu s in g   s o lely   o n   UR L   f ea tu r es,  p o te n tially   m is s in g   s o p h is ticated   p h is h in g   web s ites .     Aljab r i   et  a l.   [4 ]   p r o p o s ed   Hin   Ph is h ,   m eth o d   b ased   o n   h eter o g en e o u s   in f o r m atio n   n etwo r k s   ( HI N)   th at  m ig h t   m is class if y   p h is h in g   attac k s   d u to   th c o m p lex it y   o f   h y p e r lin k   r elatio n s h ip s .   Aass al   et  a l.   [5 ]   u s ed   d is tr ib u ted   wo r d   r e p r esen tatio n   with in   UR L s   b u s tr u g g led   with   u n o b s er v ed   c h ar ac ter s   an d   d id   n o co n s id er   web s ite   co n ten t,  p o ten tially   m is s in g   s i tes  m im ick in g   leg itima te  o n es.  I n d r asir i   et  a l.   [6 ]   in tr o d u ce d   h y b r id   l o n g   s h o r t - ter m   m em o r y   ( L STM )   a n d   g ated   r ec u r r e n u n it  ( GR U )   m o d el  f o r   p h is h in g   UR L   d etec tio n .     Desp ite  its   p o ten tial,  it  f ac es  ch allen g es  in   co m p u tatio n al  co m p lex ity   a n d   tr ain i n g   d ata  r eq u ir e m en ts .     Ah m ed   et   a l.   [7 ]   p r esen ted   a   n eu r al  n etwo r k   m o d el   o p tim ize d   f o r   f ea tu r e   s elec tio n   in   p h is h in g   d etec tio n ,   w h ic h   m ay   n o g e n er alize   well  to   n ew  p h is h in g   attac k s   an d   r e q u ir es  f r eq u en r etr ai n in g .   Kar a   et  a l.   [8 ]   p r o v i d ed   a   s u r v ey   o f   ML   tech n i q u es  f o r   m alicio u s   UR L   d etec tio n ,   p o ten tially   m is s in g   th e   latest  m eth o d s   o r   em e r g in g   th r ea ts   d u to   th r a p id ly   ev o lv in g   n atu r o f   c y b er s ec u r ity .   Alth o b aiti   et  a l.   [9 ]   em p lo y e d   d ee p   lear n in g   f o r   UR L   r ep r esen tatio n ,   f ac in g   c h allen g es  with   s ig n if ican co m p u tatio n al  r eso u r ce s   an d   le n g th y   tr ain i n g   tim es.   Ar iy ad asa   et  a l.   [ 1 0 ]   p r o p o s e d   u s in g   lex ical  f ea tu r es  an d   o n lin lear n i n g   f o r   p h is h in g   d e tectio n ,   wh ich   m ig h t   n o ef f ec tiv ely   d etec ze r o - d a y   attac k s   o r   s o p h is ticated   s tr ateg ies.   Sah in g o z   et  a l.   [ 1 1 ]   ex am in ed   th e   ev o lu tio n   o f   p h is h in g   attac k s   b u m a y   lack   s p ec if ic  tech n ical  s o lu tio n s   o r   ad d r ess   th o p er a tio n al  ch allen g es  o f   im p lem en tin g   an ti - p h is h in g   m ea s u r es.  T h a b o v e   r elate d   wo r k s   s tr iv h a r d   to   d etec t h p h is h in g   attac k s   b u t   f ailed   to   d etec th ze r o - d a y   a ttack s .   Hen ce ,   o u r   a p p r o ac h   wo r k   m ain ly   f o cu s es  o n   d etec tin g   ze r o - d ay   attac k s   b ased   o n   UR L   m etad ata.     2 . 1 .     Resea rc h g a ps   I d en tify in g   r esear ch   g ap s   in   ML   f o r   p h is h in g   attac k   d etec tio n   is   v ital  f o r   im p r o v in g   cy b er s ec u r ity .   Key   ar ea s   n ee d in g   f u r t h er   e x p lo r atio n   in clu d e   th d ev elo p m en o f   co m p r eh e n s iv d atas ets  th at  ca p tu r e   th latest  p h is h in g   tactics,  en h an cin g   th ad a p tab ilit y   an d   s ca lab ilit y   o f   ML   m o d els  to   r e al - wo r ld   co n d itio n s ,     an d   in teg r atin g   th ese  m o d els  with in   ex is tin g   c y b er s ec u r ity   f r am ewo r k s .   Ad d itio n ally ,   ad d r ess in g   th c h allen g e   o f   f alse  p o s itiv es  an d   n eg ativ es  in   d etec tio n   is   cr u cial  f o r   m ain tain in g   u s er   tr u s an d   th ef f ec tiv en ess   o f   s ec u r ity   m ea s u r es.  T ac k lin g   t h ese  g ap s   p r o m is es  to   b o o s th ac cu r ac y   an d   r eliab ili ty   o f   p h is h in g   d etec tio n ,   co n tr ib u tin g   to   s af er   d ig ital  en v ir o n m en t [ 1 2 ] .     2 . 2 .     Appl ica t io ns   ML   s ig n if ican tly   b o ls ter s   c y b er s ec u r ity   b y   d etec tin g   p h is h in g   attac k s   t h r o u g h   UR L   an aly s is ,   b en ef itin g   in d iv id u al  u s er s ,   o r g an izatio n s ,   f in a n cial  in s titu tio n s ,   clo u d   s er v ices,  e - c o m m er ce   p latf o r m s ,   a n d   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci   I SS N:2 5 0 2 - 4 7 52       A n   o p tima l m a c h in lea r n in g - b a s ed   a lg o r ith fo r   d etec tin g   p h is h in g   … ( N a n d ee s h a   Ha lli myso r Dev a r a j )   633   cy b er s ec u r ity   t r ain in g   p r o g r a m s .   Fo r   in d iv i d u als,  ML   alg o r ith m s   in teg r ated   in to   we b   b r o wser s   an d   e m ail   clien ts   aler t u s er s   to   h ar m f u UR L s ,   p r ev en tin g   p h is h in g   f r a u d s .   Or g an izatio n s   an d   f in an ci al  in s titu tio n s   u til ize  th ese  s y s tem s   wi th in   th eir   n et wo r k   s ec u r ity   to   p r o tect  ag ai n s p h is h in g ,   s af eg u ar d in g   tr a n s ac tio n s   an d   s en s itiv e   d ata.   E - co m m er ce   p latf o r m s   u s th ese  alg o r ith m s   to   b l o ck   p h is h in g   UR L s   th at  m im ic  leg itima te  s ites ,   p r ev en tin g   f r au d .   Ad d itio n all y ,   ML   ap p l icatio n s   in   p h is h i n g   d etec tio n   o f f e r   s ca lab le,   e f f ec tiv c y b er s ec u r ity   s o lu tio n s   ac r o s s   v ar io u s   s ec to r s   [ 1 3 ] .       3.   M E T H O D   Fig u r e   2   s h o ws  th p r o p o s ed   m eth o d o l o g y   e n ca p s u lates  f iv e - tier ed   ap p r o ac h   to   d etec ti n g   p h is h in g   UR L s   u s in g   an   o p tim al  m ac h in lear n in g - b ased   alg o r it h m   ( Om L A )   [ 14 ] .   T h is   en h an ce d   m eth o d o lo g y   in teg r ates  ad v an ce d   d ata  h an d lin g   b y   u tili zin g   r ic h er   d atas et  t h at  in clu d es  r ea l - tim p h is h in g   attac k   d ata  an d   h is to r y ,   ex p a n d in g   b ey o n d   tr a d itio n al  UR L   an aly s is .   Fu r th e r   d ee p   lear n in g   tech n iq u es,  p a r ticu la r ly   R NNs,  wil b in tr o d u ce d   f o r   m o r e   s o p h is ticated   p atter n   r ec o g n itio n   in   UR L s   [ 1 4] e n h an cin g   th m o d el s   d etec ti o n   ca p ab ilit ies wh ich   en s u r es   r o b u s t d ef en s m ec h a n is m   ag ain s t so p h is ticated   p h is h in g   th r ea ts .   T h v alid atio n   o f   Om L will  ad o p m o r r ig o r o u s   ap p r o ac h ,   em p lo y in g   co m p r eh en s iv e   b en ch m ar k in g   ag ai n s b o th   tr ad itio n al  an d   cu ttin g - ed g m eth o d s .   T h is   will   en s u r i ts   ef f ec tiv en ess   an d   r eliab ilit y   in   d etec tin g   p h is h i n g   UR L s ,   with   f o cu s   o n   r ed u cin g   f alse  p o s itiv es  an d   a d ap tin g   to   ev o lv in g   p h is h in g   s tr ateg ies  [ 1 5 ] .   B y   in teg r atin g   t h ese  en h a n ce m e n ts ,   th m eth o d o l o g y   s ec tio n   o u tlin es  f o r war d - th in k in g   a p p r o ac h   th at  n o t o n l y   ad d r ess es c u r r en t c h alle n g es in   p h is h in g   d etec tio n   b u t a ls o   s ets th g r o u n d wo r k   f o r   f u tu r in n o v atio n s   in   cy b e r s ec u r ity   m ea s u r es.           Fig u r 2 .   T h m eth o d o lo g y   f o r   f iv e - tier e d   ap p r o ac h   t o   d et ec tin g   p h is h in g   UR L s       4.   P H I SH E AN URL   Attack er s   u s wid v ar iety   o f   ev asio n   s tr ateg ies  in   o r d er   to   av o id   b ein g   id en tifie d   b y   s ec u r ity   m ea s u r es  o r   s y s tem   ad m in is t r ato r s .   T h is   allo ws  th em   to   s teal  in f o r m a tio n   with o u b ei n g   d is co v e r ed   [ 1 6 ] .     T h f o llo win g   s ec tio n   will  p r o v id e   m o r in - d ep th   an aly s is   o f   f ew  o f   th ese  v a r io u s   ap p r o ac h es  t o   im p lem en tatio n .   I n   th f ir s p lace ,   it  is   n ec es s ar y   to   h av r u d im en tar y   c o m p r e h en s io n   o f   th co m p o n e n ts   th at  m ak u p   UR L s   in   o r d er   to   ac h iev g r asp   o f   th m eth o d o lo g y   th at  is   u tili ze d   b y   m alicio u s   ac to r s   [ 1 7 ] .     g r ap h ical  illu s tr atio n   o f   atta ck   p r o ce s s   p h ases   is   p r esen ted   in   Fig u r 3 .   I t   is   co m m o n   f o r   th f i r s s eg m en o f   UR L   to   b e   th e   p r o to co n am o f   th p ag e,   wh ich   id en tifie s   th m et h o d   b y   wh ich   th e   p ag ca n   b r ea ch ed .   A   Su b - d o m ai n   an d   s ec o n d - lev el  d o m ain   ( SLD)   n am e   ar t h co m p o n en ts   th at   m ak u p   th s ec o n d   s eg m en t ,   wh ich   is   co m p r is ed   o f   th in s t itu tio n s   titl in   th s er v er   h o s tin g .   Fo llo win g   th at,   th e   to p - le v el  d o m ain   ( T L D )   n am e   is   u s ed   to   d en o te  th e   d o m ain s   th at  ar e   lo ca ted   in   th e   DNS  r o o zo n o f   th i n ter n et .   T h n am o f   th p ag an d   t h in ter n al  s er v er   a d d r ess   ar th co m p o n en ts   th at   m ak u p   th p ath   o f   th p a g e.   E v en   if   th SLD   f r eq u en tly   d is clo s es   th n atu r o f   th ac tiv ity   o r   th co m p a n y   n am e,   h o s tile  ac to r   ca n   ea s ily   p u r ch ase  it  an d   u s it  f o r   p h is h in g   p u r p o s es  to   g ain   ac ce s s   to   s en s itiv e   in f o r m atio n .   B ec au s o f   th co m b in atio n   o f   th e   TLD   an d   th SLD ,   ea ch   UR L   h as  th e   ap p ea r an ce   o f   b ein g   u n iq u b ec a u s o f   th is .   C o m p an ies  th at  p r o v id cy b er   s ec u r ity   d ev o te  s u b s tan tial  am o u n o f   r eso u r ce s   in   o r d er   t o   id en tify   th f a k d o m ain s   th at  ar u s ed   in   p h is h in g   attac k s .   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  36 ,   No .   1 Octo b er   20 24 63 1 - 6 3 8   634         Fig u r 3 .   F u n d am en tal   p h ases   in   attac k   p r o ce s s       W h en ev er   it  is   d is co v er ed   th at  ce r tain   web   a d d r ess   is   b ein g   u s ed   f o r   t h p u r p o s o f   p h is h in g ,     th I a d d r ess   th at  is   lin k ed   with   th at  w eb   ad d r ess   m ay   b s im p ly   b lack lis ted .   T h is   wil p r ev e n u s er s   f r o m   ac ce s s in g   th web s ites   th at  ar e   h o s ted   with in   th d o m ain .   Am o n g   th m o s ess en tial  tactic s ,   th u s o f   ar b itra r y   ch ar ac ter s ,   th e   co m b in atio n   o f   ce r tain   w o r d s ,   c y b er s q u attin g ,   ty p o   s q u attin g ,   a n d   o th er   m e th o d s   ar e   am o n g   t h e   m o s cr itical  ap p r o ac h es   [ 1 8 ] .   B ec au s o f   th is ,   th d etec tio n   alg o r ith m s   n ee d   to   tak i n to   co n s id er atio n   th e   ass au lt m eth o d s   th at  wer d is cu s s ed   b ef o r e.       5.   DIFF I CU L T I E S T O   O VE R CO M E   Desp ite  th f ac th at  th er h as  b ee n   tr em en d o u s   p r o g r ess   m ad o v er   th c o u r s o f   th l ast  d ec ad in   id en tify in g   th e   m alicio u s   UR L s B u s till   th er is   s co p f o r   im p r o v em en ts   th at  h av e   n o b ee n   r eso lv e d .     T h is s u es  h av b ee n   id en tifie d   b y   c o n d u ctin g   lite r atu r s u r v ey   th o r o u g h ly .   T h ese  is s u es   in clu d in g   b u n o t   lim ited   to   th f o llo win g   s itu atio n s :     5 . 1   An   eno r m o us   qu a ntit y   o f   URLs   T h v ast  a n d   d y n am ic  n atu r e   o f   UR L   d ata,   wh ich   p r esen ts   s ig n if ican c h allen g e   in   t r ain in g   m o d els   f o r   e f f ec tiv e   p h is h in g   d etec tio n   [ 1 9 ] .   T h is   is s u is   co m p o u n d ed   b y   t h d if f icu lty   o f   s elec tin g   tr ai n in g   d ata  t h at   ac cu r ately   r ep r esen ts   b o th   h ar m f u an d   b e n i g n   UR L s ,   cr u ci al  f o r   th ef f ec tiv e n ess   o f   ML   m o d els  in   d etec tin g   f ak UR L s   [ 2 0 ] .   An o th er   cr itical  ch allen g is   ac q u is itio n   o f   f ea tu r es  an d   lab els  f o r   tr ain in g   m ac h in e - lear n in g   m o d els.  I also   n o tes  th s ca r city   o f   lab eled   d ata,   e s s en tial  f o r   s u p er v is ed   lea r n in g   m et h o d s   [ 2 1 ] .     T h is   ap p r o ac h   aim s   to   d e v elo p   a   r o b u s m o d el   ca p ab le   o f   d is tin g u is h in g   b etwe en   p h i s h in g   an d   le g i tim ate   UR L s   ef f ec tiv ely   [ 22 ].     5 . 2   Dif f icultie s   t ha t   persis t     Fu r th er m o r e ,   p h is h er s   m ak u s o f   UR L   s h o r te n in g   s er v ices  wh ich   p r o v id a n   ef f icien m eth o d   o f   d is g u is in g   h ar m f u UR L s ,   wh ich   ca n   m a k it  m o r c h allen g in g   f o r   c o m p u te r ized   s y s tem s   to   r ec o g n ize   a n d   d etec tin y   UR L s   [ 2 3 ] .   I is   q u ite  p r o b ab le   th at  th e r will   alwa y s   b a   v ar iety   o f   lim it s   co n n ec ted   with   th d etec tio n   o f   u n s af UR L s .   R esear ch   th at  is   co n d u cte d   o v e r   an   ex ten d e d   p er i o d   o f   tim wi ll  b f o cu s ed   o n   th e   d ev elo p m e n t o f   e f f ec tiv s y s tem s   wh ich   ca n   ab le  to   r ec o g n iz an d   d etec ze r o - d a y   attac k s   [ 24 ].     5 . 3   E f f ec t s   o f   m a licio us nes s   As  m ac h in e - lear n in g   m o d els  g et  p o p u lar ity   in   r ec o g n izin g   an d   class if y in g   s u s p icio u s   UR L s ,   it  is   lo g ical  to   p r e d ict  th at  m alicio u s   ac to r s   m ay   ad o p s o p h is tic ated   m eth o d s   in   o r d e r   to   b o o s th s u cc ess   o f   th eir   ass au lts .   A ttack er s   ar alwa y s   u s in g   in tr icate   m eth o d s   to   lu r u s er s   in f o r m atio n .   T h is   is   b ec au s ad v er s ar ial   s tr ateg ies ar d esig n ed   to   m a k attac k s   m o r ef f ec tiv e .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci   I SS N:2 5 0 2 - 4 7 52       A n   o p tima l m a c h in lea r n in g - b a s ed   a lg o r ith fo r   d etec tin g   p h is h in g   … ( N a n d ee s h a   Ha lli myso r Dev a r a j )   635   6.   P RO P O SE M O D E L   F O T H E   P H I SH I NG   DE T E CT I O USI NG   M ACH I N E   L E ARNING   T h p r o ce s s   o f   p h is h in g   d etec tio n   i s   d ep icted   in   Fig u r 4 ,   wh ich   d em o n s tr ates  th m o d el.     T h s u g g ested   m o d el  b eg in s   with   th d is co v er y   o f   d ataset  th at  is   co m p r is ed   o f   d o m ain   attr ib u tes  an d   f ea tu r es  th at  ar b ased   o n   UR L s .   T h e   d ataset  is   co n s tr u cted   with   t h h elp   o f   web   c r awle r   wh ic h   is   r esp o n s ib le  f o r   co llect in g   leg itima te  web s ite  UR L s   an d   p h is h in g   UR L s .   Ar o u n d   1 8 4 3 6   UR L s   wer d ep o s ited   in   a   d ataset   am o n g   8 6 6 7   ar e   leg itima te  U R L s   co llected   f r o m   web   cr awl er   s p ec if ic  to   k ey wo r d s   r elate d   to   h ea lth c ar e,   s o cial   m ed ia,   b a n k in g   s ec to r   a n d   e d u ca tio n al  r elate d   web s it es  a n d   9 7 6 9   UR L s   ar p h is h in g   UR L s   co llected   f r o m   Ph is h T an k   an d   Op en Ph is h   web s ites .   Acc o r d in g   to   t h an ti - p h is h in g   w o r k in g   g r o u p   ( APW G)   [ 2 5 ] ,   m o s t   tar g eted   s ec to r s   o f   p h is h in g   at tack s   ar r elate d   to   th a b o v k ey wo r d .   Hen ce ,   co llectin g   UR L s   r elate d   to   th es k ey wo r d s   is   m o r e   im p o r tan t   an d   c r awle r   is   b u ilt  to   f etch   t h UR L s   u p   to   th e   d ep t h   o f   two .   B ec au s i f   we   f u r th er   cr awl  th web p a g es m o r th an   th d ep t h   o f   two ,   u lti m ately   it b o ils   d o wn   to   th s i m ilar   k in d   o f   web s ites .   Mo s o f   th e   ex is tin g   wo r k s   b a s ed   o n   th h is to r ical  d ata  a n d   p h is h er s   ar e   cr ea tin g   UR L s   in   m o r s o p h is ticated   m eth o d s .   I n   o u r   ca s e,   n ewly   g en er ated   UR L s   ar also   ex tr ac ted   b y   t h web   c r awle r   f r o m   Ph is h T an k   an d   Op en Ph is h   wh ich   ad d r ess es  th ze r o - d ay   attac k   p r o b lem .   Gen er ally ,   th p h is h in g   we b s ites   ar ac tiv ated   o n ly   f o r   lim ited   n u m b er   o f   h o u r s   o r   d a y s .   T h e   p r o p o s ed   wo r k   is   f o cu s in g   o n   co llectin g   r ea l   tim d ata   an d   b u ilt   o n   th n ewly   co n s tr u cted   d ataset.   Hen ce   co llectin g   an d   an aly zin g   th b eh av io r   o f   th p h is h in g   UR L s   is   m o r im p o r tan t r at h er   th an   u s in g   e x is tin g   d ataset.   A f t e r   d a t a   c o l le c t i o n ,   t h e   n e x t   p r o c e s s   is   d a t a   c le a n l i n es s   a n d   p r e p r o c e s s i n g .   D u r i n g   d a t a   p r e p r o c e s s i n g   p h a s e ,   c o l l e ct e d   d a t a   is   p r o c e s s e d   f o r   e x t r a c t i o n   o f   U R L   f e atu r e s   a n d   h i s t o r i c al   i n f o r m a t i o n .   E a c h   U R L   is   p a r s e d   a n d   w e b   r e l at e d   i n f o r m a ti o n ,   d o m a i n   i n f o r m a t i o n   i s   e x t r ac t e d   f r o m   W h o I s   s e r v e r .   S i m i l a r l y ,   d o m a i n   r e l a te d   i n f o r m a t i o n   l i k w e b p a g i n d ex ,   a g e ,   p a g e   r a n k ,   d o m ai n   r e g is t r a ti o n   y e a r   a n d   t r a f f i d a t a   ar e   e x t r a c te d   f r o m   t h e   U R L   b y   u s i n g   t h i r d   p a r t y   s e r v i c e s   a n d   t h i s   i n f o r m a t i o n   i s   s t o r e d   a l o n g   w i t h   t h e   U R L .   A d d i t io n a l l y   h e u r i s t i c   r u l es   a r e   a p p l i e d   o n   t h e   U R L   u s i n g   l e x i c a l   a n d   s e m a n ti c   a n a l y z e r   t o   c h e c k   w h e t h e r   t h e   U R L   h o l d   I P   a d d r e s s es ,   @   s y m b o l ,   r e d i r e c ti n g   t o   o t h e r   web p a g e s   u s i n g   / /   a n d   wi t h o u t   u s in g   H T T P S .   T h e s h e u r i s t i c   i n f o r m a t i o n s   a r e   s t o r e d   i n   n u m e r i c a l   v al u e s .   F u r t h e r ,   t h e   w h o l d a t as e i s   p r o c e s s e d   f o r   cl e a n li n e s s   f o r   m i s s i n g   v a l u es .     D a t a   p r e p r o c e s s i n g   p h a s e   u s es   U R L   a n d   i ts   r e l a te d   i n f o r m a t i o n   w i t h o u t   a c c e s s i n g   t h e   w e b p ag e s .   C o n s t r u c t e d   d a t a   i s   i n p u t t e d   t o   t h e   l ea r n i n g   m o d e l .   T h e   d a t a   i s   s p l i t   i n t o   7 0   a n d   3 0   f o r   t r a i n i n g   a n d   t e s t i n g   p u r p o s e   r e s p e c t i v el y .   D u r i n g   t h e   t r a i n i n g   p r o c es s ,   t h e   m o d e l   i s   t r a i n e d   u s i n g   a   c o m b i n a t i o n   o f   v a r i o u s   m a c h i n e - l ea r n i n g   a p p r o a c h e s   t h a t   f u n c t i o n   a s   a   s i n g le   cl a s s i f ie r .   v a r i o u s   m e t r i cs ,   i n c l u d i n g   ac c u r a c y ,   s e n s i ti v i t y ,   a n d   s p ec i f ic i t y ,   c a n   b e   u s e d   t o   e v a l u a t e   a n d   c o m p a r e   m o d e l   wi t h   o t h e r   ML   m o d e ls   p e r f o r m a n c e .           Fig u r 4 .   Pro p o s ed   b lo ck   o f   O m L A       B ased   o n   th e   tr ain in g   o f   th m o d el  o n   th UR L s   o f   th e   d a taset,  an y   n u m b e r   o f   UR L s   f r o m   th e   we b   m ay   b ch ec k ed   ac r o s s   to   v er if y   th d an g er o u s   n atu r o f   th UR L .   C o n s eq u en tly ,   th f ir s o b s tacle   h as   b ee n   o v er co m e .   Ph is h T an k   an d   Op en Ph is h   h av m ad th eir   d atas ets  av ailab le  to   th p u b lic,   w h ich   is   th s o lu tio n   t o   th s ec o n d   d if f icu lty .   As  r es u lt  o f   th f ac th at  m alicio u s   ac to r s   ca n n o b en tire ly   co n tr o lled ,   it  is   im p o s s ib le  to   p r ev e n th em   f r o m   d e v elo p i n g   m o r s o p h is ticated   attac k s   th at  ar ab le   to   ev a d d etec tio n   m o d els.  T h is   is   th e   th ir d   d if f ic u lty ,   wh ich   c o n tin u es to   b an   o n g o i n g   ch allen g e.       7.   P RO P O SE M A T H E M A T I CAL M O D E L   O F   O M L A   Acc u r ac y :   m ea s u r es  th o v e r all  co r r ec tn ess   o f   th m o d el  in   class if y in g   d ata.   I ca lcu lates  th e   p r o p o r tio n   o f   tr u r esu lts   ( b o t h   tr u p o s itiv es a n d   tr u n eg at iv es)  in   th to tal  d ata  s et  is   g iv en   in   ( 1 ) .     Ac c ura c y =  +   +  +  +    ( 1 )     W h er T P =   tr u p o s itiv es ,   T tr u n eg ativ es ,   FP   f alse  p o s itiv es ,   FN =   f alse n eg ativ es .   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  36 ,   No .   1 Octo b er   20 24 63 1 - 6 3 8   636   Pre cisi o n   ( p o s itiv p r ed ictiv e   v alu e ) i n d icate s   th c o r r ec t n ess   ac h iev ed   in   th p o s itiv e   class .   I ass ess e s   th p r o p o r tio n   o f   p o s itiv id en tifi ca tio n s   th at  wer ac tu ally   co r r ec t is r ep r esen ted   b y   th ( 2 ) .     Pr e c ision =   +    ( 2 )     R ec all  ( s en s itiv ity   o r   tr u e   p o s i tiv r ate) m ea s u r es  th m o d el s   ab ilit y   to   d etec p o s itiv in s tan ce s .   I ca lcu lates   th p r o p o r tio n   o f   ac t u al  p o s itiv es th at  wer co r r ec tly   id en tifi ed   is   g iv en   in   ( 3 ) .     R ec all    +    ( 3 )     F1 - s co r e:  p r o v i d es  b alan ce   b etwe e n   p r ec is io n   an d   r ec all.   I t s   p ar ticu lar ly   u s ef u wh en   th e   class   d is tr ib u tio n   is   u n ev en   is   r ep r esen ted   in   ( 4 ) .     1  = 2      +    ( 4 )     Fals p o s itiv r ate  ( FP R ) :   i n   ( 5 )   in d icate s   th e   lik elih o o d   o f   t h m o d el  f alsely   class if y in g   a   n eg ativ i n s tan ce   as   p o s itiv e.     =   +    ( 5 )       8.   RE SU L T S   8 . 1   E x perim ent a t io n   s et up   T h ex p e r im en was  ca r r ied   o u with   C PU  I n tel( R )   C o r ( T M)   i5 - 4 4 6 0   HQ  C PU  @   3 . 2 0   GHz .   R AM   is   4 . 0 0   GB .   T h s y s tem   is   6 4 - b it  W in d o ws  8 . 1   Pro   o p e r atin g   s y s tem .   T ab le  1   d ep icts   th s im u latio n   p ar am eter s   u s ed   to   m ea s u r th e   p er f o r m an ce   an aly s is   o f   th p r o p o s ed   m eth o d   with   c o n v e n tio n al  m eth o d s   an d   Fig u r s h o ws  th g r ap h ical  r ep r esen tatio n   o f   th p er f o r m an ce   an aly s is   b etwe en   th p r o p o s ed   m eth o d   an d   th e   co n v en tio n al  m eth o d s .       T ab le  1 .   Simu latio n   p ar am eter s   f o r   p er f o r m a n ce   an aly s is   o f   p r o p o s ed   m eth o d   with   co n v en tio n al  m eth o d s   P e r f o r ma n c e   p a r a m e t e r   D e scri p t i o n   O mLA   RF   S V M   G e n e t i a l g o r i t h m   (GA)   A c c u r a c y   P e r c e n t a g e   o f   c o r r e c t l y   i d e n t i f i e d   i n s t a n c e s   9 8 %   9 0 %   8 0 %   7 5 %   P r e c i s i o n   P r o p o r t i o n   o f   t r u e   p o si t i v e o v e r   t o t a l   p o s i t i v e s   9 5 %   8 5 %   7 5 %   7 0 %   R e c a l l   ( s e n si t i v i t y )   P r o p o r t i o n   o f   t r u e   p o si t i v e o v e r   a c t u a l   p o si t i v e s   9 7 %   8 7 %   8 0 %   7 3 %   F1 - s c o r e   H a r mo n i c   me a n   o f   p r e c i s i o n   a n d   r e c a l l   9 5 %   8 6 %   7 8 %   7 1 %   F a l se   p o si t i v e   r a t e   P r o p o r t i o n   o f   f a l se  p o si t i v e s   o v e r   t o t a l   n e g a t i v e s   4%   1 5 %   2 5 %   3 0 %   D e t e c t i o n   t i m e   A v e r a g e   t i me  t a k e n   t o   d e t e c t   a   p h i sh i n g   a t t e mp t   2   se c   4   se c   5   se c   6   se c   R o b u st n e ss   A b i l i t y   t o   p e r f o r u n d e r   v a r y i n g   c o n d i t i o n s   H i g h   M o d e r a t e   Lo w   M o d e r a t e           Fig u r 5 .   Per f o r m an c an aly s i s   b etwe en   th p r o p o s ed   m et h o d   an d   t h co n v en tio n al  m eth o d s       T ab le  2   p r esen ts   th e   s im u latio n   p ar am eter s   th at   wer u tili ze d   in   o r d e r   to   m ea s u r e   th c o m p u tatio n al   an aly s is   o f   th p r o p o s ed   m et h o d   w ith   co n v en tio n al  m eth o d s .   T ab le  3   s h o ws  th c o m p ar ativ an aly s es  o f   s ca lab le  p ar am eter s   b etwe en   th p r o p o s ed   m eth o d   an d   c o n v en tio n al  m eth o d s .   co m p ar ativ an aly s is   o f   co n v en tio n al  an d   p r o p o s ed   m e th o d s   with   r esp ec t to   s ca lab le  p ar am eter s   is   d ep icted   in   t h Fig u r 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci   I SS N:2 5 0 2 - 4 7 52       A n   o p tima l m a c h in lea r n in g - b a s ed   a lg o r ith fo r   d etec tin g   p h is h in g   … ( N a n d ee s h a   Ha lli myso r Dev a r a j )   637   Ta b le  2 .   C o m p u tatio n al  an aly s is   o f   th p r o p o s ed   m et h o d   wit h   co n v en tio n al  m et h o d s   M e t h o d   Tr a i n i n g   t i me   M o d e l   s i z e   R e s p o n se   t i me   S p e c i f i c i t y   A r e a   u n d e r   P R   c u r v e   C o m p u t a t i o n a l   c o m p l e x i t y   O mLA   4   h o u r s   3 0 0   M B   1 0 0   m s   9 6 %   0 . 9 4   M o d e r a t e   S V M   2   h o u r s   1 5 0   M B   1 5 0   m s   9 2 %   0 . 8 8   Lo w   RF   3   h o u r s   2 5 0   M B   2 0 0   m s   9 3 %   0 . 9 0   H i g h   N e u r a l   n e t w o r k s   5   h o u r s   5 0 0   M B   1 2 0   m s   9 4 %   0 . 9 1   V e r y   h i g h       T ab le  3 .   C o m p a r ativ an aly s e s   o f   s ca lab le  p ar am eter s   Om L with   co n v en tio n al  m eth o d s   P a r a me t e r   P r o p o se d   M a l g o r i t h m   ( O mLA )   S V M   RF   N e u r a l   n e t w o r k s   C o m p u t a t i o n a l   C o m p l e x i t y   M o d e r a t e   ( O   ( n   l o g   n ) )   Lo w   ( O ( n ) )   H i g h   ( O ( n ^ 2 ) )   V e r y   h i g h   ( O ( 2 ^ n ) )   S c a l a b i l i t y   G o o d   ( h a n d l e s   u p   t o   1 0 M   U R Ls)   M o d e r a t e   ( u p   t o   5 M   U R Ls)   Ex c e l l e n t   ( u p   t o   2 0 M   U R Ls)   P o o r   ( u p   t o   1 M   U R Ls)   R o b u st n e ss   H i g h   ( 9 0 a c c u r a c y   o n   n o i s y   d a t a )   M o d e r a t e   ( 7 5 %   a c c u r a c y )   Lo w   ( 6 0 a c c u r a c y )   H i g h   ( 8 5 a c c u r a c y )   I n t e r p r e t a b i l i t y   M o d e r a t e   H i g h   Lo w   M o d e r a t e   G e n e r a l i z a b i l i t y   H i g h   ( 9 2 o n   n e w   d a t a )   M o d e r a t e   ( 8 5 %   o n   n e w   d a t a )   H i g h   ( 9 0 o n   n e w   d a t a )   Lo w   ( 7 0 o n   n e w   d a t a )   La t e n c y   Lo w   ( 1 0 0   ms)   V e r y   L o w   ( 5 0   ms)   H i g h   ( 3 0 0   ms)   M o d e r a t e   ( 1 5 0   ms)   R e s o u r c e   u t i l i z a t i o n   M o d e r a t e   ( 2   G B   R A M )   Lo w   ( 1   G B   R A M )   H i g h   ( 4   G B   R A M )   V e r y   h i g h   ( 8   G B   R A M )   M a i n t e n a n c e   R e q u i r e me n t s   M o d e r a t e   ( q u a r t e r l y   u p d a t e s)   Lo w   ( b i a n n u a l   u p d a t e s)   H i g h   ( m o n t h l y   u p d a t e s)   H i g h   ( m o n t h l y   u p d a t e s)           Fig u r e   6 .   C o m p a r ativ an aly s e s   o f   co n v e n tio n al  a n d   p r o p o s ed   m eth o d s   with   r esp ec t to   s ca lab le  p ar am eter s       9.   CO NCLU SI O N   T h p r o p o s ed   wo r k   h ig h lig h t s   th ad v a n ce m en ts   in   co m b atin g   cy b e r s ec u r ity   t h r ea ts ,   f o cu s in g   o n   p h is h in g   attac k   d etec tio n   th r o u g h   Om L A .   T h Om L is   en g in ee r e d   to   an al y ze   UR L s   b y   ex am in in g   th ei r   h is to r y ,   in clu d i n g   o p er atio n al   d u r atio n   a n d   web   tr af f ic,   to   i d en tify   p o ten tial  p h is h in g   ac ti v ities .   C o m p ar ed   to   tr ad itio n al  m eth o d s   lik e   RF SVM ,   an d   GA ,   th e   Om L s h o ws  s u p er io r   ac c u r ac y ,   im p r o v i n g   d etec tio n   r ates  b y   8 %,  1 8 %,  an d   2 3 %,  r esp ec tiv ely .   Mo r eo v er ,   th Om L d em o n s tr ates  r em ar k ab le  ef f icien cy ,   with   d etec tio n   an d   r esp o n s tim es  s ig n if ican tly   b etter   th an   th o s o f   co n v e n tio n al  m eth o d s .   T h is   im p r o v e m en is   cr itical  in   th f ast - m o v in g   d i g ital  en v ir o n m en t,  wh er th r ap id   id en tific a tio n   an d   m itig atio n   o f   p h is h in g   UR L s   ca n   p r ev en t   s u b s tan tial  d ata  b r ea ch es   an d   f in an cial  lo s s es.  B y   u tili zin g   ad v an ce d   ML   tech n iq u es,     th Om L r ep r esen ts   s ig n if ican s tep   f o r war d   in   en h an ci n g   cy b er s ec u r ity   d e f en s es  ag a in s p h is h in g   attac k s .   Fu tu r en h a n ce m en ts   to   Om L will  f o cu s   o n   in teg r atin g   d e ep   lear n in g   f o r   im p r o v ed   ac c u r ac y ,   ex p an d i n g   t h d ataset  f o r   b r o ad e r   th r ea a n aly s is .   I n   ad d itio n ,   th p r o p o s ed   wo r k   m a k es  u s o th ir d - p ar ty   s er v ices  wh ic h   is   tim co n s u m in g .   Av o id i n g   t h ese  in f o r m atio n   r esu lts   in   b etter   r ed u ce d   an d   r esp o n s e   tim f o r   r eso u r ce   co n s tr ain ed   d e v ices.  C o llab o r atio n s   with   cy b er s ec u r ity   e x p er ts   will  en s u r Om L r em ain s   cu ttin g - ed g e ,   p r o v id i n g   s tr o n g er   d ef en s a g ain s t p h is h in g   attac k s .       RE F E R E NC E S   [ 1 ]     S .   A si r i ,   Y .   X i a o ,   S .   A l z a h r a n i ,   S .   Li   a n d   T.   L i ,   su r v e y   o f   i n t e l l i g e n t   d e t e c t i o n   d e si g n o f   H T M U R L   p h i s h i n g   a t t a c k s ,     i n   I EEE  Ac c e ss,   v o l .   1 1 ,   p p .   6 4 2 1 - 6 4 4 3 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 2 3 7 7 9 8 .     [ 2 ]   M .   J .   P i l l a i ,   S .   R e my a ,   V .   D e v i k a ,   S .   R a ma su b b a r e d d y   a n d   Y .   C h o ,   E v a s i o n   a t t a c k a n d   d e f e n s e   me c h a n i sms   f o r   mac h i n e   l e a r n i n g - b a s e d   w e b   p h i sh i n g   c l a ssi f i e r s,   i n   I E EE  A c c e ss ,   v o l .   1 2 ,   p p .   1 9 3 7 5 - 1 9 3 8 7 ,   2 0 2 4 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 3 4 2 8 4 0 .   [ 3 ]   R .   Zi e n i ,   L.   M a ssar i   a n d   M .   C .   C a l z a r o ssa ,   P h i sh i n g   o r   n o t   p h i s h i n g ?   a   su r v e y   o n   t h e   d e t e c t i o n   o f   p h i sh i n g   w e b si t e s ,   i n   I E E E   Ac c e ss,  v o l .   1 1 ,   p p .   1 8 4 9 9 - 1 8 5 1 9 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 2 4 7 1 3 5 .   [ 4 ]   M .   A l j a b r i   e t   a l . , De t e c t i n g   ma l i c i o u U R Ls  u s i n g   ma c h i n e   l e a r n i n g   t e c h n i q u e s:   r e v i e w   a n d   r e sea r c h   d i r e c t i o n s,”   i n   I EEE  A c c e s s ,   v o l .   1 0 ,   p p .   1 2 1 3 9 5 - 1 2 1 4 1 7 ,   2 0 2 2 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 2 . 3 2 2 2 3 0 7 .   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  36 ,   No .   1 Octo b er   20 24 63 1 - 6 3 8   638   [ 5 ]   A .   E.   A a ss a l ,   S .   B a k i ,   A .   D a s   a n d   R .   M .   V e r m a ,   A n   in - d e p t h   b e n c h m a r k i n g   a n d   e v a l u a t i o n   o f   p h i s h i n g   d e t e c t i o n   r e s e a r c h   f o r   sec u r i t y   n e e d s ,   i n   I EE A c c e ss,   v o l .   8 ,   p p .   2 2 1 7 0 - 2 2 1 9 2 ,   2 0 2 0 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 0 . 2 9 6 9 7 8 0 .   [ 6 ]   P .   L.   I n d r a si r i ,   M .   N .   H a l g a m u g e ,   a n d   A .   M o h a m ma d ,   R o b u s t   e n sem b l e   ma c h i n e   l e a r n i n g   mo d e l   f o r   f i l t e r i n g   p h i s h i n g   U R Ls :   e x p a n d a b l e   r a n d o m   g r a d i e n t   s t a c k e d   v o t i n g   c l a ssi f i e r   ( E R G - S V C ) ,   i n   I E EE  Ac c e ss,   v o l .   9 ,   p p .   1 5 0 1 4 2 - 1 5 0 1 6 1 ,   2 0 2 1 ,     d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 1 . 3 1 2 4 6 2 8 .   [ 7 ]   M .   A h m e d   e t   a l . ,   P h i sh C a t c h e r :   c l i e n t - si d e   d e f e n s e   a g a i n st   w e b   sp o o f i n g   a t t a c k s   u si n g   m a c h i n e   l e a r n i ng ,   in   I EE Ac c e ss,     v o l .   1 1 ,   p p .   6 1 2 4 9 - 6 1 2 6 3 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / a c c e s s. 2 0 2 3 . 3 2 8 7 2 2 6 .   [ 8 ]   I .   K a r a ,   M .   O k   a n d   A .   O z a d a y ,   C h a r a c t e r i s t i c s   o f   u n d e r s t a n d i n g   U R L s   a n d   d o m a i n   n a m e s   f e a t u r e s :   t h e   d e t e c t i o n   o f   p h i s h i n g   w e b s i t e s   w i t h   m a c h i n e   l e a r n i n g   m e t h o d s,   i n   I E E E   A c c e s s ,   v o l .   1 0 ,   p p .   1 2 4 4 2 0 - 1 2 4 4 2 8 ,   2 0 2 2 ,   d o i :   1 0 . 1 1 0 9 / A C C E S S . 2 0 2 2 . 3 2 2 3 1 1 1 .   [ 9 ]   K .   A l t h o b a i t i ,   M .   K .   W o l t e r s,  N .   A l su f y a n i   a n d   K .   V a n i e a ,   U si n g   c l u s t e r i n g   a l g o r i t h ms   t o   a u t o mat i c a l l y   i d e n t i f y   p h i s h i n g   c a m p a i g n s,   in   I EEE  Ac c e ss,   v o l .   1 1 ,   p p .   9 6 5 0 2 - 9 6 5 1 3 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 3 1 0 8 1 0 .   [ 1 0 ]   S .   A r i y a d a s a ,   S .   F e r n a n d o   a n d   S .   F e r n a n d o ,   C o m b i n i n g   l o n g - t e r m   r e c u r r e n t   c o n v o l u t i o n a l   a n d   g r a p h   c o n v o l u t i o n a l   n e t w o r k s   t o   d e t e c t   p h i s h i n g   s i t e s   u s i n g   U R L   a n d   H T M L ,   i n   I E E E   A c c e s s ,   v o l .   1 0 ,   p p .   8 2 3 5 5 - 8 2 3 7 5 ,   2 0 2 2 ,   d o i :   1 0 . 1 1 0 9 / A C C E S S . 2 0 2 2 . 3 1 9 6 0 1 8 .   [ 1 1 ]   O .   K .   S a h i n g o z ,   E.   B u b e r   a n d   E.   K u g u ,   D EPH I D ES:  d e e p   l e a r n i n g - b a s e d   p h i s h i n g   d e t e c t i o n   s y s t e m,   i n   I E EE  Ac c e ss,   v o l .   1 2 ,   p p .   8 0 5 2 - 8 0 7 0 ,   2 0 2 4 ,   d o i :   1 0 . 1 1 0 9 / A C C E S S . 2 0 2 4 . 3 3 5 2 6 2 9 .   [ 1 2 ]   M .   A l m o u sa   a n d   M .   A n w a r ,   A   U R L - b a s e d   s o c i a l   s e ma n t i c   a t t a c k d e t e c t i o n   w i t h   c h a r a c t e r - a w a r e   l a n g u a g e   m o d e l ,     i n   I EEE  Ac c e ss,   v o l .   1 1 ,   p p .   1 0 6 5 4 - 1 0 6 6 3 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 2 4 1 1 2 1 .   [ 1 3 ]   A .   K a r i m,  M .   S h a h r o z ,   K .   M u st o f a ,   S .   B .   B e l h a o u a r i   a n d   S .   R .   K .   J o g a ,   P h i s h i n g   d e t e c t i o n   sy s t e t h r o u g h   h y b r i d   m a c h i n e   l e a r n i n g   b a se d   o n   U R L,   i n   I E EE  Ac c e ss,  v o l .   1 1 ,   p p .   3 6 8 0 5 - 3 6 8 2 2 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 2 5 2 3 6 6 .   [ 1 4 ]   A .   M a c i ,   A .   S a n t o r s o l a ,   A .   C o sc i a ,   a n d   A . I a n n a c o n e   U n b a l a n c e d   w e b   p h i s h i n g   c l a ss i f i c a t i o n   t h r o u g h   d e e p   r e i n f o r c e m e n t   l e a r n i n g .   c o m p u t e r s , C o m p u t e rs ,   v o l .   1 2 ,   n o .   6 ,   p .   1 1 8 , 2 0 2 3 ,   d o i :   1 0 . 3 3 9 0 / c o m p u t e r s 1 2 0 6 0 1 1 8 .   [ 1 5 ]   S .   A l - A h ma d i ,   A .   A l o t a i b i   a n d   O .   A l sal e h ,   P D G A N :   P h i sh i n g   d e t e c t i o n   w i t h   g e n e r a t i v e   a d v e r sari a l   n e t w o r k s ,   i n   I E EE   Ac c e ss ,   v o l .   1 0 ,   p p .   4 2 4 5 9 - 4 2 4 6 8 ,   2 0 2 2 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 2 . 3 1 6 8 2 3 5 .   [ 1 6 ]   B .   G o g o i ,   T .   A h m e d   a n d   A .   D u t t a ,   A   H y b r i d   a p p r o a c h   c o m b i n i n g   b l o c k l i st s,   m a c h i n e   l e a r n i n g   a n d   d e e p   l e a r n i n g   f o r   d e t e c t i o n   o f   mal i c i o u U R Ls , 2 0 2 2   I EEE  I n d i a   C o u n c i l   I n t e r n a t i o n a l   S u b se c t i o n s   C o n f e re n c e   ( I N D I S C O N ) ,   B h u b a n e sw a r ,   I n d i a ,   2 0 2 2 ,     p p .   1 - 6 ,   d o i :   1 0 . 1 1 0 9 / I N D I S C O N 5 4 6 0 5 . 2 0 2 2 . 9 8 6 2 9 0 9 .   [ 1 7 ]   A .   N .   N j o y a ,   V .   L.   T .   N g o n g a g ,   F .   Tc h a k o u n t é ,   M .   A t e m k e n g   a n d   C .   F a c h k h a ,   C h a r a c t e r i z i n g   mo b i l e   m o n e y   p h i s h i n g   u si n g   r e i n f o r c e me n t   l e a r n i n g , i n   I E EE  A c c e ss,   v o l .   1 1 ,   p p .   1 0 3 8 3 9 - 1 0 3 8 6 2 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 3 1 7 6 9 2 .   [ 1 8 ]   A .   B a s i t ,   M .   Z a f a r ,   A .   R .   Ja v e d   a n d   Z .   Jal i l ,   A   n o v e l   e n s e m b l e   ma c h i n e   l e a r n i n g   met h o d   t o   d e t e c t   p h i s h i n g   a t t a c k , 2 0 2 0   I E EE  2 3 r d   I n t e r n a t i o n a l   M u l t i t o p i c   C o n f e re n c e   ( I N MIC),   P a k i s t a n ,   2 0 2 0 ,   p p .   1 - 5 ,   d o i :   1 0 . 1 1 0 9 / I N M I C 5 0 4 8 6 . 2 0 2 0 . 9 3 1 8 2 1 0 .   [ 1 9 ]   A .   N .   S .   C h a r a n ,   Y .   - H .   C h e n   a n d   J .   - L .   C h e n ,   P h i s h i n g   w e b s i t e s   d e t e c t i o n   u s i n g   m a c h i n e   l e a r n i n g   w i t h   U R L   a n a l y s i s , 2 0 2 2   I E E E   W o r l d   C o n f e r e n c e   o n   A p p l i e d   I n t e l l i g e n c e   a n d   C o m p u t i n g   ( A I C ) ,   S o n b h a d r a ,   I n d i a ,   2 0 2 2 ,   p p .   8 0 8 - 8 1 2 ,   d o i :   1 0 . 1 1 0 9 / A I C 5 5 0 3 6 . 2 0 2 2 . 9 8 4 8 8 9 5 .   [ 2 0 ]   R .   R a j   a n d   S .   S .   K a n g ,   S p a a n d   n o n - sp a U R d e t e c t i o n   u s i n g   m a c h i n e   l e a r n i n g   a p p r o a c h , 2 0 2 2   3 r d   I n t e r n a t i o n a l   C o n f e re n c e   f o r   Em e r g i n g   T e c h n o l o g y   ( I N C ET) ,   B e l g a u m,  I n d i a ,   2 0 2 2 ,   p p .   1 - 6 ,   d o i :   1 0 . 1 1 0 9 / I N C ET 5 4 5 3 1 . 2 0 2 2 . 9 8 2 5 1 9 7 .   [ 2 1 ]   M .   A b u t a h a ,   M .   A b a b n e h ,   K .   M a h m o u d   a n d   S .   A .   - H .   B a d d a r ,   U R p h i sh i n g   d e t e c t i o n   u s i n g   m a c h i n e   l e a r n i n g   t e c h n i q u e s   b a se d   o n   U R Ls   l e x i c a l   a n a l y si s,” 2 0 2 1   1 2 t h   I n t e r n a t i o n a l   C o n f e r e n c e   o n   I n f o r m a t i o n   a n d   C o m m u n i c a t i o n   S y st e m s   ( I C I C S ) ,   V a l e n c i a ,   S p a i n ,   2 0 2 1 ,   p p .   1 4 7 - 1 5 2 ,   d o i :   1 0 . 1 1 0 9 / I C I C S 5 2 4 5 7 . 2 0 2 1 . 9 4 6 4 5 3 9 .     [ 2 2 ]   S .   G h a r e e b ,   M .   M a h y o u b   a n d   J.  M u st a f i n a ,   A n a l y si o f   f e a t u r e   s e l e c t i o n   a n d   p h i sh i n g   w e b s i t e   c l a ss i f i c a t i o n   u s i n g   m a c h i n e   l e a r n i n g ,   2 0 2 3   1 5 t h   I n t e r n a t i o n a l   C o n f e r e n c e   o n   D e v e l o p m e n t i n   e S y s t e m En g i n e e ri n g   ( D e S E) ,   B a g h d a d   a n d   A n b a r ,   I r a q ,   2 0 2 3 ,   p p .   1 7 8 - 1 8 3 ,   d o i :   1 0 . 1 1 0 9 / D e S E 5 8 2 7 4 . 2 0 2 3 . 1 0 0 9 9 6 9 7 .     [ 2 3 ]   X .   Li u   a n d   J.  F u ,   S P W a l k :   s i m i l a r   p r o p e r t y - o r i e n t e d   f e a t u r e   l e a r n i n g   f o r   p h i s h i n g   d e t e c t i o n ,   i n   I EE Ac c e ss ,   v o l .   8 ,     p p .   8 7 0 3 1 - 8 7 0 4 5 ,   2 0 2 0 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 0 . 2 9 9 2 3 8 1 .   [ 2 4 ]   R. R.  Ro ut G L i ng am   a n D V .   L . N S om a y aj ul u, “D et ec ti o of   m al ic io us  s oci al   b ot s   us in g le ar ni n a u to m at a   w it U RL   f ea tu r e s   i n   Tw i t t e r   n e t w o r k ,   i n   I EEE   T r a n s a c t i o n s   o n   C o m p u t a t i o n a l   S o c i a l   S y st e m s,   v o l .   7 ,   n o .   4 ,   p p .   1 0 0 4 - 1 0 1 8 ,   A u g .   2 0 2 0 ,   d o i :   1 0 . 1 1 0 9 / T C S S . 2 0 2 0 . 2 9 9 2 2 2 3 .   [ 2 5 ]   A n t i - p h i s h i n g   w o r k i n g   g r o u p   ( A P W G )   r e p o r t   o n   p h i s h i n g   a c t i v i t y   t r e n d s.   A v a i l a b l e   a t   h t t p s: / / a p w g . o r g / t r e n d sr e p o r t s /   a c c e ss e d   o n   07 - J a n - 2 0 2 4 .       B I O G RAP H I E S O F   AUTH O RS       Na n d e e sha   H a ll i m y so r e   De v a r a         p re se n tl y   wo rk in g   a a ss istan t   p r o fe ss o i n   De p t .   Of  Co m p u ter  S c ien c e   a n d   En g in e e rin g ,   JSS   S c ien c e   a n d   Tec h n o lo g y   U n iv e rsit y ,   M y su ru ,   Ka rn a tak a ,   In d ia.  He   re c e iv e d   M a ste o tec h n o lo g y   fr o m   S ri  Ja y a c h a m a ra jen d ra   Co ll e g e   o f   En g i n e e rin g .   C u rre n tl y ,   h e   is   p u rsu in g   P h . D .   in   c y b e r   se c u rit y   JSS   S c ien c e   a n d   Tec h n o lo g y   Un iv e rsity ,   M y s u ru .   His  g e n e ra re se a rc h   in tere st i s in   th e   a re a   o in fo rm a ti o n   a n d   c y b e s e c u rit y ,   URL  p h ish in g   d e tec ti o n ,   we b   s e c u rit y ,   m o b il e   se c u rit y ,   o n l in e   so c ial  n e two rk ,   a n d   m a c h in e   lea rn in g .   He   c a n   b e   c o n tac ted   a e m a il h d n a n d e e sh @jss stu n iv . in .       Pra sa n n a   B a n ti g a n a h a ll i   Th i m a p p a           re c e iv e d   P h . D.   d e g re e   fro m   Visv e sv a ra y a   Tec h n o l o g ica U n iv e rsit y ,   Ka rn a t a k a ,   In d ia  i n   t h e   a re a   o Cl o u d   S e c u rit y .   He   h a s p u b li sh e d   m o r e   th a n   6 0   re se a rc h   a rti c les   in   In tern a ti o n a Jo u rn a ls  a n d   Co n fe re n c e o h ig h   re p u te  in c lu d i n g   IEE E,   El se v ier,  a n d   S p ri n g e r .   H e   is  se rv in g   a re v iew e o El se v ier,  IEE a n d   m a n y   re p u te d   Jo u rn a ls.   Also ,   h e   is  a   l ifetime   m e m b e o Co m p u ter  S o c iety   o f   In d ia   (CS I).   At   p re se n t,   h e   is   wo rk i n g   a As so c iate   P r o fe ss o i n   t h e   De p t.   Of   Co m p u ter  sc ien c e   a n d   E n g i n e e rin g ,   JSS   S c ien c e   a n d   Tec h n o l o g y   U n iv e rsit y ,   M y su r u ,   Ka rn a ta k a ,   In d ia.   He   c a n   b e   c o n tac ted   a e m a il :   p ra sa n n a b t@jsss tu n iv . in .     Evaluation Warning : The document was created with Spire.PDF for Python.