I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m pu t er   E ng ineering   ( I J E CE )   Vo l.   15 ,   No .   6 Decem b er   20 25 ,   p p .   5 8 6 3 ~ 5 8 7 8   I SS N:  2088 - 8 7 0 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijece. v 15 i 6 . pp 5 8 6 3 - 5 8 7 8           5863       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   Exploring  f ea ture  engineering  and   ex pla ina ble  AI fo r phishing   website  det e ction:  a sy stema tic  li ter a ture  revi e w       No ra h Alsu qa y h,  Abd ulra h m a n M irza ,   Are ej   Alho g a il   I n f o r mat i o n   S y st e ms D e p a r t me n t ,   C o l l e g e   o f   C o m p u t e r   a n d   I n f o r ma t i o n   S c i e n c e ,   K i n g   S a u d   U n i v e r si t y ,   R i y a d h ,   S a u d i   A r a b i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ap r   1 4 ,   2 0 2 5   R ev is ed   Au g   5 ,   2 0 2 5   Acc ep ted   Sep   1 4 ,   2 0 2 5       De tec ti n g   p h is h i n g   we b si tes   is  a   ra p i d ly   e v o l v i n g   f iel d   a i m e d   a t   i d e n ti fy i n g   a n d   m it i g a t i n g   c y b e ra t tac k s   t a rg e t i n g   i n d i v i d u a ls ,   o r g a n i z a t i o n s ,   a n d   g o v e r n m e n ts .   O n g o i n g   p r o g re ss   i n   a rt if ic ial   i n tel li g e n c e   ( AI h a s t h e   p o te n t ia to   re v o l u ti o n ize   p h i s h i n g   d e tec ti o n   b y   e n h a n c i n g   m o d e l   a c c u ra c y   a n d   im p r o v i n g   t ra n s p a re n c y   t h r o u g h   e x p lai n a b le  AI   (X AI) .   H o we v e r,   si g n i fica n t   c h a ll e n g e r e m a i n ,   p a rt ic u l a r l y   i n   in te g ra t i n g   f e a t u re   e n g i n e e r i n g   w i th   XA t o   a d d r e ss   s o p h i st ica te d   p h is h i n g   s tra te g ie s   i n c l u d i n g   z e r o - d a y   a tt a c k s ,   th a t   e v a d e   t ra d i ti o n a l   d e tec t io n   m e c h a n ism s .   T o   o v e rc o m e   t h e se   c h a ll e n g e s ,   t h is   e x a m i n e t h e   im p a c o fe a t u re   e n g i n e e r i n g   a n d   XA i n   p h is h i n g   d e tec t i o n ,   e m p h a s iz i n g   t h e ir   a b il it y   t o   e n h a n c e   a c c u ra c y   w h il e   p r o v i d i n g   in te r p re ta b i li t y .   B y   i n te g r a t i n g   f e a t u re   e x t ra c ti o n   wi t h   i n te r p re ta b l e   m o d e ls ,   th e se   tec h n i q u e s   im p ro v e   d e c is io n - m a k i n g   t ra n s p a re n c y   a n d   s y st e m   ro b u s t n e ss .   T h is   p a p e r   p re se n ts   t h e   f irs t   s y s tem a ti c   li ter a t u r e   re v i e (S LR )   fo c u si n g   o n   t h e   im p a c o f   fe a t u r e   e n g i n e e ri n g   a n d   XA I   o n   s tate - of - t h e - a r t   p h i s h i n g   d e tec t i o n   a p p r o a c h e s.   Ad d it i o n a l l y ,   i t   i d e n ti f ies   c r i ti c a l   re s e a rc h   g a p s   a n d   c h a l le n g e s ,   i n c l u d i n g   s c a la b i l it y   iss u e s ,   t h e   e v o l u ti o n   o f   p h is h i n g   tec h n i q u e s ,   a n d   b a la n c i n g   c o m p l e x i t y   w it h   i n te r p re ta b il it y .   T h e   fi n d i n g p r o v i d e   v a lu a b le   a c a d e m i c   i n s i g h t w h i le   o f fe r i n g   p ra c t ica l   re c o m m e n d a ti o n s   fo d e v e l o p in g   a c c u ra te  a n d   i n te r p re ta b le   p h is h i n g   d e tec ti o n   s y s te m s,   a i d i n g   o r g a n iza ti o n s   i n   s tr e n g t h e n i n g   c y b e rse c u r i ty   m e a s u re s .   K ey w o r d s :   E x p lain ab le  ar tific ial  in tellig en ce   Featu r en g in ee r i n g   Ma ch in lear n in g   Ph is h in g   d etec tio n     Ph is h in g   web s ites     T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   No r ah   Als u q ay h   I n f o r m atio n   Sy s tem s   Dep ar tm en t,  C o lleg o f   C o m p u ter   an d   I n f o r m atio n   Scien ce   Kin g   Sau d   Un iv e r s ity   R iy ad h   1 1 5 4 3 ,   Sau d i A r ab ia   E m ail:  n . alsu q ay h @ g m ail. co m       1.   I NT RO D UCT I O N   T o d ay ,   th e   wid esp r ea d   u s e   o f   tech n o lo g y   in   m an y   a ctiv ities   co n d u cted   b y   in d iv id u als  an d   o r g an izatio n s   h as  g r ea tly   s im p lifie d   life   an d   c o n tr o lled   tr an s ac tio n s   a n d   th er ef o r e   h as  r esu lted   in   a   s im u ltan eo u s   r is in   th s o p h is ticatio n   an d   r ate  o f   cy b er   th r ea ts   [ 1 ] .   cy b er attac k   is   d ef i n ed   as  th m alicio u s   ex p lo itatio n   o f   co m p u ter   n etwo r k s ,   in f o r m atio n   s y s tem s ,   an d   in f r astru ctu r [ 2 ] .   T h is   m alicio u s   v io latio n   o f   co m p u tin g   r eso u r ce s   is   ac co m p lis h ed   b y   u s in g   v ar i o u s   m eth o d s   to   s teal,   alter ,   o r   d e s tr o y   f in a n cial  d ata,   d is ab le  s y s tem s   an d   n etwo r k s ,   an d   co m m it id en tity   th e f [ 3 ] .   On cy b er   th r ea is   p h is h in g ,   wh ich   h as  em er g ed   s ig n if ican co n ce r n   r ec e n tly   d u to   its   in cr ea s in g   o cc u r r e n ce   [ 1 ] ,   [ 2 ] .   Ph is h in g   em p lo y s   s o cial  en g in ee r in g   an d   tech n ical  m eth o d s   to   s te al  p er s o n al  id en tity   in f o r m atio n   ( PII )   an d   f in a n cial  cr ed en tials .   So cial  en g i n ee r i n g   d ec ei v es  v ictim s   in to   tr u s ti n g   th e   s o u r ce   wh ile   d ir ec tin g   th em   to   f r au d u len web s ites .   p h is h in g   s ce n ar io   is   illu s tr ated   in   Fig u r 1 ,   in   wh ich   m alicio u s   ac to r   f ab r icate s   web s ite  th at   m im ics  r esp ec tab le  an d   wel l - k n o wn   co m p an y ,   s u ch   as  A m az o n .   Nex t,  u s in g   v ar iety   o f   p latf o r m s ,   in clu d in g   s o cial  m ed ia  an d   e - m ai ls ,   th attac k er   s en d s   th r elate d   lin k   to   m an y   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 8 6 3 - 5 8 7 8   5864   p o s s ib le  tar g ets.  I f   v ictim   f alls   f o r   th s ca m ,   th ey   m ay   ac ce s s   th f ak web s ite  an d   p r o v id v ital   in f o r m atio n ,   an d   th u s er s   c r ed en tials   ar ef f ec tiv ely   ac q u ir ed   b y   th attac k er .   T h att ac k er   th en   u s es  th e   s to len   lo g in   cr e d en tials   to   g ain   ac ce s s   to   th in ten d ed   we b s ite  an d   co m m it f r au d   [ 4 ] .           Fig u r 1 .   Step s   in v o lv ed   in   c o m m o n   p h is h in g   s ce n ar io   [ 4 ]       Ph is h in g   attac k s   ar n o lim it ed   to   in f o r m atio n   co llectio n th ey   ar also   th m o s p o p u l ar   way   to   d is s em in ate  r an s o m war an d   o th er   m alicio u s   s o f twar e.   Acc o r d in g   to   s u r v ey s ,   th e   f i n an cial  d am a g o f   cy b er cr im s u r p ass ed   $ 6   tr il lio n   ea ch   y ea r ,   an d   is   co n ti n u ally   in cr ea s in g .   Fu r th er m o r e,   d ata  ab o u th B u s in ess   E m ail  C o m p r o m is ( B E C )   r ev ea led   in   2 0 1 9   t h at  p h is h in g   ass au lts   wer r esp o n s ib le  f o r   a n   asto u n d in g   $ 2 6   b illi o n   in   f in a n cial  d am ag es   [ 1 ] .   Mo r e o v er ,   r ec o r d   was  s et  f o r   p h is h in g   in   2 0 2 2   wh en   th e   an ti - p h is h in g   wo r k in g   g r o u p   ( APW G)   r ec o r d ed   m o r th a n   4 . 7   m illi o n   attac k s ,   ac co r d in g   to   its   Ph is h in g   Activ ity   T r en d s   R ep o r f r o m   th f o u r th   q u ar ter   o f   th at  y ea r   [ 2 ] .   Ad d itio n ally ,   th Oc to b er   2 0 2 2   s am p le   s h o win g   1 0 1 , 1 0 4   p h is h in g   e - m ail  s u b jects wa s   th lar g est s u ch   s am p le  th at  APW h ad   e v er   s ee n .     Acc o r d in g   to   r ec en s tu d ies,   XAI   co m b in ed   with   f ea t u r en g in ee r in g   tech n iq u es  ca n   en h an ce   p h is h in g   web s ite  d etec tio n   s y s tem s .   T h is   is   b ec au s X AI   ca n   p r o v id b o th   ac cu r a te  p r ed ictio n s   an d   in ter p r etab le  in s ig h ts   in to   m o d el  b eh a v io r .   XAI   tec h n iq u es,  s u ch   as  SHAP,  en ab le  u s er s   to   r ea lize  th e   im p o r tan ce   o f   in d i v id u al  f ea t u r es  ( e. g . ,   u n if o r m   r eso u r ce   l o ca to r   ( UR L ) - b ased   a n d   c o n t en t - b ased )   t o   m o d el  d ec is io n s ,   in cr ea s in g   co n f id e n ce   an d   tr an s p ar en c y   in   p h i s h in g   d etec tio n   s y s tem s .   So m o f   th e   cu r r e n ap p r o ac h es  h av e   b ee n   s ee n   to   p r o v id r ea s o n ab le  s o lu tio n s   to   th p r o b lem   o f   p h is h in g ;   h o wev er ,   th e y   h a v e   s o m d r awb ac k s   in clu d in g   th e   ab ilit y   to   ad ap to   ze r o - d ay   attac k s   [ 3 ] ,   th is s u o f   in ter p r etab ilit y   [ 4 ]   an d   th e   p r o b lem s   o f   d ea lin g   with   im b alan ce d   d atasets   an d   th e   s ca lab ilit y   q u esti o n .   T o   o v er co m t h ese  lim itatio n s   an d   s in ce   th n at u r o f   p h is h in g   t h r ea ts   is   ev er   ch an g in g ,   r esea r ch er s   m u s l o o k   f o r   n ew  wa y s   an d   tech n iq u es.  So m o f   th f u tu r r ec o m m en d atio n s   f o r   t h en h a n ce m en o f   th p h is h in g   d etec tio n   s y s tem s   in clu d in teg r atio n   o f   f ea tu r en g in e er in g   with   XAI   f o r   p h is h in g   d etec tio n   to   ad d r ess   th ese  ch allen g es.  T h ese   ap p r o ac h es  im p r o v t h ef f ici en cy   o f   d etec tio n   in   ad d itio n   to   o f f er in g   im p o r tan in f o r m a tio n   r eg ar d in g   th e   d ec is io n s   m ad b y   th d etec tio n   s y s tem s   [ 5 ] .   T h r o u g h   th i n co r p o r atio n   o f   s tab le  f ea tu r e   s elec tio n   with   th in ter p r etab le  m o d els,  th ey   e n h an ce   th p er f o r m a n ce   o f   th s y s tem   as we ll a s   th tr u s t o f   th u s er s .     T h is   r esear ch   co n n ec ts   th f ield s   o f   cy b er s ec u r ity ,   m ac h i n lear n in g ,   an d   XAI   b y   p r esen tin g   a   s y s tem atic  r ev iew  co n ce n t r ated   o n   b o th   f ea tu r e n g in ee r in g   an d   in ter p r etab ilit y   in   p h is h in g   d etec tio n .   T h e   p r ac tical  s ig n if ican ce s   o f   th is   s tu d y   ar e   s ig n if ican t,  c o n tr ib u tin g   to   o n g o in g   d is cu s s io n s   in   th f ield   o f   s ec u r co m p u tin g   s y s tem s .   I ts   r esu lt s   will  b v alu ab le  to   r esear c h er s ,   d ev elo p e r s ,   an d   p o licy m ak er s ,   en s u r in g   its   r elev an ce   a n d   p o te n tial  f o r   f u t u r citatio n .   T h e   r esear c h   s ee k s   to   u n d e r s tan d   r ec en d ev el o p m en ts   in   p h is h in g   web s ite  d etec tio n   u s in g   f ea tu r en g in ee r in g   a n d   XAI ,   an aly zin g   th eir   ad v an ta g es,  d r awb a ck s ,   an d   p o ten tial   p ath s   f o r war d   f o r   d e v elo p in g   ac cu r ate  a n d   i n ter p r etab le   d etec tio n   s y s tem s .   Mu ltip le   s tu d ies  h av b ee n   co n d u cte d   o n   m an y   ca teg o r ie s   o f   p h is h in g   d etec tio n   s u c h   as  m ac h in lear n in g   an d   d ee p   lear n in g   m eth o d s ;   y et,   to   o u r   k n o wled g e,   th e r e   h as  b ee n   s h o r tag o f   r ese ar ch   th at  f o cu s es  o n   th co m b in atio n   o f   f ea t u r en g in ee r in g   m et h o d s   with   XAI   to   im p r o v d etec tio n   ac c u r ac y   a n d   in ter p r etab ilit y .   T h is   u n d e r s co r es  th e   im p o r tan ce   o f   c o n d u ctin g   d ee p er   in v esti g atio n s   to   an aly ze   an d   ass ess   th s ig n if ican f o r   im p r o v in g   p h is h in g   d etec tio n   s y s tem s .   T h is   wo r k   r ep r esen ts   th e   f ir s SLR  th at  co m p r eh en s iv ely   ex p lo r es  th e   im p ac t   o f   f ea tu r e n g in ee r in g   an d   XAI   o n   im p r o v in g   th a cc u r ac y   an d   in ter p r etab ilit y   o f   p h is h in g   web s ite  d etec tio n   s y s tem s .   T h p ap er   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         E xp lo r in g   fea tu r en g in ee r in g   a n d   ex p la in a b le  A I   fo r   p h is h in g   w eb s ite  d etec tio n     ( N o r a h   A ls u q a yh )   5865   p r esen ts   n o v el  co n t r ib u tio n s ,   in clu d in g th class if icatio n   o f   p h is h in g   d etec tio n   r esear ch   u tili zin g   h y b r id   f ea tu r en g i n ee r in g   m et h o d s ,   an d   th ev alu atio n   o f   XAI ' s   r o le  in   elu cid atin g   m o d el  o u tp u ts .   T h r ev iew   id en tifie s   r esear ch   n ee d s ,   in cl u d in g   s ca lab ilit y ,   th s h if tin g   n atu r o f   p h is h in g   s tr ateg ies,  an d   th tr a d e - o f f   b etwe en   m o d el  c o m p lex ity   a n d   in te r p r etab ilit y ,   s o   p r o v id i n g   u s ef u ac a d em ic  in s ig h ts   a n d   a   f r a m ewo r k   f o r   f u tu r r esear ch .   I p r o v id es  p r ac tical  d ir ec tio n   f o r   d ev elo p in g   p r ec is an d   tr a n s p ar en t   p h is h in g   d etec tio n   s y s tem s ,   as s is tin g   en ter p r is es   in   en h an ci n g   th eir   c y b er s ec u r ity   f r am ew o r k s   an d   ag g r ess iv ely   ad d r ess in g   ad v an ce d   p h is h in g   attac k s .   T h o r g an izatio n   o f   th is   r ev iew  is   as  f o llo ws.  I n   s ec tio n   two ,   b r ief   b ac k g r o u n d   o n   f ea tu r e   en g in ee r in g ,   XAI   an d   p h is h in g   d etec tio n   m eth o d s   is   p r esen ted .   Sectio n   t h r ee   v iews  th m eth o d o l o g y   o f   th e   s tu d y   wh ile  s ec tio n   f o u r   co n d u cts  s y s tem atic  liter atu r r ev iew  o f   th s tate - of - th e - ar t   wo r k s   r elate d   to   p h is h in g   d etec tio n .   I n   s ec tio n   f iv e,   d is cu s s io n   o f   th m ain   r esear ch   s tu d ies  in   th is   ar ea   is   p r o v id ed ,   alo n g   with   an   ex p lo r atio n   o f   n ew  ch allen g es.  Sectio n   s ix   p r esen ts   th s u g g ested   d ir ec tio n s   f o r   f u tu r s tu d ies  b ased   o n   th f i n d in g s   a n d   f in ally   th co n clu s io n .       2.   B ACK G RO UND   Ph is h in g   d etec tio n   is   cr u cial  p ar o f   th cy b er s ec u r ity   d o m ain   with   th g o al  o f   id e n t if y in g   an d   p r ev en tin g   f r au d u len attem p t s   at  s tealin g   s en s itiv in f o r m a tio n .   Featu r e   en g in e er in g   an d   XAI   ar im p o r tan t   co n tr ib u to r s   to   im p r o v in g   th e   r o b u s tn ess   an d   r eliab ilit y   o f   p h is h in g   d etec tio n   a p p r o ac h es.  Fo r   s y s tem s   to   p r o p er l y   d is tin g u is h   b etwe en   leg itima te  an d   p h is h in g   ac tiv ities ,   f ea tu r es  s h o u ld   b s el ec ted ,   cr af ted ,   an d   o p tim ized .   T h is   is   s u p p o r ted   b y   XAI ,   wh ich   en s u r es  th at  th ese  s y s tem s   r em ain   u n d er s tan d ab le  an d   tr u s two r th y   th r o u g h   h ig h lig h tin g   th d ec is io n - m ak i n g   p r o ce s s .   T h er ef o r e,   f ea tu r en g in ee r in g   a n d   XAI   im p r o v t h ef f icien c y ,   ex p lain ab ilit y ,   an d   u s er   f r ie n d lin ess   o f   p h is h in g   d etec tio n   s y s tem s .     2 . 1 .     F e a t ure  eng ineering   Ph is h in g   d etec tio n   tech n iq u e s   im p r o v ed   b y   f ea tu r en g in ee r in g   wh ich   tr a n s f o r m s   r aw   d ata  in to   r elate d   f ea tu r es  th at  en h an ce   th b eh av i o r   o f   m o d els.  T o   e f f ec tiv ely   d is tin g u is h   b etwe en   b en ig n   an d   f ak e   web s ites ,   p h is h in g   d etec tio n   m ec h an is m s   ca n   b b ased   o n   UR L   ch ar ac ter is tic s   an d   co n ten t - b ased   in d icato r s   th at  ar d er iv ed .   Ad v a n ce d   tech n iq u es,  s u c h   as  Gen etic  Alg o r ith m s   an d   Prin cip al  C o m p o n e n An aly s is   ( PC A)   ca n   b u s ed   to   f ilter   th f ea tu r s p ac to   m in im ize  t h d im en s io n ality   an d   at  th s am tim p r eser v m o s o f   t h in f o r m atio n   co n te n [ 6 ] .     T h is   g u ar an tees  th at   ea ch   o f   th e   f ea tu r es h as  its   o wn   u n iq u e   co n tr i b u tio n   to   th p r ed ictiv ab ilit y   o f   th e   m o d el,   b y   s elec tin g   an d   elim in atin g   r ed u n d an f ea tu r es  p r o p er ly .   T h is   m ak es  f ea tu r en g in ee r in g   p o wer f u p r o ce s s   f o r   en h an ci n g   th e   ac cu r ac y   an d   ef f icien cy   o f   p h is h in g   d etec tio n   s y s tem s ,   esp ec ially   wh en   co m p o s ite  f ea tu r es a n d   d o m ain - s p ec if ic  attr ib u tes ar cr ea ted .     2 . 2 .     Art if ici a i nte llig ence   ( AI)   AI   is   f ield   th at  r e p licates  h u m an   in tellig en ce   to   e n ab le  s y s tem s   to   d o   th in g s   lik e   p r ed ictin g   f u tu r e   tr en d s   in   th s to ck   m ar k et.   I h as  r ep lace d   tr ad itio n al  m e th o d s   an d   is   co m p r is ed   o f   s u b f ield s   in clu d in g   m ac h in lear n in g   an d   n atu r al   lan g u ag p r o ce s s in g   th at  h a v alter ed   th f ac o f   in d u s tr ies  lik h ea lth ca r e,   f in an ce   an d   au t o n o m o u s   s y s tem s .   T h ac ce ler atio n   in   AI   d e v elo p m en t   ca n   b attr ib u te d   t o   th r a p id   p r o g r ess   m ad in   r esear ch ,   esp ec ially   i n   co m p u ter   v is io n   ( C V)   an d   s p ee ch   r ec o g n itio n ,   wh ich   h ig h lig h th e   im p ac t   o f   AI   o n   tr an s f o r m in g   th f u tu r o f   tech n o lo g y   an d   s o ciety .     2 . 3 .     E x pla ina ble  a rt if icia l in t ellig ence   ( XAI)   I n   r ec en y ea r s ,   lear n in g   m o d e ls   r ev o lu tio n ized   th e   lan d s ca p o f   au to m ated   p r e d ictio n   an d   d ec is io n - m ak in g .   Ar tific ial  n eu r al  n etwo r k s   ( ANN)   an d   d ee p   lear n in g   m o d els h av p r o v en   h ig h ly   e f f ec tiv in   h an d lin g   co m p lex   task s   an d   ac h iev in g   h ig h   p e r f o r m an ce   [ 7 ] .   Desp it th eir   p er f o r m a n ce   g ain s ,   th ese  m o d els  ten d   to   lack   tr an s p ar en c y   an d   ar e   d if f icu lt  to   in ter p r et.   I n co r p o r ati n g   in ter p r etab ilit y   as  an   ad d i tio n al  lay er   d u r in g   m o d el  d ev elo p m en t   ca n   en h a n ce   p r ac tical  im p lem e n tatio n   an d   h elp   id e n tify   an d   ad d r e s s   d ef icien cies  f o r   th r ee   k ey   r ea s o n s   [ 6 ] :     I h elp s   e n s u r in te g r ity   i n   d e cisi o n - m ak in g   b y   en a b lin g   t h d etec tio n   an d   co r r ec tio n   o f   b iases   p r esen in   th tr ain in g   d ataset.     I f ac ilit ates  m o d el  r o b u s tn e s s   b y   id en tify in g   p o te n tial  p er tu r b atio n s   th at  m ay   s ig n if i ca n tly   alter   th m o d el’ s   p r e d ictio n s .     I en s u r es  th at  o n ly   m ea n in g f u v ar iab les  co n tr ib u te  to   th o u tp u t,  p r o m o tin g   tr u th f u ca u s ality   an d   tr an s p ar en cy   i n   th m o d el’ s   r e aso n in g   p r o ce s s .   Ap p ly in g   XAI   tech n i q u es  in   f ea tu r en g in ee r in g   f o r   p h is h in g   web s ite  d etec tio n   is   cr u cial  f o r   s ev er al   r ea s o n s   [ 8 ] ,   [ 9 ] .   First,  it  s u p p lies   v is ib le  in s ig h ts   in to   h o an d   wh y   d ec is io n s   ar e   m a d b e h in d   m o d el' s   p r ed ictio n   o f   web s ite  as  p h is h in g   o r   au th e n tic.   Seco n d ,   r aises   u s er   tr u s t,  wh ich   i s   ess en tial  f o r   th Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 8 6 3 - 5 8 7 8   5866   ac ce p tan ce   o f   AI - d r i v en   s ec u r ity   m ea s u r es.  T h ir d ,   XAI   p r o v id es  an   u n d er s tan d in g   o f   h o d if f er en f ea tu r es   s u ch   as  UR L   an d   Hy p e r T ex t   m ar k u p   la n g u a g ( HT ML )   f ea tu r es  in f lu en ce   p r ed ictio n s   th at  r esu lt  in   m o r e   p r ec is an d   tr u s two r th y   p h is h in g   d etec tio n .   L astl y ,   XAI   id e n tifie s   th ef f ec t   o f   in d i v id u al   f ea tu r es  a n d   t h eir   in ter ac tio n s   an d   allo ws  o p ti m ized   f ea tu r e n g in ee r i n g   b y   f o cu s in g   o n   t h m o s in f l u en tial  f ac to r s   an d   d is ca r d in g   r e d u n d an t o r   ir r ele v an t d ata.     2 . 4 .     P his hin g   det ec t io n m et h o ds   Ph is h in g   d etec tio n   m eth o d s   em b r ac d iv e r s tech n iq u es  an d   s tr ateg ies  to   id en tify   an d   m itig ate  p h is h in g   attac k s   o n   web s ites   th at  ar aim ed   at  s tealin g   s en s itiv in f o r m atio n   o r   c r e d en tials .   T y p ically ,   m u ltip le  tech n iq u es  ar c o m b i n ed   to   d etec a n d   p r ev en th is   attac k   b ec au s p h is h in g   is   co m p licated   an d   th e r e   is   n o   s p ec if ic  s o lu tio n   to   co m p letely   p r e v en th is   th r ea t.  Fig u r 2   illu s tr ates  th p h is h in g   d etec tio n   ap p r o ac h es u s er   awa r en ess   a n d   s o f twar e - b ased   d etec tio n .   I n   th f o llo win g   s ec tio n s ,   we  f o cu s   o n   d is cu s s in g   th s o f twar e - b ased   tech n iq u es   in   d etail.           Fig u r 2 .   Ph is h in g   d etec tio n   m eth o d s   [ 1 0 ] [ 1 2 ]       2 . 4 . 1 .   L is t - ba s ed  a pp ro a ch   L is t - b ased   d etec tio n   ca n   b i m p lem en ted   in   two   f o r m s b l ac k lis d etec tio n   an d   wh itelis d etec tio n   [ 1 3 ] ,   [ 1 4 ] .   T h is   ap p r o ac h   is   c h ar ac ter ized   b y   ea s o f   im p le m en tatio n   an d   s tr o n g   o p er ati o n al  ef f ec tiv e n ess .   Ho wev er ,   it  ca n n o ef f icien tl y   id en tify   p h is h in g   attac k   d u to   p r o b lem s   with   th u p d ate  m ec h an is m s   o f   th ese  lis t s   [ 1 ] ,   wh ich   r eq u i r es  lo o f   h u m a n   ef f o r an d   ti m to   u p d ate  th lis ts   [ 1 0 ] .   T h m eth o d   f ails   to   d etec th r ea ts   f r o m   n ew  an d   u n k n o wn   UR L s ,   th u s   m a k in g   it  p r o n to   ze r o - d ay   attac k s   [ 1 1 ] ,   [ 1 3 ] .   T h e r ef o r e ,   th b lack -   a n d   wh itelis t d etec tio n   m eth o d s   ar cu r r en tly   less   u tili ze d .     2 . 4 . 2 .   H euristic - ba s ed  a pp ro a ch   T h h eu r is tic  ap p r o ac h   ca n   id en tify   s u s p icio u s   co n te n b ase d   o n   i n d icativ cu es,  th e r eb y   en h an cin g   d etec tio n   ef f icien cy   an d   m i n im izin g   p h is h in g - r elate d   l o s s es  in   tim ely   m an n e r .   U n lik th e   lis t - b ased   ap p r o ac h ,   th is   tech n iq u h as  h ig h   lev el  o f   p er f o r m an ce   i n   d etec tin g   th r ea ts   f r o m   n ew  an d   u n k n o wn   UR L s   [ 1 1 ] .   Ho we v er ,   it  o f ten   h as  r elativ ely   h ig h er   f alse  p o s itiv r ate  ( FP R )   an d   ten d s   to   b tim e - co n s u m in g ,   as  it  d ep en d s   o n   s ea r ch   en g i n es  an d   th ir d - p ar ty   s er v ices  s u ch   as  DNS  q u er ies   [ 1 2 ] .   I n   ad d itio n ,   th f o r m u latio n   o f   h eu r is tic  s tr ateg ies  is   s u b jec tiv an d   d e p en d s   o n   ex p er t   k n o wled g e   o r   o b s er v a b le  p atter n s   in   p h is h in g   attem p ts .   T h is   tech n iq u e   is   p er f o r m ed   b y   c h ec k in g   w eb   p ag e' s   co n ten t,  th e   web s ite  UR L ,   o r   v is u al   s im ilar ities .       2 . 4 . 3 .   M a chine  l ea rning   ( M L )   a pp ro a ch    ML   ap p r o ac h es  f o r   d etec tin g   p h is h in g   we b   p a g es  h av e   p r e v io u s ly   b ee n   ex te n s iv ely   d is c u s s ed   [ 1 5 ] ,   [ 1 6 ] .   Sin ce   p h is h in g   d etec tio n   in v o lv es  ca teg o r izin g   web p ag es  as  eith er   b en ig n   o r   p h is h in g ,   th m o d els  em p lo y ed   a r ty p ically   b i n ar y   class if ier s   [ 1 1 ] .   E ac h   d ata  p o in in   th in p u d ataset s u ch   as  UR L i s   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         E xp lo r in g   fea tu r en g in ee r in g   a n d   ex p la in a b le  A I   fo r   p h is h in g   w eb s ite  d etec tio n     ( N o r a h   A ls u q a yh )   5867   lab eled   as  eith er   b en ig n   o r   p h is h in g   to   e n ab le  t h m o d el  to   lear n   t h d is tin g u is h in g   f ea t u r es  o f   b o th   class es   [ 1 7 ] .   Var io u s   f ea t u r en g in ee r in g   tech n i q u es  ar em p lo y e d   t o   r ed u ce   th n u m b er   o f   f ea tu r es  an d   en h an ce   th e   ef f icien cy   an d   in ter p r etab ilit y   o f   d ataset  v is u aliza tio n   [ 1 8 ] .   Desp ite  s u b s tan tial  p r o g r ess   in   th id en tific atio n   o f   p h is h in g   UR L s   u s in g   ML   tech n iq u es,  s ev er al   cr itical  ch allen g es  r em ain .   On m aj o r   c o n ce r n   lies   in   th e   s elec tio n   o f   ef f ec tiv tr ain i n g   d atasets   th at  ac c u r ately   r ep r esen b o th   p h is h in g   an d   b en ig n   web s ites .   R esear ch er s   m u s ca r ef u lly   b a lan ce   th q u a n tity   o f   UR L s   u s ed   f o r   t r ain in g   with   th e   co m p u tatio n al  ef f icien cy   an d   s ca lab ilit y   o f   t h ap p lied   ML   alg o r ith m s ,   en s u r in g   b o th   p e r f o r m an ce   a n d   p r ac ticality   in   r ea l - wo r ld   d ep lo y m e n t   [ 1 9 ] .   An o th er   k e y   o b s tacle   is   f ea tu r in g   e x tr ac t io n ,   as  m ac h in lea r n in g   m o d els  ty p ically   r ely   o n   m an u al  en g i n ee r in g   o f   f ea tu r es  to   ca p tu r r elev a n p atte r n s   [ 1 7 ] .   C o llectin g   ce r tain   ty p es  o f   f ea tu r es,   p ar ticu lar ly   h o s t - b ased   f ea tu r es,  is   a ls o   tim e - co n s u m in g ,   wh ich   ca n   h in d er   th ef f icie n cy   o f   th p h is h in g   d etec tio n   p r o ce s s   [ 2 0 ] .   On o f   th k e y   ch allen g es  ass o ciate d   with   h an d cr a f ted   f ea tu r es  is   th eir   lim ited   g en er aliza b ilit y   to   u n s ee n   d at a.   Ad v er s ar ies,  s u ch   as  p h is h er s ,   m ay   e x p lo it  th is   b y   id e n t if y in g   th e   s p ec if ic  f ea tu r es a   m o d el  r elies o n   an d   in ten tio n ally   cr af tin g   UR L s   o r   web p ag es to   ev a d d etec tio n .     2 . 4 . 4 .   Dee l ea rning   ( DL )   a pp ro a ch   T h r o b u s tn ess   o f   DL   alg o r ith m s   h as  en c o u r ag e d   r esear c h er s   to   ex p lo r a   r an g o f   tech n iq u es  f o r   web s ite  class if icatio n ,   in clu d i n g   th ex tr a ctio n   o f   b o th   n o v el  an d   estab lis h ed   f ea tu r es s u ch   as  k ey wo r d   f r eq u e n cy   with in   UR L s   [ 2 1 ] .   I n   p h is h in g   d etec tio n ,   DL   tech n iq u es  o f f e r   th p o ten tial  t o   d ev elo p   d y n am ic   f ea tu r r ep r esen tatio n s   th at  ca n   ad ap to   co n ce p d r if co m m o n l y   o b s er v ed   in   p h is h in g   d ata   [ 1 1 ] .   DL   alg o r ith m s   r ed u ce   th lo a d   o f   f ea tu r ex tr ac tio n   an d   s elec tio n .   I n   co n t r ast  to   ML ,   DL   p r esen ts   s ev er al  d if f icu lties   in   co n tr ast  to   ML ,   it  n ec ess itate s   len g th y   tr a in in g   p er io d   [ 2 2 ] ,   [ 2 3 ]   a n d   e x ce s s iv co m p u ter   r eso u r ce s   [ 2 4 ] .   Fu r t h er m o r e,   b ec au s th ese  m o d els  wo r k   a s   " B lack b o x tech n iq u es,  it  is   d if f icu lt  to   e x p lain   h o th m o d el  ar r iv ed   at  r e s u lt  [ 2 5 ] .   An o t h er   p r o b lem   wi th   p h is h in g   d etec tio n   th at  h as n ' b ee n   th o r o u g h ly   d is cu s s ed   y et  is   r ea l - tim d etec tio n   [ 2 5 ] .   DL - b ased   p h is h in g   d etec tio n   m o d els  also   f ac th p r o b lem   o f   o v er f itti n g ,   in   wh ich   m o d el   p er f o r m s   well  o n   th e   tr ain in g   d ata  b u t   f ails   to   g en e r alize   to   n ew,   u n s ee n   d ata,   s u ch   as th at  r eq u ir ed   to   d etec t p h is h in g   web s ites   th at  wer n o t p ar t o f   th t r ain in g   [ 2 6 ] .   Als o ,   th d atasets   m ay   co n tain   s o m e   d u p licate  p o in ts ,   an d   it  is   ch allen g in g   t o   f i n d   en o u g h   lab elle d   d ata,   a n d   t h d is tr ib u tio n   o f   r ea d ata  an d   th d ataset  m ig h b d if f er en t,  r esu ltin g   in   th p o te n tial  r eq u ir em e n f o r   a d ap tatio n s .   Mo s m alicio u s   web s ites   ar s h o r t - liv ed   an d   ar o f ten   o f f lin b y   th tim t h e y   ar an aly ze d   [ 2 7 ] .     2 . 4 . 5 .   H y brid ba s ed  a pp ro a ch   Hy b r id   d etec tio n   tech n iq u es  r ely   o n   th in te g r atio n   o f   two   o r   m o r e   ex is tin g   ap p r o ac h es  t o   en h an ce   th p er f o r m an ce   o f   p h is h in g   s ite  d etec tio n   [ 1 2 ] .   Fo r   ex am p l e,   co m b in in g   h eu r is tics   an d   ML   ca n   h elp   f o r m   a   b etter   s y s tem   [ 2 8 ] .   An o th er   t y p o f   h y b r id   m o d el  in v o lv e s   th co m b in atio n   o f   m u ltip l m ac h in lear n in g   alg o r ith m s ,   wh e r th e   d ataset  is   in itially   tr ain ed   u s in g   o n al g o r ith m ,   an d   th r esu ltin g   o u t p u is   s u b s eq u e n tly   f ed   in to   s ec o n d   al g o r ith m   f o r   f u r t h er   tr ain in g   [ 2 9 ] ,   [ 3 0 ] .   Fu r th er m o r e ,   DL   m eth o d s   c an   b m ix ed   ( e. g . cr ea tin g   a   co n v o lu tio n al  n e u r al  n etwo r k   ( C NN) lo n g   s h o r t - ter m   m em o r y   [ L STM ]   m o d el  f o r   p h is h in g   d etec tio n )   [ 3 1 ]       3.   M E T H O DO L O G Y   T h s tu d y ' s   m ain   g o al  is   t o   s y s tem atica lly   an aly ze   h o f ea tu r en g in ee r in g   tech n iq u es  an d   ex p lain ab le  AI   m eth o d s   m ig h t   en h an ce   p h is h in g   web s ite  d etec tio n .   T h m eth o d o lo g y   co m p r is es  P R I SMA - g u id ed   s y s tem atic  r ev iew  o f   r ec en s ch o lar ly   liter atu r e,   in c o r p o r ati n g   q u an titativ an d   q u alitativ ev alu atio n   o f   ML   an d   DL   m o d els,  XAI   f r am ewo r k s   ( e . g . ,   SHAP,  L I ME ) ,   an d   h y b r id   f ea tu r s elec tio n   tech n iq u es.    I n   o r d er   to   id en tif y   co m m o n   th em es,  m eth o d o lo g ical  ad v an ce m en ts ,   an d   cu r r e n p r o b lem s ,   th r ev iew  s y n th esizes m o r th an   th ir t y   in v esti g atio n s .   T h is   r esear ch   u s es  an   SLR  m eth o d o l o g y   to   d is cu s s   th r o les  o f   f ea tu r en g in ee r in g   a n d   XAI   in   p h is h in g   web s ite  d etec tio n   b y   in v esti g atin g   th r ec en tech n iq u es  f o r   p h is h in g   web s ite  d etec tio n .   Mo r eo v e r ,   h o f ea tu r en g in ee r in g   an d   XAI   ca n   en h an ce   th ac cu r ac y   an d   in ter p r etab ilit y   o f   p h is h in g   web s ite   d etec tio n .   Fin ally ,   th is s u es  an d   lim itatio n s   ar ass o ciate d   with   p h is h in g   web s ite  d etec ti o n .   I n   ad d itio n ,   we   id en tifie d   an   a p p r o p r iate  d ata b ase  to   d eliv er   r elev an r esu lt s   th at  ar lim ited   to   5 - y ea r   p er io d   b etwe en   2 0 1 9   an d   2 0 2 4   lo ca ted   in   AC Di g ital,  I E E E   E x p lo r e,   E ls ev ier ,   Sp r in g er ,   MD PI  an d   Go o g le  Sch o lar .   L iter atu r e   lim ited   to   r ev iew  a r ticles,  co n f er en ce   p r o ce e d in g s   a n d   r esear ch er s   th eses .   T o   id en tify   r elev an s tu d ies  an d   n ar r o d o w n   th n u m b e r   o f   r esu lts   in clu d ed   in   th is   r ev iew,   we  f o llo wed   th s y s tem ati r ev iew  p r o ce s s   a s   illu s tr ated   in   Fig u r 3 .   T h r e v iew  p r o ce s s   was  d iv id ed   in t o   th r ee   s eq u e n tial  s tep s id en tific atio n ,   s cr ee n in g   an d   s elec tio n .   T h f o llo win g   s ea r ch   s tr in g   was  u s ed   to   r etr iev e   r elev a n ar ticles:   ( “Fea tu r en g in ee r in g ”)   OR   ( “XA I ”  OR   “e x p lain ab le  AI ”  OR   “e x p lain ab le  ar tific ial   in tellig en ce ”)   AND  ( “p h is h in g   d etec tio n ”  OR   “p h is h in g   we b s ite  d etec tio n ) .   Fro m   th i n itial  s ea r ch ,   1 0 2   p a p er s   th at   in v o l v ed   f ea t u r en g in ee r in g   f o r   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 8 6 3 - 5 8 7 8   5868   p h is h in g   web s ite  d etec tio n   w er o b tain ed .   I n   th e   s cr ee n in g   p r o ce s s ,   6 0   s tu d ies  th at   wer e   n o t   in   co n f o r m ity   with   th r eq u ir em en ts   wer ex clu d ed .   I n   th f in al  s elec ti o n   s tag e,   we  in clu d ed   3 4   p a p er s   th at  m et  th in clu s io n   cr iter ia  f o r   th is   s y s tem atic  liter atu r r ev iew.           Fig u r 3 .   Ph ases   o f   SLR s elec tio n   p r o ce s s .   d en o tes th n u m b er   o f   p ap e r s   at  ea ch   s tag e       4.   RE L AT E WO RK S   Ph is h in g   d etec tio n   ap p r o ac h e s ,   as  d is cu s s ed   in   s ec tio n   two ,   ca n   b im p r o v ed   b y   co m b in i n g   f ea tu r en g in ee r in g   an d   XAI   tech n i q u es.  Featu r en g in ee r in g   p er m its   s y s tem s   to   s elec th m o s r elev an attr ib u tes,  wh ich   r aise  d etec tio n   ac cu r a cy .   Mo r eo v er ,   in teg r atin g   X AI   to o ls ,   s u ch   as  S h ap ley   a d d itiv ex p lan atio n s   ( SHAP)  o r   lo ca in ter p r etab le  m o d el - ag n o s tic  ex p lan atio n s   ( L I ME ) ,   s u p p l y   in ter p r et ab ilit y   to   en h an ce   d ec is io n - m ak in g   p r o ce s s es,  en co u r a g tr u s a m o n g   u s er s   a n d   s tak eh o ld er s .   T h is   s ec tio n   is   d iv id ed   i n to   f i v e   s u b - s ec tio n s   co r r esp o n d in g   to   th r ec en p h is h in g   d etec tio n   tech n iq u es  o u tlin ed   i n   s ec tio n   two ,   co m b in ed   with   f ea tu r en g in ee r in g   m et h o d s .   I also   d em o n s tr ates  h o w   th in teg r atio n   o f   f ea tu r e n g in ee r in g   a n d   XAI   im p r o v es  p h is h in g   d etec tio n   m o d els  b y   ad d r ess in g   ch all en g es  lik a d ap tab ilit y   t o   ev o lv in g   th r ea ts   an d   b alan cin g   co m p lex ity   with   in ter p r etab ilit y .   Fin ally ,   th is   s ec tio n   h ig h lig h ts   th lim itatio n s   an d   u n r eso lv e d   is s u es a s s o ciate d   with   th ese  ap p r o ac h es,  p av in g   th way   f o r   f u tu r r esear ch   an d   p r ac tical  ad v an ce m en ts .     4 . 1 .   L is t - ba s ed  a pp ro a ch   Stu d y   [ 1 6 ]   in tr o d u ce d   th au t o m ated   in d iv id u al  wh itelis t ,   u n iq u an ti - p h is h in g   s tr ateg y   b ased   o n   th Naïv B ay es  ( NB )   class if ier .   B y   l o g g in g   t h I ad d r ess es  o f   all   well - k n o wn   l o g in   u s er   in ter f ac es   ( L UI s )   th at  th u s er   h as  v is ited ,   t h is   tech n iq u e   cr ea tes  c u s to m ized   wh itelis t.  T h s y s tem   cr ea tes  war n in g   ab o u a   p o s s ib le  p h is h in g   attem p wh en   th u s er   tr ies  to   s en d   p r iv ate  in f o r m atio n   to   L UI   th at  is   n o o n   th wh itelis t.  I n   co n tr ast,  Stu d y   [ 3 2 ]   ev al u ated   th eir   s u g g ested   b lack lis t - b ased   ap p r o ac h   u s in g   a   s et  o f   3 8   ch ar ac ter is tics   an d   r an d o m   f o r est  ( R F)  an d   lin ea r   r eg r ess io n   ( L R )   class if ier s .   T h m eth o d   s u cc ess f u lly   d is tin g u is h ed   b etwe en   f r au d u len tly   r eg is ter ed   d o m ai n s   an d   v alid   o n es with   9 7 % a cc u r ac y   r ate  an d   2 . 5 % FP R .   I n   o r d e r   to   im p r o v th d etec tio n   ac cu r ac y   o f   p h is h in g   att ac k s ,   B ar r ac lo u g h   et  a l.   [ 3 3 ]   co m b in ed   h eu r is tic  m eth o d s ,   web   co n te n an aly s is ,   an d   b lack lis ts   in   m ac h in lear n in g   f r am ew o r k   th at  m ad u s o f   ex ten s iv f ea tu r s ets.  T h e   m ac h in lear n in g   alg o r ith m s   th at  wer ass ess ed   wer J 4 8 ,   J R ip ,   NB ,   PAR T ,   an d   th ad ap tiv n eu r o - f u zz y   in f e r en ce   s y s tem   ( ANFI S).   T h b est  p er f o r m a n ce   was  g iv en   b y   PAR T ,   wh ich   h ad   an   ex ec u tio n   tim o f   0 . 0 0 6   s ec o n d s   an d   an   ac c u r ac y   o f   9 9 . 3 3 %.  th r ee - p h ase  attac k   d etec tio n   tech n i q u e   u s in g   web   t r af f ic,   we b   co n ten t ,   an d   UR L   f ea tu r es  as  in p u w as  p r o p o s ed   b y   Nath ez h t h et  a l .   [ 3 4 ] .   Acc o r d in g   to   ex p er im e n tal  d ata,   th s u g g ested   m eth o d   d etec ted   b o th   p h is h in g   a n d   ze r o - d a y   p h is h in g   attem p ts   with   a n   ac cu r ac y   o f   9 8 . 9 %.  C lass if y in g   XM L - b ased   UR L s   ac co r d i n g   to   th eir   s em an tic  s tr u ctu r al  o r ien tatio n   was  th e   s u b ject  o f   s ep ar ate  s tu d y   b y   Mu r th y   et  a l .   [ 3 5 ] .   An   ac c u r ac y   o f   9 7 . 3 6 % wa s   attain ed   b y   t h eir   m eth o d .     4 . 2 .   H euristic - ba s ed  a pp ro a ch   Stu d y   [ 2 9 ]   s u g g ested   web   p h is h in g   d etec tio n   m eth o d   th at  u tili ze d   in teg r ated   f ea tu r es  f r o m   web s ite ' s   tex t,  g r ap h ics,  a n d   f r am es.  T h e y   u tili ze d   ANFI S ,   s u p p o r v ec to r   m ac h in ( S VM ) ,   an d   k - n ea r est  Id e n ti f ica ti o n Rec o rd id en tif ied  (N=1 0 2 ) S c re e n in g Re c o rd a f ter  e li m in a ted   n o n f o rm in g   p a p e rs  (N= 6 0 ) S e lec ti o n F u ll   tex p ap eres  assessed   (N=3 4 ) St u d y   in c lu d e d   3 4   p a p e rs Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         E xp lo r in g   fea tu r en g in ee r in g   a n d   ex p la in a b le  A I   fo r   p h is h in g   w eb s ite  d etec tio n     ( N o r a h   A ls u q a yh )   5869   n eig h b o r   (K - NN)   class if ier s ,   with   an   ac cu r ac y   o f   9 8 . 3 %.  Featu r s elec tio n   was  co n d u c ted   v ia  I n f o r m atio n   Gain   an d   C h i - Sq u ar e   m eth o d o lo g ies  to   im p r o v e   m o d el  ef f icac y .   Ad d itio n ally ,   R ao   et   a l.   in   [ 3 6 ]   i n tr o d u ce d   a   h eu r is tic - b ased   p h is h in g   d ete ctio n   m eth o d   th at  an aly ze s   th lo g in   p a g an d   t h h o m ep a g o f   web s ite  b y   u tili zin g   h y p e r lin k   an d   UR L - b ased   ch ar ac ter is tics .   T h m et h o d   em p lo y ed   T win   SVM  class if ier   to   id en tify   in ten tio n ally   r eg is ter ed   p h is h i n g   web s ites .   E x p er im en tal  r esu lts   in d icate d   th at  th T win   S VM   s u r p ass ed   o th er   v ar iatio n s ,   attain in g   r ec all  o f   9 8 . 3 3 % a n d   a n   ac cu r ac y   o f   9 8 . 0 5 %.   Fu r th er m o r e ,   th s tu d y   in   [ 3 7 ]   s o u g h t to   ass es s   1 2   s tatic   ele m en ts ,   in clu d in g   k ey w o r d s   an d   s tr u ctu r al  p atter n s ,   in   s elec ted   p h is h in g   UR L s   an d   m o n ito r   th eir   p r ev ale n ce   th r o u g h o u co n tem p o r ar y   p h is h in g   web s ites .   Alo n g s id th is   in v esti g atio n ,   th r esear ch er s   p er f o r m e d   b o th   q u an titativ an d   q u alitativ e   ev alu atio n s   o f   b eh av io r al  p att er n s .   T h is   e n ab led   th e   id en tif icatio n   o f   cr itical  c o m p o n en ts ,   in clu d i n g   f ea tu r e   s ig n if ican ce ,   in ter - f ea tu r e   co r r elatio n s ,   an d   s im ilar ities ,   wh ich   ca n   f ac ilit ate  th cr ea tio n   o f   n o v el  h eu r is tic  m eth o d s   o r   im p r o v ex is tin g   o n es.  I n   o r d e r   to   c h o o s th b est  class if ier ,   R am an et  a l.   [ 3 8 ]   p r esen ted   a n   en s em b le - b ased   p h is h in g   d et ec tio n   m o d el  th at  co m b in es  m an y   m ac h in lear n i n g   m et h o d s ,   s u ch   as  R F,   d ec is io n   tr ee   ( DT ) ,   a n d   XGBo o s t .   T o   im p r o v class if icatio n   p er f o r m an ce ,   th s tu d y   also   u s ed   n u m b er   o f   f ea tu r s elec tio n   s tr ateg ies,  in clu d in g   ANOV A,   I n f o r m atio n   Gain ,   Fis h er   Sco r e,   R elief - F,  an d   r ec u r s iv e   f ea tu r elim in atio n .   W h en   test ed   o n   th e   Me n d eley   p h is h in g   d ataset,   th m o d el' s   ac cu r ac y   was  9 8 . 4 5 %,  b u it   was  9 7 . 5 1 o n   th e   UC I   p h i s h in g   d ataset.   L astl y ,   Do o r e m aa et  a l.   [ 3 9 ]   p r esen ted   a   n o v el  m eth o d   f o r   d etec tin g   p h is h in g   attac k s   b y   co m b in in g   tex tu al  d ata  f r o m   t h d o cu m e n o b ject  m o d el  ( D OM )   s tr u ctu r with   v is u al  f ea tu r es  tak en   f r o m   s cr ee n s h o ts   o f   web p ag es.  W ith   an   o v er all  d etec tio n   ac cu r ac y   o f   9 9 . 6 6 %,  th is   h y b r id   ap p r o ac h   d r am atica lly   d ec r ea s ed   th p h is h in g   m is cla s s if icatio n   r ate  b y   6 7 %,  f r o m   1 . 0 2 % to   0 . 3 4 %.     4 . 3 .     M L   a pp ro a ch   Stu d y   [ 3 0 ]   r elate d   m u ltis tag p h is h in g   d etec tio n   m o d el  an d   p r esen ted   an   ex te n s iv C AS E   f ea tu r e   ar ch itectu r e,   class if y in g   f ea t u r es  in to   f o u r   p r in cip al   ca teg o r ies:   C o u n ter f eitin g ,   Af f iliatio n ,   Stealin g ,   an d   E v alu atio n .   T h e   s u g g ested   m e th o d   e x h ib ited   r o b u s ef f icac y   in   p r ac tical  p h is h in g   d etec tio n   co n tex ts ,   y ield in g   ef f icien o u tco m es  with   m in im ized   ex ec u tio n   d u r atio n s .   p h is h in g   d etec tio n   alg o r ith m   with   h y b r id   cu m u lativ f ea tu r s elec tio n   was  p r o p o s ed   i n   [ 3 1 ] .   T h e   m eth o d o lo g y   u tili ze s   v ar io u s   f ea tu r e   s elec tio n   ap p r o ac h es,  s u ch   as  C h i - Sq u ar e,   g ain   r atio ,   i n f o r m atio n   g ain ,   Pear s o n   co r r elatio n   co ef f icien t ,   an d   PC A,   to   d iv id th e   d ataset  in to   n   s u b s ets  ac co r d in g   to   th e   ch o s en   f ea tu r es.  v ar iety   o f   class if ier s   is   em p lo y ed   f o r   ea ch   p ar titi o n ,   in clu d in g   SVM,   NB ,   C 4 . 5 ,   R F,  J R ip ,   PAR T ,   an d   KNN.   T h e   R class if i er   attain ed   t h b est   ac cu r ac y ,   with   9 8 . 2 4 %.  Stu d y   [ 4 0 ]   p r o v id ed   p h is h in g   d ete ctio n   f r am ewo r k   u tili zin g   cl ass if ier   to   f ac ilit at e   th co m p ar ativ ass ess m en o f   d etec tio n   s y s tem s   b ased   o n   8 7   d is tin ct  f ea tu r es.  T o   m iti g ate  th ep h em er al   n atu r o f   p h is h in g   web s ites ,   th au th o r s   cr ea ted   d y n a m ic  d ataset  th at  m ay   ad ap t   o v er   tim e.   T h ei r   in v esti g atio n   in d icate d   th at  web p ag co n te n was  th least  d is cr im in ativ f ea tu r g r o u p ,   b u ex ter n al  f ea tu r es s u ch   as  d o m ain   an d   h o s tin g   attr ib u tes wer th m o s t   in f o r m ativ e.   m ax im u m   ac c u r ac y   o f   9 6 . 6 1 %   was  attain ed   b y   th e   u t ilizatio n   o f   h y b r id   f ea tu r es.   Fu r th er m o r e,   ap p ly i n g   f ilter - b a s ed   r an k i n g   m eth o d   with   p r o g r ess iv elim in atio n   o f   less   s ig n if ican t f ea tu r es im p r o v ed   th e   ac cu r ac y   b y   9 6 . 8 3 %   I n   co n tr ast,  Gu p ta  et  a l.   [ 4 1 ]   d ev is ed   s tr ea m lin ed   p h is h in g   d etec tio n   tech n iq u th at  u tili ze s   m er ely   n in lex ical  p ar am eter s ,   in cl u d in g   UR L   len g th ,   f o r   class if ic atio n   p u r p o s es.  Af ter   ass ess in g   th s tr ateg y   with   m an y   m ac h i n lear n in g   class if ier s ,   th R alg o r ith m   attain ed   th g r ea test   ac cu r ac y   o f   9 9 . 5 7 %.  An u p a m   a n d   Kar   [ 4 2 ]   em p lo y ed   d iv er s U R L - b ased   ch ar ac ter is tics s u ch   as  th e   len g th   o f   th I ad d r ess   an d   th e   v alid ity   o f   th HT T PS   r eq u est to   ca teg o r ize  web s ites   as  p h is h in g   o r   r ea l.  b in a r y   SVM  class i f ier   was  u tili ze d   to   d eter m in an   a p p r o p r iate  h y p er p lan f o r   class if icatio n   p u r p o s es.  Fo u r   o p tim izatio n   s tr ate g ies  wer em p lo y ed   to   im p r o v SVM  p er f o r m an ce th b at  alg o r ith m ,   th f ir e f ly   alg o r ith m ,   t h g r e y   wo lf   o p tim izer   ( GW O) ,   an d   th wh ale  o p tim izatio n   alg o r i th m .   T h GW alg o r ith m   s u r p ass ed   th f ir ef ly   alg o r ith m   r eg ar d in g   d etec tio n   ac cu r ac y .     4 . 4 .     DL   a pp ro a ch   I n   [ 1 2 ] ,   d ee p   lear n in g - b ased   p h is h in g   d etec tio n   m o d el  was  p r o p o s ed   u s in g   C NN  ar ch itectu r th at   r elies  s o lely   o n   th web s ite' s   UR L   an d   v ar io u s   f ea t u r r e p r esen tatio n s .   T h ese  in clu d h a n d - cr af te d   ch ar ac te r   em b ed d in g s ,   ch ar ac ter - le v el  T F - I DF,  an d   ch ar ac ter - lev el  co u n v ec to r   f ea tu r es.  No tab ly ,   th m o d el  d o es  n o t   r eq u ir ac ce s s   to   web p ag c o n ten o r   an y   th ir d - p ar ty   s er v ices,  n o r   d o es  it  d ep e n d   o n   p r io r   k n o wled g o f   p h is h in g   tech n iq u es.  I n s tead ,   i ca p tu r es  in f o r m ativ an d   s eq u en tial  p atter n s   with in   UR L   s tr in g s   f o r   e f f ec tiv e   d etec tio n .   T h p r o p o s ed   m o d e ac h iev ed   an   ac c u r ac y   o f   9 5 . 0 2 o n   cu s to m   d ataset  an d   r ec o r d e d   ac cu r ac ies  o f   9 8 . 5 8 %,  9 5 . 4 6 %,  an d   9 5 . 2 2 o n   th r ee   b en c h m ar k   d atasets ,   o u tp er f o r m in g   ex is tin g   p h is h in g   UR L   d etec tio n   m o d els.  I n   co n tr ast,   Vr b an čič  et  a l.   [ 3 2 ]   p r o p o s e d   an   an ti - p h is h in g   s y s tem   th at  in teg r ates  UR L - b ased ,   n atu r al   lan g u a g p r o c ess in g   ( NL P) - b ased ,   an d   h o s t - b ased   f ea tu r es  t o   tr ain   a   r an g o f   ML   an d   DL   m o d els,  in clu d in g   K - NN,   L R ,   SVM,   g r ad ien t   b o o s tin g   ( GB ) ,   Ad aBo o s t,  R F,  an d   n e u r al  n etwo r k   ( NN) .   Am o n g   th ese,   th e   NN  m o d el  a ch iev ed   th h ig h est ac cu r ac y ,   r ea ch in g   9 4 . 8 9 % in   p h is h in g   UR L   d etec tio n .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 8 6 3 - 5 8 7 8   5870   I n   [ 4 3 ] ,   ch ar ac ter - lev el  co n v o lu tio n al  au to en c o d er   ( C A E )   was  d ev elo p ed   with in   an   an o m aly   d etec tio n   f r a m ewo r k   f o r   p h is h in g   d etec tio n .   E x p er im e n tal  ev alu atio n ,   c o n d u cted   u s in g   R OC   cu r v an aly s is   an d   1 0 - f o ld   c r o s s - v alid atio n ,   d em o n s tr ated   th at  th p r o p o s ed   m o d el  im p r o v e d   s en s itiv ity   b y   3 . 9 8 co m p ar e d   to   th m o s r ec en d ee p   lear n i n g   m o d el.   T h ese  r esu lts   co n f ir m   th ef f ec tiv en ess   o f   th C AE - b ased   ap p r o ac h   in   id en tif y in g   p h is h in g   th r e ats.  Xiao   et  a l.   [ 4 4 ]   in tr o d u ce d   s elf - atten tio n - b ased   C NN  m o d el  t h at   in co r p o r ates  g en er ativ ad v e r s ar ial  n etwo r k   ( GAN)   to   s y n th esize  p h is h in g   UR L s   f o r   tr ai n in g   p u r p o s es.  T h p r o p o s ed   ar ch itectu r c o n s is ts   o f   f o u r   m ain   co m p o n en ts th in p u b lo c k ,   atten tio n   b l o ck ,   f ea tu r b lo c k ,   an d   o u tp u b lo ck .   B y   co m b in in g   C NN  with   m u lti - h ea d   s elf - att en tio n   m ec h a n is m s ,   th m o d e co n s tr u cts  r o b u s t   class if ier   ca p ab le  o f   ac cu r ately   d etec tin g   p r ev io u s ly   u n s ee n   p h is h in g   UR L s .   T h class if ier   ac h iev ed   an   ac cu r ac y   o f   9 5 . 6 %,  o u tp er f o r m in g   b aselin m o d els C NN - L STM ,   s tan d alo n C N N,   an d   s tan d alo n e   L STM b y   m ar g i n s   o f   1 . 4 %,  4 . 6 %,  a n d   2 . 1 %,   r esp ec tiv ely .   AlE r o u d   et   a l.   [ 4 5 ]   em p lo y e d   GAN  to   g e n er ate   UR L - b ased   p h is h in g   ex am p l es  ca p ab le  o f   ev ad in g   d etec tio n .   T h s y n th esized   ex am p l es  wer s h o wn   to   ef f ec tiv ely   d ec eiv e   b o th   s im p le  an d   ad v an ce d   b lack - b o x   m a ch in lear n in g - b ased   p h is h in g   d etec tio n   m o d els.      4 . 5 .     H y brid a pp ro a ch    R ao   an d   Pais   in   [ 4 6 ]   s u g g ested   an   e n s em b le  p h is h in g   d etec tio n   m o d el   th at  in co r p o r ates  ex tr tr ee s R F,  an d   XGBo o s c lass if ier s .   T h m o d el  ass ess es  th s y n er g is tic  ef f icac y   o f   h eu r is tic  an d   b lack lis f ilter in g   s tr ateg ies  as  co h esiv s tr ateg y ,   with   a n   ac cu r a cy   o f   9 8 . 7 2 %.  Fu r th er m o r e ,   Ko r k m az   et  a l.   in   [ 4 7 ]   cr ea ted   p h is h in g   d etec tio n   s y s tem   with   C NN  th at  em p lo y s   n - g r am   ch ar ac ter is tics   d er iv ed   f r o m   UR L s .   E x p er im en tal  f in d in g s   d em o n s tr ated   th at   u n ig r am s   p r o d u ce d   t h g r ea test   ca teg o r izatio n   ac cu r ac y .   T h m o d el  attain e d   a n   ac cu r ac y   o f   8 8 . 9 0 o n   th U R L   d ataset  b y   u tili zin g   a   s p ec if ic  s et  o f   7 0   ch ar a cter s .   Ad d i tio n ally ,   Or u n s o lu   et  a l.   in   [ 4 8 ]   s u g g ested   p h is h in g   d etec tio n   m eth o d   th at   in clu d es  f ea tu r s elec tio n   m o d u le  to   ex tr ac t   p er tin en in f o r m atio n   f r o m   UR L   s tr u ctu r e,   web p ag e   att r ib u tes,  an d   web p a g ac tiv it y   u s in g   f r eq u en cy   ass es s m en an aly s is .   T h m et h o d o lo g y   was  ass es s ed   with   NB   an d   SVM   clas s if ier s .   E x p er im en tal  r esu lts   in d icate d   an   ef f icie n r u n tim o f   u n d er   2 , 0 0 0   m illi s ec o n d s ,   ac co m p an ied   b y   r o b u s p e r f o r m a n ce   m etr ics:   9 9 . 9 6 tr u p o s itiv es,  9 9 . 9 6 tr u n eg ativ es,  0 . 0 4 f alse  p o s itiv es,  an d   0 . 0 4 f alse  n eg ativ es.  Als o ,   Yu   et  a l.   [ 4 9 ]   cr ea ted   h y b r id   p h is h in g   d etec tio n   m o d el  th at  co m b in es  v ar io u s   d ee p   lear n i n g   ar ch itectu r es  f o r   f ea tu r e x tr ac tio n   a n d   class i f icatio n .   m u ltil ay er   p er ce p tr o n   ( ML P)  p r o ce s s ed   cu s t o m   f ea tu r es,  C NN  h an d led   im ag e - b ased   f ea tu r e s ,   an d   r ec u r r e n n e u r al   n e two r k   ( R NN)   m an ag e d   tex t - b ased   f ea tu r e .   T h e   r etr iev ed   f ea tu r v ec to r s   wer e   s u b s eq u en tly   in te g r ated   u s in g   class if icatio n   n etwo r k   to   g e f in al  p r ed ictio n s .   T h p r o p o s ed   m o d el  attain ed   an   o v er all  ac c u r ac y   o f   9 7 %.   Fu r th er m o r e ,   Ar iy a d asa  et   a l.   [ 5 0 ]   s u g g ested   a   p h is h in g   d e tectio n   m eth o d   th at  in te g r ates  lo n g - ter m   r ec u r r en t   co n v o lu tio n al   n etw o r k s   with   g r ap h   co n v o lu tio n al  n etwo r k s ,   em p lo y in g   b o th   UR L   an d   HT ML   ch ar ac ter is tics .   T h ap p r o ac h   lev er ag es  th s o p h is ticated   an aly tical  p o wer s   o f   g r ap h   n e u r al  n etwo r k s   in   th e   an ti - p h is h in g   s ec to r .   E x p er im en tal  r esu lts   in d icate d   d etec t io n   ac cu r ac y   o f   9 6 . 4 2 an d   f alse - n eg ativ r ate  o f   0 . 0 3 6 .   Als o ,   s tu d y   [ 2 4 ]   s u g g ested   p h is h in g   web s ite  d et ec tio n   m eth o d   th at  ex clu s iv el y   u tili ze s   th UR L ,   en ca p s u latin g   its   in f o r m atio n   in to   two - d im en s io n al  t en s o r .   T h is   ten s o r   is   in itial ly   p r o ce s s ed   b y   a   b id ir ec tio n al  lo n g   s h o r t - te r m   m em o r y   ( B i - L STM )   n et wo r k   to   ex t r ac g lo b al  c o n tex tu al  in f o r m ati o n ,   s u b s eq u en tly   f o llo wed   b y   C NN  to   au to m atica lly   i d en tify   th m o s p er tin en c o m p o n e n ts   o f   th e   UR L .   T h e   s u g g ested   m o d el,   PDR C NN,   attain ed   d etec tio n   ac c u r ac y   o f   9 7 a n d   an   AUC  v al u o f   9 9 in   ex p er im en tal   ass es s m en ts .   Stu d y   [ 1 0 ]   co m b in ed   C NN  an d   R b y   em p l o y i n g   c h ar ac ter   em b ed d in g   tech n iq u es  to   t r an s f o r m   UR L s   in to   f ix ed - s ize  m atr ic es,  ex tr ac tin g   f e atu r es  at  v a r io u s   lev els  with   C NN  m o d els,  s u b s eq u en tly   class if y in g   th ese  f ea tu r es  u s in g   m u ltip le   R class if ier s ,   an d   u ltima tely   p r o d u cin g   p r ed ictio n   r esu lts   th r o u g h   a   win n er - tak e - all  m eth o d .   p r ec is r ate  o f   9 9 . 2 6 was  attain ed   o n   th b en ch m a r k   d ata.   Fin ally ,   Stu d y   [ 5 1 ]   p r esen ted   HT ML Ph is h ,   p h is h in g   d etec tio n   m o d el  th at  an aly ze s   th HT ML   co n ten o f   web   p ag es  th r o u g h   C NN  to   d is ce r n   s em an tic  r ela tio n s h ip s   with in   th tex tu al  s tr u ctu r e,   elim in atin g   th n ee d   f o r   m an u al  f ea tu r e   en g in ee r in g .   T h is   m eth o d o l o g y   allo ws  th m o d el  to   a d a p tiv ely   m an a g n o v el  f ea tu r es  an d   g en e r alize   p r o f icien tly   to   p r ev io u s ly   u n o b s er v ed   test   d ata.   HT ML Ph is h   attain ed   a   d etec tio n   ac cu r ac y   an d   tr u p o s itiv r ate  o f   9 3 %,  illu s tr atin g   its   ef f icac y   in   r ec o g n izin g   p h is h in g   web s ites   ju s th r o u g h   HT ML   co n ten t.  T a b le  1   ( in   ap p en d i x )   s h o ws a  s u m m atio n   o f   r ec e n t r esear ch   o n   p h is h in g   d etec tio n   m o d els.     4 . 6 .     XAI in phis hi ng   websi t e   det ec t io n   T o   th e   b est   o f   o u r   k n o w le d g e ,   t h e   ap p l ic ati o n   o f   XA I   i n   p h is h in g   d et ec ti o n   r e m a in s   r el ati v e l y   u n d er e x p lo r e d .   T h e   w o r k   i n   [ 5 2 ]   ex p l o r e d   t h i n te r p r et ab ili ty   o f   p h is h i n g   d et ec ti o n   m o d e ls   b y   a p p l y i n g   R F,   an d   SV i n   co m b i n at io n   wit h   XAI   m et h o d s ,   i n c lu d i n g   L I M E   a n d   e x p l ai n a b le   b o o s ti n g   m a ch i n es  ( E B M ) .   T h e   an al y s is   s h o we d   t h at   t h e   m o s i n f lu e n ti al  UR L   f e at u r es,   as   id e n ti f i ed   b y   t h es t ec h n i q u e s ,   c lo s el y   m a tc h e d   ty p ic al   p h is h i n g - r elat e d   a tt r i b u tes.   W h i le  s tu d y   [ 1 3 ]   e x p lo r ed   th ap p l ica ti o n   o f   XA I   t ec h n i q u es to   e n h a n c t h e   d et ec ti o n   o f   p h is h i n g   a tte m p ts   in   e m ai ls .   T h eir   s t u d y   em p h as i ze d   th im p o r ta n c o f   s p ec i f i wo r d s   a n d   p h r as es  th a t s ig n i f i ca n tl y   i n f lu e n ce   t h e   class i f i ca t io n   d ec is i o n s   m a d e   b y   p h is h i n g   d e tec ti o n   m o d els.   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         E xp lo r in g   fea tu r en g in ee r in g   a n d   ex p la in a b le  A I   fo r   p h is h in g   w eb s ite  d etec tio n     ( N o r a h   A ls u q a yh )   5871   Ad d itio n ally ,   s tu d y   [ 1 4 ]   p r o p o s ed   m u lti - m o d al  h ier ar ch ical   atten tio n   m o d el  d esig n ed   to   lear n   d ee p   p h is h in g   in d icato r s   f r o m   UR L ,   tex tu al,   a n d   v is u al  m o d alitie s .   T h m o d el  in co r p o r ates  two   lev els  o f   atten tio n   m ec h an is m s   to   f ac ilit ate  th ex tr ac tio n   o f   r elev an f ea tu r es  an d   to   p r o v id in f o r m ativ i n ter p r etab ilit y   ac r o s s   d if f er en m o d alities .   E x p er im en tal  r esu lts   d em o n s tr ated   th at  th m o d el  n o o n ly   en h an ce s   p h is h in g   d etec tio n   p er f o r m an ce   b u also   o f f er s   h ier ar ch ical  in ter p r eta b ilit y ,   im p r o v i n g   tr an s p ar e n cy   in   th d ec is io n - m ak in g   p r o ce s s .   T o   im p r o v in te r p r e tab ilit y ,   s tu d y   [ 5 3 ]   u s ed   h y b r id   d ee p   lear n in g - b ased   m o d el  th at  in clu d ed   ex p lain ab le  v is u al  an n o tatio n s   s u p er im p o s ed   o n   s cr ee n s h o ts   o f   p h is h in g   web s ites .   A   two - s tag s tack ed   en s em b le  lear n in g   tech n iq u e   was  u s ed   b y   s tu d y   [ 5 4 ] ,   wh o   ap p lied   GB   an d   R class if ier s   to   2 1   s elec ted   f ea tu r es  f r o m   a   d ataset  o f   6 5 1 , 1 9 1   UR L s .   T h e   ac cu r ac y   o f   th e   s u g g ested   m o d el  was  9 7 %.  T h e   m o d el' s   d ec is io n - m ak in g   p r o ce s s   was  th en   in ter p r eted   u s in g   XAI   ap p r o ac h es,  wh ic h   wer also   u s ed   to   ex a m in ea ch   f ea tu r e' s   co n tr ib u tio n   to   th f o u r - class   p r e d ictio n   c h allen g e ,   wh ich   in clu d e d   m alwa r e,   p h is h in g ,   d e f ac em en t ,   an d   b e n ig n   class if icatio n s .     Stu d y   [ 5 5 ]   SHAP  v alu es  wer em p lo y ed   to   in ter p r et  b o t h   i n d iv id u al  m ac h in lear n in g   m o d els  an d   en s em b le  m o d els in clu d in g   K - Me an s ,   R F,  DT ,   C atB o o s t,  L ig h tGB M,   Ad aBo o s t,  an d   v o tin g   class if ier f o r   p h is h in g   UR L   d etec tio n   class if icatio n .   Am o n g   th ese ,   th C atB o o s class if ier   d em o n s tr ated   s u p e r io r   p er f o r m an ce   ac r o s s   ev alu atio n   m etr ics.  T h u s o f   SHAP  v alu es  p lay ed   p iv o tal  r o le  in   id en tify in g   th m o s in f lu en tial  f ea tu r es  an d   u n d er s tan d in g   th eir   e f f ec ts   o n   th e   m o d el' s   o u tp u ts ,   th er e b y   en h a n c in g   in ter p r etab ilit y   an d   tr u s in   th e   class if icatio n   p r o ce s s .   T ab le   2   s h o ws  s u m m ar y   o f   XAI   an d   f ea tu r en g i n ee r in g   ap p r o ac h es  f o r   p h is h in g   web s ites   d etec tio n .       T ab le  2 .   Su m m a r y   o f   XAI   an d   f ea tu r en g in ee r in g   ap p r o ac h es f o r   p h is h in g   web s ites   d etec tio n   Li t e r a t u r e   Ty p e   o f   f e a t u r e s   F e a t u r e   e n g i n e e r i n g   m e t h o d   X A I   t e c h n i q u e   P e r f o r ma n c e   me t r i c s   [ 5 3 ]   U R L   N LP t e c h n i q u e s   LI M a n d   EB M .   P r e c i s i o n ,   r e c a l l ,   F 1   s c o r e   a n d   a c c u r a c y   [ 8 ]   Emai l   Lo c a l   f e a t u r e   i m p o r t a n c e ,   t e x t   h i g h l i g h t s a s   e x p l a n a t i o n s   mo d e l - a g n o st i c   p r i n c i p l e s ,   l o c a l   f e a t u r e   i mp o r t a n c e ,   a n d   s e a r c h - b a se d   e x p l a n a t i o n   g e n e r a t i o n   F a l se   p o si t i v e   r a t e   a n d   c l a ss i f i c a t i o n   t h r e s h o l d s   [ 9 ]   U R L,   w e b p a g e   t e x t   a n d   w e b p a g e   i ma g e   S h a r e d   d i c t i o n a r y   l e a r n i n g   a p p r o a c h     H i e r a r c h i c a l   A t t e n t i o n   M e c h a n i sm,   A t t e n t i o n   S c o r e   V i s u a l i z a t i o n   P r e c i s i o n ,   r e c a l l ,   F 1   s c o r e   a n d   a c c u r a c y     [ 5 4 ]   U R L,   c o n t e n t   a n d   v i s u a l   f e a t u r e s   -   v i s u a l   c o m p a r i so n a n d   l o g o   r e c o g n i t i o n   I d e n t i f i c a t i o n   r a t e ,   d e t e c t i o n   r a t e ,   p r e c i si o n   a n d   r e c a l l   [ 5 5 ]   U R L   -   A LE  ( A c c u m u l a t e d   Lo c a l   Ef f e c t s)   P r e c i s i o n ,   r e c a l l ,   F 1   s c o r e   a n d   a c c u r a c y   [ 5 6 ]   U R L,   c o n t e n t   a n d   b e h a v i o r a l   f e a t u r e s   -   S H A P   P r e c i s i o n ,   r e c a l l ,   F 1   s c o r e   a n d   a c c u r a c y       5.   RE SU L T S AN D I SCU SS I O   R ec en tly ,   p h is h in g   b ec am th r ea in   th cy b er s ec u r ity   lan d s ca p e,   tar g etin g   u s er s   b y   m im ick in g   leg itima te  web s ites   to   s tea s e n s itiv in f o r m atio n .   T h is   r esear ch   r ec o g n izes  th ef f o r o n   f ea tu r en g in ee r in g   an d   XAI   in to   p h is h in g   web s i te  d etec tio n ,   with   a   n o tab le   in cr ea s in   s tu d ies  s in ce   2 0 1 9 .   T h ese  m o d els  n o t   o n ly   e n h an ce   th e   ac cu r ac y   o f   d etec tio n   b u also   im p r o v e   th e   in ter p r eta b ilit y ,   wh ic h   ar e   cr i tical  in   h ig h - s tak es  cy b er s ec u r ity   ap p licatio n s .   T h is   r ev iew  en h an ce s   ex is tin g   k n o wled g th r o u g h   in teg r ati n g   f ea tu r s elec tio n   o p tim izatio n   an d   m o d el  in te r p r etab ilit y two   elem en ts   f r eq u en tly   e x am in ed   in d ep en d en tly .   I o f f er s   a   co m p r eh e n s iv v iewp o in cr u cial  f o r   d ev elo p in g   r esil ien an d   tr an s p ar en p h is h in g   d ete ctio n   s y s tem s .   T h s tu d y   p r io r itizes th ex p lain ab ilit y   o f   d ec is io n s   an d   t h eir   r eli ab ilit y   in   ess en tial secu r ity   s y s tem s ,   in   co n tr ast to   p r ev io u s   s tu d ies th at  co n ce n tr ated   ex clu s iv ely   o n   m o d el  ac c u r ac y .   p r ev io u s   r ev iew  b y   Saf i   an d   Sin g h   [ 4 0 ]   d iv id e d   p h is h in g   d etec tio n   tech n i q u es  in to   f iv e   ap p r o ac h es;  lis t s   b ased ,   v is u a s im ilar ity ,   Heu r is tic,   ML ,   a n d   DL   b ased   tech n iq u es  an d   am o n g   th ese,   ML   tech n iq u es  h av b ee n   ap p lied   th m o s t.  I n   ad d itio n ,   m o s s tu d ies  b ased   o n   s tu d y   u s ed   ML   tech n iq u es  s u ch   as  R wh ile   C N ac h iev ed   th h ig h est  ac cu r ac y   f o r   d etec tin g   p h is h in g   web s ites .   Similar l y ,   C atal  et  a l.   [ 5 7 ] th r o u g h   co m p r eh en s iv liter atu r r ev iew,   r ec o g n ized   d ee p   lear n in g   m ec h a n is m s   f o r   p h is h in g   d etec tio n .   T h s tu d y   d em o n s tr ated   th at  all  m o d els  em p lo y ed   s u p e r v is ed   d e ep   lear n in g   alg o r ith m s   an d   u t ilized   d ata  s o u r ce s   s u ch   as  UR L - an d   co n ten t - r elate d   f ea tu r es,  th ir d - p a r ty   m et ad ata  ab o u th web s ite,   an d   em ail  d ata.   Am o n g   th ese,   DNNs a n d   C NNs e m er g ed   as th m o s t w id ely   a d o p te d   ar ch itectu r e.   Desp ite  th g r o win g   r elian ce   o n   a d v an ce d   lear n i n g   al g o r i th m s ,   it  is   n o tewo r th y   th at  7 2 o f   th e   an aly ze d   s tu d ies  d id   n o t   im p lem en a n y   f o r m   o f   f ea tu r e   s elec tio n   d u r in g   m o d el  c o n s tr u ctio n   th at   m ay   co m p r o m is b o th   m o d el  ef f ici en cy   an d   in ter p r etab ilit y .   Ad d itio n ally ,   Su b ash in et  a l.   [ 5 8 ]   h ig h lig h ted   s ev er al  ch allen g es  in   p h is h in g   d etec t io n ,   in clu d in g   im b alan ce d   d a tasets   th at  ca n   lead   to   b iased   class if ier s   an d   an   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 8 6 3 - 5 8 7 8   5872   in cr ea s ed   r is k   o f   f alse  n e g ativ es.  Mo r eo v er ,   attac k e r s   o f te n   lev er ag e   en cr y p ted   tr af f ic  t o   co n ce al   m alicio u s   ac tiv ities .   E v asio n   tech n iq u es,   s u ch   as  UR L   o b f u s ca tio n   an d   ad v er s ar ial  tactics,  f u r th er   c o m p licate  d etec tio n   b y   en a b lin g   p h is h in g   attem p ts   to   b y p ass   ML   m o d els.     T h is   s tu d y   f o cu s es  o n   t h r ee   f u n d am e n tal  asp ec ts   o f   p h is h in g   web s ite  d etec tio n id e n tify in g   s tate - of - th e - ar tech n iq u es  f o r   p h is h in g   web s ite  d etec tio n ,   e v alu atin g   th e   co n tr i b u tio n   o f   f ea t u r e   e n g in ee r in g   a n d   XAI   in   im p r o v i n g   th p e r f o r m an ce   an d   in ter p r eta b ilit y   o f   p h is h in g   web s ite  d etec tio n   s y s tem s ,   a n d   d elin ea tin g   k ey   ch allen g es  an d   lim itatio n s   o f   ap p ly in g   f ea tu r e n g in ee r i n g   an d   XAI   in   p h is h in g   web s ites   d etec tio n .   T h ese   f o ca ar ea s   f ac ilit ate  c o m p r e h en s iv u n d er s tan d i n g   o f   th e   d o m ain   an d   in f o r m   f u tu r a d v an ce m en ts .   As  y o u   s ee   in   s ec tio n   f o u r ,   s tate - of - th e - ar ap p r o ac h es  f o r   p h is h in g   web s ite  d etec tio n   lev er ag im p r o v em e n ts   in   ML ,   DL ,   an d   h y b r id   tech n i q u es  to   r eso lv t h c o m p licatio n   o f   cu r r en t   p h is h in g   s tr ateg ies.  ML   m o d els,   s u ch   as   SVM  [ 5 9 ]   a n d   R [ 5 2 ]   em p lo y   f ea tu r es  li k UR L   len g th ,   s u s p icio u s   k ey wo r d s   f o r   b in a r y   class if icatio n   task s .   Featu r en g in ee r in g   tec h n iq u es  s u ch   as  PC an d   R FE  r aise  th ac cu r ac y   o f   d etec tio n   b y   elim in atin g   r ed u n d an o r   ir r elev a n attr ib u tes.  On   th e   o th e r   h an d ,   DL   ap p r o ac h es,   in clu d i n g   C NNs  [ 2 1 ]   a n d   L T SM  [ 6 0 ] ar ca p ab le  o f   lear n in g   h ig h - d im en s io n al  r ep r esen tatio n s   d ir ec tly   f r o m   r aw  in p u ts ,   o b v i atin g   th n ee d   f o r   ex ten s iv m an u al  f ea t u r en g in ee r in g .   XAI   to o ls   wer r ec en tly   ad d e d   in to   th ese  s y s tem s   to   im p r o v e   tr an s p ar en cy .       Mo r eo v er ,   o u r   f in d in g s   ad d   n u an ce   b y   s h o win g   h o in te g r atio n   o f   f ea tu r en g in ee r in g   an d   XAI   m ec h an is m s   im p r o v es  th ac c u r ac y   a n d   in ter p r eta b ilit y   o f   p h is h in g   we b s ite  d etec tio n   b y   h an d lin g   is s u es  in   th d o m ain   th at  d is cu s s ed   in   s ec tio n   f o u r .   Featu r en g in ee r in g   en ab les  th s elec tio n   o f   r el ev an f ea tu r es  u s in g   tech n iq u es  s u ch   as  PC [ 6 1 ]   an d   FS [ 4 8 ] ,   th e r eb y   r e d u ci n g   d im en s io n ality   a n d   im p r o v in g   g en er aliza tio n .   B y   f o cu s in g   o n   r ele v an attr ib u tes,  p h is h in g   we b s ites   d etec tio n   r ea c h   im p r o v ed   ac cu r ac y   [ 6 1 ] .   XAI   m eth o d s ,   s u ch   as  SHAP  [ 5 6 ]   an d   L I M E   [ 6 2 ]   o f f er i n g   in ter p r etab ilit y   to   u n d er s tan d   th m o d el  d e cisi o n s   an d   th er ef o r e   in cr ea s tr u s in   th e   s y s tem .   I n teg r atio n   tr ea ts   ch allen g es   lik ze r o - d a y   attac k s ,   an d   i m p r o v e   r eliab ilit y ,   lead in g   to   m o r r o b u s t,  in ter p r etab le,   an d   u s er - f r ien d ly   p h is h in g   web s ites   d etec tio n   s y s tem s   [ 5 3 ] .   Ou r   r ev iew  also   id en tifie s   r ec u r r in g   ch allen g es.  On o f   th m ain   ch allen g es  is   f ea tu r s el ec tio n ,   as  s p ec if y in g   th e f f ec tiv attr ib u tes is   co m p lex   d u to   th e   n atu r o f   p h is h in g   web s ites   tech n iq u es,  an d   ir r ele v an t   f ea tu r es  ca n   af f ec t h p e r f o r m an ce   o f   m o d el  [ 6 1 ] .   Mo r e o v er ,   th e   co m p le x ity   o f   h i g h - d i m en s io n al  d ata   lead s   to   in cr ea s ed   co m p u tatio n al  co s ts   an d   r ed u ce d   m o d el  ef f icien cy   [ 5 8 ] .   Ad d itio n ally ,   attac k e r s   d ev elo p   th latest   tech n iq u es,  s u ch   as  o b f u s ca ti o n   attac k s ,   m ak i n g   it  d if f icu l f o r   s tatic  f ea tu r s ets  to   r e m ain   ef f ec tiv o v er   tim e.   Mo r e o v er ,   tr ad e - o f f   ex i s ts   b etwe en   ac cu r ac y   a n d   in t er p r etab ilit y wh ile   DL   m o d e ls   o f ten   f u n ctio n   as   b lack   b o x es,  m ak in g   th eir   d ec i s io n s   d if f icu lt  t o   e x p lain c o n v er s ely   s im p ler   m o d els  ar e   m o r in ter p r eta b le  b u t   m ay   lack   d etec tio n   p r ec is io n   [ 6 2 ] .   An o th er   is s u is   s ca lab ilit y   an d   r ea l - tim p r o ce s s in g ,   as  f ea tu r e   en g in ee r in g   an d   e x p lain ab ilit y   tech n iq u es  s h o u ld   wo r k   wi th in   h ig h - t r af f ic  d o m ain s   with o u an y   d etec tio n   d elay s   [ 4 1 ] .   Fin ally ,   th a b s en ce   o f   s tan d ar d ized   d at asets   an d   ev alu atio n   p r o to co ls   also   h in d er s   r ep r o d u cib ilit y   an d   co n s is ten b en ch m ar k in g   ac r o s s   s tu d ies  [ 6 3 ] .   T h is   s tu d y   estab lis h es  r o b u s b asis   f o r   ac ad em ic   r esea r ch   a n d   o r g a n izatio n al   ap p li ca tio n   b y   in teg r atin g   tech n o lo g ical  im p r o v em en ts   with   p r ac tical  s ec u r ity   r eq u ir em e n ts .   Fro m   an   ac ad em ic  s tan d p o in t,   th am alg am atio n   o f   f ea tu r e n g in ee r in g   with   XAI   cr ea tes  o p p o r tu n ities   f o r   th a d v an ce m en o f   in ter p r etab le   m ac h in lear n in g   m o d els  th at  r ec o n cile  p er f o r m an ce   with   tr an s p ar en cy an   im p er ativ e   f ac to r   in   cr itical  f ield s   s u ch   as  cy b er s ec u r ity .   T h in teg r atio n   o f   h y b r id   t ec h n iq u es,  class if icatio n   o f   p h is h in g   d etec tio n   m ea s u r es,  an d   ex am in atio n   o f   XAI   m eth o d s   s u ch   as  SH A an d   L I ME   en h an ce   co m p r eh en s io n   o f   m o d el   b eh av io r   a n d   s y s tem   wea k n ess es.   T h f in d in g s   b r in g   u s ef u l   in s ig h ts   f o r   cy b er s ec u r ity   ex p er ts ,   em p h asizin g   th s ig n if ican ce   o f   d ev elo p in g   d etec tio n   s y s tem s   th at  ar b o th   r eliab le  a n d   co m p r e h en s ib le,   as  well  as   ad ap tiv to   em er g in g   th r ea ts .   T h ese  in s ig h ts   en ab le  tr u s am o n g   s tak eh o ld er s ,   b o o s in cid en r esp o n s e   m eth o d s ,   an d   g u a r an tee  co m p lian ce   with   r eg u latio n s   o f   cy b e r s ec u r ity .   T h r ev iew  u ltima tely   r ec o m m en d s   f o r   th f u r th er   d ev elo p m en o f   r e liab le  n ex t - g en er atio n   AI   s y s tem s   an d   p r o v i d es  f r am ewo r k   f o r   o r g an izatio n s   aim in g   to   en h an ce   th ei r   d ig ital   d ef en s es a g ain s t p r o g r ess iv ely   in tr icate   p h is h in g   th r ea ts .       6.   F UT UR E   DIR E C T I O NS      T h co m b in atio n   o f   f ea tu r e   e n g in ee r in g   an d   XAI   in   p h is h in g   web s ite  d etec tio n   is   p r o g r e s s in g ,   with   s o m f u tu r d ir e ctio n s   to   en h an ce   ac cu r ac y   a n d   tr an s p a r en cy .   First  d o m ain   is   ap p ly in g   au to m ated   f ea tu r e   en g in ee r in g   tech n iq u es  an d   r e d u cin g   th d e p en d e n ce   o f   m a n u al  f ea tu r en g in ee r in g   in   r e s p o n s to   ev o lv in g   p h is h in g   tactics  in   em p l o y in g   ML   m o d els   [ 1 ] .   A d d itio n ally ,   im p r o v in g   th e   ex p lain a b ilit y   o f   th ese  m o d els  is   also   cr itical;  ap p ly in g   ad v a n ce d   XAI   m eth o d s ,   s u ch   a s   SHAP  an d   L I ME ,   ca n   p r o v id in te r p r etab le   class if icatio n s   wi th o u af f ec tin g   s ec u r ity   [ 6 4 ] .     An o th er   cr i tical  f o cu s   is   m ak in g   s u r th a d etec tio n   s y s tem s   o p er ate  ef f icien tly   in   r ea l - ti m en v ir o n m en ts   with   m in i m u m   laten cy   wh ic h   r eq u ir ed   lig h tweig h f ea tu r e   en g in ee r in g   alg o r ith m s   an d   o p tim ized   XAI   m eth o d s .   Mo r e o v er ,   t h s tu d ies  will  co n ce n t r ate  o n   im p r o v in g   p h is h in g   d etec tio n   tech n i q u e s   f o r   s o cial  n etwo r k i n g   a n d   m o b ile  p latf o r m s   b y   d ev el o p in g   s o p h is ticated   Evaluation Warning : The document was created with Spire.PDF for Python.