Co m pu t er   Science  a nd   I nfo r m a t io n T ec hn o lo g ies   Vo l.   1 ,   No .   1 Ma y   2 0 2 0 ,   p p .   1 ~ 1 2   I SS N:  2722 - 3 2 2 1 ,   DOI : 1 0 . 1 1 5 9 1 / csit . v 1 i1 . p 1 - 12           1       J o ur na l ho m ep a g e h ttp : //ia e s p r ime. co m/in d ex . p h p /csi t   Em a il phishing T ex t  clas sifica tio n using  natura l la ng ua g pro cess ing       P riy a nk a   Ver m a ,   Anj a li G o y a l a nd   Yo g it a   G ig ra s     Th e   No rt h c a p   U n i v e rsity ,   G u rg a o n ,   Ha ry a n a ,   I n d ia       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ap r   1 4 ,   2 0 19   R ev is ed   No v   1 2 ,   2 0 19   Acc ep ted   J an   7 ,   2 0 2 0       P h ish i n g   is   n e tw o rk e d   t h e ft  i n   w h ich   th e   m a in   m o ti v e   o f   p h is h e rs  is  to   ste a a n y   p e rso n ’s   p ri v a te  in f o rm a ti o n ,   it f in a n c ial  d e tails  li k e   a c c o u n n u m b e r,   c re d it   c a rd   d e tails,   lo g i n   i n fo rm a t io n ,   p a y m e n t   m o d e   in f o r m a ti o n   b y   c re a ti n g   a n d   d e v e lo p in g   a   fa k e   p a g e   o r   a   fa k e   we b   site,   wh ich   lo o k   c o m p lete ly   a u th e n ti c   a n d   g e n u in e .   No wa d a y e m a il   p h ish in g   h a b e c o m e   a   b i g   t h re a t o   a ll ,   a n d   is  i n c re a sin g   d a y   b y   d a y .   M o re o v e r,   d e tec ti o n   o p h is h in g   e m a il h a s   b e e n   c o n sid e re d   a n   imp o rtan t   re se a rc h   issu e   a p h ish in g   e m a il h a v e   b e e n   in c re a sin g   d a y   b y   d a y .   Va rio u te c h n iq u e h a v e   b e e n   in tr o d u c e d   a n d   a p p li e d   to   d e a wit h   su c h   a   b ig   issu e .   T h e   m a jo o b jec ti v e   o t h is  re se a rc h   p a p e is   g iv i n g   a   d e tailed   d e sc rip ti o n   o n   th e   c las sifica ti o n   o f   p h ish i n g   e m a il u sin g   th e   n a tu ra la n g u a g e   p ro c e ss in g   c o n c e p ts.  NLP   ( n a tu ra la n g u a g e   p ro c e ss in g )   c o n c e p ts  h a v e   b e e n   a p p li e d   f o t h e   c las sifica ti o n   o f   e m a il s,  a lo n g   with   t h a t   a c c u ra c y   ra te  o v a rio u c las sifiers   h a v e   b e e n   c a lcu late d .   Th e   p a p e is  p re se n ted   in   fo u se c ti o n s.  A n   in tro d u c ti o n   a b o u p h ish in g   it ty p e s,  it s   h isto r y ,   sta ti stics ,   li fe   c y c le,  m o t iv a ti o n   fo p h is h e rs  a n d   wo rk in g   o e m a il   p h ish in g   h a v e   b e e n   d isc u ss e d   in   th e   first   se c ti o n .   Th e   se c o n d   se c ti o n   c o v e rs  v a rio u s   tec h n o l o g ies   o f   p h is h i n g -   e m a il   p h is h in g   a n d   a lso   d e s c rip ti o n   o e v a lu a ti o n   m e tri c s.  An   o v e rv iew   o t h e   v a ri o u p ro p o se d   so l u ti o n s   a n d   wo rk   d o n e   b y   re se a rc h e rs  in   th is  f ield   i n   f o rm   o f   li tera tu re   re v iew   h a b e e n   p re se n ted   i n   th e   th ird   se c ti o n .   T h e   so lu ti o n   a p p r o a c h   a n d   th e   o b tai n e d   re su lt h a v e   b e e n   d e fin e d   in   th e   f o u r th   se c ti o n   g i v i n g   a   d e tailed   d e sc rip ti o n   a b o u t   NLP   c o n c e p ts a n d   w o rk i n g   p r o c e d u re .   K ey w o r d s :   C las s if icatio n   r ep o r t   C o n f u s io n   m etr ics   E m ail  p h is h in g   Ma ch in lear n in g   Natu r al  lan g u ag e   p r o ce s s in g   So cial  en g in ee r in g   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Priy an k Ver m a ,   T h No r th ca p   Un iv er s ity ,   I n d ia .   E m ail:  p r iy an k a 1 7 csp 0 0 8 @ n c u in d ia. ed u       1.   I NT RO D UCT I O N   Ph is h in g   is   b asically   n etwo r k ed   th ef t   in   wh ich   th m ai n   m o tiv o f   p h is h er s   is   to   s teal  an y   p er s o n s   p r iv ate  in f o r m atio n ,   its   f in an c ial  d etails  lik ac co u n n u m b e r ,   cr ed it  ca r d   d etails,  lo g in   in f o r m atio n ,   p ay m en t   m o d in f o   an d   m an y   m o r e.   Ph is h in g   is   tec h n iq u in   wh ich   an   attac k er   cr ea tes  an d   d ev elo p   f ak p ag o r   a   f ak web   s ite,   wh ich   lo o k   c o m p letely   au th en tic  a n d   g e n u in e,   b u it  is   n o t.  T h attac k er   d ep lo y s   th s am an d   m ak p e o p le  to   e n ter   th ei r   cr ed en tials .   No wad ay s   th is   is   d o n m ain l y   th r o u g h   e - m ai ls .   Ma n y   f ak e   s ites   ar av ailab le  an d   ar u s ed   b y   p h is h er s   to   f r au d   p eo p le  b y   s en d in g   f ak m ails   an d   s teal  th eir   p r iv ate  in f o   o r   m ak th em   v ictim   o f   em ail  p h is h in g   b y   s en d in g   an y   k i n d   o f   m a licio u s   lin k   o r   p o p - u p   in   m ail s   th at  th u s er   will   u n k n o win g ly   o p en   an d   th u s   g o s tu ck   in   th eir   tr ap .   I is   f o r m   o f   f r au d   in   wh ich   th e   attac k er   r ep r esen ts   h im s elf   to   b e   g en u in en tity   a n d   attac k   v ia  co m m u n icatio n   ch an n els.  Ph is h in g   is   b r o a d ly   class if ied   in   th r ee   ca teg o r ies.  Sp ea r   p h is h in g T ar g etin g   s in g le  o r   a n   in d iv id u al  o r   th e   cr o wd   o f   p e o p le  h av in g   c o m m o n   in ter est,  ter m ed   as  s p ea r   p h is h in g .   I n   th is   ty p o f   p h is h in g   th m ajo r   tar g et  o f   th p h is h er   is   s tealin g   an d   u s in g   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t.  Sci.  I n f .   T ec h n o l. ,   V o l.  5 ,   No .   1 Ma y   20 20 1 - 1 2   2   th p r iv ate  d etails  ab o u th ta r g et  to   ass u r th eir   c h an ce s   o f   s u cc ess .   C lo n p h is h in g :   in   t h is   ty p o f   p h is h in g   attac k ,   th attac k er   cr ea tes  clo n o f   ex is tin g   em ail  an d   a ttach   m alicio u s   co n ten o r   lin k   with   th m ail  in   o r d er   t o   s teal  p er s o n s   in f o   o r   an y   f r a u d .   T h em ail  with   m a licio u s   co n ten is   th en   s en f r o m   s p o o f e d   em ail   ad d r ess   th at  ap p ea r s   to   b an   o r ig in al  em ail  a d d r ess .   I m ay   claim   to   b a   r esen d   o f   th o r i g in al  o r   an   u p d ate d   v er s io n   to   th o r ig in al.   I is   n o tar g et  s p ec if ic.   An y   k in d   o f   p er s o n   ca n   c o m an d   en ter   th e ir   cr ed en tials .   T h ey   ju s n ee d   to   co llect  th cr ed en tials   o f   th cr o wd   f o r   th eir   o wn   p u r p o s e.   W h alin g T h is   ty p o f   p h is h in g   attac k   h as  b ee n   in v e n ted   f r o m   s p ea r   p h is h in g   attac k s   wh ich   a r d ir ec ted   m ain ly   at  s en io r   ex ec u ti v es  o r   o th e r   h ig h - lev el   tar g ets.  I n   th is   attac k ,   th m alicio u s   co n ten to   tar g et  a n   u p p e r   lev el  p e r s o n   lik th C E o r   th p er s o n ' s   r o le  in   th c o m p an y   is   cr ea ted .       2.   B ACK G RO UND   T h is   s ec tio n   g iv es  d escr ip tio n   o n   th e   h is to r y   a n d   s tatis tics ,   life   cy cle,   m o tiv atio n   f o r   p h is h er s ,   em ail  p h is h in g   an d   its   wo r k in g .     2 . 1 .     H is t o r y   T h ter m   “p h is h in g ”  was in v e n ted   in   ea r ly   1 9 9 0 s ,   wh en   h u g n u m b er   o f   u s er s   with   f ak cr ed it c ar d   d etails,  g en er ated   an   alg o r ith m   f o r   s tealin g   u s er s   in f o r m at io n .   T h ese  p eo p le  r e g is ter ed   th em s elv es  o n   AOL   ( Am er ica  o n lin e)   web s ite  with o u an y   co n f ir m atio n   an d   s tar ted   u s in g   AOL s   s y s tem   r e s o u r ce s .   B y   1 9 9 5 ,   AOL   was   ab le  to   s to p   th r an d o m   cr ed it  ca r d   g en e r ato r s ,   b u th war ez   g r o u p   m o v ed   o n   to   o th er   m eth o d s ,   s p ec if ically   p r eten d in g   to   b AOL   em p lo y ee s   a n d   m e s s ag in g   p eo p le  v ia  AOL   Me s s en g er   f o r   t h eir   in f o r m atio n   [ 1 ] .   T h is   q u ick ly   b ec am s u ch   a   p r o b lem   t h at  o n   J an u ar y   2 ,   1 9 9 6 ,   th wo r d   p h is h in g   was  f ir s p o s ted   in   Usen et  g r o u p   d e d icate d   to   Am er ican   On lin [ 1 ] .   Ph is h in g   ce leb r ated   its   2 1 th   b ir th d ay   last   y ea r .   T h is   p r ac tice  g o its   s tar o n   AOL   wh en   a   g r o u p   o f   h ac k e r s   cr ea ted   to o l,  wh ic h   g e n er ate  r an d o m   cr ed it  ca r d   n u m b er s   th at  wer u s ed   to   cr e ate  AOL   ac co u n ts .   T h ey   tr ick ed   u s er s   f o r   s tealin g   th eir   p r iv ate  in f o r m atio n   lik e   SS   n u m b er s ,   c r ed it/d eb it  ca r d   n u m b er s ,   DOB,  cr ed e n tials   etc.   T h ey   wo u ld   th en   d e p lo y   o th er   AOL   a cc o u n ts   wh o m   th ey   ca n   u s f u r t h er   to   d o   p h is h in g   attac k s .   Sin ce   p e o p le  b ec o m awa r a b o u t h is   s ca m   s o ,   p h is h er s   th en   f o u n d   o u n ew  way   o f   p h is h in g   an d   ch o o s es  em ail  co m m u n icatio n s   th at  wer v er y   ch ea p ,   ea s y   an d   v er y   h ar d   to   g et  ca u g h t .   co m p a r ativ an aly s is   o f   p h i s h in g   attac k s   in   y ea r   2 0 1 6 - 2 0 1 8   th e r is   a   h u g e   am o u n o f   i n cr ea s in   attac k s ,   an d   ch an g es  o f   th ese  attac k s   to   g r o m o r i n   co m i n g   y ea r s   b ec a u s if   lack   o f   a war en ess   s h o wn   in   Fig u r 1 .   As  p er     Sy m a n tec’ s   2 0 1 8   I n ter n et  Secu r ity   T h r ea R ep o r ( I STR)   [ 3 ] ,   wh o p p in g   5 4 . 6 o f   all  em ail  is   s p am .   T h eir   d ata  s h o ws  th at  an   av er ag u s er   r ec ei v es  ab o u 1 6   m alicio u s   m ails   p er   m o n t h   th at  is   v er y   h u g am o u n t.   9 2 . 4 %   m al war is   d eliv er e d   v ia  m ail.   So ,   it  is   a   b ig   th r ea t   an d   em p l o y ee   h as  to   b e   tr ain ed   to   k ee p   awa r e.   I t is n o t e v e n   p o s s ib le  f o r   ev er y   em p lo y ee   to   id en tify   ev e r y   m alicio u s   em ail .   So ,   it is   n ec ess ar y   to   h av r i g h t secu r ity   s o lu tio n s .           Fig u r 1 .   Ph is h in g   attac k s   ex p er ien ce d   in   last   th r ee   y ea r s   [ 2 ] .     Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t.  Sci.  I n f .   T ec h n o l.         E ma il p h is h in g :   T ex t c la s s ifica tio n   u s in g   n a tu r a l la n g u a g p r o ce s s in g   ( P r iya n ka   V erma )   3   2 . 2 .     L if cy cle   Fig u r 2   s h o w s   th life   cy cle   o f   p h is h in g .   Fr o m   b e g in n in g   to   en d ,   th p h is h in g   p r o ce s s   in v o lv es  f o llo win g   s tep s   Stag 1 Plan   an d   s etu p   cr ea tin g I is   th v er y   f ir s s tep   o f   p h is h in g ,   in   wh ich   th att ac k er s   id en tify   th e   tar g eted   o r g an izatio n   o r   in d iv id u al.   T h eir   aim   is   to   g ath er   in f o r m atio n   ab o u th tar g eted   o r g an izatio n   an d   its   n etwo r k .   T h is   ca n   b d o n b y   v is itin g   th at  p lace   o r   b y   m o n ito r in g   th tr af fic   g o in g   in   a n d   o u o f   th at  o r g a n izatio n s   n etwo r k .   T h n e x s tep   is   to   cr ea te  s etu p   f o r   th e   attac k s   b y   p o s s ib le  m ea n s   lik cr ea tin g   f ak web s ites   an d   s en d in g   e m ails   with   m alicio u s   lin k s   an d   co n ten t,  wh ich   will th en   r ed ir ec t t h u s er s   to war d s   s o m f r au d   web   p ag e.   Stag 2 Sen d in g   m alicio u s   co n ten t:  T h n ex s tep   in   p h i s h in g   cy cle  is   to   s en d   th s p o o f ed   e m ails ,   e. g . ,   im p er s o n ated   as  s o m g e n u in o r g a n izatio n s   em ail  to   th v ictim   u s in g   th c o llected   em ail  ad d r ess es,  an d   ask in g   th u s er   to   u p d ate   th eir   s en s itiv o r   p er s o n al  in f o r m atio n   u r g en tly   b y   click in g   o n   s o m m alicio u s   lin k .     Stag 3 I n v ad i n g /b r ea k in g - i n On ce   th e   v ictim   click s   th f r au d   lin k ,   ei th er   m alwa r e   is   in s talled   o n   th e   s y s tem   o r   t h u s er   m a y   b r e d ir ec ted   to   s o m e   f ak e   m alicio u s   p ag e   wh ich   m ak es  th attac k er   to   g ai n   ac ce s s   to   th s y s tem   o r   ch an g e   th s y s tem   co n f ig u r atio n   t o   m ain tain   th at  ac ce s s .   Stag 4 E x tr ac tin g   u s ef u d at a:  Af ter   g ai n in g   c o n tr o to   t h e   v ictim s   s y s tem ,   th r eq u ir ed   d ata  ar ex tr ac ted ,   an d   if   a n y   h o t h u s er   u n k n o win g ly   g iv es  h is /h er   ac c o u n t   d etails  to   th attac k e r ,   th at  m ay   r esu lt  in   h u g fin a n cial  lo s s es  to   th u s er .   I n   ca s o f   e x p lo itatio n   attac k s ,   th attac k er   ca n   also   p er f o r m   DDOs  [ 4 ]   attac k   to   d am ag e   th u s er s   s y s tem   o r   ca n   g et  th s y s tem s   r em o te  ac ce s s   an d   th d ata  h wan ts .   Stag 5 E s ca p in g /B r ea k in g - o u t:  T h is   is   th m ain   s tep   f o r   p h is h er s ,   as  it  in v o lv es  cle ar in g   o f   tr ac k s   an d   ev id en ce s .   Af ter   ex tr ac tin g   al th ju icy   in f o r m atio n ,   th e   a ttack er   elim in ate  th e   ev id e n c es  lik th f ak web s ites   an d   ac co u n ts .   T h attac k er s   ca n   also   k ee p   tr ac k   o f   th e   v ictim   f o r   f u t u r att ac k s .           Fig u r 2 .   L if e   cy cle  o f   p h is h in g   [ 5 ]       2 . 3 .     M o t iv a t io n f o ph is hers   Ph is h er s   tak ad v an tag o f   t h lack   o f   awa r en ess   an d   ig n o r an ce   o f   th u s er s   an d   f o r   s te alin g   th eir   in f o r m atio n .   No wad a y s   p h is h er s   ar v er y   m u ch   ca p ab le  i n   f in d i n g   o u lo o p h o les  in   th n ewly   g e n er ate d   tech n iq u t o   co m m it  s u cc ess f u attac k s .   T h er e   ar v a r io u s   f ac to r s   o th er   t h an   f i n an cial  g ai n s   th at  en co u r ag es   attac k er s   to   co m m it th c r im e.   So m o f   th e   f ac to r s   ar as f o llo ws:     Stealin g   lo g in   in f o r m atio n /cr e d en tials Ph is h er s   m an ag e d   to   s teal  th l o g in   cr ed e n tials   o f   v ar io u s   o n lin e   s er v ices  lik b an k in g   ap p licat io n s ,   am az o n ,   G - m ail,   Face b o o k ,   eBay   etc.   f r o m   th u s er   b y   m ea n s   o f   f ak e   em ails   o r   war n in g   m ess ag es f o r   u p d atin g   p ass wo r d s   an d   in f o r m atio n .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t.  Sci.  I n f .   T ec h n o l. ,   V o l.  5 ,   No .   1 Ma y   20 20 1 - 1 2   4     Stealin g   b an k i n g   d etails/ cr ed en tials Var io u s   p er s o n al   in f o r m atio n   lik A/c   n u m b er ,   c r ed it/d eb it  ca r d   d etails,  C C n u m b er ,   a n d   lo g in   cr ed e n tials   o f   b an k in g   ap p licatio n s   etc.   s er v es  as  g o o d   b ait  f o r   th e   p h is h er s .     C ap tu r in g   p r iv ate  in f o r m atio n Priv ate  d ata,   s u ch   as  Aad h ar   n u m b er ,   r esid en tial  ad d r ess ,   co n tact  d etails,   telep h o n n u m b e r ,   ca n   ac t   as a   h u g d em an d   f o r   m an y   o r g an izatio n s   an d   m ar k etin g   co m p a n ies.      Stealin g   o f   c o n f id e n tial  d o c u m en ts   an d   t r ad in g   s ec r ets:   As  p er   n atu r e   o f   s p ea r   p h is h in g   in   tar g etin g   b ig   o r g an izatio n s ,   o r g an izatio n   s e cr ets  an d   d o cu m e n ts   ca n   p ay   v er y   g o o d   p r ice  to   p h is h er s   f r o m   o p p o s itio n   an d   att en tiv p a r ties .     R ec o g n itio n   an d   o p p r o b r iu m co g n itiv asp ec ab o u t   p h is h in g   th at s   v er y   in te r e s tin g ,   in   wh ich   in f o r m atio n   is   s to len   n o f o r   s tealin g   p u r p o s b u m ain ly   f o r   g ain in g   r ec o g n itio n   an d   b a d   f am e   am o n g   th eir   f r ien d s /p ee r s .     E x p lo itatio n   o f   s ec u r ity   lo o p   h o les:   I n q u is itiv n atu r o f   p eo p le  esp ec ially   h ac k er s ,   h av f ad   in   th eir   n atu r f o r   f in d in g   o u t   r o b u s tn ess   o f   s y s tem   th at   th ey   ev e n   wr ite  co d e   f o r   e x p lo itin g   th e   s y s tem   an d   t r y   it  o u t o n   s o m eo n else’ s   s y s tem   to   lau n ch   p h is h in g   attac k   o r   e v en   s ell  th s y s tem   to   o th er   p h is h er s .     2 . 4 .     E ma il phi s hi ng   E m ail  p h is h in g   is   th e   ac o f   tr i ck in g   th e   m ail  r ec ip ien t   b u s in ess   o r   an y   o th er   e n tity   in   o r d e r   to   o b tain   s en s itiv p er s o n al  in f o r m atio n   b y   s en d in g   f ak m ails   an d   m ak in g   th r ec eiv er   b eliev t h at  it  ca m f r o m   a   g en u in s o u r ce .   Data   ex tr ac ted   af ter   p h is h in g   is   o f ten   u s ed   to   d o   id en tity   th ef o r   to   s teal  l o g in   d etails  to   h av ac ce s s   to   o n lin ac co u n ts .   Sp o o f in g   is   way   s im ilar   to   em ai p h is h in g   th at  it  u s es   tech n iq u es  to   m ak p eo p le  en s u r th at  th m ails   h av co m f r o m   leg itima te  s o u r ce   t h at  th ey   ca n   tr u s an d   th u s   b ec o m v ictim   o f   f r a u d .   I t u s es th em ail  h ea d er   to   m ak it lo o k s   lik an   o r ig in al  s o u r ce .   Similar ly ,   s p o o f ed   I P’s u s f o r g ed   I P a d d r ess   to   f o o t h u s er s   co m p u ter   a n d   m ak in g   th em   b elie v th at  it  ca m f r o m   tr u s ted   s o u r ce .   V ar io u s   s ites   ca n   b u s ed   to   cr ea te   an d   s en d   f ak e   m ails h ttp s ://em k ei. cz / h ttp s ://g etg o p h is h . co m / w ww. tem p - m ail. o r g .   Fig u r e   3   s h o win g   f ak e m ail  m ess ag in   n am o f   am az o n   en ter p r is e .           Fig u r 3 .   Sh o win g   f a k em ail  m ess ag in   n am o f   am az o n   e n ter p r is e.   [ 6 ]       2 . 5 .     Wo r k ing   o f   ema il phi s h ing   T h wo r k in g   o f   em ail  p h is h in g   as sh o wn   in   Fig u r 4   m ai n ly   in cu d es sev en   s tep s :   1.   C o m p r o m is web   s er v e r th v er y   f i r s s tep   o f   attac k er   is   to   b r ea k   i n to   th we b   s er v er .   T h is   ca n   b d o n e   u s in g   v ar io u s   attac k s   an d   to o ls   lik DDOS  attac k   an d   av ailab le  p h is h in g   to o ls .   2.   Sen d in g   p h is h in g   e - m ails th attac k er   th en   s en d s   th m ail  co n tain in g   m alicio u s   lin k   o r   c o n ten o r   ev en   f ak m ails   ask in g   f o r   p r iv ate  i n f o r m atio n   to   th e   v ictim /r ec ei v er .   3.   R ec eiv ed   m ail:  th u s er /v ictim   wh o   is   u n awa r o f   th f ac t   th at  th m ail  is   n o g en u i n e   o n e,   click s   o n   th lin k   p r o v id e d   in   th m ail.   4.   Acc ess   web s ite : a f ter   click in g   o n   th lin k   th u s er   is   d ir ec te d   to war d s   th co m p r o m is ed   we b s ite.   Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t.  Sci.  I n f .   T ec h n o l.         E ma il p h is h in g :   T ex t c la s s ifica tio n   u s in g   n a tu r a l la n g u a g p r o ce s s in g   ( P r iya n ka   V erma )   5   5.   Ph is h in g   web s ite  ap p ea r s th e   attac k er   th en   s en d s   th f a k a n d   m alicio u s   s ite  to   th e   u s er   e n d   ask in g   f o r   in f o r m atio n .   6.   Su b m it  in f o r m atio n th u s er   b ein g   u n awa r ab o u th f a ct  th at  th s ite   is   n o g en u in o n en ter s   h is /h er   ask ed   in f o r m atio n   a n d   b ec o m v ictim   o f   m ail  p h is h in g .   7.   Ma k u s o f   in f o r m atio n :   a f ter   g ettin g   ju icy   in f o r m atio n   f r o m   th u s er ,   th e   attac k er   th en   tak es   ad v an tag o f   th at  in f o r m ati o n   o r   m ay   m is u s th at  o r   ev e n   b la ck m ail  u s er .           Fig u r 4 .   Pro ce d u r e   o f   em ail  p h is h in g       3.   E VA L UA T I O N   M E T RIC E   Ma n y   r esear ch er s   u s e   ev alu at io n   m etr ics  f o r   th ev alu atio n   an d   ex p e r im en tatio n   o f   th e ir   r esear ch     tech n iq u es  [ 7 ] .   T h e   m ain   o b jectiv o f   ev alu atio n   m etr ics   is   to   s tate  p h is h in g   m ails   f r o m   a   s et  o f   g iv en   m alicio u s   an d   g e n u in m ails .   Giv en   b elo th v ar io u s   e v alu atio n   m etr ics:   T r u p o s itiv r ate   ( T PR ) I s tates  th r atio   o f   p h is h in g   m ails   d etec ted   with   r esp ec t o   all  m alicio u s   an d   g en u in m ails .        =               +             +          Fals p o s itiv r ate  ( FP R ) : I t st ates th r atio   o f   g e n u in m ails   th at  wer im p r o p er ly   d etec ted   as p h is h in g   m ails .       =               +             +        Acc u r ac y   ( A) :   I m ea s u r es  th r ate  o f   m ails   d etec ted   co r r ec tly   as  p h is h in g   with   r esp ec to   all  d etec ted   p h is h in g   m ails .       = TP   +   TN TP + FP + FN +          4.   T AXO NO M Y   O F   P H I SH I N G   AT T ACK S   Ph is h in g   attac k s   ca n   b d eter m in ed   as  p er   m u ltip le  tech n iq u es  u s ed   b y   th p h is h er s   to   s t ea p er s o n al  in f o r m atio n   o f   v ictim .   Ph is h er   c an   f r au d   v ictim   eith er   b y   s en d in g   m alicio u s   lin k   v ia  em ail  o r   b y   cr ea tin g   f ak web s ite  to   tr a p   th e   u s er s   an d   s tealin g   th eir   p er s o n al  in f o r m atio n .   E m ail   th r ea ts   h a v b ec o m e   p er s is ten t   s o u r ce   o f   c y b er   s ec u r ity   p r ac titi o n er   an g u is h .   H o wev er ,   la ck   o f   k n o wl ed g e   an d   u n d e r s tan d in g   am o n g   th e   u s er s   ac ts   as  b en e f it  f o r   th p h is h er s   f o r   p er f o r m in g   p h is h in g   attac k   f o r   s tealin g   th eir   cr ed e n tials .     An   attac k er   ca n   f r au d   an y   in n o ce n u s er   eith er   b y   s en d i n g   s p o o f e d   em ails   o r   b y   u s in g   f ak web s ites .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t.  Sci.  I n f .   T ec h n o l. ,   V o l.  5 ,   No .   1 Ma y   20 20 1 - 1 2   6   Var io u s   tech n iq u e s   lik s o ci al  en g in ee r i n g ,   s u b ter f u g e,   wir eless   m ed iu m ,   m alicio u s   co d e,   k ey   lo g g er s ,     an d   s cr ee n   ca p tu r ca n   also   u s to   s teal  p er s o n al  in f o r m atio n .   T h ca teg o r izatio n   o f   Ph is h in g   attac k s   is     s h o wn   in   Fig u r 5 .       T e c hni que s  of phi s hi ng a t t a c ks P hi s hi ng t hr ough t e c hni c a l  s ubt e r f uge P hi s hi ng t hr ough onl i ne s oc i a l  ne t wor P hi s hi ng t hr ough wir e l e s s  m e di um P hi s hi ng t hr ough s oc i a l  e ngi ne e r i ng B l ue t oot h DN S  poi s oni ng C l i c ki ng on m a l i c i ous  l i nk T hr ough s m s S e s s i on hi j a c ki ng I ns t a l l  m a l i c i ous a pp W i - F i T hr ough we bs i t e M a n I n t he  m i ddl e a t t a c k V i s i t i ng s poof e d we bs i t e s T hr ough e m a i l s C r os s  s i t e  s c r i pt i ng R e s pondi ng wit h s e ns i t i ve i nf or m a t i on  S pe a r C l one W ha l i ng     Fig u r 5 .   T a x o n o m y   o f   em ail  p h is h in g       4 . 1 .     P his hin g   t hro ug h so cia l e ng ineering   So cio lo g y   is   ter m ed   as  s tu d y   o f   n atu r o f   h u m a n   b ein g s .   Sin ce   wid er   p o r tio n   o f   m alicio u s   ac tiv ities   wer co n s u m m ated   b ec au s o f   h u m a n   er r o r s   an d   n eg lectio n .   I r eq u ir es  co g n itiv m an ip u latio n   in   tr ick in g   u s er s   to   g et   s tu ck   in   t h tr ap   an d   m ak e   s ec u r ity   m is tak es  o r   g iv in g   awa y   s en s itiv e   in f o r m atio n   [ 8 ] .   I m ain ly   d ep en d s   o n   h u m an   er r o r   an d   lack   o f   k n o wled g e,   r at h er   th an   wea k n ess   in   s o f twar an d   v u ln er a b ilit ies   in   OS.  Mu ch   less   p r e d ictab le  m is tak es  o f ten   ca m f r o m   g en u in u s er s   th at  a r ev e n   h ar d   t o   id en tify .   So m o f   s o cial  en g in ee r in g   m eth o d s   ar d is cu s s ed   b elo w:     4 . 1 . 1 .   P his hin g   t hro ug h S M S   T h p r o ce s s   o f   s tealin g   p er s o n al  an d   f in a n cial  in f o r m ati o n   o f   p er s o n   v ia  s m s   is   ca lled   S m is h in g   [ 9 ] .   T h is   m eth o d   is   v er y   co m m o n   f o r   d o i n g   p h is h in g   th r o u g h   m o b ile  p h o n es.  Ph is h in g   is   d o n b y   s en d i n g   s m s   th at  co n tain   m alicio u s   lin k   o r   attac h m en th at  r ed ir ec ts   th u s er s   to war d s   f ak p ag to   s teal  p er s o n al  an d   f in an cial  in f o r m atio n .     4 . 1 . 2 .   P his hin g   t hro ug h we bs it es   T h is   m eth o d   in clu d es  cr ea tin g   o f   m alicio u s   web s ite  th at  lo o k s   ex ac tly   s am as  th o r ig in al  web s ite,   f o r   m is g u id in g   th u s er s   an d   s tealin g   th eir   p er s o n al   in f o r m at io n .   T h p h is h in g   web s ites   ca n   b e   cr ea te d   o n e   o r   leg itima te  o n co n tain i n g   m alicio u s   lin k s .     4 . 1 . 3 .   P his hin g   t hro ug h e m a ils   T h is   is   th m o s co m m o n   m e th o d   o f   p h is h in g   th ese  d ay s   s in ce   em ail  co m m u n icatio n   is   th wid ely   u s ed   m ea n s   o f   c o m m u n icatio n   m ain ly   in   o f f icial  p u r p o s es.  T h p h is h er   s en d s   f a k m ails   o r   m ails   co n tain in g   m alicio u s   lin k   to   t h u s er s   in   o r d er   t o   tr ick   th em   a n d   s teal  t h eir   p er s o n al,   f in a n cial,   lo g i n   in f o r m atio n .   E m ail   p h is h in g   is   b r o ad ly   ca teg o r ize d   in to   th r ee   ty p es:   Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t.  Sci.  I n f .   T ec h n o l.         E ma il p h is h in g :   T ex t c la s s ifica tio n   u s in g   n a tu r a l la n g u a g p r o ce s s in g   ( P r iya n ka   V erma )   7     Sp ea r   p h is h in g :   I n   th is   ty p o f   p h is h in g ,   attac k er s   o f te n   g ath er   u s er s   p er s o n al  in f o r m atio n   an d   u s th e m   to   ass u r th eir   s u cc ess .     C lo n p h is h in g I n   th is   ty p o f   p h is h in g   attac k ,   th attac k er   cr ea tes  clo n o f   ex is tin g   em ail  an d   attac h   m alicio u s   co n ten o r   l in k   with   th m ail  in   o r d er   to   s teal  p er s o n s   in f o   o r   an y   f r au d .   T h em ail  with   m alicio u s   co n ten t is th en   s en to   th v ictim   th at  lo o k s   lik it  ca m f r o m   th o r i g in al  s en d er .     W h alin g I n   th is   ty p e,   th p h is h er s   attac k s   ar d ir ec ted   s p ec if ically   at  p er s o n   a h ig h er   lev el  lik th C E o f   th co m p a n y   a n d   o t h e r   h ig h - p r o f ile  tar g ets.     4 . 2 .     P his hin g   t hro ug h o nli n s o cia l net wo rk   So cial  n etwo r k in g   s ites   ar cr az th ese  d ay s .   W ith   th ese  s i t es th u s er s   ca n   in ter ac t,  s h ar id ea s   an d   s tu f f   with   ea ch   o th er .   Millio n s   o f   p eo p le  s p en d   l o o f   tim u s in g   th ese.   T h p h is h er s   to o k   g o o d   ad v a n tag e   o f   th ese  s o cial  s ites   f o r   th eir   o wn   ad v an tag e.   Attack er s   ar u s in g   th ese  s i tes  to   in itiate  th ei r   attac k s   o n   wid e   n u m b er   o f   p eo p le   v ia   th ese  s o cial  s ites .   Var io u s   in cid en t s   o f   f r au d   v ia  s o cial  s ites   h av b ee n   r ec o r d e d .   Var io u s   m eth o d s   u s ed   b y   attac k er s   to   f r au d   u s er s   ar lis ted   b elo w:     4 . 2 . 1 .   Click ing   o m a licio us   lin k   T h is   is   th m o s co m m o n   wa y   th r o u g h   wh ic h   th e   u s er s   g et   tr ap p e d   o n   th p h is h in g   attac k .   Ph is h er s   g en er ate  m ali cio u s   lin k s   an d   s p r ea d   th em   v ia  th ese  s o cial  s ites   to   tr ap   u s er s .   Su ch   lin k s   h elp   th p h is h er s   in   co m p letin g   th eir   task   b y   s teali n g   u s er s   in f o r m atio n .     4 . 2 . 2 .   I ns t a llin g   m a licio us   a pp lica t io ns   Ph is h er s   b u ilt an d   u p lo a d   m ali cio u s   ap p licatio n s   in   f o r m   o f   g a m es a n d   v alu e - a d d ed   s er v ices o n   s o m s ites   an d   s to r es  in   o r d er   to   s teal  an d   s ca n   th u s er s   d ata  an d   in f o r m atio n .   T h ese  ap p lica tio n s   ca n   b in   th f o r m   o f   co p y   o f   o r i g in al  ap p s   cr ea ted   b y   attac k er s .     4 . 2 . 3 .   Sp o o f ed  websi t es:   T h is   attac k   is   s im ilar   to   th at  o f   m alicio u s   ap p   attac k ,   s o m o f   th m o s co m m o n ly   s u cc ess f u s ca m s   ar An   Ap p le  iT u n es “ em er g e n cy   p ass wo r d   r eset”  o r   co m p r o m is ed   Netf lix   ac co u n t p ass wo r d   r eset [ 1 0 ] .     4 . 2 . 4 .   Rev eling   s ens it iv info rm a t io n   So m etim es  th m o s c o m m o n   an d   d i r ec ap p r o ac h   u s ed   b y   p h is h er s   is   en o u g h   to   g ai n   s en s itiv in f o r m atio n .   A   m o s c o m m o n   r ev iew  r ev ea ls   th at   ab o u 3 0 s tu d en ts   r ev ea l   th eir   p ass wo r d s   in   u n iv er s ity   ju s t o n   r ec eiv in g   s im p le  tex m ess ag e.     4 . 3 .     P his hin g   t hro ug h t ec hn ica l su bte rf ug e   Ph is h er s   u s es  th i s   tech n iq u to   g ain   o r   s teal  in f o r m atio n   f r o m   u s er s   f o r   th eir   p er s o n al  b e n ef its .   So m e   m eth o d s   u s ed   f o r   tech n ical  s u b ter f u g e   ar d is cu s s ed   b elo w:     4 . 3 . 1 .   DNS  po is o nin g :   I n   th is   ty p o f   attac k   th u s er s   ar r ed ir ec te d   to war d s   th e   m a licio u s   web s ite  b y   t h attac k er s ,   an d   th is   is   d o n b y   c r ea tin g   a   f ak e   DN s er v er   o r   alter in g   th e x is tin g   o n e .   I n   th is   attac k   th attac k er   tak es   ad v an tag e   o f   v u l n er ab ilit y   o f   d o m ain   n a m s er v er .     4 . 3 . 2 .   Ses s io n hija ck ing   I n   th is   ty p o f   attac k   th e   m ain   m o to   o f   p h is h er   is   to   s teal  th s ec u r ity   id e n tifie r s   ( SID )   o f   th u s er   i n   o r d er   to   s teal  its   cr ed en tials .   SID   is   th s es s io n   id   th at  is   p r o v id e d   b y   th ap p licatio n   t o   au th en ticate  th e   co n n ec tio n   o f   th u s er .   On ce   th SID   is   s to len ,   th attac k er   ca n   n o lo g in   in t o   u s er s   ac co u n a n d     s teal  in f o r m atio n .     4 . 3 . 3 .   M a n in m idd le  a t t a ck  ( M I T M )   I ca n   b d ef in ed   v ia  an   as s u m p tio n   o f   m ailm an   wr it in g   d o wn   y o u r   b a n k   d etails  an d   th en   d eliv er in g   th e n v elo p e   to   y o u .   I n   th is   attac k   th p h is h er   p la ce s   h im s elf   b etwe en   t h co n v er s atio n   o f   u s er   a n d   ap p licatio n   f o r   s tealin g   u s er s   p er s o n al  an d   f in an cial  in f o r m a tio n .     4 . 4 .     P his hin g   t hro ug h wir eless   m edium   4 . 4 . 1 .   B luet o o t h   B ec au s o f   th f law  in   d ev ice s   h av in g   B lu eto o th ,   th at  a n y   o th er   d ev ice  ca n   c o n n ec to   th e m   with o u th eir   p er m is s io n .   T h is   f law  ca n   ac as  a   b ig   ad v a n tag f o r   t h p h is h er s .   T h e   attac k er   ca n   s en d   an y   m alicio u s   lin k   o r   f ile  o n   d ev ices w ith   ac tiv B lu eto o th   co n n ec tio n s .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t.  Sci.  I n f .   T ec h n o l. ,   V o l.  5 ,   No .   1 Ma y   20 20 1 - 1 2   8   4 . 4 . 2 .   Wi - Fi   Sin ce   W i - Fi  i s   h u g s o u r ce   o f   n etwo r k   t h ese  d ay s .   Ma n y   p eo p le  d i d n ev e n   au th en ti ca te  to   th ac ce s s   p o in r esu ltin g   in   in s ec u r co n n ec tio n   th at  ac as   an   o p p o r tu n ity   f o r   th attac k er   to   i n ter r u p th e   co m m u n icatio n   an d   ca n   ev e n   h ijack   th co n n ec tio n .       5.   L I T E R AT U RE   R E VI E W   Ma n y   r esear ch er s   h a v p r o p o s ed   v ar io u s   wo r k s   o n   em ail  p h i s h in g .   So m o f   th p r o p o s ed   wo r k   ar e:   1.   Geo r g et  al.   [ 1 1 ]   in   th eir   wo r k   “E m ail  Ph is h in g   Dete ctio n   Sy s tem   Usi n g   Neu r al  Netwo r k ”  h as  p r o p o s ed   m eth o d   o f   tr ai n in g   b ased   o n   n eu r al  n etwo r k .   T h ey   h av u s ed   two   d atasets   p h is h   an d   h am   d ata  s et,   ea ch   co n s is tin g   o f   4 5 0 0   em ails .   T h ey   h av u s ed   v ar i o u s   alg o r it h m   lik FNN  with   b ac k   p r o p a g atio n   alg o r ith m   f o r   tr ain in g   an d   id en tify in g   h am   an d   p h is h   em ails ,   f is o r d er   s tatis tical  m ea s u r es  f o r   f in d in g   o u th b est  f ea tu r es  f r o m   th e x tr ac ted   o n es.  T h is   h as  ac h iev ed   v er y   lo f alse  n eg ativ an d   f als p o s itiv r ate.   9 9 . 9 5 % wa s   th b est cla s s if ied   r esu lt a ch iev ed   u s in g   1 2   b est  f ea tu r es.   2.   T h au th o r s   in   th eir   wo r k   “I d en tific atio n   an d   Dete ctio n   o f   Ph is h in g   E m ails   Usi n g   Natu r al  L an g u ag e   Pro ce s s in g   T ec h n iq u es”  [ 1 2 ]   h as  f o cu s ed   o n   d etec tin g   p h is h in g   e m ails   th at  d o   n o co n tai n   an y   lin k s   an d   u r ls .   T h e y   h av e   o n   f o cu s ed   o n   e m ail  co m m u n icatio n .   T h ey   m ak u s o f   NL an d   W o r d Net  in   th eir   p r o p o s ed   wo r k .   T h e y   h a v ex am in ed   o v er   6 0 0   p h is h in g   em ails   an d   4 0 0   g en u in em ails   a n d   co llected   a   lis o f   f ea tu r es  lik ab s e n ce   o f   r ec ip ien t’ s   n am e,   ask in g   f o r   m o n ey   o r   m en tio n   o f   m o n ey ,   s en s o f   u r g en c y ,   in d u cin g   s en ten ce s   th at  lu r t h v ictim   to   r ep ly   th em .   T h e y   h av u s ed   Stan f o r d   C o r e   NL P’s   ( n atu r al  lan g u ag p r o ce s s in g )   ap p licatio n   p r o g r a m   in ter f ac f o r   f o r m in g   b ase  f o r   all  th wo r d s   p r esen t in   p h is h in g   em ail.   T ( tr u n eg a tiv e) ,   FN ( f alse n eg ativ e) ,   FP   ( f alse p o s itiv e) ,   T P ( tr u p o s iti v e)   ar u s ed   f o r   d etec tin g   th e   q u ality   o f   th eir   p r o p o s ed   wo r k .   T h eir   o b tain ed   r esu lts   ar T N= 3 9 8 ,   FN  =   4 ,   F P=  2 ,   T P=   5 9 6 .   T h eir   f u tu r wo r k   is   to   im p r o v th ac c u r ac y .   T h ey   will  b u s in g   R iTa ( R ea I n t ellig en ce   T h r ea t   An aly tics ) [ 1 3 ]   W o r d Net  API   f o r   p r o g r a m m atica lly   ac ce s s in g   o f   d ata b ases   an d   Op t ical  C h ar ac ter   R ec o g n itio n   tech n i q u es  f o r   p er f o r m in g   th e   p h is h in g   d etec t io n   o n   th tex t   co n ten ts   o b tai n ed   f r o m   im a g f o r m   attac h m e n ts   s en t in   m ails .   3.   Yasin   an d   Ab u h asan   [ 1 4 ]   i n   t h eir   wo r k   “An   in tellig e n class if icatio n   m o d el  f o r   p h is h in g   em ail  d etec tio n ”  h as  p r o p o s ed   a   class if icatio n   m o d el  u s in g   in tellig en t   p r e p r o ce s s in g   p h ase  f o r   t h ex tr a ctio n   o f   v ar io u s   f ea tu r es  o f   e m ail  lik em ail  h e ad er ,   b o d y ,   ter m s   an d   f r e q u en cy ,   b y   ap p l y in g   th e   tech n iq u es  o f   d ata   m in in g   an d   k n o wled g d is co v er y   f o r   p h is h in g   e m ails   o r   s p o o f e d   e m ails .   W o r d Net  o n to l o g y   was  u s ed   t o   en r ich   th f ea tu r es  a n d   f o r   en h a n cin g   th s im ilar ity   b e twee n   em ai ls   m ess ag es,  tex p r ep r o ce s s in g   tech n iq u o f   s tem m in g   is   u s ed .   Fo r   tr ain in g   an d   test in g   o f   m o d el  two   a cc r ed ited   d ata  s ets  ( p h is h in g   an d   h am   em ails )   an d   1 0 - f o ld   cr o s s   v alid atio n   tech n iq u es  wer u s ed   in   test in g   an d   tr ain i n g   p r o ce s s .   Ver y   p o p u lar   d a ta   m in in g   alg o r ith m s   lik e   r an d o m   f o r est,  J 4 8 ,   B ay es  n et   SVM  an d   ML wer u s ed   to   e x p er i m en th m o d el.   Hig h ly   en c o u r ag i n g   class if icatio n   r esu lts   with   h ig h   ac cu r ac y   r ates  wer o b tain e d   as  co m p a r ed   to   p r ev i o u s   m o d els.   4.   Qb eitah   an d   Ald wair i”  [ 1 5 ]   in   th eir   wo r k   “Dy n am ic  Ma lwar An aly s is   o f   Ph is h in g   E m ails ”  h as  p r o p o s ed   m eth o d o lo g y   f o r   d y n am ic  an aly s is   an d   f o r   ca p tu r in g   n e m alwa r s am p les  an d   u n d er s tan d in g   th eir   b eh av w. r . f iles ,   r eg is tr y ,   O an d   n etwo r k .   T h ey   h av d esig n ed   lab   u s in g   th r ee   Dio n a ea   h o n ey p o t s   f o r   ca p tu r in g   th m alwa r s am p le s   an d   f o r   an aly zin g   th o s ca p t u r ed   s am p les  lab   u s in g   R E MN UX  s an d b o x   was  s etu p .   T h ey   ex am in e d   . ex e”   an d   “e x ce l   f ile”  ( f r o m   UAE   b ased   o r g a n izatio n )   f r o m   th e   n ewly   ca p tu r ed   m alwa r s am p les  a n d   p r esen ted   d etailed   an al y s is   o n   th em   u s in g   R E MN UX.   T h eir   wo r k   co n tr ib u ted   lo t in   r esp o n s p r o ce d u r es b y   m alwa r a n aly s ts .   5.   “De tectio n   o f   p h is h in g   attac k s   b y   B ay k ar an d   r el   [ 1 6 ] ,   in   th eir   wo r k   th ey   h av d ev elo p ed   a n   ap p licatio n   “An ti  Ph is h in g   Si m u lato r ”  to   id en tif y   an d   d ete ct  th e   p h is h in g   elem e n in   te x an d   m ess ag u s in g   th e   B ay esian   class if icatio n   alg o r ith m   with   m an y   d ata b ases .   New   p h is h in g /s p am   w o r d   an d   u r ls   c an   also   b ad d ed   to   th d atab ase  u s in g   “a d d   s p am ”  f ea tu r e.   T h g en er ated   ap p licatio n   f o cu s e s   o n   p r ev en tin g   v io latio n   b y   c o n tr o llin g   s ec u r ity   an d   ch ec k in g   th in c o m in g   m ail  to   en s u r e   wh eth e r   it  co n tain s   an y   m alicio u s   co n ten t.  Sp am   b o x   is   u s ed   f o r   s to r in g   s p am   m ails   an d   is   also   u s er   f r ien d ly .   6.   T h au th o r s   in   th eir   wo r k   An   ap p r o ac h   f o r   Ma licio u s   S p am   Dete ctio n   in   E m ail  with   co m p ar is o n   o f   d if f er en t   class if ier s   [ 1 7 ]   p r o p o s ed   a   m o d el  f o r   p er f o r m in g   f ea tu r s elec tio n   o f   p h is h in g   em ails   b y   em p lo y in g   n o v el  d ataset  u s in g   two   m o d els  NB ,   SVM  cl ass if ier .   tr ain in g   d ataset  an d   test   d ataset   co n tain in g   7 0 2   s p am / h am   m ails   an d   2 6 0   m ails   ( 1 3 0   s p am   a n d   1 3 0   n o n - s p am   e m ails ) .   T h e   au th o r   h as u s ed   s cik it - lear n   Ma ch in L ea r n in g   lib r ar y   ( a n   o p en   s o u r ce   p y t h o n   m ac h i n lear n in g   lib r ar y )   f o r   class if ier s   tr ain in g .   T h o b tain e d   r esu lt  s h o ws  th at  b o th   th m o d els  h av b alan ce d   f alse  p o s itiv in   SVM  ( s u p p o r t   v ec to r   m ac h i n e)   an d   s im ilar   p er f o r m an ce   r ate  o n   test - s et.   Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t.  Sci.  I n f .   T ec h n o l.         E ma il p h is h in g :   T ex t c la s s ifica tio n   u s in g   n a tu r a l la n g u a g p r o ce s s in g   ( P r iya n ka   V erma )   9   7.   Dam o d ar am   [ 1 8 ] ,   in   h er   wo r k   s tu d y   o n   p h is h in g   attac k s   an d   a n tip h is h in g   to o ls ”  d ete r m in es  v ar io u s   co n ce p ts   o f   p h is h in g ,   ty p es  o f   p h is h in g   attac k s ,   its   life   c y cle,   an d   h as  g iv e n   b r ief   d is c u s s io n   o f   v ar io u s   an ti - p h is h in g   t o o ls :     “M ail - SeC u r e”   ( it is   m o d u le  th at  co m b in es v ar io u s   tech n o l o g ies lik an ti - p h is h in g   d atab a s e,   SUR B L   ( Sp am   Un if o r m   R eso u r ce   I d e n tifie r   R ea l - tim B lo ck   L is t)   [ 1 9 ] ,   C o m m to u ch   R PD,  Heu r is tic  Fra u d   d etec tio n   s ets o f   r u les,   in ter n et  p r o to c o l ( I P)  r e p u tatio n ,   r ate  l im it.     Netc r af t “ Secu r ity   T o o l Bar     Set Sec u r ity     “Bro wser   I n teg r ated   T o o ls     “Usin g   An ti - p h is h   an d   Do m   A n ti - p h is h   T ec h n iq u es”.   T h au th o r s   s tu d y   h as g iv en   a n   awa r en ess   ab o u t th e   p h is h in g   p r o b lem s   an d   s o lu tio n s .       6.   SO L U T I O N   AP P RO ACH M E T H O DO L O G US E D   lo o f   wo r k s   h a v b ee n   d o n b y   th e   r esear ch er s   i n   em ail   class if icatio n s ,   d etec tio n   an d   p r ev en tio n s   u s in g   m an y   tech n i q u es.  Ou r   f o cu s   is   o n   class if icat io n s   o f   p h is h in g   em ails   u s in g   m ac h in lear n in g   tech n iq u es.   T h d ata s et  “T h Sh o r m ess ag s er v ice  Sp am   C o llectio n   v . 1 ”  co n s is tin g   o f   5 , 5 7 4   tag g ed   ( h am /s p am ) ,   r ea l   an d   n o n - en co d ed   E n g lis h   m ess ag es  [ 2 0 ]   h as  b ee n   u s ed   f o r   class if icatio n .   Natu r al  L an g u a g Pro ce s s in g ,   an d   m ac h in lear n in g   class if ier s   w er u s ed   f o r   class if icati o n .   T e x class if icatio n   an d   an aly s is   o f   p h is h in g   d atasets   h as  b ee n   d o n u s in g   NL co n ce p ts ,   s cik it - lear n   an d   NL T K.   Var io u s   class if ier s   lik SV C ,   Dec is io n   T r ee ,   an d   R an d o m   Fo r est KNe ig h b o r s   C lass if ier s   ar u s ed .   NL P:  NL s tan d s   f o r   Natu r al  lan g u ag e   Pro ce s s in g .   I is   d ef i n ed   as  f ield   o f   AI   t h at  h elp s   co m p u ter   to   co m m u n icate   with   h u m an s .   B ec au s o f   NL P,  it  b ec o m es  p o s s ib le  f o r   th c o m p u ter s   to   r ea d ,   h ea r ,   ed it  a n d   in ter p r et  tex t,  s p ee ch   an d   d e ter m in wh ich   p ar ts   a r im p o r tan t.   B asic  NL ta s k s   in cl u d e:  r em o v i n g   s to p   wo r d s ,   p u n ct u atio n s ,   s p ec ial  ch ar ac ter s ,   to k en izatio n ,   s tem m in g ,   tag g in g ,   lan g u a g d etec tio n   an d   id en tific atio n   o f   s em an tic  r ela tio n s h ip s .   I is   also   ex p lain ed   as  th m ea n s   o f   h a n d lin g   th n atu r al  lan g u a g e   b y   au to m atic  m ea n s   u s in g   s o f t war e.   B asic  NL task s   in clu d e:  r em o v in g   s to p   wo r d s ,   to k en izatio n ,   p ar t - of - s p ee ch   tag g in g ,   s tem m in g ,   p u n ctu atio n s ,   s p ec ial  ch ar ac ter s ,   lan g u ag d etec tio n   an d   id en tif icatio n   o f   s em an tic  r elatio n s h ip s .   Scik it - lear n   is   m ac h in lear n in g   lib r a r y   f o r   th Py th o n   p r o g r am m in g   lan g u ag e.   Var io u s   class if icatio n r eg r ess io n   an d   clu s ter in g   alg o r ith m s   ar e   also   d ef in e d   in   th is   lib r ar y .   I t   is   lib r ar y   in   Py t h o n   th at  p r o v id es  m an y   u n s u p er v is ed   an d   s u p er v is ed   lear n in g   alg o r ith m s   [ 2 1 ] .   I t’ s   b u ilt  u p o n   s o m e   o f   th e   tech n o lo g y   y o u   m ig h alr ea d y   b e   f am iliar   with ,   lik e   Nu m P y ,   p a n d as,  a n d   Ma tp lo tlib .   NL T is   ter m ed   as  a   “wo n d er f u to o f o r   teac h in g ,   an d   wo r k in g   in ,   co m p u tatio n al  lin g u is tics   u s in g   Py th o n , ”  an d   “a n   am az in g   lib r ar y   to   p lay   with   n atu r al  lan g u ag e” .   T h is   p latf o r m   allo ws  to   wo r k   with   d ata  th at  is   in   f o r m   o f   h u m a n   lan g u ag e   b y   b u ild in g   p y th o n   p r o g r am s .   NL T is   em b ed d e d   with   v ar io u s   tex t p r o ce s s in g   li b r ar ies  an d   ea s y - to   u s in ter f ac es to   o v e r   5 0   co r p o r an d   lex ical  r eso u r ce s   [ 2 2 ] .   T h is   an aly s is   is   d o n u s in g   an ac o n d j u p y ter   la b .   T h c o d in g   is   d o n u s in g   p y th o n .   T h wo r k in g   p r o ce d u r is   as p er   f o llo win g   s tep s     Do wn lo ad in g   s p a m   an d   p h is h i n g   d atasets .     Op en in g   th e   ju p y ter   lab   o n   th e   s am f o ld er   wh e r th d atasets   ar lo ca ted ,   u s in g   a n ac o n d p r o m p t.     No s tar t w ith   co d wr itin g   th at  in v o lv es v ar i o u s   s tep s :     I m p o r tin g   lib r ar ies     L o ad   th d ataset  an d   r ea d i n g   t h co n ten ( tex t f iles ) .     Pre p r o ce s s in g   o f   d ataset:  th e   v er y   f ir s s tep   in   NL th at  in v o lv es  to k e n izatio n ,   s to p   wo r d s ,   s tem m in g ,   r em o v in g   n u m b er s   an d   p u n ctu atio n s .     Gen er atin g   f ea tu r es a n d   cr ea ti n g   f ea tu r s et.     Div id in g   th f ea t u r s et  in to   tr ain in g   an d   test in g   d atasets .     I m p o r tin g   c h o s en   class if ier s   f r o m   s k lear n   a n d   ap p l y in g   th e m   o n   th e   test in g   d ataset  f o r   c o m p u tin g   th e   ac cu r ac y   s co r e.       L astl y   r ep r esen tin g   r esu lts   u s in g   co n f u s io n   m at r ix   an d   class if icatio n   r ep o r t.   T h C lass if icatio n   o f   d ataset   is   d o n e   b y   b u ild in g   p y th o n   co d u s in g   th e   an ac o n d a   ju p y ter   lab .   Fo llo win g   ar th s tep s   in v o lv ed   in   cla s s if icatio n   p r o ce d u r e ,   as sh o wn   in   Fig u r 6 .   1.   I m po rt   Nec ess a ry   lib ra ries :   T h v er y   f ir s s tep   is   im p o r tin g   th n ec ess ar y   lib r ar ies.  T h im p o r ted   lib r ar ies  ar o s ,   g l o b ,   p y t h o n ,   p a n d as,  n u m p y ,   n ltk ,   s ci - k it,  s en t_ to k en ize,   wo r d _ to k en ize ,   Po r ter   Stem m er ,   C o u n ter ,   m o d el_ s e lectio n ,   Sk lear n   C lass if ier ,   S VC ( s u p p o r v ec to r   class if ier ) ,   KNe ig h b o r s   C las s if ier [ 2 3 ] ,   Dec is io n   T r ee   C lass if ier ,   R an d o m   Fo r est  C las s if ier ,   class if ic atio n _ r ep o r t ,   ac cu r ac y _ s co r e ,   co n f u s io n _ m atr ix ,   L o g is tic  R eg r ess io n .   Fu r th er   ca n   b e   ad d e d   wh en   r eq u ir ed .   2.   L o a t he  Da t a s et :   Py th o n   p an d as  h av b ee n   u s ed   f o r   r ea d in g   th d ataset.   T o   u s p a r ticu lar   d ataset,   o p en   th e   ju p y ter   lab   in   th at   d at ab ase’ s   lo ca tio n   u s in g   th e   an a co n d p r o m p t.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t.  Sci.  I n f .   T ec h n o l. ,   V o l.  5 ,   No .   1 Ma y   20 20 1 - 1 2   10   3.   P re pro ce s s ing   o f   Da t a :   T h v er y   f i r s s tep   in   cl ass if icatio n   p r o ce s s   is   th p r e p r o ce s s in g   o f   d ataset.   T h is   in clu d es  co n v er tin g   wh o le  te x in   lo wer   ca s e,   r em o v in g   n u m b er s ,   web   ad d r ess ,   an d   p u n ctu atio n s ,   r em o v in g   s to p   wo r d s ,   to k en iz atio n ,   s tem m in g .   4.   F ea t ures  G ener a t io n :   th is   is   an   im p o r ta n s tep   in   class if icat io n .   Featu r en g in ee r in g   is   u s ed   to   g en e r ate   f ea tu r es  f r o m   th e   d ataset  u s in g   d o m ain   k n o wled g e   an d   th o s f ea tu r es  will  b u s ed   b y   m a ch in lear n i n g   alg o r ith m s .   T h f ea tu r es  ar i n   f o r m s   o f   to k e n s   th at  ar g e n er ated   in   th p r ev io u s   s tep .   f ea tu r s et  is   cr ea ted   f r o m   t h ese  f ea tu r es  th at  co n s is ts   o f   th m o s co m m o n   f ea tu r es.  T h f ea tu r s et  ca n   also   co n tain   f ea tu r es  th at  ar n o m ea n in g f u o r   o f   v e r y   s h o r len g th ,   s u ch   f ea tu r es  n ee d   to   b r em o v ed   f o r   b etter   r esu lts .   5.   G ener a t io o f   Da t a s et s   f o T esting   a nd   T r a ini ng   t he  M o del T h f ea tu r s et  is   d iv i d ed   in   e q u al  o r   an y   r atio   as  p e r   o u r   co n ce r n   to   m a k tr ai n in g   an d   test in g   d atasets .   T h e   tr ain in g   d ata s et  is   u s ed   f o r   tr ain in g   t h class if ier s   o r   b u il d in g   a   m o d el.   W h ile  a   test in g   d ataset  is   u s ed   f o r   v alid atin g   t h b u ilt  m o d el   an d   ca lcu latin g   t h r esu lts .   6.   Appl y ing   Cla s s if iers :   C las s if ier s ,   alg o r ith m s   th at  h av to   b u s ed   f o r   class if icatio n   n ee d   to   b e   im p o r ted .   Va r io u s   s k lear n   clas s if ier s   h av b ee n   u s ed .   7.   Resul t s :   C alcu latin g   th ac cu r ac y   r ate   o f   all   th class if ier s   an d   cr ea tin g   th e   class if icatio n   r e p o r t   an d   co n f u s io n   m atr ix .   T h e   ac cu r ac y   r ate  ca lcu lated   b y   th Nea r est  Neig h b o r s   class if ier   is   9 4 . 7 5 ,   Dec is io n   T r ee   class if ier   is   9 7 . 5 5 ,   R an d o m   Fo r est  class if ier   is   9 8 . 4 2 ,   L o g is tic  R eg r ess io n   clas s if ier   is   9 8 . 5 6 ,   SGD  C las s i f ier   is   9 8 . 3 4 ,   Naiv B a y es  class if ier   i s   9 8 . 7 0 ,   an d   S VM   L in ea r   class if ier   i s   9 8 . 7 7 ,   as  s h o wn   in   Fig u r 7 .           Fig u r 6 .   W o r k i n g   p r o ce d u r e       IM P ORT ING     L IBRA RIES L OA DIN G   T HE  DA T A S ET P REP ROCES S ING   OF  DA T A F E A T UR E S   G E NE RA T IONS DIV IS ION  INT T RA INING   A ND  T E S T ING   DA T A S E T S A P P L YIN G   CL A S S IF IERS   RE S UL T S (c o n f u sio n     m a tri x ,   c las sif ica ti o n   tab le) Evaluation Warning : The document was created with Spire.PDF for Python.