I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   10 ,   No .   5 Octo b er   2 0 2 0 ,   p p .   5 3 3 5 ~ 5 3 4 6   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 10 i 5 . pp 5 3 3 5 - 5 3 4 6          5335       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m/in d ex . p h p /I JE C E   An ada ptive a no m a ly  requ est d ete ction fra m ew o rk   ba sed    o n dyn a m ic w eb appli ca tion pro fil es       Cho   Do   Xua n 1 Na m   Ng uy en 2 H o a   Ng uy en  Dinh 3   1, 3 In f o rm a ti o n   S e c u rit y   De p a rt m e n t   P o sts a n d   T e lec o m m u n ica ti o n s   I n stit u te o f   T e c h n o lo g y ,   V ietn a m   1, 2 In f o rm a ti o n   A ss u ra n c e   De p a rt m e n F P T   Un iv e rsity ,   V ietn a m       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   No v   1 5 ,   2 0 1 9   R ev i s ed   Mar   2 3 ,   2 0 2 0   A cc ep ted   A p r   1 3 ,   2 0 2 0       W e b   a p p li c a ti o n   f ire w a ll   is   a   h ig h ly   e ffe c ti v e   a p p li c a ti o n   in   p ro tec ti n g     th e   a p p li c a ti o n   lay e a n d   d a tab a se   la y e r   o w e b sites   f ro m   a tt a c k   a c c e ss .     T h is  p a p e p ro p o se a   n e w   w e b   a p p li c a ti o n   f irew a ll   d e p lo y in g   m e t h o d   b a se d   on   d y n a m ic   w e b   a p p li c a ti o n   p r o f il in g   (D WA P a n a ly sis   tec h n iq u e .   T h is  is   a   m e th o d   to   d e p l o y   a   f ire wa ll   b a se d   o n   a n a ly z in g   we b site  a c c e ss   d a ta.  DWA P   is   i m p ro v e d   to   in teg ra te  d e e p ly   in to   th e   stru c tu re   o f   th e   w e b site  to   in c re a se   th e   c o m p a ti b il it y   o f   th e   a n o m a l y   d e tec ti o n   sy ste m   in to   e a c h   w e b site,  th e re b y   i m p r o v i n g   t h e   a b i l i t y   t o   d e t e c t   a b n o r m a l   r e q u e s t s .   T o   i m p r o v e   t h e   c o m p a t i b i l i t y   o f   th e   w e b   a p p li c a ti o n   f irew a ll   w it h   p ro tec t e d   o b jec ts,   th e   p r o p o se d   sy ste m   c o n sists   o f   tw o   p a rts  w it h   th e   m a in   tas k a re i)  D e tec a b n o rm a a c c e ss   in   w e b   a p p li c a ti o n   (W A )   a c c e s s ii S e m i - a u to m a ti c   u p d a te  th e   a tt a c k   d a ta  to   th e   a b n o rm a a c c e s d e tec ti o n   sy ste m   d u rin g   WA   a c c e s s.  T h is  n e w   m e th o d   is  a p p li c a b le  in   re a l - ti m e   d e tec ti o n   s y ste m s   w h e r e   u p d a ti n g   o f   n e w   a tt a c k   d a ta  is  e ss e n ti a l   sin c e   w e b   a tt a c k a re   in c re a sin g l y   c o m p le x   a n d   so p h ist ica ted .   K ey w o r d s :   An o m al y   r eq u e s t   Data   clu s ter in g   D y n a m ic  p r o f il in g   W eb   ap p licatio n   f ir e w all   Co p y rig h ©   2 0 2 0   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   C h o   Do   Xu a n ,     Dep ar t m en t o f   I n f o r m atio n   Se cu r it y ,     P o s ts   an d   T elec o m m u n icatio n s   I n s ti tu te  o f   T ec h n o lo g y ,   1 2 2   Ho an g   Qu o Viet,   C a u   Gi a y   Dis tr ict,   Ha n o i,  Viet n a m .   E m ail:  c h o d x @ p ti t.e d u . v n       1.   I NT RO D UCT I O N   C u r r en tl y ,   w eb   ap p licatio n   s e cu r it y   h as  b ee n   h o to p ic  f o r   m a n y   r e s ea r ch er s   a n d   in ter n et  s er v ice   p r o v id er s .   A cc o r d in g   to   th e   S y m a n tec  r ep o r [ 1 ] ,   w eb - b ased   attac k s   ac co u n ted   f o r   1 0   p er ce n o f   to ta l   m alicio u s   r eq u est s   d etec ted   i n   2 0 1 8 ,   an d   w eb s ite   s ec u r it y   is   n ec es s ar y   is s u e   at  p r ese n t.   I n   [ 2 ] ,   Mo o k h e y   p r esen ted   th c h ar ac ter is t ics,   co m p o s itio n s   an d   o p er atio n   p r in cip les  o f   WA .   B esid es,  s o m o th er   w o r k s     in   [ 2 - 4 ]   h a v s h o w n   s e v er al   v u l n er ab ilit ie s   an d   t h r ea ts   t h at  attac k er s   co u ld   ex p lo it  t o   attac k   th w eb   ap p licatio n s .   A cc o r d in g   to   t h s u r v e y s   i n   [ 3 ]   an d   [ 4 ] ,   th e   v u l n er ab ilit ie s   o f   t h p r o to co h y p er   te x t   tr an s f er   p r o to co ( H T T P )   o r   h y p er tex tr an s f er   p r o to co s ec u r ( H T T P S)  ar o f ten   p r ef er ab le  to   b ex p lo ited   b y   attac k er s .   HT T P   an d   H T T PS   ar th t w o   m o s p o p u lar   p r o to c o ls   to   co m m u n icat f o r   en d   u s er s .     B ef o r r etu r n in g   th co n te n ts   to   d is p lay   o n   th w eb   b r o w s er ,   w eb   ap p licatio n s   p r o ce s s   th co n ten o f   th u s er   r eq u ests .   A cc o r d in g   to   t h s ta n d ar d   d escr ib ed   in   [ 5 ] ,   th s tr u ctu r al  co m p o n en t s   o f   an   HT T P   o r   H T T P S p ac k et  in cl u d r eq u est  li n e,   s tatu s   li n e,   h ea d er   f ield s ,   m es s ag e   b o d y ,   an d   s o m o th er   co m p o n en t s .   Her e,   in   o r d er   to   attac k   w eb   ap p licatio n s ,   atta ck er s   w i ll  tr y   to   ch a n g t h e   co n te n o f   t h ese   co m p o n e n t s ,   t h er eb y   cr ea ti n g     v u l n er ab ilit y   i n   t h p r o ce s s   o f   p r o ce s s i n g   r eq u e s t.  As  a   r esu lt,   t h w eb   ap p licatio n s   r e tu r n   t h o u tp u ts   a s   attac k er   d esire d .   So   f ar ,   th er ar t w o   m a in   m eth o d s   o f   d etec tin g   w eb   ap p licatio n   attac k s s i g n atu r e - b ase d   m et h o d s   b ased   o n   s et  o f   p r ed ef in ed   r u les,  an d   an o m al y - b a s ed   m et h o d s   th at  r el y   o n   d ata  an al y zi n g   a n d   s tatis tics   to   f i n d   ab n o r m al  c h ar ac ter is tics   in   t h r eq u est s .   B o th   s i g n a tu r e - b ased   an d   an o m al y - b a s ed   m eth o d s   h a v ce r tai n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   5 Octo b e r   2 0 2 0     5 3 3 5   -   5346   5336   ad v an ta g es  a n d   d is ad v an ta g es.   I n   g en er al,   s o l u tio n s   ap p l y in g   s ig n atu r e - b ased   tech n iq u e s   [ 2 3 ]   a r n o ab le  to   d etec u n u s u al  r eq u est s   s i n ce   th ese  m eth o d s   ar m ai n l y   b ased   o n   f ix ed   r u li n g   s y s te m s .   An o m al y - b a s ed   m et h o d s   ar ca p ab le   o f   d etec t in g   ab n o r m al  r eq u ests   b ec au s th e y   u t ilize  tech n iq u e s   to   an al y ze   an d   ev al u ate   th b eh av io r s   o f   th r eq u est s .   T h er h av b ee n   m a n y   s tu d ies  u s i n g   an o m al y - b ased   an al y s i s   tech n iq u e s   to   d etec u n u s u al  r eq u est s .   Hab ee b a   et  al.   [ 6 ]   lis ted   n u m b er   o f   is s u es   i n   d etec tin g   ab n o r m alities   i n   c y b er s p ac in   g e n er al  an d   in   w eb   ac ce s s   in   p ar ticu lar .   E s p ec iall y ,   t h e y   m ad s u r v e y   o n   m et h o d s   an d   tech n iq u e s   co m m o n l y   ap p lied   in   b ig   d ata   an al y s is ,   a n d   p o in t ed   o u m a n y   b en e f its   to   an o m a l y - b ased   d etec tio n   ap p r o ac h es .   Ho w ev er ,   an o r m a l y - b ased   m et h o d s   al s o   h a v s o m p r o b lem s   p r esen ted   as  f o ll o w s   a.     A ll a n o r m al y   r eq u es ts   ch ar ac ter is tics   co u ld   n o t b f o u n d   in   tr ain i n g   d ataset s   A cc o r d in g l y ,   d ataset s   f o r   u n u s u al  ac ce s s   d etec tio n   u s ed   in   n u m b er   o f   p r ev io u s   s t u d ies  w er e   co llected   th r o u g h   t h test   r es u lts   o f   a v ailab le  s ec u r it y   to o ls ,   f ir e w all s ,   etc.   As  r es u lt,  th o s d atasets   co n tai n   al m o s all  attac k   r eq u est s   [ 7 ] .   Mo r o v er ,   in   r ea lity ,   th er ar also   m a n y   ac ce s s e s ,   w h ic h   d o   n o co n tain   attac k   co n ten t s ,   h a v i n g   th s a m ch a r ac ter is tics   a n d   s tr u ct u r as  ab n o r m al  r eq u e s ts .   A cc o r d in g   to   th is   s t u d y ,   n o r m al   r eq u ests   ar o n es   t h at  p er f o r m   le g al  o p er atio n s   a n d   co n tai n s   in f o r m at io n   th at   f o llo w s   t h p r escr ib ed   s tan d ar d s .   I n   co n tr as t,  i f   r eq u e s ts   ar d i f f er en t   f r o m   t h s p ec if ied   cr iter ia,   t h e y   w ill   b co n s i d er ed   as a b n o r m al   r eq u ests .   Ge n er all y ,   ab n o r m al  r eq u ests   ca n   b ex p r ess ed   in   t w o   ca s e s :     W eb s ite  attac k   r eq u est s ,     T h r eq u ests   id en ti f y   a n d   ex p l o it  w eb s ite  v u ln er ab ilit ies.    I t   c a n   b e   s a i d   t h a t   a t t a c k i n g   r e q u e s t s   a r e   ju s t   o n e   p a r t   o f   a b n o r m a l   r e q u e s t s .   F r o m   t h e   i n c o m p l e t e   d e f i n i t i o n   o f   a b n o r m a l   a c c e s s e s ,   i t   m a y   l e a d   t o   t h e   l a c k   o f   o b je c t i v i t y   w h e n   b u i l d i n g   p r o p e r t i e s   f o r   t h e   m o d e l   f o r   a t t a c k   r e q u e s t   d e t e c t i o n   f r o m   p r e v i o u s   s t u d i e s .   S i n c e   a n o m a l o u s   a t t r i b u t e s   a r e   b u i l t   m a i n l y   o n   t h e   a t t a c k i n g   r e q u e s t   d a t a ,   t h o s e   a t t r i b u t e s   o n l y   f o c u s   o n   r e p r e s e n t i n g   t h e   c h a r a c t e r i s t i c s   o f   t h e   a t t a c k   r e q u e s t s .   b.     Featu r ex tr ac tio n   m eth o d s   co u ld   n o t p r esen t t h ch ar ac ter i s t ics o f   w eb   ap p licatio n s   P r e v i o u s   s t u d i e s   o n   a b n o r m a l   d e t e c t i o n   s y s t em s   m a i n l y   u s e d   w e b s i t e   d a t a ,   b u t   d i d   n o t   c h a r a c t e r i z e   e a c h   U n i f o r m   R e s o u r c e   I d e n t i f i e r   ( U R I ) .   T h e   U R I   i s   t h e   p a t h   t h a t   i d e n t i f i e s   a   w e b s i t e ' s   r e s o u r c e s .   T h e   r e s o u r c e s   in   ea c h   U R I   c a n   b e   i n f o r m a t i o n   i n   f o r m   o f   H T M L ,   o r   i t   c a n   b e   l o g i n   t a s k s ,   r e g i s t r a t i o n ,   i n f o r m a t i o n   s e a r c h .   I f   t h e   U R I   ch ar ac ter is t ic s   ar n o t c ar ef u ll y   ex p lo ited   f o r   attac k   r eq u e s d etec tio n ,   s o m is s u es  m a y   e m er g as  f o llo w s :   Mo d el  m a y   n o t   d ig   in to   th e   i n s i g h t f u l   ch ar ac ter i s tics   o f   ea ch   U R I   s i n ce   th e   ex tr ac ted   f e atu r es  ar e   m ad to   p r esen t h ch ar ac te r is tics   o f   all  U R I s .   Fo r   ex a m p le,   th f ea t u r p r esen t in g   t h UR I   in f o r m at io n   len g th   u s ed   in   p r ev io u s   s t u d i es  is   u s u al l y   s h o r f o r   UR I s   h av i n g   in f o r m a tio n   i n   HT M L   f o r m ,   w h ile  it  i s   u s u all y   lo n g   f o r   UR I s   in   r eq u est  f o r m   f o llo w i n g   GE T   m et h o d .   T h is   lead s   to   th f ac th at   w h e n   i n itialize  t h is   v ar iab le  w ith   t h en tire   UR I ,   its   v alu b ec o m e s   s p ar e   w it h   lar g v ar ian ce ,   a n d   m a y   n o p r ese n   th ab n o r m ali t y   w h en   u s ed   in   th m o d el.   C o n s eq u e n tl y ,   th m o d el  w i ll  ca u s co n f u s io n   in   d etec ti n g   ab n o r m al  r eq u est s   at  d i f f er e n t   UR I s .   Fi g u r 1   b elo w   s h o w s   an   ex a m p le  o f   th co n te n ts   o f   n o r m a ac ce s s   1 ( a)   an d   ab n o r m al  ac ce s s   1 ( b ) .           ( a)   ( b )     Fig u r e   1 .   Sa m p le  co n te n ts   o f   n o r m al  r eq u e s t ( a)   an d   an   ab n o r m al  r eq u est ( b )       I n   F i g u r 1 ,   it  ca n   b s ee n   t h at  in   n o r m al  r eq u est s ,   all  ac c ep ted   v alu e s   ar “tex t /h t m l,a p p licatio n /   x h t m l+ x m l,a p p licatio n / x m l;q =0 . 9 , * / * ;q =0 . 8 ,”   w h ile  i n   o p e r atio n s   t h at  ar n o t   l ik e   n o r m al  u s er s ,   m a y   b d u e   to   th s ca n n er   to o ls   o r   i n ten t io n al  c h an g o f   attac k er ,   th e   ac c ep ted   v alu is   s et  to   “* / *   ( ac ce p ted   all) .   T h is   is   an   i m p o r tan c h ar ac ter is tic   to   d ete r m in th ab n o r m al  r eq u e s ts   i n   F ig u r 1 ( b ) .   T h er ar tw o   t y p es  o f   m is s ed   c lass i f icatio n Fals Ne g ati v e   ( FN)   an d   Fals Po s itiv ( F P ) .   FN  is   w h e n   an   ab n o r m a l   r eq u est  is   m is s ed   class i f ied   as  n o r m a l.  T h is   u s u all y   h ap p en s   w h e n   th n u m b e r   o f   r eq u est  s a m p les  h av i n g   v alu A cc ep b ein g   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       A n   a d a p tive  a n o ma ly  r eq u est  d etec tio n   fr a mewo r b a s ed …  ( C h o   Do   X u a n )   5337   “* / *   i n   t h w h o le  w eb s ite  i s   co n s id er ab le  g r ea ter   t h a n   o t h e r   t y p es  o f   r eq u e s ts .   I n   t h i s   s itu atio n ,   t h ab n o r m al   ch ar ac ter is tic   o f   th e   ab n o r m a l   r eq u est   w ill   b i g n o r ed   a n d   t h at   r eq u e s is   d ec id ed   a s   n o r m al.   On   t h co n tr ar y ,   FP   p r esen ts   n o r m al  r eq u e s m is s ed   class if ied   as  ab n o r m al  o n es.  Fo r   ex a m p le,   in   ca s e   t h w eb s i te  h as  f o r m   f illi n g   f u n ct io n   a n d   w h e n   t h co n te n o f   t h f o r m   co n tai n s   th e   k e y w o r d   f o u n d   to   b ab n o r m al  b ased   on   r u le - b ased   s y s te m s   lik e   Mo d - s ec u r it y ,   it  w i ll  b b lo ck ed .   Ho w e v er ,   w h en   th at   co n te n is   ac ce p tab le   f o r   th w eb s ite,   t h ad m in is tr at o r   n ee d s   to   ed it  t h f ilter   to   ad d   an   e x ce p tio n   to   th i s   ca s a n d   n ee d s   to   e n r ic h     th r u le  li s t.  T h is   p r o ce s s   s o m eti m e s   is   co m p licated   a n d   ca n   m ak w eb   ap p licatio n   p r o tecti o n   less   e f f ec tiv e.   T h is s u es  d is c u s s ed   in   a)   an d   b)   a r o u r   p r ac tical  ex p er ien ce   w h e n   i m p le m e n ti n g   d if f er en u n u s u al   ac ce s s   d etec tio n   m o d els.  T h ef f ec tiv e n e s s   in   p r ac tice  o f   p r ev io u s   s tu d ie s   i n   d etec ti n g   u n u s u al  r eq u e s ts   is   n o t   h ig h .   I n   f ac t,  w h en   t h o s ap p r o ac h es  ar ap p lied   o n   ab n o r m al  d ata  u s i n g   Mo d Secu r it y   t o o [ 8 ] ,   th h ig h e s r ec a ll sco r is   o n l y   ab o u t 3 0 % .   I n   o r d er   to   o v er co m t h w ea k n e s s e s   t h at  h a v b ee n   p o in te d   o u t,  in   t h i s   p ap er ,   n e w   m et h o d   to   b u ild   w e b   f ir e w all  b ased   o n   D y n a m ic   W eb   A p p licatio n   P r o f ili n g   ( DW A P )   an al y s i s   i s   p r o p o s ed .   DW A P   is   m et h o d   to   s u m m ar ize  th c h ar ac ter is t ics  o f   s p ec i f ic  w eb s i te’ s   UR I s .   T h ese  p r o p e r ties   in cl u d m et h o d s   ( GE T ,   P OST ) ,   h ea d er s   an d   p ar am eter s   o f   th U R I s .   B ased   o n   th DW A P   ap p licatio n   an al y s is ,   t h f o llo w in g   co n tr ib u tio n s   ar p r esen ted   in   t h is   p a p er :     A p p l y in g   DW A P   to   ab n o r m al  d etec tio n   s y s te m s .   T h p r o b lem s   d is c u s s ed   ab o v e   ca n   b s o lv ed   if   th d etec tio n   m o d el  is   tr ain ed   u s i n g   ea ch   UR I   s in ce   t h v ar iab le  v alu e s   g en er ated   f r o m   e ac h   UR I   ar n o   lo n g er   s p ar an d   an o m alie s   ar ea s il y   r ec o g n ized   i f   t h ab n o r m al  f ea t u r d escr ib ed   in   t h e x a m p le   in   b)   is   d etec ted .   Mo r eo v er ,   b y   d ev elo p in g   s ep ar ate  m o d el  f o r   ea ch   UR I ,   it  is   p o s s ib le  to   ex tr ac n e w   f ea t u r es   p r esen tin g   t h c h ar ac ter is tic s   o f   th m et h o d ,   h ea d er   an d   p ar a m eter s   o f   ea ch   UR I .   T h is   co u ld   n o b d o n e   in   p r ev io u s   ap p r o ac h es.  T h ese  f ea t u r es  f u l f i ll  t h u lti m a te  p u r p o s o f   DW A P   ap p licatio n   th a t   is   to   o p tim ize  th ab n o r m al  r eq u est   d etec tio n   o n   ea ch   U R I .     A p ar f r o m   ap p l y i n g   DW A P   to   d etec ab n o r m al  r eq u e s ts ,   r ea l - ti m o p ti m izatio n   f o r   m o d el  u p d ate   m et h o d   is   a ls o   p r ese n ted .   T h is   is s u p la y s   v er y   i m p o r ta n r o le  in   th e   w eb   attac k   d etec tio n   m o d el  as   w ell   as  an o m alo u s   ac ce s s   d etec tio n   b ased   o n   a n o m al y - b a s ed   al g o r ith m s .   Ho w e v er ,   p r ev io u s   w o r k s   d id   n o p a y   m u c h   atte n tio n   to   th is   p r o b le m .   A ll  c u r r en s ec u r it y   ap p licatio n s   n ee d   to   b co n s ta n tl y   u p d ated   to   a cc o m m o d ate  n e w   attac k s .   T h at  is   th e   m ai n   r ea s o n   w h y   Mo d   Secu r it y   i s   s till   p o p u lar   s e cu r it y   d etec tio n   to o l to d ay   b ec au s it s   r u le  s y s t e m   i s   k ep u p   to   d ate  an d   m ai n tain ed   b y   co m m u n it y   co n tr ib u tio n s .   I t c a n   b s ee n   t h at  a n o m al y - b ased   m o d els n ee d   to   b tr ai n ed   b ased   o n   t h d ata  f r o m   t h s p ec i f ic  co n ce r n ed   w eb s ite .   I n   f ac t,  th n u m b er   o f   u n u s u a r eq u ests   is   m u ch   s m al ler   th a n   n o r m al  r eq u est s ,   w h ic h   g e n er ates  b u r d en   j o b   f o r   ad m i n is tr ato r s   i n   co m p o s in g   tr ai n in g   d ata.   I n   o r d er   to   tack le  th is   p r o b le m ,   r eq u est  g r o u p i n g   m et h o d   is   p r o p o s ed   to   s u p p o r t   th d ata  class if icat io n   p r o ce s s .   T h is   m et h o d   ca n   h elp   r ed u ce   ad m in i s tr ato r s   d ata  co m p o s i n g   ti m b y   5 0 - 7 0 %,  th u s   m a k in g   o u r   p r o p o s ed   an o m al y - b ased   d etec tio n   m o d el  ea s y   to   d ep lo y   in   p r ac ti ce .   E x p er i m e n tal  r e s u lt s   o n   t h s a m d ata  s et  s h o w   t h at  t h er i s   s i g n i f ican i m p r o v e m en t   i n   d etec tio n   p er f o r m a n ce   o f   o u r   m e th o d .   T h r ec all  in d ex   o f   th n e w   a p p r o ac h   ca n   r ea ch   9 0 %.   T h f o llo w in g   co n te n o f   th p ap er   is   o r g an ized   as  f o llo w s .   Sectio n   2   p r esen t s   all   r elate d   w o r k s   o n   ab n o r m al   r eq u est  d etec tio n   tech n iq u es.   T h n e w l y   p r o p o s ed   m et h o d   is   p r ese n ted   i n   s ec tio n   3 .   Sectio n   4   in tr o d u ce s   s o m m ai n   ap p licatio n s   o f   t h n e w   f r a m e w o r k .   E x p er i m e n tal  r es u lt s   an d   all  d is c u s s io n s   ar i n c lu d ed   in   s ec tio n   5 .   Sectio n   6   co n clu d e s   w h at  h a v b ee n   d o n an d   d is cu s s es so m s u g g e s tio n s   f o r   th f u tu r w o r k s .       2.   RE L AT E WO RK   2 . 1 .     Web  a t t a ck   det ec t io n r esea rc h   T h er ar t w o   m ai n   t y p es   o f   w eb   at tack   d etec tio n   s y s te m s .   T h class if ica tio n   is   m a in l y   b ased   o n     th d etec tio n   m ec h a n i s m   o f   th m eth o d s .     Sig n at u r e - b ased   m et h o d s   [ 3 ,   4 ] th i s   i s   w ell - k n o w n   a p p r o ac h   an d   h a s   b ee n   in v e s t ig ated   b y   m a n y   r esear ch er s .   So   f ar ,   th r esear ch   co m m u n it y   o f   w eb   attac k   d etec tio n   h a s   b u il u p   co m p lete  C o r R u l e     Set [ 9 ]   to   s u p p o r t n et w o r k   u s e r s .   C u r r en t l y ,   t h C o r R u l S et  is   u s ed   in   m o s t o f   t h w eb   f i r e w all s   [ 3 ].     An o m al y - b ased   m eth o d s t h er h av b ee n   m an y   d i f f er e n a n o m a l y   b ased   ap p r o ac h es  o n   n e t w o r k   s ec u r it y .   On o f   t h o s ap p r o ac h es   is   b ased   o n   t h m a n u al  f ea t u r e x t r ac tio n   tec h n iq u es.  Sh a n d   et  al.   [ 10 ]   p r esen t     a   lis t   o f   f ea t u r es   f o r   q u er ie s   t h at  i n cl u d U R I s   p r o p er ties ,   s u c h   a s   le n g th ,   q u an tit y ,   t y p e   an d   d an g er o u s   lev els   o f   ea c h   f ea t u r e.   A f ter   t h at,   t h e y   ap p lied   Naïv B a y es ,   Dec is io n   tr ee   an d   SVM  al g o r ith m   o n   th o s e   f ea t u r es  to   d etec ab n o r m al  r eq u ests .   A o th er   ap p r o ac h   is   b ased   o n   th n at u r al  lan g u ag p r o ce s s in g .     Z h an g   an d   et  al.   [ 11 ]   in tr o d u ce d   m eth o d   th a u s es  C N to   class i f y   t h attac k s .   W o r d 2 v ec   m o d el  is   u s ed   to   tr a n s f o r m   th e   r a w   r eq u est   in to   m atr i x ,   an d   th e n   a   C NN  i s   ad o p ted   to   ex tr ac t   r eq u est s   f ea tu r e s .   T h r esear ch   [ 12 ]   in tr o d u ce s   an o th er   ap p r o ac h   u s i n g   Gate d   r ec u r r en u n it  ( G R U)   to   a n al y ze   t h co n ten t s   o f   th e   r eq u est s .   E v er y   ch ar ac t er   in   t h r eq u est   is   co n v er ted   i n to   o n e - h o t v ec to r   w it h   1 2 9   d i m en s io n s ,   an d   ev er y   ce ll  i n   GR U   is   u s ed   to   a n al y ze   t h is   r eq u est s   co n te n t.  Yan g   [ 13 ]   also   atte m p ts   s i m ilar   m et h o d   t h a t   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   5 Octo b e r   2 0 2 0     5 3 3 5   -   5346   5338   u s e s   GR to   clas s i f y   r eq u e s ts .   I n   th is   r esear c h ,   h u s e s   an   e n co d in g   m et h o d   w h ic h   r ec o n s tr u cts     ch ar ac ter   in to   2 - d i m e n s io n al  m atr i x .   T h au t h o r s   o f   t h r esear ch   [ 14 ]   u s N - g r a m   a n d   Gen er ic  Feat u r e   Selectio n   al g o r ith m s   to   ex tr a ct  f ea t u r es  f r o m   D AR P A   an d   E C M L /P KDD2 0 0 7   d atasets   [ 4 ] .   I n   o r d e r   to   d etec ab n o r m al   r eq u est s ,   t h e y   ap p lied   s o m cl u s ter in g   al g o r ith m s   li k e   C 4 . 5 ,   C AR T ,   R a n d o m   f o r est   o r   r an d o m   tr ee .   Asi d f r o m   ap p ly in g   a n o m al y - b ased   to   d etec ab n o r m al  r eq u est s   i n   g e n er al ,   th er ar also   s o m o th er   r esear ch es  f o cu s in g   o n   d etec ti n g   s o m co m m o n   attac k s   o n   w eb   ap p licatio n   [ 15 16 ].     I n   p ar ticu lar ,   Na g ar j u n   a n d   Ah a m ad   [ 1 7 ]   p r esen ted   a n   attac k   d etec tio n   m e th o d   b ased   o n   i m ag e   p r o ce s s in g   tech n iq u to   d etec s p ec ial  ch a r ac ter s   th at  r ep r esen X SS   atta ck s .   Yo n g   Ya n g   [ 1 8 ]   in tr o d u c ed   a n   ap p r o ac h   to   d etec an o m a lies   b y   a n al y z in g   t h s eq u en ce   o f   w eb   ac ce s s   b eh a v io r s .   I n   ad d itio n ,   J ag d is h   et   al.   [ 1 9 ]   d esig n ed   an   an o m a l y   d etec ti o n   s y s te m   i n   E - co m m er ec   s y s te m s   b ased   o n   f ea tu r e s   s h o w i n g   b u s i n es s   ch ar ac ter is tic s   s u c h   as   p r ice,   g o o d s ,   etc.   T h es f ea t u r es a r e   al s o   ad o p ted   in   th i s   p ap er ,   b u t a m o r g e n er al   lev el  an d   t h ex tr ac tio n   p r o ce s s   o f   th e s f ea t u r es i s   i m p le m e n ted   au to m atica ll y .     2 . 2   Da t a   up da t ing   a nd   m o nito ri ng   re s ea rc h   T o   o v er co m d ata  i m b ala n ce   p r o b lem   in   t h tr ai n i n g   p r o ce s s   a s   w el a s   i n   t h ab n o r m al  r eq u est   d etec tio n   p r o ce s s ,   th er h a v e   b ee n   s o m r esear ch e s   an d   p r o p o s als.  Hu   Y   [ 20 ]   p r o p o s es  h u m a n - m ac h i n s y s te m   to   i m p r o v d etec tio n   m o d el s .   On   t h i s   s y s te m ,   t h r o le  o f   th ex p er is   to   r e - c la s s i f y   th d ata  a f ter   r u n n i n g   t h u n lab eled   clas s if i ca tio n .   T h au th o r   u s es  K - m ea n   to   class i f y   th d atase in to   t w o   g r o u p s   a n d   s elec tes  c er tain   p er ce n tag f r o m   t h o s 2   g r o u p s   to   r ec lass if y .   I n   t h r esear ch   [ 21 ] ,   Do n g   an d   et  al.   p r esen te    s o lu tio n   to   r ec las s i f y   r eq u e s t s   w h ic h   ar n o t in   t h b o u n d ar y   tr ain ed   b y   t h SVM  al g o r ith m .       3.   F E AT U RE   E XT RAC T I O USI N G   DW AP     3 . 1 .     Dy na m ic  w eb  a pp lica t io n pr o f ilin g   DW A P   r ep r esen ts   t h UR I   t h at  m ap s   w eb   ap p licatio n   in t o   tr ee .   DW A P   co n tain s   i n f o r m atio n   o f   all  UR I s   in   a   w eb   p ag e,   i n clu d in g   s tatic   UR I   a n d   d y n a m ic  U R I .   Static  U R I   is   f ile  p ath   o f   s tatic  f ile s   s u ch   as   m ed ia  f ile  [ * . j p g ,   * . p n g ,   * . g if ]   o r   f iles   b ein g   u s ed   to   d is p l a y   w eb   p ag [ * . cs s ,   * . j s ,   * . h t m l] .   D y n a m ic  UR I   tr an s f er s   p ar a m eter s   to   t h web   ap p licatio n   th at  it  p r o ce s s e s .   Fig u r 2   illu s tr ates  a n   ex a m p le  o f   DW A P   o f     w eb   ap p licatio n .   T h er ar 2   ex a m p les  o f   d y n a m ic  U R I ,   w h ich   ar h t tp s :// w eb . co m / l o g in . j s p ”  s h o w i n g     th p u r p o s o f   lo g i n ,   a n d   “h ttp s :// w eb . co m /p r o d u ct/ v ie w . j s p ”  s h o w i n g   t h p u r p o s o f   v ie w i n g   p r o d u cts.   T h ese  UR I s   h a v d i f f er en q u er ies.  Fo r   e x a m p le,   th e   lo g i n . j s p   w i ll  n ee d   th e   v a lu e   o f   u s er s   id   a n d   u s er s   p ass w o r d ,   w h ile  t h v ie w . j s p   w ill  n ee d   in f o r m a tio n   ab o u t   th d is p la y ed   p r o d u ct  id s .   T h p r o p er ty   o f   t h i s   in f o r m atio n   is   d i f f er en in   ter m s   o f   v al u e,   d ata  t y p e,   etc.   I t   is   n ec ess ar y   to   b u ild   in d i v id u al  m o d el s   f o r   ea ch   U R I   t o   b e   a b l e   t o   r e c o g n i z e   t h e   s m a l l e s t   a b n o r m a l   c h a n g e s   t o   a v o i d   c o n f u s i o n   w h e n   a n a l y z i n g   m u l t i p l e   U R I s   i n f o r m a t i o n   a t   t h e   s a m e   t im e .   I n   t h i s   r e s e a r c h ,   w e   a r e   f o c u s i n g   o n   a n a l y z i n g   a n d   e v a l u a t i n g   t h e   b e h a v i o r   o f     th d y n a m ic  UR I .           Fig u r 2 .   D y n a m ic  w eb   ap p licatio n   p r o f ilin g   s a m p le   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       A n   a d a p tive  a n o ma ly  r eq u est  d etec tio n   fr a mewo r b a s ed …  ( C h o   Do   X u a n )   5339     3 . 2 .      F ea t ure  ex t ra ct io n in D WAP   a na ly s is   T h r eq u est’ s   f ea t u r es  in   D W A P   an al y s is   m et h o d   ar b u ilt  to   d etec th ab n o r m a r eq u ests   a t     th co m p o n e n le v el.   B y   a n al y zin g   o n   ea ch   UR I ,   ev er y   r eq u est s   co m p o n e n li k h ea d er   o r   s et  o f   p ar a m eter s   is   d ee p ly   a n al y ze d .   I n   o r d er   to   d o   th at,   th f ea tu r s et  is   d iv i d ed   in to   2   g r o u p s .   T h f ir s g r o u p   is   u s ed   to   lo o k   f o r   ab n o r m a ch ar ac ter is tic s   ap p ea r ed   in   th attac k s .   T h s ec o n d   g r o u p   is   ex p lo ited   to   an al y ze   ab n o r m al   co n ten t i n   ea ch   co m p o n en t o f   th r eq u est.     3 . 2 . 1 .   M a licio us   k ey w o r ds   f ea t ure   a.   At t a ck   k ey w o rds   Ke y w o r d   is   th m ai n   id en ti f i ca tio n   ch ar ac ter is tic  o f   s o m t y p es  o f   attac k s .   Fo r   ex a m p l e,   in   SQL  I n j ec tio n   attac k ,   t h attac k er s   tr y   to   f in d   w a y   to   i n s er th eir   SQ L   q u er ies  i n to   t h d ata  s en t   to   s er v er .     T h ap p ea r an ce   o f   th o s k e y w o r d s   in   t h r eq u est  i s   s ig n   to   d eter m i n w h e th er   r eq u es is   an   attac k   o r   n o t.  T h k e y w o r d s   lis t ed   in   T ab le  1   ar s u m m ed   u p   f r o m   O S W A P s   d o cu m e n ab o u w eb   attac k s   [ 9 ] .   I n   th o s e   attac k s ,   th e   k e y w o r d   is   t h m o s i m p o r ta n co m p o n en t   to   i n s er illeg a q u er ie s .   T h ese  k e y w o r d s   ar p u t   i n to   OSW A P s   r u le s   to   d etec th attac k s .   Ho w e v er ,   th ev al u ati o n   b ased   o n l y   o n   th ap p ea r an ce   o f   th k e y w o r d   m a y   lead   to   t h in co r r ec w ar n in g   b ec au s e   s o m w eb s i tes  a llo w   th e   ex is te n ce   o f   t h o s k e y w o r d s .   T h er ef o r e,   w h e n   b u ild in g   th U R I s   f ea t u r es,  th ap p ea r an ce   o f   th ese  k e y w o r d s   as  f ea t u r s h o u ld   b c o m b i n ed   w it h   o th er   f ac to r s   in   o r d er   to   s u cc ess f u l l y   co n cl u d w h e th er   t h e   r eq u est  i s   a n   attac k   o r   n o t.  T ab le  1   s u m m ar izes   s o m Ma licio u s   k e y w o r d s .       T ab le  1 Ma licio u s   k e y w o r d s   G r o u p   L i st   o f   k e y w o r d   S Q L   i n j e c t i o n   C r e a t e ,   d r o p ,   a l t e r ,   t r u n c a t e ,   se l e c t ,   i n se r t ,   u p d a t e ,   d e l e t e ,   o r ,   a n d ,   u n i o n ,   j o i n ,   w h e r e ,   i f ,   c o n v e r t ,   c a st ,   h e x t o r a w   O S   C o mm a n d   I n j e c t i o n   C a t ,   l s,  mv ,   c p ,   r m ,   p e r l ,   p y t h o n ,   r u b y ,   l u a   X M L   I n j e c t i o n   l t ,   g t ,   n o d e ,   x ml ,   e n c o d i n g ,   c d a t a ,   d o c t y p e ,   e l e m e n t   C r o ss - si t e   S c r i p t i n g   O n l o a d ,   o n mo u se h o v e r ,   o n e r r o r ,   scri p t ,   i f r a me ,   v a r ,   a l e r t       b.     Ano m a ly   no n - let t er   No n - le tter   f ea t u r es  ar o n p a r o f   t h e   attac k   s ig n s   w h en   t h e y   ac co m p a n y   w i th   t h k e y w o r d s   s h o w n   in   T ab le  1 .   I n   o r d er   to   i n s er m a licio u s   k e y w o r d s ,   a ttack er s   m u s f i n d   t h w a y   to   p ass   t h e   ap p licatio n 's   co m p iler .   Fo r   ex a m p le,   th e y   m a y   i n s er co m m e n t s   o r   ch ar a cter s   to   d ec eiv t h i n p u s tr u ctu r e.   I n   t h i s   p ap er ,   th f r eq u e n c y   o f   t h o s ch ar a cter s   in   t h q u er i es  is   u s ed   t o   v er if y   t h i n p u i n f o r m atio n .   T h ese  ch ar ac ter   g r o u p s   ar lis ted   in   T ab le  2 .       T ab le  2 .   No n   letter   k e y w o r d   G r o u p   L i st   o f   n o n - l e t t e r   c h a r a c t e r s   T h e   c h a r a c t e r u se d   t o   st a r t   a   c o mm e n t   o r   t o   mark   a   b l o c k   c o mm e n t   --   [ st a r t   c o mm e n t ]   / *   [ s t a r t   c o mm e n t ]   * /   [ e n d   c o mm e n t ]   *   [ A st e r i sk ]     #   [ h a sh ]     | |   [ d o u b l e   v e r t i c a l   b a r ]     & &   [ d o u b l e   A mp e r san d ]     ;   [ S e mi c o l o n ]     `   [ G r a v e   A c c e n t ]   C h a r a c t e r s u se d   i n   c o mm a n d s   &   [ A mp e r san d ]   & &   [ d o u b l e   A mp e r s a n d ]   |   [ v e r t i c a l   b a r ]   | |   [ d o u b l e   v e r t i c a l   b a r ]   `   [ G r a v e   A c c e n t ]   ;   [ S e mi c o l o n ]   $   [ D o l l a r   S i g n ]   C h a r a c t e r s t o   i n se r t   st a t e me n t s   >   [ G r e a t e r - T h a n   S i g n ]   <   [ G r e a t e r - T h a n   S i g n ]   > >   [ d o u b l e   G r e a t e r - T h a n   S i g n ]     #   [ h a s h ]   !   [ Ex c l a m a t i o n   M a r k ]   -   [ H y p h e n - M i n u s ] ?   [ H y p h e n - M i n u s ]     =   [ Eq u a l S i g n ]     [   [ L e f t   S q u a r e   B r a c k e t ]   ]   [ R i g h t   S q u a r e   B r a c k e t ]   ~   [ T i l d e ]     .   [ d o t ]   ,   [ C o mm a ]   [ P e r c e n t   S i g n ]   :   [ C o l o n ]   +   [ P l u s i g n ]   (   [ L e f t   B r a c k e t ]   )   [ R i g t h   B r a c k e t ]   [ L e f t   C u r l y   B r a c k e t ]   [ R i g h t   C u r l y   B r a c k e t ]     / >   [ b a c k sl a sh   g r e a t e r ]     . . /   [ d o t   d o t   sl a s h ]   . . \   [ d o t   d o t   b a c k sl a s h ]   C h a r a c t e r s c a n n o t   b e   d i s p l a y e d   C h a r a c t e r s w i t h   U n i c o d e   c o d e   sm a l l e r   t h a n   3 2       3 . 2 . 2 Ano m a ly   re qu est  co nt ent   f ea t ure   I n   p r ev io u s   r esear c h es  o n   ab n o r m al   ac ce s s   d etec tio n ,   t h co n ten v alu e s   o f   ea ch   r eq u est   c o m p o n en t   ar n o t th o r o u g h l y   an al y ze d .   T h m ai n   r ea s o n   is   ab o u t t h d if f er en ce   b et w ee n   th f u n ct io n s   o f   d if f er en t U R I s .   E ac h   U R I   u s es   d if f er en t   co n f ig u r at io n   f o r   its   h e ad er   a s   well  as  its   q u er y   v al u es.   T h is   ca u s e s   d if f ic u lt y   i n   p r o p o s in g   a n   e f f ec tiv m et h o d   b ased   o n   an al y z in g   m u ltip le  UR I s   to   d etec an o m alies  s u ch   as  ex p lo iti n g   lo g ic   er r o r s   o r   d etec tin g   r eq u ests   f r o m   s ca n n i n g   to o ls .   I n   th is   p ap er ,   s et  o f   n e w   f ea t u r es  e x tr ac ted   th r o u g h     th co n te n an a l y zi n g   p r o ce s s   f o r   ea ch   co m p o n e n o f   r eq u est  is   u til ized   f o r   an o m al y   d etec tio n   p r o ce s s .   Usi n g   t h is   f ea t u r ex tr ac tio n   h elp s   r ev ie w   a n d   ev al u ate  t h e   v alu e s   o f   t h r eq u est  co m p o n en t s   i n   d etails  an d   clea r l y .   Fo r   i n s ta n ce ,   i n   r ea l   s ce n ar io s ,   ab n o r m a r eq u es ts   c an   b id e n ti f ied   i f   t h er i s   s t r an g UR I   ( s u c h   a s   w eb s h ell) ,   o r   s tr an g f ield   in   th h ea d er   ( s u ch   as  X - Fo r w ar d ed - Fo r   u s ed   to   b y p ass   f i r e w all) ,   o r   n e w   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   5 Octo b e r   2 0 2 0     5 3 3 5   -   5346   5340   p ar am eter   t h at  s eld o m   o r   n e v er   ap p ea r s   in   r eq u ests   b y   n o r m al  u s e r s .   T h p r o p o s ed   f ea tu r es  ca n   b u s ed   to   b u ild   t h p r o f ile  tr ee .   Fu r t h er ,   th i s   tr ee   is   u s ed   to   d etec ab n o r m al   r eq u est s   b y   co m p ar i n g   th eir   co n ten t s   w i th   th d ata   in   t h tr ee .   I f   t h er i s   an y   m is m atc h i n g   b et w ee n   t h e   r eq u est s   a n d   t h p r o f ile   tr ee ,   th o s r eq u e s ts   m a y   b co n s id er ed   as  ab n o r m al.   T h is   i s   t h i m p r o v e m e n o f   t h DW A P   an al y s is   b ased   m et h o d   co m p ar ed   w it h   p r ev io u s   m eth o d s .   a.     An o m al y   h ea d er   v alu e   Hea d er s   ar im p o r tan an d   ar f r eq u en tl y   ch a n g ed   tar g ets.  I n   th i s   p ap er ,   f o u r   m ai n   h ea d er   f ield s   ar in v e s ti g ated ,   w h ich   ar C o n ten t - T y p e,   A cc ep t,  A cc ep t - C h ar s et,   A cc ep t - E n co d in g .   T h v al u es  o f   t h o s e   h ea d er s   ar ex tr ac ted   an d   n o r m alize d   to   f o r m   v ec to r .   I n   o r d er   to   f ac ilit ate  th f ea t u r class i f icatio n   p r o ce s s ,   th f ea tu r es a r d iv id ed   in to   g r o u p s   as b elo w     Gr o u p   1 in cl u d in g   t h v al u es  o f   C o n te n t - T y p [ 5 ]   an d   A cc ep [ 5 ] .   I ts   s tr u ctu r co n tai n s   t y p an d   s u b - t y p e.   T h v alu o f   th is   t y p an d   s u b t y p ar co m p ar ed   w it h   th at  o f   t y p a n d   s u b t y p lis in   n o r m a l   r eq u ests .   Me t h o d s   an d   p r o ce d u r es o f   t h is   i n v esti g atio n   ar d escr ib ed   in   A l g o r it h m   1 :     Algorithm   1 . Check value group 1   Input: Content - type, Accept   Output: Vector represent existing value of header   1: fu nction: CHECK_VALUE_GROUP_1 (header):   2:  types/subtypes < -   header   3:  normal_types < -   list type of header in normal requests   4:  normal_subtypes < -   list subtype of header in normal requests   5:  type_feature < -   a size of normal_types - array of 0   6:  subtype _feature < -   a size of normal_subtypes - array of 0   7:  for i < -   0 to size of types:   8:    if types_i exist in normal_types   9:      type_feature [position of types_i in normal_types] = 1   10: for i < -   0 to size of subtypes:   11:   if subtypes_i exist in normal_ subtypes   12:     subtype_feature [position of subtypes_i in normal_subtypes]=1   13: return type_feature+subtype_feature       Gr o u p   2 in clu d in g   th v al u es   o f   A cc ep t - C h ar s et  [ 5 ]   an d   A cc ep t - E n co d in g   [ 5 ] .   T h f ea tu r es  o f   Gr o u p   2   ar ex tr ac ted   b y   co m p ar i n g   t h ese  v al u es  w it h   t h o s i n   t h e   n o r m al  r eq u e s ts .   Me t h o d s   an d   p r o ce d u r es  to   ex tr ac t f ea t u r v al u e s   ar d escr ib ed   in   th A lg o r it h m   2 :     Algorithm   2 . Check value group 2   Input: Accept - Encoding, Accept - Charset,    Output: Vector represent existing value of header   1:  function: CHECK_VALUE_GROUP_2 (header):   2:  values < -   header   3:  normal_values < -   list normal value of header in normal requests   4:  values_feature < -   a size of normal_values - array of 0   5:  for i < -   0 to size of normal_values:   6:    if value_i exist in nor mal_values:   7:      values_feature [position of value_i in normal_values] = 1   8: return values_feature     b.     An o m al y   p ar a m eter     Algorithm   3 . Get Structured data feature   Input: request   Output: key - value feature   1: function GET_   STRUCTED_DATA_NAME( structed_data)   2:  normal_key < -   list normal key in normal requests   3:  request_name < -   list name in request   4:  num_abnormal_key < -   0   5:  name_value_feature < -   []   6:  for name in request_key   7:    if key not in normal_key   8:      num_abnormal_key +=1   9:      else   10         ke y_ va lu e_ fe at ur < -   key_value_feature  [raito  of  alphabet  character  in  value,  raito of digit in value, raito of other character in value]   11:   key_value_feature < -   key_value_feature + [num_abnormal_key]   12: return num_abnormal_key       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       A n   a d a p tive  a n o ma ly  r eq u est  d etec tio n   fr a mewo r b a s ed …  ( C h o   Do   X u a n )   5341   User   r eq u est s   u s u al l y   co n tai n   i m p o r ta n i n f o r m atio n   f o r   w eb - s er v er   to   p r o ce s s .   T h co n ten o f     th r eq u est  m a y   b p r esen ted   i n   f o r m   o f   s tr u ct u r ed   d ata  s u ch   as  t h q u er y   in   GE T   m et h o d   o r   th p ay lo ad   in   P OST / P U T   m et h o d ,   o r   u n s tr u ctu r ed   d ata  lik d o cu m e n ts ,   f i les,  etc.   Fo r   s tr u ctu r ed   d ata,   th v al u es  o f   le n g th ,   r atio   o f   letter s   an d   n u m b er s   in   ea ch   i n p u s tr i n g   ar e x t r ac ted .   A d d itio n all y ,   th e x is ten ce   o f   ab n o r m al   p ar am eter s   is   also   ch ec k ed .   Me th o d s   an d   p r o ce d u r es  to   t o   ex a m i n an o m a l y   p ar a m ete r s   ar d escr ib e d   in     th A l g o r ith m   3   ab o v e.       4.   AP P L I CA T I O O F   DW AP   ANALY SI S O W E B   AP P L I CAT I O S E CUR I T Y   4 . 1 .     DWAP   a na ly s is   f o a no m a ly   re qu est  det ec t io n   B ased   o n   th f ea tu r es  o b tai n ed   f r o m   t h DW A P   an al y s is   tec h n iq u ap p lied   o n   th r eq u est   co m p o n e n p r esen ted   in   Sect io n   3 . 2 ,   f u r th er   p r o ce s s in g   s t ep s   ar n ee d ed   t o   d is cr im i n a te  n o r m al  ac ce s s e s   f r o m   ab n o r m al  o n es.  I n   t h i s   p ap er ,   R an d o m   Fo r est  cla s s if ier s   [ 22 ]   ar ad o p ted   to   d is ti n g u is h   b et w ee n   ab n o r m al  a n d   n o r m al   r eq u est s .   R a n d o m   Fo r est  is   a n   e n s e m b le  clas s i f icatio n   m e th o d   [ 23 ] .   T h is   al g o r ith m   i s   b ased   o n   an   en s e m b le  o f   cl ass i f ier s ,   w h ich   n o r m all y   ar Dec is io n   T r ee s   to   m a k th f i n al  p r ed ictio n .     T h th eo r etica f o u n d atio n   o f   th i s   alg o r it h m   is   b ased   o n   J en s en ' s   i n eq u al it y   [ 24 ] .   A c co r d in g   to   J en s en 's  in eq u ali t y   ap p lied   to   th e   c las s if ica tio n   p r o b le m s ,   it  i s   s h o w n   t h at  th e   co m b in a tio n   o f   m an y   m o d els  m a y   p r o d u ce   less   er r o r   r ate  th an   th at  o f   ea ch   i n d iv id u al  m o d el.     4 .2   DWAP   a na ly s is   f o co ns t ruc t ing   t ra ini ng   da t a s et s   T h m ain   c h ar ac ter is t ic  o f   t h e   ab n o r m al  r eq u es d etec tio n   m et h o d   u s i n g   DW A P   an al y s i s   m et h o d   is   th at  it  d o es  n o u s ex i s ti n g   d atasets   f o r   tr ain in g   d ata,   b u it   u tili ze s   t h d ata  o f   th d ep lo y ed   w eb s ite.   I n   f ac t,  th n u m b er   o f   a n o m al y   r eq u est s   is   m u ch   s m aller   t h an   th at  o f   n o r m a l   r eq u est s   in   t h w h o le  d ata s et.   As  r es u lt,  it  i s   n ec e s s ar y   to   h av s u itab le  s a m p li n g   m et h o d s   an d   tec h n iq u es  to   cr ea te  g o o d   tr ain in g   d ata s et   th at  h e lp s   th ea b n o r m al  r eq u e s d etec tio n   p r o ce s s   b ec o m m o r e f f ec tiv e.   Fro m   th is   p o in t,  n e w   s a m p li n g   m et h o d   b ased - o n   DW A P   an al y s i s   tech n iq u an d   u n s u p er v is ed   lear n in g   al g o r ith m   is   p r o p o s ed .   T h is   m eth o d   f ir s tl y   d iv id es  t h d ata  in to   d i f f er en clu s ter s .   T h en ,   it  s elec ts   r eq u ests   f r o m   t h n e w l y   d i v id ed   d ata  clu s ter s .     T h co m b i n atio n   o f   t h DW AP   an al y s is   tec h n iq u a n d   t h u n s u p er v is ed   lear n i n g   alg o r it h m s   n o o n l y   e n s u r es   th r an d o m n e s s   o f   s a m p li n g ,   b u also   i n cr ea s es  th r ate  o f   ab n o r m al  r eq u est s   t h at  ap p ea r   in   t h s a m p le  d ata.   C o n s eq u en tl y ,   t h i s   h e lp s   g e n e r ate  m o r b alan ce d   tr ain in g   d ataset,   an d   r ed u ce   ti m a n d   ef f o r to   s ea r ch   f o r   ab n o r m al  r eq u est s .   T h p r o p o s ed   m et h o d   ca n   b s u m m ar ize d   as f o llo w s :   Step   1 Data   clu s ter in g t h i s   s tep   ai m s   at  a g g r e g ati n g   r e q u ests   th at  h a v s i m ilar   c h ar ac ter is tics .   Data   C lu s ter i n g   is   k n o w n   as  m e th o d   to   g ath er   co r r elate d   o b s er v atio n s   in   to   s ep ar ate  g r o u p s .   T h is   m et h o d   h as   b ee n   ad o p ted   b y   R i y az   [ 2 5 ]   f o r   d ep lo y m e n o n   lar g e   d atab ases   a n d   h a s   s h o w n   t h at   p r ac tical  ap p licatio n s   of   th ese  clu s ter i n g   al g o r ith m s   ar p r o m is s i n g .   Si n ce   th f ea tu r es  ar ex tr ac ted   s u ch   t h at  t h e y   ca n   d is t in g u is h   b et w ee n   n o r m al  a n d   ab n o r m al   r eq u ests ,   t h e   cl u s ter in g   p r o ce s s   o f   t h ese  f ea t u r es  n o t o n l y   s e p ar ates n o r m al  a n d   ab n o r m al  r eq u est s ,   b u also   c lass i f ies  t h attac k   r eq u est s   i n   d if f er en f o r m s .   T h r em ai n in g   i s s u is   to   f in d     th o p ti m u m   n u m b er   o f   cl u s te r s   f o r   th e   d ata.   I n   t h is   p ap er ,   K - m ea n   al g o r ith m   is   ad o p ted   f o r   clu s ter i n g   tas k .   T h is   clu s ter in g   m eth o d   is   b as ed   o n   th m in i m izatio n   o f   th d is tan ce s   f r o m   a ll  d ata  p o in ts   w it h i n   ea c h   clu s te r   to   th c lu s ter   ce n tr o id   [ 26 ] .   I n   o r d er   to   f in d   th e   n u m b er   o f   t h cl u s ter s   f o r   th e   K - m ea n   al g o r ith m ,   t h E lb o w   m et h o d   is   u s ed .   T h is   m et h o d   is   b ased   o n   t h g r ap h   p r esen t in g   t h co r r elatio n   b et w ee n   th e   t o tal  d is tan ce s   f r o m   all  d ata  p o in ts   in   ea c h   clu s ter   to   th eir   clu s ter   ce n tr o id   an d   th n u m b er   o f   clu s ter s .   T h E lb o w   cr iter io n   is   m et   w h e n   t h n u m b er   o f   cl u s ter s   is   c h o s e n   s u c h   t h at  t h r atio   b et w ee n   t h to tal   d is ta n ce   w it h   N   g r o u p s   a n d   th a t   o f   N +1   g r o u p s   i s   s m alle s t.  T h E lb o w   m et h o d   is   s u m m ar ize d   as f o llo w s :     L et  Δ S S E i   is   th to tal  s u m   o f   s q u ar ed   er r o r   d is tan ce s   o f   i   cl u s ter s       L et  r i   i s   th r atio   b et w ee n   Δ S S E i   an d   Δ S S E i+ 1       =  + 1    ( 1 )       T h o p tim al  n u m b er   o f   clu s ter   N   co r r esp o n d s   to   th s m a lles r i :     =   { }     ( 2 )     Step   2 :   Sa m p lin g   d ata  f r o m   c l u s ter s : th p r o ce s s   to   tak M   s a m p les  f r o m   N   g r o u p s :     I f   th n u m b er   o f   s a m p le s   i n   o n p ar ticu lar   cl u s ter   i s   s m alle r   th an     ,   th e n   all  s a m p les  in   t h at  cl u s ter   ar e   s elec ted .   T h r ea s o n   f o r   t h is   i s   t h at  t h n u m b er   o f   ab n o r m a r eq u est s   i s   v er y   s m all  co m p ar ed   to   n o r m al   o n es,  an d   d u to   a n o m al y   c h ar ac ter is tics ,   t h e y   ar u s u all y   n o in   t h s a m ca te g o r y   a s   n o r m al  r eq u e s ts .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   5 Octo b e r   2 0 2 0     5 3 3 5   -   5346   5342   As  r es u lt,  ab n o r m a r eq u est s   ten d   to   b s ep ar ated   in   s m al clu s ter s .   So   a f ter   th i s   p r o ce s s ,   th r e m ai n in g   n u m b er   o f   s a m p les  n ee d   to   b tak en   i s   M 1   a n d   th r e m a in i n g   n u m b er   o f   clu s ter s   i s   N 1 .     R ep ea ( i)   w ith   th n u m b er   o f   s a m p les  n ee d   to   b tak e n   as   M 1   an d   cl u s ter   n u m b er   i s   N 1 .   T h s a m p lin g   p r o ce s s   w ill   en d   a f ter   i   i ter ati o n s   w h e n   t h e   n u m b er s   o f   s a m p les  i n   all   r e m a in i n g   cl u s ter s   ar g r ea ter   t h a n   th r atio   .     Fro m   ea ch   o f   r e m ai n in g   cl u s te r s ,     s a m p les ar r an d o m l y   s ele cted .   T h w h o le  p r o ce s s   is   p r ese n te d   in   Alg o r it h m   4 :     Algorithm   4 . Sampling data   Input: clustered_data   Output: sampled data   1: function DATA_SAMPLING (clustered_data, M)   2: sampled_data []  < -   empty list   3:  clusters [] < -   list of cluster in clustered_data   4:  number_of_data_in_cluster [] < -   number of data in each cluster   5:  N < -   number of cluster   6:  while existing clusters[i] which has number of data is smaller than M/N:   7:    sampled_data   = sampled_data + data in clusters[i]    8:    M = M    number_of_data_in_cluster[i]   9:    N = N  - 1   10:   clusters pop i   11: for cluster in clusers:   12:   sampled_data < -   sampled_data   + random choice M/N data in cluster   13: return sampled_data     Dis cu s s io n I f   th e   r ate  o f   t h ab n o r m al  r eq u est,  K 1 ,   i n   o n d ataset  is   v er y   s m all,   i.e .   K 1   <<   1 ,   th e n   a m o n g   M   s elec ted   s a m p les,  t h r ate  o f   a n o m al y   r eq u es is   s till   K 1 .   Mo r eo v er ,   an o m al y   r eq u ests   ar u s u all y   s ep ar ated   f r o m   n o r m a r eq u e s ts   a f ter   th e   clu s ter i n g   m eth o d .   A lt h o u g h   t h er i s   n o   g u ar an tee  t h at   all  d ata   s a m p les  i n   ea ch   cl u s ter   h av t h s a m lab el  b u if   K 1   <<   1 ,   th er is   g r ea ch a n ce   th at  t h e   al m o s all  n u m b er   o f   an o m al y   r eq u es ts   ar s ele cted   f r o m   s m all  clu s ter s .   A s   r esu lt,  th cl u s ter i n g   m et h o d   co m b i n ed   w it h   s a m p li n g   al g o r ith m   p r o p o s ed   in   t h i s   p ap er   ca n   ef f icie n tl y   f i lter   o u a l m o s all   ab n o r m a r eq u ests ,   w h ich   ca n   h elp   r ed u ce   t h e   b u ild i n g   ti m o f   t h d ata s e f o r   t h DW A P   a n al y s is .   T h is   s a m p li n g   p r o ce s s   h as   m o r e   ad v an ta g es t h a n   r an d o m   s a m p lin g   ap p r o ac h .         5.   E XP E R I M E NT   5 . 1 .     Da t a s et   I n   o r d er   to   ev alu ate  th ef f icie n c y   o f   th p r o p o s ed   alg o r ith m s ,   t w o   2   d atasets   ar u s ed .     -   Data s et  1 T h f ir s d ataset   is   C SIC   2 0 1 0   [ 7 ] ,   w h ic h   i s   d ev e lo p ed   b y   C ar m e n .   T h d atase t   in cl u d es   ab o u t   3 6 0 0 0   n o r m al  r eq u e s ts   a n d   2 5 0 0 0   ab n o r m al  r eq u est s .   Si n ce   m o s o f   th s a m p le s   i n   th C S I C   2 0 1 0   d ataset  ar attac k i n g   r eq u e s ts ,   i m a y   n o b s u i tab le  f o r   ev al u lat in g   th d etec tio n   o f   t h ab n o r m al   r eq u ests .   C SI C   2 0 1 0   d ataset  is   f ilter ed   an d   d i v id ed   in to   8   m ai n   UR I   g r o u p s   as p r esen ted   in   T ab le  3 .       T ab le  3 .   Statis tics   o f   t h n u m b er   o f   n o r m al  r eq u est s   an d   ab n o r m al  r eq u e s ts   i n   t h d ataset  1   O r d e r   U R I   N o r mal   A b n o r mal   1   / t i e n d a 1 / p u b l i c o / a n a d i r . j s p   4 0 0 0   2 8 2 1   2   / t i e n d a 1 / p u b l i c o / a u t e n t i c a r . j s p   4 0 0 0   2 7 8 3   3   / t i e n d a 1 / p u b l i c o / c a r a c t e r i st i c a s.j sp   4 0 0 0   1 9 5 7   4   / t i e n d a 1 / p u b l i c o / e n t r a r . j sp   4 0 0 0   1 8 3 5   5   / t i e n d a 1 / p u b l i c o / p a g a r . j s p   4 0 0 0   2 7 2 2   6   / t i e n d a 1 / p u b l i c o / r e g i st r o . j s p   4 0 0 0   2 7 8 1   7   / t i e n d a 1 / p u b l i c o / v a c i a r . j s p   4 0 0 0   1 8 8 4   8   / t i e n d a 1 / mi e m b r o s/ e d i t a r . j sp   4 0 0 0   2 7 7 4         Data s et  2 T h s ec o n d   d ataset   is   m ad b y   u s i n g   s o m s ec u r it y   to o ls   li k A c u n et ix ,   B u r p   Su ite,   S QL Ma p   to   s ca n   t h v u l n er ab ilit ie s   f r o m   o u r   p r o to ty p w eb s i tes.   T h o s s ca n n in g   to o ls   s ea r ch   an d   e x p lo it  v u l n er ab ilit ie s   in   b o th   t h q u er y   a n d   th r eq u est s   h ea d er s .   T h co llect ed   d ata  is   class if ied   f o llo w i n g   th d ef i n ed   cr iter ia  in   t h p r ev io u s   s ec tio n .   B esid es  th ab n o r m al  r eq u e s ts   co llected   b y   s ca n n i n g   to o ls ,   w e   m ad e   s o m n o r m al   r eq u es ts   b y   n o r m all y   o p er ate  o n   t h s a m e   UR I s .   E ac h   U R I   co n tai n s   5 0 0 0   n o r m al   r eq u ests   a n d   5 0 0 0   a b n o r m al  r e q u ests .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       A n   a d a p tive  a n o ma ly  r eq u est  d etec tio n   fr a mewo r b a s ed …  ( C h o   Do   X u a n )   5343   5 .2   Cla s s if ica t io m ea s ure s   5 . 2 . 1 .   E v a lua t io n c rit er ia   t o   det ec t   a bn o r m a l r eque s t   I n   th i s   r esear ch ,   t h r ee   ev al u ati o n   m etr ics ar u s ed   as f o llo w s     P r ec is io n   is   d ef i n ed   as  th r a tio   b et w ee n   t h n u m b er   o f   tr u p o s itiv alar m s   ( TP )   an d   all  th s a m p les   class i f ied   as  p o s iti v ( TP   FP ) .   T h h ig h er   t h p r ec is io n   s co r e,   th m o r n u m b er   o f   p o s itiv alar m s     ar co r r ec t.         =     +    ( 3 )       R ec all  is   d e f in ed   as t h r atio   o f   tr u p o s iti v alar m s   a m o n g   all  s a m p le s   th at  ar ac t u all y   p o s iti v e.        =     +    ( 4 )       F1 - s co r is   t h e   h ar m o n ic  m ea n   o f   p r ec is io n   a n d   r ec all.     1   =   2       +    ( 5 )     w h er e,   TP   -   T r u p o s iti v e:  i s   th n u m b er   o f   r ec o r d s   th at   ar co r r ec tly   lab eled   as  ab n o r m al  r eq u e s ts ”;   F N   -   Fal s n e g ati v e:  i s   th n u m b er   o f   r ec o r d s   th at  ar ac t u all y   ab n o r m al  r eq u e s ts ”  b u ar class if ied   as  “n o r m al  r eq u est s ”;  TN   -   T r u n e g ati v e:  i s   t h n u m b er   o f   r ec o r d s   th at  ar e   co r r ec tl y   l ab eled   as  n o r m al   r eq u ests ”;   FP   -   Fals e   p o s iti v e:  i s   th e   n u m b er   o f   r ec o r d s   t h at  ar e   ac tu a ll y   n o r m al  r eq u ests   b u t   ar e   m is c lass if ied   to   ab n o r m al  r eq u est s ”.       5 . 2 . 2 .   Crit er ia   f o ev a lua t ing   t he   ef f ec t iv eness   o f   a pp ly i ng   DWAP   a na ly s i s   f o co n s t ruct ing   t ra ini ng   da t a s et   I n   o r d er   to   ev alu ate  th e f f ici en c y   o f   t h s a m p li n g   m et h o d   in   th co n s tr u c tio n   o f   t h tr ai n in g   d ata,   th i m b ala n ce   i n   s a m p lin g   p r o ce s s   b et w ee n   t h r a n d o m   s a m p lin g   m e th o d   a n d   t h n e w l y   p r o p o s ed   s a m p lin g   m et h o d .   T h is   v alu i s   ex p r ess ed   b y   p ar a m eter s   K 1   an d   K 2   a s   f o llo w s :     T h p ar am eter   K 1   r ep r esen ts   th p r o p o r tio n   o f   ab n o r m al   r eq u ests   in   t h d ata  r ec o g n i ze d   b y   r an d o m   s a m p li n g   m et h o d s .     K 2   is   t h r atio   o f   ab n o r m al  r eq u est s   in   t h i s   p r o p o s e d   s am p li n g   m et h o d .   I n   th i s   p ap er ,   th ese  t w o   v al u e s   ar co m p ar ed   w it h   r esp ec t o   d if f er en K 1   v al u es  a n d   th n u m b er   o f   s elec ted   n u m b er   o f   s a m p les  M .     5 .3   E x peri m e nta re s ults a nd   co mm e nts   5 . 3 . 1 .   Crit er ia   ex peri m ent a l scena rio s   a nd   ex peri m e nta l r esu lt s   f o r   det ec t ing   a bn o r m a l r eques t   a.     E x p er i m e n ta l sce n ar io s   T h ef f icie n c y   o f   DW A P   an al y s i s   tech n iq u e s   in   d etec tin g   ab n o r m al  r eq u ests   u s i n g   R an d o m   Fo r est   clu s ter i n g   al g o r ith m   is   ev al u ated   b ased   o n   b o th   d ataset s   d escr ib ed   in   s ec tio n   5 . 1 .   A ll   th r ee   p er f o r m an c e   me tr ics   ar r ec o r ed .   E ac h   d ata s et  i s   d i v id ed   in to   t w o   s u b s et s th e   tr ai n in g   d ata   co n tai n i n g   8 0 o f   t h d atase is   u s ed   f o r   tr ain i n g   th c lass i f icatio n   m o d el;  r e m a in i n g   2 0 o f   t h d ata  is   u s ed   f o r   test in g .   T h n u m b er   o f   tr ee s   f o r   R an d o m   Fo r est alg o r i th m   is   s e t a t 3 0 0 .   b.     E x p er i m e n tal  r es u lts   a n d   co m m en ts   E x p er i m e n tal  r es u lt s   o f   u s i n g   DW A P   a n al y s is   tech n iq u to   d etec ab n o r m al  r eq u e s ts   o n   d atasets   1   an d   2   ar s h o w n   i n   T ab les  4   an d   5 .   T h r esu lts   in   T ab le  4   s h o w   t h at  u s i n g   DW A P   an al y s is   tec h n iq u es  ca n   ac cu r atel y   a n d   ef f ic ien t l y   d ete ct  ab n o r m al  r eq u es ts .   I n   p ar ticu lar ,   P r ec is io n   s co r es  ac r o s s   all  d ata  r an g f r o m   9 9 . 4 6 % to   1 0 0 %.  T h is   r esu lt s h o w s   t h at  th p o s iti v alar m   o f   th is   m eth o d   is   v er y   r eliab le.   T ab le  5   s h o w s   t h at   ev e n   wh en   t h d ataset   co n ta in s   a   h ig h er   p er ce n ta g o f   n o r m al  r eq u est  a s   illu s tr ated   i n   d ataset   2   t h n e w   DW A P   an al y s i s   tech n iq u e   is   s till   h i g h l y   e f f ec tiv e,   w h ile   tr ad itio n al  to o ls et  u s i n g   Mo d Secu r it y   r u les  ar n o ef f icie n t.  Sp ec if icall y ,   r ec al v alu o f   t h to o ls et  is   j u s 3 0 w h ile  t h at  s co r o f   th e   p r o p o s ed   m et h o d   is   m o r th an   9 0 %.  B esid es,  th e   n e m et h o d   ca n   o b tain   p er f ec p r ec is io n   s co r o n   all  UR I   s et s .   T h F1   s co r o f   t h p r o p o s ed   m e th o d   is   also   m u c h   h i g h er ,   w h ic h   i s   o v er   9 5 %,  co m p ar ed   to   th to o ls et.   T h r esu lts   s h o w n   in   tab les  4   an d   5   d e m o n s tr ate  th at  DW A P   an al y s is   tec h n iq u es  ar n o o n l y   ab le   to   ef f icie n tl y   d etec t r eq u est s   at tack s ,   b u t t h e y   ar also   ca p ab le  o f   co r r ec tly   d etec ti n g   ab n o r m al  r eq u est s .       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  10 ,   No .   5 Octo b e r   2 0 2 0     5 3 3 5   -   5346   5344   T ab le   4 .   E x p er im e n tal  r esu lts   o f   ab n o r m al  r eq u est s   d etec tio n   u s in g   DW A P   an al y s i s   m et h o d   o n   d ataset  1   O r d e r   U R I   P r e c i si o n   R e c a l l   F 1   S c o r e   1   / t i e n d a 1 / p u b l i c o / a n a d i r . j s p   1 0 0 %   1 0 0 %   1 0 0 %   2   / t i e n d a 1 / p u b l i c o / a u t e n t i c a r . j s p   9 9 . 4 6 %   9 9 . 2 8 %   9 9 . 3 7 %   3   / t i e n d a 1 / p u b l i c o / c a r a c t e r i st i c a s.j sp   1 0 0 %   1 0 0 %   1 0 0 %   4   / t i e n d a 1 / p u b l i c o / e n t r a r . j sp   1 0 0 %   1 0 0 %   1 0 0 %   5   / t i e n d a 1 / p u b l i c o / p a g a r . j s p   1 0 0 %   1 0 0 %   1 0 0 %   6   / t i e n d a 1 / p u b l i c o / r e g i st r o . j s p   9 9 . 6 3 %   9 5 . 3 3 %   9 7 . 9 4 %   7   / t i e n d a 1 / p u b l i c o / v a c i a r . j s p   1 0 0 %   1 0 0 %   1 0 0 %   8   / t i e n d a 1 / mi e m b r o s/ e d i t a r . j sp   9 9 . 6 3 %   9 6 . 0 4 %   9 8 . 2 3 %       T ab le   5 .   A n o m al y   d etec tio n   p er f o r m an ce   co m p ar i s o n   b et w e en   DW A P   an al y s is   m et h o d s     an d   Mo d Secu r it y   to o l a p p lied   o n   d ataset  2   O r d e r   U R I   D W A P   a n a l y si s +   R a n d o m F o r e st   M o d S e c u r i t y   [ 8 ]   P r e c i si o n   R e c a l l   F 1   S c o r e   P r e c i si o n   R e c a l l   F 1   S c o r e   1   / si g n i n   1 0 0 %   9 6 . 7 7 %   9 8 . 3 6 %   9 8 %   3 0 %   4 6 %   2   / si g n u p   1 0 0 %   9 1 . 4 1 %   9 5 . 5 1 %   9 9 %   4 0 %   5 7 %       5 . 3 . 2 .   E x peri m ent a l set up   t o   ev a lua t t he  co ns t ruct io n o f   t ra ini ng   da t a   us ing   DWAP   a na ly s is   m et ho d   a.     E x p er i m e n tal  s et u p   T h ef f ec tiv e n es s   o f   t h d at co n s tr u ctio n   p r o ce s s   i s   e v alu ated   b y   u s i n g   th e   ch a n g i n g   h y p er   p ar am eter s   as f o llo w s     Dis tr ib u tio n   r ate   o f   a n o m al y   r eq u est s   i n   d ata d if f er en v alu e s   o f   K 1   r a n g in g   f r o m   1 to   3 0 o n     th U R I s   o f   th e   C SIC  2 0 1 0   d ataset  i s   u s ed ,   b ased   o n   w h ic h   th e   ev al u atio n   o f   K 2   ca n   b o b tain ed   t h r o u g h   th p r o p o s ed   s am p li n g   p r o ce s s .   T h f ea tu r es e x tr ac ted   in   s e ctio n   3 . 2   ar u s ed   to   r ep r esen all  d ata  p o in ts     Nu m b er   o f   s a m p les  M :   Si n c th v alu e   o f   K 2   d ep en d s   m ain l y   o n   t h n u m b er   o f   M   s e lecte d   s a m p le s   th in f l u en ce   a n d   d ep en d en ce   o f   K 2   w h e n   th v alu o f   M   c h an g es  ca n   b u s ed   to   s h o w   t h ef f icie n c y   o f   th s a m p li n g   m et h o d .   T h is   f ac to r   p lay s   a n   i m p o r tan t   r o le  in   s a m p lin g   p r o ce s s   s u ch   t h at  th e   ab n o r m a l   r eq u est d is tr ib u tio n   in   t h d ata s et   is   o p ti m ized .   Fig u r 3   p r esen ts   th clu s ter i n g   r esu lt s   b ased   o n   th v al u o f   th SS E   o f   t h clu s ter s .   Fro m   F i g u r 3   it  ca n   b s ee n   th at  th SS E   v al u v ar ies  lo w h en   N   2   an d   N   3 ,   r esu ltin g   to   th r atio s   r 2   an d   r 3   ar alm o s t   eq u al  to   1 .   W h e n   N   4 ,   t h v ar iatio n   o f   SSE   d ec r ea s es  s i g n i f ica n tl y ,   s o   is   t h v al u o f   r 4 SSE   r et u r n s   to     litt le  v ar iatio n   w h en   N   4   r esu lti n g   to   r 5   an d   r 6   ar alm o s eq u al  to   1 .   T h er ef o r e,   N   4   is   ch o s en   as   th clu s ter   n u m b er   o f   t h d ata.     Fig u r 4   illu s tr ates  t h d is tr ib u tio n   o f   n o r m al  r eq u est s   an d   ab n o r m al  r eq u ests   i n   ea ch   cl u s ter   af ter   th K - m ea n   alg o r it h m .   T h d ata  is   cla s s i f ied   i n to   4   cl u s ter s   an d   t h d is tr ib u tio n   o f   a ll  l ab els  ar s h o w n   o n   th g r ap h .   T h r atio   o f   ab n o r m al  r eq u e s ts   i n   t h is   s ce n ar io   is   K 1   =   3 1 %.   W h e n   ap p l y i n g   t h p r o p o s ed   s a m p lin g   m et h o d   w it h   M   1 0 0 0 ,   th p er ce n tag o f   ab n o r m al  r eq u es ts   in   th s a m p led   d ata  r ea ch es  K 2   7 1 %.             Fig u r e   3 .   E x a m p le  o f   cl u s ter   n u m b er   s elec t io n     Fig u r e   4 .   T h r eq u est d is tr ib u tio n   o f   UR I   i n   clu s ter s       b.     E x p er i m e n tal  r es u lts   a n d   co m m en ts   T h r esu lts   s h o w   t h ef f ec ti v e n es s   o f   th p r o p o s ed   s am p li n g   m et h o d   co m p ar ed   to   r an d o m   s a m p lin g   m et h o d .   A d d itio n all y ,   th co m p ar i s o n   b et w ee n   th d is tr ib u tio n   o f   a n o m al y   r eq u es ts   i n   th d ata  o f   b o th   m et h o d s   ar also   r ec o r d ed .   T a b le  6   s h o w s   t h c h an g e   in   K 2   v alu e   w h en   t h v alu e   o f   K 1   v a r ie s   f r o m   1   to   3 0 %.   T h r esu lt o f   T ab le  6   s h o w s   t h at  K 2   is   g r ea ter   th a n   K 1   i n   d if f er en K 1   d is tr ib u tio n s .   Evaluation Warning : The document was created with Spire.PDF for Python.