I AE S In t er na t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI)   Vo l.  9 ,   No .   3 Sep tem b er   2020 ,   p p .   5 53 ~ 56 0   I SS N:  2 2 5 2 - 8938 ,   DOI : 1 0 . 1 1 5 9 1 /i j ai. v 9 .i 3 . p p 5 53 - 56 0          553       J o ur na l ho m ep a g e h ttp : //ij a i . ia esco r e. co m   Para llel proces sin g  using  big da ta a nd  m a chine  lea rn ing   techniqu es for  int rusio n det e ction       Ala eddin B o u k ha lf a 1 Na bil   H m i na 2 H a bib a   Cha o ui 3   1 , 3 S y ste m   En g in e e rin g   Lab o ra to ry ,   A DSI  T e a m ,   Na ti o n a S c h o o o f   A p p li e d   S c ien c e s,  Ib n   T o f a il   Un i v e rsit y ,   M o ro c c o   2 S u lt a n   M o u lay   S li m a n e   Un iv e rsity ,   Be n M e ll a l,   M o r o c c o       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Ma y   1 ,   2 0 20   R ev i s ed   J u n   2 2 ,   2 0 20   A cc ep ted   J u l 9 ,   2 0 20       Cu rre n tl y ,   in f o r m a ti o n   tec h n o l o g y   is  u se d   in   a ll   th e   li fe   d o m a in s.    M a n y   d e v ice a n d   e q u i p m e n p ro d u c e   d a ta  a n d   tra n sf e th e m   a c ro ss     th e   n e tw o rk .   T h e se   tran s f e rs   a re   n o a lw a y s e c u re d   a n d   c a n   c o n tain   n e m e n a c e a n d   a tt a c k in v isib le  b y   th e   c u rre n se c u rit y   to o ls.  M o re o v e r,     th e   larg e   a m o u n a n d   v a riet y   o th e   e x c h a n g e d   d a ta  m a k e   th e   id e n ti f ica ti o n   o th e   in tr u sio n m o re   d iff icu lt   in   term o f   d e tec ti o n   ti m e .   T o   so lv e   th e se   issu e s,   w e   su g g e st  in   th is  p a p e r,   a   n e w   a p p ro a c h   b a se d   o n   st o r in g   th e   lar g e   a m o u n a n d   v a riety   o f   n e tw o rk   tra ff i c   d a ta  e m p lo y in g   b ig   d a ta  t e c h n iq u e s,    a n d   a n a ly z in g   th e se   d a ta  w it h   m a c h in e   lea rn in g   a lg o rit h m s,  in   a   d istri b u ted   a n d   p a ra ll e w a y ,   in   o rd e to   d e tec n e h id d e n   i n tru si o n s   w it h   les s   p ro c e ss in g   ti m e .   A c c o rd in g   to   t h e   re su lt o f   th e   e x p e ri m e n ts,  th e   d e tec ti o n   a c c u ra c y   o f   th e   m a c h in e   lea rn in g   m e th o d re a c h e u p   to   9 9 . 9 % ,   a n d   th e ir   p ro c e ss in g   ti m e   h a s b e e n   re d u c e d   c o n sid e ra b ly   b y   a p p l y in g   th e m   i n   a   p a ra ll e a n d   d istri b u te d   w a y ,   w h ich   p ro v e th a o u p r o p o se d   m o d e is  v e r y   e ff e c ti v e   f o th e   d e tec ti o n   o f   n e w   h id d e n   i n tru sio n s.   K ey w o r d s :   B ig   d ata   I n tr u s io n   d etec tio n   Ma ch i n lear n i n g   P ar allel  p r o ce s s in g   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   A laed d in B o u k h alf a,     S y s te m   E n g in ee r i n g   L ab o r ato r y ,   A DSI   T ea m ,   Natio n al  Sc h o o l o f   A p p lied   Scien ce s ,   I b n   T o f ail  Un iv er s i t y ,   Ke n itra ,   Mo r o cc o .   E m ail: a laed d in e. b o u k h a lf a @ g m a il.c o m       1.   I NT RO D UCT I O N   No w ad a y s ,   in f o r m a tio n   tec h n o lo g y   i s   e m p lo y ed   in   a ll  ar ea s   o f   li f ( f i n a n ce ,   ed u ca tio n ,     w ea t h er ,   etc. . . ) ,   v ar io u s   eq u i p m e n t,  n a m el y ,   co m p u ter s ,   s er v er s ,   tab lets   a n d   o th er s   d ev ices,  ar p r o d u cin g   co n tin u o u s l y   d ata  a n d   e x ch an g i n g   i t h r o u g h   t h n et wo r k .   Ho w e v er ,   t h ese   ex c h a n g es   b et w ee n   th e s e   eq u ip m e n ts   ar e   n o al w a y s   s e cu r ed ,   an d   t h e y   ca n   co n tai n   n e w   h id d en   attac k s .   W h ile  t h e   ex i s tin g   to o ls   an d   s tr ateg ie s   o f   s ec u r it y   ar esta b lis h ed   o n   p r ed ef i n ed   m et h o d s   an d   alg o r it h m s   to   id en t if y   i n tr u s io n s ,   th e y   d o n ' t   h av t h ab ilit y   to   d etec n e th r ea ts .   T h is   p u s h es  u s   to   th i n k   ab o u n e w   m e th o d s   an d   te ch n iq u es  t h at  ca n   ev o lv to   d is clo s n e w   m e n ac es.     I n   ad d itio n ,   th d ata  p ass in g   th r o u g h   t h n et w o r k   is   s o   lar g an d   ca n   b o f   s e v er al  t y p es,  w h ic h   p r o v o k d if f ic u ltie s   r ela ted   to   th r ea ts   d etec tio n   ti m f o r   th cu r r en d ev ice s   o f   s ec u r it y .   W ith   t h f a s g r o w t h   o f   t h g en er ated   d ata   li k v id eo s ,   s o u n d s ,   e m ail s ,   etc. . . ,   i n   all  s ec to r s ,   th e   o ld   d ata  m an a g e m e n t   to o ls   h a v e   b ec o m e   o b s o lete,   t h e y   ar n o ab le  to   s to r o r   m a n ag e   th is   lar g e   a m o u n o f   d ata,   a s   co n s eq u e n ce ,     n e w   co n ce p w as  co n ce i v ed   ca lled   B ig   Data   to   d e f in n e w   r u les  f o r   t h m an a g e m en a n d   s to r ag e     o f   th i s   lar g m a s s   o f   d ata.   Als o ,   co llectio n   o f   cla s s i f ica tio n   m eth o d s   o f   th e   Ma ch i n e   L ea r n in g   d o m ai n     h av ap p ea r ed   r ec en tl y ,   a n d   w a s   ass o ciate d   w it h   t h is   n e w b o r n   B ig   Da ta,   in   o r d er   to   ex tr ac in v i s ib le   in f o r m atio n   f r o m   it.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell Vo l.  9 ,   No .   3 Sep te m b er   20 20   5 53     56 0   554   T h er ef o r e,   to   d ea w ith   i s s u e s   cited   ab o v e,   w s u g g es in   th is   p ap er   n e w   id ea   to   an al y ze   an d   ev alu a te  n et w o r k   tr af f ic,   b as ed   o n   co llectin g   an d   s to r in g   its   h u g d ata  e m p lo y i n g   b i g   d ata  tech n iq u es,     an d   ap p ly in g   p a r allel  p r o ce s s in g   o f   clas s i f icatio n   a lg o r it h m s   o n   th e s d ata,   in   o r d er   to   d etec n e w   h id d en   attac k s   w i th   le s s   ti m co n s u m p tio n .   T h s tu d y   h a s   t h f o llo w i n g   s tr u ct u r e,   w g i v s u m m ar y   o f   r elate d   w o r k   i n   Sectio n   2 ,     Sectio n   3   is   r e s er v ed   f o r   th p r o p o s ed   a p p r o ac h ,   ex p er im en tal  e n v ir o n m en t   is   d escr ib ed   in   Sec tio n   4 ,     Sectio n   5   is   d ed icate d   f o r   r esu lts   an d   an a l y s is ,   s ec t io n   6   an n o u n ce s   t h co n cl u s io n   an d   f u t u r w o r k .       2.   RE L AT E WO RK S   T h id ea   o f   in tr u s io n   d etec tio n   i n   b ig   d ata  e n v ir o n m en was  d eb ated   in   p ap e r   [ 1 ] ,   th au th o r s   h a v e   s h o w n   t h at  cu r r e n r esear ch   is   n o v er y   in ter ested   i n   m et h o d s   th at   ca n   e x tr ac i n f o r m at io n   ab o u t h e     an o m alie s   f o u n d ,   an d   th e y   a f f ir m ed   t h at  t h is   i n f o r m atio n   i s   v er y   u s e f u f o r   r ed u cin g   t h ti m b et w ee n   t h e   id en ti f icatio n   o f   t h an o m al y   an d   th r ea ctio n .   Usi n g   m ac h i n lear n i n g   m eth o d s ,   t h e y   p r o p o s ed   n e w   m et h o d   ca lled   m u lt iv ar iate  b i g   d ata  an al y s i s   ( MB DA )   f o r   in tr u s io n   d etec tio n ,   b ased   o n   f iv s ta g e s ,   th f ir s s tep   is   to   tr an s f o r m   th s o u r ce   d ata  in to   q u an titati v ch ar ac ter is t ics,   th s ec o n d   s tep   is   to   c r ea te  s in g le  d ata  f lo w   f r o m   ch ar ac ter is tic s   o f   m u ltip le  s o u r ce s   o f   d ata,   th th ir d   s tep   is   to   f in d   th a n o m alie s   at   th r ig h m o m en t,     th f o u r th   s tep   is   to   id e n ti f y   t h f ea t u r es o f   t h a n o m al y ,   th f i f th   a n d   last   s tep   is   to   d etec t a n d   p r esen t t h d ata   ca u s i n g   th a n o m al y .   T h p r o p o s ed   id ea   is   r em ar k ab le,   ex c ep th at  th a u t h o r s   d id   n o p r esen h o w   a n d   w h y   th e y   u s ed   t h m ac h i n lear n i n g   m et h o d s .   An o th er   co n ce p f o r   an al y zin g   t h b i g   tr af f ic   o f   t h n et w o r k   w a s   d is c u s s ed   in   p ap er   [ 2 ] ,   th a u t h o r s   co n f ir m ed   t h at  t h n et w o r k   t r af f ic   is   v er y   lar g e,   w h ic h   p u s h es   to   f in d   n e w   m ea n s   ab l to   d etec t h r ea ts     w it h   p r ec is io n .   T h e y   s u g g e s te d   s et  o f   m et h o d s   o f   a n al y s is   u s in g   R   lan g u ag e   to   r e m ed y   p r o b lem s   r elate d   to   th v o lu m e,   v er ac i t y ,   a n d   v ar i et y   o f   lar g a m o u n ts   o f   d ata.   T o   test   th p r o p o s ed   m et h o d s ,   th e y   ap p lied   th e m   o n   th KDD  C u p   9 9   d ataset  [ 3 ] ,   w h ich   i s   an   ea r lier   v er s i o n   o f   NS L   KDD  [ 4 ] .   T h p r o p o s ed   m eth o d s   ar e   in ter esti n g ,   ex ce p th a th e y   a r o r ien ted   to w ar d s   i m p r o v i n g   th q u a lit y   o f   th lar g q u a n tit y   o f   d ata  an d   n o an   ac tio n   a g ain s t t h r ea ts .   On m o r ap p r o ac h   to   d etec an o m alie s   i n   telec o m m u n ica tio n   d o m ai n   w as  d eb ated   b y   t h au t h o r s   in   th m a n u s cr ip [ 5 ] ,   th e y   a d m it  th a cu r r en t l y   t h er is   a   lar g a m o u n o f   t h p r o d u ce d   d ata  b y   m u lt ip le   d ev ices,  t h e y   p r o p o s ed   n e s y s te m   b ased   o n   f o u r   s tep s ,   f ir s tl y   i co llects  d ata,   s ec o n d l y   it  p r ep ar es  d ata  b ef o r tr ea t m en t,  t h ir d l y   i ap p lies   an   u n s u p er v i s ed   clu s ter in g   al g o r ith m ,   f i n all y   it   s h o w s   t h f o u n d   an o m alie s .   T h s u g g es ted   s y s t e m   co n s t itu te s   n e w   ap p r o ac h   to   v is u alize   an o m alies  b u it  is   n o d ed icate d   to   d etec t n e w   a ttack s .       I n   p ap er   [ 6 ]   ,   th au t h o r s   d is c u s s   n e w   id ea   o f   r ed u ci n g   th ti m e   o f   d etec tio n   o f   in tr u s io n s   i n   B i g   Data   en v ir o n m en t,  t h e y   cla i m   th at  attac k s   i n cr ea s as  t h q u an t it y   o f   p r o d u ce d   d ata  in cr ea s es,  also   th lar g e   a m o u n o f   d ata   ca u s es  d i f f icu ltie s   r elate d   to   th e   d u r at io n   o f   t h a n al y s i s   f o r   in t r u s io n s   d etec tio n ,     th e y   p r o p o s ed   n e w   ar c h ite ctu r b ased   o n   d is tr ib u ted   s tr ea m i n g   p latf o r m   ca l led   A p ac h Kaf k [ 7 ] ,     an d   co m p o n e n o f   Sp ar k   [ 8 ]   u s ed   f o r   d ata  s tr ea m   p r o ce s s i n g   ca lled   Sp ar k   S tr ea m i n g   [ 9 ] .   T h m o d el   g r o u p s   lo ad in g   n et w o r k   tr af f ic  f r o m   C SV  f ile,   in g esti n g   d ata  u s in g   Ka f k a,   p r o c ess i n g   d ata  u s i n g     A p ac h Sp ar k   Stre a m i n g .   T h ex p er i m en w as  r ea lized   an d   s h o w ed   g o o d   r esu lts .   T h p r o p o s ed   id ea   r ep r esen ts   p r o m is i n g   ap p r o ac h   to   r ed u ce   p r o ce s s in g   t i m e   i n   b i g   d ata  e n v ir o n m en t,   b u th a u t h o r s   d id   n o t   s p ec if y   th u s ed   m eth o d s   f o r   in tr u s io n s   d etec tio n .   I n   th s a m b ig   d ata  e n v ir o n m e n t,  a n o th er   s y s te m   to   id en ti f y   in tr u s io n   b ased   o n   m et h o d   o f   s tatis t ics  ca lled   f i n ite  D ir ich l et  m i x tu r m o d el  w a s   p r o p o s ed   in   p a p er   [ 1 0 ] ,   th au th o r s   an n o u n ce d   th at  a   s y s te m   th a d etec ts   n o   th r ea t s   p er   d ay   is   o b s o lete,   t h e y   h av s et  u p   n e w   f r a m e w o r k   co m p o s ed   o f   th r e e   co m p o n e n t s ,   th f ir s co m p o n en ca p tu r an d   lo g   n et w o r k   d ata,   th s ec o n d   co m p o n e n p er f o r m s   a n al y s i s   an d   f iltra tio n   o p er atio n s   to   p r ep ar th d ata  f o r   t h n e x t   co m p o n en t,   th e   th ir d   an d   las co m p o n en t   is   d ed icate d   to   ap p ly   D ir ich let  m i x t u r m o d el  m et h o d   in   o r d er   to   d etec in tr u s io n s .   T h s y s te m   h as  b ee n   test ed   o n   t w o   d atasets   NS L   K DD  [ 4 ]   an d   UNSW - NB 1 5   [ 1 1 ] ,   th in tr u s i o n   d etec tio n   r ates  w er h ig h .   T h p r o p o s al  co n s tit u tes   r e m ar k ab le  n e ap p r o ac h   f o r   th e   d etec tio n   o f   i n tr u s io n s ,   alt h o u g h   it s   p er f o r m a n ce s   h a v n o t   b ee n   co m p ar ed   to   th at  o f   th o th er   m et h o d s .   T h s y s te m   i s   n o t d ed icate d   to   ev o lv to   d etec t n e w   th r ea t s .   Th au th o r s   ex p o s e,   in   th s t u d y   [ 1 2 ] ,   n e w   ap p r o ac h   to   an al y ze   th b ig   tr a f f ic  o f   t h n et w o r k ,   t h e y   d ec lar th at  th e x is t in g   to o ls   o f   s ec u r it y   m u s a n al y ze   th c o llected   d ata  in   o r d er   to   ev o lv to   ca tch   th r ea ts ,   th e y   s u g g e s ted   d is tr ib u ted   ar ch itect u r i n   clo u d   co m p u ti n g   ar ea ,   f o r   t h p u r p o s o f   e x p lo itin g   t h g r ea ca p ac it y   o f   s to r ag a n d   p r o c ess i n g ,   t h ar c h itect u r is   e s tab lis h ed   o n   co llect in g   tr a f f i o f   th n et w o r k ,     s to r in g   it,  a n d   an al y zi n g   it  e m p lo y i n g   t h f a m o u s   p ar allel  p r o ce s s in g   p r o g r a m   Ma p R ed u ce .   T h au th o r s   h a v e   n o t c ar r ied   o u t e x p er i m e n ts   to   v alid ate  th ap p r o ac h .   A ls o ,   th id ea   is   n o t scala b le  to   d etec t n e w   t h r ea ts .   Ou r   ap p r o ac h   is   to tall y   d i f f er en co m p ar ed   to   th cited   w o r k s .   I f o c u s es  o n   d etec ti n g   n e w   h id d en   in tr u s io n s   w it h   les s   p r o ce s s i n g   ti m e,   in   a n   en v ir o n m e n w h er th d ata  is   v er y   lar g a n d   v ar ied .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   A r ti f   I n tell   I SS N:  2252 - 8938       P a r a llel  p r o ce s s in g   u s in g   b ig   d a ta   a n d   ma c h in lea r n in g   tec h n iq u es fo r ... ( A la ed d i n B o u k h a lfa )   555   3.   P RO P O SE D   AP P RO ACH   Ou r   s u g g e s ted   ap p r o ac h   is   illu s tr ated   in   Fi g u r 1 ,   it  i s   an   ar ch itec tu r o f   lo ca b u s i n es s     n et w o r k   th a i s   co m p o s ed   o f   f o u r   m ai n   co m p o n e n ts ,   n a m e l y ,   a   co llecto r ,   an   ex tr ac t - tr a n s f o r m   lo ad   ( E T L ) ,     b ig   d ata  clu s ter ,   an d   an   a n al y s i s   m ac h i n e.           Fig u r 1 .   B ig   d ata  an d   m ac h i n lear n in g   ar ch itec tu r f o r   in tr u s io n   d etec tio n       3 . 1 .    Co llect o r   T h co llecto r   is   tr af f ic  lis te n er ,   it  is   s o f t w ar th a co llect  th tr a f f ic  p ass in g   t h r o u g h   th e   n et w o r k ,   it  is   i n s tal led   o n   n et w o r k   m ac h in e,   i lis te n s ,   ca p tu r es,  an d   s av es  n et w o r k   tr a f f ic  o n   t h s a m m ac h in i n   o r d er   t o   lo ad   it to   th b ig   d ata  clu s ter   v ia  th E T L .     3 . 2 .    E x t ra ct   t r a ns f o r m   lo a ( E T L )   An   E T L   is   s o f t w ar th at  ai m s   to   ex tr ac d ata  f r o m   a   s o u r ce ,   tr an s f o r m   it,  t h en   l o ad   it  to   a   d esti n atio n   [ 1 3 ] ,   s o ,   it  is   in s t alled   o n   th s a m m ac h i n o f   th co llecto r ,   it  is   r esp o n s i b le  f o r   lo ad in g   th ca u g h tr a f f ic  f r o m   t h n et w o r k   b y   t h co llecto r ,   to   th b ig   d ata  clu s ter .     3 . 3 .    B ig   da t a   clus t er   B ec au s o f   t h lar g a m o u n an d   v ar iet y   o f   tr a f f ic  d ata  e x ch an g ed   all   t h ti m b et w ee n   th e   lo ca l   n et w o r k   an d   th I n ter n et,   w e   h av s et  u p   B ig   Data   clu s ter .   T h tw o   m o s u s ed   b ig   d ata  m an a g e m e n f r a m e w o r k s   ar Had o o p   [ 1 4 ]   an d   Sp ar k   [ 8 ] ,   th ey   ar co m p o s ed   o f   t w o   co m p o n en ts ,   th f ir s ca lled   Had o o p   d is tr ib u ted   f ile  s y s te m   ( H DFS )   is   r eser v ed   f o r   s to r in g   d ata,   th s ec o n d   is   r eser v ed   f o r   d is t r ib u ted   p r o ce s s in g   o f   d ata  v i th Ma p R ed u ce   p r o g r a m   [ 1 5 ] .   W u s ed   Had o o p   b ec au s it  is   m o r p o w er f u t h an   Sp ar k   in   ter m s   o f   d ata  s ec u r it y   [ 1 6 ] .     3 . 4 .    Ana ly s is   m a chi ne   Du to   th e   lar g e   a m o u n a n d   v ar iet y   o f   d ata  t h at  ca n   b co l lecte d   ac r o s s   t h n et w o r k ,   it  h as  b ec o m e   d if f ic u lt  to   p r o ce s s   th e m   w it h   t h o ld   an al y s i s   m e th o d s   an d   to o ls   o f   s ec u r it y   [ 17] ,   c o n tr ar i w is e ,     Ma ch i n L ea r n in g   m eth o d s   h av th ca p ac it y   to   ex tr ac i n f o r m at io n   h id d en   i n   th is   lar g v o lu m an d   v ar iet y   o f   d ata  [ 1 8 ] ,   th at 's  w h y   w e   w il u s e   th e m   to   p r o ce s s   n et w o r k   tr a f f ic.   So ,   t h a n al y s i s   m ac h i n i s   al s o   m ac h in e   o n   t h lo ca n et w o r k ,   o n   w h ic h   w e   h a v i n s tall ed   s o f t w ar t h at  w i ll  la u n ch   Ma ch i n L ea r n in g   alg o r ith m s ,   i n   o r d er   to   p r o ce s s   th d ata  alr ea d y   s to r ed   in   th B ig   Data   clu s ter .       4.   E XP E R I M E NT A L   E NV I R O NM E NT   I n   th is   p ar t,  w p r esen t h u s ed   m et h o d s   f o r   th an al y s i s ,   th ch o s e n   d ata  f o r   th ex p er im en tatio n ,   th v al id atio n   m eth o d ,   th e v a lu atio n   m etr ic s ,   an d   th w o r k   en v ir o n m e n t.     4 . 1 .     Ana ly s is   m et ho d s   T h er ar s ev er al  m ac h i n l ea r n in g   m et h o d s ,   s o   it 's  n o ea s y   to   t est   th e m   a ll,  w tr ied   to   tes t     o n l y   t h m o s k n o w n   an d   u s e d   o f   th e m ,   w h ic h   ar s u p p o r v ec to r   m ac h in ( S VM )   [ 1 9 ] ,   K - n ea r est  n eig h b o r s   ( KNN)   [ 2 0 ] ,   an d   d ec is io n   tr ee   [ 2 1 ] .     Su p p o r v ec to r   m ac h i n ( SVM) it  is   m ac h i n lear n in g   m eth o d ,   w h ic h   is   in t en d ed   to   s o lv e     b in ar y   a n d   m u ltip le  cla s s i f ica tio n   p r o b lem s ,   it  i s   b ased   o n   m ar g i n s ,   it  ta k es  f e w   s a m p le s   an d   it  ac h iev e s   g o o d   r esu lts   [ 2 2 ] .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell Vo l.  9 ,   No .   3 Sep te m b er   20 20   5 53     56 0   556     K - n ea r est  n ei g h b o r s   ( KNN) it  is   an   ef f ec ti v m et h o d   o f   m a ch in lear n i n g   t h at  is   ap p lied   to   class if ica tio n   an d   r eg r es s io n   p r o b le m s .   T o   esti m ate  t h o u tp u a s s o ciate d   w it h   a   n e w   i n p u t   X,   ( KNN)   c o n s is ts   i n   tak i n g   in to   ac co u n t th tr ai n i n g   s a m p les  w h o s i n p u t is clo s est t o   th n e w   i n p u t X   [ 2 3 ] .     Dec is io n   tr ee it  is   m et h o d   o f   d e cisi o n   m a k i n g   a n d   class if icatio n ,   th d if f er en d ec is io n s   p o s s ib le  ar lo ca ted   at  th ter m in al  n o d es  ( w h ich   r ep r ese n t h lea v es  o f   t h tr ee )   an d   ar o b tain ed   a cc o r d in g   to   th e   d ec is io n s   r ea ch ed   at  ea c h   s ta g [ 2 4 ] .     4 . 2 .     Da t a s et   T o   ev alu ate  o u r   ap p r o ac h ,   w ch o s th f a m o u s   NS L   K DD  d ataset  [ 4 ] ,   w h ic h   is   an   ad v an ce d     v er s io n   o f   KDD  C u p   9 9   [ 3 ] .   NSL   K DD  g at h er s   w i th o u r ed u n d an c y   n et w o r k   tr af f ic  d ata  f r o m   m ilit ar y   en v ir o n m e n t,  it i s   co m p o s ed   o f   n o r m a l a n d   attac k   r ec o r d s ,   n a m el y :     Do S ( Den ial - of - Ser v ice) : T h is   m ak e s   th s er v ice  u n a v ailab le .     P r o b e:  w h ic h   tr ies to   d is clo s in f o r m atio n   ab o u t a   n et w o r k   a n d   f i n d   s y s te m   v u l n er ab ilit ies.     U2 R   ( User   to   R o o t) w h ich   p r o f it f r o m   v u l n er ab ilit ies i n   th e   s y s te m   to   g et  s u p er   u s er   p r iv il eg es.     R 2 L   ( R e m o te  to   L o ca l) w h ic h   tr ies  to   at tack   m ac h in e   an d   ca u s es   v u l n er ab ilit ies  to   o b tai n     s ec u r in f o r m a tio n .   T ab le s   1 - 3   r e p r esen th n u m b er   o f   r ec o r d s   f o r   ea ch   t y p e.   T a b le  1   s h o w s   t h d is tr ib u tio n   o f   t h e   d ataset  in   t w o   cla s s e s .   T ab le  2   s h o w s   t h d is tr ib u tio n   o f   t h d ataset  in   f i v clas s es,  a n d   T ab le  3   s h o w s   t h e   d is tr ib u tio n   o f   th d ataset  i n   t w e n t y - th r ee   clas s es.        T ab l 1 .   Dis tr ib u tio n   o f   d atase t in   t w o   class e s   T r a f f i c   N u mb e r   o f   sam p l e s   N o r mal   6 7 3 4 3   A t t a c k   5 8 6 3 0   T o t a l   1 2 5 9 7 3     T ab le  2 .   Dis tr ib u tio n   o f   d atase t in   f iv e   cla s s es   T r a f f i c   N u mb e r   o f   sam p l e s   N o r mal   6 7 3 4 3     A t t a c k   D o S   4 5 9 2 7   P r o b e   1 1 6 5 6   R 2 L   9 9 5   U 2 R   52   T o t a l   1 2 5 9 7 3         T ab le  3 .   Dis tr ib u tio n   o f   d atase t in   t w e n t y - t h r ee   clas s es   T r a f f i c   N u mb e r   o f   sam p l e s   N o r mal   6 7 3 4 3   A t t a c k   N EPT U N ( D O S )   4 1 2 1 4   S A TA N   ( P r o b e )   3 6 3 3   I P S W EEP (P r o b e )   3 5 9 9   P O R T S W EEP (P r o b e )   2 9 3 1   S M U R F   ( D o S )   2 6 4 6   N M A P   ( P r o b e )   1 4 9 3   B A C K   ( D o S )   9 5 6   T E A R D R O P   ( D o S )   8 9 2   W A R EZ C L I EN T   ( R 2 L )   8 9 0   P O D   ( D o S )   2 0 1   G U ESS _ P A S S W D   ( R 2 L )   53   B U F F ER _ O V ER F L O W   ( U 2 R )   30   W A R EZ M A S T ER   ( R 2 L )   20   L A N D   ( D o S )   18   I M A P   ( R 2 L )   11   R O O TK I T   ( U 2 R )   10   L O A D M O D U L ( U 2 R )   9   F T P _ W R I T ( R 2 L )   8   M U L TI H O P   ( R 2 L )   7   P H F   ( R 2 L )   4   P ER L   ( U 2 R )   3   S P Y   ( R 2 L )   2   T o t a l   1 2 5 9 7 3       4 . 3 .     Va lid a t i o m et ho d   T o   ass ess   o u r   m o d el,   w c h o s t h cr o s s - v a lid atio n   m eth o d ,   it  is   tec h n iq u t h a ass es s es     th d etec tio n   ca p ac it y   o f   a   class if ier   b y   d i v id in g   th e   d ata  s et  i n to   t w o   s u b s ets,  t h tr ai n i n g   s u b s et    an d   th test   s u b s et.   Firstl y ,   th class if ier   is   tr ain ed   o n   th tr ain i n g   d ataset,   s ec o n d l y ,   it  is   ap p lied   o n   th test   d ataset  i n   o r d er   to   m ea s u r e   its   d e g r ee   o f   s u cc es s .   T h p r o ce s s   is   r ep ea ted   ti m es  i n d ep en d en tl y ,     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   A r ti f   I n tell   I SS N:  2252 - 8938       P a r a llel  p r o ce s s in g   u s in g   b ig   d a ta   a n d   ma c h in lea r n in g   tec h n iq u es fo r ... ( A la ed d i n B o u k h a lfa )   557   th av er ag o f   t h p er f o r m an ce s   is   r etu r n ed .   T h s tr o n g   p o in o f   th is   tec h n iq u is   th at   all  d ata  is   u s ed   f o r   tr ain i n g   a n d   test in g ,   w h ic h   m ak e s   t h as s es s m e n m o r p r ec is e.   W em p lo y ed   5 - f o ld   cr o s s   v alid atio n   to   ass es s   o u r   ap p r o ac h ,   if   w i n cr ea s th N,   th n u m b er   o f   attac k s   f o r   s o m t y p e s   li k R 2 L   a n d   U2 R   w ill   d ec r ea s f o r   ea ch   s u b s et,   a n d   th e y   m a y   b n eg lec ted   d u r in g   p r o ce s s in g   [ 2 5 ] .     4 . 4 .     E v a lua t i o m et rics   T o   ass ess   th d etec t io n   e f f ic ien c y   o f   o u r   p r o p o s ed   alg o r ith m s ,   w c h o o s t h m etr ics   ac cu r ac y ,   s en s iti v it y ,   s p ec i f icit y ,   f al s p o s itiv r ate  ( FP R )   an d   ar ea   u n d er   cu r v ( AUC),   th d ef i n itio n s   o f   th e s e     m etr ics ar e:       A cc u r ac y   T P + T N/( T P + T N+ FP +FN)   ( 1 )     I t r ep r esen ts   th f r ac tio n   o f   tr u id en tific atio n   o v er all  d ata  i n s tan ce s .       Sen s iti v it y   T P /( T P +FN)   ( 2 )     I is   al s o   ca lled   tr u p o s i tiv r ate   ( T P R ) ,   it  m ea s u r es  t h r atio   o f   p o s iti v i n s ta n ce s   t h at  ar e     co r r ec tly   cla s s i f ied .       Sp ec if icit y   T N/( T N+ F P )   ( 3 )     I m ea s u r es th r atio   o f   n eg a ti v in s ta n ce s   t h at  ar co r r ec tly   class i f ied .       Fals P o s itiv R ate  FP /( FP +T N)   ( 4 )     I t r ep r esen ts   th p r o b ab ilit y   o f   f alsel y   r ej ec tin g   t h n u ll  h y p o th esi s .     A U C   is   t h p r o b a b ilit y   th at  r an d o m l y   s elec ted   p o s itiv in s ta n ce   is   r an k ed   h i g h er   th a n   r an d o m l y   s elec ted   n e g ati v i n s ta n ce .   I t   is   t h m ea s u r e m e n o f   t h s u r f ac ar ea   u n d er   th r ec ei v er   o p er atin g   ch ar ac ter is tic  ( R OC )   cu r v w h ich   p lo ts   th tr u p o s iti v r ate  ( T P R )   ag ain s t t h f a ls p o s iti v r ate  ( FP R ) .   T P ,   T N,   FP   an d   FN  ar ex tr ac ted   f r o m   t h co n f u s io n   m a tr ix   af ter   th cla s s i f icatio n   o p er atio n ,   th e y   m ea n   r esp ec tiv el y ,   T r u P o s itiv e,   T r u Neg at iv e,   Fal s P o s itiv a n d   Fals Neg ati v e.     T r u Po s itiv ( T P)  in d icate s   th n u m b er   o f   in s ta n ce s   co r r ec tly   clas s if ied .     Fals P o s itiv ( FP )   in d icate s   t h n u m b er   o f   i n s tan ce s   in co r r ec tl y   clas s i f ied .     T r u Neg ativ ( T N)   in d icate s   th n u m b er   o f   i n s tan ce s   co r r ec tl y   r ej ec ted .     Fals Ne g ati v ( FN)   in d icate s   th n u m b er   o f   i n s tan ce s   in co r r ec tl y   r ej ec ted .   T o   ass ess   th p r o ce s s i n g   ti m e ,   w u s t h tr ai n i n g   a n d   v al i d atio n   ti m ac co r d in g   to   t h n u m b er   o f   n o d es in   t h B ig   Data   cl u s ter .     4 . 5   Wo rk   e nv iro n m e nt   T ab le  4   s u m m ar izes  o u r   w o r k   en v ir o n m e n t,  it  p r esen ts   t h h ar d w ar a n d   th s o f t w ar e   w it h   t h e   co n f i g u r atio n   o r   v er s io n .       T ab le  4 .   Har d w ar an d   s o f t w a r co n f ig u r atio n   H a r d w a r e   o r   so f t w a r e   C o n f i g u r a t i o n   o r   v e r si o n   O p e r a t i n g   sy st e m   W i n d o w s 1 0   P r o c e sso r   t y p e   i 3   2 3 7 0 M   C P U   @   2 . 4 0   G H Z   C o r e   c o u n t   3   c o r e s   R A M   4 0 9 6   M B   D i sk   2 0 0   G B   C l u st e r   H a d o o p   5   n o d e s   H a d o o p   V e r si o n   2 . 7 . 6       5.   RE SU L T S AN AN AL Y SI S   T h is   p ar is   r eser v ed   to   p r esen an d   d is c u s s   th d i f f er en r esu lt s   o b tain ed .   W h av as s ess ed   t h e   ap p r o ac h   ac co r d in g   to   th th r ee   d is tr ib u tio n s   o f   th d ataset  NSL   K DD  as  d escr ib ed   ab o v e,   s o   w ca r r ied   o u th r ee   t y p es  o f   cla s s i f icatio n ,   n a m el y ,   clas s i f icatio n   o f   t w o   clas s es,  clas s if icatio n   o f   f iv cla s s es  a n d   class i f icatio n   o f   t w e n t y - th r ee   class e s .   Fo r   2 - clas s es  c lass if icatio n ,   t h d atase i s   d i v id ed   in to   t w o   s u b s ets ,     s u b s e t o f   n o r m a l d ata  an d   a   s u b s et   o f   at tack   d ata.   Fo r   5 - cl ass es   cl as s if icatio n ,   t h d ata s e t is d i v id ed   in to   f i v Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell Vo l.  9 ,   No .   3 Sep te m b er   20 20   5 53     56 0   558   s u b s et s ,   o n e   s u b s et   o f   n o r m a d ata  an d   f o u r   s u b s et s   o f   at tack   d ata,   n a m el y ,   U2 R ,   R 2 L ,   P r o b an d   Do S.     Fo r   2 3 - class es  class if icatio n ,   t h d ataset  is   d iv id ed   in to   t w e n t y - t h r ee   s u b s ets,  o n s u b s et  o f   n o r m al  d ata  an d   t w e n t y - t w o   s u b s ets o f   at tack   d ata  d er iv ed   also   f r o m   U2 R ,   R 2 L ,   P r o b an d   Do S a ttack s .   Ou r   ex p er i m e n ts   w er ca r r ied   o u in   s e v er al  s tep s ,   at  ea c h   s tep   w i n cr ea s t h n u m b er   o f   n o d es   co n s tit u ti n g   t h b ig   d ata   clu s t er   an d   w s to r o u r   d ata  th er e,   w ap p l y   t h m ac h i n lear n in g   c lass if ier s   i n   a   d is tr ib u ted   a n d   p ar allel  w a y   o n   t h b ig   d ata  cl u s ter ,   th e n   w e   ca lcu late  t h i n d icato r s   ac cu r ac y ,   s p ec if ic it y ,   s en s iti v it y ,   f al s p o s iti v r ate  ( FP R ) ,   ar ea   u n d er   cu r v ( A U C ) ,   an d   th p r o ce s s i n g   ti m e,   i n   o r d er   to   ev alu ate   th p er f o r m a n ce s .   Fig u r 2   s h o w s   cla s s i f icat io n   A cc u r ac y   f o r   t w o   clas s es,   f i v cla s s es   an d   t w e n t y - th r ee   class e s .     T ab le  5   s h o w s   cla s s i f icat io n   m et r ics:   s e n s iti v it y ,   s p ec i f icit y ,   A U C   a n d   FP R   f o r   t w o   cla s s es,  f i v cla s s e s   a n d   t w e n t y - th r ee   clas s es.  W h ile  Fi g u r e 3   d escr ib es  th ev o lu tio n   o f   th tr ain i n g   an d   v alid atio n   ti m o f   m ac h i n e   lear n in g   clas s i f ier s   ac co r d in g   t o   th n u m b er   o f   n o d es o f   th b ig   d ata   clu s ter .         Fig u r 2 .   C lass if ica tio n   A cc u r ac y   o f   t w o   clas s es,  f iv cla s s e s   an d   t w en t y - t h r ee   class e s       T ab le  5 .   Sen s itiv it y ,   s p ec if ici t y ,   A UC   a n d   FP R   o f   t h class i f icatio n   o f   t w o   clas s es,  f iv cla s s es a n d   t w en t y - th r ee   class e s   C l a ssi f i e r   D i st r i b u t i o n   S e n si t i v i t y   ( %)   S p e c i f i c i t y   ( %)   A U C   ( %)   F P R   ( %)   K N N   2   c l a sse s   1 0 0   1 0 0   1 0 0   0   5   c l a sse s   9 2 , 4   1 0 0   9 6 , 2   0   2 3   c l a sse s   7 7 , 7   1 0 0   8 8 , 7 8   0   S V M   2   c l a sse s   9 8 , 5   9 8 , 5   1 0 0   1 , 5   5   c l a sse s   8 8 , 6   9 9 , 8   9 9 , 8   0 , 2   2 3   c l a sse s   6 6 , 3   1 0 0   9 6 , 8 7   0   T R EE   2   c l a sse s   0   0   0   1 0 0   c l a sse s   85   1 0 0   9 9 , 2   0   2 3   c l a sse s   4 7 , 2 2   9 9 , 9 6   9 7 , 3 9   0 , 0 4       As  illu s tr ated   b y   F ig u r 2 ,   th d if f er en v alu e s   r ea ch ed   o f   ac cu r ac y   f o r   all  m ac h in lear n in g   class i f ier s   ar g e n er all y   v er y   h ig h ,   t h KNN  al g o r ith m   is   v er y   e f f icie n w it h   ac cu r ac y   v a lu es  t h at  r ea ch e s   u p   to   9 9 . 9 f o r   th e   clas s if icatio n   o f   t w o   clas s es,  9 9 . 9 f o r   th e   class if ica tio n   o f   f i v cla s s e s ,   an d   9 9 . 8 f o r   t h e   class i f icatio n   o f   th t w e n t y   t h r ee   class es,  w h ic h   m ea n s   t h at   KNN  is   v er y   p o w er f u t h an   SVM  an d   d ec is io n   tr ee   f o r   id en ti f y i n g   ea ch   t y p e   o f   d ata  w h ate v er   th d ata  d is tr ib u tio n .   Fo r   th d i s tr ib u tio n   in   t w o   clas s es  a n d   f i v class e s ,   th d ata  i s   n o d i s tr ib u ted   in   s ev er al  cla s s e s t h d ec is io n   tr ee   is   m o r ac c u r ate  th a n   SVM  w i th   ac cu r ac y   p er ce n tag e s   o f   9 9 . 8 an d   9 9 . 6 f o r   t h d et ec tio n   o f   r esp ec ti v el y   t w o   an d   f iv e   clas s es,     w h ic h   m ea n s   th a d ec is io n   tr e is   v er y   ef f icie n w it h   less   d is tr ib u ted   d ata.   Fo r   th d is tr ib u tio n   i n     t w e n t y - th r ee   cla s s es,  t h d at aset  is   m o r d is tr ib u ted th e   r ea ch ed   ac cu r ac y   b y   SV M   m et h o d   is   9 9 . 4 %,     w h ic h   ex p lai n s   t h at  SV is   m o r p r ec is f o r   d ata  w it h   h i g h   d is tr ib u tio n .   A l s o ,   as  s h o w n   b y   T ab le  5 ,   th h i g h est  Sen s iti v it y   v al u es  ar t h o s o f   t h KNN  alg o r ith m ,     1 0 0 f o r   th d etec tio n   o f   t w o   class es,  9 2 . 4 f o r   t h d etec ti o n   o f   f iv c lass e s   a n d   7 7 . 7 f o r   th d etec tio n   o f   t w e n t y   t h r ee   cla s s e s ,   w h ich   m ea n s   th at   KNN   ca n   co r r ec tl y   i d en tify   th e   n at u r o f   t h d ata  m o r e   th a n   th e   b o th   m et h o d s   SVM  an d   d ec is io n   t r ee .   T h v alu e s   o f   Sen s iti v it y   w h ich   ar in   s ec o n d   p o s itio n   ar th o s o f   SVM   w it h   p er ce n tag e s   o f   9 8 . 5 f o r   th id e n ti f icatio n   o f   t w o   cla s s es,  8 8 . 6 f o r   th id en ti f icat io n   o f   f i v cla s s e s ,   97 97, 5 98 98, 5 99 99, 5 100 T r e e S V M K NN 99, 8 98, 2 99, 9 99, 6 98, 8 99, 9 98, 4 99, 4 99, 8 A c c ur a c (% ) 2 c l as se s 5 c l as se s 23 c l as se s Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   A r ti f   I n tell   I SS N:  2252 - 8938       P a r a llel  p r o ce s s in g   u s in g   b ig   d a ta   a n d   ma c h in lea r n in g   tec h n iq u es fo r ... ( A la ed d i n B o u k h a lfa )   559   an d   6 6 . 3 f o r   t h id e n ti f icati o n   o f   t w e n t y   t h r ee   clas s es,  w h ich   p r o v es   t h at  S VM   ca n   p er f ec tl y   d etec t   th e   t y p e   o f   d ata,   m o r th an   t h d ec is io n   tr ee   m e th o d .   E f f ec t iv el y ,   th e   p er ce n tag o f   th f al s p o s itiv r ate  ( FP R )   n o ted   b y   KNN   is   n u ll   f o r   an y   t y p o f   clas s i f icatio n ,   t h is   ex p lai n s   th at   KNN   ca n   d etec w i th o u t   er r o r   co m p ar ed   to   th o th er   cla s s i f ier s .   An d   al s o ,   th v alu e s   ac h iev ed   o f   t h f al s p o s itiv r ate  ( FP R )   b y   SV ar o n l y   1 . 5 f o r   th d etec tio n   o f   t w o   clas s es,  0 . 2 f o r   th e   d etec tio n   o f   f i v class es   an d   n u ll  f o r   th e   d etec t io n   o f   t w en t y - t h r ee   class es,  w h ic h   m ea n s   t h at  S VM   d etec ts   w it h   le s s   er r o r   th an   d ec i s io n   tr ee .   W also   n o tice  th at  s p ec i f icit y   v alu e s   o f   KN r ea ch   u p   to   1 0 0 f o r   r ec o g n it io n   o f   t w o   class e s ,   f i v cla s s es   an d   t wen t y - t h r ee   cla s s e s ,     w h ic h   m ea n s   t h at  KN ca n   p e r f ec tl y   d etec n eg a tiv i n s tan c es  m o r th a n   th o t h er   m et h o d s .   As  r ep r esen ted   b y   t h Fig u r 3 ( a - c ) ,   th ti m p r o ce s s in g   o f   th alg o r it h m s   d ec r ea s es  as  th n u m b e r   o f   n o d es  in   th clu s ter   in cr ea s es.  I n   th ca s o f   clu s ter   w it h   s in g le  n o d e,   th tr ain in g   a n d   v alid atio n   ti m e   tak en   b y   K NN  is   1 8 2 6   s   f o r   t h class i f ica tio n   o f   t w o   clas s e s ,   1 8 5 6 . 5   s   f o r   th class if icat i o n   o f   f i v class e s ,   an d   1 7 9 2 . 8   s   f o r   th clas s i f ic atio n   o f   t w en t y   t h r ee   cla s s es,   th ese   v al u es   d ec r ea s as  lo n g   as  t h n u m b er   o f   n o d es  o f   t h cl u s ter   i n cr ea s e s ,   u n til  r ea c h i n g   o n l y   in   th e   ca s o f   cl u s ter   w it h   f i v n o d e,   1 6 6 7 . 6   s     f o r   th class if ica tio n   o f   t wo   class es,  1 6 1 1 . 9   s   f o r   th class i f icatio n   o f   f i v class es,  an d   1 6 5 9 . 4   s     f o r   th class i f icat io n   o f   t wen t y   t h r ee   class e s .   W clea r l y   n o tice  th s a m ev o l u tio n   f o r   th o th er     t w o   m eth o d s   SV an d   d ec is io n   tr ee .   W h ich   j u s tifie s   t h at  p ar allel  an d   d is tr ib u ted   p r o ce s s in g   r ed u ce s   ef f ec tiv e l y   ti m co n s u m p tio n .       N u mb e r   o f   n o d e s   2   c l a sse s   5   c l a sse s   2 3   c l a sse s   1   1 8 2 6   1 8 5 6 , 5   1 7 9 2 , 8   2   1 8 2 3 , 1   1 7 9 7 , 6   1 7 2 1 , 9   3   1 8 2 0 , 6   1 7 8 4 , 1   1 7 0 4 , 1   4   1 6 7 2 , 6   1 6 6 0 , 1   1 6 7 0 , 9   5   1 6 6 7 , 6   1 6 1 1 , 9   1 6 5 9 , 4     ( a)   N u mb e r   o f   n o d e s   2   c l a sse s   5   c l a sse s   2 3   c l a sse s   1   7 4 2 , 0 6   6 3 7 , 1 3   4 9 9 , 7 7   2   7 1 6 , 6 9   5 5 5 , 5 7   4 9 0 , 6 2   3   6 9 1 , 5 6   5 3 8 , 5 9   4 6 7 , 9 8   4   5 3 6 , 5 7   4 8 8 , 4 9   4 5 1 , 2 4   5   5 1 6 , 5 2   4 4 7 , 6 3   4 4 6 , 3 9     ( b )     N u mb e r   o f   n o d e s   2   c l a sse s   5   c l a sse s   2 3   c l a sse s   1   5 7 , 5 3 2   6 0 , 0 4 8   1 0 4 , 8 6   2   5 5 , 9 3 5   4 5 , 5 7   5 9 , 1 7 7   3   4 7 , 5 4 5   4 2 , 6 8 7   5 6 , 0 9 6   4   4 6 , 0 9 2   4 2 , 1 1 7   5 1 , 9 0 6   5   3 8 , 0 4 2   4 1 , 0 5 1   3 4 , 2 0 9     ( c)     Fig u r 3 .   T h ev o lu tio n   o f   tr ai n in g   a n d   v alid atio n   t i m ac co r d in g   to   th n u m b er   o f   n o d es in   th clu s ter   ( a)   KNN ,   ( b )   SVM ,   ( c )   T r ee   1 5 5 0 1 6 0 0 1 6 5 0 1 7 0 0 1 7 5 0 1 8 0 0 1 8 5 0 1 9 0 0 0 1 2 3 4 5 6 T r a i ni ng   a nd  V a l i da ti o ti me   (s ) Nu mb e r   o f   n o d e s K NN 2  c l a s s e s 5  c l a s s e s 2 3  c l a s s es 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 0 1 2 3 4 5 6 T r a i ni ng   a nd  V a l i da ti o ti me   (s ) N um be r   o f   no de s SV M 2  c l a s s e s 5  c l a s s e s 2 3  c l a s s es 20 40 60 80 1 0 0 1 2 0 0 1 2 3 4 5 6 T r a i ni ng   a nd  V a l i da ti o ti me   (s ) N u m b e r   o f   n o d e s T ree 2  c l a s s e s 5  c l a s s e s 2 3  c l a s s es Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell Vo l.  9 ,   No .   3 Sep te m b er   20 20   5 53     56 0   560   T h ex p er i m en ts   h a v p r o v en   th at  m ac h i n lear n in g   al g o r it h m s   ar v er y   e f f ec ti v at  d ete ctin g   n e h id d en   attac k s   an d   in tr u s io n s ,   an d   ap p ly i n g   t h e m   i n   p ar allel  w a y   in   d is tr ib u ted   en v i r o n m e n i m p r o v e s   s ig n i f ica n tl y   ti m co n s u m p t io n .       6.   CO NCLU SI O N   AND  F U T U RE   WO RK   I n   th i s   s t u d y ,   w s u g g ested   n e w   ap p r o ac h   estab lis h ed   o n   th s to r ag o f   t h lar g v o lu m a n d   v ar iet y   o f   n et w o r k   tr a f f ic  d a ta  u s in g   b ig   d ata  tech n iq u e s ,   an d   th a n al y s is   o f   th e s d ata  u s i n g   m ac h in lear n in g   al g o r ith m s   in   d is tr ib u ted   an d   p ar allel  w a y ,   i n   o r d er   to   d etec n e w   h id d en   i n tr u s io n s   w it h   le s s   ti m e   co n s u m p tio n .   T o   p r o v th v al id it y   o f   o u r   ap p r o ac h ,   b ig   d ata  clu s ter   h a s   b ee n   s et  u p ,   t h p o p u lar   NSL   K DD   w a s   c h o s en   as  d ata s et  f o r   th e v al u atio n .   T h a s s e s s m en w a s   ca r r ied   o u f o llo w i n g   s e v er al  s tep s ,     at  ea ch   s tep ,   th n u m b er   o f   n o d es  i n   t h b ig   d ata  cl u s t er   is   in cr ea s ed ,   th N S L   K DD  is   s to r ed   in   t h e     b ig   d ata  clu s ter ,   th m ac h i n l ea r n in g   al g o r ith m s   ar ap p lied   f o r   th an a l y s is ,   a n d   th e n   th ev alu a tio n   m etr ic s   ar ca lcu lated .   T o   s u p p o r th v alid it y   o f   o u r   p r o p o s al,   th e x p er i m e n ts   r es u lts   s h o wn   t h at  th e   m ac h i n e   lear n in g   m et h o d s   ar e   v er y   e f f e ctiv to   s e n s i n g   i n tr u s io n   a n d   th eir   ap p licatio n   i n   a   p ar allel  a n d   d is tr ib u ted   w a y   r ed u ce s   co n s id er ab l y   ti m c o n s u m p tio n .   I n   t h f u t u r e,   we  w ill  tr y   to   i m p le m en t   r ea l l y   n e w   in tr u s io n   d etec tio n   s y s te m   ( I DS)   u s in g   o u r   n e w   d is tr ib u ted   ap p r o ac h .       RE F E R E NC E S   [1 ]   J.  Ca m a c h o ,   e a l. ,   M u lt iv a riate   Big   Da ta  A n a l y sis  f o in tru sio n   d e tec ti o n 5   ste p f ro m   th e   h a y st a c k   to   th e   n e e d le Co mp u t.   S e c u r. ,   v o l.   8 7 ,   p .   1 0 1 6 0 3 ,   n o v .   2 0 1 9 .   [2 ]   L .   W a n g ,   e a l. ,   Big   Da ta A n a l y t ics   in   Cy b e S e c u rit y Ne t w o rk   T r a ff ic an d   A tt a c k s J . C. I. S . ,   p . 1 8 ,   2 0 2 0 .   [3 ]   KD D Cu p   1 9 9 9   Da ta .   h tt p :/ /k d d . ics . u c i. e d u / d a tab a se s/k d d c u p 9 9 / k d d c u p 9 9 . h tm l   [4 ]   NSL - KD D D a tas e t .   h tt p s:// g it h u b . c o m /d e f c o m 1 7 /NS L _ KD D   [5 ]   V .   K.   V a sa n t h a m ,   e a l. Us e r - An o m a l y   De te c ti o n   i n   T e lec o m m u n ica ti o n   Us in g   Big   Da ta  A n a l y ti c s ,   v o l.   7 ,   n o   5 ,   p .   4 ,   2 0 1 9 .   [6 ]   M .   T .   T u n ,   e a l. P e rf o rm a n c e   E v a lu a ti o n   o f   In tru si o n   De tec ti o n   S trea m in g   T ra n sa c ti o n s Us in g   A p a c h e   Ka f k a   a n d   S p a rk   S trea m in g ,   in   ICAIT   2 0 1 9 ,   Ya n g o n ,   M y a n m a r,   No v .   2 0 1 9 ,   p .   2 5 30.   [7 ]   A p a c h e   Ka f k a Ap a c h e   K a fka .   h tt p : // k a f k a . a p a c h e . o rg /.   [8 ]   A p a c h e   S p a rk .   h tt p s: // sp a rk . a p a c h e . o rg /.   [9 ]   S p a rk   S trea m in g .   h tt p s:// s p a rk . a p a c h e . o rg /d o c s/late st/strea m in g - p ro g ra m m in g - g u id e . h tm l   [1 0 ]   N.  M o u sta f a ,   e a l. Big   Da ta  An a ly ti c f o In tru sio n   De tec ti o n   S y ste m S tatisti c a De c isio n - M a k in g   Us in g   F in it e   Dirich let  M ix tu re   M o d e ls ,   in   DA DS C ,   S p rin g e In ter n a ti o n a P u b li sh in g ,   2 0 1 7 ,   p .   1 2 7 1 5 6 .   [1 1 ]   UN S W - NB1 5 . ww w . u n sw . a d fa . e d u . a u / u n sw - c a n b e rra - c y b e r/c y b e rse c u rit y / AD F A - NB1 5 - Da tas e ts/   [1 2 ]   L .   U.  L a b o sh in ,   e a l . ,   T h e   B ig   Da ta  A p p ro a c h   to   Co ll e c ti n g   a n d   A n a l y z in g   T ra ff i c   Da ta   in   L a rg e   S c a le   Ne tw o rk s Pro c e d ia   Co m p u t .   S c i . ,   v o l.   1 0 3 ,   p .   5 3 6 5 4 2 ,   2 0 1 7.   [1 3 ]   S .   K.  Ba n sa l,   e a l . ,   In teg ra ti n g   Big   Da ta:  A   S e m a n ti c   Ex trac t - T r a n sf o r m - L o a d   F ra m e w o r k Co mp u ter ,   v o l.   4 8 ,   n o   3 ,   p .   4 2 5 0 ,   m a rs 2 0 1 5 .   [1 4 ]   A p a c h e   Ha d o o p .   h tt p s:// h a d o o p . a p a c h e . o rg /.   [1 5 ]   A .   Bo u k h a lfa,  e a l. ,   A   Ho n e y   Ne t,   Big   Da ta   a n d   RNN   A rc h it e c tu re   f o A u to m a ti c   S e c u rit y   M o n i to ri n g   o In f o rm a ti o n   S y ste m ,   in   ( AI2 S D’2 0 1 8 ) ,   v o l.   9 1 5 ,   S p ri n g e In tern a t io n a P u b li sh i n g ,   2 0 1 9 ,   p .   8 0 0 8 0 8 .   [1 6 ]   I.   M a v rid is,   e a l. P e rf o rm a n c e   e v a lu a ti o n   o f   c lo u d - b a se d   lo g   f il e   a n a ly sis  w it h   A p a c h e   Ha d o o p   a n d   A p a c h e   S p a rk J .   S y s t.   S o ft w . ,   v o l .   1 2 5 ,   p .   1 3 3 1 5 1 ,   m a rs 2 0 1 7 .   [1 7 ]   A .   Bo u k h a lf a ,   e a l Ne t w o rk   T r a ff ic  A n a l y sis  u sin g   Big   Da ta  a n d   De e p   L e a rn in g   T e c h n iq u e s ,   i n   ( ICOA   2 0 2 0 ) ,   2 0 2 0 ,   p .   1 4.   [1 8 ]   L .   Zh o u ,   e a l. ,   M a c h in e   lea rn in g   o n   b ig   d a ta:  Op p o rt u n i ti e a n d   c h a ll e n g e s Ne u ro c o m p u t in g ,   v o l.   2 3 7 ,   p .   350 3 6 1 ,   m a 2 0 1 7 .   [1 9 ]   B.   M .   A sla h i - S h a h ri  e a l. A   h y b rid   m e th o d   c o n sisti n g   o f   GA   a n d   S V M   f o in tr u sio n   d e tec ti o n   sy ste m N e u ra l   Co mp u t .   A p p l . ,   v o l.   2 7 ,   n o   6 ,   p .   1 6 6 9 1 6 7 6 ,   a o û 2 0 1 6 .   [2 0 ]   N.  S a m e e ra ,   e a l. En c o d i n g   Ap p r o a c h   f o In tr u sio n   De tec ti o n   Us in g   P CA   a n d   KN Clas sif ier ,   in   ICCII   2 0 2 0 S in g a p o re ,   2 0 2 0 ,   p .   1 8 7 1 9 9 .   [2 1 ]   J.  Es m a il y ,   e a l. In tru sio n   d e t e c ti o n   sy ste m   b a se d   o n   M u lt i - L a y e r   P e rc e p tro n   Ne u ra Ne t w o rk a n d   De c isio n   T re e ,   in   2 0 1 5   7 th   C o n fer e n c e   o n   ( IKT ) ,   Ira n ,   m a 2 0 1 5 ,   p .   1 5 .   [2 2 ]   S V M . h tt p s: // ww w . sc ien c e d irec t. c o m /t o p ics /co m p u ter - sc ien c e /su p p o rt - v e c to r - m a c h in e   [2 3 ]   W .   L i,   e a l. A   Ne w   In tru sio n   De tec ti o n   S y ste m   Ba s e d   o n   K NN   Clas sif i c a ti o n   A lg o rit h m   in   W irele ss   S e n so r   Ne tw o rk J .   El e c tr.  Co mp u t.   E n g . ,   v o l.   2 0 1 4 ,   p .   1 8 ,   2 0 1 4 .   [2 4 ]   S .   S a h u   e B.   M .   M e h tre,  Ne tw o rk   in tru si o n   d e tec ti o n   sy ste m   u sin g   J4 8   De c isio n   T re e ,   in   2 0 1 5   ( ICACCI) ,   Ko c h i ,   In d ia,  a o û 2 0 1 5 ,   p .   2 0 2 3 2 0 2 6 .   [2 5 ]   A .   Bo u k h a lf a ,   e a l. ,   L S T M   d e e p   lea rn in g   m e th o d   f o n e tw o rk   in tru sio n   d e tec ti o n   sy ste m In ter n a ti o n a l   J o u r n a l   o El e c trica a n d   C o mp u ter   En g in e e rin g   ( IJ ECE ) ,   v o l.   1 0 ,   n o   3 ,   p .   3 3 1 5 ,   2 0 2 0 .     Evaluation Warning : The document was created with Spire.PDF for Python.