I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   23 ,   No .   2 A u g u s t   20 21 p p .   9 5 3 ~ 9 6 1   I SS N:  2 5 0 2 - 4 7 5 2 ,   DOI : 1 0 . 1 1 5 9 1 /ijeecs.v 23 .i 2 . pp 953 - 9 6 1          953       J o ur na l ho m ep a g e h ttp : //ij ee cs.ia esco r e. co m   Intrusio d e tect io n sy stem ba sed o n ma chine l ea r n i ng   techniqu es       M us a a b Riy a dh Di na   Ria dh   Als hib a n i   Dep ar tem en t Co m p u ter   Scien ce ,   C o lleg o f   Scien ce ,   Mu s ta n s ir iy ah   Un iv er s ity ,   I r aq       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Oct   8 ,   2 0 2 0   R ev is ed   J u n   29 2 0 2 1   Acc ep ted   J u l 7 2 0 2 1       Re c e n tl y ,   t h e   d a ta  flo w   o v e t h e   in tern e h a e x p o n e n ti a ll y   i n c re a se d   d u e   to   th e   m a ss iv e   g ro wth   o c o m p u ter  n e two rk s c o n n e c ted   to   it .   S o m e   o th e se   d a ta   c a n   b e   c las sified   a a   m a li c io u a c ti v it y   wh ich   c a n n o b e   c a p tu re d   b y   firew a ll a n d   a n ti - m a lwa re s.  Du e   to   th is,  t h e   i n tru si o n   d e tec ti o n   s y ste m a re   u rg e n n e e d   in   o rd e t o   re c o g n ize   m a li c io u s a c ti v it y   to   k e e p   d a ta i n t e g rit y   a n d   a v a il a b il it y .   I n   t h is  stu d y ,   a n   in tru sio n   d e tec ti o n   s y ste m   b a se d   o n   c l u ste fe a tu re   c o n c e p ts an d   KN N cla ss if ier h a s b e e n   su g g e ste d   to   h a n d le t h e   v a rio u s   c h a ll e n g e issu e in   d a ta  su c h   a in c o m p lete   d a ta,  m ix e d - ty p e ,   a n d   n o ise   d a ta.  To   stre n g t h e n   t h e   p ro p o se d   sy ste m   a   sp e c ial  k in d   o p a tt e rn sim il a rit y   m e a su re a re   su p p o rted   t o   d e a with   th e se   ty p e o c h a ll e n g e s.  Th e   e x p e rime n tal  re s u lt sh o t h a t h e   c las sifica ti o n   a c c u ra c y   o th e   su g g e ste d   sy ste m   is  b e tt e th a n   K - n e a re st  n e ig h b o (KN N)  a n d   su p p o r v e c t o m a c h in e   c las sifiers   wh e n   p r o c e ss in g   in c o m p lete   d a ta  se t,   in s p it e   o d ro p in g   d o wn   t h e   o v e ra ll   d e tec ti o n   a c c u ra c y .   K ey w o r d s :   C lu s te r   f ea tu r e   I n co m p lete  d ata   I n tr u s io n   d etec tio n   s y s tem   KNN   L o o s clu s ter   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Mu s aa b   R iy ad h   Dep ar tm en t o f   C o m p u ter   Scie n ce   Mu s tan s ir iy ah   Un iv er s ity   Palest in s tr ee t,  B ag h d ad ,   I r aq   E m ail: m . s h aib an i@ u o m u s tan s ir iy ah . ed u . iq       1.   I NT RO D UCT I O N   C y b er   attac k s   h av ex p o n e n t ially   in cr ea s ed   o v er   th p ast   d ec ad e;  th ese  attac k s   aim   t o   s teal  th e   in tellectu al  p r o p er ty   o f   o r g a n izatio n   an d   d is r u p th eir   r eso u r es  an d   in f r a - s tr u ctu r [ 1 ] - [ 3 ] .   So m o f   th ese  attac k s   ar in s id io u s   a n d   ca n n o b d etec ted   b y   f ir ewa lls   an d   an t im alwa r es.  T h er ef o r e,   a n   ad d itio n al   s ec u r ity   d ef en s iv lin e   s u ch   as   an   I n tr u s io n   d etec tio n   s y s tem s   I DS  a r r eq u ir ed   to   e f f ec tiv ely   m o n ito r   th a ctiv ities   o f   th n etwo r k   i n o r d er   to   ca p tu r in s id io u s   attac k s   [ 4 ] .   T h i n tr u s io n   d etec tio n   s y s tem s   I DS  ca n   b cl ass if ied   in to   two   m ai n   ap p r o ac h es:  s ig n atu r e - b ased   ( SID S)  an d   an o m aly - b ased   ( AI DS)   ap p r o ac h s .   T h m ain   c o n ce p t   o f   SID is   to   co m p ar th s ig n atu r o f   c u r r en ac tiv ity   ag ai n s lis o f   p r ev io u s ly   s to r ed   in tr u s io n s   s ig n atu r es   an d   th e   alar m   is   tr ig g e r ed   if   a   m atch   is   f o u n d .   Du e   to   th is ,   th SID ap p r o ac h   is   h ar d ly   d et ec tin g   a   n ew  attac k   wh ich   h as  n o   p r ev io u s   p atter n   in   th e   d atab ase  th at   r ep r esen t s   th m ain   wea k   p o in o f   th is   ap p r o ac h   [ 5 ] .   I n   t h e   AI DS  wh ich   is   th f o cu s in g   o f   th is   wo r k ,   m o d el  f o r   th e   n o r m al  b eh av io r   o f   co m p u ter   s y s tem   is   b u ild   b ased   o n   m ac h in e   lear n i n g   t ec h n iq u es,  a n y   r em ar k ab le  d ev iatio n   b etwe en   th m o d el   an d   th e   o b s er v ed   b eh av io r   ca n   b co n s id er e d   a s   an   in tr u s io n   [ 6 ] .   I n   co n tr a r y   with   SID ap p r o ac h ,   th u p d ate  o n   d ata  is   n o r eq u ir ed   to   d etec t n ew  attac k s .   Ma n y   r esear ch er s   s u g g ested   AI DS b ased   o n   s in g le  m ac h in lear in g   tech n iq u es  s u ch   as  s u p p o r v ec to r   m ac h i n ( SVM )   [ 7 ] [ 8 ] ,   th e   KNN  alg o r ith m   [ 9 ] [ 1 0 ] ,   an d   d ec is io n   tr ee s   [ 1 1 ] [ 1 2 ] .   T h SVM  an d   KNN  class if ier s   ar p o o r ly   p er f o r m ed   with   n o is y   an d   b ig   d ata,   wh ile  d ec is io n   tr ee   is   tim e - co n s u m in g   class if ier   esp ec ially   in   tr ain in g   p h ase.   T h B ay e s ian   Naïv is   also   s u g g ested   in   [ 1 3 ] ,   h o wev er   th is   p r o b a b ilis tic  clas s if ier   is   n o t   co n v en ien f o r   r ea tim d ata  th at  ar g en er ated   with   h ig h   s p ee d .   Oth er   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  23 ,   No .   2 Au g u s t   20 21 953   -   9 6 1   954   r esear ch er s   p r o p o s ed   I DS  b a s ed   o n   h y b r id   tech n iq u es  s u ch   as  Z am an an d   Mo v a h ed i   [ 1 4 ]   s u g g ested   an   ac cu r ate  h y b r id   tech n iq u b ased   o n   th g au s s ian   m ix tu r m o d el  ( GM M )   an d   K - m ea n s   cl u s ter in g   alg o r ith m   an d   r an d o m   f o r est  class if icati o n   tech n iq u e .   Saleh   et  a l .   [ 1 5 ]   p r o p o s ed   h y b r id   in tr u s io n   d etec tio n   s y s tem   d ep en d e d   o n   p r io r itized   K - n e ar est  n eig h b o r s   an d   o p tim ized   s u p p o r v ec t o r   m ac h i n SVM  class if ier s   b u th is   s y s tem   is   n o t c o n v en ien t f o r   m as s iv d ata  with   h ig h   d im en s io n s .   h y b r id   r ea l tim I DS  in   [ 1 6 ]   was p r o p o s ed   d ep en d i n g   o n   two   n eu r al   n etw o r k s   lay er s ,   th e   f ir s n e u r al  n etwo r k   p er f o r m s   as  a n   o u tlier s - b ased   d etec tio n   f o r   an o n y m o u s   attac k s   an d   th o th er s   p er f o r m s   as  m is u s e - b ased   d etec tio n   f o r   an o n y m o u s   attac k s .   A   m o r co m p lex   m u lti - lev el  I DS  was  p r o p o s ed   b y   Al - Yaseen   et  a l .   [ 1 7 ]   b ased   o n   SVM  an d   ex tr em lear n i n g   m ac h in e.   T h is   s y s tem   s ig n if ic an tly   en h an ce d   th d etec tio n   ac cu r ac y   f o r   d if f er en k i n d   o f   attac k s h o wev er ,   th s y s tem   was   b u ilt  f o r   s p ec i f ic  d ata  s et  ( KDD - C u p   9 9 )   an d   it  is   d if f icu lt  to   ap p ly   it  to   a n o th er   d ata  s et.   I is   o b v io u s   th at  th e   h y b r id   tech n iq u es  ar e   m o r e   ac cu r ate   th an   th s in g le  o n b u th e y   a r tim co n s u m in g   tech n iq u es.  T h a f o r em e n tio n ed   s tu d u es  h av e   f o c u s ed   o n ly   o n   en h a n cin g   th e   class if icati o n   ac c u r ac y   o f   th e   in tr u s io n   d etec tio n   s y s tem   an d   d id   n o ta k in to   co n s id er atio n   th ch allen g i n g   is s u es  in   d at s et  s u ch   as  n o is y   an d   in c o m p lete  d ata.   B esid es  th at,   th e y   u s ed   iter ativ e   an d   co m p lecta ted   tr ain in g   tech n i q es  wh ich   m ad it   u n s u itab le  f o r   m ass iv an d   in c r em en tal  d ata.   O n   t h e   o t h e r   h a n d ,   I D S   d a t a s e ts   h a v e   v a r i o u s   c h a l l e n g e s   s u c h   a s   m i x e d - t y p e ,   h i g h   d i m e n s i o n a l i t y ,   a n d   n o i s y   d a t t h a t s i g n i f i c a n t l y   a f f e c t   t h c la s s i f i ca t i o n   a c c u r a c y .   T h e s e   c h al l e n g es   m u s t   b t a k en   i n t o   c o n s i d e r a ti o n   w h e n   d e s i g n i n g   e f f i c i e n t   I DS  [ 1 8 ] [ 1 9 ] .   Var io u s   s tu d ies  h av b ee n   co n d u cted   to   tac k le   th ese  ch allen g es:    th s tu d ies  in   [ 2 0 ] ,   [ 2 1 ]   tr a n s f o r m ed   n   d im en s io n al  d at o f   m ix ed - ty p to   o n d im en s io n al  d ata  an d     class if ied   th ese  d ata  b ased   o n   KNN  an d   SVM  class if ier s   in   o r d er   t o   m ax im ize  th e f f icien cy   o f   I DS.    Ma n ju n ath an d   Go g o [ 2 2 ]   p r o p o s ed   an   ef f icien alg o r ith m   b ased   o n   en h a n cin g   t h C an b er r m eth o d   an d   m in im u m   th r esh o l d   s u p p o r co u n to   d etec in tr u s io n s   in   h ig h - d im e n s io n ality   d ata  s et  th at  co n s is ts   o f   n u m er ical  a n d   ca te g o r ical  f ea tu r es .   O t h e r   s t u d i es   h a v e   f o c u s e d   o n   t h e   e f f e c t s   o f   n o i s e   i n   t h e   p e r f o r m a n c e   o f   I D S .   T h e   w o r k s   i n   [ 1 8 ] [ 2 3 ]   e l i m i n at e   t h n o i s y   p at t e r n s   b a s e d   o n   t h e   d e n s i t y - b as e d   s p a t i a l   c l u s t e r i n g   o f   a p p l i c a t i o n s   wi t h   n o is e   ( D B SC A N )   c l u s t e r i n g   a l g o r i t h m   i n   o r d e r   t o   e n h a n c e   t h e   cl a s s i f i c a t i o n   a c c u r a c y   o f   I DS .   B h o s a le   e a l .   [ 2 4 ]   s u g g es t e d   n o i s e   r e m o v al   a l g o r it h m   t o   e n h a n c e   t h e   c la s s i f ic a t i o n   ac c u r ac y   o f   N a i v e   B a y es  c l a s s i f ie r   h o w e v e r ,   i t   i s   a   t im e - c o n s u m i n g   c l a s s i f ie r .   H u s s ai n   an d   L a l m u a n a w m a   [ 2 5 ]   p r o v e d   t h a t   s e l f   o r g a n i z a t i o n   m a p   h as   b e t te r   i n t r u s i o n   d e t ec t i o n   a cc u r a c y   i n   n o i s e   d a t t h a n   wi d e s p r e a d   c la s s i f i e r s   ( J R i p ,   J 4 8 ,   R F ,   NB T r e e )   d es p i t o f   t h e   lo w   p e r f o r m a n c e   i n   n o r m a d a t a .   T h es e   s t u d i es   f o c u s e d   o n   t h e   i m p o r t a n c o f   e l i m i n a ti n g   n o i s e   t o   e n h a n c e   th e   c l a s s i f i c at i o n   a c c u r a c y .   H o w e v e r ,   t h e s es   s t u d i e s   s u p p o r t e d   s i m i l a r i t y   m e a s u r es  s u c h   a s   E u c l i d e a n   d i s t a n c e   wh i c h   a r e   s i g n i f i c a n t l y   a f f e ct e d   w h e n   u s i n g   i n c o m p l e t e   d a t a .   T a b l e   1   s h o w s   a   c o m p a r t i o n   b e t w e e n   t h r e l a ted   w o r k s .   U lt i m a t el y ,   a n   i n t r u s i o n   d e t e c t i o n   h as   b e e n   p r o p o s e d   i n   t h i s   s t u d y   t o   h a n d l e   v a r i o u s   c h a ll e n g i n g   i s s u e s   i n   m a s s i v e   d at a   s e ts   s u ch   a s   m i x e d - t y p e ,   h i g h   d i m e n s i o n a l i t y ,   n o is y ,   a n d   i n c o m p l e t e   d a ta .   T o   t h e   b es t   o f   o u r   k n o w l e d g e   t h e r e   a r e   n o   s tu d i e s   t h at   f o c u s   o n   t h t h e   p r o b l e m   o f   i n c o m p l e t d a t a   s et   d u e   t o   i n t e n ti o n a l   o r   u n i n t e n d e d   e r r o r s   i n   c o l le c t i n g   d at a   w h i c h   is   t h e   m ai n   o b j e c t i v e   o f   t h i s   s t u d y .       T ab le  1 .   R elate d   wo r k s   c o m p a r s io n   W o r k   Te c h n i q u e s   D a t a   S e t   M i x e d   t y p e   d a t a   N o i s y   d a t a   I n c o mp l e t e   d a t a   Ev a l u a t i o n   met h o d   S a l e h   e t   a l .   [ 1 5 ]   G M M   a n d   K - mea n s   K D D - C u p 9 9   Y e s   No   No   AC 1 ,   F A R 2 ,   D R 3   Al - Y a see n   e t   a l .   [ 1 7 ]   S V M   a n d   e x t r e me   l e a r n i n g   ma c h i n e   O n l y   K D D - C u p 9 9   Y e s   N o   N o   D R ,   A C ,   F A R   D o n g   e t   a l .   [ 1 8 ]   K - me a n s   +   D B S C A N   N S L - K D D   Y e s   Y e s   No   A C ,   P r e c i s i o n   C h e n   e t   a l .   [ 1 9 ]   D B S C A N   D A R P A   Y e s   Y e s   No   TD R 4 ,   F D R 5   G u o   e t   a l .   [ 2 0 ]   S V M   K D D - C u p 9 9         D R ,   R O C 6   Li n   e t   a l .   [ 2 1 ]   K - me a n s   +   K N N   K D D - C u p 9 9   Y e s   No   No   AC   M a n j u n a t h a   e t   a l .   [ 2 2 ]   C a n b e r r a   m e t h o d   a n d   M TSC 7   K D D - C u p 9 9   Y e s   No   No   AC   S h a k y a   e t   a l .   [ 2 3 ]   K - me a n s   +   D B S C A N   +   S M O 8   K D D - C u p 9 9   Y e s   Y e s   No   AC   B h o sa l e   e t   a l .   [ 2 4 ]   N a i v e   B a y e s   K D D - C u p 9 9   Y e s   Y e s   No   A C ,   P r e c i s i o n   H u ssa i n   e t   a l .   [ 2 5 ]   N N ( S O M 9 )   K D D - C u p 9 9 &   N S L - K D D 3   Y e s   Y e s   No   A C ,   TP R 10 FPR 11 ,   R O C     1 A cc u ra cy   2 F al s e   A l ar Rat e   3 D et e ct i o n   Ra t e   4 T r u e   D e t ec t i o n   R at e   5 F al s e   D et ect i o n   Ra t e   6 Rec ei v er   O p era t i n g   Ch arac t er i s t i c       7 M i n i mu T h re s h o l d   S u p p o r t   Co u n t   8 S eq u e n t i a l   Mi n i ma l   O p t i mi zat i o n   9   Se l f - O r g a n i zi n g   Ma p   10 T r u e   P o s i t i v e   Ra t e   11 Fal s e   Po s i t i v Ra t e         2.   DIS S I M I L ARI T M E A SU RE     T h d is tan ce   ( d is s im ilar ity )   b etwe en   p air   of   p atter n s   is   a n   ess en tial  ta s k   to   ev alu ate  h o alik o r   u n alik p atter n s   ar in   co m p a r is o n   to   o n an o th er .   I is   th e s s en ce   o f   d if f er en t   m ac h in le ar n in g   ap p licaio n s   s u ch   as  clu s ter in g   an d   class if icatio n   wh ich   r em a r k ab ly   af f e cts  th class if icatio n   ac cu r acy   [ 2 6 ] [ 2 7 ].   Mo s o f   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       I n tr u s io n   d etec tio n   s ystem  b a s ed   o n   ma c h in lea r n in g   tech n i q u es   ( Mu s a a b   R iy a d h )   955   th ex is tin g   s tu d ies   s u p p o r e u cli d ea n   d is tan ce   ( ED )   to   m e asu r th d is s im ilar ity   b etwe en   two   p atter n s   o f   m ix in g   attr ib u te ( e. g .   b in ar y ;   n o m in al;  o r d in al;  an d   n u m e r ic) ,   h o wev er   E is   s en s itiv t o   in co m p lete  d ata.   T h er ef o r e,   s p ec ial  k in d   o f   d is s im ilar ty   m ea s u r h as  b ee n   em p lo y ed   in   th is   s tu d y   t o   p r o ce s s   th m ix ed - ty p e   attr ib u tes th at  h av m is s i n g   v a lu es f o r   s o m attr ib u tes  [2 8 a s   d ef in ed   in   ( 1 )     ( , ) = µ  = 1   µ  = 1   ( 1 )     W h er e   d is t   (p i ,p j )   is   th d is m i lar ity   m ea s u r b etwe en   p atter n s   p i ,   p j   an d   N   r ep r esen ts   th n u m b er   o f   attr ib u tes in   ea ch   p atter n ,   an d   th p ar am eter   µ   =0   eith er :   -   I f   th er is   n o   m ea s u r m e n ts   o f   attr ib u te  A   o f   p atter n s   p i   o r   p j   -   If  A   is   asy m m etr ic  b in ar y   attr i b u te  an d   p i A =0 ,   p j A   =0 .     -   Oth er wis e,   µ   = 1 .     T h co n tr i b u tio n   o f   attr i b u te  A   to   th d is tan ce   ( d is s im ilar it y )   b etwe en   p i   an d   p j   is   ca lcu lated   b ased   o n   its   ty p e:   -   If  attr ib u te  A   is   a   n u m er ic  ty p e:  d is t A p i,   pj   |   x p i A     x pj A   | /( M ax   A   -   Min A ),   wh er m ax   A   a n d   m in   A   a r th e   m ax im u m   a n d   m in im u m   v al u es o f   th e   attr ib u te  A   o v er   all  th n o n m is s in g   v alu es .   -   I f   attr ib u te  A   is   n o m in al  ty p o r   b in a r y d is t A p i,   pj   = 0   if   p i A   p j A ; o th er wis e,   d is t A p i,   pj   = 1 .   -   I f   attr ib u te  is   o r d in al  ty p e:  c o n v er t th e   r an k   o f   attr i b u tes  r pi A   an d   r p j A   to   z p i A   a n d   z pj A   as g i v en   in   ( 2 ) .     z p A ( r p A   −1 ) / ( M A −1 )   ( 2 )     W h er M A   is   th p o s s ib le  s tates  n u m b e r   th at   an   o r d i n al  attr i b u te  ca n   h a v e.   T h en   co m p u te  th d is s im ilar ity   as  d ef in ed   in   ( 3 ) :     dist A pi, pj   |z pi A     z pj A |   ( 3 )     Fin ally ,   th s u p p o r ted   s im ilar ity   m ea s u r c o m b in es   th v ar i o u s   attr ib u tes  in to   s in g le   d is s im ilar ity   m ea s u r o n to   co m m o n   s ca le   o f   th in te r v al  [ 0 . 0 ,   1 . 0 ] .       3.   T H E   R E S E ARCH   M E T H O D   T h m ain   o b jectiv o f   th is   s tu d y   is   to   d esig n   an   i n tr u s io n   d etec tio n   s y s tem   f o r   th in c o m p lete  d ata  ( I DS - I D)   class if ier   b ased   o n   h y b r id   m ac h in lear n in g   tech n iq u es  th at  ar ca p ab le  to   d e al  with   in co m p lete  d ata  s et  alo n g   with   th o th er   ch allen g es  s u ch   as  m ix ed - ty p an d   n o is d ata  s et.   T h p r o p o s ed   class if ier   I DS - I co n s is ts   o f   two   p h ases : th tr ain in g   p h ase  an d   t h test in g   p h ase.   T h tr ain in g   p h ase  aim s   to   clu s ter   th d ata  b as ed   o n   t h n o tio n   o f   clu s ter   f ea tu r es  C Fs ,   wh en   th en tir s ize  o f   C Fs   ex ce ed s   g iv en   m em o r y   s p ac th e   m o s s im ilar   C Fs   is   m er g ed .   W h ile th KNN  cla s s if ier   h as   b ee n   s u p p o r te d   in   th test in g   p h ase.   Fin ally ,   5 0 o f   th d ata  s et  is   u s ed   f o r   tr ain in g   p h ase  an d   5 0 % f o r   test in g   p h ase  as illu s tr ated   in   Fig u r 1 .           Fig u r 1 .   T h I DS - I p h ases       3 .1 .       T he  t ra ini ng   ph a s e   T h tr ain in g   p h ase  o f   th is   s tu d y   is   m ain ly   b ased   o n   th e   n o ti o n   o f   clu s ter   f ea tu r es  C d u to   its   g o o d   s p ee d   an d   s ca lab ilit y   in   m ass iv o r   ev en   s tr ea m in g   d atab ases .   I co n s is ts   o f   two   lev els:   i)   th co n s tr u ctio n   o f   clu s ter s   an d   C F s   an d   ii)  t h m er g in g   o f   cl u s ter s   an d   C Fs .   T h f ir s lev el  s to r es  s u m m ar izin g   in f o r m atio n   ab o u ea ch   clu s ter   in   C d ata  s tr u ctu r an d   u p d ate  th is   in f o r m atio n   o n ce   n ew  p atter n   is   ad d ed   to   th clu s ter   e. g   th C F i   o f   clu s ter   C i   i s   ( N,   L s 1 ,   Ss 1 ,   L s 2 ,   Ss 2 ,   …. ,   L s m ,   S s m )   wh er N   r ep r esen ts   th n u m b er   o f   p atter n s   in   th clu s ter ,   m   is   th n u m b er   o f   f ea tu r es  in   ea ch   p atter n   an d   L s m ,   Ss m   r ep r esen th lin ea r   s u m   an d   s q u ar s u m   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  23 ,   No .   2 Au g u s t   20 21 953   -   9 6 1   956   o f   f ea tu r e   m   f o r   all  p atter n s   in   C i .   At  th en d   o f   th co n s tr u ctio n   lev el,   th cl u s ter s   th at  h av p atter n s   l ess   th an   I tem min  th r esh o ld   will  b d is ca r d   im m ed iately   s in ce   th ey   ar n o is d ata.   I n   th m er g in g   lev el,   th m o s s im ila r   clu s t er s   ar m er g e d   as  d e f in ed   in   ( 4 ) .   T h m e r g in g   task   is   b a s ed   o n   a   d is s im ilar ity   m ea s u r e   th at  f in d   t y p ical   tr ad e - o f f   b etwe en   cl u s t er s   d en s ity   an d   th d is tan ce   b etwe en   th eir   ce n te r s   as  d ef in ed   in   ( 5 ) .   N o te  th at,   th e   m er g in g   le v el  is   ac tiv ated   wh e n   th last   p atter n   in   t h d ata  s e t is p r o ce s s ed .     Me r g ( CF i ,   C F j )   ( N i +N j , LS i 1 +L S j 1 ,   SS i 2 +S S j 2   …. ,   LS i m +L S j m ,   SS i m +S S j m )   ( 4 )     Dis tan ce   ( C i , C j )   | C ceni - C ce nj | - 0 . 5 ( C Di + C Dj )   ( 5 )     W h er C ceni ,   C cenj   ar t h ce n ter   o f   clu s ter s   C i   an d   C j ,   an d   C Di ,   C Dj   r ep r esen t   th e   clu s ter s   d en s ity   a n d   ca n   co m p u te   f r o m   CF i ,   C F j   p ar am eter s   b ased   o n   ( 6 )   an d   ( 7 ) .     C cen   L S/N     ( 6 )     C D = 2   2 ( 1 )     ( 7 )     I is   o b v io u s   th at  ( 5 )   g iv e s   p r io r ity   to   m er g i n g   two   lo o s cl u s ter s   to g eth er   r ath er   t h an   m er g in g   tig h clu s ter s   if   th d is tan ce   b etwe en   th eir   ce n ter s   is   ap p r o x im ate ly   eq u als.   T h is   is   b ec au s e,   th e   m er g in g   two   tig h clu s ter s   will  b r ea k   th eir   tig h t n ess   as  illu s tr ated   in   Fig u r e s   2 ( a)   an d   ( b ) .   T h cl u s ter s   m er g in g   p r o ce s s   is   co n tin u ed   till   th n u m b er   o f   clu s ter s   in   th tr ain in g   p h ase   b ec o m es  eq u al  to   f iv e.   T h is   d u to ,   th KDD - C u p 9 9   d ata  ar tag g e d   with   5   d if f er en lab els .   T h m ain   s t ep s   o f   tr ain in g   p h ase  ar illu s tr ated   in   Fig u r 3 .   Fin ally ,   T h C Fs   tech n iq u h a s   b ee n   c h o s en   f o r   th is   lev el  d u to   th eir   ab ilit y   t o   clu s ter   h ig h   d im en s io n al  d ata   with   s in g le  p ass   o v er   th d at wh ich   lead   to   s ig n i f ican tly   m in im ize  th r u n n in g   tim o f   t h tr ain in g   p h ase.           ( a)   ( b )     Fig u r 2 Me r g in g   cl u s ter s ;   ( a )   m er g in g   tig h t c lu s ter   an d   ( b )   m er g in g   l o o s clu s ter           Fig u r 3 T h tr ain in g   p h ase  o f   I DS - I class if ier       3 . 2 .       T he  t esting   ph a s e   T h s ec o n d   p h ase  o f   th I DS - I s y s tem   is   th test in g   p h ase,   it  aim s   to   class if y   th test in g   d ata  b ased   o n   th k - n ea r est  n eig h b o r s   ( K NN)   alg o r ith m .   T h KNN  cla s s if ier   h as  b ee n   u tili ze d   in   th is   p h ase  d u to   its   lo co m p u tatio n   co s t,  f ew  p a r am eter s ,   an d   class if y   th d at b ased   o n   n o n - lin ea r   d ec is io n   b o u n d a r ies.  T h e   k ey   n o tio n   b eh i n d   th KNN  class if ier   is   th at,   f o r   ev er y   p a tter n   in   th tr ai n in g   s et,   if   m o s o f   its     n ea r est  n eig h b o r   p atter n s   b elo n g   to   clu s ter   C i ,   th en   th p atter n   b el o n g s   to   th e   C i   clu s ter   [ 9 ] .   T h e   KNN  class if ier   in   th is   p h ase  h as u s ed   5 0 % o f   t h e   KDD - C u p 9 9   to   test   th class if icatio n   ac cu r ac y   o f   t h I DS - I class if ier .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       I n tr u s io n   d etec tio n   s ystem  b a s ed   o n   ma c h in lea r n in g   tech n i q u es   ( Mu s a a b   R iy a d h )   957   4.   RE SU L T A ND  D IS CU SS I O N   T h KDD - C u p 9 9   d ata  s et  is   u s ed   in   th is   wo r k   t o   tr ain   an d   test   th class if ier s   I DS - I D,   KNN ,   an d   SVM   in   o r d er   t o   ev alu ate  t h e ir   p er f o r m an ce ,   it  was  cr ea ted   an d   m an ag e d   b y   DARP b ased   o n   th o r g i n al  d ata   s et  f r o m   MI T   L in co l n   L a b o r ato r ies  to   e v alu ate  th r esear ch s   o n   a n   in tr u s io n   d etec tio n   s y s tem s .   T h d ata   s et  co n tain s   4 9 4 , 0 2 0   r ec o r d s   an d   ea c h   r ec o r d   h as  4 1   d i m en s io n s   o f   v ar io u s   ty p es  ( b in ar y ,   n o m in al,   an d   n u m er ic) .   T h ese  d im en s io n s   r ep r esen th n etwo r k   c o n ec tio n s   an d   ca n   b ca teg o r ized   in to   th r ee   m ain   class es:   th tr af f ic  f lo ( 1 9   d im en s io n s ) ,   th e   in tr in s ic  ty p es  ( 9   d i m en s io n s ) ,   an d   th c o n ten ty p ( 1 3   d i m en s io n s ) .   T ab le  2   illu s tr ate s   s m all  s a m p le  o f   th ese   d im e n s io n s .   T h I DS - ID   class if er   h as  b ee n   im p lem en te d   u s in g   Ma tlab   ( 2 0 1 2 a)   o n   in tel  co r i 3   h p   la p to p   with   win d o ws 7   o p r atin g   s y s tem .         T ab le  2 .   T C P c o n ec tio n   a ttrib u tes in   KDD - c up99   d ata  s et   C a t e g o r y   N a m e   F e a t u r e s N a mes   D a t a   t y p e   D e scri p t i o n   B a si c   A t t r i b u t e s   D u r a t i o n   I n t e g e r   c o n n e c t i o n   t i me   ( sec o n d s)   P r o t o c o l   t y p e   N o mi n a l   P r o t o c o l   k i n d   ( T C P   a n d   U D P )   C o n t e n t   A t t r i b u t e s   Lo g g e d   i n   B i n a r y   1   i f   su c c e ss t o   l o g i n   o t h e r w i z e b   0 .   N u mb e r   o f   u n s u c c e ssf u l   L o g i n s   I n t e r g e r   N u mb e r   o f   u n s u c c e ssf u l   l o g i n s   i n t o   a   c o n n e c t i o n   Tr a f f i c   A t t r i b u t e ( 2 s   t i me   w i n d o w   f r o d e s t .   t o   h o s t )   d e s t i n a t i o n   h o s t   c o u n t   I n t e g e r   c o n n e c t i o n s Su m t o   t h e   s a me   d e st i n a t i o n   I P   a d d r e ss   d e s t i n a t i o n   h o s t   sa me  sr v   r a t e   R e a l   P e r c e n t a g e   o f   c o n n e c t i o n s   t h a t   w e r e   t o   t h e   same   s e r v i c e ,   a mo n g   t h e   c o n n e c t i o n a g g r e g a t e d   i n t o   d e st i n a t i o n   h o st   c o u n t   ( P 3 2 )       No te  th at,   th e   KDD - C u p 9 9   p atter n s   ar tag e d   with   f iv d if f er en lab els:   th e   f ir s o n e   r ep r esen ts   th au th o r ized   ac tiv ites   an d   th o t h er   f o u r   lab els r ep r esen f o u r   k in d s   o f   attac k   ac tiv ities   as   lis ted   b elo w:   -   Den ial - of - s er v ice   ( Do s ) s o m co m p u ter   r eso u r ce s   ar u n a v ailab le  o r   to o   b u s y   t o   r esp o n s to   le g itima te  u s er ' s   r eq u ests .   -   R em o te - to - lo ca ( R 2 l) :   u n a u th o r ized   ac ce s s   is   d o n e   b y   r e m o te  d e v ice  i n   o r d er   to   d etec th e   v u ln er ab ilit ies o f   th m ac h in e.   -   User - to - r o o U2 r an   u n au t h o r ized   attac k   tr y s   to   ac ce s s   th p r iv ileg es  o f   lo ca s u p er u s er   ( r o o t)   th r o u g h   th e   s y s tem   v u ln er ab ilit ies.   -   Pro b Prb : a n   u n au t h o r ized   attac k   attem p t to   g et  i n f o r m atio n   ab o u t th e   tar g et  h o s t to   f in d   v u ln er ab ilit ies.     4 .1 .       D a t a   pre - pro ce s s ing   Pre - p r o ce s s in g   is   cr u cial  s tep   in v o lv e d   wh ile  d ea lin g   with   d ata  s ets b ef o r u s in g   it f o r   d a ta  an aly s is   an d   co n s tr u ctio n   class if ier   m o d els.   Var io u s   p r e - p r o ce s s in g   s tep s   h av b ee n   d o n in   t h is   s tu d y   s u c h   as:  f ir s tly ,   elim in atin g   d u p licates   f r o m   t h d ataset.   Seco n d l y m ap p i n g   s o m n o m in al  attr i b u tes  to   n u m e r ic - v alu e d .   T h ir d ly ,   m a p p in g   s o m n o m in al  attr ib u tes  ( e. g .   "p r o to c o l an d   “T C s tatu s   flag ”)   to   b in ar y   attr ib u tes.  Fin ally ,   n o r m alizi n g   s o m e   attr ib u tes  s in ce   th ey   h av e   d if f er en s ca les  s u ch   as  "d esti n atio n   h o s c o u n t”   wh ich   h as a   r an g o f   ( 0 - 2 5 5 ) ,   w h er ea s   “so u r ce b y tes” r an g es   ( f r o m   0   to   6 9 3 3 7 5 6 3 0 ) .       4 .2 .       P a ra m et er s   s ens it iv it y   T h p ar am eter s   D threshold   an d   K   r elate d   to   KNN  class if ier   in   th test in g   p h ase   ar s i g n if ican tly   af f ec tin g   t h class if icatio n   ac c u r ac y   o f   th I DS - I class if ier .   T h er ef o r e,   th class if icatio n   a cc u r ac y   o f   I DS - I D   h as  b ee n   test ed   f o r   d if f er en v alu es  o f   D threshold   ( f r o m   2   to   8 )   an d   ( 3 ,   5 ,   7 ,   9 ,   an d   1 1 )   t o   d eter m in th v alu es   wh ich   g iv th h ig h er   class if icatio n   ac cu r ac y   f o r   th I DS - I clas s if ier .   T h ex p er im en ts   illu s tr ate  th at   th b est v alu es th at  p er f o r m   th b est cla s s if icatio n   ac cu r ac y   ( 9 8 . 4 9 )   ar wh e n   D threshold   =4   an d   k =5   as illu s tr ated   in   T ab le  3 .       T ab le  3 .   T h ac cu r ac y   d etec ti o n   f o r   d if f e r en t v al u es o f   D thres hold   an d   k   b ased   o n   s elec ted   2 0   d im en s io n s   t hre s h ol d   K = 3   K = 5   K = 7   K = 9   K = 1 1   2   9 7 . 6   9 7 . 4 9   9 6 . 5   9 5 . 5 6   9 7 . 8   4   9 6 . 7 8   9 8 . 4 9   9 6 . 4   9 5 . 4 0   9 6 . 7 0   6   9 5 . 7 0   9 7 . 9 0   9 6 . 1 0   9 5 . 3 5   9 6 . 2 5   8   9 5 . 6 0   9 7 . 6 5   9 5 . 9 1   9 4 , 9 0   9 6 . 1 4       4 .3 .       E f f iciency   e v a lua t io n   T h ef f icien cy   ( r u n n in g   tim e)   o f   I DS - I D   class if ier   h as  b ee n   c o m p ar e d   with   KNN  an d   SVM   class if ier s   b ased   o n   2 0   s elec te d   d im e n s io n s   as  illu s tr ated   in   T ab le  4 .   T h e   co m p ar is o n   s h o ws  th at  th r u n n i n g   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  23 ,   No .   2 Au g u s t   20 21 953   -   9 6 1   958   tim o f   d ata  p r e - p r o ce s s in g   p h ase  f o r   I DS - I to o k   lo n g er   tim e   th an   KNN.   Ho wev er ,   th o v er all  r u n n in g   tim e   f o r   I DS - I D   ( 1 5 0 4   m in s )   is   less   th an   KNN  ( 2 1 7 3   m in s )   a n d   SVM  ( 4 1 5 5   m in s )   class if ier s   s in ce   th I DS_ I D   class if ier   is   b ased   o n   C F c o n ce p ts   wh ich   s ig n if ican tly   m in i m ize  th r u n n in g   tim e .         T ab le  4 .   T h r u n n in g   tim e   o f   t h I DS - I D,   SVM ,   an d   KNN   b ased   o n   s elec ted   2 0   d im en s io n s       D a t a   p r e p r o c e ss i n g   Tr a i n i n g   a n d   t e st i n g   o v e r a l l   K D D - C u p 9 9   d a t a   s e t   K N N   2 0   mi n s   2 1 5 3   m i n s   2 1 7 3   m i n s   S V M   -   4 1 5 5   m i n s   4 1 5 5   m i n s   I D S - ID   3 0   mi n s   1 5 0 4   m i n s   1 5 0 4   m i n s       4 .4 .       T he  c la s s if ica t io n per f o rm a nce   I n   th is   s ec tio n ,   th e   class if icati o n   ac c u r ac y   o f   th e   I DS - I cla s s if ier   is   co m p ar ed   with   th e   p er f o r m a n ce   o f   KNN,   a n d   SVM  class if ier s   b ased   o n   th e   d etec tio n   r ate   ( DR ) f alse  p o s itiv r ate  ( FR ) ,   a n d   ac cu r ac y   ( A)   [ 3 ] T h ese  m etice s   ar e   u s ed   b y   t h m o s t e x is tin g   s tu d ies   an d   d ef i n ed   in   ( 8) - ( 10 )      =  / (  +  )   ( 8 )      =  / (  +  )   ( 9 )     = (  +  ) / (  +  +  +  )   ( 10 )     W h er e :   Fals p o s itiv ( FP )   is   th n o r m al  p atter n s   n u m b er ,   wh ic h   is   class if ied   as a n   attac k   in s tan ce s .     Fals n eg ativ ( FN)   is   th e   attac k s   p atter n s   n u m b er ,   wh ic h   ar class if ied   as   a   n o r m al  in s tan ce s .     T r u p o s itiv ( T P)   is   th d etec ted   attac k s   n u m b e r   an d   in   f ac th ey   ar e   attac k s .   T r u n e g ativ ( T N)   is   th d etec ted   n o r m al  i n s tan ce s   n u m b e r   an d   in   f ac t t h ey   ar e   n o r m al.   T h f ir s s tep   to   ev alu ate  t h p er f o r m an ce   o f   th e   I DS - I cl ass if ier   is   to   f in d   t h e   co n f u s io n   m atr ix   b ased   o n   th e   KDD - C u p 9 9   as  elab o r ate  in   T a b le  5 .   I is   o b v io u s   th at  ( 9 8 . 49 %)   o f   th n o r m al  p atter n s   ca n   b e   clas s if ied   co r r ec tly ,   wh ile  th p er f o r m an ce   o f   I DS - I s h o ws   lo class if icatio n   r ate  to war d   U2 r   ( 5 . 4 %)  a n d   R 2 ( 6 . 4 6 %)  attac k s .   I n   a d d iti o n ,   f o u r   ex p er im en ts   h a v b ee n   d o n t o   ass ess   th p er f o r m a n ce   o f   th I DS - I D,   KNN,   an d   SVM  class if ier s   b ased   o n   KDD - C u p 9 9   d ata   s et:  th f ir s ex p er im en ts   u s ed   th ac tu al  d ata  with o u t   an y   ch an g e.   T h f in al  r esu lts   s h o ws  th at  th o v er all  ac cu r ac y   o f   I DS - I ( 9 2 . 8 5 )   is   b etter   th an   KNN  ( 9 1 . 5 3 ) ,   an d   SVM  ( 9 2 . 2 5 )   as  illu s tr ated   in   T ab le  6 .   Ho we v er ,   th d if f ir en ce   b etwe en   th e   class if icatio n   ac cu r ac y   o f   th th r ee   class if ier s   is   s m all.       T ab le  5 .   C o n f u s io n   m atr ix   o b t ain ed   with   I DS - I f o r   th fiv e   class es o f   th KDD - c up99     N o r mal   Prb   R 2 l   D o s   U 2 r   A c t u a l   C o r r e c t   N o r mal   5 9 5 8 7   5 9 8   80   1 4 5   88   6 0 4 9 8   9 8 . 4 9 %   Prb   4 1 5   3 6 4 0   21   79   5   4 1 6 0   8 7 . 5 %   R 2 l   1 5 0 0 3   81   1 0 5 5   23   52   1 6 2 1 4   6 . 4 6 %   D o s   4 3 5 0   1 5 2 5   5 1 7   2 2 3 4 6 0   0   2 2 9 8 5 2   9 7 . 2 1 %   U 2 r   55   1 5 8   12   0   13   2 3 8   5 . 4 %       T ab le  6 .   C lass ificatio n   ac cu r ac y   o f   KNN ,   SVM,   an d   I DS - I f o r   th KDD - c u p 9 9     M e t r i c   K N N   S V M   I D S - ID   N o r mal   D R %   9 7 . 2 6   9 6 . 4 5   9 8 . 4 9   F R %   8 . 8 5   8 . 6 5   8 . 5 5   Prb   D R %   8 0 . 4 5   8 5 . 3 5   8 6 . 2 5   F R %   0 . 4 0   0 . 4 0   0 . 7 5   R 2 l   D R %   6 . 4 5   7 . 2 0   6 . 2 0   F R %   0 . 1   0 . 2   0 . 2 1   D o s   D R %   9 7 . 1 5   9 6 . 9 5   9 7 . 5 5   F R %   0 . 5 5   0 . 9 5   0 . 4 0   U 2 r   D R %   1 1 . 8   9 . 2 0   4 . 3 6   F R %   0   0 . 1   0   O v e r a l l   A C %   9 1 . 5 3   9 2 . 2 5   9 2 . 8 5       I n   th s ec o n d   ex p er im en t,   th e   o v er all  class if icatio n   ac cu r ac y   o f   t h all  class if ier s   h av b e en   s lig h tly   d ec r ea s ed   d u to   r em o v i n g   5 o f   th e   d ata  b u s till   th e   th I DS - I class if ier   ( 92 . 2 4 )   h as  th e   h ig h est  class if icatio n   ac cu r ac y .   B esid es   th at,   th e   class if icatio n   ac cu r ac y   g ap   b etwe en   th I DS - I class if ier   an d ,   KNN   an d   SVM  clas s if ier s   h as  b e en   in cr ea s ed   as  illu s tr ated   i n   T ab le   7 .   T h class if icatio n   ac cu r ac y   is   s till   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       I n tr u s io n   d etec tio n   s ystem  b a s ed   o n   ma c h in lea r n in g   tech n i q u es   ( Mu s a a b   R iy a d h )   959   d ec r ea s in g   in   th t h ir d   an d   f o u r th   ex p er im e n ts   o f   th e   all  class if ier s   d u to   in cr ea s in g   th p er ce n tag r ate  o f   th e   r em o v in g   d ata  1 0   an d   1 5 %.  Ho wev er ,   th class if icatio n   p er f o r m a n ce   o f   t h I DS - I cla s s if ier   ( 9 1 . 0 )   is   s till   t h h ig h est  as  illu s tr ated   in   T ab le s   8   an d   9 .   Ultim ately th class if icat io n   ac cu r ac y   o f   I DS - I class if ier   is   b etter   th an   KNN  an d   SVM  wh en   r an d o m ly   r em o v i n g   5 ,   1 0 ,   an d   1 5   o f   t h d ata  in s p ite  o f   d r o p i n g   d o wn   th e   o v er all  d etec tio n   ac cu r ac y   o f   a ll c lass if ier s   a s   s h o wn   in   Fig u r 4 .       T ab le  7 .   C lass ificatio n   ac cu r ac y   o f   KNN ,   SVM,   an d   I DS - I af ter   r an d o m ly   elim in ate  5 % o f   th KDD - c u p 9 9   d ata  s et     M e t r i c   K N N   S V M   I D S - ID   N o r mal   D ER %   9 6 . 1   9 5 . 9   9 7 . 9   F P R %   8 . 5   8 . 2 4   8 . 1 5   Prb   D ER %   7 8 . 2   8 4 . 5   8 6 . 7   F P R %   0 . 4 0   0 . 4 1   0 . 7 3   R 2 l   D ER %   5 . 7 3   6 . 2 1   5 . 9   F P R %   0 . 0 8   0 . 1 7   0 . 1 8   D o s   D ER %   9 6 . 1 0   9 6 . 0 0   9 7 . 0 0   F P R %   0 . 4 1   0 . 8 1   0 . 3 4   U 2 r   D ER %   1 1 . 3   8 . 9 5   4 . 5 2   F P R %   0   0 . 0 9   0   O v e r a l l   A C %   8 8 . 9 4   8 9 . 3 4   9 2 . 2 4       T ab le  8 .   C lass ificatio n   ac cu r ac y   o f   KNN ,   SVM,   an d   I DS - I af ter   r an d o m ly   elim in ate  1 0 o f   th KDD - c up99   d ata  s et     M e t r i c   K N N   S V M   I D S - ID   N o r mal   D ER %   9 6 . 8 5   9 6 . 3 5   9 7 . 1 5   F P R %   8 . 5 6   8 . 3 1   8 . 2 6   Prb   D ER %   7 8 . 2   8 4 . 5 5   8 6 . 6   F P R %   0 . 4 0   0 . 4 2   0 . 7 0   R 2 l   D ER %   5 . 7 5   6 . 2 4   5 . 9 9   F P R %   0 . 0 8   0 . 1 7   0 . 1 8   D o s   D ER %   9 6 . 2   9 6 . 0 5   9 7 . 0 1   F P R %   0 . 3 9   0 . 7 9   0 . 3 2   U 2 r   D ER %   1 1 . 1 0   8 . 8 0   4 . 2 8   F P R %   0   0 . 0 7   0   O v e r a l l   A C %   8 8 . 3 5   8 8 . 8 8   9 1 . 0       T ab le  9 .   C lass ificatio n   ac cu r ac y   o f   KNN ,   SVM,   an d   I DS - I af ter   r an d o m ly   elim in ate  1 5 o f   th KDD - c up99   d ata  s et     M e t r i c   K N N   S V M   I D S - ID   N o r mal   D ER %   9 6 . 5 5   9 6 . 0 5   9 7 . 0 1   F P R %   8 . 5 0   8 . 2 4   8 . 2 0   Prb   D ER %   7 7 . 9   8 4 . 0 5   8 6 . 1   F P R %   0 . 3 8   0 . 4 1   0 . 6 7   R 2 l   D ER %   5 . 6 5   6 . 1 1   5 . 7 8   F P R %   0 . 0 7   0 . 1 6   0 . 1 7   D o s   D ER %   9 5 . 9   9 5 . 8   9 6 . 8 9   F P R %   0 . 3 7   0 . 7 7   0 . 3 0   U 2 r   D ER %   1 0 . 9 1   8 . 6 2   4 . 0 7   F P R %   0   0 . 0 5   0   O v e r a l l   A C %   8 7 . 6   8 8 . 3 3   8 9 . 7           Fig u r 4 .   T h d r o p p i n g   in   d ete ctio n   ac cu r ac y   af ter   r e m o v in g   5 ,   1 0 ,   an d   1 0   % o f   th d ata   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  23 ,   No .   2 Au g u s t   20 21 953   -   9 6 1   960   5.   CO NCLU SI O N   T h an aly s is   o f   t h in tr u s io n   d etec tio n   d ata  s et  b ased   o n   m ac h i n lear n i n g   tech n i q u es  is   ch allen g in g   task   d u to   its   m a s s iv s ize,   m ix ed - ty p attr ib u t es,  an d   th r ed u n d a n cy   o f   d at a .   B esid es  th at,   th e   d ata  m ay   b i n co m p lete  a n d   n o is ey .   I n   th is   s tu d y ,   a n   in tr u ti o n   d etec tio n   s y s tem   h as  b ee n   p r o p o s ed   to   tack le   th ese  is s u es,  i co n n s is ts   o f   tw o   p h ases :   th lear in g   p h ase  an d   test in g   p h ase.   T h lear n in g   p h ase  s u p p o r ts   th e   clu s ter   f ea tu r e   co n ce p to   s u m m ar ize  th e   d ata  s et  a n d   s p ec ia k in d   o f   s im ilar ity   m ea s u r es  t o   d ea l   with   m ix e d - ty p attr ib u tes  an d   in co m p l ete  d ata.   W h ile  th test in g   p h ase  u s es  th KNN  ca ls s if er   d u t o   its   lo co m p u tatio n al  co s t.  T h ex p e r im en tal  r esu lts   s h o ws  th at  th p r o p o s ed   class if ier   h as  h ig h er   class if icatio n   ac cu r ac y   an d   lo wer   r u n n in g   ti m in   ac tu al  d ata  an d   in co m p l ete  d ata  wh en   r an d o m ly   r em o v e   5 ,   1 0 ,   a n d   1 5 p er s an teg o f   d ata  in s p ite  o f   d r o p in g   d o wn   t h o v e r all  d etec tio n   ac cu r ac y   as  co m p ar e d   with   S VM   an d   KNN   class if ier .       ACK NO WL E DG E M E NT S   T h au th o r   wo u ld   lik to   th a n k   Mu s tan s ir iy ah   Un i v er s ity   ( www. u o m u s tan s ir iy ah . ed u . iq   B ag h d ad -   I r aq )   f o r   it   s u p p o r tin g   th p r esen t w o r k .       RE F E R E NC E S   [1 ]   S.  K.  S a h u   a n d   D.  P .   M o h a p a tra ,   " Re v iew   o n   S c a lab le  Lea rn i n g   Ap p ro a c h e o n   In tr u sio n   De t e c ti o n   Da tas e t, "   Pro c e e d in g o ICRIC   S p rin g e r v o l.   5 9 7 ,   p p .   6 9 9 - 7 1 4 ,   2 0 2 0 ,   d o i:   1 0 . 1 0 0 7 /9 7 8 - 3 - 0 3 0 - 2 9 4 0 7 - 6 _ 5 0 .   [2 ]   M .   P ra d h a n ,   C.   K.   Na y a k ,   a n d   S .   K.  P ra d h a n ,   " I n tru si o n   De tec ti o n   S y ste m   (IDS)   a n d   Th e ir   T y p e s,"   i n   S e c u rin g   t h e   In ter n e o T h in g s:  C o n c e p ts,   M e th o d o lo g ies ,   T o o ls,  a n d   A p p li c a ti o n s IG G lo b a l,   p p .   4 8 1 - 4 9 7 ,   2 0 2 0   d o i:   1 0 . 4 0 1 8 /9 7 8 - 1 - 5 2 2 5 - 9 8 6 6 - 4 . c h 0 2 6 .   [3 ]   M.  C.   Be lav a g i   a n d   B.   M u n iy a l,   " P e rfo rm a n c e   e v a lu a ti o n   o f   su p e r v i se d   m a c h in e   lea rn in g   a l g o rit h m fo i n tr u sio n   d e tec ti o n , "   Pro c e d ia   C o mp u ter   S c ien c e v o l.   8 9 ,   p p .   1 1 7 - 1 2 3 ,   2 0 1 6 ,   d o i:   1 0 . 1 0 1 6 /j . p ro c s. 2 0 1 6 . 0 6 . 0 1 6 .   [4 ]   N.  S u lt a n a ,   N.  Ch i lam k u rti ,   W.   P e n g ,   a n d   R.   Al h a d a d ,   " S u r v e y   o n   S DN   b a se d   n e two rk   in tr u sio n   d e tec ti o n   sy ste m   u sin g   m a c h i n e   lea rn in g   a p p r o a c h e s,"   Pee r - to - Pee Ne two rk in g   a n d   Ap p li c a t io n s v o l.   1 2 ,   n o .   2 ,   p p .   4 9 3 - 5 0 1 ,   2 0 1 9 d o i:   1 0 . 1 0 0 7 /s1 2 0 8 3 - 0 1 7 - 0 6 3 0 - 0.   [5 ]   A.  Kh ra isa t ,   I.   G o n d a l,   P .   Va m p ley ,   a n d   J.   Ka m ru z z a m a n " S u r v e y   o f   in tru si o n   d e tec ti o n   sy ste m s:  tec h n iq u e s,  d a tas e ts an d   c h a ll e n g e s,"   Cy b e rs e c u rity v o l.   2 ,   n o .   1 ,   p p .   1 - 2 0 ,   2 0 1 9 ,   d o i:   1 0 . 1 1 8 6 /s4 2 4 0 0 - 0 1 9 - 0 0 3 8 - 7.   [6 ]   N.  Ug tak h b a y a r   B.   Us u k h b a y a r,   a n d   S .   Ba ig a lt u g s,   " H y b ri d   M o d e l   fo r   An o m a l y - Ba se d   In tr u sio n   De tec ti o n   S y ste m , "   Pr o c e e d in g o Ad v a n c e in   In telli g e n In fo rm a t io n   Hid i n g   a n d   M u lt ime d ia   S i g n a Pr o c e ss in g   S p ri n g e r p p .   4 1 9 - 4 3 1 ,   2 0 2 0 ,   d o i:   1 0 . 1 0 0 7 / 9 7 8 - 9 8 1 - 13 - 9 7 1 0 - 3 _ 4 4 .   [7 ]   S .   Kris h n a v e n i ,   e t   a l . ,   " A n o m a ly - Ba se d   In tr u sio n   De tec ti o n   S y ste m   Us in g   S u p p o rt   Ve c to M a c h in e , "   Pro c e e d i n g s   of   Arti f icia I n telli g e n c e   a n d   Ev o l u ti o n a ry   C o mp u ta ti o n in   E n g in e e rin g   S y ste ms   sp rin g e r 2 0 2 0 ,   p p .   7 2 3 - 7 3 1 .   [8 ]   H.  Wan g ,   J.  G u ,   a n d   S .   Wan g ,   " A n   e ffe c ti v e   i n tru si o n   d e te c ti o n   fra m e wo rk   b a se d   o n   S V M   with   fe a t u re   a u g m e n tatio n , "   Kn o wled g e - Ba se d   S y ste ms ,   v o l .   1 3 6 ,   p p .   1 3 0 - 1 3 9 ,   2 0 1 7 ,   d o i:   1 0 . 1 0 1 6 /j . k n o sy s.  2 0 1 7 . 0 9 . 0 1 4 .   [9 ]   Y.  Li a o ,   a n d   V.  Ve m u ri,   " Us e   o k - n e a re st  n e ig h b o c las sifier  fo in tr u sio n   d e tec ti o n , "   C o mp u t e rs   &   se c u rity   v o l.   2 1 ,   n o .   5 ,   p p .   4 3 9 - 4 4 8 ,   Oc to b e 2 0 0 2 ,   d o i:   1 0 . 1 0 1 6 / S 0 1 6 7 - 4 0 4 8 (0 2 )0 0 5 1 4 - X.   [1 0 ]   W.   L i ,   P .   Yi,   Y.   Wu ,   L .   P a n ,   a n d   J.  Li ,   " A n e i n tru si o n   d e tec ti o n   sy ste m   b a se d   o n   KN c las sifica ti o n   a lg o rit h m   in   wire les se n so n e two rk , "   J o u rn a o f   El e c trica a n d   Co m p u ter   En g i n e e rin g v o l.   2 0 1 4 ,   n o .   5 ,   p p .   1 - 8,   2 0 1 4   doi :   1 0 . 1 1 5 5 /2 0 1 4 / 2 4 0 2 1 7 .   [1 1 ]   Y.  J.  Ch e w,  S .   Y.  Oo i,   K o k - S e n g   Wo n g ,   a n d   Y.  H.  P a n g ,   " De c isio n   Tree   with   S e n siti v e   P ru n in g   in   Ne two rk - b a se d   In tru si o n   De tec ti o n   S y ste m , "   Pr o c e e d in g o C o mp u ta ti o n a S c ien c e   a n d   T e c h n o l o g y   S p rin g e r v o l .   6 0 3 ,   p p .   1 - 1 0 ,   2 0 2 0 ,   d o i:   1 0 . 1 0 0 7 / 9 7 8 - 9 8 1 - 15 - 0 0 5 8 - 9 _ 1 .   [1 2 ]   S.  M .   M o u sa v i,   V.   M a ji d n a z h a d ,   a n d   A.  Na g h ip o u r ,   " n e in te ll ig e n t   i n tru si o n   d e tec to r   b a se d   o n   e n se m b le  o d e c isio n   tree s,"   J o u rn a o Am b ien In telli g e n c e   a n d   Hu m a n ize d   C o mp u t in g 2 0 1 9 ,   p p .   1 - 1 3 ,   d o i:   1 0 . 1 0 0 7 /s1 2 6 5 2 - 019 - 0 1 5 9 6 - 5 .   [1 3 ]   M .   G .   S c h u lt z ,   E .   Esk in ,   F .   Za d o k ,   a n d   S .   J.   S t o lfo ,   " Da ta  m i n in g   m e th o d f o d e tec ti o n   o f   n e m a li c io u e x e c u tab les , "   Pr o c e e d in g 2 0 0 1   IEE E   S y mp o siu o n   S e c u rity   a n d   Priva c y .   S & P   2 0 0 1 ,   2 0 0 1 ,   p p .   3 8 - 4 9 ,     d o i:   1 0 . 1 1 0 9 /S EC P RI. 2 0 0 1 . 9 2 4 2 8 6 .   [1 4 ]   M .   Zam a n a n d   M .   M o v a h e d i ,   " M a c h i n e   Lea rn i n g   Tec h n i q u e fo I n tru si o n   De tec ti o n , "   a rXiv  p re p ri n a rXiv:1 3 1 2 . 2 1 7 7 2 0 1 3   [1 5 ]   A.  I.   S a leh ,   F .   M .   Tala a t,   a n d   L.   M .   Lab i b ,   " h y b rid   i n tru si o n   d e tec ti o n   sy ste m   (HID S )   b a se d   o n   p ri o rit ize d   k - n e a re st  n e ig h b o rs  a n d   o p ti m ize d   S VM  c las sifiers , "   Art if icia l   In telli g e n c e   Rev iew v o l.   5 1 ,   n o .   3 ,   p p .   4 0 3 - 4 4 3 ,   2 0 1 9 d o i:   1 0 . 1 0 0 7 /s1 0 4 6 2 - 0 1 7 - 9 5 6 7 - 1.   [1 6 ]   G .   M y lav a ra p u ,   J.  Th o m a s,  a n d   A.  K.  TK,   " Re a l - Ti m e   Hy b rid   I n tru sio n   De tec ti o n   S y ste m   Us in g   Ap a c h e   S to rm , "   2 0 1 5   IEE E   1 2 t h   I n ter n a ti o n a l   Co n fer e n c e   o n   Em b e d d e d   S o ft wa re   a n d   S y ste ms ,   2 0 1 5 ,   p p .   1 4 3 6 - 1 4 4 1 ,     d o i:   1 0 . 1 1 0 9 /HP CC - CS S - ICES S . 2 0 1 5 . 2 4 1 .   [1 7 ]   W.  L.  Al - Ya se e n ,   Z.   A.  Oth m a n ,   a n d   M .   Z.   A.  Na z ri,   " M u lt i - le v e h y b rid   su p p o rt  v e c to m a c h i n e   a n d   e x trem e   lea rn in g   m a c h in e   b a se d   o n   m o d i fied   K - m e a n fo i n tr u si o n   d e tec ti o n   sy ste m , "   Ex p e rt  S y ste ms   wit h   A p p li c a ti o n s v o l.   6 7 ,   p p .   2 9 6 - 3 0 3 ,   Ja n .   2 0 1 7 ,   d o i:   1 0 . 1 0 1 6 / j. e sw a . 2 0 1 6 . 0 9 . 0 4 1 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       I n tr u s io n   d etec tio n   s ystem  b a s ed   o n   ma c h in lea r n in g   tech n i q u es   ( Mu s a a b   R iy a d h )   961   [1 8 ]   G .   Do n g ,   Y.  Ji n ,   S .   Wan g ,   W.   L i,   Z.   Ta o ,   a n d   S .   G u o ,   " DB - Km e a n s:An   In tr u sio n   De tec ti o n   Alg o rit h m   Ba se d   o n   DBSCAN  a n d   K - m e a n s,"   2 0 1 9   2 0 t h   Asia - Pa c if ic  Ne two rk   Op e r a ti o n a n d   M a n a g e me n S y mp o si u (AP NOM S ) 2 0 1 9 ,   p p .   1 - 4 ,   d o i:   1 0 . 2 3 9 1 9 /AP NO M S . 2 0 1 9 . 8 8 9 2 9 1 0 .   [1 9 ]   Z.   Ch e n   a n d   Y .   Li ,   " An o m a ly   d e tec ti o n   b a se d   o n   e n h a n c e d   DB S c a n   a lg o ri th m , "   Pro c e d i a   En g i n e e rin g v o l .   1 5 ,     p p .   1 7 8 - 1 8 2 ,   2 0 1 1 ,   d o i:   1 0 . 1 0 1 6 / j . p ro e n g . 2 0 1 1 . 0 8 . 0 3 6 .   [2 0 ]   C.   G u o ,   Y.  Zh o u ,   Y.  P i n g ,   Z.   Z h a n g ,   G .   Li u ,   a n d   Y.  Ya n g ,   " d istan c e   su m - b a se d   h y b ri d   m e th o d   f o in tr u si o n   d e tec ti o n , "   A p p li e d   i n telli g e n c e v o l.   4 0 ,   n o .   1 ,   p p .   1 7 8 - 1 8 8 ,   2 0 1 4 ,   d o i:   1 0 . 1 0 0 7 /s 1 0 4 8 9 - 0 1 3 - 0 4 5 2 - 6.   [2 1 ]   W ei - C h a o   Li n ,   S h i h - Wen   Ke ,   a n d   C h ih - F o n g   Tsa i,   " CAN N:  An   in tru si o n   d e tec ti o n   sy ste m   b a se d   o n   c o m b i n in g   c lu ste c e n ters   a n d   n e a re st  n e ig h b o rs, "   K n o wle d g e - b a se d   s y ste ms v o l.   7 8 ,   p p .   1 3 - 2 1 ,   Ap ril   2 0 1 5   d o i:   1 0 . 1 0 1 6 /j . k n o sy s. 2 0 1 5 . 0 1 . 0 0 9 .   [2 2 ]   B.   M a n j u n a t h a   a n d   P .   G o g o i.   " An o m a ly   b a se d   i n tr u sio n   d e tec ti o n   in   m ix e d   a tt ri b u te  d a tas e u si n g   d a ta  m in in g   m e th o d s,"   J o u r n a l   o f   Arti fi c i a In telli g e n c e v o l.   9 ,   n o 1 - 3 ,   p p .   1 - 1 1 ,   2 0 1 6 .   [2 3 ]   V.  S h a k y a   a n d   R.   R.   S .   M a k wa n a ,   " F e a tu re   se lec ti o n   b a se d   in tr u sio n   d e tec ti o n   sy ste m   u sin g   th e   c o m b in a ti o n   o f   DBSCAN,  K - M e a n + +   a n d   S M a lg o rit h m s,"   2 0 1 7   In ter n a ti o n a l   Co n fer e n c e   o n   T re n d in   El e c tro n ics   a n d   In fo rm a t ics   (ICEI ) ,   2 0 1 7 ,   p p .   9 2 8 - 9 3 2 ,   d o i:   1 0 . 1 1 0 9 /ICOEI. 2 0 1 7 . 8 3 0 0 8 4 3 .   [2 4 ]   K.  S .   Bh o sa le,  M .   Ne n o v a ,   a n d   G .   Ili e v ,   " M o d ifi e d   Na iv e   Ba y e s   In tru si o n   De tec ti o n   S y ste m   (M NBID S ), "   2 0 1 8   In ter n a t io n a C o n fer e n c e   o n   C o mp u ta ti o n a l   T e c h n iq u e s,  El e c tro n ics   a n d   M e c h a n ica S y ste ms   (CT EM S ) ,   2 0 1 8 ,     p p .   2 9 1 - 2 9 6 ,   d o i:   1 0 . 1 1 0 9 /CT E M S . 2 0 1 8 . 8 7 6 9 2 4 8 .   [2 5 ]   J .   H u s s a i n   a n d   S .   L a l m u a n a wm a ,   " F e a t u r e   a n a l y s is ,   e v a l u a t i o n   a n d   c o m p a r i s o n s   o f   c l a s s i f ic a t i o n   a l g o r i t h m s   b a s e d   o n   n o i s y   i n t r u s i o n   d a t a s e t , "   P r o c e d i a   C o m p u t e r   S c i e n c e v o l .   9 2 ,   p p .   1 8 8 - 1 9 8 ,   2 0 1 6 ,   d o i :   1 0 . 1 0 1 6 / j . p r o c s . 2 0 1 6 . 0 7 . 3 4 5 .   [2 6 ]   X .   Z u o ,   Z .   C h e n ,   L .   D o n g ,   J .   C h a n g ,   a n d   B .   H o u ,   " P o w e r   i n f o r m a t i o n   n e t w o r k   i n t r u s i o n   d e t e c t i o n   b a s e d   o n   d a t a   m i n i n g   a l g o r i t h m , "   T h e   J o u r n a l   o f   S u p e r c o m p u t i n g ,   v o l .   7 6 ,   n o .   7 ,   p p .   1 - 1 9 ,   2 0 1 9 ,   d o i :   1 0 . 1 0 0 7 / s 1 1 2 2 7 - 019 - 0 2 8 9 9 - 2 .   [2 7 ]   M .   Riy a d h ,   N.  M u sta p h a ,   a n d   D .   Riy a d h ,   " Re v iew   o Traje c to ri e S imilarity   M e a su re in   M in i n g   Alg o r it h m s,"   2 0 1 8   Al - M a n s o u I n ter n a ti o n a l   Co n fer e n c e   o n   Ne T re n d i n   Co mp u ti n g ,   Co mm u n ica t io n ,   a n d   I n f o rm a ti o n   T e c h n o l o g y   (N T CCIT ) ,   2 0 1 8 ,   p p .   3 6 - 4 0 ,   d o i:   1 0 . 1 1 0 9 /NTCCI T. 2 0 1 8 . 8 6 8 1 1 8 6 .   [2 8 ]   J.  Ha n ,   J.  P e i ,   a n d   M .   Ka m b e r,   Da ta   mi n i n g c o n c e p ts  a n d   tec h n iq u e s ,   USA:  M o rg a n   Ka u fm a n n ,   2 0 1 1 .   Evaluation Warning : The document was created with Spire.PDF for Python.