TELKOM NIKA , Vol. 11, No. 12, Decem ber 20 13, pp.  7339 ~73 4 3   e-ISSN: 2087 -278X           7339      Re cei v ed  Jun e  25, 2013; Revi sed  Jul y  2 8 , 2013; Acce pted Augu st 15, 2013     A New Method for Intrusion Detection using Manifold  Learning Algorithm      Guoping Ho u 1 , Xuan Ma 1 , Yuelei Zhang 2    1 Cho n g q in g El ectric Po w e r C o lle ge, No. 9  W u lo ngmi ao, Jiu l ong po District, Cho ngq in g 40 0 053, Ch in a   T e l: 86-23-68 5 014 90   2 Unit 94 27 0 of PLA, No.19 H a ngk o ng R oad,  Jina n 25 011 7, Chin a   T e l: 86-521-8 6 710 09 1   Corresp on din g  author, e-mai l : houg uo pin g 1 9 82@ 163.com 1 ,  z y l3 83 6@1 63. com 2       A b st r a ct   Co mp uter an d  netw o rk security has rec e ive d  an d w ill still receiv e  much  attenti on. Any  unex pecte d i n trusio n w ill  da mage t he  netw o rk. It is theref or e i m p e rativ e  to  detect th e n e tw ork intrusio n t o   ensur e th e n o r ma l o per atio n  of the  i n tern et. T here  are   ma ny stu d ies   in th e i n trusi o n d e tectio n a n d   intrusi on p a tter recog n itio n. T he artifici al n e u r al netw o rk (A NN) has  prove n  to be p o w e rful for the i n trus io n   detectio n . H o w e ver, very  little  w o rk has  disc ussed  the  opti m i z at io n of th e  inp u t i n trusio n  features  for th e   ANN. Gen e ral l y , the i n trusi o n  features  co nta i a cert ain  n u m b e of us eles s features,  w h i c h is  use l ess  for  the i n trusio n d e tection.  Larg e  di m ens ions   of the fe ature  data w i l l  a l so  affect the i n trusio n d e tectio n   perfor m a n ce  of the AN N. In  or der to  i m pr ove  the  ANN  p e rfor ma nce,  a n e w  appr oach  for  n e tw ork intrusi o detectio n   base d  o n   non lin ea r feature  d i me nsio n re duc tion  an d AN N i s  p r op o s ed   i n   th i s  wo rk. Th e   ma nifo ld le arni ng al gorith m  w a s used to red u ce the  intrus i on feature vect or. T hen an ANN classifi er wa s   empl oyed  to  id entify the  i n tru s ion. T h effici ency  of the  pr opos ed  metho d  w a s ev al uat ed w i th th e r e al  intrusi on d a ta. T he test result show s tha t  t he prop ose d  ap proac h h a s go od i n tru s ion  detectio n   perfor m a n ce.      Ke y w ords : intr usio n detecti on , nonli n e a r feature red u ctio n,  artificial  neur al  netw o rk, man i fold l earn i n g        Copy right  ©  2013 Un ive r sita s Ah mad  Dah l an . All rig h t s r ese rved .       1. Introduc tion  Great adva n c e s  have be en made in  the field of commu nication and co mpute r   techn o logy in  re cent ye ars.  The i n ternet  now is  indi sp ensi b le fo r p e ople’ s life. Ho wever,  due  to  compl e x operation enviro n m ent, the network suffers fr om vario u s o ffensives an d  violations. It is  therefo r e im p e rative to  de tect the  network intr usi o n  to en su re t he n o rm al o peratio n of t he  intnet. The intrusi on dete c ti on re sea r ch h a he nce re ceived extensi v e attentions  [1].  Intrusio n dete c tion is  cruci a l for com puter  security and  defen se. Terrible intru s ion  may   damag e the internet for  wee k s [2]. To reali z effe ctive intru s io n detectio n , many advan ced  techn o logie s   have b een  propo sed, i n cl u d ing th a r tificial neu ral ne twork (ANN)  [3],  roug h set s   [1], and sup port vector  machi ne (SV M ) [4] et c. Among them, ANN is the  most pro m isi ng  method [5]. ANN h a s the a b ility to find the nonlin ea r con n e c tion b e twee n the Intrusio n features  and the Intru s ion  pattern s,  and h a bee n wid e ly us e d  in the Intru s i on dete c tion.  Ho wever, A N N   detectio n  pe rforman c e i s   mainly dete r mined  by it s stru ctu r al p a ram e ters, e s pe cially by  the  input featu r e   vector of the  i n trusi o n  data.  Alt houg h the  pri n ci pal  co mpone nt a nal ysis  (PCA an its derivative  algorithm have bee n proved to be  a useful tool  for feature  redu ction a n d   extraction  to  improve  the  netwo rk attack d e tect ion accuracy, thei r main li mitation lies in their  ability is to capture the nonlinea r properties of the original dat a [6-8]. The sam e  problem s  are  also fou nd in  other line a method s [7], inclu d ing m u lti-dimen s io na l scali ng (MDS) and lin ea discrimi nate  analysi s  (L DA). Fortunat ely, the  manifold learni ng  algorithm provide a n e w   mean s to dea l with the nonl inear dim e n s i onality redu ct ion pro b lem s . The Isoma p  [6] and locally  linear em bed ding (L LE) [7] etc., are able to deal  with the underlyin g nonline a r b ehavior of th e   data. Co mpa r ed  with the   linear metho d s, the  purp o se  of manif o ld lea r nin g  i s  to p r oje c t t he  origin al hig h -dimen sion al  data into  a lo wer di me nsi o nal featu r space by p r e s erving th e lo cal  topology of t he o r iginal  d a ta [9-1 0]. Th us, the i n trin sic st ru cture  o f  the data of i n tere st can b e   extracted effe ctively.  Evaluation Warning : The document was created with Spire.PDF for Python.
                               e-ISSN: 2 087-278X   TELKOM NIKA  Vol. 11, No . 12, Dece mb er 201 3:  733 9 – 7343   7340 The a d vantag e of the  Isom ap a nd  LLE i n  the i n tru s io n dete c tion  is the id entifica t ion o f   unde rlying n o n linea r manif o ld. Ho weve r, in the ident i f ication of n o nlinea r manif o ld the Isom ap   and L L E ma inly use  the  neigh bo rhoo d graph s, which  so meti mes m a y fai l  to en sure t he  con n e c tedn e s s of th con s tru c ted  nei g hborhoo d g r a phs. In  o r de to improve th e robu stne ss  of  the neig hbo rhood  gra p h s   of the manifo ld learning  al grithm to e n h ance the int r usio n dete c ti on,  this wo rk p r ese n ts a ne w method b a se d on the  improved L L E. An adap tive schem e  is  prop osed to  build  suitabl e  neigh bo rhoo d graph s. By  doing  so, it is rea s on able  to red u ce th e   origin al featu r e spa c e an d  find the disti n ct nonl i nea r cha r a c teri stics a bout the  intrusi on data .   Then,  an A N cla ssifie r  i s  empl oyed to  re co gni ze  th e intrusi on  p a tterns.  By i m pleme n ting  the  intrusi on det ection expe ri ments, the a nalysi s  re su lt s sh ow that the feature re ductio n  is very  essential in the intru s ion  detectio n  because t he orig inal feature  spac e have m any redu nda nt  feature s  to inf l uen ce the int r usi on id entificati on. Elimin ate these re d unda nci e ca n enh an ce th intrusi on dete c tion. In addit i on, the com p arisi on of the  improved L L E  and the ori g inal LLE ha been don e. The comp ari s ion re sult shows  that  th e improved  LLE with  ad aptive sche me   outperfo rm s the origi nal LL E in the intrusion dete c tion.       2. Rese arch  Metho d   2.1. The Improv ed LLE  Here in we p r opo se a n  ad aptive schem e to build sui t able neig hbo rhoo d graph s. The   details a r e ex pre s sed bel o w Given a nonli near  high -di m ensi onal d a t aset 12 [] p l SR  ss s , where  l  is  the total  sampl e  num b e r an p  the  dimen s ion a lity of each  sa mple, the  obj ective of LLE  is to re co nstruct   a nonli nea mappin g  to  proje c S  int o  a redu ced  manifold  sp ace  12 [] q rr r r l SR  ss s   ( q << p ). The i m prove d  LLE  algorithm i s  descri bed a s   followin g Step 1: Comp ute  k  neig hbo urs of eve r y sample.   Step 2: Identify the neighborh ood g r a ph and fi nd s the points o u t of the con necte d   grap h.  Step 3: Incre a se  k  if exist unconn ecte d points. Othe rwise, go to step 5   Step 4: Comp ute new  k  ne are s t neigh bo rs.    Step 5: Compute the local  re co nst r u c tion weight matrix  W  by minimizing the fol l owi n g   co st function:     2 11 mi n ( ) ( ) lk i ji i j ij Ww s s   -                                                                                          (1)    Whe r i j w is the weig ht values. If i s and j s are not  neighb ours,  0 i j w and 1 1 i j k w j .   Step 6: Map  the origin al  dataset int o  the embe dded  coo r di nates. Comp ute the  r e co ns tr uc te q -dime n si on al manifold space r S by minimizing the foll owin g co nstraint:    2 11 mi n ( ) lk i r i j rij ij s Sw s r                                                                                                     (2)    Whe r e ri s is the proje c tion ve ctor of i s in the embed ded  co ordin a tes, an d rij s are the n e ig hbou rs  of ij s . Equation (2) ca n be rewritten as:      11 mi n ( ) ( ) lk iT T r j ri rj r r ij Sm s s t r S M S    ,                                                                                 (3)    Whe r e the  co st matrix  M  can be expressed a s :   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   e-ISSN:  2087 -278X       A New Meth o d  for Intrusi o n  Detectio n usi ng Manifold L earni ng Algo rithm  (Guopin g  Hou )     7341 () () T ll ll M IW IW   .                                                                                                          (4)    Hen c e, the  m i nimizatio n  of  (4) can b e  re duced to  an  eigenvalu e  p r oblem, a n d r S co uld  be determine d by the  q  sm allest no nzero eigenve c tors of  M .     2.2. The Bac k propa gatio n  Neur al Netw o r k (BPNN)  A neu ral  net work ha natural  p r op ensity fo storing  expe rie n tial kno w led ge a n d   makin g  it available fo r u s e. Then the  Input -O utput Mappin g   p r o perty  and ca pability  ca n be  provide d  by the ANNs [8 -13]. One of  the mo st co mmonly use d  sup e rvi s ed  ANN mo del  is  BPNN. The B P NN u s e s  o n e  of the well-kno w algo rithms, ba ckp r o pagatio n lea r ning alg o rith [13]. The structure of BPNN i s  arra ng ed into di fferent layers: input layer, mi ddle laye r an output layer. The wo rkflow of the BPNN  can b e  expre s sed a s  follo ws [8 -13]:   (1) Th e in put  layer  pro pag ates  parti cu lar i nput ve ct or’s  comp one nts to  ea ch  n ode i n   the middle la yer.  (2)  The mi ddl e layer n ode s comp ute out put value s , which  be come  inputs to th node of the output layer.  (3) T he outpu t layer node s comp ute the netwo rk  o u tp ut for the part i cula r input vector.   The forwa r pass p r od uces a n  outp u t vector fo r a  given inp u t vector b a sed  on th e   curre n t state  of the network  wei ghts.  Since  the  ne twork weight s are initiali zed to ra ndo values, it is  unlikely that rea s on able  o u tputs  will re sult befo r e training. Altho ugh the  wei g hts  can  be  adju s ted to redu ce the e r ror  b y  prop agat in g the o u tput  error  ba ckwa rd th roug h th netwo rk,  the  traini ng  ma y suffer fro m  the l o cal mi nimum. T h u s , the imp r ov ed L L E featu r redu ction i s  a n  efficient co mpen sation t o  the training  pro c e ss of th e ANN.     2.3. The Proposed Intr us ion Detectio n Method   In this pape r the improved  LLE-ANN are use d  for the netwo rk intrusio n detecti on. Th e   prop osed net work intrusi o n detectio n   proce s se s are  given as follo ws:    Step 1: Pre-treat the origin al netwo rk in t r usi on data to  standa rdi z ed  data format.  Step 2: Extra c t distin ct features from the  input network int r u s ion  data in the form of   manifold by improve d  LLE Step 3: T r ain  the BP NN u s ing  the  ne w features,  an d dete r min e  t he n e two r k in trusio n   detectio n  re sult accordi ng  to each ANN  model outp u t.  Step 4: Test  the perfo rma n ce of the  propo sed n e twork i n tru s ion  detectio n  mo del, and   provide the t e st re sult as the base fo r a va lid network intru s io n manag eme n t deci s ion. A  diagram block of the proposed network i n trusi on detection method is illustrated i n  Figure 1.        Figure 1. The  Netwo r k Intrusio n Dete ct i on ba sed o n  the Improve d  LLE and ANN      2.4. Experiments   In orde r to e v aluate the  perfo rman ce  of  the prop o s ed  com pute r  intru s ion m e thod,  experim ent tests  have b een impl eme n ted in th is work. Figu re 2 sh ows t he expe rime nt  prin ciple. A mini com put er network h a s be en  esta blish ed to co ndu ct the experim ents. T he  comp uter net work is comp ose d  of  a lin u x  se rver , a   wi ndo ws serve r , the web  link,  two li nux h o st  and fo ur  win dows  host s Some ma nua l attacks hav e be en  simul a ted a nd te sted u s ing thi s   experim ental system.   In this wo rk, the De nial of  Service  (DoS),  Rem o te to Local (R2L ), User to  Root  (U2 R and Pro be o r  Sca n  (PoS ) are intro d u c ed into  th e  experime n t system to va lidate the ne detectio n  method. Forty-on e feat ure s  are monitored  and re co rd ed  for every intrusi on. The s feature s  in cl ude the byte s issue d  fro m  sou r ce  to destin a tion, the bytes fro m  destin a tio n  to  Evaluation Warning : The document was created with Spire.PDF for Python.
                               e-ISSN: 2 087-278X   TELKOM NIKA  Vol. 11, No . 12, Dece mb er 201 3:  733 9 – 7343   7342 sou r ce, duration, teard r op,  nept un e, etc. There a r e 5, 000 sample for each intru s ion type an the total sam p les a r e 20,0 00.          Figure 2. The  Principl e of the Experime n t Tests      3. Results a nd Analy s is  In experi m ent s,  L L E was a dopted  to red u ce  the  41 di mensi on  of th e ori g inal  dat a to 2   and 3  dime n s ion s , respe c tively. Figure  3 sho w s th e  feature  re du ction  re su lt o f  the improve d   LLE with 2 di mensi o n s , an d  Figure 4 shows the  feat ure redu ction  result  of the improve d  LL with 3  dimen s ion s . It ca be seen  from  Figure 3  and  Figure 4 th at after featu r redu ction  the r e   are o b viou boun deri e b e twee n different intru s ion  type besi d e s  som e  overl a ps. Hen c e, the  feature  red u ction ca n effici ently eliminte  the usel e ss f eature s  in  th e origi nal feat ure ve ctor  an extract the m o st distin gui shed informati on for t he intrusio n dete c tion. Mo re over, it can provi de  a virtual  3D  pre s entatio of the intrusi on feat u r space u s ing  3  dimen s io ns  in the featu r redu ction.           Figure 3. Fea t ure re du ction  result of the  Improved L L E  with 2 Dim ensi o n s   Figure 4. Fea t ure Re du ctio n Re sult of the  Improved L L E  with 3 Dim ensi o n s       In the intru s i on re co gnitio n , 3, 000 sa mples  of ea ch intru s ion ty pe was u s e d  for train   the ANN, an d  the remind ers we re u s ed f o r testi ng. Ta ble 1 lists the  intrusio n det ection results  usin g the  pro posed m e tho d . He re in  th e dete c tion  rate and  false  positive  rate  we re u s e d  t o   evaluate the  ntrusio n  det ection pe rformance. The detectio n  rat e  mean s the  hits of correct  sampl e s to th e total sampl e s an d the false po sitive ra te is defined  as the mi scla ssifi cation s.         -2 0 2 4 6 8 10 12 -2 0 2 4 6 8 10 12 F eat u r e 1 F eat u r e 2     U2 R Do S R2 L Po S -2 0 2 4 6 8 10 1 2 -5 0 5 10 15 -4 -2 0 2 4 6 8 F e a t u r e   2 F e a t u r e   1   Fe a t ur e  3 Do S R2 L U2 R Po S Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   e-ISSN:  2087 -278X       A New Meth o d  for Intrusi o n  Detectio n usi ng Manifold L earni ng Algo rithm  (Guopin g  Hou )     7343 Table 1. The  Perform a n c of the ANN Detection    Feature  reductio n  method   KPCA-PSO -SVM    Detection rate ( % )   False positive rate (% )   None   81.6  13.8  LLE  w i th 2 dimen s ions  90.2  6.4  LLE  w i th 2 dimen s ions  90.6  6.8  Improved LLE  w i th 2 dimensions  93.8  6.6  Improved LLE  w i th 3 dimensions  94.4  6.4      The intru s io n  detection  pe rforma nce of  the  use of L L E feature  selectio n and  without  the LLE sele ction is com pare d  in Tab l e 1. It  can be see n  fro m  Table 1 that by the LLE  pro c e ssi ng, t he di stinct fe ature s  a r e o b t ained a nd th us the i n tru s i on dete c tion  rate is e nha nced  by 8.6% or better and the  false po sitive rate is  d e creased at lea s t by 7.4%. H ence, it can be   see n  that th e  LLE fe ature   sele ction  can  improve  the  intrusi on dete c tion rate   efficiently.  It  also  can  be n o tice d that the im proved  LLE i n crea se s th e  detectio n  rate by 3.6% or better tha n  th e   LLE.       4. Conclusio n   Intelligent me thod h a s be e n  wi dely u s e d  in i n tru s ion   detectio n , e s peci a lly for th e ANN  based meth o d s. However,  rea s on able i nput featur vector of the  ANN mo del  plays a  criti c l e   role in de sired dete c tion  perform an ce. Therefo r e,  this pape r prop osed a  new intrusi o n   detectio n  method ba sed o n  the improv ed LLE and  BP NN. The i nnovation of this wo rk i s  that  the ne w met hod u s e s  th e improved  LLE algo rith m to redu ce  the dimen s i ons  of the input  feature s  of th e BPNN to  el iminate u s ele ss i n form atio n. The real p r acti ce  data  wa s ap plied t o   the validation  of the p r op o s ed  app ro ach. The  anal y s is re sult s ve rify the effect iveness of thi s   method.       Referen ces   [1]    Z hao  X, Jin g  R ,  Gu M. Adaptive intrusi on  det ection  alg o rith m base d  on r o ugh s e ts.  J T  singh ua U n iv   (Sci & Tech) . 2008; 48: 1 165- 116 8.  [2]    Sin Y,  Lo w   W ,  W ong  P.  Lear ning finger print s  for a da tabase intrusion  detection system .  Proc. 7t h   Eur. S y mp. Re search i n  Com puter Secur i t y Z u rich. 200 2; 7 :  264-28 0.  [3]    Li Z ,  Yan X, Yuan C, Z hao  J, Peng Z .   F ault detecti on  and d i ag nos is  of the gearb o x  in mar i n e   prop ulsi on s y stem base d  on  bisp ectrum an al ysis an d artificial n eur al net w o rks.  Journ a l  of Marine   Scienc e an d Applic atio n . 201 1; 10: 17-2 4 [4]    Li Z, Yan  X, Yuan C, Pe ng  Z. Intellige n t faul t di ag nosis  method for ma rine d i es el e n g i nes us in g   instanta n e ous ang ular  s p e ed.   Journ a l of Me chan ical Sc ien c e an d T e chn o l ogy . 2 012; 2 6 ( 8 ): 241 3– 242 3.   [5]    Lee S, H e in bu ch D. T r aining  a ne ural  net w o rk- base d  intrus ion  detector to  recog n ize  nov el attacks .   IEEE Trans. S ystem s, Man and Cyber netics  Part A: Syste m s and Humans . 2001; 31: 29 4-29 9.  [6]    T enenba um J, Silva V, Lan gford J. A glo bal  g eometric  frame w ork for  nonl ine a r dim ensi ona lit reducti on.  Science . 200 0; 290 : 2319– 23 23.   [7]    Ro w e is S, Sau l  L. Nonl in ear  dime nsio nal it y   reducti on b y  l o call y li ne ar em bed din g Science . 200 0;  290: 23 23- 232 6.  [8]    Belki n  M, Ni yogi P. La plac i an ei ge nmaps  fo r dimensi o n a lit y  r e d u ction  and d a ta rep r esentati o n .   Neur al Com put . 2003; 15: 13 7 3 -13 96.   [9]    Jian g Q, Jia  M ,  Hu J,  Xu F .   Machi ner y fa ul t dia gnos is  usi ng s uperv i se manifo ld  lear ni ng.  Mec h Syst. Signal Pr oces . 200 9; 23 : 2301– 23 11.   [10]    Li Z ,  Yan X,  T a in Z ,  Y uan C, Peng Z .  Blind  vibration com pon ent sep a rat i on a nd no nli n ear featur e   extracti on a p p lied to the n o n station a r y  v i b r ati on si gna ls for the gearb o x mu lti-fault  dia gnos is.   Measur e m ent . 201 3; 46: 259 271.   [11]   Z hu S, Hu  B.   H y brid fe ature  selectio n bas ed on im prove d  GA for the i n trusio n detect i on s y stem.   TEL K OMNIKA . 2012; 1 1 (4): 1 725 –1 730.   [12]    Che n   X, L i  F ,  W ang  L.F ault - tolera nt me th od for  detecti ng c o vera ge  hol es of  w i re l e ss se nso r   net w o rks.  TELKOMNIKA . 2012; 10(4): 8 76– 882.   Evaluation Warning : The document was created with Spire.PDF for Python.