TELKOM NIKA Indonesia n  Journal of  Electrical En gineering   Vol.12, No.4, April 201 4, pp. 2833 ~ 2 8 4 2   DOI: http://dx.doi.org/10.11591/telkomni ka.v12i4.4736          2833     Re cei v ed Se ptem ber 3, 2013; Re vi sed  Octob e r 25, 2 013; Accepte d  No vem ber  20, 2013   A P2P Traffic Identification Approach Based on  SVM  and BFA      Chun zhi Wa ng, Zeqi Wa ng, Zhi w e i Y e *, Hong w e Chen   Hub e i Un iversit y  of T e chnolo g y  / Schoo l of Computer Sci e n c e, W uhan, Ch ina   *Corres p o ndi n g  author, e-ma i l w e izhi ye 1 2 1 @ 16 3.com       A b st r a ct   Now adays n e w  peer to peer  (P2P) traffic  with dyna mic po rt and encrypte d  techno lo gy mak e s th e   ide n tificatio n  o f  P2P traffic b e co me  mor e  a nd more  d i fficult. As one of the opti m al cl assifiers, sup p o rt   vector mach in (SVM)  h a s speci a l adva n t ages   w i th  avo i din g  l o ca l o p timu m, overc o mi ng  di me nsi o n   disaster, res o lv ing s m a ll s a mp les a nd h i gh  di me nsi on for P2 P classificati on  probl e m s. Ho w e ver, to empl o y   SVM, the para m eters s e lecti o n of SVM shou ld be c onsi der ed an d thus so me  opti m i z at io n metho d s hav e   bee put forw ard to  d eal  w i th it, stil l, it  is  not ful l y s o lve d . He nce,  in  the  pa per,  a p eer to  p eer  traffi c   ide n tificatio n  a ppro a ch  bas ed  on s u p port ve ctor machi ne  a nd b a cteri a l for agi ng  alg o rith m is  pro pos ed  fo r   better id entific ation  of P2P n e tw ork traffic.  F i rst,  the best para m et ers for SVM are tun ed w i th bacteri a l   foragi ng  alg o rit h m. S ubs equ e n tly, SVM set  w i th the best  pa ram e te rs  i s  use d  to   i d en tify  P2P traffic. Finally,  exper imenta l  r e sults sh ow  the pro pose d  a p p roac h can  effectively i m pr ov e the acc u racy  of P2P netw o rk  traffic identifica t ion.     Ke y w ords :   P2 P traffic identifi c ation, bact e ria l  fo ragi ng al gor ithm, su pport v e ctor mac h i n e         Copy right  ©  2014 In stitu t e o f  Ad van ced  En g i n eerin g and  Scien ce. All  rig h t s reser ve d .       1. Introduc tion  Peer-to - p eer (ab b reviated to P2P)  comp ut er ne twork i s  a   distrib u ted  a pplication  architectu re  that pa rtition s  tasks o r   work l oad s am ong pee rs.  Peers  a r e   e qually  p r ivile ged   partici pant s in the appli c at ion. Each co mputer in  the  netwo rk i s  ref e rred to as a  node. The o w ner  of each com puter on a P2P network  woul d set as ide a portion  of its resou r ce s - such as  pro c e ssi ng p o we r, disk  storag e o r  net work b and wi dth -to be  m ade di re ctly  available to  other  netwo rk  parti cipa nt, witho u t the need f o r central  co ordin a tion by  serve r or st able ho sts [1] .  In   P2P networks, client s pro v ide resou r ces, wh i c h m a y include b and width, sto r age  spa c e,  and   comp uting  p o we r [1-3]. T h is p r o perty i s  on e of the   major  advant age s of u s in g P2P net wo rks   becau se it make s the set up and ru nni ng co sts very  small for the origi nal content distri b u tor.  Another characteri stic of a  P2P net work is it cap abili ty in term s of  fault-toleran c e. Wh en  a p e e goe s do wn o r  is disco nne ct ed from the n e twork,  the P 2 P appli c atio n will continu e  by usin g other  peers. With t he wid e spre a d  use  of peer-to-p eer  (P 2P ) tech nolo g ie s, it has o c cu pied the maj o rity  of the total Internet traffic  in applications , su ch a s   communi catio n , ente r tainm ent an sha r i ng,  for the advant age s of conv enien ce, hig h - sp eed, ri ch reso urce s and  no-cente r .   Ho wever, it b r ing s  challen ges fo r conte n supe rvisi o n and a lot of  probl ems  ari s e at the  same   time. Firstly,  the  decentrali zati on  a nd  ano nymity of P2P streami n g net wo rk  made  informatio nal  resou r ce more disp ersion  and con c eal ment; thus so me violent an d blue movie s  or  video we re transmitted  arbitrarily, whi c h bro ught ba d effects to p eople, juvenil e s e s pe cially;  in   addition, de centrali zed   net works  int r od u c e ne w se curity issu es be cau s e  they a r e d e si gne so  that ea ch  user i s   re spon sible for controlling t hei d a ta an d reso urces. S e con d ly, harmful   data   can  also be  d i stribute d  o n   P2P netwo rks by mo dify ing files th at are already b e i ng di strib u ted  on   the network.  Con s e quently , it is of grea t importan c e   for a c curate  i dentificatio of traffic that  is   gene rated by  P2P applications [4-5].  Traditio nally, netwo rk traffic ca n be ea sily  identified by detecti ng  the port num bers of  that traffic ,  as  mos t  of the traffic  in the  Inte rnet u s e s  stan dard p o rt numbe rs [6] .  Yet, as m a ny  newly-eme rg ed P2P a ppli c ation s  u s in g  dynami c   po rt  numbe rs, m a sq ueradin g  techni que s,  a n d   payload  en cryption to avo i d dete c tion,  the cl a s sical  approa che s   based o n  p o r t mappi ng  a n d   payload  an alysis   a r e  ineff e ctive. Th us the ta sk of  i dentifying P 2 P traffic i s   becoming  m o re  Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2833 – 2 842   2834 chall engin g  a nd a l o t of work ha been  done  to  effe ctively identify P2P data t r affic, which i s   mainly divide d into four cat egori e s.   (1) Port num ber ba se d appro a che s , whi c h we re the first tech nique s to de tect P2P  traffic. In the early eme r ge nce of P2P, the por t - ba se d method is  succe ssful b e cause many well- kno w n ap plications have  spe c ific po rt  numbers  (a ssi gne d by IANA). Ho we ver, in order to  circumve nt d e tection, fixe d po rt nu mb ers a r unre liable. Th erefore, m o re  a nd mo re  P2 appli c ation s  n e ver use po rt-ba s ed m e tho d s any mo re [7].    (2) De ep Pa cket Inspe c tion (DPI) m e thod, wh ich tries to j udg wheth e r it  ha s fou n d   kno w n P2P  chara c te risti c s throug h byte -by-byte  sc an of mess age  c ontents  for  data traffics . DP I   techn o logie s   have a high d egre e   of exactness and the y  can judg specifi c  appli c ation types, b u they execute  in a lo w sp ee d, can  do n o thing to  e n crypted data  an d ne w P2P a pplication s  wi th  unkno wn ch a r acte ri stics, and have a high mainta in  cost. Beca u s e mo st P2P protocol are  prop rieta r y a nd  reverse  en ginee ring  is n eede d, an d th e meth od i s  n o t able  to  han dle  with  bra n d - new ap plications that  use  un kn o w n  P 2 P protocols [8]. With  th e devel opme n t of a n ti-ide ntify  techn o logie s   for P2P software, sin g le u s e of  DPI tech nologi es may  not satisfy the requi rem e n t (3)  Deep Traffic  Ins p ec tion (DFI) method, wh i c h trie s to judg e whether it ha satisfie P2P traffic feature s  thro ugh stati s tical analys i s   of data traffic [9]. Com pare d  with  DPI  techn o logie s ,  DFI exe c ut e in a hi gh  spe ed,  are e ffective to encrypte d  dat a and  ne P2P  appli c ation s   with u n kno w n cha r a c teri stics, a n d  hav e a  rel a tively low mai n tai n  cost,  but t heir   exactne s s i s  lower than  that of  DPI,  and  ca nnot  j udge  spe c ific appli c atio n t y pes.  Cu rre n t ly,  studie s  an d p r odu cts b a se d on DPI tech nologi es a r comp arably more.    (4) Ma chin e l earni ng  ba se d identificatio n.  As  matt er of fa ct, to i dentify P2P traffic is a   probl em bel o ngs to  pattern re cog n ition ,  natura lly all  kind s of cl a ssifi cation m e thod  could  be  applie d to P 2 P traffic id e n tification p r oblem,  su ch  as Baye sia n   deci s io n, C4. 5  de ci sion t r ee,  Neu r al  Net w o r etc [1 0-1 2 ]. The s e m e tho d use trai nin g  data to  e s ta blish  cla ssif i cation  mod e l,  whi c h is u s e d  to generate a cla ssifie r  to  classi fy the u n kn own data  set. Ho weve r, many machi n e   learni ng m e thod s have  their in heren t wea k ne sse s . Especi ally in this  real-time traffic  identificatio n, the accuracy  and efficie n cy  of  the methods are not we ll meeting the  demand.    Suppo rt Vect or Ma chin e (SVM) is one  of  the most promi s ing a nd po werful  machi n e   learni ng  met hod for cla ssifi cation a nd  re gressio n   pro b lem s  of  small sa mples and high  dimen s ion s . It was initially  pre s ente d  by  Vapnik i n  the  last de cad e   of the 20th century ba se on   statistical lea r ning the o ry a nd structu r al  risk  minimi zat i on pri n ci ple [ 13]. It has be en proved to  be  very su ccessf ul in many ap plicatio ns  su ch as  ha nd writ ten digit re co gnition, imag e cla ssifi catio n face detection, object det ection, text classifica tion [14]. Since SVM has an excellent abilit y to   solve  bina ry cla s sificatio n  problem and th e ma i n  pu rpo s e  o f  P2P traffic identificatio n is  accurately cl a ssifying  two  classe s: P2P  and  non -P 2P  traffic, the r are  so me  stu d ies which h a v e   prop osed P2 P traffic identification ba sed o n  SVM   [15]. While it is noteworthy that  the  para m eters h a ve influen ce  on the g ene ralizatio pe rforma nce of SVM, some  work  ha s do ne  to  deal with the  para m eter p r oblem s of SVM [16-17].     Ho wever, the  problem h a s not been fully re solved.  The Bacte r ial  Foragi ng Algorithm   (abb reviate d   to BG) is  a re cently devel o ped  sw arm in telligen ce alg o rithm b a sed  on the foragi ng  behavio r of E. coli bacte ria. It is a  simple  stoch a stic gl obal  optimizatio n techni que. T he  optimizatio n probl em search spa c e cou l d be model e d  as a soci al  foraging e n vironm ent wh e r grou ps of pa rameters com m unicate co o peratively  for  finding soluti ons to difficul t  problem s. T h is   idea  co uld b e  ap plied to   optimal p a ra meters of SV M. So we  ca n u s e BG  alg o rithm to  find  the  optimal pa ra meters of SVM for the iden tification of P2P traffic.  The re st of the pape r is organi zed a s  follows.  In secti on 2 we sim p ly describe th e basi c   prin ciple of suppo rt vector machin e. The idea of  b a cteri a l forag i ng algo rithm  is explained  in  se ction  3. Ho w to  empl oy  BG alg o rithm  to find  the  o p timal pa ram e ters of SVM  is ill ust r ated   in   se ction 4. In  se ction 5, th e perfo rma n ce of  pro p o s e d  app roa c h i s  evalu a ted  on the real P 2 traffic data a nd is  comp a r ed  with existing techni qu es. Some  co nclu sio n s a r e  also p r ovide d   towards  the concl uding se ction.      2. The Basic  Principle of Support Vec t or Mac h ine   Suppo rt Vect or Ma chi ne i s  a  cla s sification an d re gre ssi on  pre d iction to ol t hat uses  machi ne lea r ning theo ry to maximize p r edictive a c curacy whil e aut omatically av oiding ove r fitting   to the data,  whi c h i s  an  active pa rt  of t he ma chi ne lea r nin g   resea r ch aro und the  wo rl d .   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     A P2P Traffic Identification  Approa ch Ba sed o n  SVM and BFA (Ch unzhi Wa ng)  2835 Cla ssifying  d a ta is a  co m m on ta sk i n   machi ne le arning. A supp ort vecto r  ma chin e con s tru c ts a  hyperpl ane  o r  set of hype rplane s in  a hi gh o r  infinite  dimen s ion a spa c e,  whi c h  can  be  used  for  cla ssifi cation  and othe r tasks.   Suppo sed  th at so me  given data  poi nts  each b e lo n g  t o  on e of t w cla s ses,  and   the go al  is  to decide whi c h class  new sampl e  point will  be i n . There  are  many  hyperpl anes that mi ght  cla ssify the   data. Intuitively, a go od  sep a ratio n  i s  achieved  by the hyp e rpl ane th at ha s the  large s t di stan ce to the n e a r est training  data point  of  any cla s s, si nce in  gen eral the larger t he  margi n  the lower the g ene ralizatio n error of the cl assifier. If such a h y perpla ne exi s ts, it is kno w as the maxim u m-ma rgi n  h y perpla ne an d the linear  cl assifier it defines i s  kn own  as a maximu margi n  classifier; or equival ently,  the perception of optimal stability.  Let us have  a data  set ,, 1 , , ii x yi l  of example s  whe r e  1, 1 i y  and  d i x R   whe r e i x is an a r bitra r d a ta point  a n d i y its  corre s p ondin g  bip o la r la b e l. Let  us al so defin linear de ci sio n  surfa c e  by  the eq uation   0 fx x b  .The o r igin al  formulatio n o f  the SVM   algorith m  se eks a line a deci s io n su rf ace  whi c h m a ximize s the  margin  bet wee n  the cl o s e s positive and.  negative exa m ples. Thi s  may be achi e v ed throug h the minimization of the pen alty  term 2 || | | /2 . It yields  ii i i y x   with the co nst r aint 0 ii i y , and  0, 1 , , i Ci l   whe r C i s  a re gula r i z ation vari abl e call ed trad e-off pa ram e ter or  Penalty factor. The para m eters  i  can  be found af ter the following q uad rat i c optimizatio n   probl em is m a ximized:     1 2 D ii j i j i j i Ly y x x                             (1)    The data ex ample s  wh ose corre s p ond ing i  values are not ze ro a r e call ed sup port  v e ct or s.   Instead of co nsid erin g the  input spa c e,  we may con s ide r  a given  augmente d  spa c e by  repla c in g the  inne pro d u c t of Equatio n  (1 ) by  the  d o t produ ct    , ij i j Kxx x x    whic yields:      , 1 , 2 D ii j i j i j ii j L yy K x x               ( 2 )     Whe r e fu ncti on  , K xy x y    rep r e s e n t s semi-defini t e ke rnel. S o me of th cl assical  SVM kern els  are Lin e a r  Kernel, Polynom ial Kernel a n d  RBF Kernel.   The  re sultin g de ci sion  frontie r i s   , ii i i f xy K x x b where , ii x  an rep r e s ent re spectively  the   ith su ppo rt vect or, its corre s pondi ng m u ltiplier  and  the  hyperplan bias. Fo r nonsepa ra ble cla s se s, the L2-SVM variant minimize s the fun c tion    22 1 1/ | | | | / 2 2 i i C  which lead s to the maximization of:      , 1 , 2 Di i j i j i j ii j L yy K x x                ( 3 )     With,    1 ,, Kx x K x x ij ij C           i f   ij Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2833 – 2 842   2836 ,, Kx x K x x ij ij                      if  ij   Und e r the co nstrai nts  0 ii i y  and  0, 1 , , i il  The effe ctiveness of SVM  depe nd s o n   the sel e ct io of ke rnel, the  ke rnel' s   para m eters,  and soft marg in para m eter.   The mo st co mmon kern el function s u s e d  in SVM are as follo ws:    Linea r ke rn el function:     (, ) T K xx x x ij i j                                               (4)    Polynomial kernel fun c tion   (, ) ( 1 ) T Kx x x x ij i j                                (5)    RBF ke rnel fu nction:     2 || || ( , ) e xp( ) 2 xx ij Kx x ij          ( 6 )     The paramet ers   in  kernel  function  reflect the  ch ar act e risti c   of train i ng d a ta, an grea t   effect on the perfo rman ce  of the SVM.  Penalty factor  C  determine s the trade-off co st betwee n   minimizi ng th e traini ng  error a nd  minim i zing  the  m o del’s comple xity. Whether the valu e i s   too  big o r   small  can redu ce  th e gen eralization of SVM . I n  re al a pplica t ions, mo st of  paramete r are   sele cted  emp i rically by tryi ng a finite  nu mber  of  pa ra meter valu es and  sele ctin g those that  get  the lea s t te st  erro r. Exce p t  for  con s u m i ng e n o r mou s  time, such trial an d e r ror  pro c ed ures for   sele cting  the  para m eters o f  SVM often f a il to o b tain  the b e st  pe rfo r man c e  a s  it i s  im pre c i s a nd  the re sult is u n relia ble. In p r acti ce, g r id search  i s  a rat her effici ent for go od pa ra meters of SVM,  however, it is only suitable  for adju s tme n t of ve ry few param eters  and do es n o t perform well  in  pra c tice  be ca use  it is com p lex in  com p utation a nd ti me  con s umi n g. It is  a vital  step to  optimi z the paramete r of SVM for a goo d pe rfo r man c e i n  ha ndling  a lea r n i ng task a s  th e perfo rma n ce  of SVM will b e  weakene d i f  these  pa ra meters  a r n o t pro perly  chosen. Th e p aper propo se s a   BG algorithm to optimiz e  parameters   C  and    autom atically, the   prin ciple  of  BG will  b e   illustrated in the next section.        3. Bacterial Foraging Al gorithm   Re cently, re sea r che s   of optimal  foraging  of b a c teria  h a ve  been  u s ed  for  solvin optimizatio n probl em s.  Th fora ging be havior of  Escheri c hia coli, whi c i s   a common  type  o f   bacte ria, i s  consi dered in t h e   research [ 18]. The E. coli ba cteria   th at are  pre s e n t  in the inte stines  have a fora ging st rateg y  governe d  by four  proce s se s, na mely, chemo t axis, swa r m i ng,  rep r od uctio n , and elimin ation and di sp ersal [19].   Chem otaxis:  This p r o c e ss  achi eves th ro ugh swimmi n g  and tumbli n g  as  sho w n i n  Figure   1. Dep endin g  upon the  rot a tion of the flagella in  ea ch ba cteriu m, it decid es  wh ether it shoul move in  a p r edefine d  di re ction  (swimm ing)  or th e b a cteri u m. To  rep r e s ent  a  tumble, a  u n it  length ran d o m   directio n,   j say, is generated; th is  will be used to  def ine the di rection  of  movement after a tumble. In particular,     1, , , , ii j kl j k l C i j                  (7)   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     A P2P Traffic Identification  Approa ch Ba sed o n  SVM and BFA (Ch unzhi Wa ng)  2837 Whe r e  ,, i j kl rep r e s ents the  i th bacte rium  at j th ch emota c tic  k th reprodu ctive,  and  l th elimination and  dispersal  step.  Ci  is the si ze  of the step t a ke n in the  rand om   dire ction spe c ified by the tumble. “C” is  termed a s  the  “run le ngth u n it”.      Figure 1. Swimming an d Tumbling of E.coli   Fi gure 2. Flowchart of Bacterial Foragin g   Algorithm       It is al ways  desi r ed  that  the ba cte r iu m that  h a s searche d  the   optimum  pat h of foo d   sho u ld try to attract othe r bacte ria so that t hey reach  the desired  place  more rapidly. Swarming  make s the  b a cteri a  cong regate into g r oup s and  he nce m o ve a s  con c ent ric  p a tterns  of gro ups   with high b a ct erial de nsity. Mathemati c al ly, swarmi ng  can b e  rep r e s ented by:      1 ,, , S ii CC C C i JJ j k l                                     (8)    2 11 ex p p S i attra c t a ttra c t m m im d            2 11 ex p p S i r e p e ll en t r ep e l l e n t m m im h            W h er  ,, , CC JP j k l  is th e cost fu ncti on valu e to  be a dde d to  the a c tual  co st   function  to b e  minimi zed   to pr es en t a time  va r y in g c o s t  fu nc ti on. “S” is  the total number of  bacte ria.  “p”  is the  num be r pa ram e ters to be  optim i z ed  that a r e  pre s e n t in e a ch  ba cteri u m.    ,, at t r ac t a t t r a c t r e pe l e nt dh  and  re pelent  are different coefficient s that are to be chosen   judici ou sly.  Rep r od uctio n :  The least he althy bacteri a  die,  and the other he althie st bacte ria ea ch split  into two  ba ct eria,  whi c h  are pla c e d  in  th e same  lo cati on. Thi s  m a kes th e p opul a t ion of b a cte r i a   con s tant.   Elimination a nd Di sp ersal:  It is po ssi bl e that  in the local  environment, the li fe of a   popul ation of bacte ria  chan ges eith er g r adually by  co nsum ption of  nutrient s or  sudde nly due to  some other i n fluence. Ev ents  can kill  or di sperse  all the ba cteri a  in a region. They have  the  effect of possibly destroyin g the che m ot actis p r og re ss, but in cont rast, they also assist it, since   disp ersal ma y place ba ct eria ne ar g o od food  sou r ce s. Elimina t ion and di spersal hel ps in   redu cin g  the  beh avior  of stag nation  (being t r ap pe d in a  p r em ature  sol u tio n  point  or lo cal  optima).   The  pro c e s of ba cteria  foraging  alg o rith for  solvin the optimi z ati on p r obl em i n clud es:  (1) En co de t he sol u tion for the probl em; (2)  De si gn evaluatio n  function; (3) Gene rate ini t ia solutio n  pop u l ation; (4) O p timize pa ram e te rs by u s ing  the intera ctio n betwe en group s.  Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2833 – 2 842   2838 Suppo sed  Nc, Nre a nd  Ne d den ote ma ximum  ch em otaxis, maximum re produ ction, an maximum eli m ination - di sp ersal respe c tively.  The optimizatio pro c ed ure of  the ba cteri a foragin g  algo rithm is descri bed bri e fly as following Fig u re 2.       4. SVM Param e ters O p ti m i zation B a sed on B G   4.1. The principle of opti m al parameters of SVM   The  perfo rm ance of  SVM mainly  ref e rred to  the   gene rali zatio n  ability. As  stated i n   se ction 2, pe nalty factor  C and  kernel f unctio n  pa ra meters   exert a co nsid erab le influen ce o n   the gene rali zation ability of SVM. The kernel fun c tion  paramete r s determi ne the mappin g  of the  origin al spa c e to high  dim ensi onal  sp a c e a nd the  value of p enal ty factor can  adju s t the e r ror  and  compl e xity. As the value of ea ch pa ramete r,  too big o r   too sm all, al l hampe rs the  gene rali zatio n  of SVM,  the optimi z at ion of  para m eters i s  i m porta nt to  achieving   good   gene rali zatio n  ability in p r acti ce. Thi s  study p r op o s e s  to em pl oy BG algo ri thm to optim ize   para m eters C  and   automatically. T he main ide a  of applyin g  BG to se arch the be st  para m eters p a ir ( C a n d ) of SVM is as b e low.   Each p o sition  vector of the  bacte ria sta nds  a  can d id ate paramete r s p a ir for SV M. The  initial populat ion is gen era t ed with  N  number of sol u tions an d ea ch solution i s  a D-dim e n s io n   vector, he re  D is set to  2 that each solu tio n  repre s e n ts 2 - D ca ndid a te  param eters.  i X   rep r e s ent s the i-th ba cteria  position in th e popul ation  whi c h de note s  a ca ndid a te  param eter p a ir  and  it fitne s s can   b e  me asu r ed by fitness functi o n ,  with defined movement rule s, the virtual  bacte rium m o ves in the  search pl ace and up date  t heir p o sitio n  with predefin ed rul e s, till the   virtual bacteri u m meets their e nd  condi tion, the al gorithm  will  terminate and  output the best  positio n as th e optimal pa rameters for S V M.    4.2. The Implementa tion  of the Prop o sed Me thod   The RBF  ke rnel fun c tion i s  taken a s  th e ke rnel fu nction. The pa rameters n e e d s to be  optimize d  are   C  and  . The basi c  ste p s a r e state d  as f o llows:   Step 1: Read  data S from  file, then divide it into two gro u p s  S1 (traini ng set)  and S2  (testing  set).  Suppo sed  th e si ze  of ba ct erium  as  N,  a nd rand omly  gene rated  N  grou ps set of  {C } to initial loca tion of the position of ba cterium;   Step 2: Desi gn fitness ev aluation fun c tion  (, ) fit ne ss f C . Accordi ng to the value of  C  an , train the SVM mod e l with g r ou S1, then co n s ide r  op po site value of te sting accu ra cy  with gro up S2  as the fitness.  Step 3: Execute the loop o f  chemotaxis,   reprodu ction and  elimin ation-di sp ersal.   Step 4: En co de, defin e the  po sition  of b a cteri u with bes t  fitness  as  the optimal C*or  *.  The procedu re for de scribi ng pro p o s ed  BG-SVM is a s  follows:   Step 1: Initialize B G  wit h  pop ulation  size. Set the nu mbe r   of bacte rium  and it dimen s ion  an d othe r (l =0,  k=0, j=0). Evaluate the   fitness value  of  each ba cte r ia . Take  the  cross  validation error of the SVM training set as fitness valu e.  Step.2 Elimination-di sp ersal loop: l=l +   Step.3 Rep r o ductio n  loop:  k=k+1    Step.4 Chem otaxis loop: j = j+1   Step.5: Executive chemot axis ope ratio n   Step.6 If j< Nc, turn to s t ep 4  Step.7 Execu t ive repro d u c tion ope ration   Step.8 If k < Nre, turn to s t ep 3  Step.9 Execu t ive elimination-di spe r sal o peratio n   Step.10 If l< Ned, turn to s t ep 2, els e  finish  Step.11 Rep eat the  step  4-7  until a  value of  the  fitness fun c tion conve r ge s o r  the   numbe r of iteration rea c he d.  After conve r g i ng, the globa l best obje c t is fed in to SVM classifie r  for testing.       5. Experiment and Dis c u ssion   To test the e ffectiveness  of the pro p o s ed me tho d , some real ca mpus P 2 P traffic data  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     A P2P Traffic Identification  Approa ch Ba sed o n  SVM and BFA (Ch unzhi Wa ng)  2839 are u s e d  to evaluate the  performan ce of the pro posed BG-S VM model for the pa ra meter  optimizatio of SVM an d t r affic i dentifat ion of  P2 P; m o reove r , the   perfo rman ce  i s   com pared   with   some  comm o n ly used algo rithms p r e s en ted in  the lite r ature, which  are GA, PSO and GA-P SO  algorith m . The data of  P2P netwo rk traffic is  co llected from  netwo rk l abo ratory of Hu bei  Univ er sit y  of  Te chn o logy .  We   colle ct e d  mo re   than  300   sampl e  data  an ch ose  11  featu r es  whi c h sho w e d  in Table 1 for ou r experi m ents.     Table 1. The  De scription of  Feature s   Feat ures  Explana t io n   Duration   The  du ration of   traffic  T y pe   IP or IP-Port   TCP-I O   The ratio of sen d i ng and receiving TCP packets  UDP-I The ratio of sen d i ng and receiving UDP packets  All-IO  The ratio of sen d i ng and receiving all packets  Avg-speed  The averag e spe ed of traffic   Avg-packets  The averag e pac kets size of  traffic  Avg-TCP/UDP   The b y te ratio of  TCP and U D P av erage packets size  TCP/UDP   The b y te ratio of  TCP and U D P tr affic  TCP-p r o   The pro portion of  TCP in traffic   UDP-pr o   The pro portion of  UDP in traffic      The  colle cted  data  of n e twork traffic i s   divided i n to training  set an d testin set,  and  put   into SVM to  classify for P2 P identificatio n. We   cho s nine-te nths fo r trai ning  dat a an d o ne-te nth   for testing d a t a to get better expe rime n t al  results. T he ra nge d of para m eters  C and   is form   10 2  to  10 2 on the d a taset. Th main pa ram e ters  used for these  app ro ach e are: t he initial  popul ation fo r thre e algo rithms i s  the same, that is  20, and all th ese al go rithm s  will te rmina t after bein g  ex ecute d  100 ti mes. Mo reov er, the cro s so ver rate fo r G A  is 0.4 an d mutation rate for  GA is 0.0 1 . And for PSO,  C1 =2.0 a nd  C2 =2.0, the  value of ine r tia wei ght is  set as 1. F o BG,  Ped=0.2 5 Figure 3-Fi gu re 5 show av erag e cla s sification  a c cura cy and be st classificatio n  a c cura cy  respe c tively by three app ro ach e s: GA-S VM, PSO-SVM and BG-S VM.          Figure 3. Cla ssifi cation by  GA Algorithm  (100,  20)  Figure 4. Cla ssifi cation by  PSO Algorith m   (100, 20       Figure.5. Cla ssifi cation by  BG Algorithm  (200,50 Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2833 – 2 842   2840 From expe ri ment one, the be st cla s sifi catio n  accura cy and a v erage  cla s sification  accuracy  obt ained  by the  prop osed B G -SVM alg o rith m are hig h e r   comp ared  with the  GA-SV M   approa ch an d PSO-SVM approa ch, wh ich are illustra ted in Figs. 3 -5: the be st cro ss valid ation   accuracy  (BCVA) of GA i s   92. 306 9% an d the  avera g e  cro s s valid ation a c curacy (ACVA) of  GA   is a ra nge from 90.5% to  91.5%; the BCVA  of PSO is 89.7 8 8 7 % and the  ACVA of PSO  fluctuate s   m a rke d ly  a bove and belo w  87 %;  while   the  BCVA of BG   is 9 3 .662%  a nd the  ACVA  of  BG fluctuate s  na rro wly b e twee n 89% to 91%. Mo reover, a s  we  can see  in  Figure.3, the GA  method  stop s evolution a fter 20 th  gen eration. So  we chan ged  popul ation si ze from 2 0  to 50,  maximum ge neratio n from  100 to 200, a nd sh owed re sults a s  follo wing   F i gu re .6- F ig ur e 8 .             Figure 6. Cla ssifi cation by  GA Algorithm  (100,  20)  Figure 7. Cla ssifi cation by  PSO Algorith m   (200, 50         Figure 8. Cla ssifi cation by  BG Algorithm  (200, 50     From  expe ri ment two, the b e st  cla s sifica tio n  a ccura cy a nd  a v erage   cla s sification  accuracy o b tained by the  prop osed BG  algorithm   are also  better  than PSO al gorithm a nd  BG   algorith m   aft e r ch angin g  popul ation si ze and   maxi mu m g ene rat i on. From Fi g u re  6 to  Figu re  8,  the BCVA of  GA incre a ses to 92.6 804%  and  the  A C V A  of GA  still range s from  9 0 .5% to 91.5 % two indexe s   of PSO are n early the sam e  with  expe ri ment one; wh ile the BCVA of BG gro w to   94.014 1% an d the ACVA of BG is more  stable.  Finally , the superi o of propo se d BG method can  be proved b y  further exp e rime nt com pare d  with   G A -PSO algo ri thm [20-2 1 ] whi c combi nes  good p o ints o f  GA algorith m  and PSO a l gorithm, an d sho w e d  in Figure 9 - 1 0     Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     A P2P Traffic Identification  Approa ch Ba sed o n  SVM and BFA (Ch unzhi Wa ng)  2841       Figure 9. Cla ssifi cation by  BG Algorithm  (200,  20)  Figure 10. Cl assificatio n  b y  GA-PSO Algorithm  (200, 20          As we  can  seen i n  Fig u re 9  and  Fig u re  10,  we fi nd eve n  the   best  cross validation   accuracy of BG algorithm  is the same  as  GA-PSO  algorithm,  more over, the averag e cross  validation  accura cy of th e f o rme r  i s   better th an th e la tter, whi c h  sh ows that th BG algo rithm  is  more  sta b le t hat the  GA-P SO algo rithm .  Ba sed  on  the a bove ex perim ents,  we may  con c l ude  that BG-SVM method ha s the potential t o  be useful in  classification  for P2P traffic identificatio n.      6. Conclusio n   In this p ape r,  a P2P traffic identificatio n  app roa c h  is  develop ed b a s ed  on SVM  and BG  algorith m . An d we h a ve te sted th e p r o p o se d m e thod  on  re al P2P  datasets  and   comp ared th em  with  seve ral  existing  techniqu es.  The  expe rim enta l  re sult s in di cate th at the  propo sed  B G   algorith m  is f easi b le to opt imize the  pa rameters  for S V M, which te stifies that th e novel BG -SVM  model  can yi eld p r omi s in g  re sult s. In  all ,  ideally, the   prop osed  me thod h a s the   high   acc u r a cy o f   identifying P2P traffics. Ho wever, b e cau s e of t he limitation of the e x perime n tal e n vironm ent, the  P2P traffic ca ptured i n  this pape r is f r o m  cam p u s  ne twork, the testing data u s e d  in the p r o c ess  still cannot cover all  the factors t hat  can  affect test results. Mor eover,  in general,  different  traffic  feature  of P2P has  differe nt effect on  cl assificatio n  of  the flow, in t he pa per,  all  the features  are  set  with the   same   weight  value; h o to set  prope r wei ght valu e for the s e f eature s  is worth  further studyi ng.      Ackn o w l e dg ements   This  wo rk i s   sup porte d by  Natural Scie nce F oun dati on of China  (6117 0135  61 2022 87)  and  Natu ral  Scien c Fou n dation  of Hub e i Provin ce  of  Chi na  (20 1 1 CDB0 7 5 ) , the  Key Proj ect f o Scientific an d  Techn o logi cal Re sea r ch of Educ ation  Depa rtment  of Hubei Province in  Chi na  (No. D201 11 409, No. D2 0121 409 ) an d the Key  Proje c t for Scientific an d Tech nolo g i c al  Re sea r ch of Wuh an City in Chin a (20 1 2104 2113 4).       Referen ces   [1]  Yin Chuny ong, Sun Ruxia,  Yang  Lei.  Node-based s a m p ling P2P  bot  detection.  TELKOMNIKA  Indon esi an Jou r nal of Electric al Eng i ne eri ng.  2012; 1 0 (5): 1 117- 112 2.   [2]  Yu F anp en g, Z hang S i do ng,  Z hou  Xi n. Incentive M e cha n ism Alg o rith m for P2P F i l e  S y st em  i n   Camp us N e t w orks.  T E LKOMNIKA Indo nesi an J ourn a of Electrical   En gi neer ing.  20 12;   10(6): 14 77- 148 4.  [3]  Shen   Xu emin,  Yu H eath e r, B u ford J o h n , Ak on M u rsal in. H and bo ok of P e er-to-Peer  Net w o r kin g  ( 1 st   ed.). Ne w  York : Springer. 20 0 9 ; 118.   [4] DS  Wallach.  A  Survey  of P e er-to-Peer  Sec u rity Issues.  P r ocee din g of Internati o n a l S y mposi u o n   Soft w a re Secu rit y . 20 02; 42- 5 7 [5]  Yan H ua, D ah- Ming  Chi u , Joh n  CS L u i.  Profi l i ng an id entifi c at ion  of P2P t r affic.  Compute r  Netw orks.   200 9; 53: 849- 863.   Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2833 – 2 842   2842 [6]  Hon g w e i Che n ,  Xin Z hou, F a ngp ing Yo u, Hui Xu, Chu n zhi  W ang, Z h i w e i   Ye. A SVM Me thod for P2P   T r affic Identification b a se on  Multipl e  T r affic Mode.  Journ a l  of Netw orks.  2 010; 5(1 1 ): 138 1-13 88.   [7]  Li Ju n, Z h a ng  Shun yi,  Li u Sh i don g,  Xua n  Y e Active P2P T r affic Identific ati on T e c hni qu e.  Internatio na l   Confer ence  on  Computati o n a l  Intellig enc e an d Securit y . 20 0 7 ; 37-42.   [8]  Jing ang Z h e n g ,  Yabin  Xu. Ide n tificatio n  of ne t w ork traffic ba sed on su pp ort vector machin e.  Advance d   Co mp uter T h e o ry and En gi ne erin g (ICACT E).  2010; 3: 286- 290.   [9]  Yabi n Xu a nd J i ng ang Z h en g.  I dentificati on o f  Net w o r k T r affi c Based o n  Ra dial B a sis F unc tion Ne ur a l   Net w ork Intell i gent Com putin g and Informat i on Scie nce C o mmunic a tio n s .   Comp uter an d Informati o n   Scienc e . 201 1; 134: 17 3-17 9.  [10]  Rui W a ng, Y a ng  Liu, Y ue- xi ang  Ya ng, H a i - lon g  W a n g A  New  Meth od  for P2P T r affic  Identific atio n   Based o n  Su pport Vector  Machi ne.  Internatio nal C onfe r ence o n  Artificial Intel lig enc e & Machin e   Lear nin g  Co nferenc e (AIML0 6). Sharm El Sheik h , Eg ypt. 2006; 58- 63.   [11]  Shen  F u ke,  C han ge  Pan,  R en  Xia o li.  Res earch  of P 2 T r affic Identific ation  Bas e d  o n  BP  Ne ura l   Net w ork.  Intell i gent Infor m ati o n Hidi ng a nd M u lti m e d ia Si gn al Process i ng 200 7; 75-7 8 .   [12]  Gu Yiran, W a ng S uop in g. T r a ffic Identific a t ion Met hod  fo r Specific  P2P  Base d o n  Mu ltila yer  T r ee   Combi nati on  Classific a tio n  b y  BP-LVQ N eura l -Net w o rk.  Informatio n T e chn o lo gy an d  Applic ation s   (IFITA) . 2010; 34-3 8 [13]  Don g  Seo ng Ki m, Ha-Nam Ng u y en, Jo ng So u Park . Geneti c  algor ithm to i m prove SVM b a sed n e t w or k   intrusi on d e tec t ion s y stem.  A d vanc ed Infor m ati on  Netw orking  an d App l i c ations (AINA) .  2005;  155 - 158.   [14]  Mathias  M Ad anko n , Mo ham ed  Cher iet. Mo del  sel e ct io n f o r the  LS-SVM . Appl icatio n to  ha nd w r itin g   recog n itio n.  Pattern Recognition.  200 9; 42: 3 264- 327 0.   [15]  Xi ao  Li Z h ang,  Xu e F e n g  C h e n , Z heng J i H e . An  ACO-bas ed a l gor ithm fo r param eter op timizatio n  o f   supp ort vector machi nes.  Exp e rt Systems w i th Appl icatio ns.  201 0; 37: 661 8 - 662 8.   [16]  Xu an yu  Li u, C hen g Sh ao, H a if en g Ma, Re nxi Li u. Optim a l e a rth press u re b a la nce c o ntrol for shi e l d   tunne lin g bas e d  on LS-SVM a nd PSO.  Automati on i n  Cons truction.  201 1; 20: 321- 32 7.  [17]  Z hen yu an Ji a, Jian w e i Ma, F u ji W a n g , W e i Liu. H y bri d  of simulat ed an n eali ng a nd SV M for h y dra u l i c   valve ch aracter i stics pred ictio n Expert Systems w i th Appl ic ations.  20 11; 3 8 : 8030- 80 36.   [18]  Nasir A N K, Tokhi MO, Gh a n NM, A h ma d MA. A  nove l  h y br id  spir al- d ynam ics b a cterial-for a g i n g   alg o rithm for gl oba l optimiz ati on  w i th  app lic a t ion to contro desi g n . Co mpu t ationa l Intell ig ence (UK C I) 201 2; 1-7.  [19]  Das S, Dasgu p ta S, Bis w a s  A, Abraham A, K onar A. On Stabil i t y  of the  Chemotactic  D y namics i n   Ba cte r i a l - Fo rag i ng  Op ti mi za ti o n  Alg o r i t h m . Sy ste m s, Man  a n d  Cy be rne t i cs. Pa rt A:  Sy ste m s and  Huma ns. 200 9; 670-6 79.   [20]  Qian Y uLi an g,  Z hang  Ha o.  F a ult d i ag nos is fo r ge nerat or u n i t  base d   on  RB F  neur al  netw o rk opti m i z e d   by GA-PSO.  8th Internatio na l Confer ence  on  Na tural C o mp utation. 2 012;  233- 236.   [21]  Kim Dong H w a, Park Ji n.  Loss mi ni mi z a ti on co ntrol  of inductio n  motor usi n g  GA-PSO . 9t h   Internatio na l Confer ence  o n  Kno w l e dge- Based Inte lli g ent Informatio n  and E ngi ne erin g S y stems .   200 5; 222- 227.         Evaluation Warning : The document was created with Spire.PDF for Python.