Int ern at i onal  Journ al of Inf orm at ic and  Co m munic at i on  Tec hn olog y (IJ - I CT)   Vo l. 6 ,  No. 3 D ece m ber   201 7 , pp.  199 ~ 208   IS S N:  22 52 - 8776 DOI: 10 .11 591/iji ct . v6 i 3.p p1 99 - 208           199       Journ al h om e page http: // ia esj ou r nal.co m/ on li ne/in dex .php / IJ ICT   Density  Based Cl usterin g with Int egrated  On e - Class SVM  for  Noise Re du ctio n       K. Nafees  Ahm ed * D r. T.   Ab d ul R az ak   * Depa rte m ent of   Com pute Sci en ce ,   Jam al   Moh a m ed  Coll eg e, Ta m il   nadu, I ndi a       Art ic le  In f o     ABSTR A CT    Art ic le  history:   Re cei ved   A ug   12 nd ,  20 1 7   Re vised  Oct   26 th , 201 7   Accepte Nov   6 th , 201 7       Inform at ion  ex t ra ction  from   da ta   is  on of   th ke y   necess it i es  for  da ta  ana l y sis.  Uns up erv ised  na ture   of  dat l ea ds  t complex  co m puta ti onal  m et hods  for  ana l y sis.  Th is  pape r   pre sents  density   b ase spatial   cl usteri ng   te chn ique   in te gr at ed  wi th  one - cl ass  Support  Vec tor   Ma chi ne   (SV M),  a   m ac hine   l ea rn in te chn ique   for   noise  re du ct io n,   m odified  var ia n of   DBS CAN  ca ll e Noise  Reduced  DBS CAN   ( NRD BS C AN ).   Anal y sis  of   DBS CAN   exhi b it it m aj or  re q uire m ent   of  ac c ura te   thre sholds,   abse nce   o f   which  y ie lds  su bopti m al   re sults .   How eve r,   id e nti f y ing  a cc ur ate  thre shold   sett ings i s un at t a ina bl e.   Noise   is  one  of  th m aj or   side - eff ec ts  of   t he  thr eshold   gap.   The   propo sed  work  re duc es  noise  b y   int e gra ti ng  m ac h i ne  learni n g   cl assifi er  in to  th oper at ion   struc ture   of   DBS CAN .   The  Exp eri m ent a re sul ts   indi c at e   high   ho m ogene ity   le v el s in the c lust eri ng   proc ess.   Ke yw or d:   Cl us te rin g   DBSCA N   Ma chine  Le ar ni ng  Cl assifi e r   No ise  Red uction   One - cl ass  SVM   Copyright   ©   201 7   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   K.   Nafee Ahm ed   Dep a rtem ent o Com pu te r   Sci ence ,   Jam a l M oh am e C ollege ,   7   Ra ce C ourse   Road Kh a j N agar Tir uc hira pp al li , Tam il  N adu,  620 0 2 0 I nd ia .   Em a il naf eesj m c @ gm ail.co m       1.   INTROD U CTION     The  c urren I nt ern et   a ge  is  data  ric h,  but  info rma ti on   poor.   Me anin gful  da ta   is  the  chief  r equ i rem ent  of   the  c urre nt  age.  T his  has  le to  an  e nor m ou increase   in  the  data  pr ocessin te ch ni qu es H ow e ve r,   th e   m ajo dr a wb ac is  inh ere ntly   e m bed de in  the  data  it sel f.   The  distri bu ti on  of  d at aset va ry  and   he nce a  sing le   te chn iq ue  that  was  desi gn e to  process d at from   a   do m ai n   would  not  po s sibly   pr ovide  e ff ect ive  res ults   wh e app li ed  to  th data  from   the  sa m do m ai n,   du to  va riat ions  in  the  data  distribu ti on  le vel as  tim pr ogr esses.   Hen ce  tech niques  t hat are a du ct il e as t he d at a it sel are th e only  ones t ha t can  per sist .      Un s uper vise data  proces sin has  al ways  be en  chall en ge   du t their  unpre dicta ble  na ture.   Duct il and   tract a ble  al go rithm are  the  m ajo r   requirem ents  fo processi ng   s uc data.   D om ai ns   with  su c requirem ents  ran ge  f r om   i m age  processi ng  to  web   in f or m at ion   proc essing.  The  r equ i rem ents  fo s uch   processi ng techn i qu e s ar e  constantl y o t he rai se,  with th increase i t he am ou nt  of  data b ei ng a vaila bl e.    Extracti ng  m e anin gful  in for m at io from   su ch  data  r eq ui res  gr ouping  t hem   to  find   c omm on al it ies   existi ng   bet we en  them This  ai ds   in  bette i nter pr et at io of  data.   Cl us te ri ng  is  the  proce ss  of  groupin data   su c that  data  within  gro up/c luster  is  m or coh esi ve  c om par ed  to  data  in  diff ere nt   cl us te rs The  pro cess  of  cl us te rin m akes  the  data  m e anin gful  f or   va rio us   ap plica ti on s Cl us te ri ng  m et ho ds   are   us ually   cl assif ie as   par ti ti on al   a nd  hierarc hical   c lusterin te ch ni qu es Partit io nal  cl us te ri ng   te chn iq ues  pe r form   flat   cl us t erin base on  s ing le   decisi on  cr it erion   su c as  distance  or  de nsi ty Dista nce  base cl us te rin te chn i ques  in cl ud e   K - Me a ns   [ 1]  cl us te rin an CLARA  [ 2]  to   nam a   few Den sit base cl us te rin te ch niques  are  c urr ently   on   the  raise  du t their  fle xib le   op e rati onal   nat ur a nd  the  sta ble  so l ution   set ge ner at e by  them Den sit base cl us te rin te ch niques  incl ude   DBSCA [3]   and   De nClu [4 ] OPTIC [ 5]  to  nam e   fe w.   Hiera r chical   cl us te rin al go rithm are  div ided  i nto   ag glom erati ve  and   div isi ve co rr e sp on ding  to  th ei basic  op era ti on al   natu re, b ottom - up  or to p - dow n [6 ]   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2252 - 8776   IJECE    V ol.  6 ,   No.  3 ,   Decem ber   20 1 7   :   199   208   200   Den sit base cl us te ri ng  te chn i qu e a re  currently   on  the  i ncr ease   due  t the   inc rease  i t he   requirem ents  f or  sp at ia data  processi ng.  Howev e r,  m os of  these  te c hn i qu es  are   de rivati ves  from   DBSCAN ,   exten ding  it   accor ding  to   th ei operati ng  do m ai ns E xtensi ons  a re  usu al ly   in  te r m of   reducti on  i ti m e,  par am et er  auto m at ion in put  reducti on  in   te rm of   featur e   sel ect ion   an abili ty   to  ha ndle   va ried   de nsi ti es.  FD BSC AN  [ 7]   and  I DBSC AN  [ 8]  are   tw a ppr oach e con ce ntrati ng  on  the   re duct ion  in   tim co m po nen t.   Both   operate  by  identify in m ini m al   se of   highly   re pr ese ntati ve  points  f or   thei r   op e rati on   rather   tha util iz ing   the  e ntire  data  po i nt s.  In   a ddit ion  to  this,  the  I DBSCA util i zed  gri bas ed  data  sel ect ion   for   reducin t he  in pu t l e vels.    Param et er  fine - tun in base al gorithm include k - V DBS CAN  [ 9],  DB CLAS [10]  and   AP SC AN  [11].  The  k - VD BSC A is  par am et er  fr ee  te ch nique  that  aut om at ic ally  iden ti fies  the  para m et ers.   DBCLAS operates  on  la rge  data  and   is  par am et er  fr ee  cl us te rin te chn i qu e ena bling   gr a du al   cl us te r   exp a ns i on   on  the  ba sis  of  the  neig hbors  an their  de ns it ie s.  AP SC AN   util iz es  Affinit Prop a gatio te ch nique   to ide ntify t he c luster  densi ti es b ase d o loca l data va riat ions.   de ns it bas ed  cl us te ri ng   t echn i qu ai ding  in  the  disco ver of  cl us te r with  var yi ng  de ns it ie s   within  si ng le   dataset   was  propose by  Zh et   al   in  [12].  I n   ge ne ral,  the  i nput  data  is  c onside red   t c onta in  data  distrib ute in  un if orm   den sit ie s.  H ow e ver,  so m unusual   real  tim data  su ch  as  po pu la ti on  m aps  te nd   to  con ta in  su c h   data.  T his  le ads  to  c om pl ex  issue as  in creasin the  de ns it le vels  f or   th entire  process   include severa ou tl ie rs  into   cl us te rs,   w hile  red uci ng   the   den sit le vels  m isses  sever al   le gitim at e   clu ste rs .   Tw a ppr oaches  exist  i li te ratur e   to   s olv e   this  is s ue,  na m el m od ify ing   t he  al go rith m   app rop riat el an rescali ng   t he  da ta The  te ch ni qu propose in  [12]  util iz es  the  la tt er  by  rescali ng   the  da ta   to  approp riat el identify   th cl us te rs DBSC AN  is  a pp li e to  the   rescale data  t i den ti f cl us te rs.  s i m i la te ch nique  t hat  identifie va rie de ns it base cl us te rs  was  pro po se by  L ouhichi  et   al in  [ 13 ] T he  op erati on al   pr oce ss  of   this  te chn iq ue  is  div ide into  two  phase s.  T he   first  phase  id entifi es  the  de ns it le vels  of   the  input  data  us in the  expo nen ti a s pline  te chn i qu on   the  distance  m a trix.  S econd  phase  util iz es  the  den sit values  deter m ined  from   the  first  ph ase  as  loc al   threshold  pa ram et ers  to  i den ti fy  cl us te r s.  Othe de ns it based   cl us te ri ng   te chn iq ues  incl ud e  VDBSC A [ 14] , GM DB SCAN [ 15] , DDSC  [16], E D BSC AN [ 17 ]  e tc .   This p ape c on centrate s o de velo ping  a d e nsi ty   based  sp at i al   cl us te rin te chn i qu e . D BS CAN,  bei ng   the  prec ur s or  of  s uch  te ch niques,   is  ad opte by  m os of  the   te chn i ques  in volvin non - un i form   cl us te rs.   I was   identifie t hat  DBSCA has  high   pote ncy  of  ge ner at in outl ie rs.   On   f ur th er  assessm ent  it   was  ide ntifie that   sever al   of  thes ou tl ie rs  eff ec ti vely   fit  into  the  form ed  cl us te rs.   H ow e ve r,  they   sti l re m a in  ou tl ie rs  due  to  the  par am et ers  de fine f or   the  cl us te rin pr oc ess.  The  pa r a m et er  se tt ing   process  is  al ways  optim al   and   is   identifie by  t he  data  ex per t thr ough  data  analy sis  an tr ia and   e rror.  As  r esol ving  t his  issue   is  c om plex   ta sk , t his wo rk  pr ese nts  NRD BSC AN w it h o ne - cl ass  S VM  to r e duce the  noise le vels.         2.   RESEA R CH MET HO D   Den sit y   based  sp at ia l cl us te ri ng pr opos es  a  gro up i ng m echan ism , th at  o pe rates o t he ba sis of bot distance a nd th e nod e  d e ns it y.  Th e  m ajo a dv antage  of  us in g suc a a ppr oa ch  is t hat it  do es not rely   on  centr oid   base d op e rati ons, he nc e the in co ns is te ncies in t he   f or m at ion  of cl us te rs  are  el im i nated. F ur t her ,   densi ty  b ased  c lusterin is a n un s uper vise a ppr oach with  no pri or  i nfor m at ion   requirem ents.  De ns it y ba sed  cl us te rin a ppr oach e has  the   abili ty  to  identi fy clusters  of a rb it ra ry sh a pes  and sizes  rathe tha bein confine t the  trad it io nal circ ular  cl us te rs. It  w as i de ntifie d t hat D BSC AN  base te ch niqu es ex hib it high  no ise  levels.  E ven th ough the  b ase  clusteri ng  process  w as  iden ti fie to  b e   eff ic ie nt,  the  noise  levels  ge ne rated  by D BSC A N were  foun to   be  e x cessi ve . T his  pap e r pro poses  NRDB SCAN, a  hybri diz ed den sit y base cl us te rin a ppr oach that  i niti al ly  clusters the  data, a fter  wh i ch  it  tries t in corp or at no ise  into  a ny  of the   existi ng d e finit e cluste rs , henc e re du ci ng the  no ise  levels.   Pr io to   the  a c tu al   cl us te ri ng  proces s,  t he  i nput  data  is  processe a nd  is   co nv e rted   to  t he  require form at sche m analy sis  is  perform ed  on   t he  data  to  i dent ify   the  data  ty pes  of  the  c onte nts.  T he  pr opos e arch it ect ure  acce pts  on ly   nu m erical   data,  hen ce  te xtu al   da ta   are   el i m inate and   cat eg ori cal   and   ordi na data   are  co nv e rted  to  nu m erical   fo rm at s.  The  da ta   pr e - proces sing   is  f ollowe by  the  act ua cl us te ring   proces s.   Algorithm  f or t he pr opos e d N RDBSC A is  sh ow n belo w.                   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - ICT     IS S N:  22 52 - 8776       Den sit y B as e d C lusteri ng wi th  In te gr ate d O ne - Cl ass  SVM   ( K. Nafees  Ah med )   20 1   NRDBSCA N A lgo rit hm   1.   Inp ut base  data   2.   Inp ut thres hold  leve ls ( minPts,  maxDist)   3.   In it iali ze fi rst c luster w it h a ra ndom  node n   4.   neig hbor s     identif yN ei ghbo rs( n)   5.   If the  neig hbou r cou nt<m i nPt s,    a.   Set n into  a se para te  cluster ( Ou tl ie r)   6.   Else  exp andCl us te r( n,neig hb or s)   7.   Perf orm this  process  unti l all  the  nodes   ar e   gr ou pe int o a  cl us te r   8.   For  e ac ide nt if ie cl us te r C   a.   If d e ns it y o f  C  < 1   i.   no ise     C   9.   Un ti l N oise is   no t e m pty   a.   For  e ac ide nt if ie cl us te r C   i.   Predict ion  pre dict( C,no ise )   ii.   Ad d all  true  pre dicti on s  to  cl ust er C   iii.   Delet e corr e spondin e ntries  from   noise   b.   if  n e ntries  are  d el et ed  for  t he  last tw it er at ion s   i.   All oca te   new c lusters f or eac e ntry in  nois e   ii.   Em pty noise   fu ncti on i de nti fyN ei ghbo r s (n)   1.   For all  no des n in  data   a.   If d ist ance( n,n 1) <m ax Dist   i.   Ad d n1 to  neig hbor List   2.   ret ur n nei ghbo rList   fu ncti on  e xpandCl uster( n,ne ighbors )   1.   Ad d n to t he  cl us te r C   2.   For  e ac h neig hbour  n1   a.   neig hborL1     identif yN ei ghbors( n1)   b.   if  n ei ghborL 1 count  >=   minP ts   i.   Ad d n1 to C   fu ncti on  pr edi ct (C,no ise )   1.   In it iali ze one - c lass  SVM  wi th   po ly nomial k er nel   2.   Set the  de gr ee  of ker nel to be   the d i mensi ons  o f C   3.   Tra in  SVM w it C   4.   Predict ions    Ap ply noise t o t ra ine ker nel   5.   Ret ur n Pre dicti on s       2.1.  I nitial Le vel C lu ster  Fo rmul at i on   usi ng   DBS CAN   The  pr e - pr oce ssed  data  is  a naly zed  a nd  the  m axi m u m   acce ptable  dis ta nce  ( ma x Dis t an the   m ini m u m   neig hbor  requirem ents  ( mi nPts are  identifie us in the  data   distribu ti on.  Howe ver,  accuratel identify in the   best  par am et ers  is  no po s sib le   in  sing le   it erati on.  This  is   tria and   error   base fine - tun i ng  process F ur t he r,   the se  par am et ers  va ry  with   t he  dataset   bei ng  us ed Hen ce   distrib ution  ba sed  tra ns ie nt  va lues  are  init ia ll identifie an th final  par am e te rs  are  identif ie by  m et ho di cal ly  increasing   a nd   decr eas ing   th e   par am et er v al ue s to  i den ti fy t he best  par am et er s et  for t he c urren data  unde a naly sis.      2.1.1.   Clus ter  Ident ific at i on   Pha se   In   t his  phase t he  process  be gi ns   with   ra nd om   no de  i the   dataset T he  i niti al   cl us te is  com po sed   of   t his  sin gle  node   n Nei ghbors   of  the   sel ect ed  no de  ( n a re  ide ntifie usi ng   m axD ist   as   the  th res ho l d.   If   t he   node  sat isfie the  m ini m u m   neighbor  requir e m ents  ( mi nPt s ),   it   is  c onside red  to  be  a   pa r of  cl us te a nd  not   an ou tl ie r. He nc e, this is  f ollo wed b y t he  cl ust er expa ns io n ph a se.     2.1.2.   Clus ter  Expansio n Phase   This  ph ase   fin ds   the  nei ghbors  of  eac no de   in  n.   If   e ach  of   t hese  nodes  sat is fies  the  mi nPt s   requirem ent  they   are   inc orporated   as  a entit in  the   cl us te r.  T his   proces is  c on ti nue un ti l   al the  appr opriat nodes  are  gro up e into  t he  cl ust er.  H ow e ve r,   sever al   cl ust er m igh exist  in  dataset H ence   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2252 - 8776   IJECE    V ol.  6 ,   No.  3 ,   Decem ber   20 1 7   :   199   208   202   so m po ints   w ou l rem ai ou tsi de  t he  c ompo s ed   cl us te r rand om   su ch  po i nt  is  c ons idere as   the  ba se  f or   the  ne xt  cl us te r.   T he  nei ghbo ide ntific at ion  and   cl us te e xpan sio phase  are  re peated  t identify   the  points  corres pondin g t the  ne cl ust er.  T his  proce ss is r e peated  unti l al l t he  poin ts are cat e gorized int a cl us te r.   Th ough  al points  are  cat eg or iz e into  cl us te rs not  al cl us te rs  w ould  be  c om po se with  high  or  eve consi der a ble  de ns it ie s.  So m cl us te rs  w ou l be  c om po sed  of  sing le   node.   T hese   no de are  inten de to  be   ou tl ie rs.  Ma jor   reasons  f or   th occ urren ce  of  outl ie rs  are  i m pr op er  pa ra m et er  tun in g,   t heir  act ual  pr e sence  or   inap pro pr ia te   node  validat io in  the  e xpan sion   ph a se.  T houg the  act ua pr ese nce  of  ou tl ie rs  needs  to  be   consi der e d,  th oth e tw is su es  al s play   vital   r ole  in   the  occ urre nc of  outl ie rs  i DB SCA N.   Hen ce   seco nd  le vel  e xam inati on   w ould  i ncor porate  seve ral  no de that  c ou l ha ve  been  com po ne nts  of  the  e xisti ng   cl us te rs, le adin to  a  reducti on in  the  outl ie rs.       2.2.   On e - Cl as s  SVM  ba se N oise  Redu c tio n   DBSCA el im inate severa no des co nsi der in them   as  ou tl ie rs.   Howe ver,  they   m igh no t   necessa rily   correspo nd  to   out li ers,   rat her  th ey   co uld   be   c om po ne nts  of  the  def ine cl us te rs Util iz ing   th conve ntion al   c onditi on al   che cks  util iz ed  by   DBSCA a gain  ulti m a te l has  t he  sam eff ect s Hence   th e   pro po se NR DBSCA inc orp or at es  m achine  le ar ning  cl assifi er,  On e - Cl ass  Suppo rt  Vector   Ma chine   (S VM ) for th cat egorizat ion   process   Util iz ing  all  the clusters  for  tr ai nin g a bi nar y / m ulti - cl ass class ifie an t hen p er form ing  classi ficat io on   t he  detect e ou tl ie rs  has  se ver al   dow ns ide s.  The  m ajor  issue  is  that  bi na ry/m ulti - cl ass  cl assifi er  de fin it el cat egorizes  the   data  i nto   a ny   one  of  the   gr oups .   Hen ce   a ll   the  outl ie rs  would  de finite ly   be  groupe into  a   cl us te r,   le a ding  to  z er ou tl ie rs.   H ow e ver,  the  pro pose work  is  inte nded  on   gro upin on ly   the  a pp ropr ia te   nodes  a nd  retai nin the  outl ie rs.   He nce  one - cl ass  cl assif ie w ou l be  t he  best  s uited  appr oach.  O ne - cl ass  cl assifi er   is   s pec ia case  of   cl assifi ers,   w he re  the   patte r of  si ng le   cl a ss  w ould  be  w el known,  w hi le   the  patte rn s  that  do  no t c onfi ne  t the  w el l - known  traine d patt ern s  wo uld   be c onsidere a ou tl ie rs.    Ou t pu f r om   D BSC AN   is  in  t erm of   cl us te r s.  Data  withi cl us te rs  h a ve  obvi ous  associat ion s he nce  these  can  be  use as  the  trai ning  data  f or   the  cl assifi ers.   The  noise   re duct ion   phase  op erates  by  trai nin th e   one - cl ass  SVM   us in data   from   on cl us t er  a nd  perfor m ing   pr e dicti ons  on  the   detect ed  ou tl ie rs.  Ou tl ie rs  cat egoriz ed  as   com po nen ts  of   the  cl us te us e for  trai ni ng   a re  inco rpo rated  into  the  cl us te r.   T he  re sidu al   ou tl ie rs  are  c onside red   for  processin by  tr ai nin the  on e - cl ass  SV w it data  fr om   t he  ne xt  cl us te r This   process  is co nt inu e d for all  th e d e fine cl us t ers w it c onsid erab le   de ns it y l evels.    One - cl ass  SVM   was   sug gest ed  by  Sc holk opf   et   al i [18 ] It  op e rates  by   sepa rati ng  th data  points   from   the  or igin   and   c onside ring   t he  ori gi a lon as  t he  sec ond  cl ass.  The  base  op e rati onal   natur of   on e - cl ass   SV is  to  m a xim iz the  distance  f ro m   the  hype rp la ne  cre at ed  by  the  dat po i nts  to  the  or i gin T he  res ultant  of  this  is  a   bi nar functi on  that  effe ct ively   captu res  t he   re gions  in   th input  s pace,   retu rn i ng  + for  data   con ta ine in  t he  hype rp la ne   an - f or  ot her s.   O ne - cl ass  S VM  use in  t he  NRD BSC AN  util iz es  th e   po ly nom ia l ker nel [1 9], as  t he  input  data  has t he  te nden cy  to  contai se vera l dim ension s.    No al data  a r ex pected   to  be  c om po ne nts   of  the   cl us te rs A fter   the  e ntire  process,   s om resid ual  da ta   rem ai ns , w hic h a re cate gorize as   outl ie rs.       3.   RESU LT S   A ND AN ALYSIS     DBSCA was   i m ple m ented  in  C #. N ET  a nd   the  no ise   re duct ion   c om po ne nts  w ere  i ncor porated   int the  op e rati ona pr oces s.  A na ly sis  of   the  N RDBSC A w as  perform ed  by  us in f our  ben c hm ark   dat aset s.   Cl us te rin sp e ci fic  dataset su ch  as  I ris  and  Ba nan an sp at ia dataset su c as  Qu a ke  and   F or e st  were  us e for  ide ntifyi ng  the ef fici ency  of the al gorith m .   Cl us te de ns it ie and   t he  nu m ber   of   cl us te rs  obta ine f rom   each  of   the  dataset us i ng   NR D BSC A N   is  sh own  in  fi gures (1 - 4).  Cl us te de ns it ie cor re spo nd   to   the  nu m ber   of  nodes  in  eac of   th form ulate cl us te r.   de nsi ty   of   one  in dicat es  an  ou tl ie r.   It  co uld   be   ob se r ved   t ha the  cl us te rs  f or m ulate us in the   pro po se a ppr oach  ex hib it s   low  outl ie l evels  a nd  cl ust ers   of   c onsi der a ble  den sit ie s.  I ris  an Qu a ke,  con ta ini ng  lo w   va riat ion e xh ibit   low  outl ie le vels,  w hile  Fo r est   an Ba nan a   ex hib it high  var ia ti ons he nc e   high  ou tl ie rs.  Howe ver, it  could  be o bs er ve that t he  cl us te rs othe tha n ou tl ie rs  e xhibit  h ig h de ns it y l evels.     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - ICT     IS S N:  22 52 - 8776       Den sit y B as e d C lusteri ng wi th  In te gr ate d O ne - Cl ass  SVM   ( K. Nafees  Ah med )   203     Figure  1. Cl us t er  Den sit y ( Ir is )       Figure  2. Cl us t er  Den sit y (Ba nan a )       Figure  3. Cl us t er  Den sit y ( Q ua ke)   50   54   11   23   4   7   1   0 10 20 30 40 50 60 1 2 3 4 5 6 7 No.  of Nod es   Cluste Number   Cl us t er  Dens ity   (Iris)   5066   131   9   40   16   13   13   6   1   1   1   1   1   1   0 1000 2000 3000 4000 5000 6000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 No.  of Nod es   Cluste Number   Cl us t er  Dens ity   (Ba nana)   2045   21   8   7   9   18   12   22   26   9   1   0 500 1000 1500 2000 2500 1 2 3 4 5 6 7 8 9 10 11 No.  of Nod es   Cluste Number   Cl us t er  Dens ity   (Quak e)   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2252 - 8776   IJECE    V ol.  6 ,   No.  3 ,   Decem ber   20 1 7   :   199   208   204     Figure  4. Cl us t er  Den sit y ( For est )       In tra - cl us te ra diu of   the  pro po s ed  NRDBS CAN  is  presen te in  fig ur es ( 5 - 8).  It  co uld   be  obser ve that  the  propos ed  te ch nique  exh i bits  low  to  m od erate  intra  cl us te distanc le vels.  Mod e rate  le vels  are  du t the  var ie s ha ped   cl us te rs  f or m ed  by  the   al go rithm Int er - cl us te dist ance  ex hib it ed   by  the  al gori thm   is   pr ese nted   in   fi gure  9.  It  c ould  be  obser ve that  lo i nter   cl us te r   dista nc es  are   ex hib it ed  by  NRDBS CAN.  This  validat es  our  cl ai m  o f va ried  s ha ped clu ste rs  wit h diff e ren de ns it y l evels.         Figure  5. I ntra C luster Radi us (Iris)         494   4   5   4   1   1   1   1   1   1   1   1   1   1   0 100 200 300 400 500 600 1 2 3 4 5 6 7 8 9 10 11 12 13 14 No.  of Nod es   Cluste Number   Cl us t er  Dens ity   (F or es t)   0 0.5 1 1.5 2 2.5 3 1 2 3 4 5 6 7 Node Di stance   Cluste Number   In tr aClu s t er  Ra di us  (Iris)   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - ICT     IS S N:  22 52 - 8776       Den sit y B as e d C lusteri ng wi th  In te gr ate d O ne - Cl ass  SVM   ( K. Nafees  Ah med )   205     Figure  6. I ntra C luster Radi us (Bana na )       Figure  7. I ntra C luster   Ra di us (Qua ke)       Figure  8. I ntra C luster Radi us (F or est )   0 0.5 1 1.5 2 2.5 3 3.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Node Di stance   Cluste Number   In tr aClu s t er  Ra di us  (Ba nana)   0 0.5 1 1.5 2 2.5 3 3.5 4 1 2 3 4 5 6 7 8 9 10 11 Node Di stance   Cluste Number   In tr aClu s t er  Ra di us  (Quak e)   0 100 200 300 400 500 600 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Node Di stance   Cluste Number   In tr aClu s t er  Ra di us  (F or es t)   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2252 - 8776   IJECE    V ol.  6 ,   No.  3 ,   Decem ber   20 1 7   :   199   208   206     Figure  9. I nter C luster  Dista nc e       c om par ison  in  te rm of   ti m is  carried   ou betwee D BSC AN,  Mo di fied  PS base DBSCA [20]  an the  pro posed  NR D BSC AN   is  pr e sented  i fi gur 10.  It  c ou l be  obse rv e t ha the  tim ta k en  f or  m od ifie PSO  is  the  hig hest Howe ver,  th tim e   ta ken   by   NRDBSCA is  higher  c om par ed  to  DB SCAN.  Eve n - th ough  t hat  is  the  ca se,   the  diff e ren c e   is  in  te rm of   0.3  sec  (m axim u m ).   Hen ce  t he  sig nifica nce   of  the  tim e increase is co ns ide re to  b e l ow.           Figure  10. Tim e Com par iso n     c om par ison i te rm of   th e n um ber  o f   cl ust ers  ge ne rated b DBSC A a nd  NR DBSCA is  s how in  fi gure  11.  It  co uld   be  obse rv e t hat  the  num ber   of  cl ust ers  gen e rated   by   NRDBSC A is  at - le ast   60%  le s s   than  the  c onve ntion al   DBSC AN.  This  e xhibit the  ef fecti ve  no ise   re duct ion   le vels  e xhibit ed  by  the  pr opose appr oach.            0 0.5 1 1.5 2 2.5 3 3.5 4 Iris Ba nan a Qua ke Forest Distance   In t er  Cl us t er  Di s t ance   Iris Ba nan a Qua ke Forest Ti m e (D B SCAN ) 0.002 0.046 0.0361 0.0126 Ti m e ( N R DBSCA N) 0.005 0.3605 0.0706 0.0217 Ti m e (M odifi ed PSO) 0.193 3.972 3.421 1.794 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 Ti me  ( sec)   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - ICT     IS S N:  22 52 - 8776       Den sit y B as e d C lusteri ng wi th  In te gr ate d O ne - Cl ass  SVM   ( K. Nafees  Ah med )   207       Figure  11. C om par ison  in  ter m s o num ber   of clusters       4.   CONCL US I O N   Cl us te rin g,   bei ng  one   of  the   m ajo r   te ch niqu es  f or  data  ana ly sis  has  see sever al   ada ptati on s   due  t the  cha ng i ng  const raints.  T he  m ajo a da ptati on i nclu de  ide ntifyi ng  var ie sh a pe cl us te r s.  T hi pap e r   pro po ses  a en han cem ent  of   the  DBSCA that  is  pio neer  al go rithm   in  i den ti fyi ng  va ried  sh a ped   a nd  v arie densi ty   cl us te rs.   The  m ajo dow ns id of   DB SCAN   was  ob serv e to  be  it requirem ent  fo acc ur at pa r a m et er   set ti ng sli ghtl var ie set ti ng  res ults  in   th increa se  in   outl ie rs.   Howe ve r,   i den ti fyi ng  the  pe rfec pa r a m et er  is  no feasible .   Hen ce  the  propose NR DB SCAN   e nhanc es  the  DBSCA ap proac by   introdu ci ng   no ise   reducti on  c ompone nt  ba sed   on  on e - cl ass  cl a ssifie m od el On e - cl ass  SVM   was  us e to   pe rfor m   this  proces s .   Re su lt ex hib i ts  sign ific a nt  r edu ct io i th no ise   le vels.   Current  al go r it h m   op erates  eff ect ively   on  fixe densi ty   cl us te r s.  F uture  wor ks  will   co nce ntr at on  po rting  t he  al gorithm   to  op e rate  on  da ta set with  va ried  densi ti es and e ff ect ively  ide nt ify  clusters  with  var ie d den sit y l evels.       REFERE NCE S   [1]   J A Hart iga an M.A.  W ong A lgori thm AS   1 36:  A k - m ea ns  C luste ring  A lgorit hm ,   Journal  of  Roy al  Sta ti sti ca l   Soci e ty , S erie s C   ( Appl ie Sta ti sti cs)   vol.   2 8,   pp.   1 00 - 108 Jan   197 9 .   [2]   C. P.  W ei ,   et   al.,   Empiric al   Com par ison  of  Fas Cluste ring  Algorit hm for  La rge   dat sets, ”  in  S y stem  Scie nce s ,   2000  IEEE Proc ee ding   of   33 rd   A nnual  Hawaii   In te rnational   Conf ere nc e 2000 ,   pp .   1 - 1 0.   [3]   M.E ster,   e al.,   Densit y   B as ed  Algorit hm   for  Discove ring  Cluste rs  in  La rge   Spati al   Dat aba se with  Noise, ”  in  2 nd   Inte rnat ional Confe ren ce on Knowledge Disc ove ry  and   Data  Mini ng.   KDD - 1996 vol .   96 ,   pp .   226 - 231.   1996 .   [4]   A.  Hinnebur an D.A.  Ke im,  An  Eff icient  Approac to  Clust e ring  in  La rg M ult imedia  Dat ab ase with  Noise , ”  in  Int ernati onal   Confe renc on   K nowle gde   Disco ve ry  and   Data  M ini ng,   KDD - 1998 ,   vol .   98 ,   pp .   58 - 65,   1998 .   [5]   M.  Ankerst,   et   al . ,   OP TICS:  Ord eri ng  Points   to  Ide nti f y   th Clust eri ng  Struct ur e,”   in  ACM  SIGMO D R ec ord 1999,   vol.   28 ,   pp .   49 - 6 0,   1999 .   [6]   E.  Güngör   and  A.  Özm en ,   Distance  and  Densi t y   b ase Clust er ing  Algorit hm   u sing  Gauss ia Kerne l,”  E xpe rt   Syste ms   wit h   Ap pil cations,   vo l. 1 ,   pp .   10 - 20 ,   201 7.   [7]   S.  Zhou,  e a l.,  FD BS C AN A Fast  DBS CAN   Algorit hm , ”  Ru an Jian  Xue  B ao ,   v ol.   11 ,   pp .   735 - 7 44,   2000 .   [8]   C. F.  Tsai and  H.F.  Yeh,   Npus t:   An  Eff icient  Cluste ring  Algo rit hm   using  Part it ion  Spa ce   T echnique   for  L arg Data base s, ”  in  I nte rnational   Co nfe renc on  Indu strial,   Engi n eer ing  and  Other  Appl ic a ti ons  of  Appl ie In te l li ge nt   Syste ms ,   pp .   787 - 796,   2009 ,   Spri nger   Ber li n   Heid el ber g .   [9]   A.R.   Chowdhury ,   et   al.,  An  Eff ic i ent   Met hod  forSs ubje ct ive l y   Choosing   Para m et er  „k‟Autom at ic a lly   i VD BS CA ( Vari ed  Densit y   B a sed  Spa ti al   Cluste ring  of  Applicati ons  with  Noise)Algori thm,”   in   Computer  and   Aut omation   Enginee ring,   2010,   I CCAE   2010 .   S econd Int ernat iona Conf ere nce, IE EE ,   pp.   38 - 41.   [10]   M.  Parimala,  et  al.,  S urve y   on  D ensity   B a sed  C luste ring   A lgori thms   for  M ini ng  L arg S pat i al   Da ta base s ,   Inte rnational   Jo urnal  of  Adv an c ed  Sc ie n ce   and   T ec hnolog y,  vol.  31,   pp .   59 - 66 ,   2 011.   [11]   X.  Chen,   et   al . ,   APSCA N:  P ara m et er  F re A lgori thm  for  C luste ring ,”   Pattern   Re cognition  Let te rs ,   vol.   32,   pp .   973 - 986,   2011 .   [12]   Y.  Zhu,   et   al.,   Density - r atio   B ase C luste ri ng  for  Discove ring  C luste rs  with  V ar y ing  D ensit ie s ,”   Pat t ern   Re cogn it ion ,   vo l .   60 ,   pp .   983 - 99 7,   2016 .   [13]   S.  Louhi ch i,   e a l. ,   Uns uper vise Vari ed  Densit y   B ase C luste ri ng  A lgori thm  using  S pli ne ,”   Pa ttern  Re cogn it ion   Lett ers ,   2016 .   0 50 100 150 200 250 300 Iris Ba nan a Qua ke Forest Cluste Number   No of Clus t er s   # C l us te r s  ( DBSCA N) # C l us te r s  ( NRD BS CAN) Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2252 - 8776   IJECE    V ol.  6 ,   No.  3 ,   Decem ber   20 1 7   :   199   208   208   [14]   P.  Li u,   e al.,   VD BS CA N:  V a rie D ensity   B a sed  S pat ia C lu steri ng  of  A pplications  with  N oise ,”   i n   S erv ice   Syste ms   and  S erv ice  Manag eme n t 2007 ,   I EEE  Int ernati onal   Confer enc e,  2007 pp.   1 - 4.   [15]   C.   Xiao y um ,   et   al. ,   GM DBS C AN M ult i - Densit y   DBS CAN   C luste B ase on  Grid, ”  in  e - Busi ness  Engi nee rin g 2008,   ICE BE 20 08.   IE EE Int ern ati onal  Con fe ren ce ,   2008,   pp.   78 0 - 783.   [16]   B.   Borah  and  D.K.  Bhatta cha r yy a ,   DD SC A   D ensity   D i ffe r e nti ated  S patial   C luste ring  Te ch nique ,   Journal  of   compute rs ,   vol .   3,   pp .   72 - 79 ,   20 08.   [17]   A.  Ram,  e al . ,   An  Enha nce d   D ensity   B ase d   S pat ial  C lust er ing  of  A pplica t ions  with  N oise ,”   in  Ad vanced   Computing  Conf ere nce,  2009 .   I A CC 2009.   I EEE  Inte rnational ,   20 09,   pp .   1475 - 14 78.   [18]   B.   Schölkopf et  al. ,   Esti m at ing   the   S upport  of  H igh - dimensional   D istri buti on ,   Neural  Computati on ,   2001 ,   pp.   1443 - 1471.   [19]   L. M.  Man evi t and  M.  Yous ef,  One - cl ass  SV Ms   for  D ocument  Cla ss ifica t ion ,   Journal  of  M achi ne  Learning   Re search ,   2001,   vol.   2 ,   pp .   139 - 1 54.   [20]   K.  Nafees  Ahm ed  and  T.  Abdul  Raz ak ,   Densit y   Based  Clust eri n g   using  Modifi e PS base Ne ighbor  Sel ec t ion ,   Inte rnational   Jo urnal  of  Comput er  Scienc and   E ngine ering ,   vol .   9,   pp .   192 - 199 .                                                                               Evaluation Warning : The document was created with Spire.PDF for Python.