Indonesi an  Journa of El ect ri cal Engineer ing  an d  Comp ut er  Scie nce   Vo l.   23 ,  No.   3 Septem ber   2021 , pp.  1602 ~ 1610   IS S N: 25 02 - 4752, DO I: 10 .11 591/ijeecs .v 23 .i 3 . pp 1602 - 1610          1602       Journ al h om e page http: // ij eecs.i aesc or e.c om   Develop  a dynam ic DBS CAN  algorith m f or solvin g in itial  paramet er sele ction p roblem  of  th e DBSC AN algo rithm       Md. Z ak ir  H ossain,  Md.  Ja kirul  Islam , Md.  W aliur R ah m an   Mi ah ,   Jahid H asan  Rony,    Momo ta z  Beg um   Depa rtment  o C om pute Scie n ce a nd  Engi n ee rin g,   Dhak Unive r sit y   of Engin e ering a nd  Technol o g y ,   Ga zi pur,  Bangl ad esh       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Oct   1 4 2020   Re vised  Ju l   1 1 2021   Accepte J ul   1 8 2021       The   amount  of  d at has  be en  inc r ea sing  expon ent i al l y   in  eve r y   sec tor  such  as   banki ng  sec ur it i es,   he al th ca r e,   educ a ti on,   m anuf ac tur ing,   consum er - tra d e ,   tra nsporta ti on,   a nd  ene rg y .   Mos of  the se  dat ar noise,   diff ere n in  shape s,   and  outl i ers.   In  such  ca ses,  it   is  cha l le nging  to  f i nd  the   desire d at c luste rs   using  conve n ti o nal   cl uster ing  algorithms .   DBS CAN   is  popu la r   cl ust eri ng   al gorit hm   whi ch   is  widely   used  for  nois y ,   arb it r ar y   shape ,   and   outl ie r   data.  How eve r,   i ts  pe rform anc high l y   d epe nds  on  th prope se le c ti o of  cl uster   rad ius  ( Eps )   and   the   m ini m um  n um ber   of  point s   ( MinP ts )   tha are   req uir e d   for  form ing  cl usters  for  the   giv e dat ase t .   In  the   ca se  of  re al - worl cl usteri ng   proble m s,   it   is  a   diffi cult  ta sk  to   sele ct   th exact   val ue  of  Eps   an MinP ts   to  per form   the   cl u steri ng  on  unknown  dat ase ts.  T addr ess  the se,   thi pape r   prop oses  d y n a m ic   DBS CAN   al gorit hm   tha ca l c ula t es  the   suit able  val u for   Eps   and  MinP ts   d y namic al l y   b which  t he  cl ust eri ng  qual i t y   of   the   give n   proble m   will   b inc r ea sed .   T h is  pape evalua t es  the   p erf orm a nce   of  the  d y nami DBS CAN   al gorit h m   over   seve n   cha l le nging   dat ase ts.  Th expe riment al   r e sults  conf irm  th eff ec t ive ness  of  the   d y n amic   DBS CA N   al gorit hm   ov er t he  wel l - known clusteri ng   al gor ithm s.     Ke yw or ds:   Arbit rar y s ha pe   DBSCA N   Eps   In it ia l pa ram eter   Mi nP ts   Ou tl ie r   This   is an  open   acc ess arti cl e   un der  the  CC  B Y - SA   l ic ense .     Corres pond in Aut h or :   Md.  Ja kir ul Isl a m   Dep a rtm ent o f C om pu te Scie nce a nd E ng i ne erin g   Dh a ka U niv e rs it y of  E ng i neeri ng  a nd Tec hn o lo gy, Gazi pur , Ban glades h   Em a il j akirdu et @duet.ac. bd       1.   INTROD U CTION   In   t he  la st  dec ades,  c om pu te r   an in form at i on   te c hnol og hav e   bee devel op e ra pid ly .   As  res ult,   the  data  volum has  bee incr eased  m assively  in  sci ence  an en gin ee rin g,   and   it   will   be  increase c on st antly   on  a   la r ge  sc a le   [1] The   in crease  of  data   from   te rab yt es  to  pet  byte cha ng es   sci e nce  a nd  en gi ne erin g,   trans for ms   diff eren or gan iz at ion   f ro m   data - poor  to   increa s ing ly   data - rich .   This  cause  to d evel op   si gn i ficant  nu m ber   of alg ori thm s in  the f i el of  data  cl us te ring.    Cl us te rin is  the  key  to  fi nd  accurate  data  pa tt ern of   la r ge   dataset s   [ 2] C lusterin has  be en  us ed   in   m any  app li cat ion s inclu ding   m ark et i ng ne twork i ng i m age  proce ssin g,  bio l og y,  geogr a phic   obser va ti on ,   web   a naly sis ,   and   m edical - ba sed  ap plica ti ons  [ 3 ] C luster ing   play sign ific ant  r ole  in   al lowing  auto m at ic  identific at ion o f un la beled rec ords by  gro up i ng them  into  cl us te rs  b ase d o n si m il arit m ea su rem ents   [ 4] .   Re centl y,  sev eral  resea rche rs  hav e   bee fo c us i ng  on   the  dev el opm ent  of  dif fe ren cl us te rin al gorithm s,  suc as   BIRC H   [ 5] D B SCA [6] k - nea r est   neig hbor  [7] m ini - batc k - m eans  [7 ] ,   [ 8]   k - m eans  [7 ] ,   [ 9] OP T ICS  [ 10 ] a nd   GM [11] T hese   cl us te rin al gorithm are  reco gniz ed  i n   di ff e ren t   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Develo p a dyn am ic   DB SCAN  a lg or it hm f or   so lv in init ial  pa r amet er sele ct ion   ( Md . Zakir  Ho ss ai n )   1603   cat egories:   centr oid - base c lusterin g,   gr a ph - base cl us te rin g,   par ti ti on i ng   cl us te rin and   de ns it y - base cl us te rin g [12].     In   this  researc h,   we  f ocu on   the  de ns it y - ba sed  cl us te rin al gorithm wh ic m ai nly  dep ends  on  th e   no ti on  of   de nsi ty In   th li te r at ur e,  t he  de nsi ty - based   cl us te rin m et ho descr i bes  cl ust ers  acco r ding  to  th e   high - de ns it reg io ns   w hich  are  sepa rated  f ro m   the  low - de ns it reg io ns   [1] T he  cl us te rs  co ntin ue  gr ow i ng  un ti the  de ns it exceeds  certai thres hold   [13] Accor din to  that the  densi ty - base cl us te rin al go rithm   has  a a dvanta ge  in  creati ng  gro up s  w it h   ar bitrary s ha pes.   The  DB SCA is  popu la de ns it y - base cl ust ering   al gorith m   that  go al   at   i den ti fyi ng  the h ig de nse   reg i on   to  for m   cl us te rs  and   low  a reas  to  sepa rate  the m .   The  DBS CAN  al gorit hm   m a inly   fo cuses  on   m ini m iz ing   th num ber   of  input  par am et e rs.   It  disc ov e r cl us te rs  e ff ic ie ntly   without  us in s pecify ing   t he   nu m ber  o f   cl ust ers  [ 14] It h as   bee s uccess f ully   app li e in d iffe re nt  fiel ds  inclu ding  m edical   i m ages,  sa te ll it e   i m ages,  an oma ly   detect ion   in  te m per at ur e   data,  a nd  G P data  [15].  Howe ver,  the  perform ance  of  this   al gorithm   is  hi gh ly   de pe nd e nt   on   tw us er - de fine pa ram eter as  s how in  Fig ure  1,   na m el Eps   and   Mi nPts Fo e xam ple,  if  the  la rg val ue  is  ch os en  for  Eps the DB SCAN   form t he  cl us te rs  with  dissim il ar  data.  On  the  ot her   ha nd,  if  sm al value  is  ch os e for  E ps t he this  te ch nique  form the  cl ust ers  ha ving  sm a ll   a m ou nt   of  sim il ar  data.  I s uc cases t he  s el ect ion   of  Ep s   an Mi nPts   i c halle ng i ng  ta s for  perf or m ing  cl us te rin on  r eal - w or ld  data set s,  wh ic is  the  m ai con c ern   of   t his  res earch Alth ough,  m any  research er s   hav bee f oc us in on  im pr ov i ng   t he  pe rfor m ance  of   t he   DBSCA al gorithm   us ing  ei ther  sel ect ing   t he  init ia value  of  Eps   or  Mi nP ts   dynam ic al l [16 ] - [ 21] The   li te ratur sho ws  that,  the re  is  no   re searc works   hav e   bee ta ke init ia ti ve  to   sel ect   the  init ia value  of  both  Eps   an Mi nPts   dynam ic al ly Ther ef ore,  t his   pap e propose dynam ic   DBSCA al gorithm   that  sel ect the  init ia value  of   both  E ps   a nd  Mi nPts   dynam ic al l y, hopi ng that  good  qu al it y cl us te rs wit h bett er a c cur acy   will  b e  foun at  the  e nd of t he  r un.             Figure  1. I niti al  p aram et er  E ps   an Mi nPt s       The  orga nizat ion  of  t his  pa pe is  as   f ollo ws.   I Sect io 2 ,   the   detai of  DBSC AN  al gori thm   is   pr ese nted In  Sect ion   3 ,   the   w orks  relat ed   to  this   resea r ch  a re  descr i be d.   I Sect io 4 ,   the  detai of  the  pro po se dynam ic   DBSCA a lg ori thm   i desc ribe d.  Sect ion  5   de m on strat es  the   ex per im ental  res ults   pro vid e by  th pro po se a nd  the  well - kn own  dat cl us te rin m et ho ds Sect ion   6   desc ribes  th co ncl us io and f uture  wo r k of t his  resear ch.       2.   RELATE D  W ORK   Cl us te rin is  c on si der e f or  pr e par i ng  a e ff ic ie nt  unsupe rv ise a naly sis  thr ough  t he  da ta I t his   reg a rd,  se ve ra cl us te rin al gorithm hav e   de velo pe in   the  la st  deca des.  I n=t  ca be   see that,   thes e   al gorithm have  ex per ie nced   diff ic ulti es  w he the  dataset s   are  un st ru ct ured,  noise different  in   sha pe an siz es,  an de nsi ti es.  The  DBS CAN  al gorith m   is  recog nized  as   popula densi ty - base cl us te rin al gorithm wh ic can  pe rfor m   cl us te ring  on   t he  dataset with  di ff e ren siz es  and   s ha pes  [ 7].  H owe ver,  it perfor m ance  highly  d e pends  on th e  v al ue o E ps   a nd the  val ue  of  Mi nPts .   Seve ral  researc her hav bee condu ct e f or   the  i m pr ovem e nt  of   DBSCA al gorithm Fo e xam ple,  in  [ 16 ] a   ne heurist ic   is  pro po s ed  a a d ist ance  m e asur in m et ho t pe rfor m   the  cl us t erin in  m ulti - densi ty   dataset s.  In   [ 17] an  im pr oved   DBSC AN   al gorithm   cal le so ft  DBSCA wh e re  fu zzy   se theo ry  is  ap pl ie t perform   the  clu ste rin on  suc dataset s.  I [1 8],  ne DBSA C cl ust ering   al gorith m   is   pr op os e f or   norm al iz ed  dat aset wh ic ar pr ove to  be  an  eff ic ie nt  cl ust ering   a ppr oa ch.   H oweve r,   this  m et ho un able  to   reso l ve  the   pro blem   of   sel ect ing  in pu par a m et ers  as  in  th DBSC AN   al gorithm In   [19],  an othe DB SC A N   al gorithm   based   on  grap h - bas ed  inde str uct ur is  pro pose f or   perform i ng   cl ust erin on  high - dim ension al .   In   [20],  the  D BSC AN   al gorithm   is  i m ple mented  in  distr ibu te syst em The  distri bu te syst e m app ly   in  big  dataset to  pro cess  the  data  in  ver fast - gro wing  way.  P arall el iz at ion   al so   us es  in  the  distrib uted  syst e m In   [21],  an  im pr ov e DB SCA al gorithm   i propose to   reduce  the  com pu ta ti on al   tim of   the  existi ng  DBSCA al go rithm This  al go rithm   can  divi de  data  s pace  into  gri de  a nd  then  op ti m iz es   the  com pu ta ti on a l   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   23 , N o.   3 Se ptem ber  2 02 1 16 02   -   16 10   1604   cost  by  re du c ing   unnece ssa r query  oper at ion of  the   DBSCA al gorithm s.  I [ 22] the   pa rtit ion i ng  te chn iq ue  is  com bin aed  with  DBSC AN   t sel ect   the  su it able  value  of   the  use r - de fine par am eter of   DBSCA al gorithm Howe ver,  this  m et ho has  not  eva luate a gainst  the  dataset with  dif f ere nt  de ns it ie s.   The  aut hors  of  [ 23 ]   ha ve  in corp or at ed  t he   gau s sia n - m eans  into  t he  D BSC AN   al gorithm   to  i m pr ove  the   sel ect ion   of   t he   value   of  D BSC AN   pa ra m et ers.   H ow e ver,  this  m et ho co uld  not  sh ow  bette cl us te rin perform ance  against  de ns da ta set s.  In   [24 ] the  bi nar di f fer e ntial   evalu at ion   co nce pt  is  inco rpor at i nto   the   DBSCA al gorithm   to  eff ect ively   deter m ine  the  value  of   DB SCA par am et ers.   In  [2 5],  a i m pr ove DBSCA cl ust ering  al gorit hm   nam e ly   DBSCA N - KNN - GA  is  pro po s ed   by  a doptin t he  k - near est   neig hborh ood con ce pt (KNN and   genet ic  algorit hm  ( GA into D BSC AN   al gorithm s w hich  fin ds  the v a lue o f   Eps  a nd  Mi nPt dynam ic al l y.   It  ca be  obs erv e that  al of   t hese  al gorithm hav di ffi culti es  to  sel ect   th e   us er - def ine pa ram et ers  of   DBSCA al gorithm Ther e fore,  this  stu dy   pr op os es  a   dynam ic  DBSCAN  al gorithm  f or  non - s ph e rical  clusterin g.  T he p rop os ed  te c hn i qu does not re ly  o any pre de fine pa ram eter s as  the  or i gin al   D BSC AN   te c hniqu e.  T he  pro po s ed  m et ho cal culat es  the  best  Eps  a nd   Mi nP ts  dyna m ic al l y,  wh ic h   im pr ove s the cl us te r q ua li ty .       3.   THE  D BS CAN CLUSTE RI NG ALG ORIT HM   The  DBSCA N   al gorithm   aim s   to   ide ntify   the   hi gh   de ns reg i on   cl us te rs   by  sepa rati ng  them   fr om  low   de ns e   reg i on s It  ha tw us e r - def i ned  pa ram et ers  nam el Eps   a nd  Mi nPts  wh ic a re   re qu ire t fin the   cl us te rs  of   dataset s The  m ain   idea  of   t he  DBSCA is  th at   each  point  i the  dataset   is  scan ned   t det erm ine  the  nea rest  nei ghbors  within  par ti cular  dis ta nce  [ 1 7 ] T determ ine  cor e - po i nt,  the  num ber   of   neig hbors   sh oul excee the  thre shold Othe rw ise it   m igh be  bor der - point  or   no ise Be f or pro vid in g   the   idea  of  the D B SCA N al gorithm , s ome  noti ons  need  to b e  d e fine d fi rst. T he n otions are     Directly   den sit y - reac habl e po i nt  q   is  s ai to   be   di rec tl den sit y - rea chab le   f ro m   po i nt  p ,   i a nd  on ly  if  the  poin q   is i the   E ps   nei ghbor hood  of point  p ,  as  shown i Fi gu re  2 (a ) .     D e n s i t y - r e a c h a b l e :   A   p o i n t   q   i s   d e n s i t y - r e a c h a b l e   f r o m   p o i n t   p   b e c a u s e   t h e r e   e x i s t s   a   s e q u e n c e   q 1 ,   q 2, , . . . , q w i t h   q 1= p ,   q 2= p , . . . . q n= q .   T h e   p o i n t s   q i + 1   i s   d i r e c t l y   d e n s i t y - r e a c h a b l e   f r o m   q i ,   a s   s h o w n   i n   F i g u r e   2 (b) .     Densit c onne cted po i nt  q   is  de ns it co nn ect e t point  p   with  res pect  to   Ep s   a nd  Mi nPts   if   the re   is  po int  f   bel ongs   to  dataset   su ch  that  bo th  q   an p   a re  densi ty - reacha ble  from   f   with   resp ect   to  E ps   and  Mi nPts , as  shown i Fi gu re  2( c ) .     Co re  p oint A data   point   p   is  a cor e  point if  the  nu m ber   of   points in  it Eps   neig hborh ood  is gr eat er  tha or eq ual to  the  Mi nPts , as  s hown in Fi gure  2 (d) .     Border  p oint :   point   is  cal le bor der   po i nt  if  it   is  par of   cl us te and   not  dense  them sel ves,   as  sh ow in  Fi gur e 2 (d) .     No ise  po i nt A  point is cal le no ise  point if  it  does  not bel ong  to  an y cl us te r as s how i F igur 2 ( d) .     Clust er cl ust er  C   is a  non - e m pty sub set   of the  d at a set a s sho wn in Fi gure  2 (d) .           Figure  2 .  D BS CAN   al gorith m  n otion ( E ps =  2, Mi nPts  =  4 ),   (a) directl y  d e ns it y - reac ha ble,  (b) d en sit reacha ble,  (c)  densi ty  co nnec te d,  a nd (d) c or e,  bo rd e r,   nois e point a nd clu ste r   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Develo p a dyn am ic   DB SCAN  a lg or it hm f or   so lv in init ial  pa r amet er sele ct ion   ( Md . Zakir  Ho ss ai n )   1605   In  DBSC A al gorithm the  co re  po i nt  is   us e t m ake  pri m ary  cl us te rs.   If  al co r points  are   densi ty - connec te d   from   on a no t her,  the al pr im ary  cl us te rs  m erg ed  to  t he   sam c luster.   Af te form at io of  the  pr im ary  cl u ste rs,   the  rst  of  the  data  po int wil be  trat ed  as  ei ther  bord e po i nts  or  n oise   po ints.  T hee xisti ng  DBSCA al gorithm  is d em on strat ed  in  A l gorithm  1 .     Algorithm 1  Psodocode of DBSCAN ( X eps minpts )   Input:  X - se of   un vi si te po in ts eps - th di st an ce   th re sh ol d,   an minpts - th mi ni mu m   number of points   Output:  A set of clusters.   1.   for each   x   in     do   2.     x : =   MarkedAsVisited( True );   3.         ( ,  ) ;     4.   if   ( | | <   )   then   5.     x : =   MarkedAsNoise( True );   6.   Else   7.     { } ;   8.     for each        do   9.     : = \ ;   10.     if  ( ! Vis ited ( ) )   then   11.     x : =   MarkedAsVisited( True );   12.       ( ,  ) ;   13.     if  (   | |     then   e nd if   16.     if  (     not   in   C )   then  { } e nd if   19.     e nd if   20.     end foreach   22.     e nd if   23.   end foreach       4.   THE  PROPO SED  ALGO R ITHM   The  m ai pu r pose  of  the  rese arch   is  to  dete r m ining   the  bes value  for  E ps   and   Mi nP ts   dy nam ic al l wh ic will   i m pro ve  the  cl us t er  qual it y.   For   the  ex pla natio purpose we   co ns ide the  i nput  data  poin ts  are  sp rea in  a   tw o - dim ension al   ( x y )   sea rch  spa ce  with   the   uni form   distribu ti on. I the   first  stage,  we   cal cu la te   a   distance m at rix  D us i ng these  po ints, as  sho wn  in Figu re  3.       nn n n n n n d d d d d d d d d d d d D 3 2 1 2 14 22 21 1 13 12 11     Figure  3. Ma trix calc ulate f r om  assu m ed  data p oi nts       Each  el em ent   jk d   (e uclidia dis ta nce  from   data  po int  j   to  da ta   po int  k of  this  m at rix  can  be   cal culat ed usin g (1).      2 1 ) ( i i jk P P d   (1)     I n   t h e   s e c o n d   s t a g e ,   w e c a l c u l a t e   t h e   m e a n   d i s t a n c e   M f o r   e a c h   r o w   o f   d i s t a n c e   m a t r i x   D u s i n g   t h e   ( 2 ) .     n i jk i d m 1   (2)     The  m ean  dista nce   M is cal c ul at edas follo ws,     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   23 , N o.   3 Se ptem ber  2 02 1 16 02   -   16 10   1606   n m m m M 2 1       In  the   thi rd   st age,  we  fin the  m ini m u m   m ean  value  f r om M us in the  f ollow i ng   (3).   This  f ound   m ini m u m   m ea n value is  cons idere to  b e  th e closest  near e st neig hborh oo d po i nt of t he  th i da ta  p oi nt.     n i m m i      w h e r e ) m i n ( m i n   (3)     Her e the   th i   data  point   is  t he  highest  den sit point  wh ic i de note by ) , ( y x h In  this  pap e r,  t he   highest  den sit y p oin ) , ( y x h   is t he ke y t sel ect  the  best  value of   E ps   a nd  Mi nP ts ,  r es pecti vely .   In   the  fou rth  s ta ge,   we  cal c ul at Ma nh at ta distance  f ro m   the  highest  de ns it po int h to  ot her   data  po i nt P   by t he fol lowing  ( 4) .     1     w h e r e n i P h md i i i   (4)     I n   t h e   f i f t h   s t a g e ,   w e   s e t   t h e   v a l u e   o f   E p s   =   0 . 5   a n d   t h e n   c o u n t   t h e   n um b e r   o f   d a t a   p o i n t s   t h a t   l i e s   w i t h i n   E p s .   A f t e r   t h a t   w e   i n c r e a s e   t h e   v a l u e   o f   E p s   b y   0 . 5   a n d   t h e n   a g a i n   c o u n t   t h e   n um be r   o f   d a t a   p o i nt s   w i t h   i n   E p s .   T h i s   p r o c e s s   c o n t i n u e s   u n t i l   a   l o c a l   m a x i m um   i s   r e a c h e d .   T h e   w h o l e   i d e a   i s   p r e s e n t e d   i n   F i g u r e   4   wh e r the  val ue  of   E ps 1,   Eps 2,  Ep s 3 an E ps 4 is  0.5 1.0,  1.5,  a nd  2.0,  res pecti vely I can  be   obse rved  that  E ps1 E ps 2 Eps3   a nd  E ps4   c onta in  th re e,  f our five  a nd  th ree  data  po i nts,  res pecti vely He re,   th Ep s3   is  the   loca l   m axi m u m as  sh ow in  Fig ure  5.   I t he  sixth  sta ge,   we  sel ect   Eps as  the  desire Ep s   and   co rr es po nd i ng  nu m ber   of d at a  points as  the  de sired  Mi nPts   of the  pro pose d DBSCA al gorithm   sh ows  in  Fi gure  5.              Figure  4. Data  densi ty  in  the  di ff ere nt E ps     Figure  5 .  Rel at ion s hip   bet wee E ps   a nd  Mi nP ts       In   t he  final  st age,  we  cal c ulate   Ma nh at ta distance   f ro m   the  high - de nsi ty   po int h   to  ot her   data   po i nts P   of   t he  dataset Af te r   that  we   fi nd  the  c or e   poi nts  a nd  bo undar points  ba sed  on  the   f ound   Eps a nd Mi nPts .   This  proc ess   will   con ti nue   for  al the  unvisit ed  data  po i nts.  T he  pr opos e al gorit hm   i s   dem on strat ed  in Alg or it hm  2 .       5.   RESU LT   A N D ANALY SIS   5 . 1.       Data se ts  a n d e xp eri me nt al  set u p   F o r   t h e   e x p e r i m e nt a l   p u r p o s e ,   s e v e n   2 D   a r t i f i c i a l   d a t a s e t s   a r e   c o n s i d e r e d .   T h e s e   d a t a s e t s   a r e   h a l f   R i n g ,   t h r e e   s pi r a l s ,   c o r n e r s ,   s e m i c i r c u l a r ,   h a l f   m oo n ,   h a l f   k e r n e l ,   a n d   a g g r e g a t i o n .   T h e s e   d a t a s e t s   h a v e   di f f e r e n t   d e n s i t i e s   i n c l u di n g   c l u s t e r s   i n s i d e   c l u s t e r s ,   m ul t i - d e n s i t y ,   c o n n e c t e d   c l u s t e r s ,   a n d   w e l l - s e p a r a t e d   d e n s i t i e s .     Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Develo p a dyn am ic   DB SCAN  a lg or it hm f or   so lv in init ial  pa r amet er sele ct ion   ( Md . Zakir  Ho ss ai n )   1607   Algorithm 2  The Proposed DDBSCAN Clustering Algorithm   1.   Calculate Euclidean distance matrix  D   from the dataset;   2.   Calculate  the  mean  of  e ach  row  of  D Fi nd   th e   mi ni mu me a va lu am on al th me an   of   ro of   D Th is   m in im um   me an   is   th hi gh - density  point  which  is  c onsidered   to the center point  P center ;   3.   Set  = 0.5;   4.   Set  P count [0] = 0;   5.   for  i :   =1 to  do   6.     for  j :   = 1 to  do   7.     calculating the Manhattan distance  d   from  P center   to  P i ;   8.     if ( d < r then  P count [i] := count the number of points within  r end if   9.     end for     10.     if  ( P count [i]> P count [i - 1])  then   r   :=  r +0.5;  continue;   11.     E lse   12.     calculate  diff i   := ] 1 [ ] [ i P i P c o u n t c o u n t ;   13.     end if   14.     MinPts   := diff i ; ;   15.     Eps   :=  r ;   16.   e nd for   17.   Repeat   18.     for  i :=1 to  do   19.     for  j: =1 to  do   20.     calculate distance  d ij ;   21.     i f ( d ij  <=  Eps then   22.       if ( d ij  Eps then   this is the boundary point and count  C;   23.       E lse   24.     this is not the boundary point and count  C ;   25.       end if    26.     end if end for   27.     end for   28.   if ( MinPts  <=  C then   29.     th is   is   th co re   po in P core . Calculate  another  core  point  Pcore   an ma ke   cl us te r   with      boundary point and mark visited;   30.   Else   31.     c ontinue;   32.   end if   33.   until   all the data points are not visited.     These   dataset s   al low  exam ine  the  pe rfor m ance  of  the   dy nam ic   DBSCA al gorithm   ov er   the   well - known  de ns it y - base d   cl ust ering   al gorithm s.  The  prop e rtie of   t hese  dataset are  su m m arized  in  Table   1.   All   the  exp e rim ents  wer pe rform ed  on   I ntel  Core  i5  2.4 GH process or  with  4GBR AM  on   th pl at fo rm   Mi cro s of Win dows   10.   W e   im ple m ent  the  pro po se dyna m ic   DBSCAN  al gorithm   us ing  C+ a nd  ar ti fici al   data set us in g M ATLA B .       Table  1.   Su m m ary o f use d datase ts   Da ta  Set   S ize   Cla ss es   Co rners   1000   4   Three  Sp ir als   312   3   Half  Rin g   373   2   Se m i Ci rcular   1000   2   Half  M o o n   1000   2   Half  Ker n el   1000   2   Ag g regatio n   788   7       5 . 2.       Per fo r m an ce  metric   In  this  researc h,   we  e val uate  the  acc ur acy   of  the  dynam i DBSC AN  al gorithm   ov e t he  dataset i Table  1 usin g Pur it y crit eri on, as  s how i n ( 5). T he purit y m et ric evaluates t he q ualit y of f or m ed  cl us te r s.       k q j q l j n n P u r i t y 1 1 m a x 1   (5)     W h e r e   n   i s   t h e   t o t a l   n um b e r   o f   s a m p l e s ;   l i s   t he   n u m b e r   o f   c a t e g o r i e s ,   j q n i s   t h e   n u m b e r   o f   s a m p l e s   i n   c l u s t e r q   t h a t   be l o n g s   t o   t h e   o r i g i n a l   c l a s s ) 1 ( l j j .   A   c l u s t e r   q u a l i t y   i s   h i g h   i f   t h e   p u r i t y   c l o s e   t o   1 0 0 % .   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   23 , N o.   3 Se ptem ber  2 02 1 16 02   -   16 10   1608   5 . 3     Result  analys is   The  res ult  of   this  stud is  ob t ai ned   to  exam i ne  the  perf or m ance  of   the  pro po s ed  al gorith m   and   oth e r   well - kn own  al gorithm su ch   as  DBSC AN   [ 7],  BD EDBSC AN  [ 24] an DBSCA N - KNN - GA   [ 25]   ov er  these   dataset s.  W a pp ly   the  Dy na m ic   DBSCAN   al gorithm   on   the  dif fer e nt  sha pe  dataset in   order   to  visu al iz the   sh a pes  of  the  c lusters .   It  is  i m po rtant  to  c he ck  if   the  pro pose al gorit hm  can  pro duce  c lusters  with  a r bitrary   sh a pes  si nce  it   is  one  of   t he  prim ary  req ui re m ents  of  de ns i ty - based  cl us te rin al gorit hms.  Fi gure  s ho ws  t he  cl us te r for the   Corner  d at aset   wh e re t he pr opos e al gorithm  selec ts  Eps   2.5 a nd  Mi nPts   = 12  dynam icall y.   A f t e r   t h a t ,   t h e   p e r f o r m a n c e   o f   t h e   p r o p o s e d   d y n a m i c   D B S C A N   a l g o r i t hm   i s   e v a l u a t e d   o v e r   t h e   t h r e e   s p i r a l s   d a t a s e t .   F o r   t h e s e   d a t a s e t s ,   t h e   p r o p o s e d   a l g o r i t hm   s e l e c t s   E p s   =   1. 5   a n d   M i n P t s   =   2   d y n a m i c a l l y   a n d   c r e a t e s   c l u s t e r s ,   a s   s h o w n   i n   F i g u r e   7 .   T h e   f o r m a t i o n   o f   t h e   c l u s t e r s   b y  t h e   pr o p o s e d   a l g o r i t hm   f o r   t h e   r e s t  o f   t h e   d a t a s e t s   i s   s h ow n   i n   F i g u r e   8 .   E x p e r i m e nt a l   r e s u l t s   o f   f o u r   d i f f e r e n t   D B S C A N   a l g o r i t hm s   s h o w n   i n   T a b l e   2 .                 Figure  6. Co rners  dataset   cl ust ering res ult     Figure  7. Th re e sp iral s   datase cl us te rin g res ult           Figure  8. The  re su lt s of  perf orm ing  cluste rin g usin t he pr opose d DBSC A al go rithm  o half   rin g, sem i   ci rcu la r, h al m oon, hal f k er ne l, an a ggre gation datase ts           Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Develo p a dyn am ic   DB SCAN  a lg or it hm f or   so lv in init ial  pa r amet er sele ct ion   ( Md . Zakir  Ho ss ai n )   1609   Table  2.  E xper i m ental  r esults  of f our dif fer e nt D BSC A al gorithm s   Data Set   DDBSC AN   DBSC AN   BDEDBSC N   DBSC AN - KNN - GA   Pu rity   (%)   Pu rity   (%)   Pu rity   (%)   Pu rity   (%)   Co rners   100   9 1 .33   100   100   Three  Sp ir als   100   9 2 .14   9 9 .52   9 9 .33   Half  Rin g   9 9 .97   9 0 .26   9 9 .21   9 9 .37   Se m i Ci rcular   100   9 0 .04   9 9 .10   9 9 .61   Half  M o o n   9 9 .98   9 1 .46   9 9 .75   9 9 .75   Half  Ker n el   9 9 .5   9 1 .12   9 9 .01   9 9 .31   Ag g regatio n   9 2 .61   7 1 .42   9 2 .51   8 1 .42       6.   CONCL US I O N   In   this  resea rc h,   we  are  m oti vated  to  el i m i nate  the  dr a wbacks  of  the  or i gin al   DBSC A al gorithm The  sel ect ion   of   E ps   an Mi nPts   in  the  D BSC AN   al go rithm   is  chall e ng i ng   ta s in  the  real  w or l d.   If   th e   DBSA C has  chosen  a   la rg e   value  for  E ps   t hen  DBSC AN  form the  cl us te rs  ha vi ng   diss i m i la data.  On  the  oth e hand,  if  a   sm all  value  is chosen   f or  Ep s the this   te ch nique f orm the  cl u ste rs   ha vi ng  sm al a m o un t o f   si m il ar  data.  I this  researc h,  we  a ddress   the  init ia value   sel ect ion   probl e m   of   the  DBSCAN  al gorith m   an pro po se   dynam ic   DBSCA al gorithm   t rem ov init ia par am et er  s ensiti vity The   pro posed   te c hn i que   cal culat es  the  best   E ps   a nd  Mi nPts   dy nam ic al ly wh ic i m pr ov es  t he  cl us te qual it y.  The  e xp e rim ent al   resu lt s   evaluate the  pe rfor m ance  of  the  dynam ic   D BSC AN   al gori thm   fo va rio us  2D   data  set and   c om par ed  it   with   the  DBSC AN,  BDEDBSC A N an DBSC A N - KNN - G al gorithm s.  The  resu l s hows  th bette pe rform ance   of   the  pro po se Dynam ic   DBSCAN   al go rithm   ov er  the  ot her   existi ng  al gorithm on   seven   var i ou da ta set s Fu tu re   researc on  D DBSC AN   sho uld   c onside the  f ollow i ng   iss ues In   t he  D DBSC AN   al gorithm we  us pair - wise  Eucl idian  distance ,   so   wh e the  data  set   is  la rge,  it per form a nce  is  red uc ed If   the  inter - c luster   distance is l ow, the D DBSCA al go rithm  p erfor m ance w il l be  dec reased .       REFERE NCE S   [1]   C.   Cassisi,  A.  Ferro,   R.   Giugn o,   G.  Pigol a,   an A.  Pulvire nt i,  "Enha nci ng   de nsit y - b ase c luste ring:  Para m ete red uction  and  outl ie detec ti on, Information  Syste ms ,   vol.   38,   no.   3,   pp.   317 - 330,   2013,   doi:   10. 1016/j.is. 201 2. 09. 0 01 .     [2]   S.  Sharm a,   J.  Agrawal ,   S.  Ag ar wal,   and  S.  Sha r m a,   Mac hine   l e arn ing  t ec hniqu e for  dat m ini n g:  surve y , ”  in  2013  IEE Int ernati onal  Conf ere nce   on  Comput ati onal  Int el l igence   and  Computing  Re search ,   pp.   1 - 6,   Dec .   201 3,   doi:   10 . 1109/IC CIC. 2013. 67241 49.     [3]   S.  Agarwal ,   Da ta   m ini ng:   Dat m ini ng  concept s   and  te chn ique s, ”  in   2013  Int ernati onal  Con fe re nce   on   Mac hin e   Inte lligen ce and Re search Advan ce ment ,   De c. 20 13,   pp .   203 - 207 ,   doi: 10. 1109 /IC MIRA . 2013. 45.   [4]   Q.  Li u ,   M.   Den g,   Y.  Shi ,   and  J.  W ang,   "A   de nsit y - b ase d   spa t ia cl ust eri ng  algorithm  considering  both  sp at i a proximit y   and   at tr ibut e   sim il arit y , Comp ute rs   &   Geos ci en ce s ,   vo l.  46,   pp.   296 - 3 09,   2012,   doi :   10. 1016/j.c age o. 2011. 12. 017 .     [5]   T.   Zh ang,   R .   Ra m akr ishnan,   and   M.  Li vn y ,   "BIRCH an  eff i cient  dat cl uster in m et hod  for  ver y   la rge   d ataba ses, "   ACM  Sigmod  Record ,   vol .   25 ,   no .   2 ,   pp .   103 - 114 ,   1996,   doi: 10. 11 45/235968. 2333 24.     [6]   M.  Este r ,   H. - P.  Krieg el,  J.   Sand er,   and  X.   Xu,   density - base d   al gor it hm   for  d i scove ring  cl uste rs  in  l arg e   spatia dat ab ase s with   n oise, ”  ser.  KDD 96 ,   AA AI Press,  1996,   pp.   226 - 2 31,     [7]   P.  Berkhi n,   s urve y   of  cl ust ering  dat m ini ng  te chni qu es, ”  in  Gr ouping  multi dimensional   data .   Springer,   2006,   pp.   25 - 71 ,   doi 1 0. 1007/3 - 540 - 28 349 - 8_2.     [8]   C.   C.   L iu,   S.  W .   Chu,   Y.  K.  Cha n,   and  S.  S.  Yu,  m odi fie K - m ea ns  al gorit hm   -   two - lay er  K - m ea ns  al gorit hm , ”  in  2014  Tenth   I nte rnational   Co nfe renc on  In t el li g ent  Information  Hiding   and   Mult imed ia  Sig nal  Proc essing 2014,   pp .   447 - 4 50.     [9]   M.  Hos sain,   M.  Akhtar ,   R .   Ahm ad,   and  M.  R ah m an,   d y nami k - m ea ns  c lustering  for  da ta   m i ning,   Indone sia Journal  of  Elec t rical   Engi n ee rin and  Computer  Sci ence   ( IJE EC S) ,   vol.   13,   no.   2,   pp.   521 - 526,   Feb.   2019,   doi:  10. 11591/ijeecs. v13. i2. pp521 - 52 6.     [10]   D.  S cul ley ,   W eb - sca le   k - m ea ns  cl uster ing,”  in  Proce ed ings  of  t he  19th  In te rnat ional   Conf ere nc on  World  Wi d e   We b,   ser.  WW ’10.   New  Y o rk,   N Y ,   USA:  A ss oci ati on  for  Computing  Mac hi nery ,   2010,   pp .   1177 - 1178,   doi:   10. 1145/177269 0. 1772862.     [11]   G.  Yu,  G.  Sapi ro,   and  S .   Mallat,   Solving  inv erse   proble m with  pie c ewise   li ne ar  esti m at or s:  From   gaus sian  m ixt ure   m odel to  struct ur ed  sparsit y , ”  IE EE   Tr ansacti ons  on  I mage  Proce ss in g ,   vol.  21,   no .   5 ,   pp.   2481 - 2499 ,   2012,   doi 10 . 11 09/T IP.2011. 217 6743.     [12]   V.  W .   Ajin  and  L.   D.  Kum ar,   “Bi dat and  c lu steri ng  al gor it h m s,”   in  2016  Int ernati onal  Conf ere nce   on  Re sea rch   Adv anc es  in   Integr ate Nav igat io Syste ms   ( RA IN S ),   2016 ,   pp .   1 - 5.     [13]   A.  Saxena   et   al . ,   rev ie of  c luste ring  te chn iq ues  and  dev el op m ent s,”   Neuroc omputing ,   vol .   2 67,   pp.   664 - 681 ,   2017,   doi :   10 . 10 16/j . n euc om . 201 7. 06. 053 .     [14]   M.  Parimala ,   D.   Lope z ,   and  N.  Senthi lkumar,   " surve y   on  de nsit y   b ase cl ust eri ng  al gor it hm for  m ini ng  la rge   spati al datab ase s,"  Int ernati onal   Journal  of   Ad va nce S cienc e   an Technol og y ,   v ol.   31 ,   no .   1 ,   p p .   59 - 66,   2011 .     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   23 , N o.   3 Se ptem ber  2 02 1 16 02   -   16 10   1610   [15]   J.  Sander ,   M.   Este r,  H. - P.   Kri ege l ,   and  X.   Xu,  Densit y - bas ed  c luste ring   in   spatial  d ataba s es:  Th al gori thm   gdbsca and  it s   appl icati ons, ”  Data  mining  and  knowl edge   di scov ery ,   vol .   2,   no.   2,   pp.   169 - 194,   1998,   doi 10. 1023/A:1009 745219419 .     [16]   T.   Cheng ,   "A improved  DBSCAN  cl usteri ng   al gorit hm   for  m ult i - density   da ta sets, in  Proc ee dings  of  th 2 nd  Inte rnational   Co nfe renc on   Intel li gent Inf orm ati o Proce ss ing ,   20 17,   pp .   1 - 5.     [17]   A.  Sm it and   Z .   El oudi ,   Soft  d bsca n:  Im provin dbsca cl uster ing  m et hod  usin fuz z y   s et   the o r y , ”  in  2013  6 th   Inte rnational   Confe renc on   Hum an  Syste Inte ract ion ( HSI ) ,   Aug .   2013,   pp .   380 - 385,   do i:   10. 1109/HSI.20 13. 6577851.     [18]   Nidhi  and  K .   A.   Pate l ,   An  ef f icient   and  sc al ab le  density - b ase c l usteri ng  al gori th m   for  norm al iz e   dat a , ”  Proce d ia  Computer  Sci e nce ,   vol.  92,   pp.   136 - 141,   2 016,   2nd  Int er nat ion al   Conf er enc e   on  Int el l i gent   Com puti n g,   Com m unic at ion  Converge n ce,   ICCC  2016,   24 - 25  Janua r y   2016 ,   Bhu bane sw ar ,   Odi sha,   Indi a,  do i:  10. 1016/j.proc s. 2016. 07. 336 .     [19]   K.  Mahe sh  Kum ar  and  A.  Ra m Mohan  Redd y ,   fast  dbsca c luste ring  a lgori thm  b y   acc el er at ing  n ei ghb or   sea rch ing   using  groups m et hod,   Pattern  R ec ogn i ti on ,   vol. 58 ,   pp .   39 - 48,   2016,   do i:   10 . 1016/j.pa tcog.2 016. 03 . 008.     [20]   A.  Merk,   P.  Cal,  and  M.  W oźni ak,   "D istri bute DBS CAN  Algor it hm Conce pt  a nd  Expe rimental   Eva luation, in   Inte rnational   Co nfe renc on  Computer  Re cogn ition  Syste ms ,   201 7,   pp.   472 - 480:  Springer ,   doi 10. 1007/978 - 3 - 319 - 59162 - 9_49 .     [21]   L.   Meng ' Ao,  M .   Dongxue,   G .   Song y uan ,   and  L.   Shufen ,   "Re sea rch   and  improvem ent   of  D BS CAN   cl uster  al gorit hm , in  2 015  7th  Inte rnat ional   Confe ren c on  Informatio Technol ogy  in   Me dic in and  E ducat ion  ( ITME) 2015,   pp .   537 - 5 40:  IE EE ,   doi :   1 0. 1109/IT ME . 20 15. 100 .     [22]   H.  Darong  and  W .   Peng,   "G rid - base DBS CAN  al gorit hm   with  ref ere n tial  par a m et ers, Phy sics   Proce dia ,   vo l.   24,   pp.   1166 - 1170 ,   2012 ,   doi :   10 . 10 16/j . phpro . 2012. 02. 174 .     [23]   A.  Sm it and  Z.   El ouedi,  Dbs ca n - gm An  imp rove cl uster ing   m et hod  base on  gaussian  m ea ns  and  dbsca n   te chn ique s,”   in  2012  IEE 16th   Inte rnational   C onfe renc on  Inte lligent   Engi ne ering  Syste ms   ( I NES) ,   2012,   pp.   573 - 578 ,   doi :   10 . 1109/INES. 201 2. 6249802 .     [24]   A.  Kara m and   R.   Johanss on,   "Choos ing  D BS CAN   par am et ers  au tomatic al l y   using  di ffe ren tial  ev o lut io n, "   Inte rnational   Jo urnal  of  Comput er  Applications ,   vol.   91 ,   no .   7 ,   pp .   1 - 11 ,   2014 ,   doi :   10. 5120 /15890 - 5059   [25]   B.   Mu,  M .   Dai ,   and  S.  Yuan ,   DBS CAN - K NN - GA m ult i   den sit y - le v el   p ara m et er - fr ee  cl ust ering  al gor it hm ,   i n   IOP  Confe ren ce  Serie s: Mat erials   Sci en ce and En gine ering ,   vol .   7 15,   no .   1 .   IOP   Publishing, 2020,  pp.   012023 .     Evaluation Warning : The document was created with Spire.PDF for Python.