I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   1 4 ,   N o .   3 J u n e   20 1 9 ,   pp .   1471 ~ 1478   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 4 .i 3 . pp 147 1 - 1478             1471       Jou r n al   h o m e pa ge ht t p: / / i ae s c or e . c om / j our na l s / i nde x . php/ i j e e c s   OC A :   o v e r l a p p i n g   c l u st e r i n g   a p p l i c a t i o n   u n su p e r v i sed  a p p r o a c h   f o r   d a t a   a n a l y s i s       A l v i n c e n E.   D an gan an 1 ,   A r i e l   M .   S i s o n 2 ,   R u ji   P .   M e d i n a 3   1,   3 T e c hno l og i c a l   I ns t t i t u t e   o f   t h e   P hi l i ppi ne s ,   P h i l i pp i n e s   2   E m i l i o   A g ui na l do   C o l l e g e ,   P h i l i pp i n e s       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e d   D e c   20 ,   2018   R e v i s e J a n   21 201 9   A c c e pt e F e b   23 ,   201 9       I n   t hi s   pa pe r ,   a   ne w   d a t a   a na l y s i s   t o o l   c a l l e O v e r l a ppi ng   C l us t e r i ng  A ppl i c a t i o ( O C A )   w a s   p r e s e n t e d .   I t   w a s   d e v e l o pe t o   i d e n t i f y   ov e r l a p pi ng   c l us t e r s   a nd  o ut l i e r s   i a uns upe r v i s e m a nn e r .   T h e   m a i f unc t i o o f   O C A   i s   c o m po s e o f   t hr e e   p ha s e s .   T he   f i r s t   p ha s e   i s   t he   d e t e c t i o o f   t he   a bno r m a l   v a l ue s   ( o ut l i e r s )   i t h e   da t a s e t s   us i ng   m e di a a b s o l u t e   de v i a t i o n.   T he   s e c o nd  pha s e   i s   t o   s e g m e nt   d a t a   o bj e c t s   i n t o   c l us t e r   u s i ng   k - m e a n s   a l g o r i t hm .   F i na l l y ,   t he   l a s t   pha s e   i s   t he   i de nt i f i c a t i o o f   ov e r l a p pi ng   c l us t e r s ,   i t   us e s   m a xdi s   a s   a   pr e di c t o r   o f   da t a   o bj e c t s   t ha t   c a be l o ng   t o   m ul t i pl e   c l us t e r s .   E xpe r i m e nt a l   r e s ul t s   r e v e a l e t h a t   t h e   de v e l o pe O C A   pr o v e i t s   c a pa bi l i t y   i de t e c t i ng   o v e r l a pp i ng   c l u s t e r s   a nd   o ut l i e r s   a c c o r di ng l y .   Ke y w or ds :   Cl us t e r i n g   K - M e a n s   MAD   M a xdi s t   O ut l i e r   O v e r l a p       C opy r i gh t   ©   201 9   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   A l v i n c e nt   E .   D a nga na n,     T e c hn o l o gi c a l   I n s t t i t u t e   o f   t h e   P hi l i ppi n e s ,     938  A u r o r a   B l v d. ,   Q ue z o n   Ci t y ,   P h i l i pp i n e s .   E m a i l :   a v da n g a n a n836 @ gm a i l . c o m       1.   I N TR O D U C TI O N   D a t a   m i ni n a n k n o w l e dge   di s c ov e r y   i n   da t a b a s e s   h a v e   b e e n   a n   a c t i v e   a r e a   o f   r e s e a r c h   l a t e l y   [1] D a t a   m i n i ng  a ppl i c a t i o n s   a r e   us e f ul   f o r   c o m m e r c i a l   a nd  s c i e nt i f i c   s i de s   [2] .   I n   h e a l t h c a r e   a ppl i c a t i o n,   i t   i s   a i m po rt a nt   m e t h o t h a t   c a n   b e   us e t o   de t e c t   un k n o w n   di s e a s e s   [3]   a n i de nt i fy   e ff e c t i v e   t r e a t m e nt s   [4]   D a t a   m i ni n t e c hni que   c a n   b e   c l a s s i f i e i n t o   t w o   c a t e g o r i e s :   S upe r v i s e a n U n s upe r v i s e l e a rni n [5] S upe r v i s e l e a rni n us e s   da t a s e t s   t h a t   h a v e   l a b e l s   w h i l e   U n s upe r v i s e l e a rni n i s   o n e   of   t h e   t e c hni que s   t h a t   c a b e   us e t o   f i n d   p a t t e rn s   i u nl a b e l e da t a   s e t s .     Cl us t e r i n c a b e   c o n s i de r e u n s u pe r v i s e l e a rn i ng  t e c hni q ue .   I n   da t a   m i ni n g ,   c l us t e r i ng  i s   o n e   o t h e   w i de l y   us e   f un da m e nt a l   t a s [ 6]   a nd  i t   i s   us e t o   de t e c t   hi dde s t r uc t u r e   o r   t o   o ut i n e   t h e   d a t a   c a t e go r y   [7] Cl us t e r i n a i m s   t o   f i n g r o ups   f r o m   un l a b e l e da t a   s uc h   t h a t   a l l   s i m i l a r   da t a   o b j e c t s   i s   w i t hi n   t h e   s a m e   c l us t e w h i l e   di s s i m i l a r   da t a   o b j e c t s   f r o m   di ffe r e nt   c l us t e r   [8] .   O t he r   s t udy   us e s   ove r l a ppi ng  c l us t e ri n w h e r e   da t a   ob j e c t s   c a n   b e l o n g   t o   m ul t i - c l us t e r .     A c c o r di n t o   t h e   s t udy   [ 9] ,   m o s t   of   t h e   r e a l   w o r l da t a s e t s   h a v e   ove r l a ppi ng  i n f o r m a t i o n .   O v e r l a ppi ng  c l us t e r i ng  h a s   b e e n   us e i n   m a n y   a ppl i c a t i o n   f r o m   w i r e l e s s   s e n s o r   n e t w o r [10]   t o   s oc i a l   n e t w o r i nt e ra c t i o n s   [11] .   F o r   e xa m p l e   i n   s o c i a l   n e t w o r a na l y s i s ,   t h e   o ve r l a ppi ng  t e c hni que   i s   us e t o   de t e c t   a c t o r s   t ha t   c a n   b e l o n t o   m u l t i pl e   c o m m u n i t i e s   [12] .   A ggl o m e ra t i v e   h i e r a r c h i c a l   c l us t e r i n i s   a n o t h e r   m e t h o us e t o   d e t e c t   ov e r l a ppi ng  c o m m u n i t i e s   i n   a   m o b i l e   n e t w o rk  [13] .   I n   a   w i r e l e s s   s e n s o r   n e t w o r k,   a n   e n e r g y   e ff i c i e n t   a da p t i v e   ov e r l a ppi ng  c l us t e ri n m e t h o i s   e s t a b l i s h e t o   i m p r o v e   e n e r gy   e ff i c i e n c y   fo r   d y n a m i c   c o n t i n uo us   m o n i t o r i ng  [14] .   A n   a l go r i t h m   c a l l e O v e r Ci t e   w h i c h   c a n   de t e c t   ov e r l a pp i n c o m m u n i t i e s   of  a ut h o r s ,   pa pe r s   a n v e n ue s   s i m ul t a n e o us l y   us i n t h e   pub l i c a t i o n   h y pe r gra p h   a n t h e   c i t a t i o n   n e t w o r Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 4 ,   N o .   3 J u n e   20 1 9   :     1471     1478   1472   i n f o r m a t i o n   [ 15] .   A n o t h e r   s t u dy   i n   n e t w o r a n a l y s i s   c a l l e a   de n s i t y - b a s e l i n c l us t e r i ng  a l go r i t hm ,     i t s   p u r po s e   t o   i m p r o v e   t h e   a c c ura c y   of   de t e c t i n g   o v e r l a pp i n g   c o m m uni t i e s   i n e t w o r ks   [16] .     H ow e ve r ,   o n e   o f   m a n y   c h a l l e n gi ng  i s s ue s   a r e   n o i s e   o r   a n o m a l o us   da t a ,   a l s o   kn o w n   a s   o ut l i e r .   H a v i n o ut l i e r s   i n   t h e   da t a s e t   m a y   r e s ul t   i n   i na c c ura t e   a n a l y s i s   of   da t a   [17] ,   p r o v i de   a   m i s l e a d i n s t a t i s t i c a l   r e s ul t   a nd  m a y   po t e n t i a l l y   de c r e a s e   t h e   qu a l i t y   of   a   da t a   a na l y s i s   t a s k.   D ue   t o   t h i s ,   o ut l i e r   de t e c t i o n   i s   a i m po rt a nt   d a t a   a na l y s i s   t a s k,   i t s   m a i n   o b j e c t i ve   i s   t o   de t e c t   a n o m a l o us   o r   a b n o r m a l   d a t a   f r o m   a   gi v e   da t a s e t   [18 ] .   In   t h i s   r e ga r d ,   t h e   s t udy   i s   foc us e o n   t h e   de v e l o pm e n t   o f   a n   o ve r l a ppi ng  c l us t e ri n a ppl i c a t i o n   (O CA t h a t   c a n   i de n t i f y   ov e r l a ppi ng  c l us t e r s   a nd  o ut l i e rs   r e s pe c t i v e l y .   T h e   s t udy   c o n s i de r e d i f fe r e nt   r e s e a r c h   m e t h o ds   a n a l go ri t hm   f o r   t h e   de v e l o pm e n t   o t he   a ppl i c a t i o n.   O n e   of   t h e   a l go r i t hm   us e i s   t h e     k - m e a n s   a l go r i t hm ,   b e c a us e   of   i t s   s i m pl i c i t y   t o   s o l ve   kn ow c l us t e r i ng  i s s ue s .   T h e   s t udy   a l s c o n s i de r e t h e   us e of  m e di a n   a b s o l ut e   de v i a t i o n   (M A D ) ,   i t   i s   k n o w n   t o   be   o n e   of   t h e   m o s t   r o b u s t   m e a s ur e s   t h a t   a r e   e a s y   t us e   w i t h   t h e   p r e s e n c e   o f   o ut l i e r s .   M a x i m um   di s t a n c e   (m a xd i s t i s   a n o t h e m e t h o d,   i t   i s   us e t o   i de n t i fy   da t a   ob j e c t s   a s s i gn e d   t o   m ul t i - c l us t e r.   T h e   O CA   a pp l i c a t i o n   i s   l i m i t e o nl y   i h a ndl i n g   n u m e ri c a l   da t a .       2.   R ES EA R C H   M ET H O D   2. 1     O p e r ati o n al   F r am e w o r k   In  t hi s   s e c t i o n,   t h e   s t udy   w i l l   de m o n s t r a t e   t h e   w o r kf l ow   of   t he   O CA   a s   s h o w n   i F i gu r e   1 .   I O CA   i t   i s   n e c e s s a r y   t ha t   d a t a   a r e   c o n v e r t e i n t o   a   s t a n d a r s p r e a ds he e t   a n d   s a v e i t   i a   c s v   e xt e n s i o n   f o r m a t   b e fo r e   l o a di n t h e   da t a .   O CA   w i l l   t h e n   c h e c ke t h e   da t a s e t s   i f   t he r e   a r e   p r e s e n c e   of   o ut l i e r s   a n t h e s e   i de n t i f i e o ut l i e r s   a r e   r e m o ve f r o m   t h e   d a t a s e t s .   T h e n,   da t a   o b j e c t s   a re   c l us t e r e a c c o r di n gl y .   A f t e r w a r ds ,   c l us t e r s   a r e   c h e c ke i f   t h e r e   a r e   da t a   o bj e c t s   t h a t   o v e r l a w i t hi n   c l us t e r s .   F i na l l y ,   t h e   r e s ul t   o f   t h e   da t a   a na l y s i s   pr o c e s s   i s um m a r i z e a nd  m a de   a v a i l a b l e   f o r   d a t a   i n t e r p r e t a t i o n .           F i gu r e   1 .   O CA   s y s t e m   a r c h i t e c t u r e       2. 2     M a i n   F u n c ti o n   o O C A   T h e   m a i f u n c t i o o f   O CA   a pp l i c a t i o c o n s i s t s   o f   t hr e e   (3)   p ha s e s .     2. 2 . 1 .   P h as e   1 O u tl i e r   D e te c ti o n   u s i n M e d i an   A b s o l u te   D e v i ati o n   O ut l i e r   de t e c t i o n   a i m s   t o   f i n p a t t e rn s   i d a t a   t ha t   do   no t   c o n fo r m   t o   e xpe c t e be h a v i o r   [19] R e m o v i n a n de t e c t i n o ut l i e r s   i s   v e r y   i m po r t a nt   i n   da t a   m i ni n [20] ,   b e c a us e   i t   m a y   gr e a t l y   e n h a n c e   t h e   pe r f o r m a n c e   o f   s t a t i s t i c a l   t e c hni que   a n da t a   m i ni n a l go ri t hm s   [21] .   I n   o r de r   t o   de t e c t   a n r e m o v e   t h e   o ut l i e r s   i n   t h e   da t a s e t s   t h e   m e di a n   a b s o l ut e   de v i a t i o n   (M A D [22]   i s   us e i t hi s   s t u dy .   T h e   p r o c e s s   of   M A D   i s   di s c us s e i t h e   s uc c e e di n s e c t i o n.   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       O CA ov e r l app i ng   c l us t e r i ng   app l i c at i on  uns upe r v i s e a ppr oac h   f or   dat an al y s i s   ( A l v i n c e nt   E .   D a nganan )   1473   T o   c a l c ul a t e   us i ng  M A D ,   a l l   t h e   d a t a   o bj e c t s   w i l l   b e   c o l l e c t e a nd  r a nke i n   a s c e n di ng  o r de r .   A f t e r w a r ds ,   t h e   m e di a n   v a l ue   o f   t h e   s e r i e s   o f   da t a   o b j e c t s   i s   t o   b e   c a l c ul a t e d .   H e n c e fo r t h,   t h e   c a l c ul a t e m e di a w i l l   b e   s ub t ra c t e f r o m   e a c h   d a t a   o b j e c t s   t o   ge t   t h e   m e di a n   o f   a b s o l ut e   de v i a t i o n.   A f t e r w a r ds ,     t h e   r e s ul t s   a r e   t o   b e   s o r t e i n   a s c e n d i n o rde t o   de t e rm i n e   t h e   m e di a n   o f   a b s o l ut e   de v i a t i o n.   T h e n,   t h e   m e di a w i l l   b e   m ul t i p l i e b y   b   t o   ge t   t h e   M A D   v a l ue ,   w h e r e   b = 1. 4826   [23] .   I n   ( 1)  s h o w s   t h e   M A D   f o r m ul a .                       |                     |   (1)     T o   de t e r m i n e   t h e   o ut l i e r ,   a   c ri t e r i o i s   c o m pu t e by   m e di a n   p l us   o m i n us   t hr e s h o l v a l ue     (+ / - 2 ,   o r   2. 5,   o r   3)  t i m e s   t h e   M A D   t o   gui de   t h e   o ut l i e r   de t e c t i o n .   By   de f a ul t ,   i t   i s   r e c o m m e nde t h a t   t h e   t hr e s h o l d   v a l ue   o f   2. 5   i s   a   r e a s o na b l e   c h o i c e   f o r   o ut l i e r   de t e c t i o n.   I ( 2)  s h o w s   t h e   e qu i v a l e nt   c r i t e r i a   v a l ue .                         or                       (2)      A l l   v a l ue s   l e s s   t h a n   o r   g r e a t e r   t h a n   t h e   c o m put e c r i t e r i o n   i s   c o n s i de r e o ut l i e r s .   T hi s   o ut l i e r   i s   r e m o v e f r o m   t h e   d a t a s e t s   b e fo r e   t h e   pa rt i t i o n   o f   da t a   o b j e c t s   t o   f o r m   a   c l us t e r.       2. 2 . 2 P h as e   2 C l u s te r i n U s i n g   K - M e an s   A l go r i th m   K - m e a n s   i s   o n e   of   t h e   o l de s t   a n m o s t   po pul a r   c l us t e ri n t e c h ni que s   [24] .   I t   i s   e a s y   t o   i m pl e m e n t   a n a pp l y   e ve n   o l a r ge   d a t a   s e t s   [25] .   I n   t h i s   s e c t i o n ,   t h e   r e s e a r c h e r s   di s c us s e h o w   k - m e a n s     a l go ri t hm   w o r ks .   F i r s t ,   t h e   us e r   e n t e r s   t h e   n um b e r   o f   c l us t e r s ,   a nd  t h e n   t h e   a l go r i t hm   r a n do m l y   i n i t i a l i z e s   c l us t e r   c e n t r o i d,   o n e   f o r   e a c h   c l us t e r .   T h e n ,   t h e   a l go r i t hm   c a l c ul a t e s   t h e   di s t a n c e   of   a l l   da t a   o b j e c t s   t o   t h e   i ni t i a l   c e n t r o i ds   us i n g   E uc l i di a n   d i s t a n c e .   D a t a   o b j e c t s   a r e   c a t e go ri z e t o   i t s   n e a r e s t   c l us t e c e n t r o i a n t h e n   c l us t e r   c e n t r o i i s   r e c a l c ul a t e d .   T hi s   pr o c e s s   i t e r a t e s   u n t i l   t h e   a s s i gnm e n t s   o f   da t a   ob j e c t s   d o   n o t   c h a n ge .   I n   (3)   s h o w s   t h e   E uc l i d i a d i s t a n c e   f o r m u l a   [26] .                                                                     (3)     2. 2 . 3 P h as e   3 O v e r l ap p i n C l u s te r i n U s i n g   M ax d i s t   In  t hi s   s e c t i o n,   i de nt i f i c a t i o n   o f   ob j e c t s   t o   m ul t i pl e   c l us t e r s   us i n g   m a xdi s t   [27 ]   i s   e xpl a i n e d.   A f t e r   t h e   fo r m a t i o n   o c l us t e r s   us i n k - m e a n s   a l go r i t hm ,   c a l c u l a t e di s t a n c e s   of   e a c h   da t a   o bj e c t   a s s i gn e o n   e a c c l us t e r   a r e   s a v e d.   T h e   m a xd i s t   (m a xi m u m   di s t a n c e   of   a n   ob j e c t   a l l ow e i n   a   c l us t e r r e c o r de f r o m   e a c h   c l us t e r   w a s   us e a s   t h e   gl o b a l   t hr e s h o l i n   i de n t i fy i n o b j e c t s   t h a t   c a n   b e l o n t o   o n e   o r   m o r e   c l us t e r s .   T h e n,   t h e   di s t a n c e   of   t h e   da t a   o b j e c t   f r o m   t h e i r   r e s pe c t i v e   c l us t e r   i s   c a l c ul a t e t o   t h e   f i n a l   c e n t r o i o f   t h e   o t h e r   c l us t e r.   T h e   c a l c ul a t e di s t a n c e   i s   c o m pa r e w i t h   t h e   m a xdi s t   o f   t h e   o t h e r   c l us t e r   f i n a l   c e n t r o i d .   If   t h e   di s t a n c e   i s   l e s s   t ha n   m a xd i s t ,   t h e n   t ha t   da t a   o b j e c t   i s   i de n t i f i e pa t t e rn   t h a t   o v e r l a ps   w i t h   t h e   o t h e   f i n a l   c e nt r o i d.   In  F i gu r e   2,   a e xa m pl e   o f   da t a   w i t h   t hr e e   gi v e c l us t e r s   i s   s h o w n .   T o   de t e rm i n e   w h e t h e d a t a   o b j e c t   x1  i n   Cl us t e r   o v e r l a ps   w i t h   C l us t e r   t h e   di s t a n c e   of   da t a   o bj e c t   x1  i s   c a l c ul a t e w i t h   t h e   f i n a l   c e nt r o i (c e n t   2)  o f   Cl us t e r   2.   T h e n,   t h e   c o m put e di s t a n c e   i s   c o m pa re w i t h   d a t a   o bj e c t   y 3,   w h e r e   y i s   e qui v a l e n t   t t h e   m a xdi s t   o f   Cl us t e r   2.   If   t h e   di s t a n c e   of   x1  i s   l e s s   t h a n   t he   m a xd i s t   t h e n   x i s   c o n s i de r e d a t a   o bj e c t   t h a t   ov e r l a p   w i t h   C l us t e r   2.   T hi s   m e t h o i t e ra t e s   w i t a l l   t h e   o t h e c l us t e r s .           F i gu r e   2 .   Ide nt i f i c a t i o n   o f   o ve r l a pp i n g   pa t t e rn s       Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 4 ,   N o .   3 J u n e   20 1 9   :     1471     1478   1474   2. 3     V i s u al i z ati o n   R e s u l t   T h e   c l us t e ri n r e s ul t s   c a b e   v i s ua l i z e i n   O CA   t hr o ugh   a   2 - d i m e n s i o n a l   s pa c e   o r   g r a p h.     D a t a   o b j e c t s   a r e   c ha ra c t e ri z e b y   a   c o l o r e c i r c l e   do t s   o po i nt s   w hi c a r e   r e p r e s e nt e by   a   r a ndo m l y   a s s i g n e c o l o r   a s   a   r e p r e s e nt a t i o n   f o r   i t s   c l us t e r   a s s i g n m e nt .   W h i l e   r e c i r c l e   do t s   o r   po i n t s   s i g n i f i e s   i de nt i f i e o ut l i e r s   i n   t h e   da t a s e t s .   P o i nt s   t h a t   o v e r l a f r o m   o n e   c l us t e r   t o   a n o t h e r   a r e   c i r c l e   do t s   m a r ke w i t h   da r b o r de r.   T h e   c l us t e r   c e n t r o i ( + i s   us e t o   r e pr e s e nt   t he   c o m po s i t i o n   o f   c l us t e r s .   P y t h o n   p r o g r a m m i n g   l a n gu a ge   w a s   us e f o r   t h e   de v e l o pm e n t   o f   t h e   O CA .   F i gu re   s h o w s   a n   e xa m p l e   o f   a   v i s ua l i z a t i o n   r e s ul t   w i n do w .   In   F i gu r e   s h o w s   t h e   r e s ul t   w i n do w   t h a t   di s p l a y s   t h e   de t a i l e i n f o r m a t i o n   o f   t h e   da t a   a na l y s i s   pr o c e s s e s .             F i gu r e   3 .   V i s u a l i z a t i o r e s ul t     F i gu r e   4 .   D e t a i l e d   i n f o r m a t i o r e s ul t       It   p r o v i de s   t h e   n um b e r   o f   i n s t a n c e s   a n a t t r i b ut e s ,   t h e   n u m b e r   of   da t a   o bj e c t s   a s s i gn e o n   e a c c l us t e a n d   t h e   i de n t i f i e o ut l i e r s   f r o m   e a c h   c l us t e a s   w e l l   a s   t h e   o v e r l a p pi n g   a s s i g n m e n t   o f   da t a .         3.   R ES U LTS   A N D   A N A L Y S I S   In   t hi s   s e c t i o n ,   e xpe ri m e nt s   w e r e   c o n duc t e t o   t e s t   t h e   de ve l o pe O CA .   T h e   a ppl i c a t i o n   w a s   i m p l e m e nt e us i ng  t w o   da t a s e t s ,   s y n t h e t i c   a nd  r e a l   da t a s e t s .       3. 1     Ex p e r i m e n 1   T h e   f i r s t   e xpe r i m e n t   us e s y n t h e t i c   da t a s e t .   T h e   da t a s e t   i s   c o m po s e d   of  t w n um e r i c a l   a t t r i b ut e s   w i t h   327  i n s t a n c e s .   F i v e   w e r e   i nt r o duc e t o   s e r v e   a s   o ul t i e r s   da t a .   T h e r e   a r e   322  i n s t a n c e s   t h a t   a r e   n o r m a l   da t a   a n d   i n s t a n c e s   a r e   o ut l i e r s .     T h e   da t a   o b j e c t s   a r e   pl o t t e t hr o ug h   a   2 - di m e n s i o na l   s p a c e   pr o v i de by   O CA   a s   s h ow n   i n   F i gu r e   5 .   F i r s t ,   O CA   w i l l   us e M A D   f o r   t h e   i de n t i f i c a t i o n   o f   o ut l i e r s   i n   t h e   da t a s e t s .   F i gu r e   s h o w s   t h e   v i s ua l i z a t i o r e s ul t   w e r e   o ut l i e r s   a r e   i de n t i f i e by   O CA .   T h e   r e c i rc l e   do t s   a r e   c o n s i de r e i de n t i f i e o ut l i e r s   i   t h e   da t a s e t s .             F i gu r e   3 .   S y n t h e t i c   da t a s e t s   s c a t t e p l o t     F i gu r e   6 .   O CA   de t e c t e o ut l i e r s           Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       O CA ov e r l app i ng   c l us t e r i ng   app l i c at i on  uns upe r v i s e a ppr oac h   f or   dat an al y s i s   ( A l v i n c e nt   E .   D a nganan )   1475   A s   s h o w n   i n   t h e   v i s ua l i z a t i o n   r e s ul t   O CA   c o rr e c t l y   i de n t i f i e a l l   f i v e   (5)  o ut l i e r s   i t h e   d a t a s e t s .     In  F i gu r e   s h o w s   t ha t   o ut l i e r s   a r e   n o w   r e m o v e f r o m   t h e   d a t a s e t s .     F o r   t h e   c l us t e r i n p r o c e s s e s ,   us e r   de t e r m i n e s   t h e   n u m b e r   o c l us t e r s ,   w h e r e i n   t h e   us e r   ut i l i z e k= 4   i n   t hi s   s t udy .   T h e   O CA   a ppl i c a t i o n   t a ke s   a n   i n pu t   o f   i n i t i a l   c l us t e r   c e n t e r   a n e a c h   da t a   o b j e c t   i s   a s s i g n e t o   i t s   n e a r e s t   c l us t e r   c e nt e r.   T h e   c l us t e r s   i n   2 - di m e n s i o na l   da t a   s pa c e   a r e   m a r ke w i t a   r a ndo m l y   a s s i gn e c o l o r   a s   a   r e p r e s e n t a t i o o f   t h e   p ri m a r y   b e l o n gi n g   o f   a   da t a   o b j e c t s   a s   s h o w n   i n   F i gu r e   8 .             F i gu r e   7 .   S c a t t e p l o t   o f   da t a s e t s   w i t h o ut   o ut l i e r s     F i gu r e   8 .   O CA   c l us t e r s   a s s i g nm e nt   r e s ul t       T h e n,   O CA   w i l l   us e   t hi s   m a xd i s t   i n   a s s i g ni n d a t a   o b j e c t s   t o   m ul t i p l e   c l us t e r s .   A s   s h o w n   i   F i gu r e   9,   c i r c l e   do t s   m a r ke w i t h   da r b o r de r   a r e   i de nt i f i e da t a   o bj e c t s   t h a t   c a n   b e l o n t o   o t h e r   c l us t e r s .   F i na l l y ,   T a b l e s   1 - 3   i l l us t ra t e d   t h e   de t a i l e i n f o r m a t i o o f   t h e   e xpe r i m e nt   do n e   us i ng  t h e   s y n t h e t i c   d a t a s e t s .           F i gu r e   9 .   S i m u l a t i o o f   da t a   o b j e c t s   t ha t   o v e r l a w i t hi n   c l us t e r s       T a b l e   1 .   I m pl e m e nt a t i o R e s ul t   o f   D e t e c t e O ut l i e r s   N o .   o f   d a t a   O b j e c t s   N o .   o f   O u t l i e r s   F o u n d   O u t l i e r s   327   5   5       T a b l e   2 .   I m pl e m e nt a t i o R e s ul t   o f   Cl us t e r e D a t a   K= - 4   Cl u s t e r s   N o .   o f   d a t a   o b j e c t s   C0   153   C1   48   C2   25   C3   96     T a b l e   3 .   I m pl e m e nt a t i o R e s ul t   o f   O ve r l a Cl us t e r s   Cl u s t e r s   O v e rl a p s   w i t h   C0   O v e rl a p s   w i t h   C1   O v e rl a p s   w i t h   C2   O v e rl a p s   w i t h   C3   C0   -   0   0   13   C1   0   -   0   0   C2   0   1   -   0   C3   45   0   0   -         Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 4 ,   N o .   3 J u n e   20 1 9   :     1471     1478   1476   E xpe r i m e nt   1   r e s ul t s   s h o w s   t h a t   O CA   a c c u r a t e l y   i de nt i f i e o ut l i e r s   i n   t h e   d a t a s e t s   a n d   w a s   a b l e   t di s c ov e r   o ve r l a p a t t e rn s   e f fe c t i ve l y .     3. 2     Ex p e r i m e n 2   In  t hi s   s e c t i o n ,   r e a l   d a t a s e t   w a s   ob t a i n e f r o m   U CI  M a c h i n e   l e a rn i ng  r e po s i t o r y .   T h e   o b t a i n e d a t a   i s   t h e   IR IS   pl a n t s   d a t a s e t   t ha t   ha s   150  i n s t a n c e s   w i t h   (s e pa l   l e n gt h,   s e pa l   w i dt h,   pe t a l   l e n g t h ,   pe t a l   w i dt h )   n u m e r i c a l   a t t r i b ut e s .   F i gu r e   10  s h o w s   t h e   v i s ua l i z a t i o n   r e s u l t   u n de r   s e pa l   w i dt h   a n s e pa l   l e ngt h   a t t r i b ut e s .     In  F i gu r e   11   s h o w s   t h e   o ut l i e r s   i t h e   i r i s   da t a s e t s   t h a t   w e r e   i de n t i f i e by   t h e   O CA   a p pl i c a t i o n .             F i gu r e   10 .   I ri s   da t a s e t s   s c a t t e p l o t   u n de r   s e pa l   w i dt a n s e pa l   l e n gt a t r i b ut e s     F i gu r e   11 .   O u t l i e r s   u n de r   s e pa l   w i dt a n d     s e pa l   l e n g t h       T h e s e   i de n t i f i e o ut l i e r s   a r e   r e m o v e f r o m   t h e   da t a s e t s .   T he n ,   O CA   t a ke s   a n   i n pu t   o f   f r o m   t h e   us e r ,   w h e r e   k = c l us t e r s   a s   s h o w n   i F i gu r e   1 2.   F i n a l l y ,   t he   i de n t i f i c a t i o n   o f   ove r l a p   pa t t e rn s   a s   s h o w n   i n   F i gu r e   13 .               F i gu r e   12 .   O CA   c l us t e r s   a s s i g nm e nt   r e s ul t   u n de r   s e pa l   w i dt a nd  s e pa l   l e n g t h     F i gu r e   13 .   O CA   c l us t e r s   a s s i g nm e nt   r e s ul t   u n de r   s e pa l   w i dt a nd  s e pa l   l e n g t h       A n o t h e e xpe ri m e n t   w h e r e   c o n duc t e d,   a t   t hi s   s t a ge   t h e   us e of   pe t a l   w i dt a n d   pe t a l   l e n g t h   a t t r i b ut e s   of   t h e   i ri s   d a t a s e t .   T h e   f o l l ow i n g   s i m ul a t e r e s ul t s   a r e   s h o w n   i F i gu r e   14 .       Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       O CA ov e r l app i ng   c l us t e r i ng   app l i c at i on  uns upe r v i s e a ppr oac h   f or   dat an al y s i s   ( A l v i n c e nt   E .   D a nganan )   1477       F i gu r e   14 .   S i m u l a t i o r e s ul t   u nde pe t a l   w i dt a n d   pe t a l   l e n g t h   a t t r i b ut e s       In  T a b l e   i l l us t ra t e d   t h e   de t a i l e i n f o r m a t i o n   o f   t h e   e xpe r i m e nt   do n e   us i n g   t h e   f o ur   (4)   n u m e ri c a l   a t t ri b ut e s   (s e pa l   w i dt h ,   s e pa l   l e n g t h ,   pe t a l   w i dt h ,   pe t a l   l e ngt h o f   t h e   i ri s   pl a n t   d a t a s e t s .   T h e   e xpe r i m e nt a l   r e s ul t   s h o w s   t h a t   O CA   f o un a   t o t a l   o f   o ut l i e r s   o ut   o f   1 50  i n s t a n c e s   un de r   s e pa l   w i dt h   a n s e pa l   l e n gt w h i l e   n o n e   i pe t a l   w i dt h   a n pe t a l   l e ngt h.   F o r   t h e   i de n t i f i c a t i o n   o f   ove r l a p pi n g   pa t t e rn s   u n de r   s e pa l   w i dt h   a n s e pa l   l e n gt h,   a   t o t a l   o f   77  i de n t i f i e pa t t e rn s   o ut   o f   150  i n s t a n c e s   t ha t   o v e r l a ppe b e t w e e n   c l us t e r s   w h i l e   i n   pe t a l   w i dt h   a n d   pe t a l   l e n gt a   t o t a l   o f   34  pa t t e rn s   w e r e   i de nt i f i e d.         T a b l e   4 .   I m pl e m e nt a t i o R e s ul t   U n de r   I r i s   P l a nt   D a t a s e t   A t t ri b u t e s   O u t l i e r s   Cl u s t e r s   N o .   o f   D a t a   O b j e c t s   O v e rl a p   w i t h   C0   O v e rl a p   w i t h   C1   O v e rl a p   w i t h   C2   S E P A L   W i d t h   a n d   L e n g t h     6   C0   49   -   38   15   C1   50   0   -   0   C2   45   24   0   -   P E T A L   W i d t h   a n d   L e n g t h     0   C0   63   -   0   17   C1   50   0   -   0   C2   37   17   0   -       B a s e f r o m   t h e   a b ov e   r e s ul t s ,   t h e   de v e l o pe O CA   pr ov e   i t s   c a pa b i l i t y   t pr o v i de   b e t t e r   i de nt i f i c a t i o n   o f   c l us t e r s   t ha t   o v e r l a a n d   o ut l i e r s   a c c o r di n g l y .         4.   C O N C LU S I O N   A N D   F U TU R W O R K S   T h e   s t udy   pr e s e n t e a n   o v e r l a p pi n c l us t e r i ng  a pp l i c a t i o n   o r   O CA   f o r   da t a   a na l y s i s .   B a s e o n   t h e   e xpe r i m e nt a l   r e s ul t s ,   t h e   de v e l o pe O CA   de m o n s t r a t e i t s   c a pa b i l i t y   i n   t e rm s   o f   d e t e c t i n t h e   a b n o rm a l   v a l ue s   (o ut l i e r s )   a nd  i de nt i f i c a t i o o f   c l us t e r s   w i t o v e r l a ps .   O CA   i s   v e r y   us e f ul   da t a   a na l y s i s   t oo l   f o r   o ut l i e r   de t e c t i o n   a na l y s i s ,   d a t a   c l us t e r i ng  a n d   de t e c t i o o f   ove r l a ppi n g   c l us t e r s .     D e s pi t e   pr o v i di n a   go o r e s ul t ,   i t   i s   r e c o m m e n de t h a t   m o re   t e s t s   n e e t be   d o n e .   T h e   de v e l o pe d   O CA   o n l y   w o r ks   w i t h   n um e r i c a l   da t a s e t s ;   t h e r e f o r e ,   m o di f i c a t i o n   o f   t h e   a ppl i c a t i o n   c a n   b e   c o n s i de r e f o r   f ut ur e   w o r ks .   F u r t h e r m o r e ,   i t   i s   r e c o m m e n de t ha t   a n   a l t e rna t i v e   a ppr o a c h,   w h i c h   i s   n o t   s e n s i t i v e   t o   t h e   ra n do m   i n i t i a l i z a t i o n   o f   c l us t e c e n t e r,   b e   c o n s i de r e d   a s   f ut u re   s t udy .           Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 4 ,   N o .   3 J u n e   20 1 9   :     1471     1478   1478   R EF ER EN C ES   [ 1]   A .   R .   S .   R i t u ,   M .   A f s ha r   A l a m ,   K - M e a n s   C l u s t e r i ng   i S pa t i a l   D a t a   M i n i ng   u s i ng   W e ka   I nt e r f a c e ,   I n t .   J .   C om pu t .   A ppl . ,   p p.   13 16 ,   2015 .   [ 2]   P .   G .   S ubb a r a o ,   P .   S .   K h a n,   a nd   K .   V .   K um a r ,   C a s e   S t udy   o D a t a   M i n i ng   A ppl i c a t i o i n   H e a l t h   C a r e   M o ni t o r i ng   S y s t e m s ,   R e s .   I n v e n.   I n t .   J .   E n g.   Sc i . ,   v o l .   6 ,   no .   5,   pp .   79 82 ,   2 01 6.   [ 3]   R .   A .   H a r a t y ,   M .   D i m i s hk i e h,   a n M .   M a s ud ,   A E nh a nc e k   - M e a ns   C l u s t e r i ng   A l g o r i t hm   f o r   P a t t e r n   D i s c o v e r y   i H e a l t hc a r e   D a t a ,   I n t .   J .   D i s t r i b.   Se ns .   N e t w or k s ,   v o l .   11,   no .   6 ,   p .   6157 40,   2 015 .   [ 4]   P .   K a l y a ni ,   A ppr o a c he s   t o   P a r t i t i o M e d i c a l   D a t a   us i ng   C l us t e r i ng   A l g o r i t hm s ,   I n t .   J .   C om pu t .   A ppl . ,   v o l .   49 ,   no .   23,   pp .   975 888 7,   20 12.   [ 5]   S .   G a r g   a nd   A .   S h a r m a ,   C o m pa r a t i v e   A na l y s i s   o f   D a t a   M i n i ng   T e c hni que s   o E duc a t i o na l   D a t a s e t ,     J .   C om put .   A ppl .   ,   v o l .   74 ,   no .   5 ,   pp .   2 6 ,   201 3.   [ 6]   Y .   H o u,   J .   J .   W ha ng ,   D .   F .   G l e i c h,   W .   L a f a y e t t e ,   a n d   W .   L a f a y e t t e ,   N o n - e xha us t i v e ,   O v e r l a p pi ng   C l u s t e r i ng   v i a   L o w - R a nk  S e m i d e f i n i t e   P r o g r a m m i ng   C a t e g o r i e s   a nd   S ub j e c t   D e s c r i p t o r s ,   A C M   S I G K D D   I n t .   C on f .   K now l .   D i s c ov .   D a t a   M i n . ,   no .   S e c t i o 3 ,   pp .   427 426 ,   2015 .   [ 7]   M .   A l a q t a s h,   M .   A .   F a dh i l ,   a nd   A .   F .   A l - a z z a w i ,   A   M o di f i e d   O v e r l a pp i ng   P a r t i t i o ni ng   C l us t e r i ng   A l g o r i t hm   f o r   C a t e g o r i c a l   D a t a   C l u s t e r i ng ,   B u l l .   E l e c t r .   E ng .   I n f or m at i c s ,   v o l .   7 ,   no .   1 ,   2018 .   [ 8]   A .   R e z g ui ,   C .   N .   C i r ,   a nd  N .   E s s o us s i ,   O v e r l a p pi ng   C l u s t e r i ng   w i t O u t l i e r s   D e t e c t i o n ,   i n   P r oc e e di ng s   of   t he   3r d   I nt e r n at i on al   C on f e r e nc e   on   P at t e r n   R e c og n i t i o A ppl i c at i on s   and   M e t hod s ,   2 014 ,   pp .   2 79 2 86 .   [ 9]   S .   K ha nm o ha m m a d i ,   N .   A di b e i g ,   a n S .   S ha ne hb a ndy ,   A i m pr o v e o v e r l a pp i ng   k - m e a n s   c l us t e r i ng   m e t ho f o r   m e di c a l   a ppl i c a t i o ns ,   E x pe r t   S y s t .   A p pl . ,   v o l .   67,   p p.   12 18 ,   2017 .   [ 10]   C .   M a ,   L .   W a ng ,   J .   X u ,   Z .   Q i n,   L .   S hu ,   a nd   D .   W u,   A O v e r l a p pi n g   C l us t e r i ng   A ppr o a c f o r   R o ut i ng   i W i r e l e s s   S e ns o r   N e t w o r k s ,   i n   20 13  I E E E   W i r e l e s s   C om m un i c a t i ons   an N e t w or k i n C onf e r e nc e   ( W C N C ) :   SE R V I C E S   &   A P P L I C A T I O N A n ,   2 013 ,   pp.   4 375 4380 .   [ 11]   S .   Y .   B ha t   a nd   M .   A bul a i s h ,   A   de n s i t y - ba s e a ppr o a c f o r   m i ni ng   o v e r l a ppi ng   c o m m uni t i e s   f r o m   s o c i a l   ne t w o r i nt e r a c t i o ns ,   P r oc .   2 nd  I n t .   C o nf .   W e I n t e l l .   M i n .   Se m ant .   -   W I M S   1 2 ,   p .   1,   20 12 .   [ 12]   M .   E .   C e l e bi ,   O v e r v i e w   of   o v e r l a ppi ng   P ar t i t i ona l   c l us t e r i n m e t h o ds ,   no .   J a nua r y .   2015 .   [ 13]   P .   K i m   a nd   S .   K i m ,   A   de t e c t i o o f   o v e r l a pp i ng   c o m m uni t y   i m o b i l e   s o c i a l   ne t w o r k,   P r oc .   29 t A nnu .   A C M   Sy m p.   A p pl .   C om pu t .   -   SA C   14 ,   pp .   1 75 1 79 ,   2 014 .   [ 14]   Y .   H u ,   Y .   N i u,   J .   L a m ,   a nd  Z .   S hu ,   A E n e r g y - E f f i c i e nt   A da pt i v e   O v e r l a pp i ng   C l us t e r i ng   M e t ho d   f o r   D y na m i c   C o nt i nuo us   M o ni t o r i ng   i n   W S N s ,   I E E E   Se ns .   J . ,   v o l .   1 7,   no .   3 ,   pp.   834 847 ,   201 7.   [ 15]   T .   C ha k r a bo r t y   a nd  A .   C h a k r a bo r t y ,   O v e r C i t e :   F i nd i ng   O v e r l a p pi n g   C o m m uni t i e s   i n   C i t a t i o N e t w o r k,   i n   I nt e r n at i on al   C on f e r e nc e   on   A dv anc e s   i n   S oc i al   N e t w or k s   A n al y s i s   and  M i n i ng   -   A SO N A M   1 3 ,   20 13 .   [ 16]   X .   Z ho u,   Y .   L i u ,   J .   W a ng ,   a nd   C .   L i ,   A   de n s i t y   ba s e l i nk  c l us t e r i ng   a l g o r i t hm   f o r   o v e r l a p pi ng   c o m m uni t y   de t e c t i o i n   ne t w o r ks ,   P hy s .   A   S t a t .   M e c h.   i t s   A p pl . ,   v o l .   486 ,   pp .   6 5 78 ,   2017 .   [ 17]   A .   E .   D a ng a na n,   A .   M .   S i s o n,   a n R .   P .   M e d i na ,   A I m pr ov e O v e r l a pp i ng   C l us t e r i ng   A l go r i t hm   t o   D e t e c t   O ut l i e r ,   I nd one s .   J .   E l e c t r .   E ng.   I nf or m a t i c s ,   v o l .   6 ,   no .   4 ,   pp .   401 409 ,   2018 .   [ 18]   M .   A hm e a nd   A .   N .   M a hm o o d,   A   no v e l   a pp r o a c f o r   o ut l i e r   de t e c t i o a n c l u s t e r i ng   i m pr o v e m e nt ,   P r oc .   20 13   I E E E   8t C o nf .   I n d.   E l e c t r o n.   A p pl .   I C I E A   2 013 ,   pp .   5 77 5 82 ,   2 01 3.   [ 19]   K .   S i ng a nd   S .   U p a dhy a y a ,   O u t l i e r   D e t e c t i o n:   A ppl i c a t i o ns   A nd  T e c hni qu e s . ,   I n t .   J .   C o m pu t .   ,   v o l .   9,   no .   1 ,   pp.   30 7 32 3,   20 12.   [ 20]   M .   M a n s ur ,   M .   S a p ,   a nd   M .   N o o r ,   O ut l i e r   D e t e c t i o T e c hn i qu e   i n   D a t a   M i n i ng :   A   R e s e a r c P e r s pe c t i v e ,   I n f .   Sy s t . ,   pp .   2 3 3 1,   20 05.   [ 21]   J .   J .   M a no ha r a n,   O u t l i e r   D e t e c t i o U s i ng   E nh a nc e K - m e a ns   C l u s t e r i ng   A l g o r i t hm   a n d   W e i g ht   B a s e C e n t e r   A ppr o a c h,   I nt .   J .   C om p ut .   Sc i .   M ob .   C om pu t . ,   v o l .   5 ,   no .   4 ,   pp .   45 3 464 ,   201 6.   [ 22]   C .   L e y s ,   C .   L e y ,   O .   K l e i n,   P .   B e r n a r d,   a n L .   L i c a t a ,   D e t e c t i ng   o ut l i e r s :   D o   no t   u s e   s t a n da r de v i a t i o n   a r o und   t he   m e a n,   u s e   a b s o l ut e   de v i a t i o a r o und   t h e   m e d i a n ,   J .   E x p .   So c .   P s y c hol . ,   v o l .   49,   no .   4 ,   pp.   7 64 7 66,   2 013 .   [ 23]   P .   J .   R o us s e e uw   a nd  C .   C r o ux ,   A l t e r na t i v e s   t o   t h e   m e di a a bs o l ut e   de v i a t i o n,   J .   A m .   St at .   A s s oc . ,   v o l .   88,   no .   424,   p p.   12 73 1 283 ,   1993 .   [ 24]   U .   R .   R a v a l   a nd   C .   J a n i ,   I m pl e m e nt i ng   &   I m pr o v i s a t i o n   o f   K - m e a ns   C l u s t e r i ng   A l g o r i t hm ,   I nt .   J .   C om pu t .   Sc i .   M ob .   C om pu t . ,   v o l .   5 ,   no .   5,   pp .   191 203 ,   201 6.   [ 25]   P .   T hi ,   T .   B i nh ,   T .   N .   L e ,   a nd   N .   P .   X ua n ,   A dv a nc e S O M   &   K   M e a n   M e t ho d   f o r   L o a C ur v e   C l us t e r i ng ,   I n t .   J .   E l e c t r .   C om pu t .   E ng. ,   v o l .   8 ,   no .   6 ,   pp .   482 9 48 35,   2 018 .   [ 26]   P .   A .   Z i z w a n ,   M .   Z a r l i s ,   E .   B .   N a b a ba n ,   I .   S i ng h ,   a nd   P .   D w i v e di ,   K - M e a ns   A l g o r i t hm   P e r f o r m a nc e   A na l y s i s   W i t h   D e t e r m i n i ng   T he   V a l u e   O f   S t a r t i ng   C e nt r o i d   W i t R a ndo m   A nd  K D - T r e e   M e t ho d,   i n   J o ur n al   o f   P hy s i c s 2017 .   [ 27]   S .   B a a d e l ,   F .   T h a b t a h ,   a nd   J .   L u,   M C O K E :   M ul t i - C l us t e r   O v e r l a p pi ng   K - M e a ns   E x t e ns i o A l g o r i t hm ,   I nt .   J .   C om put .   E l e c t r .   A ut om .   C on t r o l   I n f .   E n g. ,   v o l .   9 ,   no .   2 ,   pp .   427 43 0,   201 5.     Evaluation Warning : The document was created with Spire.PDF for Python.