I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   24 ,   No .   2 N o v em b e r   2 0 2 1 ,   p p .   1 1 4 1 ~ 1 1 4 8   I SS N:  2 5 0 2 - 4 7 5 2 ,   DOI : 1 0 . 1 1 5 9 1 /ijeecs.v 24 .i 2 . p p 1 1 4 1 - 1 1 4 8          1141       J o ur na l ho m ep a g e h ttp : //ij ee cs.ia esco r e. co m   A simple,  ef fectiv e distance  and de nsity  bas ed outlie r det e ction  a lg o rithm       Sa j idh a   S.  A. 1 ,   Uda i A g a rwa l 2 ,   P rut hv ira j   R.   P . 3 ,   Sp a rsh   Ag a rwa l 4 ,   Nis ha   V.   M . 5   Am it   K um a r   T y a g i 6   1, 2, 3, 4 , 5, 6 S c h o o o C o m p u ter  S c ien c e   a n d   En g in e e ri n g ,   Ve ll o re   In st it u te o Tec h n o lo g y ,   Ch e n n a i,   I n d i a   6 Ce n tre fo Ad v a n c e d   Da ta S c ien c e ,   Ve ll o re   In stit u te o Tec h n o lo g y ,   Ch e n n a i,   In d ia       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   11 2 0 2 0   R ev is ed   Au g   19 2 0 2 1   Acc ep ted   Sep   9 2 0 2 1       Ou tl iers   a re   e c c e n tri c   d a ta  p o in t with   a n o m a lo u n a tu re .   Clu ste rin g   with   o u tl iers   h a re c e iv e d   a   l o t   o f   a tt e n ti o n   i n   t h e   d a ta  p ro c e ss in g   c o m m u n it y .   Bu t ,   th e y   i n o rd i n a tely   a ffe c t h e   q u a li t y   o f   t h e   re su lt o b tain e d   in   c a se   o p o p u lar   c lu ste rin g   a l g o rit h m d u ri n g   t h e   p ro c e ss   o fin d in g   a n   o p ti m a so lu ti o n .   In   th is  wo rk ,   we   p ro p o se   a   n o v e l   m e th o d   t o   c las sify   th e   d a ta  p o in ts  wit h   g ro u p i n g   c h a ra c teristics   a e it h e a n   o u t li e o n o t.   We  u se   b o th   d is tan c e   a n d   d e n sity   o a   p a rti c u lar  d a ta  p o in with   re sp e c to   t h e   re st  o t h e   d a ta  p o i n ts  fo r   th is  p ro c e ss .   Dista n c e a re   u se d   t o   fi n d   th e   p o i n ts  a t   th e   e x trem it ies   wh il e   t h e   d e n siti e a re   u se d   to   i d e n ti fy   t h e   d a ta  p o i n ts  a th e   sp a rse st  sp a c e s.  F u rt h e r,   e v e ry   d a ta  m o d e h a to   tak e   i n to   a c c o u n th e   a sp e c o g e n e ra l iz a ti o n   i n   o rd e to   w o rk   ro b u st ly   e v e n   i n   o u o th e   b o x   sit u a ti o n s.  He n c e ,   o u a p p ro a c h   p ro v id e a   g e n e ra li z a ti o n   a sp e c t o   t h e   m o d e l.   Th e   a c c u ra c y   o th e   p ro p o se d   wo rk   is   m e a su re d   u sin g   a re a   u n d e c u rv e   ( AUC wa f o u n d   th e   h ig h e st  fo r   c a rd io to   d a ta  se - AU C   v a lu e - 0 . 9 0   a n d   se c o n d   h i g h e st  AU C   v a lu e   wa o b tai n e d   f o S p a m b a se   d a ta  se - 0 . 5 2   a n d   se v e ra l   o t h e d a tas e ts  a re   u se d   t o   d e m o n stra te t h e   u sa g e   o f   th e   m o d e p ro p o se d .   K ey w o r d s :   An ti - n eig h b o u r s   Ar ea   u n d er   cu r v   Den s ity   Dis tan ce s   Ou tlier s   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Sajid h S.  A .   Sch o o l o f   C o m p u ter   Scien ce   a n d   E n g in ee r in g   Vello r I n s titu te  o f   T ec h n o lo g y   Van d alu r - Kela m b a k k a m   R o ad ,   C h en n ai - 6 0 0 1 2 7 ,   I n d ia   E m ail:  am itk r ty ag i0 2 5 @ g m ail. co m       1.   I NT RO D UCT I O   An   o u tlier   is   an   o b s er v atio n   t h at  is   s tr ik in g ly   f ar   f r o m   th clu s ter   ce n ter s .   I t   is   an   ec ce n tr ic  v alu e   r elativ to   th d ata.   No r m ally ,   co m p u te d   v alu es  s u ch   as  av er ag o r   least  s q u ar lin es  ca n   b d r am atica lly   af f ec ted   b y   s u c h   v al u es  [ 1 ] .   Hen ce ,   m eth o d s   to   d etec o u tlier s   an d   to   m o d er ate  th eir   ef f ec ts   ar n ee d ed .     T h im p o r ta n ce   o f   d en s ity   an d   d is tan ce   o f   d ata  p o in ts   wh ile  id en tify in g   th in itial seed   p o in ts   f o r   - m ea n s   f o r   n u m er ical  d ata,   - m o d es  f o r   ca teg o r ical  d ata  a n d   m i x ed   d atase ts   u s in g   m o d if ied   - m ea n s   alg o r ith m ,   is   elu cid ated   in   th wo r k   [ 2 ] - [ 4 ]   in   wh ich   th in itial  s ee d   p o i n ts   wer ef f ec tiv ely   id en tifie d .   On o f   th m ajo r   d r awb ac k s   o f   t h p ar titi o n   b ased   clu s ter in g   alg o r ith m   is   t h at  th ey   ca n n o d etec th e   p r esen ce   o f   o u tlier s .   Fo cu s in g   o n   r em o v in g   th e   o u tlier s   f r o m   th d ataset  f u r th er   o p tim izin g   th e   clu s ter in g   m e th o d o lo g ies  to   g iv e   ac cu r ate  r esu lts .   T h a u th o r s   o f   [ 1 ]   s h o we d   h o th e   b iv ar iate  d ata  r ep r esen ted   in   th f o r m   o f   b o x   p lo ts ,   w h en   g en er alize d ,   g iv es   o u t   th e   b a g   p lo ts   wh ich   in   t u r n   ca n   b e   u s ed   to   s k im   o u t h o u tlier s .   T h is   asp ec t   o f   th e   b in ar y   p r o p er t y   was  f u r th er   m en tio n ed   in   [ 5 ]   as  elu cid at ed .   I n   [ 6 ] ,   th o u tlier   d etec tio n   u s in g   in - d eg r ee   n u m b er   ( ODI N )   al g o r ith m ,   - m ea n s   an d   Ou tly in g n ess   f ac to r   h av b ee n   u s ed   to   r em o v e   o n o r   m o r e   d ata   p o in ts   ( o u tlier s )   an d   g et  n o n - o v er lap p in g   clu s ter s .   I n   [ 7 ]   p r o p o s ed   th ap p r o ac h   o f   f in d in g   th cl u s ter s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   2 No v em b er   2 0 2 1 1 1 4 1   -   1 1 4 8   1142   f o llo wed   b y   th l o ca o u tlie r s   an d   f in ally   lo o k in g   f o r   t h g lo b al   o u tlier s .   I n   [ 8 ] ,   l o ca k er n el   d en s ity   e s tim atio n   is   d o n e.   In   [ 9 ]   ex p lain   th Gau s s ian   u n if o r m   m i x tu r m o d el  ( Gu MM )   m et h o d o lo g y   wh ich   f its   clu s ter   to   id en tify   o u tlier s   th at   d o   n o t f all  in to   a n y   o f   th n o r m al  clu s ter s .     An o th er   wo r k   in   [ 1 0 ]   p r o p o s ed   an g le - b ased   o u tlier   d etec ti o n   ( AB OD )   alg o r ith m   ass ig n s   an   an g le - b ased   o u tlier   f ac to r   ( AB OF )   to   ea ch   p o in in   th d ata b ase  an d   r etu r n s   s o r ted   lis o f   p o in ts   b ased   o n   AB OF   v alu es.  Fas tAB OD  [ 1 0 ]   ap p r o x im ates  AB OF  b ased   o n   s am p le  o f   th d atab ase.   T h e   wo r k   in   [ 1 1 ] ,   th e   d i s t a n c e s   o f   a l l   t h e   d a t a   p o i n t s   f r o m   t h e i r   c l o s e s t     n e a r e s t   n e i g h b o r s   a r e   m e a s u r e d .   I f   t h e   s u m   o f   a l l   t h e   d i s t a n c e s   i s   g r e a t e r   t h a n   t h e   t h r e s h o l d   v a l u e   ,   t h e n   t h e   p o i n t   i s   c o n s i d e r e d   a n   o u t l i e r .   I n   t h e   w o r k   d i s c u s s e d   i n   [ 1 2 ]   u s d en s ity - b ased   ap p r o ac h   f o r   f in d in g   th o u tlier s   in   th lo ca o u tlier   p r o b ab ilit y   ( L o OP )   alg o r ith m .     T h wo r k   in   [ 1 3 ]   f o cu s es  o n   f in d in g   o u tlier s   in   h ig h   d im e n s io n al  d ata,   u s in g   d if f er e n s u b s p ac es  o f   th o r ig in al  s p ac ( s u b s et  o f   co m p lete  f ea tu r s et) .   T h e   wo r k   in   [ 1 4 ]   p r o p o s es  n o v el  s u b s p ac s ea r ch   m eth o d   t h at  s elec ts   h ig h   co n tr ast  s u b s p ac es  ( HiC S )   f o r   d en s ity - b ased   o u tlier   r an k in g .   T h e   o u tlier   s co r es  ar e   b ased   o n   lo ca o u tlier   f ac t o r   ( L OF ) .   T h wo r k   in   [ 1 5 ]   in tr o d u ce d   th co r r elatio n   o u tlier   p r o b a b ilit ies  ( C O P m e t h o d   t h a t   g e n e r a l i z e s   t h i s   i d e a   b y   l o o k i n g   f o r   t h e   a r b i t r a r i l y   o r i e n t e d   s u b s p a c e s   o f   h i g h e s t   v a r i a n c e   a n d   f u r t h e r   p r o v i d e s   a n   e r r o r   v e c t o r   f o r   e a c h   i d e n t i f i e d   o u t l i e r   a s   a   f o r m   o f   e x p l a n a t i o n .   I n   t h e   w o r k s   d i s c u s s e d   i n   [ 1 6 ] ,   [ 1 7 ]   s tu d ie d   d is tan ce   b ased   tech n i q u es u s ed   f o r   class   im b alan ce   d ata.     I n   th wo r k   [ 1 8 ]   co m p ar es  te n   d if f er e n m eth o d o lo g ies  an d   th eir   p er f o r m an ce s   o v er   n i n e   r ea l - tim e   d atasets .   T h m eth o d o lo g ies  lik L OF,  ODI an d   NN.   ar co m p ar e d .   I n   [ 1 9 ]   th e   au th o r s   c o m b in e   th e   s tatis t ical  m eth o d s   o f   m ea n   an d   s tan d ar d   d e v iatio n   ( MS D )   with   th K - m ea n s   clu s ter in g   alg o r ith m   wh ile   d etec tin g   th o u tlier s .   I n   [ 2 0 ]   u s es  clu s ter   b o u n d   to   f in d   t h s u s p ec ted   o u tlier   in s tan ce .   I f   th av er ag d is tan c e   o f   th s u s p ec ted   o u tlier   is   g r ea ter   th an   th av e r ag d is ta n ce   o f   th n ei g h b o r h o o d   p o i n ts   th en   it  ca n   b co n s id er ed   as a n   elig i b le  o u tli er .     I n   [ 2 1 ]   th au th o r s   h av e n s em b le  3   f am o u s   clu s ter in g   alg o r ith m s   f o r   o u tlier   d etec tio n   f r o m   wh ich   it  ca n   s ee n   th at  en s em b le  m eth o d   o u tp er f o r m s   in d i v id u al  alg o r ith m s .   I n   [ 2 2 ]   th au t h o r s   u s Neig h b o r   e n tr o p y   lo ca o u tlier   f ac to r   ( NE L OF )   to   r ed u ce   th e   tim tak e n   to   s c an   th e   d ata  s et  as  c o m p ar e d   t o   L OF.  I n   [ 2 3 ]   th e   au th o r s   h av p r o p o s ed   a   two   s tag th r esh o ld in g   m eth o d   wh ich   o v e r co m es  th e   b iasi n g   p r o b l em s   in   s tatis tical   m eth o d s .   I n   o u r   wo r k   we  in tr o d u ce   f ea s ib le  n o v el  s im p le  o u tlier   d etec tio n   alg o r ith m   th at  u s es  b o th   d is tan ce   an d   d en s ity   to   id en tif y   th o u t lier s   an d   d o es  n o u s an y   u s e r   d ef in ed   p ar am eter s .   T h d e n s ity   o f   ea ch   p o in is   esti m ated   o n ly   o n ce   a n d   is   u s ed   in   th e   p r o ce s s   o f   d etec tin g   th o u tlier s .   Als o ,   th e   p r o p o s e d   alg o r ith m   en s u r es  in   id en tify i n g   t h s am s et  o f   o u tlier s   ev er y   tim th e   alg o r ith m   is   ex ec u ted ,   w h ich   is   ess en tial  in   th e   r ea lif e   p r o b lem s .         2.   RE S E ARCH   M E T H O   2 . 1 .       P ro po s ed  o utlier   det ec t io n t ec hn iqu e   W p r o p o s d is tan ce   an d   d en s ity - b ased   o u tlier   d etec t io n   m eth o d o lo g y   th at  ca n   b u s ed   f o r   id en tify in g   g l o b al  an d   co n te x tu al  o u tlier s   in   d ata.   T h is   p r o ce s s   is   es s en tial  f o r   v ar io u s   p r ed ictio n   an d   class if icatio n   p u r p o s es   as  th es o u tlier s   ca n   ca u s m ajo r   d ev iatio n   in   th r esu lts   lead in g   to   f alse  o u tco m es.  T h p r o p o s ed   alg o r ith m   is   i n d ep en d en t   o f   u s er   i n p u t   an d   h e n ce   p r o v id es  a   co n s is ten o u tp u ev er y   tim e.   T h e   r esu lts   ar g en er ated   in   f ix e d   n u m b e r   o f   iter atio n s .       2 . 1 . 1 .   Alg o rit hm   1   Ste p 1 .   I n itialize    T o tal  n u m b er   o f   d ata  p o in ts   Ste p 2 .   Fin d   th d is tan ce   m atr ix   E u clid ea n   d is tan ce   ( E D)   f o r   th g iv en   p o in ts   u s in g   E D.     Fo r   ea ch   d ata  p o in , = 1        Fo r   ea ch   d ata  p o in t   , = 1          C alcu late    ( , ) =     ( , )   Ste 3 .   C alcu late  th r o s u m   f o r   ea ch   r o in      m atr ix   ( f o r   f i n d in g   th e   ex tr em ities   in   th d a taset)  an d   s to r e   it in      Fo r   ea ch   = 1             ( ) = [  ( , ) , = 1 ]   ( 1 )     So r t RS   in   d escen d in g   o r d er   w . r . t r o s u m   St ep  4 .   C alcu late   ̅   ( i.e .   th r esh o ld   r ad iu s   f o r   f in d in g   th e   co u n o f   an t i - n ei g h b o r in g   p o in ts )   c al cu late     ̅ = 2 | | ( | | 1 )  ( , ) = + 1 1 = 0   ( 2 )     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       A   s imp le,   effec tive  d is ta n ce   a n d   d en s ity  b a s ed   o u tlier   d etec tio n   a lg o r ith m   ( S a jid h a   S .   A . )   1143   Ste 5 .   C alcu late  t h c o u n t   o f   an ti - n eig h b o r s   f o r   ea ch   d ata   p o in t   as    ( f o r   f in d i n g   th d at p o i n ts   in   t h s p ar s est r eg io n s )   Fo r   ea ch   d ata  p o in =   1          I n itialize  co u n t =   0   Fo r   ea ch   =   1        If   ( , ) > ̅     I n cr em en t c o u n b y   1     ( ) = [  , ]   ( 3 )     So r   in   d escen d i n g   o r d er   w. r . t   co u n t   Ste p 6 .   Fin d   g ap   v alu es in      an d     as   _    an d    _    ( f o r   f in d in g   th e   v ar i atio n   in   ad jace n v alu es)    Fo r   ea ch   d ata  p o in =   1      1        ( ) = [  ( , 0 )  ( + 1 , 0 ) , ]   ( 4 )      ( ) = [ ( , 0 ) ( + 1 , 0 ) , ]   ( 5 )     So r  _    in   d escen d i n g   o r d er   w. r . t   g ap s   in   r o s u m s   So r  _    in   d escen d i n g   o r d er   w. r . t   g ap s   in   co u n ts   Ste p 7 .   I d en tif y in g   v ar io u s   p o s s ib le  o u tlier   s ets with   r esp ec to   d if f er e n t ɑ v alu es   R ep ea t th f o llo win g   s tep s   f o r   0 . 01      0 . 09   ( b y   i n cr em en ts   o f   0 . 01 )   Ste p 7 . 1 .   I n itialize  = 1   ( wh er n   i s   th n u m b e r   o f   g ap s   to   b e   co n s id er ed   in   f u r th er   ca lcu latio n s )   If  × > 1   =   ( × )   {T ak in g   th l o wer   b o u n d   in te g er   o f   t h   p r o d u ct}   Ste 7 . 2 .   T ak in g   th m ea n   o f   f ir s   in d ices  in    _    an d    _    as  _    an d   _  .   ( I n d ices  s to r ed   with   th g ap s   in    _    an d    _    ar r ay s   ar eq u al  to   th n u m b er   o f   p o in ts   co n s id er ed   as  o u tlier s   if   th at  g ap   is   tak en   as  th e   d if f er en tiatin g   b o u n d   f o r   n o r m al   an d   o u tlier   d at p o in ts ,   s in ce   th e   in d ices  ar th in itial  p o s itio n   wh er th g a p s   o cc u r r ed   in   t h e   s o r ted      an d     ar r ay s . )      = (  _  ( , 1 ) = 1 )   ( 6 )      = (  _  ( , 1 ) = 1 )   ( 7 )     Ste 7 . 3 .   I n d ex   cl o s est  to   _    in    _    (  _  )   is   tak en   as  th d if f er e n tiatio n   b o u n d   in    _  .   I n d ex   clo s est to   _    in    _    (  _  )     is   tak en   as th d if f er en tiatin g   b o u n d   in    _  .   I n itialize   _     _    =   0   I n itialize  _  =  _  ( 0 , 1 )   I n itialize   _  =  _  ( 0 , 1 )   Fo r   ea ch   g a p   i = 0          If  ( _   _  ( , 1 ) < min   _  )     _  = _   _  ( , 1 )   ( 8 )      _  =  _  ( , 1 ) + 1       if   ( _   _  ( , 1 ) < min   _  )     _  = _   _  ( , 1 )   ( 9 )      _  =  _  ( , 1 ) + 1       Ste 7 . 4 .   Data   p o in ts   co r r esp o n d in g   to   in d ices  0   to     idx _ RS   in   a n d   d ata  p o i n ts   co r r esp o n d i n g   to   i n d ices  0   to    _    in   CT   ar r ay   ar c o n s id er ed   as    _  .   I n itialize     _    as a n   em p ty   ar r ay   o f   s ize    _  .     Fo r   ea ch   0       _          _  ( ) =  ( , 1 )   ( 1 0 )     I n itialize     _    as a n   em p ty   a r r ay   Fo r   ea ch   0       _    Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   2 No v em b er   2 0 2 1 1 1 4 1   -   1 1 4 8   1144     _  ( ) =  ( , 1 )   ( 1 1 )     Ste p 7 . 5 .   T h f in al  lis t o f   o u tlier s   ar e   g en er ate d   b y   tak in g   t h e   u n io n   o f      _    an d      _  .       = (    _  ) (    _  )   ( 1 2 )       Ste 8 .   R etu r n   to   ca s wit h   m ax im u m   AUC  ( i.e .   Ac cu r ac y   m etr ic  u s ed   in   th e   s tu d y )   alo n g   with   co r r esp o n d in g   α   v alu e .     2 . 1 . 2 .   Descript io n o f   t he  a lg o rit hm   I n   th alg o r ith m   1   m e n tio n ed   ab o v e,   we  co n s id er   b o t h   d is tan ce s   ( i.e .   in   th f o r m   o f   r o w   s u m )   an d   d en s ity   ( i.e .   in   th f o r m   o f   co u n ts )   ( i.e .   Step s   3 ,   4 ,   5 ) .   T h ese  ca lcu latio n s   ar d o n o n ly   a f ter   th co m p u tatio n   o f   a   d is tan ce   m atr i x   E t h at  t ak es  ( 2 )   tim ( i.e .   Step   2 ) .   On e   o f   th e   m ain   b en e f its   o f   u s in g   th p r o p o s ed   alg o r ith m   is   th e   co n s is ten cy   o f   th r esu lts .   T h er is   an   u n c h an g ed   1 0 - e p o ch   p r o ce s s   th at  is   ex ec u ted   o n ce   f o r   ea ch   d ataset.   Hen ce ,   r ea s o n a b le  tim is   tak en   b y   t h p r o p o s ed   m o d el   t o   p ar s o v er   th d at asets .       2 . 1 . 3 .   I llu s t ra t io n o f   t he  pro po s ed  o utlier   det ec t io n a lg o rit hm   A   d a t as e is   g e n e r a t e d   s y n t h e tic a l l y   t o   i ll u s t r at e   t h e   p r o c e s s   i s   g i v e n   i n   T a b l e   1 .   T h d a t as e c o n s i s t s   o f   1 5   d a t a   p o i n t s   w i t h   2   at t r i b u t es  (      ) .   A t t r i b u te   L a b e l   0   i d e n t i f ie s   d a t a   p o i n t   as   a n   o u t li e r .   T h e   p lo t   o f   t h d a t a   p o i n ts   h a s   b e en   s h o w n   i n   F i g u r 1 .   A d d i ti o n a l l y ,   5   d a t a   p o i n ts   { ( 0 . 6 , 0 . 3 ) , ( 0 . 8 , 0 . 1 ) , ( 0 . 1 ) , ( 1 , 0 . 4 ) , ( 0 . 04 ) }   h a v e   b e e n   a d d e d   a s   o u t l ie r s   i n   t h e   d a t as e t .   T h e   p l o t   wi t h   a d d i ti o n a p o i n t s   h a s   b e e n   s h o w n   i n   Fi g u r e   2 .   So r ted   r o s u m   v alu es  al o n g   with   co r r esp o n d in g   o b ject   in d ices  ar s h o wn   in   T ab le  2 .         T ab le  1 .   Data   p o in ts   co n s id er e d   f o r   illu s tr atio n   O b j e c t   I n d e x   X   Y   La b e l   0   0 . 3 8 8   0 . 4 3 2   0   1   0 . 1 1 1   0 . 1 0 1   0   2   0 . 3 0 5   0 . 0 8 4   0   3   0 . 5 2 7   0 . 6 4 4   0   4   0 . 5 5 5   0 . 5 7 6   0   5   0 . 1 9 8   0 . 0 6 7   0   6   0 . 8 3 3   0 . 8 9 8   0   7   0 . 5 8 3   0 . 7 7 9   0   8   0 . 8 0 5   0 . 8 1 3   0   9   0 . 0 5 5   0 . 0 5 0   0   10   0 . 4 1 6   0 . 6 9 4   0   11   0 . 1 9 4   0 . 4 2 3   0   12   0 . 1 6 6   0 . 0 8 4   0   13   0 . 5   0 . 6 6 1   0   14   0 . 5 2 7   0 . 5 5 9   0   15   0 . 6   0 . 3   0   16   0 . 8   0 . 1   0   17   0 . 0   1 . 0   0   18   1 . 0   0 . 4   0   19   0 . 0   0 . 4   0     T ab le  2 .   R o s u m s   o f   all  d ata  p o in ts   s o r ted   in   d escen d in g   o r d er   I n d e x   R o w   S u m   O b j e c t   I n d e x   0   2 2 . 8 4 0   17   1   2 1 . 1 8 6   18   2   2 0 . 5 6 0   16   3   2 0 . 1 7 8   19   4   1 8 . 6 4 9   15   5   1 5 . 5 5 6   6   6   1 4 . 5 4 5   9   7   1 4 . 4 0 2   8   8   1 3 . 4 8 8   1   9   1 3 . 2 2 7   5   10   1 3 . 1 9 7   12   11   1 2 . 8 3 1   2   12   1 2 . 3 2 3   7   13   1 1 . 6 8 7   11   14   1 1 . 3 5 9   10   15   1 0 . 9 6 8   13   16   1 0 . 9 2 2   3   17   1 0 . 8 1 8   4   18   1 0 . 7 4 2   0   19   1 0 . 6 8 1   14         T o   f in d   th t h r esh o ld   f o r   co n s id er in g   p o in as  a n   o u tlier ,   g ap s   b etwe en   ad jace n t   v alu es  o f   r o w   s u m s   in   T ab le  2   ar ca lc u lated   an d   s o r ted   i n   d escen d i n g   o r d er   ar e   s h o wn   in   T ab le   3 .   T h m ea n   o f   f ir s   Den s ity   I n d ex   as  s h o wn   in   T a b le  3 ,   f o r   ea c h   v al u o f   =0 . 1   t o   0 . 9   is   co m p u ted   an d   f in d in g   th d en s ity   in d ex   clo s est  to   th m ea n   g iv es  th e   in d ex   v alu c o n s id er ed   ( f o r   T a b le  3   th e   id en tifie d   in d e x   is   4   i.e .   th f ir s v alu e) .   T h d ata  p o in ts   b ef o r th is   in d ex   ( i.e .   in d ex   4   in   T ab le  2 )   ar e   co n s id er ed   as o u tlier s .   F i n d   t h e   c o u n t   o f   a n t i - n e i g h b o r i n g   p o i n t s   f o r   e a c h   p o i n t   u s i n g   r a d i a l   d is t a n c e   ( ̅ )   a s   e x p l a i n e d   i n   S e c t i o n   3   ( i . e .   i n   ( 1 ) ) .   T h e s e   v a l u e s   a r e   s o r t e d   i n   d es c e n d i n g   o r d e r   a s   s h o w n   i n   T a b l e   4 ,   w g e t   t h e   d a t a   p o i n ts   t h a t   a r e   f u r t h e s t   f r o m   f o r m i n g   a   c l u s t e r .   T o   f i n d   a   t h r e s h o l d   s i m i l a r   t o   d i f f e r e n ti a t e   o u t li e r s   f r o m   n o r m a l   p o i n t s   t h e   g a p s   b e t w e e n   a d j a c e n t   v a lu e s   o f   c o u n t s   i s   c o m p u t e d   a n d   s o r t e d   i n   d e s c e n d i n g   o r d e r   a s   s h o w n   i n   T a b l e   4 .   S o r t e d   c o u n t   g a p s   a l o n g   wi t h   th e   i n d e x   ( i . e .   p o s i ti o n )   w h e r e   th e y   o c c u r r e d   i n   T a b l e   4   a r e   s h o w n   i n   T a b l e   5 .   I d en tify in g   th e   ap p r o p r iate  i n d ex   f r o m   t h s o r ted   g ap s   to   c alcu late  th v alu es  o f   ( )   ( i.e .   n u m b er   o f   g ap s   to   b co n s id er ed   f r o m   th s tar tin g   o f   s o r ted   g a p s   ar r ay )   is   d o n as  m en tio n ed   i n   Step   7 . 1   Fo r   T a b le  5   th e   id en tifie d   in d e x   is   4   i.e .   th e   f ir s v alu e.   T h er ef o r e,   t h d ata   p o in ts   f r o m   in d e x   0      4   in clu s iv as  s h o wn   in   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       A   s imp le,   effec tive  d is ta n ce   a n d   d en s ity  b a s ed   o u tlier   d etec tio n   a lg o r ith m   ( S a jid h a   S .   A . )   1145   T ab le  4 ,   ar id en tifie d   as  o u tlier s   ( wh en   u s in g   co u n ts   o n ly ) .   T h u s ,   th f in al  lab els  o f   d ata  p o in ts   f r o m   0   to   1 4   ar 0   an d   f r o m   1 5   to   1 9   ar f o u n d   as 1   w h ich   ar th f in al  o u tlier s .   T h is   is   s h o wn   in   Fig u r 3 .   Un io n   o f   o u tlier s   id en tifie d   with   r o s u m s   an d   th at  with   th co u n ts   is   tak en   as th o u tlier   s et.   Ou tlier   s ets  ar g en er ated   f o r   ea ch   v a lu o f   α .   AUC  s co r es  f o r   th d ataset  w. r . ea ch   o u tlier   s et  is   ca lcu lated   an d   th e   o u tlier   s et  g en er atin g   th b est  ( i.e . ,   h ig h est)  AUC  v alu is   r etu r n ed   as  th f in al  s et  o f   o u tlier s .   T ab le  6   s h o ws  th d ata  p o i n ts   m ar k ed   i n   o r a n g ar id en tifie d   as o u tlier s .         T a b l e   3 .   G a p s   c o r r es p o n d i n g   t o   r o w   s u m   i n d e x   I n d e x   R o w   S u m   O b j e c t   I n d e x   3 . 0 9 2   4   3 . 0 9 2   1 . 6 3 3   0   1 . 6 3 3   1 . 5 2 9   3   1 . 5 2 9   1 . 0 1 1   5   1 . 0 1 1   0 . 9 1 4   7   0 . 9 1 4   0 , 6 3 5   12   0 , 6 3 5   0 . 6 2 6   1   0 . 6 2 6   0 . 5 0 8   11   0 . 5 0 8   0 . 3 9 1   14   0 . 3 9 1   0 . 3 8 1   2   0 . 3 8 1   0 . 3 6 6   10   0 . 3 6 6   0 . 3 2 7   13   0 . 3 2 7   0 . 2 6 0   8   0 . 2 6 0   0 . 1 4 2   6   0 . 1 4 2   0 . 1 0 4   16   0 . 1 0 4   0 . 0 7 6   7   0 . 0 7 6   0 . 0 6 1   18   0 . 0 6 1   0 . 0 4 5   15   0 . 0 4 5   0 . 0 2 9   9   0 . 0 2 9     T ab le  4 .   C o u n ts   r elate d   to   th d ata  p o in ts   in   s o r ted   o r d er   C o u n t   I n d e x     C o u n t s   O b j e c t   I n d e x   0   18   17   1   17   16   2   17   18   3   17   18   4   16   15   5   11   6   6   11   9   7   10   7   8   10   8   9   8   1   10   8   2   11   8   5   12   8   12   13   6   3   14   6   10   15   6   11   16   6   13   17   5   0   18   5   4   19   5   14         T ab le  5 .   Gap s   co r r esp o n d in g   t o   co u n t   v alu es       T ab le  6 .   Fin al  lab els o f   d ata  p o in ts   C o u n t   G a p s   C o u n t   I n d e x   5   4   2   8   2   12   1   0   1   3   1   6   1   16   0   1   0   2   0   5   0   7   0   9   0   10   0   11   0   13   0   14   0   15   0   17   0   18     O b j e c t   i n d e x   X   Y   La b e l   0   0 . 3 8 8   0 . 4 3 2   0   1   0 . 1 1 1   0 . 1 0 1   0   2   0 . 3 0 5   0 . 0 8 4   0   3   0 . 5 2 7   0 . 6 4 4   0   4   0 . 5 5 5   0 . 5 7 6   0   5   0 . 1 9 8   0 . 0 6 7   0   6   0 . 8 3 3   0 . 8 9 8   0   7   0 . 5 8 3   0 . 7 7 9   0   8   0 . 8 0 5   0 . 8 1 3   0   9   0 . 0 5 5   0 . 0 5 0   0   10   0 . 4 1 6   0 . 6 9 4   0   11   0 . 1 9 4   0 . 4 2 3   0   12   0 . 1 6 6   0 . 0 8 4   0   13   0 . 5   0 . 6 6 1   0   14   0 . 5 2 7   0 . 5 5 9   0   15   0 . 6   0 . 3   1   16   0 . 8   0 . 1   1   17   0 . 0   1 . 0   1   18   1 . 0   0 . 4   1   19   0 . 0   0 . 4   1               Fig u r 1 .   Sy n th etic  d ataset  o f   1 5   d ata  p o in ts     Fig u r 2 .   Data s et  af ter   ad d in g   o u tlier s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   2 No v em b er   2 0 2 1 1 1 4 1   -   1 1 4 8   1146       Fig u r 3 .   Sy n th etic  d ataset  with   id en tifie d   o u tlier s   [ ( 0 ( b lu e)   non - o u tlier s ,   1 ( o r an g e ) - o u tlier s ]       3.   RE SU L T A ND  D IS CU SS I O   Fo u r   d atasets   wer u s ed   f r o m   th UC I   r ep o s ito r y   [ 2 4 ]   an d   E L KI   lib r ar y   [ 2 5 ]   f o r   th e   ev a lu atio n   o f   th p r o p o s ed   m eth o d o lo g y .   T ab le  7   p r o v id es  t h d etails  o f   th d atasets ,   wh er   an d     r e f er   to   th e   to tal  n u m b er   o f   d ata  p o i n ts   an d   o u tlier s ,   r esp ec tiv ely .   AUC  is   a n   o u tp u m etr ic  f o r   class if icatio n   p r o b lem s   u s in g   d if f er en th r esh o ld   s ettin g s .   Fo r   d ataset,   th tr u p o s itiv r ate  an d   th f alse  p o s itiv r ate  v alu es  o f   th e   r esp ec tiv o u t p u ts   ar c alcu lated   ( i.e .   u s in g   ( 1 3 )   a n d   ( 1 4 ) ) .   F u r t h er ,   th ey   ar p lo tted   as  a n   R OC   cu r v e.   Hig h e r   th AUC v alu es,  b etter   th m e th o d o lo g y .              =         +        ( 1 3 )             =          +       ( 1 4 )       T ab le  7 .   R ea l tim d atasets   u s ed   in   th e x p er im en t   D a t a s e t   N o .   o f   d a t a   p o i n t s   N   ( A c t u a l   O u t l i e r s - O)   N o .   o f   A t t r i b u t e s   A r r h y t h m i a   4 5 0   ( 2 0 6 )   2 5 9   S p a m b a s e   4 6 0 1   ( 1 8 1 3 )   51   C a r d i o t o   2 1 2 6   ( 4 7 1 )   21   S t a m p s   3 4 0   ( 3 1 )   9       W h av c o m p ar e d   o u r   p r o p o s ed   al g o r ith m   with   o th e r   o u tlier   d etec tio n   alg o r ith m s ,   n am ely   Fas tA B OD  [ 1 0 ] ,   NN  [ 1 1 ] ,   k N NW   [ 1 1 ] ,   ODI [ 6 ] ,   L OF  [ 5 ] ,   L o OP  [ 1 2 ] ,   C OP  [ 1 5 ] ,   SOD  [ 1 3 ] ,   Gu MM   [ 9 ]   an d   HiC [ 1 4 ] .   Fro m   t h AU C   r esu lts   o f   C ar d io to   d ataset  s h o wn   in   T ab le  8   an d   Fig u r e   4   it  ca n   b e   o b s er v ed   th at  th p r o p o s ed   o u tlier   d etec tio n   alg o r ith m   o u tp er f o r m s   Fas tA B OD  [ 1 0 ] ,   k NN  [ 1 1 ] ,   k NNW  [ 1 1 ] ,   ODI N   [ 6 ] ,   L OF  [ 5 ] ,   L o OP  [ 1 2 ] ,   C O [ 1 5 ] ,   SOD  [ 1 3 ] ,   Gu MM   [ 9 ]   an d   HiC [ 1 4 ]   alg o r ith m s .   T h p r o p o s ed   o u tlier   d etec tio n   alg o r ith m   b ased   o n   th e   AUC  v alu e   f o r   Sp am b ase  d ataset  o u t p er f o r m s   O DI [ 6 ] ,   C OP  [ 1 5 ] ,   GUM [ 9 ] ,   p er f o r m s   s am a s   L OF  [ 5 ]   a n d   s lig h tly   less   co m p ar ed   to   t h r est   o f   th e   alg o r ith m s .   T h e   AUC  Valu es  as  s h o wn   in   T ab le  8 ,   also   s h o th at  o u r   p r o p o s ed   o u tlier   d etec tio n   alg o r ith m   p e r f o r m e d   b etter   th an   GUM [ 9 ]   an d   s lig h tly   less er   th an   o th e r   m eth o d s   f o r   Ar r h y t h m ia  d ataset.       T ab le  8 .   C o m p a r is o n   o f   AUC f o r   4   r ea l - tim d atasets   ( p r o p o s ed   alg o r ith m   r esu lts   ar h ig h e r   th an   th   b o ld ed   v alu es)   A l g o r i t h ms   A r r h y t h m i a   S p a m b a s e   C a r d i o t o   S t a m p s   F a st A B O D   0 . 7 4   0 . 0 1   0 . 5 5   0 . 0 1   K N N   [ 1 1 ]   0 . 7 5   0 . 6 4   0 . 6 2   0 . 9 3   K N N W   [ 1 1 ]   0 . 7 5   0 . 6 3   0 . 5 9   0 . 9 0   ODIN  [ 6 ]   0 . 7 1   0 . 5 1   0 . 5 8   0 . 8 1   LO F   [ 5 ]   0 . 7 4   0 . 5 2   0 . 5 9   0 . 9 5   Lo O P   [ 1 2 ]   0 . 7 3   0 . 5 4   0 . 5 7   0 . 6 7   C O P   [ 1 5 ]   0 . 7 0   0 . 5 0   0 . 5 7   0 . 6 9   S O D   [ 1 3 ]   0 . 7 3   0 . 5 5   0 . 5 2   0 . 6 2   G U M M   [ 9 ]   0 . 4 7   0 . 5 0   0 . 5 1   0 . 8 7   H i C S   [ 1 4 ]   0 . 7 0   0 . 5 5   0 . 6 0   0 . 9 5   P r o p o se d   0 . 6 7   0 . 5 2   0 . 9 0   0 . 0 4   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4 7 5 2       A   s imp le,   effec tive  d is ta n ce   a n d   d en s ity  b a s ed   o u tlier   d etec tio n   a lg o r ith m   ( S a jid h a   S .   A . )   1147       Fig u r 4 .   AUC  co m p a r is o n   f o r   ca r d io to   an d   Sp a m b ase  d ata  s et       T ab le  9   s h o ws  th ac t u al  o u tl ier   to   n o r m al  d ata  p o in r ati o s   with   th tim tak en   f o r   e x e cu tin g   th alg o r ith m   f o r   th e   ab o v e - m e n tio n ed   d atasets .   Fro m   th is   we  o b s er v th at   th e   r atio   f o r   C ar d i o to ,   Sp am b ase,   a n d   Ar r h y th m ia  is   s ig n if ican tly   h ig h er   as  co m p a r ed   to   th Stam p s   d ataset.   Als o ,   C ar d io to ,   Ar r h y th m ia,   an d   Sp am b ase  d ataset  attr ib u tes  co n tain   n u m er ical  d ata.   T h is   c an   b co n t r ib u tin g   f ac to r   f o r   d eter m in i n g   th e   p er f o r m an ce   o f   an   alg o r ith m .   T h Sp am b ase  d a taset  d escr ib es  th wo r d   an d   ch a r   f r e q u en c y   in   an   em ail;  s u ch   d ig ital  f r eq u en cies  g iv v e r y   f ew  g r o u p   c h ar ac ter is tics   [ 1 8 ]   wh ich   ca n   also   co n tr ib u te  t o   th r esu lts   o f   o u r   p r o p o s ed   o u tlier   d etec tio n   alg o r ith m .     Fro m   T ab le  8   th e   AUC  v alu es  f o r   th Stam p s   d ataset  is   less er   co m p a r ed   t o   th e   o th er   alg o r ith m s .   As  th is   d ataset  al s o   h av v er y   f e g r o u p in g   ch ar ac ter is tics   [ 1 8 ]   th is   also   co n tr ib u tes  to   th co n s id er ab ly   lo we r   r esu lts   f r o m   o u r   p r o p o s ed   alg o r ith m .   Fro m   T ab le  9 ,   we  o b s er v th at  th o u tlier   to   n o r m al  d ata  p o in ts   r atio   is   0 . 1   in   ca s o f   th Stam p s   d atase t.  T h co m p ar ativ ely   l o wer   AUC  s co r es  o f   th p r o p o s ed   alg o r ith m   f o r   th e   Stam p s   d ataset  ca n   also   b at tr ib u ted   to   th e   lo r atio   o f   o u tlier s   to   n o r m al  d ata  p o in ts .   Sin ce   th p r o p o s ed   alg o r ith m   u s es  d is tan ce   an d   d en s ity   f o r   id en ti f y in g   o u tlier s   f r o m   n o r m al  d ata  p o in ts ,   b etter   r esu lts   ca n   b e   ac h iev ed   with   d atasets   h av in g   g r o u p   ch ar ac ter is tics .   O n e   o f   t h e   b e n e f i t s   o f   u s i n g   t h e   p r o p o s e d   a l g o r i t h m   i s   t h c o n s i s t e n c y   o f   t h e   r e s u l ts .   Mo s t   o f   t h m e t h o d o l o g i e s   u s e d   f o r   c o m p a r i s o n ,   i n   T a b l 8   u t il i z u s er - d e f i n e d   v a r i a b l es   d u r i n g   t h p r o c e s s   o f   o u tl i er   d e t e c t i o n .   T h u s ,   it   c a n   b e   u n e q u i v o c a l l y   p r o v e d   t h a t   e v e n   t h o u g h   i n   s o m e   c a s es   t h e   p r o p o s ed   m e t h o d o l o g y   d o e s   n o t   g i v e   g o o d   A UC   v al u e s ,   i o n l y   t a k e s   a   d e f i n i t e   n u m b e r   o f   r u n s   w it h o u t   a n y   d e p e n d e n cy   o n   a   u s e r - d e f i n e d   p a r a m e t e r .   T h e r e   is   a n   u n c h a n g e d   10 - e p o c h   p r o c e s s   t h a t   i s   e x e c u t e d   o n c e   f o r   e a c h   d a t as et .   H e n c e ,   a   r e as o n a b l t i m e   is   t a k e n   b y   t h e   p r o p o s e d   m o d e l   t o   p a r s e   o v e r   t h e   d at a s et s   as   s h o w n   i n   T a b l e   9 .   I t   i s   s et   s o   t o   g i v e   t h e   b e s d i f f e r e n t i a t i o n   b et w e e n   o u t li e r s   a n d   n o r m a l   d a t a   p o i n t s   a n d   a v o i d i n g   f a l s e - p o s i t i v e   o u tl i e r s .   A l s o ,   t h e   f i n a l   s e t   o f   o u t l i e r s   i s   c o n s is t e n t   i n   n a t u r e   a s   o u r   p r o p o s e d   a l g o r i t h m   d o e s   n o t   u s e   a n y   u s e r   d e f i n e d   p a r am e t e r s .         T ab le  9 .   R ea l - tim d atasets   an d   r esu lts   wi th   tim o f   ex ec u tio n   in   m illi s ec o n d s   D a t a s e t   N o .   o f   D a t a   p o i n t s   ( T o t a l )   A c t u a l   O u t l i e r s   ( A c t u a l   O u t l i e r s) / ( T o t a l   -   A c t u a l   O u t l i e r s)   Ti me   ( ms)   A r r h y t h m i a   4 5 0   2 0 6   0 . 8 4 4   0 . 1   S p a m b a s e   4 6 0 1   1 8 1 3   0 . 6 5   4 . 4 2   C a r d i o t o   2 1 2 6   4 7 1   0 . 2 8 4   0 . 9 2   S t a m p s   3 4 0   31   0 . 1   0 . 0 2       4.   CO NCLU SI O N   T h wo r k   we  h av p r o p o s ed   i s   to   d etec o u tlier s   in   clu s ter i n g   alg o r ith m s   wh ich   is   f ea s ib le  n o v el   s im p le  o u tlier   d etec tio n   alg o r i th m   th at  u s es  b o th   d is tan ce   an d   d en s ity   to   id en tify   th o u tlie r s   an d   d o es  n o u s an y   u s er   d ef in ed   p ar a m eter s .   T h d en s ity   o f   ea ch   p o i n is   esti m ated   o n ly   o n ce   an d   is   u s e d   in   th e   p r o ce s s   o f   d etec tin g   th e   o u tlier s .   Als o ,   th p r o p o s ed   alg o r ith m   en s u r es  in   id en tify i n g   th s am e   s et  o f   o u tlier s   ev er y   tim th alg o r ith m   is   ex ec u ted ,   wh ich   is   ess en tial  in   th r ea life   p r o b lem s .   I n   o u r   p r o p o s ed   n o v el  s im p le  o u tlie r   d etec tio n   alg o r ith m ,   th er is   a n   u n ch a n g ed   1 0 - e p o ch   p r o ce s s   th at  is   ex ec u ted   o n ce   f o r   ea c h   d ataset.   Hen ce ,   r ea s o n ab le  tim e   is   tak en   b y   th p r o p o s ed   m o d el  to   p ar s e   o v er   th e   d atasets .   I is   s et  s o   to   g iv e   th b est   d if f er en tiatio n   b etwe en   o u tlier s   an d   n o r m al  d ata  p o in ts   an d   av o id in g   f alse - p o s itiv o u tlier s .   I also   lim its   th e   n u m b er   o f   iter atio n s   th r o u g h   wh ich   th alg o r ith m   ex ec u tes.       RE F E R E NC E S   [1 ]   D.  R.   Bril li n g e r . ,   Da ta  An a ly sis - Ex p l o ra to r y , ”  Ame ric a n   J o u rn a o Po l it ica S c ien c e ,   v o l.   5 2 ,   n o .   3 ,   p p .   7 0 5 - 7 2 2 ,   2 0 1 1 .     [ 2 ]   S .   S .   A z i m u d d i n   a n d   K .   D e s i k a n ,   A   s i m p l e   d e n s i t y   w i t h   d i s t a n c e   b a s e d   i n i t i a l   s e e d   s e l e c t i o n   t e c h n i q u e   f o r   K - m e a n s   a l g o r i t h m , ”  C I T .   J.   C o m p u t .   i n f o r m a t i o n .   T e c h n o l o g y , v o l .   2 5 ,   n o.   4 ,   p p .   291 - 3 0 0 ,   2 0 1 7 ,   doi 1 0 . 2 0 5 3 2 / c i t . 2 0 1 7 . 1 0 0 3 6 0 5   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci,   Vo l.  24 ,   No .   2 No v em b er   2 0 2 1 1 1 4 1   -   1 1 4 8   1148   [3 ]   S .   A.   S a ji d h a ,   S .   P .   C h o d n e k a r ,   a n d   K.  De sik a n ,   In it ial   se e d   se lec ti o n   fo c l u ste rin g a   d istan c e   a n d   d e n sit y   b a se d   a p p ro a c h , ”  J o u rn a o K in g   S a u d   U n ive rs it y - Co mp u ter   a n d   In f o rm a ti o n   S c i e n c e s 2 0 1 8 ,     doi 1 0 . 1 0 1 6 /j . jk su c i. 2 0 1 8 . 0 4 . 0 1 3   [4 ]   S .   A.  S a ji d h a ,   K.   De sik a n ,   a n d   S .   P .   Ch o d n e k a r,   I n it ial  se e d   a lg o rit h m   fo r   m ix e d   d a ta  u sin g   m o d ifi e d   K - m e a n c lu ste rin g   a lg o rit h m , ”  Ara b ia n   J o u rn a l   o f   S c ien c e   a n d   E n g i n e e rin g v o l .   4 5 ,   p p .   2 6 8 5 - 2 7 0 3 ,   2 0 2 0 ,     doi 1 0 . 1 0 0 7 /s1 3 3 6 9 - 0 1 9 - 0 4 1 2 1 - 0   [5 ]   M .   M .   B re u n i g ,   H.   P .   Krie g e l,   R.   T.   Ng ,   a n d   J.   S a n d e r,   LOF :   Id e n ti fy i n g   d e n sit y   b a se d   l o c a o u tl iers , ”  In   t h e   Pro c e e d in g s   o f   t h e   2 0 0 0   AC M   S IGM OID   In ter n a ti o n a l   Co n fer e n c e   o n   M a n a g e me n t   o D a ta ,   2 0 0 0 ,   p p .   93 - 1 0 3 ,     doi 1 0 . 1 1 4 5 /3 3 5 1 9 1 . 3 3 5 3 8 8   [6 ]   V.  Ha u tam ä k i,   S .   C h e re d n ich e n k o ,   I .   rk k ä i n e n ,   T .   Kin n u n e n ,   a n d   P .   F n ti ,   Im p ro v in g   k - m e a n b y   o u tl ier   re m o v a l , ”  S c a n d i n a v i a n   C o n fer e n c e   o n   Ima g e   An a lys is ,   S p ri n g e r,   B e rli n ,   He id e l b e rg ,   2 0 0 5 ,   p p .   9 7 8 - 9 8 7 .     [7 ]   Y.  Zh o u ,   H.   Y u   a n d   X.  Ca i,   n o v e k - m e a n a lg o rit h m   f o c l u ste rin g   a n d   o u tl ier  d e tec ti o n , ”  2 nd   IEE E   in ter n a t io n a l   C o n fer e n c e   o n   F u t u re   In f o rm a ti o n   T e c h n o l o g y   a n d   M a n a g e me n En g in e e rin g ,   2 0 0 9 ,   p p .   4 7 6 - 4 8 0 ,   doi 1 0 . 1 1 0 9 /F IT M E. 2 0 0 9 . 1 2 5   [8 ]   B.   Tan g   a n d   H.   He ,   lo c a d e n sity - b a se d   a p p ro a c h   f o o u tl ier  d e tec ti o n , ”  Ne u r o c o mp u ti n g ,   v o l .   2 4 1 . pp.   1 7 1 - 1 8 0 ,   2 0 1 7 ,   d o i 1 0 . 1 0 1 6 / j. n e u c o m . 2 0 1 7 . 0 2 . 0 3 9   [9 ]   E.   S c h u b e rt   Zi m e k   a n d   H.  P .   Kri e g e l,   su rv e y   o n   u n su p e r v ise d   o u tl ier  d e tec ti o n   i n   h i g h   d ime n si o n a n u m e rica l   d a ta , ”  S ta t isti c a A n a lys is  a n d   D a ta   M in in g T h e   AS D a ta   S c ie n c e   J o u rn a l v o l .   5 ,   n o.   5 .   p p .   363 - 3 8 7 ,   2 0 1 2 ,     doi 1 0 . 1 0 0 2 /sa m . 1 1 1 6 1   [1 0 ]   H.  P .   Krie g e l,   M .   S c h u b e rt ,   a n d   A.  Zi m e k An g le - b a se d   o u tl ier  d e te c ti o n   i n   h i g h   d ime n si o n a d a t a ,   Pro c e e d in g o t h e   1 4 th   AC M   S IGKD In te rn a ti o n a C o n fer e n c e   o n   K n o wl e d g e   Disc o v e ry   a n d   Da t a   M in i n g   2 0 0 8 ,   2 0 0 8 ,     p p .   4 4 4 - 4 5 2 ,   d o i 1 0 . 1 1 4 5 /1 4 0 1 8 9 0 . 1 4 0 1 9 4 6   [1 1 ]   T.   T .   Da n g ,   H.   W.   Ng a n ,   a n d   W.   Li u ,   Dista n c e   b a se d   k - n e a re st  n e ig h b o rs  o u tl ier  d e tec ti o n   m e th o d   i n   larg e   sc a le  traff ic  d a ta , ”  IEE In ter n a ti o n a Co n fer e n c e   o n   Dig it a l   S ig n a Pr o c e ss in g ,   2 0 1 5 ,   p p .   5 0 7 - 5 1 0 ,     doi 1 0 . 1 1 0 9 /ICDS P . 2 0 1 5 . 7 2 5 1 9 2 4   [1 2 ]   H.  P .   Krie g e l,   P .   Krö g e r,   E .   S c h u b e rt ,   a n d   A.  Zi m e k ,   Lo OP L o c a o u tl ier   p r o b a b i li ti e s , ”  In   Pro c e e d in g Of   T h e   18 th   AC M   Co n fer e n c e   o n   In fo rm a ti o n   a n d   Kn o wled g e   M a n a g e me n t ,   p p .   5 0 7 - 5 1 0 ,   2 0 0 9 ,     doi 1 0 . 1 1 4 5 /1 6 4 5 9 5 3 . 1 6 4 6 1 9 5   [1 3 ]   H.  P .   Krie g e l,   E.   S c h u b e rt ,   a n d   A.  Zi m e k ,   Ou tl ier   d e tec ti o n   i n   a x is  p a ra ll e su b sp a c e o f   h i g h   d i m e n sio n a d a ta , ”  In   P a c if ic - Asia   Co n fer e n c e   o n   Kn o wled g e   Disc o v e ry   a n d   Da t a   M in i n g ,   S p r in g e r,   Be rli n ,   He id e lb e rg ,   2 0 0 9 ,     pp.   8 3 1 - 838 ,   d o i 1 0 . 1 0 0 7 /9 7 8 - 3 - 642 - 0 1 3 0 7 - 2 _ 8 6   [1 4 ]   F .   Ke ll e r,   E.   M u ll e r ,   a n d   K.  Bo h m ,   Hig h   c o n tras su b s p a c e   fo d e n sit y   b a se d   o u tl ier  ra n k i n g ,   28 th   IEE E   Nter n a ti o n a Co n fer e n c e   o n   Da t a   En g in e e rin g ,   p p .   1 0 3 7 - 1 0 4 8 ,   2 0 1 2 ,   d o i 1 0 . 1 1 0 9 /ICDE. 2 0 1 2 . 8 8   [1 5 ]   H.  P .   Krie g e l,   P .   Kr ö g e r,   E .   S c h u b e rt ,   a n d   A.  Zi m e k ,   Ou tl ier  d e tec ti o n   i n   th e   a x is  p a ra ll e su b sp a c e o h ig h   d ime n sio n a l   d a ta ,   In   P ro c e e d in g s o PA KDD ,   p p .   8 3 1 - 8 3 8 ,   2 0 0 9 ,   doi :   1 0 . 1 0 0 7 /9 7 8 - 3 - 6 4 2 - 0 1 3 0 7 - 2 _ 8 6   [1 6 ]   G .   Re k h a ,   V.  K.   Re d d y ,   a n d   A.  K.  Ty a g i,   Cir u s - c rit ica in sta n c e s ,   re m o v a b a se d   u n d e r   sa m p li n g   - so l u ti o n   fo r   c las s imb a lan c e ,   IJ HIS , v o l.   1 6 ,   n o.   2 ,   p p .   55 - 6 6 ,   2 0 2 0 ,   d o i 1 0 . 3 2 3 3 /HIS - 2 0 0 2 7 9   [1 7 ]   G .   Re k h a ,   V.   K.   Re d d y ,   a n d   A .   K.  Ty a g i,   An   e a rth   m o v e r’s   d ist a n c e   b a se d   u n d e r   sa m p li n g   a p p r o a c h   fo r   h a n d li n g   c las s -   imb a lan c e d   d a ta , ”  In ter n a t i o n a J o u r n a l   o I n telli g e n I n fo r ma ti o n   a nd  D a ta b a se   S y ste ms ,   v o l.   1 3 ,   n o.   2 / 3 / 4 ,   2 0 2 0 ,   d o i 1 0 . 1 5 0 4 /IJIIDS . 2 0 2 0 . 1 0 9 4 6 3   [1 8 ]   X.  Xu ,   H.   Li u ,   L.   Li ,   a n d   M .   Ya o ,   c o m p a riso n   o o u tl ier  d e tec ti o n   tec h n iq u e fo h ig h   d i m e n sio n a d a ta , ”  In ter n a t io n a l   J o u r n a l   o f   Co mp u ta ti o n a l   In telli g e n c e   S y ste ms v o l .   1 1 ,   n o.   1 ,   p p .   6 5 2 - 6 6 2 ,   2 0 1 8 ,     doi 1 0 . 2 9 9 1 /i jcis. 1 1 . 1 . 5 0   [1 9 ]   Y.  Wei,   J.  Ja n g - Ja c c a rd ,   F .   S a b ri n a ,   a n d   T.   M c In to sh ,   " M S D - k m e a n s:  n o v e a lg o rit h m   fo e ffici e n d e tec ti o n   o g lo b a a n d   lo c a o u t li e rs, "   M a c h i n e   L e a rn i n g ,   a rX iv p re p rin a rX iv: 1 9 1 0 . 0 6 5 8 8 ,   2 0 1 9 .     [2 0 ]   S .   Ka n jan a wa tt a n a ,   " n o v e o u t li e d e tec ti o n   a p p li e d   t o   a n   a d a p t iv e   k - m e a n s, In ter n a ti o n a l   J o u r n a l   o f   M a c h i n e   L e a rn in g   a n d   Co m p u t in g ,   v ol .   9,   n o.   5 ,   p p .   5 6 9 - 5 7 4 ,   2 0 1 9 ,   d o i 1 0 . 1 8 1 7 8 /i jmlc . 2 0 1 9 . 9 . 5 . 8 4 1   [2 1 ]   A.  Ch a tt e rjee   S a h a ,   S .   G h o sh ,   N .   Ku m a r ,   a n d   R.   S a r k a r ,   " An   e n s e m b le  a p p ro a c h   to   o u tl ier  d e tec ti o n   u si n g   s o m e   c o n v e n ti o n a c lu ste rin g   a lg o rit h m s , M u lt ime d i a   T o o ls   a n d   Ap p li c a t io n s ,   p p .   1 - 2 5 ,   2 0 2 0   d o i:   1 0 . 1 0 0 7 /s1 1 0 4 2 - 0 2 0 - 0 9 6 2 8 - 5 .     [2 2 ]   P .   Ya n g ,   D.  Wan g ,   Z.   Wei,   X.  Du   a n d   T.   Li ,   " A n   o u tl ier  d e tec t io n   a p p ro a c h   b a se d   o n   imp ro v e d   se lf - o rg a n izin g   f e a tu re   m a p   c lu ste rin g   a lg o rit h m , IE EE   Acc e ss ,   v o l .   7 ,   p p .   1 1 5 9 1 4 - 1 1 5 9 2 5 ,   2 0 1 9 ,     doi 1 0 . 1 1 0 9 /ACCES S . 2 0 1 9 . 2 9 2 2 0 0 4   [2 3 ]   J.  Ya n g ,   S .   Ra h a r d ja  a n d   P .   F n ti ,   " Ou tl ier  d e tec ti o n h o w   to   t h re sh o l d   o u t li e sc o re s? , "   In   Pro c e e d in g o f   th e   In ter n a t io n a l   Co n fer e n c e   o n   Arti fi c ia l   In te ll i g e n c e ,   I n f o rm a ti o n   P ro c e ss in g   a n d   C lo u d   Co mp u ti n g ,   2 0 1 9 ,   p p .   1 - 6,   doi 1 0 . 1 1 4 5 /3 3 7 1 4 2 5 . 3 3 7 1 4 2 7   [2 4 ]   EL KI.   [On li n e ] .   Av a il a b le:   h tt p s:/ /elk i - p r o jec t. g i th u b . i o / d a tas e ts/o u tl ier   [2 5 ]   UCI rep o sito r y .   [O n li n e ] .   Av a il a b le:   h tt p s:// a rc h iv e . ics . u c i. e d u /ml/i n d e x . p h p   Evaluation Warning : The document was created with Spire.PDF for Python.