I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng i n ee ring   ( I J E CE )   Vo l.   11 ,   No .   3 J u n e   2021 ,   p p .   2 1 0 9 ~ 2 1 1 9   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 1 1 i 3 . p p 2 1 0 9 - 2 1 1 9          2109       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   Clustering   using   k e rnel e ntropy  pr incipa l co m po nen a na ly sis   a nd va ria ble kern el esti m a tor       L o ub na   E l F a t t a hi 1 ,   E l H a s s a n Sba i 2   1 De p a rt m e n o f   P h y sic s,  M o u lay   I s m a il   Un iv e rsit y   o f   M e k n e s M o ro c c o   2 Hig h   S c h o o o f   T e c h n o l o g y ,   M o u lay   Is m a il   Un iv e rsit y   o f   M e k n e s ,   M o r o c c o       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   9 ,   2 0 1 9   R ev i s ed   Sep   2 6 ,   2 0 2 0   A cc ep ted   Oct  6 ,   2 0 2 0       Clu ste rin g   a u n s u p e rv ise d   lea rn in g   m e th o d   is  th e   m issio n   o f   d iv id in g   d a ta  o b jec ts  in t o   c lu ste rs  w it h   c o m m o n   c h a ra c teristics .     In   th e   p re se n p a p e r,   w e   in tro d u c e   a n   e n h a n c e d   tec h n i q u e   o f   th e   e x isti n g   EP CA   d a ta  tran s f o r m a ti o n   m e th o d .   In c o r p o ra ti n g   t h e   k e rn e f u n c ti o n   in t o   t h e   E P CA ,   th e   in p u t   sp a c e   c a n   b e   m a p p e d   im p l icitl y   in to   a   h ig h - d im e n sio n a o f   f e a tu re   sp a c e .   T h e n ,   th e   S h a n n o n ’s  e n tro p y   e sti m a ted   v ia   th e   in e rti a   p ro v i d e d   b y   th e   c o n t rib u ti o n   o e v e r y   m a p p e d   o b jec i n   d a ta  is  th e   k e y   m e a su re   to   d e term in e   th e   o p t im a l   e x trac ted   fe a tu re sp a c e .   Ou p ro p o se d   m e th o d   p e r f o rm v e r y   we ll   th e   c lu ste rin g   a lg o rit h m   o f   th e   fa st  s e a rc h   o f   c lu ste rs’  c e n ters   b a se d   o n   th e   lo c a l   d e n siti e s’  c o m p u ti n g .   Ex p e rim e n tal  re su lt d isc lo se   th a th e   a p p r o a c h   is  f e a sib le an d   e f f ici e n o n   th e   p e rf o rm a n c e   q u e ry .   K ey w o r d s :   C lu s ter i n g     Ker n el  en tr o p y   p r in cip al  co m p o n e n t a n al y s i s     Ma x i m u m   e n tr o p y   p r in cip le  d en s it y   p ea k   Var iab le  k er n el  est i m ato r     T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   L o u b n E l Fatta h i   Dep ar t m en t o f   P h y s ics   Mo u la y   I s m ail  U n i v er s it y   o f   Me k n e s   K m   5 ,   R u d 'Ag o u r a y  ، N6 ,   Me k n e s   5 0 0 4 0 ,   M o r o cc o   E m ail: e s t m @ e s t - u m i.a c. m a       1.   I NT RO D UCT I O N   C lu s ter i n g   th e   d ata  is   t h tas k   o f   d is co v er in g   n at u r al  g r o u p i n g s   i n   d ata,   n a m ed   clu s ter s   ac co r d in g   to   th eir   s i m ilar it y .   Ob j ec ts   ar e   s i m ilar   in s id t h s a m e   cl u s ter   w h er ea s   d is s i m ilar   co m p ar ed   to   o b j ec ts   d escen d in g   f r o m   o th er   cl u s ter s .   C l u s ter in g ,   as   cla s s   o f   u n s u p er v is ed   c lass if ica tio n   m et h o d ,   h as  b ee n   w id el y   ap p lied   in   d if f er en d o m ai n s ,   m ac h i n lear n i n g ,   i m a g s e g m e n tat io n ,   p atter n   r ec o g n it i o n ,   tex m i n i n g   an d   m an y   o th er   d o m ai n s   [ 1 - 3 ] .   Gr ea n u m b er   o f   clu s ter in g   alg o r ith m s   l ie  in   liter at u r e,   th f a m o u s   K - m ea n   clu s ter i n g   [ 4 ] ,   h ier ar ch ical  clu s ter in g   [ 5 ] ,   k - m ed o id s   [ 6 ] ,   an d   m ea n   s h i f [ 7 ]   h av b ee n   co n s id er ed   in   v ar io u s   p r o b lem s .     Desp ite  o f   th e x te n s i v s t u d i es  in   t h p ast  o n   clu s ter i n g ,   a   cr itical  is s u r e m ai n s   lar g el y   u n s o lv ed :   h o w   to   au to m atica ll y   d eter m i n t h n u m b er   o f   cl u s ter s .   M o s o f   t h e m   as s u m ed   t h at  t h n u m b er   o f   cl u s ter s   eith er   h a s   b ee n   m a n u al l y   s et  o r   is   k n o w n   i n   ad v a n ce   [ 4 ,   8 ] .   R ec en tl y ,   g r ea atten tio n   h as   b ee n   ac co r d ed   to   tack le  w it h   t h i s   is s u e.   C l u s ter i n g   b y   d en s it y   p ea k s   s elec tio n   cr iter io n   [9 - 11]   is   tech n iq u th at  te n d s   to   f in d   in t u iti v el y   th n u m b er   o f   cl u s ter s   in d ep en d e n tl y   o f   t h eir   s h ap an d   th d i m en s io n   o f   t h s p ac co n tain i n g   th e m ,   s o   th at  to   av o id   th i n h er en s h o r tco m in g s   o f   p r o v id i n g   t h n u m b er   o f   cl u s ter s   as  an   in p u p ar a m eter   lik i n   th K - m ea n s .   T h ap p r o ac h   p r o p o s ed   b y   R o d r ig u ez   an d   L aio   [ 1 0 ]   r elies  as  f ir s s tep   o n   t h f a s t   s ea r ch   o f   t h d en s it y   p ea k s   r ef er r in g   t h cl u s ter   ce n ter s   ch ar ac ter ized   b y   h av i n g   h i g h er   lo ca d en s it y   co m p ar ed   to   th eir   n ei g h b o r h o o d   an d   r elativ el y   lar g d is ta n ce   r eg ar d   to   p o in ts   h av in g   h i g h er   d en s ities .   As  a   r esu lt,  th e   cl u s ter   ce n ter s   ar lo ca ted   in   g e n er al  at   t h u p p er   r ig h co r n er   o f   t h e   d ec is io n   g r ap h   w h ic h   is   th e   p lo o f   th d en s it y   a s   f u n ct io n   o f   t h d is ta n ce   o f   ea c h   p o in t.  T h er ef o r e,   o n ce   ce n ter s   ar d eter m i n ed   all   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   3 J u n 2 0 2 1   :   2 1 0 9   -   2119   2110   r e m ain in g   d ata   p o in ts   ar as s i g n ed   to   t h s a m e   clu s ter   a s   it s   n ea r est   n eig h b o r s   o f   h ig h er   d en s it y   s o   as   to   f o r m   f i n al  clu s ter s .   As  f u r th er   w o r k ,   t h R o d r ig u ez   an d   L aio s   m et h o d   w a s   i m p r o v ed   b y   W a n g   a n d   Xu   [ 1 1 ]   th r o u g h   s u b s t itu t in g   t h s tep   f u n ctio n   b y   t h P ar ze n   es ti m a to r   s o   t h at  th e   tr u n ca ted   d en s it y   b ec o m es   s m o o th er .   Her e,   w e   d ev elo p   m et h o d   f o r   d a ta  tr an s f o r m atio n   an d   r ed u c ti o n   b ased   o n   th e   v ar iab le  k er n el  e s ti m ato r   [ 1 2 ] .   A i m ed   at  th p r o b lem s   o f   clu s ter in g ,   m a n y   r esear c h er s   ar co n v i n ce d   th at  th d i m en s io n alit y   r ed u ctio n   i s   an   i m p o r ta n s ta g t h at  m u s b ad o p ted   in   d ata  an aly s is   b ef o r co n s id er in g   an y   clas s i f icatio n   s tep .   I n   f ac t,  m a n y   alg o r ith m s   o f   cl u s ter in g   o f te n   d o   n o w o r k   w ell  i n   h i g h   d i m en s io n ,   s o ,   to   i m p r o v th ef f icie n c y ,   a   d ata  r ed u ctio n   i s   n ee d ed   [ 1 ] .   I n   th is   s e n s e,   w p r o p o s a   h y b r i d   m et h o d ,   w h ic h   co m b i n es   th en tr o p y   p r in c ip al   co m p o n e n a n al y s is   ( E P C A )   [ 1 3 1 4 ]   an d   th d ata  m ap p in g .   T h co r elem e n is   to   p er f o r m   d ata  m ap p in g   u s i n g   th k er n el  f u n ctio n   b ef o r im p le m en t in g   th E P C A .   Data   m ap p i n g   co n s is t s   o f   tr an s f o r m i n g   th d ata   in to   a   h i g h - d i m e n s io n al  f ea t u r s p ac e,   w h er e   p atter n s   b ec o m e   li n ea r   a n d   t h n o n l in ea r i t y   d i s ap p ea r s   [ 1 5 ] .   T h en ,   u s i n g   E P C A ,   w r estrict   th h i g h - d i m e n s io n al  s p ac to   s u b s p ac o f   th e x tr ac ted   f e atu r es.     I n   m a n y   ca s e s ,   t h q u ali t y   o f   clu s ter in g   i s   ap p r o v ed   b y   l o w   s i m ilar it y   o f   th in ter - cl u s ter   an d   a   h ig h   s i m ilar it y   o f   th e   i n tr a - c lu s ter .   T o   th is   e n d ,   w e   i n te g r ate  a n   a u to m a tic  m et h o d   f o r   clu s ter   ce n tr o id   s elec tio n   b ased   o n   th v alid it y   i n d ex   al g o r ith m   u s i n g   t h c o n ce p o f   en tr o p y   in tr o d u ce d   b y   J a y e n s   E d w in   i n   [ 1 6 ]   an d   co m p u ti n g   t h i n ter - c lu s ter   a n d   in tr a - clu s ter   s i m ilar ities   [ 1 7 ] .   T h p r esen p ap er   is   o r g an ized   as  f o llo w s .   Sectio n   2   p r esen ts   b r ief   r ev ie w   o f   P C A   as  lin ea r   d ata  tr an s f o r m atio n .   W m o v e   to   co n s id er   th k er n e en tr o p y   p r in cip al  co m p o n en a n al y s i s   ( KE P C A )   f o r   d i m en s io n al it y   r ed u ctio n .   I n   s ec tio n   3 ,   w e   p r esen t   t h cl u s t er in g   b y   th e   f ast   s ea r ch   o f   ce n ter s   r el y i n g   o n   t h e   esti m atio n   o f   t h p r o b ab ilit y   d en s it y   f u n ctio n   ( P DF)   as  w e ll  as  th au to m atic  cr iter io n   f o r   th s elec tio n   o f   clu s ter   ce n ter s   u s i n g   v al id it y   in d ex   al g o r ith m .   Sect io n   4 ,   is   d ed icate d   to   t h v alid ati o n   o f   th p r o p o s ed   m et h o d   o n   b o th   s y n t h etic  an d   r ea l d atasets   in cl u d i n g   co m p ar is o n   t o   o th er   clu s ter in g   al g o r ith m s .       2.   RE S E ARCH   M E T H O D   2 . 1 .     Dim e ns io na lity   re du ct io   C lu s ter i n g   al g o r it h m s   ar f a cin g   p r o b lem s   o f   d i m e n s io n alit y   e s p ec iall y   w h e n   t h d i m e n s io n   in cr ea s es  i m p o r tan tl y .   T h er ef o r e,   in   s o m ca s es,  t h e y   lo s th eir   e f f icien c y ,   li k e w i s e,   th eir   p r o d u ctiv i t y   esp ec iall y   w h e n   d ata  p r esen s p ar s en ess .   As  s o lu tio n ,   w c o n s id er   t h r ed u ctio n   o f   t h d im en s io n a lit y   a s   a n   ef f icien p r ep r o ce s s in g .   Du t o   th is   ef f ec t,  m a n y   r esear c h es   h av b ee n   d o n to   g et  r id   o f   th is   co m p licatio n   [ 1 8 - 21] T h u s ,   w estab lis h   a   n o n li n ea r   m et h o d   n a m ed   KE P C A ,   w h ic h   i m p r o v e s   th e x is ted   li n ea r   E P C m et h o d   [ 1 3 ] .   T h p u r p o s is   to   d is ca r d   th r ed u n d an an d   ir r elev an i n f o r m atio n   a n d   g e o n l y   t h v al u ab le   o n e.   Usi n g   t h m a x i m u m   e n tr o p y   p r in cip le  [ 1 6 ] ,   w ca n   ea s il y   d eter m in t h r ed u ce d   d im en s io n   o f   d ata  in   k er n el  s p ac e.     2 . 1 . 1 .   P rincipa co m po ne nt  a na ly s is   P r in cip al  co m p o n en a n al y s is   ( P C A )   i s   v er y   f a m o u s   a s   tec h n iq u o f   m u lti v ar iate  s tatis ti cs.  D u to   th f ac t   o f   an al y zi n g   d ata  i n   ter m   o f   f ea t u r e x tr ac tio n   a n d   d i m e n s io n alit y   r ed u ctio n ,   P C is   ad o p ted   b y   al m o s t   all   d is cip li n es.  T h u lt i m ate   o b j ec tiv o f   P C i s   to   s elec v ar iab les   f r o m   i n p u t   d ata  tab le  w h ic h   h a v e   h ig h er   s tati s tical  i n f o r m atio n   th en   s q u ee ze   o u t h is   i n f o r m a tio n   as  s et  o f   n e w   o r th o g o n al  v ar iab les  ca lled   p r in cip al  co m p o n e n b ased   o n   m at h e m atic  n o tio n s ei g e n v alu es,  ei g en v ec to r s ,   m ea n   an d   s ta n d ar d   d ev iatio n   [ 1 4 ,   2 0 ] .       2 . 1 . 2 .   Sh a nn o n e ntr o py     C lau d Sh an n o n   es ta b lis h ed   th e   en t r o p y   c o n ce p t   in   in f o r m atio n   th eo r y .   H in tr o d u ce d   th te r m      ( ( ) )   as  a   m ea s u r em en o f   th e   in f o r m atio n   c ar r i ed   b y   th e   r e ali za tio n     k n o w in g   th e   p r o b a b il ity   o f   d is t r i b u ti o n     o f   th d is cr ete   v ar i ab le    [ 2 2 ] .   R el atin g   t o   a   d is cr et v a r i ab le ,   th e   en t r o p y   m ea s u r es  th e   u n ce r t ain ty .   T h Sh an n o n   en t r o p y   r el ate d   t o     is   o b t ain e d   ca lc u latin g   th e   f o ll o w in g   f o r m u la   ( 1 ) :     ( ) = ( )  ( ) = 1   ( 1 )   w h er     =   { 1 , 2 ,   , }   .   T h u s ,   b y   co m b in in g   t h Sh an n o n   en t r o p y   an d   th PC A   it g iv es th E P C A ,   w h er e   th co r el em en is   m ax i m u m   en tr o p y   p r in ci p l ( M E P)  [ 1 7 ]   s o   as  t o   d et er m in th o p tim al  d im en s io n   o f   th p r in ci p a l su b s p ac k e e p in g   th e   m ax i m u m   in f o r m atio n .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       C lu s ter in g   u s in g   ke r n el  en tr o p p r in cip a l c o mp o n en a n a lysi s …  ( Lo u b n a   E l F a tta h i )   2111   2 . 1 . 3 .   K er nel  ent ro py   princip a l c o m po ne nt  a na ly s is   Ou r   p r o p o s e d   a p p r o a ch ,   K E PC A ,   is   n o n lin ea r   v e r s i o n   o f   E P C A   [ 2 3 ] .   T h b asic  as p ec o f   k er n el   E P C A   m eth o d   is   t o   m ap   in p u t   d a ta  = 1 , ,   s u ch   th at  = 1 , . . ,   in t o   k e r n el  s p a ce   th r o u g h   th k e r n e l   fu n ctio n .   T h en ,   k er n el  m atr ix   i s   g iv en   b y     Φ :   w h er = Φ ( )   ,   is   Φ = [ ( 1 ) , , ( ) ] .   A s   s o o n   as  d a ta   m ap p in g   is   d o n e ,     E PC A     is   im p lem en ted     in   .   T h e   p o s i tiv e   s em i - d ef in it k e r n el   f u n ctio n   p r o v i d es  d at m ap p in g ,   = ×    w h ich   p r o d u c e s   an   in n er   p r o d u ct   in   th Hil b e r t   s p ac e   :     ( , ) = ( ) , ( ) ,   ( 2 )     w h er ev e r y   s in g le   el em en ( , ) ,   o f     th e     (   , )   k er n el     m atr ix   ,     is   e q u iv alen t   t o     ( , ) .   T h u s ,   th e   in n er   p r o d u c is     = Φ × Φ .   T o   elu ci d ate   m o r ex p li cit ly   h o w   w p r o ce ed   in   im p lem en tin g   th e   E P C A ,   l et   1 ,   ,   b e   th m ap p e d   d a ta  co n t ain e d   in     d ef in e d   b y     f ea tu r es   1 ,   ,   an d     i s   th s u b s p a ce   w ith   = 1 ,   , .     T h av e r ag in f o r m atio n   s u p p lie d   b y   th co n tr i b u ti o n   o f   ea c h   m ap p e d   el em en to   th co n s tr u ct io n   o f   th s u b s p a ce   o f   p r o jec ti o n   is   t h ex p lain e d   in e r tia ,   w h er ea s   t h av e r ag e   in f o r m atio n   g iv en   b y   th c o n tr ib u t io n   o f   ev er y   m ap p e d   in d iv id u al  t o   th lo s s   o f   in e r ti is   th r es id u al  in e r t ia .   B o th   co n t r i b u ti o n s   to   th ex p la in ed   in er t ia   ( E I C )   an d   t o   th e   r esi d u al  in er tia   ( R I C )   o f   e ac h   s in g le   in d iv i d u al     all   o v er   th e   s u b s p a ce   o f   f e atu r es       ar s u c ce s s iv ely   g iv en   as   a   p r o b a b il ity   d is tr i b u t io n   in   ( 3 )   an d   ( 4 )   [ 2 3 ] .     1   ( ) =    ( , )   ( 3 )     2   ( ) =    ( , )     ( 4 )     w ith    ( , ) = 1 = 1 ,   an d    ( , ) = 1 = 1 .   T h u s ,   th e   Sh an n o n   en t r o p y   p r o v i d ed   b y   t h ese  d is t r i b u ti o n s   r es p ec tiv ely   is   g i v en   as in   ( 5 )   an d   ( 6 ) :     1 ( 1 ) = 1 ( )    1 ( ) = 1   (5 )     2 ( 2 ) = 2 ( )    2 ( ) = 1   (6 )     T h v a r i ati o n   o f   th e   q u an t iti es  in   ( 5 )   an d   ( 6 )   is   an t ag o n i s t.  A cc o r d in g   t o   th e   m ax i m u m   en tr o p y   p r in ci p l e,   th m ax i m ized   s u m   o f   th b o th   en tr o p ies  o f   th p r o b a b i lity   d is tr ib u t io n s   co r r es p o n d s   to   th e   m in i m u m   d im en s io n   o f   th s u b s p ac o f   f e atu r es .     ( ) =    ( 1 ( 1 ) + 2 ( 2 )   ( 7 )       is   th e   o p tim al  d im en s io n   o f   th f e atu r s u b s p ac e.     2 . 2 .     Clus t er ing   by   dens it y   pea k   s elec t io   R ec en t   r ese ar ch es  g iv e   b ig   in t er est  to   th e   clu s t er in g   b y   th e   f ast  s ea r ch   o f   clu s te r   ce n t r o i d s   b ase d   o n   th n o n p ar am etr ic  esti m atio n   o f   th PDF.  T h ex ten d e d   v e r s io n   o f   R o d r ig u ez   an d   L ai o s   m eth o d   [ 1 0 ]   g iv en   b y   W an g   an d   Xu   [ 1 1 ]   is   s u m m ar ize d   h er th r o u g h   th Par ze n   esti m ato r   r a th e r   th an   th s te p   f u n ctio n .   T h m ain   asp ec o f   th m eth o d   is   th m ea s u r em en o f   th c o u p l ( d en s ity ,   d is t an ce )   v alu es  ch a r ac t er i zin g   e ac h   d at p o in t.     2 . 2 . 1 .   Densi t y   esti m a t io n a nd   dis t a nce   R ely in g   o n   R o d r ig u ez   an d   L a io s   c lu s te r in g   m eth o d   [ 1 0 ] ,   w r esu m h er th e   c o m p u tat io n   o f   th e   d en s ity   an d   d is tan ce   v alu es .   T h m ain   r o le  is   t o   i d en tif y   th clu s te r   ce n t r o i d s   b ase d   o n   th tw o   ass u m p tio n s :   th f ir s o n est ab lis h es  th e   f a ct  th at   ea ch   clu s t er   ce n t er   is   e n clo s ed   b y   elem en ts ,   w h ich   h av l o c al  d en s it ies   lo w er   th an   th ce n te r   d en s ity .   T h S ec o n d   o n est ee m s   th at  ea ch   clu s t er   c en te r   is   f ar   en o u g h   f r o m   all  o th e r   p o in ts   w ith   h ig h er   d en s ity .   Fo r   a   g iv en   d at p o in t     ,   th e   l o c al   d en s ity   an d   th e   d is ta n ce   a r e   d ef in e d   r es p e ctiv e ly   as   ( 8 )   an d   (9 ) :   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   3 J u n 2 0 2 1   :   2 1 0 9   -   2119   2112   = ( ( , ) < ) = 1 ,   (8 )     ̂ ( ) = : ̂ ( ) < ̂ ( ) ( , ) .   (9 )     w h er ( )   is   th e   s te p   f u n cti o n   o f   th e   s et   ;   ( , )   is   th e   E u cli d i an   d is tan ce   b e tw ee n   tw o   d if f e r en t   d ata   p o in ts ;   an d     is   th cu t - o f f   d is ta n ce   d ef in e d   in   ad v an ce .   A n aly zin g   d ef in iti o n   ( 8 ) ,   w co u l d   u n d e r s tan d   th a   is   s im p ly   th c o u n o f   p o in ts   t h at  a r e   cl o s er   th an     to   th e      d a ta  p o in t,   w h er ea s   in   ( 9 ) ,   th m ea s u r em en   is   d et e r m in ed   as  th m in im u m   d is t an ce   a m o n g   d is t an ce s   c o m p u ted   b etw ee n   th    d ata   p o in an d   al o th e r   p o in ts   h av in g   h ig h er   d en s it y .   Fin ally ,   th p o in t,  w h ich   h as  th h ig h est  d en s ity ,     is   d ef in e d   t o   be      ( , ) .   No n eth eless ,   th e   ch o ic o f     is   n o a lw a y s   u s ef u b ec au s e   th r esu lt   o f   th alg o r ith m   f u n d am en tally   d e p en d s   o n   it.   T h e   ca u s e   is   t h at    d esc r i b es   th e   av e r ag e   n u m b er   o f   n eig h b o r s ,   cl o s e   to   1 an d   2 %   o f   th w h o le  n u m b er   o f   d ata   p o in ts .   C o n s eq u en tly ,   th e   ch o i ce   o f     is   u n s y s te m atic   an d   u n s ta b le   w h en   th e   s iz e   o f   th e   s am p le  is   ch an g in g .   T o   g et  r i d   o f   th b a d   ef f e ct  o f   ,   w o p u s in g   th P a r z en   esti m ato r   an d   th e   v ar ia b l e   k er n el  es tim ato r   in   lieu   o f   th s tep   f u n cti o n   th at  h as  g o o d   ef f ec t o n   th q u e r y   o f   p er f o r m an ce   [ 1 0 ] .   C o n ce r n in g   th b an d w id th   p ar am eter ,   it  is   ef f icien tly   c o m p u ted   u s in g   th e   r u l o f   S ilv e r m an   [ 2 4 ] .     2 . 2 . 2 .   Va ria ble k er nel e s t i m a t o r   T h v a r ia b l k e r n el  esti m ato r   ( VK E )   is   c o m b in ati o n   o f   P a r ze n   es tim ato r   w h er th s ca l o f   th b u m p s   p l ac ed   o n   th e   d at p o in ts   a r all o w ed   t o   v ar y   f r o m   d ata  p o in t   t o   an o th e r   [ 2 5 ,   26]   an d   th e   k NN  esti m ato r .     T h e   es tim ato r   o f   Par ze n - R o s e n b lat is   d ef in e d   as   in   ( 10 :     ̂ ( ) = 1   ( ( , ) ) = 1     ( 1 0 )     w h er   is   th e   k er n el,     is   th s m o o th in g   p a r am eter   an d   ( , )   is   th e   E u cli d e an   d is t an ce   b etw ee n     a n d   .   T h k - n ea r es t n e ig h b o r s   ( k NN )   esti m ato r   is   d ef in ed   as   i ( 11 )   [ 2 4 ] :     ̂  ( ) = ( ) ( ( ) ) = ( )   ( 1 1 )     w h er   is   a   p o s i tiv e   in teg e r ,   ( )   is   th d is t an ce   f r o m     to   th    n ea r e s t p o in t   an d   ( )   is   th v o lu m o f   a   s p h e r o f   r ad iu s   ( )   an d   is   th v o lu m o f   th u n it   s p h er in     d i m en s io n s .   T h e   s m o o th n ess   d e g r ee   o f   th is   esti m ato r   is   af f ec te d   b y   th p a r am eter   ,   tak en   t o   b e   v e r y   s m aller   th an   th s am p le   s i ze .   T h V K E   is   c o n s t r u ct e d   s im ilar ly   to   th e   cl ass ic al   k e r n el   est im ato r .   I t   is   d ef in e d   b y   ( 12 )   [ 2 4 ] :     ̂ ( ) = 1 1 ( , )   ( ( , ) , ) = 1       ( 1 2 )     w ith   ,   is   a   E u c li d e an   d is t an ce   b etw ee n   a   d at p o in t     an d   th e      n ea r est   p o in o f   th o th er   1   da t a   p o in ts .     2 . 2 . 3 .   Clus t er   v a lid it y   ind ex        Fo r   ev e r y   clu s te r in g   p r o c ess ,   g r o u p   o f   clu s te r s   1 , ,   , ,   is   o b tain e d   f r o m   g iv en   d a tas et.   T h m ea s u r em en      is   th e   r el ati o n   b e tw ee n   ea ch   p o in t     an d   t h c lu s te r   ,   f o r   =   1 , , .   Fo r   a ll   th e   p r e - d ef in e d   clu s t er s   ,   w s et   = 0   in   ca s     an d ,   w h en   ,  > 0 ,   w h av e   [ 1 2 ,   1 7 ,   2 3 ] :      = 1 ,          = 1 , , k     ( 1 3 )     E ac h   cl ass   p r o v id es  in f o r m ati o n   w h ich   is   m ea s u r e d   u s in g   th e   en tr o p y   f o r m u la  ( 14 ) :     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       C lu s ter in g   u s in g   ke r n el  en tr o p p r in cip a l c o mp o n en a n a lysi s …  ( Lo u b n a   E l F a tta h i )   2113     =    = 1  (    )   ( 1 4 )     Fin ally ,   th e      in d ex   is   r ec o g n iz e d   as  an   en tr o p y   b y   ( 15 ) :        =   = 1   = 1 +    (   )   ( 1 5 )     w h er   is   an   en tr o p y   an d       is   th e   o p t im al  n u m b er   o f   c lass es     f o r   w h ich   th en t r o p y     is   m ax im al .     2 . 2 . 4 .   Alg o rit h m   o f   t he  K er nel e ntr o py   princip a l c o m po n ent   a na ly s is       A cc o r d in g   t o   th e   k e r n el   m eth o d ,   th e   in p u t   s p ac ca n   b in d i r e ctly   m ap p e d   in to   a   h ig h - d im en s io n al  f ea tu r s p ac th r o u g h   w h ich   th e   n o n l in ea r ity   co u l d   b r em o v ed   o r   r e d u c ed .   T h GR B   Fu n c tio n   is   th p r in ci p a elem en o f   th k er n el  f u n cti o n   b ec au s it  is   ty p ica lly   u s ed   in   R ep r o d u cin g   K er n e Hil b e r Sp a ce   ( R KHS )   w ith   th o b ject iv o f   m ax im izin g   th f ea tu r s p a ce   v a r ian ce   o f   th e   o u tp u v ar ia b les .   Su b s e q u en tl y ,   th m ap p ed   d a ta   w er r ed u ce d   u s in g   th E P C A   as  lin ea r   m eth o d   f o r   d ata   r e d u cti o n   w ith   th u lti m ate  o b j e ctiv to   m ain tain   f ea tu r es e x p e cte d   t o   p r es er v e   a s   p o s s i b le  th v a lu ab le  in f o r m ati o n .   E v en tu al ly ,   s im p le  alg o r ith m   o f   clu s te r in g   w o u ld   b e   ab le   t o   ac h iev s ig n i f ican r esu l ts   b as e d   o n   b o th   Pa r z en   es tim ato r   an d   v ar ia b l k e r n el  es tim ato r .   Ou r   p r o p o s e d   alg o r ith m   o f   cl u s ter in g   c o n s i d e r in g   o u r   p r o p o s e d   K E P C A   m eth o d ,   is   r esu m ed   in   th n ex t ste p s .     No r m alize   th e   in p u t   d at ;     Ma p   th in p u d ata     P e r f o r m   th E P C A ;     R ed u c th t r an s f o r m ed   d at a;     C o m p u te  th e   b an d w id th   ;     C o m p u te  th e   p ai r   d en s ity - d is ta n ce   o f   r e d u c ed   d at a;     Fo r   = 1 , ,      Sele ct  th clu s t er   p ea k s   an d   as s ig n   ea ch   e lem en t in t o   its   clu s t er ;     C o m p u te  th e   c lu s te r   v a li d ity   in d ex    ;     T h co r r e ct  n u m b er   o f   c lu s te r s   an d   th b es t g r o u p in g   f o r   th e   i n p u d a ta   c o r r es p o n d s   t o   th e   o n th at   h av e   m ax i m u m   v alu o f    .       3.   RE SU L T S AN D I SCU SS I O   Ou r   p r es en s ec t io n   h as  as  co n c er n ,   d em o n s tr at in g   th p e r f o r m an ce   q u e r y   o f   o u r   ap p r o a ch   b y   r e d u cin g   d a ta   an d   ex t r a ctin g   o n ly   th v alu ab le   in f o r m atio n .   I n s p ir e d   b y   co m p u tin g   th e   c o u p le   d en s ity - d is tan ce   v alu es  th r o u g h   th f ast  s ea r ch   o f   clu s te r   ce n t er s .   T h u s o f   eith e r   th P a r ze n   est im ato r   [ 2 7 ]   o r   v a r ia b l k er n e esti m ato r   in teg r at in g   th r u le   o f   Sil v e r m an   h as  g o o d   o u t co m es  o n   o u r   clu s t er in g   r es u lts .   A   co m p ar is o n   b etw ee n   th r esu lts   u s in g   o u r   clu s te r in g   alg o r ith m   b ase d   o n   KE P C A   d at t r an s f o r m atio n   a n d   o th er   alg o r ith m s   o f   c lu s te r in g   is   g iv en .   T h e   a r tif icia l,   th r ea l   w ell - k n o w n   ( I r is ,   See d s ,   Fl am an d   He ar t)   d at as ets w er u s e d   [ 2 8 ]   as w ell  as   a   v eh ic le   t r a ject o r y   d at ase t.   Ou r   an aly s is   s tu d y   is   d em o n s tr at ed   o n   MA T L A B   en v ir o n m en t.     3 . 1 .     Si m ula t ed  s t u dy   W co n s id er   as  f ir s ap p licat io n ,   s i m u late d   d ata  th at  co n s is ts   o f   t h r ee   r an d o m   cl u s ter s   laid   in   6 0 0   b y   2   m atr i x .   All  clu s ter s   wer g en er ated   b y   n o r m a d is tr ib u tio n   b u w i th   d if f er e n r an d o m   co v ar iate   m atr ices   an d   ce n ter s .   C l u s ter   co n tain s   2 0 0   d ata  p o in ts   f o r   e ac h .   Fi g u r 1 ,   r ev ea l s   t h p lo o f   t h i n itial   d ata  o f   th t w o   v ar iab les o f   th i n p u s p ac b ef o r co n s id er in g   o u r   clu s ter i n g   alg o r it h m .   A s   it  is   s h o w n   in   Fig u r 2 ( a) ,   w ca n   o b s e r v th at  af te r   ex ec u tin g   th KE P C A   d a ta  t r an s f o r m atio n   r esu lt   h as  g iv en   th r e d im en s io n s   as th r e d u ce d   d im en s io n   af ter   d at m ap p in g .   T h u s ,   f o r   s y n th etic  d a ta ,   th r ee - d im en s io n al  ar r ay   ar en o u g h   to   r e p r esen in p u d at in   f e atu r s p ac e .   T h Fig u r 2 ( b )   d is c lo s es  th at  th ce n te r s   a r i d en tif i ed   as  th r e e.   T h ey   ar l o ca t ed   at  th u p p er - r ig h c o r n er   o f   th d e n s ity - d is tan ce   p l o t ,   d is c r im in ate d   in   r e d   co lo r ,   an d   ci r cl ed   s h a p e .   B esi d es ,   o n   t h Fig u r 2 ( c )   i ca n   b e   e asil y   u n d e r s t o o d   th a th e   s o r te d   q u an tity   ( p r o d u ct  o f   d e n s ity   an d   d is t an ce )   h as  h ig h   v alu f o r   th f i r s th r e d at p o i n ts .   T h is   m ag n itu d e   is   b y   its   o w n   d ef in iti o n   la r g e,   s ta r ts   in c r ea s in g   a b n o r m ally   b etw ee n   clu s t er   c en te r s   an d   g ettin g   v e r y   n ar r o w   b etw ee n   o th e r   s am p les.   C o n s eq u en t ly ,   b o th   te ch n iq u es   s h o w   th s am n u m b er   o f   c en te r s ,   w h ich   ev en tu ally   co n f i r m s   th ex is ten c o f   th r ee   c lu s te r s .   T h o b t ain e d   r esu lts   c an   b ex p la in e d   th an k s   t o   th e   f ac th at  ea ch   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   3 J u n 2 0 2 1   :   2 1 0 9   -   2119   2114   ce n te r   is   r e co g n iz e d   b y   h ig h er   lo ca d en s ity   an d   r el ativ e ly   lar g d is t an c aw ay   f r o m   th o t h er   d a ta  p o in ts   w ith   h ig h er   d en s ity .   Hen ce ,   o u r   a lg o r ith m   is   ca p a b l o f   d if f er en ti atin g   am o n g s ce n te r s   an d   o th er   d at p o i n ts .   N ex t ,   to   ex am in th v a li d ity   o f   o u r   clu s te r in g   r esu l t,   w in v esti g at b o th      c r ite r i o n   an d   th E l b o w   m eth o d   [ 2 9 ] T h e   g iv en   r esu lts   a r e   d is p l ay ed   o n   th e   s am Fig u r e   2 .   On   th F ig u r e   2 ( d ) ,   w ca n   o b s er v e   th e   p r o g r ess   o f   th e      in d ex   th r o u g h   w h ich   th o p t im al  n u m b er   o f   clu s t e r s   is   i d en tif i e d   t o   b e   th r ee   clu s t er s   ap p ly in g   th e   m ax i m u m   en tr o p y   p r in ci p le .   L ik e w is e,   s am r esu lt  w as  g iv en   o n   Fig u r 2 ( e )   b y   in v esti g atin g   th E l b o w   m eth o d ,   w h ich   r eli es  o n   th m in im izatio n   o f   th s u m   o f   th s q u a r e d   e r r o r s   w ith in   ea ch   c lu s ter .   T h r e c lu s te r s   w er p ick e d .   On   th last   Fi g u r 2 ( f )   w ca n   s ee   th s am p les  ass ig n ati o n   to   th ei r   co n v en i en clu s te r s   co n s i d e r in g   th e   ce n t e r   s el ec ti o n   o u t c o m e.   E v e r y   s in g le  p o i n is   ass ig n e d   t o   th n e ar est  ce n te r   b as ed   o n   th e   E u cl i d e an   d is t an ce   ca lcu la ti o n .   E v en tu ally ,   th e   r esu lt  o f   th e   clu s te r in g   o f   th p r o p o s e d   alg o r ith m   is   g iv en   o n   th r e e - d im en s io n al   f ea tu r s p a ce   p l o t   f o r   th s y n th etic   d at a s et  s in ce   th d im en s io n   w as  r e d u ce d   in t o   th r e f ea tu r es a f te r   p e r f o r m in g   KE PC A   Fig u r 2 ( a ) .   T h th r e c lu s ter s   w er p r o p er ly   d is tin g u is h e d   o n f r o m   an o th e r   b y   d if f er en s h a p es   an d   co lo r s   as  th b est   g r o u p in g   f o r   s am p les,   w h ich   d em o n s tr at es  o u r   cl u s ter in g   alg o r i th m   ass u m p tio n s .           Fig u r 1 .   T w o - d im en s io n al  p l o t   o f   th e   in iti al   a r tif i cia d a tase t           Fig u r 1 R esu lts   o b t ain e d   o n   ar t if ici al   d atas et   ( a )   R esu lt o f   t h o p ti m al  co m p o n e n t s   n u m b er   u s i n g   t h KE P C A ,   ( b )   d ec is io n   g r ap h   f o r   ce n ter s   s elec tio n   o f   t h e   d en s i t y   d is ta n ce   p lo t,  ( c)   t he   p r o d u c t o f   th d en s it y   an d   d is tan ce   p lo tted   in   d ec r ea s in g   o r d er ,   ( d )   n u m b er   o f   clu s te r s   v alid atio n   g i v en   b y      in d ex ,   ( e)   th E lb o w   m et h o d   f o r   ar tif icial  d ataset ,   ( f )   th ass i g n m e n t o f   s a m p le s   to   clu s ter s   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       C lu s ter in g   u s in g   ke r n el  en tr o p p r in cip a l c o mp o n en a n a lysi s …  ( Lo u b n a   E l F a tta h i )   2115   T h cl ass if ic ati o n   r at o f   o u r   p r o p o s e d   a lg o r ith m   w ith   KE PC A   d ata  t r an s f o r m atio n   an d   t h VKE   i s   ab o u 9 7 . 1 7 f o r   th s im u lated   d at aset ,   w h er ea s   th K - m e an s   alg o r ith m   ac h iev e d   9 6 . 8 3 %.  T h en ,   u s in g   o u r   alg o r ith m   o f   clu s te r in g   w ith   th VKE   an d   E P C A   h as  g iv en   8 2 . 3 3 %.  T h e r ef o r e,   th p r esen alg o r ith m   w ith   th k er n el   d at tr an s f o r m ati o n   h as   g iv en   r ela tiv ely   h ig h er   cl ass if i ca ti o n   r ate   th an   th e   o th er   c lu s t er in g   alg o r ith m s .     3 . 2 .     T he  I ris da t a s et     T h I r is   b en ch m ar k   is   o n o f   t h m ac h in e - lea r n in g   d atas ets;   Fis h er   f ir s t   u s e d   i in   [ 3 0 ] .   I c o n s is ts   o f   1 5 0   m ea s u r em en ts   o f   th r e d i s tin ct  ty p es  o f   th e   I r is   p lan t   ( I r is   s et o s a ,   I r is   v i r g in ic an d   I r is   v e r s ic o l o r )   o f   th e   f o u r   v a r i ab les:   w id th   an d   len g th   f o r   s e p al   an d   p et al .   I is   w o r th   m en tio n in g   th at ,   o n o f   th cl ass es  is   l in ea r ly   s ep ar ab le ,   w h er ea s   th tw o   o t h er s   ar n o [ 3 0 ] .   C o n s i d er in g   th c o m b in ati o n   o f   k er n el  d at t r an s f o r m ati o n   ( m ap p in g )   an d   th E P C A   as  p r e p r o c ess in g   f o r   in p u d ata ,   t h f ig u r p r esen ts   r es u lts   o b tai n ed   o n   I r is   d at ase t,   Fig u r 3 ( a )   illu s t r at es th r e d u ce d   f e atu r es  in   th h ig h - d im en s io n al   s p ac ( 1 5 0   f ea tu r es ) .   W r est r i ct  o u r   p l o t to   o n ly   2 5   f ea tu r es   o n   th F ig u r e   3   f o r   th s ak o f   c le ar n ess   as   t h en t r o p y   ev o lv es in   d e c r ea s i n g   o r d e r .   T h er ef o r e ,   th s ev en te en   m ain tain e d   n o n lin ea r   f ea tu r es  in te r p r et  th m o r r el ev an o n es  f o r   o u r   c lu s ter in g   alg o r ith m   in   ter m   o f   in f o r m ati o n   co n ten t .   O n   th Fig u r es  3 ( b )   an d   3 ( c )   b o t h   g r ap h s   a r g iv en   r e ly in g   o n   th m ea s u r em en t o f   th p ai r   d en s ity   an d   d is t an ce .   C o n s id er in g   th f ir s p l o o n   th Fig u r 3 ( b ) ,   it  p r es en ts   d en s ity - d is tan ce   p l o t ,   w h er ea s   th F ig u r e   3 ( c)   it   p r esen ts   th s o r te d   q u an t ity   o f   th d en s ity   an d   d is t an ce   p r o d u ct.   T h u s ,   i d en ti ca l   r esu lt  w as  g iv en   b y   b o th   tech n iq u es ,   th r ee   c en tr o i d s   h av b e en   d et er m in ed   f r o m   d ata .   T h o b tain ed   r esu lts   a r in ter p r et e d   th an k s   t o   th c o m in g   ass u m p tio n E v e r y   ce n te r   i s   d is t in g u is h ed   f r o m   th o th e r   d a ta  p o in ts   b y   its   h ig h er   lo ca d en s i ty   an d   r ela ti v ely   lar g d is t an ce .   Hen c e,   o u r   alg o r ith m   is   ca p a b l o f   d if f er en ti atin g   am o n g   ce n te r s   an d   th o th er   d a ta  p o i n ts .   T o   d em o n s tr at o u r   clu s t er in g   alg o r ith m   p er f o r m an ce ,   w e   in co r p o r at e   th e   clu s te r   v a li d ity   in d ex   f o u n d e d   th e   m ax i m u m   en tr o p y   p r in cip le  in   F ig u r e   3 ( d )   an d   th e   E l b o w   m eth o d   in     Fig u r 3 ( e ) .   B o th   cr ite r i p e r f o r m   s am r esu lt ,   w h ich   c o n s eq u en tly   co n f i r m s   th ex is t en ce   o f   th r ee   clu s t er s .           Fig u r 2 R esu lts   o b t ain e d   o n   I r is   d atas et   ( a )   r esu lt o f   th o p ti m al  co m p o n e n t s   n u m b er   u s i n g   th KE P C A ,   ( b )   d ec is io n   g r ap h   f o r   ce n ter s   s e le ctio n   o f   t h d en s it y   d is ta n ce   p l o t,  ( c)   t h   p r o d u ct  o f   th d en s it y   an d   d is ta n ce   p lo tted   in   d ec r ea s in g   o r d er ,   ( d )   n u m b er   o f   cl u s ter s   v al id atio n   g iv e n   b y      in d ex   a n d   ( e)   th E lb o w   m et h o d   f o r   I r is   d ataset       T h er ef o r e ,   o u r   c lu s te r in g   a lg o r ith m   is   a b l t o   i d en tif y   au to m atica lly   th ce n te r   o f   ea ch   c lu s ter .   T h e   class if i ca t io n   r a te  f o r   I r is   d at u s in g   o u r   alg o r ith m   o f   clu s te r i n g   c o n s id e r in g   th K E P C A   d at tr an s f o r m atio n   as   p r ep r o c ess in g   s t ep   is   8 9 . 3 3 in c o r p o r atin g   v ar ia b le   k e r n el  esti m ato r   w h ile  it   is   e q u als   t o   8 8 in co r p o r atin g   P a r ze n   esti m ato r ,   f o r   th E P C A   d at t r an s f o r m ati o n   in teg r a t in g   VKE ,   it  is   u n a b le   t o   d ete ct  all   th r ee   clu s t er s   an d   c o n s id er s   o n ly   2   clu s ter s ,   lik ew is f o r   K - m ed o i d s .   T h en ,   th K - m ea n s   h as  r ea ch e d   o n l y   8 2 %.  T h er ef o r e ,   o u r   au t o m atic  alg o r ith m   in teg r at in g   KE P C A   d ata  t r an s f o r m ati o n   an d   th v a r i ab le  k e r n el  esti m ato r   is   ca p a b l o f   c lass if y in g   p a tte r n s   w ith   h ig h er   cl ass if ic ati o n   r a te   c o m p ar e d   to   th e   o th e r   alg o r ith m s .       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   3 J u n 2 0 2 1   :   2 1 0 9   -   2119   2116   3 . 3 .   Seeds   da t a ba s e   T h Seed s   d ataset  co m p o s ed   o f   2 1 0   s a m p les  r e f er r in g   to   t h r ee   w h ea v ar ieties,  7 0   ele m en t s   f o r   ea ch ,   d escr ib ed   b y   7   g eo m etr ic  f e atu r es  [ 2 9 ] .   C o n s id er in g   t h co m b i n atio n   o f     th k er n el  d ata  tr an s f o r m a tio n   ( m ap p in g )   a n d   t h E P C A   a s   a n   e f f icien p r e p r o ce s s in g   f o r   in p u d ata,   t h Fi g u r 4 ( a)   ill u s tr ates  t h r ed u ce d   n u m b er   o f   f ea t u r es  in   t h h i g h - d i m e n s io n al  s p ac ( 2 1 0   f ea tu r es).   Fo r   th s ak o f   clea r n es s ,   w li m it  o u r   p lo to   2 5   f ea tu r es  b ec au s o f   t h d ec r ea s in g   e v o lu t io n   o f   t h en tr o p y .   T h er ef o r e,   th s ev e n   m ain tai n ed   n o n l in ea r   f ea t u r es  in ter p r et  th m o r r el ev an o n es  in   ter m   o f   in f o r m a tio n   co n ten f o r   o u r   clu s ter i n g   alg o r ith m .   I n   th e   Fig u r 4 ( b )   an d   4 ( c)   t h d is p lay ed   r esu lts   ar g iv e n   b ase d   o n   t h s a m e   m ag n it u d es  ( t h d en s it y   a n d   t h e   d is tan ce ) .   Fo r   th p lo in   Fi g u r 4 ( b )   it  is   d en s it y - d is tan ce   p l o w h er ea s   t h p lo in   Fi g u r 4 ( c) ,   it r ev ea ls   th e   s o r ted   p r o d u ct  o f   d en s i t y   an d   d is tan ce .   T h i s   q u a n tit y   is   b y   its   d e f i n itio n   lar g e   an d   b eg in s   to   g r o w   b et w ee n   clu s ter   ce n tr o id s   p r o g r ess iv el y   af ter w ar d s   it  b ec o m e s   tig h b et w ee n   t h r est  o f   p o in ts .   T h u s ,   th s a m r esu lt  is   g iv e n   b y   b o th   tec h n iq u e s ,   it  i s   clea r l y   s ee n   th at   th r ee   ce n tr o i d s   w er d eter m i n ed   f r o m   d ata ,   w h ic h   d ec lar es  i n   ad v an ce   th e x is te n ce   o f   t h r ee   clu s ter s .   T h o b tain ed   r esu lts   ar co n f ir m ed   th a n k s   to   th as s u m p tio n   t h at  ea ch   ce n ter   is   d is tin g u is h ed   b y   its   h ig h   lo ca d en s it y   an d   r elativ e l y   lar g d is ta n ce   a w a y   f r o m   t h o th er   d ata  p o in ts   w it h   h i g h er   d en s i t y .   He n ce ,   o u r   alg o r it h m   is   ap t to   ex tr ac t c en ter s   f r o m   d ata  p o i n ts   a s   f ir s t step .   T o   p r o v its   ef f icien c y ,   w o p to   i n v est ig ate   t h cl u s ter   v alid it y   i n d ex   in   F i g u r e   4 ( d )   an d   t h e   E lb o w   m et h o d   in     Fig u r 4 ( e) .             Fig u r 3 R esu lts   o b t ain e d   o n   S ee d s   d a tas et   ( a)   r esu lt o f   th o p tim a l c o m p o n e n ts   n u m b er   u s in g   t h KE P C A ,   ( b )   d ec is io n   g r ap h   f o r   ce n ter s   s elec tio n   o f   t h d en s it y   d is ta n ce   p lo t,  ( c)   t h   p r o d u ct  o f   th d en s it y   an d   d is tan ce   p lo tted   in   d ec r ea s in g   o r d er ,   ( d )   n u m b er   o f   clu s ter s   v alid atio n   g i v e n   b y      in d ex   an d   ( e)   th e   E lb o w   m et h o d   f o r   Seed s   d ataset       T h class if icat io n   r ate  g i v en   b y   o u r   clu s ter i n g   alg o r ith m   co n s id er in g   th KE P C A   d ata  tr an s f o r m atio n   is   eq u a to   8 7 . 6 2 u s i n g   V KE ,   w h er ea s   b y   u s i n g   th P ar ze n   es ti m ato r   w g o 8 9 . 5 2 %,  an d   co n s id er in g     E P C A   d ata   r ed u ctio n   w i th   VKE   w o b tai n   8 7 . 6 2 an d   t h k - m ed o id s   an d   t h k - m ea n s ,   r es u lts   ar eq u al  to   8 4 %.    A s   co m p ar is o n ,   w co n c lu d t h at  o u r   alg o r ith m   h a s   b etter   r esu lt  t h an   i ts   co u n ter p ar t   alg o r ith m s   o f   clu s ter i n g .     3 . 4 .   T ra j ec t o ries da t a ba s   T h L C P C   ( L ab o r at o i r C en t r al  d es  Po n ts   et   C h an s s ée s )   m ak es  it  p o s s i b l t o   p r o v i d d a tab ase  o f   ex p e r im en tal  t r a j e ct o r ies  b y   m ea s u r in g   th p a r am eter s   o f   tr a ject o r y   in   th b en d   d u r in g   th v eh icle  p ass ag at  a   d is c r ete  in te r v als   o f   t im e.   T o   ac h iev e   t h p u r p o s e ,   th ey   u tili ze   d at a c q u is iti o n   s y s tem   in co r p o r at e d   t o   t est  v eh icle   th at   c an   r est o r e   th e   p o s it io n s ,   s p e ed s   an d   ac ce l er at io n s .   T h e   s u r v ey   w as  co n d u c ted   w ith   v o lu n tee r   d r iv e r s ,   w h er e ac h   d r iv er   h as   to   g o   th r o u g h   d if f e r en tr a j e ct o r ies .   Hen ce ,   th d a ta b as o f   p h y s ical  t r a ject o r ie s   w as   f o u n d ed   [ 3 1 ] .   T h er ef o r e ,   in   th p r es en s tu d y ,   w ar m o tiv ated   t o   in v esti g ate  th t r a j e ct o r i es  d ata b ase ,   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       C lu s ter in g   u s in g   ke r n el  en tr o p p r in cip a l c o mp o n en a n a lysi s …  ( Lo u b n a   E l F a tta h i )   2117   w h ich   co n s is ts   o f   2 3 2   t r a jec to r ies  w ith   6   v a r ia b l es  ( l o n g itu d in al  p o s iti o n ,   l at er al  p o s iti o n ,   lo n g itu d in al  s p e e d ,   late r a s p e ed ,   l o n g itu d in al   ac ce l er ati o n   an d   l ate r al  a cc ele r ati o n ) .   T h u s ,   w co n s i d e r   o u r   a p p r o ac h   f o r   d at a   tr an s f o r m atio n   c o m b in in g   th e   k er n el  f u n cti o n   th E P C A .   T h F ig u r 5   p r es en ts   r esu lts   o b t ain e d   o n   t r a ject o r i es   d at ase t,  Fig u r 5 ( a )   d em o n s tr a te s   th r e d u c e d   f ea tu r es  in   th h ig h - d i m en s io n al  s p ac ( 2 3 2   f ea tu r es) .   W lim it  o u r   p l o t to   o n ly   2 5   f ea tu r es o n   th Fig u r 5 ( a)   f o r   th s ak o f   cle ar n ess   s in ce   th en tr o p y   ev o lv es in   d ec r e asin g   o r d er .   Hen c e,   th th r e m ain tain ed   n o n l in ea r   f ea tu r es  a r s e l ec t ed   t o   h av th h ig h est  v alu o f   en tr o p y ,   w h ic h   m ea n s   th e y   in ter p r et  th m o r r e lev an o n es  f o r   o u r   clu s t er in g   alg o r ith m   in   ter m   o f   in f o r m ati o n   c o n ten t .   A f ter w ar d s ,   o n   th e   Fig u r es  5 ( b )   an d   5 ( c )   b o th   ch a r ts   a r g iv e n   b as ed   o n   th p a ir   d en s ity - d is tan ce   m ea s u r em en t.   T h f ir s p l o o n   th Fig u r 5 ( b )   p r es en ts   d en s ity - d is tan ce   p l o t ,   w h er ea s   th F ig u r 5 ( c )   i llu s tr ates  th s o r t e d   q u an tity   o f   th d en s ity - d is tan c p r o d u c t.  H en ce ,   i d en ti ca r e s u lt  w as  g iv en   b y   b o th   te ch n i q u es,  f o u r   c en tr o i d s   h av b ee n   d et er m in ed .   T h e   o b tain e d   r esu lts   ar j u s tif i e d   th a n k s   to   th ass u m p tio n   th at  d ef in es  ev e r y   ce n te r   t o   b d is tin g u is h e d   f r o m   th o th er   d ata  p o in ts   b y   its   h ig h er   lo c al  d en s ity   an d   r el ativ ely   lar g d is t an ce .   T h u s ,   o u r   alg o r ith m   is   ca p a b le  o f   d if f e r en tiat in g   b etw ee n   ce n t er s   an d   th o th e r   p o in ts .   T o   d em o n s tr at o u r   clu s t e r in g   alg o r ith m   p e r f o r m an ce ,   w i n v esti g ate   th clu s t er   v ali d ity   in d ex   in   Fig u r 5 ( d )   a n d   th E lb o w   m eth o d   in   Fig u r 5 ( e ) .   B o th   c r it er ia  p er f o r m   s am r esu lt,   w h ich   co n f ir m s   th ex is ten c o f   f o u r   clu s te r s   f o r   t h b eh av io r   o f   d r iv e r s .   On   Fig u r 5 ( f ) ,   w d is p lay ed   th s am p les  ( tr a ject o r i es)  ass ig n at io n   t o   th ei r   ap p r o p r ia te  clu s t er s   b ase d   o n   th e   c en tr o i d s   s el ec t io n   r esu lt  w h er th e   r em ain in g   p o in ts   ar ass ig n ed   t o   th c lo s est   ce n tr o i d   b as ed   o n   th e   m ea s u r em en o f   th E u clid ea n   d is tan c e.   T h g iv en   r esu lt  is   d is p lay ed   o n   th r e e - d im en s io n al  p l o s in ce   th e   r e d u ce d   d im en s io n   af te r   p er f o r m in g   KE P C A   w as  d ed u ce d   t o   b th r ee - f ea tu r e   Fig u r 5 ( a ) .   T h f o u r   c lu s te r s   ar d is co v er e d   an d   c le ar ly   d is tin g u is h ed   f r o m   o n to   an o th e r   a n d   r e p r es en te d   b y   d if f er en t   co l o r s   an d   s h a p es.   E ac h   c lu s te r   r e p r es en ts   d r i v er s   b eh av io r .   T h f ir s clas s   C 1 ,   c o r r esp o n d s   to   th f a m il y   o f   th s lo w est   tr a jec to r i es  o f   ca lm ed   d r iv in g .   T h s e c o n d   cl ass   C 2 ,   co r r es p o n d s   t o   th f am il y   o f   th s lo w est  tr ajec t o r ies  o f   s p o r t in g   d r iv in g .   T h e   th ir d   cl ass   C 3 ,   r e p r esen ts   th f am ily   o f   th f astes t r a ject o r ies  o f   ca lm ed   d r iv in g .   T h e   f o u r th   cl ass   C 4 ,   c o r r ela tes   w it h   th f am ily   o f   th e   f ast est  tr a je cto r i es  o f   s p o r tin g   d r iv in g .               Fig u r 4 R esu lts   o b t ain e d   o n   t r a ject o r i es  d a tase t   ( a)   r esu lt o f   th o p ti m al  co m p o n en t s   n u m b er   u s i n g   t h KE P C A ,   ( b )   d ec is io n   g r ap h   f o r   ce n ter s   s elec tio n   o f   t h d en s i t y   d is ta n ce   p lo t,  ( c)   t h   p r o d u ct  o f   th d en s it y   an d   d is tan ce   p lo t ted   in   d ec r ea s in g   o r d er ,   ( d )   n u m b e o f   clu s te r s   v alid atio n   g i v en   b y      in d ex   a n d   ( e)   th E lb o w   m et h o d ,   ( f )   T h r ee - d i m e n s io n al  p lo t p er f o r m ed   o n   m a p p ed   tr a j ec to r ies d ata  in   th r e d u ce d   s p ac o f   th r ee   f ea t u r es,  s a m p les ar co l o r ed   ac co r d in g   to   th clu s ter   t o   w h ich   t h e y   ar as s i g n ed   w it h   d if f er en t c o lo r   an d   s h ap e       As  co m p ar is o n   to   o th er   w o r k s   r elate d   to   s am tr aj ec to r ies  d ataset  as  in   [ 3 1 ] ,   s a m n u m b er   o f   clu s ter s   a n d   o f   d r iv er s   b eh a v io r   w er d etec ted   u s i n g   o u r   u n s u p er v i s ed   alg o r it h m   b as ed   o n   k er n el  d at a   tr an s f o r m atio n   an d   v ar iab le  k er n el  esti m ato r   f o r   d en s it y   e s ti m atio n   t h at  is   cr itical  f o r   clu s t er in g .   T h KE P C h as  s h o w n   i ts   p o ten tial  o v er   d if f er en t   d ataset  f r o m   ar t if ic ial  an d   r ea w o r ld   d atab ase.   Am o n g   all  o f   t h e m ,   t h e   p r o p o s ed   KE P C A   p r esen a n   ad v an ta g o f   e x tr ac tin g   o n l y   v alu ab le  i n f o r m atio n   an d   m ap p in g   i n p u t   d ata  i n to   h ig h   s p ac e,   w h er t h n o n - li n ea r it y   ca n   b o m itted   ea s il y .   T h r ed u ce d   n u m b er   o f   f ea tu r es  in   th h i g h   s p ac e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   3 J u n 2 0 2 1   :   2 1 0 9   -   2119   2118   i m p r o v es   th e   r es u lts .   Firstl y ,   i n   t h P DF  e s ti m atio n   u s i n g   t h r ed u ce d   d i m e n s io n   w h er m o s o f   th e   en tr o p y   in f o r m atio n   is   co m p ac ted   an d   t h s elec t io n   o f   t h k er n el  p ar a m eter   b ec o m m o r r o b u s t .   Seco n d l y ,   i n   th e   clu s ter i n g   task   as  it  is   s h o w n   o n   th T ab le  1 ,   th ex p er im e n r es u lts   r ev ea t h i m p r o v e m e n o f   t h p er f o r m a n ce   o f   th al g o r ith m   u s i n g   KE P C A   o v er   its   co u n te r p ar E P C A .   Fu r t h er m o r e,   t h e   u s o f   VKE ,   o f ten   m ak e s   KE P C m o r e f f icie n t   th a n   t h u s e   o f   P ar ze n   esti m a to r ,   w h ich   ca n   b ex p lai n ed   with   t h f ac t   th a t h e   v ar iab le  k er n el  es ti m ato r   ad ap ts   t h a m o u n o f   s m o o t h i n g   t o   th lo ca d en s it y   d ata  d u t o   th ad ap tiv s ca le  th at  ca n   v ar y   f r o m   o n d ata  p o in t to   an o t h er .       T ab le  1 .   C o m p ar is o n   o f   th d i f f er en t c l u s ter i n g   alg o r it h m s   o v er   ar tif icial  a n d   r ea w o r ld   d ata.   D a t a se t   W i t h o u t   d a t a   t r a n sf o r m a t i o n   EP C A - V K E   K EPCA - P a r z e n   K EPCA - V K E   k - me a n s   A r t i f i c i a l   9 6 . 8 3   8 2 . 3 3   9 6 . 6 7   9 7 . 1 7   9 6 . 8 3   I r i s   -   -   88   8 9 . 3 3   8 9 . 3 3   F l a me   8 4 . 1 7   80   85   85   85   h e a r t   6 2 . 5 9   6 5 . 1 9   7 9 . 2 6   8 2 . 5 9   5 9 . 2 6   T r a j e c t o r y   -   -   -   4   c l u s t e r s   4   c l u s t e r s   S e e d   9 1 . 4 3   8 9 . 5 2   8 9 . 5 2   8 7 . 6 2   8 9 . 5 2       4.   CO NCLU SI O N     I n   th p r es en p ap er ,   w p r o p o s an   ef f ic ien d at tr an s f o r m atio n   f o r   th ex is te d   E P C A   m eth o d   t o   ex tr ac th o p tim al  f ea tu r es .   W h er e as th E P C A   g iv es th o p t im al  en tr o p ic  co m p o n en t th r o u g h   m ax i m izin g   th av er ag o f   th in f o r m atio n   ( th in er t ia )   p r o v id ed   b y   th elem en ts ,   th KE P C A   in d ee d   m ak es  m ap p in g   f o r   d at b ef o r c o n s id e r in g   E P C A .   T h e r ef o r e,   th c o r elem en o f   th k e r n el  u s e d   in   K E P C A   is   to   m ap   im p li citly   th in p u d ata  in t o   h ig h - d i m en s io n al  f ea tu r s p a ce ,   w h er th e   n o n lin e a r   p a tte r n s   b ec o m lin ea r   an d   th e   s ep ar ati o n   o f   th el em en ts   b ec o m es  ea s ie r .   W h av r ev e al e d   th ab ilit y   o f   KE P C A   t o   r eta in   m o r in f o r m atio n   in   th h ig h   s p ac in   b o th   PDF  esti m atio n   an d   clu s te r in g   o v er   s y n th etic  an d   r e al  w o r l d   d atas et  ex am p les .   R esu lts   s h o w   th p er f o r m an ce   q u er y   o f   th KE P C A   o v er   its   co u n te r p ar E P C A   d ata  t r an s f o r m ati o n .   B esi d es th u s o f   VKE   esti m ato r   h as  p r o v en   its   ef f icien cy   in   d en s ity   esti m atio n ,   w h ich   h as  cr i tica ef f ec o n   th e   clu s te r in g   alg o r ith m .       RE F E R E NC E   [1 ]   D.  Na p o leo n   a n d   S .   P a v a lak o d i,   A   Ne M e th o d   f o Dim e n sio n a li ty   Re d u c ti o n   Us i n g   KMea n Clu ste rin g   A l g o rit h m   f o r   Hig h   Di m e n sio n a Da ta S e t,   In ter n a ti o n a J o u rn a o Co mp u ter   Ap p li c a ti o n s v o l.   1 3 ,   n o .   7 ,   p p .   4 1 4 6 ,   Ja n .   2 0 1 1 .   [2 ]   R.   a n d   A .   T ,   F e a tu re   Ex tra c ti o n   o f   Ch e st  X - ra y   I m a g e a n d   A n a l y si u sin g   P CA   a n d   k P CA ,   In ter n a ti o n a l   J o u rn a o El e c trica a n d   Co m p u ter   E n g in e e rin g   ( IJ ECE ) ,   v o l.   8 ,   n o .   5 ,   p p .   3 3 9 2 3 3 9 8 ,   Oc t.   2 0 1 8 ,   d o i :   1 0 . 1 1 5 9 1 /i j ec e. v 8 i5 . p p 3 3 9 2 - 3 3 9 8 .   [3 ]   A .   K.  Nik h a th   a n d   K.  S u b ra h m a n y a m ,   F e a tu re   se le c ti o n ,   o p ti m iza ti o n   a n d   c l u ste rin g   stra teg ies   o f   te x d o c u m e n ts,”   In ter n a t io n a J o u r n a o El e c trica &   Co mp u ter   En g in e e rin g   ( IJ EC E ) ,   v o l.   9 ,   n o .   2 ,   p p .   1 3 1 3 1 3 2 0 ,   A p r.   2 0 1 9 ,   d o i :   h tt p : // d o i. o rg /1 0 . 1 1 5 9 1 /i jec e . v 9 i2 . p p 1 3 1 3 - 1 3 2 0 .   [4 ]   J.  M a c Qu e e n ,   S o m e   m e th o d f o c la ss i f ica ti o n   a n d   a n a ly sis   o f   m u lt iv a riate   o b se rv a ti o n s,”   p re se n ted   a th e   Pro c e e d in g o t h e   Fi f th   Ber k e ley   S y mp o si u m o n   M a t h e ma ti c a l   S t a ti stics   a n d   Pro b a b il i ty,   1 9 6 7 .   [5 ]   A .   K.  Ja in ,   Da ta  c lu ste rin g 5 0   y e a rs  b e y o n d   K - m e a n s,”   Pa tt e rn   Rec o g n it .   L e tt . ,   v o l.   3 1 ,   n o .   8 ,   p p .   6 5 1 6 6 6 ,   J u n .   2 0 1 0 ,   d o i:   h tt p s:/ /d o i. o rg /1 0 . 1 0 1 6 /j . p a trec . 2 0 0 9 . 0 9 . 0 1 1 .   [6 ]   L .   Ka u fm a n   a n d   P .   J.  Ro u ss e e u w ,   F in d in g   g ro u p in   d a ta:  a n   i n tro d u c ti o n   t o   c lu ste a n a ly sis,”   Ho b o k e n ,   N . J :   W il e y ,   2 0 0 5 .   [7 ]   U.  Oz e rte m ,   e a l. ,   M e a n   sh if s p e c tral  c lu ste rin g ,   Pa tt e rn   Rec o g n it . ,   v o l.   4 1 ,   n o .   6 ,   p p .   1 9 2 4 1 9 3 8 ,   Ju n .   2 0 0 8 ,   d o i:   h tt p s:// d o i . o rg /1 0 . 1 0 1 6 /j . p a tc o g . 2 0 0 7 . 0 9 . 0 0 9 .   [8 ]   Y.  W e iss,  S e g m e n tatio n   u sin g   e ig e n v e c to rs:  a   u n ify in g   v ie w ,   Pro c e e d in g o t h e   S e v e n t h   IEE In ter n a ti o n a l   Co n fer e n c e   o n   Co m p u ter   Vi si o n ,   Ke rk y ra ,   Gr e e c e ,   v o l.   2 ,   1 9 9 9 ,   p p .   9 7 5 9 8 2 ,   d o i:   1 0 . 1 1 0 9 /ICC V . 1 9 9 9 . 7 9 0 3 5 4 .   [9 ]   E.   m e h d Ch e rra t,   Ra c h i d   A lao u i,   Ha ss a n e   Bo u z a h ir . ,   Im p ro v in g   o f   F in g e rp rin t   S e g m e n tatio n   Im a g e Ba se d   o n   K - M EA NS  a n d   DBSCA Clu ste ri n g ,   In ter n a ti o n a J o u rn a o El e c trica a n d   Co mp u ter   E n g i n e e rin g   ( IJ ECE ) ,   v o l.   9 ,   n o .   4 ,   p p .   2 4 2 5 2 4 3 2 ,   A u g .   2 0 1 9 ,   d o i:   1 0 . 1 1 5 9 1 /i jec e . v 9 i4 . p p 2 4 2 5 - 2 4 3 2 .   [1 0 ]   A .   Ro d rig u e z   a n d   A .   Laio ,   Clu ste rin g   b y   fa st  se a rc h   a n d   f in d   o f   d e n sity   p e a k s,”   S c ien c e ,   v o l.   3 4 4 ,   n o .   6 1 9 1 ,   p p .   1 4 9 2 1 4 9 6 ,   Ju n .   2 0 1 4 ,   d o i:   1 0 . 1 1 2 6 /sc ien c e . 1 2 4 2 0 7 2 .   [1 1 ]   X. - F .   W a n g   a n d   Y.  Xu ,   F a st   c lu ste rin g   u sin g   a d a p ti v e   d e n si ty   p e a k   d e tec ti o n ,   S ta t.   M e th o d s   M e d .   Res . ,   v o l.   2 6 ,   n o .   6 ,   p p .   2 8 0 0 2 8 1 1 ,   De c .   2 0 1 7 ,   d o i:   h tt p s:// d o i . o rg /1 0 . 1 1 7 7 % 2 F 0 9 6 2 2 8 0 2 1 5 6 0 9 9 4 8 .   [1 2 ]   L .   E.   F a tt a h i,   e a l. ,   Clu ste rin g   b a se d   o n   d e n sity   e sti m a ti o n   u sin g   v a riab le k e rn e a n d   m a x i m u m   e n t ro p y   p rin c ip le,     In telli g e n S y ste ms   a n d   Co mp u ter   Vi sio n   ( IS CV),   2 0 1 7 ,   p p .   1 7.   Evaluation Warning : The document was created with Spire.PDF for Python.