I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   1 6 ,   N o .   2 N o v e m b e r   201 9 ,   pp.   7 52 ~ 75 8   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 6 .i 2 . pp7 52 - 75 8       752       Jou r n al   h o m e pa ge ht t p: / / i ae s c or e . c om / j our na l s / i nde x . php/ i j e e c s   A   c o m p a r a t i v e   st u d y   o n   d i m e n si o n a l i t y   r e d u c t i o n   b e t w e e n   p r i n c i p a l   c o m p o n e n t   a n a l y s i a n d   k - m e a n s c l u st e r i n g         N o r s ye l M u h amm ad   N oo r   M ath i v an an 1 ,   N o r   A z u r M d . G h an i 2 ,   R o z i ah   M o h d   Jan o r 3   1 , 2 , 3 C e nt e r   f o r   S t a t i s t i c a l   a nd   D e c i s i o S c i e nc e s   S t udi e s ,     F a c ul t y   o f   C o m put e r   &   M a t he m a t i c a l   S c i e nc e s   U ni v e r s i t i   T e kno l o g i   M A R A ,   M a l a y s i a   2 N a t i o na l   D e s i g C e n t r e   U n i v e r s i t i   T e k no l o g i   M A R A ,   M a l a y s i a       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e J a 22 ,   2 019   R e v i s e d   A pr   20 ,   2019   A c c e pt e M a y   14 ,   20 1 9       T he   c ur s e   o f   di m e n s i o na l i t y   a nd  t he   e m p t y   s pa c e   phe no m e no e m e r g e a s   a   c r i t i c a l   p r o bl e m   i t e x t   c l a s s i f i c a t i o n.   O ne   w a y   of   de a l i ng   w i t t h i s   pr o bl e m   i s   a pp l y i ng   a   f e a t ur e   s e l e c t i o t e c hn i que   be f o r e   pe r f o r m i ng   a   c l a s s i f i c a t i o n   m o de l .   T hi s   t e c hni que   he l ps   t o   r e duc e   t h e   t i m e   c o m pl e xi t y   a nd  s o m e t i m e s   i nc r e a s e   t he   c l a s s i f i c a t i o a c c ur a c y .   T hi s   s t udy   i nt r o duc e s   a   f e a t ur e   s e l e c t i o t e c hni que   us i ng   K - M e a n s   c l u s t e r i ng   t o   o v e r c o m e   t he   w e a k ne s s e s   o f   t r a di t i o na l   f e a t u r e   s e l e c t i o t e c hn i que   s uc a s   pr i nc i pa l   c o m p o ne nt   a na l y s i s   ( P C A )   t ha t   r e qui r e   a   l o t   o f   t i m e   t o   t r a n s f o r m   a l l   t he   i npu t s   da t a .   T h i s   pr o po s e t e c hni qu e   de c i de s   o f e a t u r e s   t o   r e t a i b a s e o t he   s i g ni f i c a nc e   v a l ue   o f   e a c f e a t ur e   i a   c l us t e r .   T h i s   s t u dy   f o und  t ha t   k - m e a ns   c l us t e r i ng   he l p s   t o   i nc r e a s e   t h e   e f f i c i e nc y   of   K N N   m o de l   f o r   a   l a r g e   da t a   s e t   w h i l e   K N N   m o de l   w i t ho ut   f e a t u r e   s e l e c t i o t e c hn i que   i s   s u i t a b l e   f o r   a   s m a l l   d a t a   s e t .   A   c o m pa r i s o be t w e e K - M e a ns   c l us t e r i ng   a nd  P C A   a s   a   f e a t u r e   s e l e c t i o t e c hni que   s ho w s   t ha t   pr o po s e t e c hn i qu e   i s   be t t e r   t ha P C A   e s pe c i a l l y   i t e r m   o f   c o m put a t i o t i m e .   H e nc e ,   k - m e a n s   c l us t e r i n g   i s   f o und   t o   be   he l pf u l   i r e d uc i ng   t he   da t a   d i m e ns i o na l i t y   w i t l e s s   t i m e   c o m pl e xi t y   c om pa r e t o   P C A   w i t ho ut   a f f e c t i ng   t h e   a c c ur a c y   of   K N N   m o de l   f o r   a   hi g f r e que nc y   da t a .   Ke y w or ds :   Cl us t e r i n g   F e a t u r e   s e l e c t i o n   P r i n c i pa l   c o m po n e n t   a na l y s i s   S i m ul a t i o n   C opy r i gh t   ©   201 9   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   N o r   A z u ra   M d. G ha ni ,   Ce n t e f o r   S t a t i s t i c a l   a nd  D e c i s i o S c i e n c e s   S t ud i e s   F a c ul t y   of   Co m put e r   &   M a t h e m a t i c a l   S c i e n c e s ,   U n i v e r s i t i   T e kn o l o gi   M A R A   40450  S ha A l a m ,   S e l a n go M a l a y s i a   E m a i l :   a z u r a @ t m s k . ui t m . e du. m y       1.   I N TR O D U C TI O N     h u ge   a m o un t   o f   i n f o r m a t i o n   c a n   b e   o b t a i n e f r o m   d i f f e r e nt   f o r m   o f   da t a   w i t t h e   ra pi d   g r o w t h   o t h e   Int e rn e t .   T h e s e   da t a   a r e   v i r t ua l l y   pr ov i de t hr o ug h   di gi t a l   l i b ra ri e s ,   e - c o m m e r c e   w e bs i t e s ,   s oc i a l   n e t w o r ks ,   m o b i l e   a ppl i c a t i o n s   a nd  o t h e s o ur c e s   [1].   Cu rr e n t l y ,   o n e   of   t h e   m a j o r   f o r m   o f   da t a   i s   u n s t r uc t u r e d   t e xt   [2].   T h e s e   da t a   a r e   c o m pl e a n n o t   w e l l - o r ga n i z e u n l i ke   s t r uc t u r e t e xt .   T h e y   n o r m a l l y   f a c e   t h e   c ur s e   of   di m e n s i o n a l i t y .   A   ve c t o r   o f   w o r c o un t s   i a   v e c t o r - s pa c e   m o de l   of   t e xt   do c um e n t s   m a y   c o n s i s t s   di m e n s i o na l i t y   m o r e   t h a 10 , 000   a nd  t h e   g i v e n   s a m pl e   s i z e   ne e t o   e s t i m a t e   a   f un c t i o n   o f   s e v e r a l   v a r i a b l e s   t pr o v i de   a   go o a c c ur a c y   of   t h e   m o de l .   H ow e v e r ,   m o s t   o f   t h e   hi g h   di m e n s i o n a l   d a t a   a r e   i nh e r e nt l y   s pa r s e   da t a   [3].   F o r   i n s t a n c e ,   a   w o r m a y   a ppe a r   100  t i m e s   i n   o n e   do c um e nt   b ut   m a y   n o t   a ppe a r   i o t h e r   do c um e nt s .   H e n c e ,   t h e   d a t a   n e e t o   u n de r go n e   a   go o da t a   p r e - p r o c e s s i n g   p r o c e s s   t o   ob t a i n   t h e   b e s t   s t r uc t u r e   o f   da t a   t o   b e   us e a s   a i n p ut   f o r   p r e di c t i o n   o r   c l a s s i f i c a t i o m o de l s .   O n e   po s s i b l e   a ppr o a c h   t o   s i m pl i fy   a   h i g h   d i m e n s i o na l   d a t a   i s   t o   a ppl y   s o m e   fo r m   o f   di m e n s i o na l i t y   r e duc t i o n   [4] .   T hi s   c a n   b e   do n e   i n   t w o   di ffe r e n t   w a y s   e i t h e by   us i n f e a t u r e   e xt r a c t i o n   o r   f e a t u r e   s e l e c t i o n .   In   f e a t u r e   e xt ra c t i o n,   t h e   o ri gi na l   v e c t o r   s pa c e   i s   t r a n s f o rm e i n t o   n e w   v e c t o r   s pa c e   a c c o r di ng  t o   s pe c i a l   c h a ra c t e ri s t i c s .   O n   t h e   o t h e r   ha n d ,   f e a t ur e   s e l e c t i o n   i s   us e t o   ke e t h e   m o s t   r e l e v a nt   v a ri a b l e s   f r o m   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   c om par at i v e   s t ud y   on   d i m e ns i onal i t y   r e duc t i on  b e t w e e n   pr i nc i pal   c om pone nt .   ( Nor   A z ur M d. G ha ni )   753   o r i gi na l   da t a   s e t .   T h e   ut i l i z a t i o n   o f   bo t h   t e c hn i que s   a c c o r di ngl y   pr o v i de   a   b e t t e r   da t a   p re - p r o c e s s i n p r o c e s s   [5].   M a n y   r e s e a r c h e r s   c l a i m e d   t ha t   p r i n c i pa l   c o m po n e nt   a n a l y s i s   (P CA i s   t h e   m o s t   po pul a r   f e a t u r e   e xt ra c t i o n   m e t h o [6 - 8].   P CA   i s   a   c l a s s i c a l   s t a t i s t i c a l   t e c hn i que   t o   t ra n s f o r m   a t t r i b ut e s   o da t a   s e t   i n t o   n e w   s e t   of  un c o rr e l a t e a t t r i b ut e s   k n o w n   a s   p ri n c i p a l   c o m po n e n t s .   T h i s   t e c hn i que   i s   us e t o   r e duc e   t h e   di m e n s i o na l i t y   w h i l e   m a i n t a i ni n g   a s   m uc o f   t h e   v a r i a b i l i t y   of   t h e   d a t a   s e t   a s   po s s i b l e   [9].     P CA   c a n   i n c r e a s e   t h e   e ff i c i e n c y   gi ve n   t h e   c l a s s i f i e r s   t a k i n g   pl a c e   i n   a   s m a l l e r   di m e n s i o n   b ut   w h e us i n t hi s   t e c hn i q ue ,   t h e   t i m e   r e qu i r e m e n t   f o r   pr e - p r o c e s s i ng  t h e   da t a   i s   i n c r e a s i n t r e m e n do us l y .   P CA   i s   a n   un s upe r v i s e t e c hn i que ,   w h i c h   m a ke s   n o   us e   of   i n fo r m a t i o n   r e l a t e t o   t h e   c l a s s   v a r i a b l e .   T h e r e   i s   a n o t h e r   fo r m   o f   un s upe r v i s e t e c hni que   c a l l e a s   c l us t e ri n t e c hn i q u e .   O n e   o f   t h e   w e l l - k n o w n   c l us t e r i ng  t e c hni que   i s   k - m e a n s   c l us t e ri n g .   T h e   s i m p l i c i t y   a n e f f i c i e n c y   of   t hi s   c l u s t e r i ng  a l go ri t hm   m a ke   i t   us e f ul   fo r   di s c o v e r i ng  t h e   s t r uc t u r e   o f   da t a .   H e n c e ,   t hi s   s t udy   pr o po s e a l t e rna t i v e   m e t h o t o   r e duc e   t h e   d i m e n s i o n a l i t y   of   t h e   d a t a   by   us i n t h e   f e a t ur e   s e l e c t i o n   t e c hn i que   w i t k - m e a n s   c l us t e ri n g.   T h e   c o m pa r i s o n   b e t w e e n   P CA   a n k - m e a n s   c l us t e r i ng  i n   s e l e c t i n g   t h e   f e a t u r e s   f o r   h i g d i m e n s i o na l   d a t a   a r e   p r o v i de i n   t h e   s t u dy .         2.   D A TA   B A C K G R O U N D   T h e   s t udy   pr e s e n t s   e xpe r i m e n t a l   r e s ul t s   us i n t w o   t y p e s   of  da t a   s e t s   w h i c h   a r e   r e a l   a n s y n t h e t i c   da t a   s e t s .   T h e r e   a r e   t w o   r e a l   d a t a   s e t s   us e i n   t h e   s t udy .   T a b l e   s h o w s   t h e   de s c ri pt i o o f   t h e   t w o   c o r po ra   s e l e c t e fo r   t hi s   s t udy .   T h e   f i r s t   d a t a   s e t   h a s   b e e n   c o l l e c t e fr o m   o n e   o f   t h e   m a j o r   c h a i n   m a r ke t   o n l i n e   s t o r e s   i n   M a l a y s i a   us i ng  pr o t o t y p e   w e s c r a pe r s   de v e l o pe d   un de r   S T A T S B D A   pr o j e c t   kn o w n   a s   P r i c e   In t e l l i ge n c e   (P I)  by   D e pa rt m e n t   o f   S t a t i s t i c s   M a l a y s i a   (D O S M ).   A   f e w   of   l e a f   n o de s   a r e   s e l e c t e t o   r e pr e s e nt   c a t e go ri e s   f r o m   t h e   b r o w s e   t r e e   o f   t h e   w e b s i t e .   T h e   da t a   c o r p us   c o n s i s t s   o f   pr o duc t s ‟  de s c r i pt i o n   f o r   f o ur   c a t e go ri e s   unde b a by   pr o duc t s   w h i c h   a r e   b a by   di a pe r s   a nd  w i pe s ,   b a by   m i l k   po w de r ,   b a by   foo d,   a n d   b a by   t o i l e t r i e s .         T a b l e   1 .   S u m m a r y   D e s c r i p t i o o f   D a t a   S e t s   D a t a s e t   Ca t e g o ry   In s t a n c e   N u m b e r   o F e a t u r e   Ba b y   4   471   387   S M S   S p a m   2   5574   6981       T h e   s e c o n da t a   s e t   i s   a   w e l l - k n o w n   da t a   c o l l e c t i o n   t ha t   pr o v i de s   a n   i de a l   b e n c h m a r us e t o   e v a l ua t e   t e xt   c l a s s i f i c a t i o n   m o de l   [10].   T h e   S M S   s pa m   m e s s a ge s   da t a   s e t   i s   o r i gi na l l y   c o l l e c t e f r o m   t h e   G r u m b l e t e xt   W e b s i t e   w h e r e   c e l l   ph o n e   us e r s   m a ke   pub l i c   c l a i m s   a b o ut   S M S   s pa m   m e s s a ge s   [11].   T hi s   da t a   s e t   c o n s i s t s   of   t w o   c a t e go r i e s   e i t h e r   h a m   o r   s pa m   m e s s a ge .   T h e   s t udy   h a s   a l s o   us e a   s i m ul a t i o n   d a t a   t c o m pa r e   t h e   pe r f o r m a n c e   of   s e l e c t i ng  t h e   fe a t u r e s   be t w e e n   K - M e a n s   c l us t e ri n a n P CA .   E a c h   c l a s s   i s   c o m pos e d   of   a   n u m b e r   o f   n o r m a l l y   di s t r i b ut e c l us t e r s .   A   N o r m a l   di s t r i b ut i o n   w i t h   m e a a n s t a nda r d   de v i a t i o n   e qua l   t o   z e r o   a n o n e   a c c o r di n g l y   i s   us e t o   dr a w   n u m b e r   o f   us e f ul   i n de pe n de nt   f e a t u r e s   fo r   e a c c l us t e r.   T h e   s i m ul a t i o n   d a t a   de a l   w i t h   t w o - c l a s s   c l a s s i f i c a t i o p r o b l e m   w i t h   s p a r s e   b i n a r y   i nput   f e a t ur e s .   T h e   da t a   i s   ge n e ra t e t hr o ug h   a   h y pe r c ube   da t a   pr o g r a m   [12]  w h i c h   i s   a ppe n de i n   s c i ki t - l e a rn   of    p y t h o p r o g r a m m i n g .       3.   R ES EA R C H   M ET H O D   T h e r e   a r e   s e ve r a l   s t e ps   i n v o l v e   i n   pe r f o r m i n a   t e xt   c l a s s i f i c a t i o n .   T h i s   s t udy   i s   c o m po s e of   t h e   b a s i c   s t e ps   w h i c a r e   d a t a   e xt ra c t i o n ,   da t a   p r e p r o c e s s i n a n f e a t u r e   e xt ra c t i o n .   T h e r e   a r e   s e v e r a l   s t e ps   i n v o l ve   i n   p r e - p r o c e s s i n t h e   da t a   w hi c h   a r e   t o ke ni z a t i o n ,   w o r s t o r e m o v a l ,   a n s t e m m i ng  p r o c e s s [13].   T h i s   s t udy   h a s   us e b a g - of - w o r t o   e xt r a c t   t h e   f e a t ur e s   b e for e   pe r f o r m i n t h e   f e a t u r e   s e l e c t i o n   t o   r e duc e   t h e   di m e n s i o na l i t y   of   t h e   d a t a .   A l l   t h e   p r o c e dur e s   us e   i n   t h e   s t udy   a r e   i m pl e m e nt e t hr o ug h   R - P r o gra m m i ng  S of t w a r e .   T h e   s o f t w a r e   ha s   b e e n   w i de l y   us e t o   s o l ve   a   s t a t i s t i c a l   p r o b l e m   i n   v a r i o us   f i e l o f   s t udi e s   i n c l ude   i n   s t udy   of   po pul a t i o g r o w t h   [ 14 ],   a ge   p r e di c t i o [15 ] ,   p a t t e rn  r e c o gn i t i o [16]   e t c .     3. 1 .       D at D i m e n s i o n al i ty  R e d u c ti o n   Te c h n i q u e s   T h e r e   a r e   t w o   di ffe r e nt   f e a t u r e   s e l e c t i o n   a pp r o a c h e s   us e   i t h e   s t udy   w h i c h   a r e   P CA   a n f e a t u r e   s e l e c t i o n   w i t K - M e a n s   c l us t e r i n g .     3. 1 .     Te c h n i q u e   I P r i n c i p a l   C o m p on e n A n al ys i s   (P CA )   P CA   i s   a   l i n e a r   m e t h o us e s   t e m be t h e   da t a   i nt o   a   l i n e a r   s ub s pa c e   of  l ow e r   di m e n s i o n a l .   T h e   s t e ps   i n v o l ve   a r e   s h o w n   i F i gu r e   1 .   T h e   m e t h o f i n ds   a   l i n e a r   b a s i s   w hi c i s   po s s i b l e   o r t h o go na l   o f   r e duc e d   di m e n s i o na l i t y   fo r   t h e   d a t a   w i t h   c o n t a i n i ng  t h e   m a x i m u m   n u m b e r   o f   v a r i a n c e   i n   t h e   da t a .   M a t h e m a t i c a l l y ,   l e t   Evaluation Warning : The document was created with Spire.PDF for Python.
            IS S N :   2 502 - 47 52   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 6 ,   N o .   2 N o v e m be r   2 01 9   :   7 52 - 75 8   754   P   be   a   m a t ri o f   da t a   w i t h   N   o b s e r v a t i o n s   a nd  F   f e a t ur e s   a nd  l e t   p( n)   r e pr e s e n t   t h e   n th   r o w   ve c t o r .   T h e   d a t a   a r e   t ra n s f o r m e i n t o   t h e   p r i n c i p a l   c o m po n e n t   s pa c e   by   t j (n =   w j   ·   p (n ) ,   w h e r e   w j   i s   t h e   F - di m e n s i o n   l o a di ng  v e c t o r   a n d   t j (n )   i s   t h e   j th   c o m po n e n t   s c o r e .   T h e   w e i gh t   o f   t h e   f i r s t   p r i n c i p a l   c o m po n e nt   w 1   i s   f o un d   by       w w Pw P w w T T T m a x a r g 1   (1)     T h e   n e xt   p r i n c i pa l   c o m po n e n t s   c a b e   o b t a i n e d   by   s ub t r a c t i ng  t h e   f i r s t   j   c o m po n e nt s   f r o m   t h e   da t a ,     1 1 ˆ j m m T m j w Pw P P   (2)     a n t h e   l o a di n gs   i s   c a l c ul a t e by ,     w w w P P w w T T T j ˆ ˆ m a x a r g   (3)     N o r m a l l y ,   t h e   f i r s t   f e w   pr i n c i p a l   c o m po n e nt s   c o n s i s t   a   m a j o r i t y   of   t h e   v a r i a n c e .   H ow e ve r ,   t h e   n u m b e r   o f   pr i n c i pa l   c o m po n e n t s   n e e t o   b e   i n c l ude i n   t h e   n e w   t r a n s f o r m   d a t a   de pe n ds   o n   t h e   a b i l i t y   of   t h e   j th   p ri n c i pa l   c o m po n e n t s   t o   p r o v i de   f ul l   i n f o rm a t i o a b o ut   t h e   a c t u a l   da t a .           F i gu r e   1 .   T e xt   c l a s s i f i c a t i o n   w i t f e a t u r e   s e l e c t i o n   us i n P C A       3. 1 .     Te c h n i q u e   I I K - M e an s   C l u s te r i n g   T h e   k - m e a n s   c l us t e r i ng  i s   a   w e l l - kn o w n   a l go r i t hm   t ha t   f o l l ow s   a   g r a d i e nt   de s c e n t   p r o c e dur e   [13] .   T h e   f e a t ur e s   u n de rgo   t h e   f i r s t   l e v e l   of   f e a t ur e   s e l e c t i o n   w i t h   us i n o n e   o f   fe a t u r e   s e l e c t i o n   t e c hn i q ue s   na m e l y   Co rr e l a t i o n - b a s e f e a t u r e   s e l e c t i o n   (CF S ).   I t   i s   us e t o   f i l t e r   t h e   f e a t ur e   b e fo r e   us i n g   t h e   c l us t e r i n g   t e c hni que .   T h e   s t e ps   i n v o l v e   a r e   s h o w n   i n   F i gu r e   2.   G i v e n   t h e   d a t a   s e t   s i z e   of   n   w i t h   d a t a   po i n t s   o f   p 1 ,   p 2 ,   ,   p n   w h e r e   e a c h   da t a   po i nt   i s   i n   t h e   K d .   T h e n ,   t h e   m i ni m um   v a ri a n c e   c l us t e r i ng  o f   t h e   da t a   s e t   i s   s e pa ra t e i n t o   c l us t e r s   by   f i n di ng  t h e   k   po i n t s   { m c }   (c = 1, 2,   ,   k i n   K d   s uc t ha t ,     n i c i c m x d n 1 2 )] , ( [ m i n 1   (4)     Is   m i ni m i z e d,   w h e r e   (x i ,   m c de n o t e s   t h e   E uc l i de a n   d i s t a n c e   b e t w e e n   x i   a n m c .   T h e   t e c hn i q ue   b e gi n s   w i t h   ra n do m l y   s e l e c t   t h e   c l us t e r   c e nt r o i ds ,   a n i t e ra t i v e l y   upda t e s   t h e s e   c e n t r o i ds   t o   de c r e a s e   t h e   ob j e c t i ve   f un c t i o n   i n   (4) .   T h e   a l go ri t hm   w i l l   ke e upda t i ng  t h e   c l us t e c e n t r o i ds   u nt i l   t h e   l o c a l   m i ni m u m   i s   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   c om par at i v e   s t ud y   on   d i m e ns i onal i t y   r e duc t i on  b e t w e e n   pr i nc i pal   c om pone nt .   ( Nor   A z ur M d. G ha ni )   755   fo un d.   A f t e r   o b t a i ni n t h e   de s i r e c l us t e r s ,   t h e   CF S   t e c hni q u e   i s   r e - a pp l y   t o   t h e   c l us t e r e da t a   f o r   r e duc i n t h e   f e a t ur e   i n   e a c h   c l us t e r.   T h e   f e a t u r e s   i n   e a c h   c l us t e r   a r e   ga t h e r e b a c t o ge t h e r   a s   t h e   i n pu t   da t a   f o r   t h e   c l a s s i f i c a t i o m o de l .           F i gu r e   2 .   T e xt   Cl a s s i f i c a t i o w i t h   f e a t u r e   s e l e c t i o us i ng  k - m e a n s   c l us t e ri n g       3. 2 .       C l as s i fi c at i o n   M o d e l   A   s upe r v i s e m a c hi n e   l e a rni ng  m o de l   i s   w i de l y   us e by   r e s e a r c h e s   t o   s o l v e   c l a s s i f i c a t i o n   p r o b l e m   [17] .   T h e   c l a s s i f i c a t i o n   m o de l   t ha t   w i l l   b e   us e i n   t h e   s t u dy   i s   K - N e a r e s t   N e i g h b o r   (K N N m o de l .   T h e   m o de l   i s   c l a i m e d   t o   b e   o n e   o f   t h e   m o s t   e f f e c t i v e   c l a s s i f i c a t i o n   m o de l s   i n   t e xt   m i ni ng  [ 18 - 19] .   K N N   i s   a i n s t a n c e - b a s e l e a rni ng  w h e r e   t h e   f u n c t i o n   i s   o nl y   a pp r o xi m a t e l o c a l l y   a nd  a l l   c o m pu t a t i o n   i s   do n e   du ri ng  t h e   c l a s s i f i c a t i o n.   D u ri n t h e   l e a rni ng   p r o c e s s ,   e a c i t e m   i s   a s s i g n e d   t o   a   c l a s s   r e p r e s e nt e b y   t h e   m a j o r i t y   l a b e l   o i t s   k - n e a r e s t   n e i g h b o r s   i n   t h e   t ra i ni ng  d a t a   s e t   [2 0] .   T hi s   s t ud y   us e t h e   de f a u l t   n e a r e s t   n e i g h b o r   r u l e   w i t h   t h e   K   v a l ue   e qu a l   t o   o n e .   T h e   ge n e ra l i z e ps e udo c o de   f o r   K N N   a l go r i t hm   [ 21 i s   r e p r e s e n t e i F i gu r e   3.   T h e   pe r f o rm a n c e   m e a s u r e s   us e t o   e v a l u a t e   t h e   t ra i ne d a t a   a r e   a c c u ra c y ,   pr e c i s i o n,   r e c a l l   a nd  F 1 - m e a s u r e .   T hi s   s t udy   a l s o   m e a s u r e s   t h e   e xe c u t i o n   t i m e   o f   e a c h   c l a s s i f i c a t i o n   m o de l   b e c a us e   i t   i s   a l s o   o n e   o f   t h e   i m po r t a nt   r e s u l t   c a b e   m e a s u r e d   f r o m   a   s t udy   [2 2] .           F i gu r e   3.   K N N   A l go ri t hm       4.   R ES U LTS   A ND  D IS C U S S I O N     A   f e a t ur e   s e l e c t i o t e c hni que   i s   i nt r o duc e t o   r e duc e   a   d a t a   c o m pl e xi t y   b e fo r e   pe r f o r m i ng  c l a s s i f i c a t i o n   m o de l .   T hi s   s t udy   fo un i n t e r e s t i ng  o ut c o m e s   r e l a t e t o   us e f ul n e s s   of   k - m e a n s   c l us t e r i ng  t o   r e duc e   t h e   di m e n s i o n a l i t y   of   h i g f r e que n c y   da t a   s e t .   T h e   p e r f o r m a n c e   e v a l ua t i o n   f o r   t w o   r e a l   da t a   s e t s   us e d   i n   t h e   s t udy   i s   s h o w n   i T a b l e   a nd  3   a c c o r di n g l y .   Bo t h   d a t a   s e t s   a r e   p a rt i t i o n e i n t o   70%   o f   t ra i ni n t e xt   Evaluation Warning : The document was created with Spire.PDF for Python.
            IS S N :   2 502 - 47 52   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 6 ,   N o .   2 N o v e m be r   2 01 9   :   7 52 - 75 8   756   da t a   a n 30%  o f   t e s t i n t e xt   da t a .   T h e r e   a r e   t hr e e   K N N   m o de l s   i n v o l ve   w h i c h   a r e   n o   fe a t u r e   s e l e c t i o n   (K N N ),   f e a t u r e   s e l e c t i o n   us i n K - M e a n s   Cl us t e ri n g   ( K M - K N N a n d   f e a t ur e   s e l e c t i o us i n g   P CA     (P CA - K N N ).         T a b l e   2 .   P e r f o r m a n c e   M e a s u r e   f o r   B a by   D a t a   S e t   M o d e l   A c c u ra c y   ( % )   P re c i s i o n   Re c a l l   F1 - M e a s u r e   E x e c u t i o n   T i m e   ( S e c o n d )   K N N   9 7 . 1 8   0 . 9 7 1 7   0 . 9 7 6 7   0 . 9 7 9 3   0 . 8 1   P C A - K N N   9 7 . 1 8   0 . 9 7 1 7   0 . 9 7 6 7   0 . 9 7 9 3   1 . 5 6   KM - K N N   9 7 . 1 8   0 . 9 7 1 7   0 . 9 7 6 7   0 . 9 7 9 3   1 . 0 6       T a b l e   3 .   P e r f o r m a n c e   M e a s u r e   f o r   S MS   S p a m   D a t a   S e t   M o d e l   A c c u ra c y   ( % )   P re c i s i o n   Re c a l l   F1 - M e a s u r e   E x e c u t i o n   T i m e   ( S e c o n d )   K N N   9 5 . 1 6   0 . 9 7 0 1   0 . 8 0 2 6   0 . 7 2 6 8   5 1 0 . 5 9   P C A - K N N   9 5 . 3 4   0 . 9 7 4 8   0 . 8 0 7 9   0 . 7 3 2 2   1 5 8 7 . 0 3   KM - K N N   9 5 . 5 2   0 . 9 5 6 1   0 . 8 2 8 0   0 . 7 6 8 6   4 9 0 . 8 1       T h e   pe r f o r m a n c e   o t h e   t hr e e   m o de l s   a r e   s i m i l a r   f o r   b a by   da t a   s e t .   H ow e ve r ,   t h e   K N N   w o r ks   f a s t e r   t h a n   t h e   o t h e r   t w o   m o de l s .   M e a n w hi l e ,   t h e r e   i s   a n   i m p r o v e m e nt   f o r   t h e   pe r f o r m a n c e   of   K M - K N N   c o m pa r e d   t o   o t h e r   m o de l s   f o r   s m s   s pa m   da t a   s e t .   I n   a dd i t i o n ,   t h e   m o de l   a l s o   c o n s um e s   l e s s   c o m put a t i o n   t i m e .   F r o m   t h e   c o m pa ri s o n ,   i t   i s   s h o w n   t h a t   a n   a c c ura c y   o a   s m a l l   da t a   s e t   m a y   n o t   b e   a ff e c t e by   a   m o d e l   w i t h o ut   a n y   f e a t ur e   s e l e c t i o n   t e c hni que s .   H ow e ve r ,   t h e s e   t e c hni que s   s e e m   t o   h e l i n   i n c r e a s i n t h e   m o de l   a c c ura c y   a n d   e ff i c i e n c y   fo r   a   l a rge   da t a   s e t .   T h i s   s t udy   h a s   a l s o   fo un t ha t   P CA   i s   a b l e   t o   r e duc e   da t a   di m e n s i o na l i t y   b ut   i t   r e qui r e s   a   c e r t a i a m o unt   o f   t i m e   t o   t r a n s f o r m   t h e   d a t a   b e f o r e   pe r f o r m i n t h e   c l a s s i f i c a t i o n   m o de l .   T hi s   s t u d y   ha s   a l s o   ob s e r ve t h e   pe r f o r m a n c e   o f   bo t h   f e a t u r e   s e l e c t i o n   t e c hn i q ue s   t hr o ugh  s i m ul a t i o n   d a t a .   T h e   c o m pa ri s o n   b e t w e e n   t h e   t hr e e   m o de l s   a r e   v i s ua l i z e d   i F i gu r e   4.                     F i gu r e   4 .   Co m p a r i s o o f   A c c ur a c y   a n E xe c ut i o T i m e   b e t w e e n   T hr e e   K N N   M o de l s   fo r   S i m u l a t i o D a t a       It   i s   s h o w n   t h a t   t h e   a c c u r a c y   of   t h e   da t a   i s   r e m a i n e d   t h e   s a m e   a f t e r   a pp l y i n f e a t u r e   s e l e c t i o n   t e c hn i q ue s   s uc h   a s   P CA   a n K - M e a n s   Cl us t e ri n g .   T h e   po s s i b l e   e xpl a n a t i o i s   a   f e a t ur e   s e l e c t i o n   t e c hn i que   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   c om par at i v e   s t ud y   on   d i m e ns i onal i t y   r e duc t i on  b e t w e e n   pr i nc i pal   c om pone nt .   ( Nor   A z ur M d. G ha ni )   757   m a y   a c t   a s   a   w a y   t o   r e duc e   t h e   di m e n s i o n a l i t y   a nd  e a s e   t h e   c o m put a t i o n   o f   K N N   m o de l   b ut   i t   do e s   n o t   i n f l ue n c e   t h e   pe r f o r m a n c e   o f   t h e   m o de l .   T hi s   r e s ul t   i s   s up po r t e by   pr e v i o us   s t udi e s   w h e r e   t h e y   c l a i m e t h e r e   i s   a   h i g t e n de n c y   t h a t   t h e   c o m pl e xi t y   of   t h e   c o m p ut a t i o n   i s   b e i n r e duc e w i t h o ut   a f f e c t i n t h e   pe r f o r m a n c e   o f   a   c l a s s i f i c a t i o n   m o de l   [ 23 - 24] .   H e n c e ,   t h i s   s t udy   fo un t ha t   t h e   a c c u r a c y   of   K N N   m o de l   r e m a i n s   t h e   s a m e   w i t t h e   a pp l i c a t i o n   o f   f e a t ur e   s e l e c t i o n   t o w a r ds   n o r m a l l y   di s t ri b ut e da t a   s e t .     It   i s   a l s o   a ppa r e nt   f r o m   F i gu r e   4.   t ha t   P CA   r e qu i r e s   a   l o t   of   t i m e   t o   t r a n s f o r m   t h e   da t a   w i t h   t h e   i n c r e a s e s   n u m b e r   o f   s a m pl e s   a nd  f e a t u r e s .   T h e   r e s ul t   i n   l i n e   w i t h   p r e v i o us   s t udi e s   t h a t   f o un t h e   di s a dv a n t a ge   o f   P CA   w h e n   a p pl i e t o   l a rge   da t a s e t s   w h e r e   a   h uge   a m o u n t   o f   t i m e   i s   r e qui r e i n   pe r f o r m i n g   a n   e i ge n v a l ue   de c o m po s i t i o n   t o   f i n d   t h e   p ri n c i p a l   c o m po n e n t s   [9 ,   25 ] .   M e a n w hi l e ,   i t   i s   n o t i c e a b l e   t h a t   t h e   e xe c ut i o n   t i m e   f o r   K M - K N N   i s   ge t t i n g   c l o s e r   t o   K N N   m o de l   a s   t h e   num b e r   o f   fe a t ur e   i n c r e a s e s   f r o m   100  t o   10000.   T hi s   s h o w s   t ha t   K - M e a n s   c l us t e ri n i s   us e f ul   i r e du c i n g   t h e   da t a   di m e n s i o n a l i t y   w i t l e s s   a m o un t   o t i m e   f o r   h i g f r e que n c y   da t a   s e t .         5.   C O N C LU S I O N   T h i s   s t udy   i s   m a i n l y   fo c us e o n   e v a l ua t i n t h e   e ff i c i e n c y   of   K N N   m o de l   us i n f e a t ur e   s e l e c t i o n   t e c hn i q ue s .   T h e   m o s t   o bv i o us   f i n di ng  t o   e m e r ge   f r o m   t h i s   s t udy   i s   t ha t   k - m e a n s   c l us t e r i n g   h e l ps   i i n c r e a s i ng  t h e   e ff i c i e n c y   of   K N N   m o de l   fo r   a   l a r ge   da t a   s e t .   T h i s   s t u d y   h a s   a l s o   i de n t i f i e t ha t   K N N   m o de l   w i t h o ut   f e a t ur e   s e l e c t i o n   t e c h ni que   i s   s ui t a b l e   fo r   a   s m a l l   d a t a   s e t .   T h e   p r o po s e f e a t ur e   s e l e c t i o n   t e c h ni que   w i t us i n K - M e a n s   c l us t e r i ng  pe r f o r m s   b e t t e r   t ha n   t h e   e xi s t i ng  w e l l - k n o w n   f e a t ur e   s e l e c t i o n   t e c hni q ue   w h i c h   i s   P CA .   T h i s   t e c hni que   i s   h e l pf ul   b e c a us e   r e s e a r c h e r s   o f t e n   d e a l   w i t h   l a rge   n um b e o f   fe a t ur e s   e s pe c i a l l y   i n     t e xt   m i ni n g .         A C K N O WL ED G E M EN TS     T h e   r e s e a r c h   i s   f i n a n c i a l l y   s upp o r t e by   t h e   U n i v e r s i t y   T e kn o l o gi   M A R A   a n M i ni s t r y   of   E duc a t i o n   M a l a y s i a   un de r   t h e   G ra n t   S c h e m e   (600 - IR M I/ F R G S   5/ (12 0/   2019)) .   T h e   a ut h o r s   w o ul l i ke   t o   e xpr e s s   t h e i s i n c e r e   a pp r e c i a t i o n   t o   t h e   D e pa rt m e nt   o f   S t a t i s t i c s   M a l a y s i a   f o r   p r o v i di ng  k n o w l e dge   a n da t a   s uppo rt s .       R EF ER EN C ES     [ 1]   M o ha m m a F i kr i   a nd  R i y a na r t o   S a r no ,   " A   c om pa r a t i v e   s t u dy   of   s e nt i m e nt   a na l y s i s   us i ng   S V M   a nd   S e nt i W o r dN e t , "   I n done s i an  J ou r na l   o f   E l e c t r i c al   E ngi ne e r i ng  and   C om put e r   Sc i e nc e   ( I J E E C S) ( 3 ) ,   p p .   90 2 - 909 ,   M a r   2 019 .     [ 2]   S .   H a v r e ,   E .   H e t z l e r ,   P .   W hi t ne y ,   &   L .   N o w e l l .   T he m e R i v e r . ,   " V i s u a l i z i ng   t he m a t i c   c ha ng e s   i l a r g e   do c um e nt   c o l l e c t i o ns , "   I E E E   T r ans ac t i o ns   on   V i s ua l i z a t i on   and   C om p ut e r   G r aphi c s v o l .   8( 1) ,   pp .   9 - 20,   J a n   2002 .   [ 3]   S .   H ua ng ,   M .   O .   W a r &   E .   A .   R und e ns t e i ne r . ,   " E x pl o r a t i o o f   di m e ns i ona l i t y   r e duc t i o f or   t e x t   v i s ual i z at i on ,"   i n   P r o c .   I E E E   T hi r I nt l .   C o nf .   o C o o r di na t e a nd   M ul t i pl e   V i e w s   i E xpl o r a t o r y   V i s ua l i z a t i o n ,   pp .   63 - 74 ,   J u l   2005 .   [ 4]   J .   V e r be e k . Supe r v i s e f e at ur e   e x t r a c t i on  f or   t e x t   c a t e gor i z a t i on ,   i T e nt B e l g i a n - D ut c C o nf e r e nc e   o M a c hi ne   L e a r ni ng   ( B e n e l e a r n‟ 00) ,   200 0.   [ 5]   M uh a m m a A r i f   M o ha m a d ,   H a s w a d i   H a s s a n ,   D e w i   N a s i e &   H a bi bo l l a H a r o n . ,   " A   R e v i e w   o F e a t u r e   E xt r a c t i o a nd  F e a t u r e   S e l e c t i o f o r   H a ndw r i t t e C ha r a c t e r   R e c og ni t i o n , "   I n t e r nat i on al   J o ur n al   o f   A dv an c e C om put e r   Sc i e nc e   an A ppl i c at i on s ( I J A C SA ) v o l .   6 ( 2) ,   2015 .   [ 6]   A . I .   T a l o ba ,   D . A .   E i s a   &   S . S . A .   I s m a i l . ,   " C o m pa r a t i v e   S t udy   o us i ng   P r i nc i p l e   C o m po ne nt   A na l y s i s   w i t h   D i f f e r e n t   T e x t   C l a s s i f i e r s " .   C o R R ,   a bs / 18 07 . 032 83.   2 018 .   [ 7]   S .   L .   L a m   a nd  D .   L .   L e e ,   " F e at ur e   r e duc t i on  f or   ne ur a l   ne t w or k   bas e t e x t   c at e gor i z at i on ,"   i D a t a ba s e   S y s t e m s   f o r   A d v a nc e A ppl i c a t i o ns ,   1 999 .   P r o c e e di ng s . ,   6 t h   I nt e r n a t i o na l   C o nf e r e nc e   o n,   I E E E ,   pp .   195 - 202 ,   199 9.     [ 8]   A .   S e l a m a t   a nd   S .   O m a t u,   " W e pa g e   f e a t ur e   s e l e c t i o a nd  c l a s s i f i c a t i o us i ng   ne ur a l   n e t w o r k s , "   I n f o r m at i o n   Sc i e nc e s ,   v o l .   158 ,   pp .   69 - 88,   2 004 .   [ 9]   T he nd r a l   T h a r m a l i ng a m   a n d   V i j a y a   V i j a y a kum a r ,   " A   H y br i L i ne a r   K e r ne l   w i t P C A   i S V M   P r e di c t i o M o de l   o f   T a m i l   W r i t i ng   P a t t e r n , "   I n t e r na t i ona l   J o ur n al   of   Si m u l a t i on  S y s t e m s ,   Sc i e nc e   &   T e c hnol ogy   ( I J SS T ) ,   19 . 0 4. 2 1,     A u g   2018 .   [ 10]   S .   J .   D e l a ny ,   M .   B uc k l e y   &   D .   G r e e ne . ,   " S M S   s p a m   f i l t e r i ng:   M e t ho ds   a n da t a , "   E x pe r t   S y s t e m s   w i t h   A ppl i c a t i ons ,   v o l .   3 9 ( 10 ) ,   pp.   9 899 - 990 8,   20 12 .     [ 11]   T . A .   A l m e i d a ,   J . M .   G Ã ³ m e z   H i da l g o ,   A.   Y a m a k a m i . C on t r i bu t i o ns   t o   t he   St udy   of   S M S   Spam   F i l t e r i ng :   N e w   C ol l e c t i on  a nd  R e s u l t s ,   P r o c e e d i ng s   o f   t he   2011   A C M   S y m p o s i um   o D o c um e nt   E ng i ne e r i ng   ( D O C E N G ' 11) ,   M o unt a i n   V i e w ,   C A ,   U S A ,   2011 .   [ 12]   S .   P e r k i n s ,   K .   L a c ke r   &   J .   T h e i l e r ,   " G r a f t i ng :   F a s t ,   I nc r e m e nt a l   F e a t u r e   S e l e c t i o by   G r a d i e n t   D e s c e nt   i n   F unc t i o S pa c e , "   J M L R v o l .   3,   p p .   133 3 - 1356 ,   M a r   200 3.   [ 13]   N o r s y e l a   M uha m m a N o o r   M a t h i v a na n ,   N o r   A z ur a   M G ha ni ,   R o z i a M o hd  J a no r . ,   " I m pr ov i ng   C l a s s i f i c a t i o n   A c c ur a c y   U s i ng   C l us t e r i ng   T e c hni qu e , "   B u l l e t i of   E l e c t r i c a l   E ngi ne e r i n and   I n f o r m at i c s   ( B E E I ) ,   v o l .   7 ( 3 )   pp.   46 5 - 470,   S e p   2018 .     Evaluation Warning : The document was created with Spire.PDF for Python.
            IS S N :   2 502 - 47 52   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 6 ,   N o .   2 N o v e m be r   2 01 9   :   7 52 - 75 8   758   [ 14]   N o r s y e l a   M uha m m a N o o r   M a t h i v a na n ,   P uz z i a w a t i   A G ha n i ,   N o r   A z ur a   M G h a ni . ,   " T r a c i ng   M a t he m a t i c a l   F unc t i o o f   A g e   S pe c i f i c   F e r t i l i t y   R a t e   i P e ni n s u l a r   M a l a y s i a , I n done s i a J o ur n al   of   E l e c t r i c a l   E ng i ne e r i ng   and   C om put e r   Sc i e nc e   ( I J E E C S) , v ol   9 ( 3 ) ,   pp .   637 - 64 2,   20 18 .   [ 15]   I .   M .   U m e s h,   G .   N .   S r i n i v a s a &   M a t he u s   T o r qu a t o ,   S o f t w a r e   A g i ng   F o r e c a s t i ng   U s i ng   T i m e   S e r i e s   M o de l ,   I ndo ne s i an   J our nal   o f   E l e c t r i c a l   E ngi ne e r i ng   and   C om p ut e r   Sc i e nc e   ( I J E E C S) ,   V o l   8 ( 3) ,   pp .   589 - 59 6. 2 017 .   [ 16]   N ur   A z i m a A bdul   R a hi m ,   N o r   A z ur a   M G ha n i ,   N o r a z a M o h a m e d,   H i s h a m udd i H a s hi m   &   I s m a i l   M us i r i n .   T he   A ppl i c a t i o o f   M o di f i e L e a s t   T r i m m e S qua r e s   w i t G e n e t i c   A l g o r i t hm s   M e t ho i F a c e   R e c o g ni t i o n ,   I ndo ne s i an   J our nal   o f   E l e c t r i c a l   E ngi ne e r i ng   and   C om p ut e r   Sc i e nc e   ( I J E E C S) ,   v ol .   8 ( 1) ,   pp .   154 - 158 .   20 17.   [ 17]   N o r   A z ur a   M G h a ni ,   S a a di   bi A hm a K a m a r ud di n,   N o r a z a M o ha m e R a m l i ,   I s m a i l   M us i r i &   H i s ha m ud di n   H a s h i m . ,   " M o di f i e B P N N   v i a   I t e r a t e L e a s t   M e d i a S q ua r e s ,   P a r t i c l e   S w a r m   O pt i m i z a t i o a nd  F i r e f l y   A l go r i t hm , "   I n done s i an  J ou r n a l   of   E l e c t r i c al   E ng i ne e r i ng  a nd  C om put e r   Sc i e nc e   ( I J E E C S) ,   v ol .   8( 3) ,     pp.   77 9 - 786,   2 017 .   [ 18]   N o r s y e l a   M u ha m m a N o o r   M a t hi v a n a n ,   N o r   A z ur a   M G h a ni   &   R oz i a M o hd  J a no r . ,   " E - C o m m e r c e   P r o duc t   C l a s s i f i c a t i o U s i ng   S up e r v i s e L e a r ni ng   M o de l s , "   I nt e r na t i ona l   J o ur n al   o f   E ngi ne e r i ng  &   T e c hnol o gy ,   v o l .   8( 1 . 7 ) ,   pp .   214 - 218 ,   201 9.   [ 19]   D .   H a nd ,   e t   a l . ,   " P r i nc i p l e s   o f   da t a   m i n i ng ,"   I n t e r na t i ona l   j our n al   o f   m e di c a l   t ox i c o l og y   and  d r ug  e x pe r i e nc e   v o l .   30,   2 001 .   [ 20]   S .   K a n j ,   F .   A bda l l a h ,   T .   D e no e ux  &   K .   T o ut ., " E d i t i ng   t r a i ni ng   da t a   f o r   m ul t i - l a b e l   c l a s s i f i c a t i o w i t t he   k - n e a r e s t   ne i g hbo r   r u l e ,"   P at t e r A nal .   A pp l . ,   v o l .   1 9( 1 ) ,   p p.   14 5 - 161,   2 015 .   [ 21]   S . B .   I m a ndo us t   a nd  M .   B o l a ndr a f t a r ,   " A ppl i c a t i o o f   K - N e a r e s t   N e i g hbo r   ( K N N )   A ppr o a c f o r   P r e di c t i ng   E c o n o m i c   E v e nt s :   T he o r e t i c a l   B a c kg r o und ,"   I nt e r na t i ona l   J ou r n al   of   E ng i ne e r i ng   R e s e ar c h   and   A p pl i c a t i ons   v o l .   3( 5 ) p p.   60 5 - 610 ,   2 013 .   [ 22]   N o r   A z ur a   M G h a ni ,   S a a di   bi A hm a K a m a r ud di n,   N o r a z a M o ha m e R a m l i ,   I s m a i l   M us i r i &   H i s ha m ud di n   H a s h i m . ,   " E nha nc e B F G S   Q ua s i - N e w t o B a c k pr o pa g a t i o M o de l s   o M C C I   D a t a , "   I nd one s i a J ou r na l   o f   E l e c t r i c al   E ng i ne e r i ng   a nd  C om pu t e r   S c i e nc e   ( I J E E C S) ,   v ol .   8 ( 1 ) ,   pp.   10 1 - 106,   2 017 .   [ 23]   R .   K .   B a ni a . ,   " S u r v e y   o F e a t u r e   S e l e c t i o f o r   D a t a   R e duc t i o n, "   I nt e r na t i ona l   J ou r na l   o f   C om pu t e r   A pp l i c a t i ons v o l .   94,   pp .   1 - 7,   2 014 .   [ 24]   Z .   M .   H i r a   a nd  D .   F .   G i l l i e s ,   " A   R e v i e w   o f   F e a t ur e   S e l e c t i o a nd  F e a t u r e   E xt r a c t i o M e t h o ds   A ppl i e o n   M i c r o a r r a y   D a t a , "   A dv an c e s   i n   B i oi n f o r m at i c s ,   v o l .   2015 ,   A r t i c l e   I D   198 363 ,   13  pa g e s ,   2015 .   [ 25]   E .   M a r t e l ,   R .   L a z c a no ,   J .   L ópe z , ,   D .   M a dr o ña l ,   R .   S a l v a do r ,   S .   L óp e z ,   E .   J ua r e z ,   R .   G u e r r a ,   C .   S a nz ,   R .   S a r m i e n t o . " I m pl e m e nt a t i o o f   t he   P r i nc i pa l   C o m po ne nt   A na l y s i s   o nt o   H i g h - P e r f o r m a nc e   C o m put e r   F a c i l i t i e s   f o r   H y pe r s pe c t r a l   D i m e n s i o na l i t y   R e d uc t i o n:   R e s ul t s   a nd   C o m pa r i s o ns , "   R e m ot e   Se ns . v o l .   10 ( 6) ,   pp .   864 .   2018 .       B I O G R A P H I ES   O F   A U T H O R S           N o r s y e l a   M uha m m a N o o r   M a t hi v a n a i s   no w   a   do c t o r a t e   s t ud e n t   i t he   C e nt e r   f o r   S t a t i s t i c a l   S t ud i e s   a n D e c i s i o S c i e nc e s ,   F a c ul t y   of   C o m put e r   a n M a t h e m a t i c a l   S c i e nc e s ,   U n i v e r s i t i   T e kno l o g i   M A R A ,   M a l a y s i a   u nde r   t h e   s up e r v i s i o o f   N o r   A z ur a   M d .   G ha n i   a nd  R o z i a M o hd   J a no r .   H e r   r e s e a r c i n t e r e s t   r e l a t e d   t o   bi g   da t a ,   t e x t   m i n i ng   a n m a c hi ne   l e a r n i ng .     E - m a i l :   s y e l a m o hdnoo r @g m a i l . c o m           N o r   A z ur a   M d. G h a n i   i s   a A s s o c i a t e   P r o f e s s o r   i n   C e n t e r   f o r   S t a t i s t i c a l   S t u di e s   a nd  D e c i s i o S c i e nc e s ,   F a c ul t y   of   C om put e r   a nd  M a t he m a t i c a l   S c i e nc e s ,   U ni v e r s i t i   T e kno l o g i   M A R A ,   M a l a y s i a .   S he   i s   a l s o   H e a o f   D a t a   R e s e a r c U n i t ,   R e s e a r c M a n a g e m e nt   C e n t e r ,   I ns t i t ut e   R e s e a r c M a n a g e m e nt   &   I nnov a t i o n,   U ni v e r s i t i   T e k no l o g i   M A R A ,   M a l a y s i a   a nd  V i c e   C ha i r   I E E E   C om put e r   S o c i e t y   M a l a y s i a   C ha p t e r .   H e r   e xpe r t i s e   i s   bi g   da t a ,   s t a t i s t i c a l   pa t t e r n   r e c o g ni t i o a n f o r e n s i c   s t a t i s t i c s .   E - m a i l :   a z ur a @ t m s k . u i t m . e du . m y           R o z i a M o hd  J a no r   i s   a   P r o f e s s o r   o f   S t a t i s t i c s   a t   t he   F a c ul t y   of   C o m put e r   a nd  M a t h e m a t i c a l   S c i e nc e s ,   U n i v e r s i t i   T e kno l o g i   M A R A   ( U i T M ) ,   M a l a y s i a .   C u r r e nt l y   s he   i s   s e r v i ng   a s   t h e   A s s i s t a n t   V i c e   C ha nc e l l o r   a t   t he   I ns t i t u t e   Q ua l i t y   &   K no w l e dg e   A dv a nc e m e nt ,   U i T M   a nd   s h e   i s   no w   ov e r s e e i ng   a l l   t he   qua l i t y   i ni t i a t i v e s   o f   t he   un i v e r s i t y ,   i nc l udi ng   i ns t i t u t i o na l   a c c r e di t a t i o n ,   pr o g r a m m e   a c c r e di t a t i o n,   qua l i t y   e xc e l l e nc e   m o de l ,   q ua l i t y   m a na ge m e nt   s y s t e m s ,   I nno v a t i o @   W o r a nd  t he   U n i v e r s i t y   R a nki ng   P r o j e c t .   S i nc e   20 18 ,   s he   s e r v e s   a s   t h e   P r e s i de n t   o f   t he   M y Q A N ,   a   qu a l i t y   a s s ur a nc e   ne t w o r f o r   a l l   M a l a y s i a n   hi g he r   e duc a t i o i n s t i t ut i o ns .     E - m a i l :   r o z i a hm j @ ui t m . e du . m y     Evaluation Warning : The document was created with Spire.PDF for Python.