I n t ern a t i o n a l  J o u rn a l  o f  E l ect ri ca l  a n d  C o m p u t er E n g i n eeri n g  ( I J E C E )   V o l.   8 ,  No .   5 O c t obe r   20 1 8 ,  p p.  31 94~ 3 203   I S S N :  2088 - 8708 D O I :  10. 11 591/ i j ece . v8 i 5 . pp 319 4 - 3203          3194       Jou r n al  h om e p age h ttp : //ia e s c o r e . c o m/ j our nal s / i nde x . php/ I J E C E   E f f ec t  o f   F ea t ur Select io n o n   G e ne  E x pres s io n   D a ta s e ts   Cla s s if ica t io n Acc ura cy         H i c h a m  O m ar a,  M oh am e d  L az aar ,  Y ou n e s s  T ab i i   U n i v er s i t y   A b d el m al a k  E s s a ad i ,   N at i o n al  S ch o o l  o f  A p p l i ed   S ci en ces  T et u an ,  M o r o cco       A rt i cl e I n f o     AB S T RAC T     A r tic le  h is to r y :   R ecei v ed   D ec 5 ,  201 7   Re v i se d   J a n 4 ,  201 8   A ccep t ed   S e p 17 ,  2 01 8       F eat u r e s el ect i o n  at t r act s  r e s ear c h er s  w h o  d eal   w i t h   m a ch i n e l ea r n i n g  an d   d a ta   m in in g .  I t c o n s is ts  o f  s e le c tin g  th e  v a r ia b le s  th a t h a v e  th e  g r e a te s t   i m p act  o n  t h e d at as et  cl as s i f i cat i o n ,  a n d   d i s car d i n g  t h e r es t .  T h i s   d im e n tio n a lity  r e d u c tio n  a llo w s  c la s s if i er s  t o  b f as t  an d   m o r e ac c u r at e.  T h i s   p ap er  t r ai t s   t h e ef f e ct  o f  f e at u r e s el ect i o n   o n  t h e  accu r ac y  o f   w i d el y  u s ed   cl as s i f i er s  i n  l i t er at u r e.  T h es e cl as s i f i er s  ar co m p ar ed  w i t h  t h r ee r eal   d at as et s  w h i ch  ar e p r e - p r o ces s ed  w i t h  f eat u r e s el ect i o n  m et h o d s .   M o r e t h an   9%  a m e l i or a t i on i n c l a s s i f i c a t i on a c c ur a c y  i s  obs e r v e d,  a nd k - m ea n s  ap p ear s   t o  b t h e m o s t  s en s i t i v e cl as s i f i er  t o  f eat u r e s el ect i o n   Ke y wo rd :   A cc u r ac y   C la s s i f ic a tio n   F eat u r e s el ect i o n   M i cr o ar r ay  g e n e ex p r es s i o n   C opy r i g ht   ©  201 8   I n s tit u te  o A d v anc e E ngi ne e r i ng an d Sc i e nc e   A l l  ri g h t s re se rv e d .   Co rre sp o n d i n g  Au t h o r :   H i c h a m O ma r a   N at i o n al  S c h o o l  o f   A p p l i ed  S ci en ces  T et u an ,   U ni ve r s i t A b d e l m a l a k E s s a a d i ,   M o r o cc o .   E m a il:  h ic h a m o m a r a @ g m a il. c o m       1.   I NT RO D UCT I O N     I n  r ecen t   y ear s ,  t h e d at a i s   ex p o n en t i al l y  e x p an d ed ,  s o  t h ei r  ch ar act er i s t i cs ,  t h er ef o r e,  r ed u ci n g  t h e   s i ze o f  t h e d at a b y  r e m o v i n g   v ar i ab l es  t h at  ar e i r r el ev an t  o r  t h at  ar e r ed u n d an t  an d  s el ec t i n g  o n l y  t h m o s t   s i g n i f i ca n t  acco r d i n g  t o  s o m e  cr i t er i o n  h a s  b eco m e a r eq u i r e m en t  b ef o r e a n y  cl a s s i f i cat i o n ,  t h i s  r ed u ci n g   s h o u l d  g i v e t h e b es t  p er f o r m a n ce acco r d i n g   t o s o m e  obj e c t i v e   f un c t i o n  [ 1] - [5 ].   D N A   m i c r oa r r a y  t e c h n ol ogy  ha s  t he  a b i l i t y t o   s t ud y  t ho u s a nd s  o f  ge ne s   s i m u l t a ne o us l y i n a  s i n gl e  e xp e r i m e nt .  T hi s   t e c hno l o g y p r o vi d e s  a   l ar g a m o u n t  o f  d at a f r o m   w h i ch   m u ch   k n o w l ed g e can  b e p r o ces s ed .  A  s et  o f   m i cr o ar r a y  g e n e ex p r es s i o n   d at a can  b e r ep r es en t ed  i n  t ab u l ar  f o r m ,  i n   w h i c h  each  l i n e r ep r es en t s  a p ar t i cu l ar  g e n e,  each  co l u m n   a   s a m p l e a n d  each  en t r y  o f  t h m at r i x  i s  t h m ea s u r ed  l e v el   o f  ex p r es s i o n   g en e i n  a s a m p l e.  R es ear ch er s   h a v e a  d at ab as e o f   m o r e t h a n  4 0 , 0 0 0   g en s eq u e n ces  t h at  t h e y  ca n   u s f o r  t h i s  p u r p o s e.  U n f o r t u n at el y ,  t h e en o r m o u s   s i ze o f  D N A   m i cr o ar r a y  ca u s es  a p r o b l em   w h e n  i t  t r eat ed  b y  cl u s t er i n g  o r  cl as s i f i cat i o n  al g o r i t h m s   s uc h a s   SO M ,   K - m e a ns ,   K N N  …  or   ot h e r ;   s pr e - p r o ces s i n g   t h e   d at b ef o r eh an d   b y  r ed u c i n g   i t s   s i ze b eco m e s  a   n eces s i t y .  F eat u r e s el ect i o n   co n s i s t s  o f  ch o o s i n g  a  s u b s e t  o f  i n p u t  v ar i ab l es  an d  d el et i n g  r ed u n d an t  o r   ir r e le v a n t e n ti tie s   f r o m   th e  o r ig in a l d a ta s et .   C o n s eq u en t l y ,  t h e e x ecu t i o n  t i m f o r  cl as s i f i ca t i o n  t h e d at a   d ecr eas es ,  an d  t h e accu r ac y  i n cr eas es  [ 6 ] .   F eat u r e s e l ect i o n  a l g o r i t h m s   ar e d i v i d ed  i n t o  t h r ee cat eg o r i es ;  f i l t er s ,   w r ap p er s  an d  e m b ed d ed   o r   h y b r id  s e le c to r s  [ 7 ] ,  [ 8 ] .  T h e  f ilte r s  e x tr a c f e a t ur e s   f r o m   t h e  d a t a   w i t ho ut  a n y l e a r ni ng  i n vo l ve d  b y r a n ki n a ll f e a t u r e s  a n d c h os e n   t op on e s  [ 9] - [ 1 1 ] .  T h er w er s e v er al  a n d   w i d el y   u s ed   f i l t er  i n  l i t er at u r e,  l i k e:   In f o r m a t i o n  G a i n  (IG ) [1 2 ]   t h at  r an k s   f eat u r e s  b as ed  o n  a r el ev an c y  s co r w h i c h  i s  b as ed   o n e a c h i nd i vi d ua l   a ttr ib u te .   C o r r e la tio n - b a s ed  F eat u r e S el ect i o n  ( C F S )  al g o r i t h m s  l o o k s   f o r  f eat u r es  t h at  ar e h i g h l y  co r r el at ed   w i t t he  c l a s s   w h i c h ha s   no   o r   m i n i m a l  c o r r e l a t i o w i t e a c h o t he r  ( H a l l ,  2 0 0 0 ) .  M i ni m u m  R e d und a nc M ax i m u m  R el e v a n ce ( m R MR )  [ 8 ]  t h at  m a x i m i zes  t h e r el ev an c y  o f  g e n e s   w i t h  t h e cl as s  l ab el  an d  m i n i m i zes   Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       E f f e c t  of  F e at ur e  Se l e c t i on  on  G e ne  E x pr e s s i on D at as e t s   ….   ( Hi c h a m Oma r a )   3195   t h e r ed u n d a n c y  i n  each  cl as s  u s i n g  M u t u a l  I n f o r m at i o n  ( MI )  m es u r es .  R el i ef  F  i s  al s o  w i d el y  u s ed   w i t h   can cer   m i cr o ar r a y  d at a [ 1 3 ] ;  i t  d et ect s  f eat u r es   w h i ch  ar e s t at i s t i cal l y  r el ev a n t to  th e  ta r g e c o n c e p t.   T h w r ap p er s  u s es  cl a s s i f y i n g  al g o r i t h m   t o  ev al u at w h i c h  f eat u r es  ar e u s e f u l ;  i t   m ea n s  t h at  t h e   f eat u r es   w er s el ect ed   t a k i n g   t h cl as s i f i cat i o n  al g o r i t h m   i n t o   acco u n t   [ 1 4 ] .   M an y   r es ea r ch es   h a v ap p l i ed   w r ap p er s  s el ect o r ,  l i k e  s t u d y   of  G h e y a s  a n d S m i t h  t h a t  pr opos e d a  n e w   m e t h od n a m e d s i m u l a t e d a nn e a l i ng  g e n e r i c  a l g or i t hm  ( S A G A ) ,   w h i c h  i n c or por a t e s  e x i s t i ng   w r a ppe r  m e t h ods  i n t o a  s i n g l e   s ol u t i on  [ 15] .  L D A - b as ed  G en et i A l g o r i t h m  ( L D A - G A )  pr opos e d by  H u e r t a  e t  a l  i n  [ 16] ;  t h i s   m e t h od a ppl i e d t - s ta ti s tic  f ilte r  to   r e t a i a   gr o up   o f   p   t o p   r a nki ng  ge ne s ,   a nd   us e d   t he   L D A - b as ed   G A .   L eav e - o ne - o u c a l c u la tio n   s e q u e n tia l   f o r w ar d  s el ect i o n  ( L O O C S F S )  al g o r i t h m   t h at  co m b i n e t h e l eav e - o ne - o u t c a lc u la tio n  m e a s u r e   w it h  t h e   s eq u en t i al  f o r w ar d  s e l e c t i on s c h e m e  pr opos e by  T a n g e t  a l  [ 17 ] .  G e n e t i c  A l g or i t hm - S u ppor t  V e c t or   M ach i n e ( G A - S V M )  cr eat es  a p o p u l at i o n  o f  ch r o m o s o m e s  as  b i n ar y  s t r i n g s  t h at  r ep r es en t  t h e s u b s et  o f   f eat u r es  t h a t  ar e ev al u a t ed  u s i n g   S V M s  d ev e l o p ed  b y  P er ez  an d  M ar w al a i n  [ 1 8 ] .   T h e t h i r d  f i el d  o f   f eat u r s el e ct i o n  ap p r o ach es  i s  e m b ed d ed   m et h o d s .  I t  t a k es  ad v an t a g o f  t h e  t w o   m o d el s  b y  u s i n g  t h ei r  d i f f er e n t  ev al u at i o n  cr i t er i a i n  d i f f er e n t   s ear ch   s t a g es  [ 1 9 ] .  I n  t h i s  c as w e ca n  ci t e t h m o s t   w i de l y  a ppl i e d e m be dde d t e c h ni qu e s  ba s ed  o n   s u p p o r t  v ect o r   m ac h i n e b as ed  o n  R ec u r s i v e F eat u r e   E li m i n a tio n  ( S V M - R F E )  f o r  g en e s el ect i o n  an d  can cer  c l as s i f i cat i o n  p r o p o s ed   b y  G u y o n  et  al .  i n  [ 2 0 ] .   M al d o n ad o  et  al .  p r o p o s ed  an  e m b ed d ed  ap p r o ach  cal l ed  k er n el - p en al i zed  S V M ( K P - S V M )  b y  i nt r o d uc i ng  pe n a l t y  f a c t or  i n t h e  du a l   f or m ul a t i on of  S V M  [ 21] .  M u n dr a  e t  a l .   hy br i di z e d t w o  of   t h e   m o s t  popu l a r   f e a t u r e   s el ect i o n  ap p r o ach es :   S V M - R F E  a nd   m R M R  [ 2 2 ] .  C hua n e t  a l .   pr opos e d a  hy br i d a ppr o a c h  t h a t  hy br i di z e   co r r el at i o n  b as ed  f eat u r e s el ect i o n  ( C F S )  an d  T a guc hi - G en et i A l g o r i t h m  ( T G A )  an d  u s ed  K N N  as  t h e   cl as s i f i er   w i t h  t h e l ea v e - o ne - ou t  c r os s - v a l i da t i on  ( L O O C V )  [ 23] .  L e e  a n L i u  [ 24]  pr o pos e d a n  a ppr oa c h   cal l ed  G en et i c A l g o r i t h m  D y n a m i c P ar am e t er  ( G A D P )  f o r  p r o d u ci n g  ev er y  p o s s i b l e s u b s e t  o f  g en es  a n d   r a nk  t he  ge ne s   us i n g t he i r  o c c ur r e n c e  f r e q ue nc y.   T h er ef o r e,  t h i s  p ap er  at t e m p t s  t o  p r es en t  a r ev i e w  o f   w i d el y  u s ed  f ea t u r s el ect i o n  t ech n i q u es   f o cu s i n g  o n  can cer  cl as s i f i cat i o n .  I n  ad d i t i o n ,  o t h er  t as k s  r el at ed  t o  m i cr o ar r a y  d at a an al y s i s  al s o  h av e b ee n   r ev eal ed  s u c h  as   m i s s i n g   v al u es ,  n o r m al i zat i o n  a n d  d i s cr et i s at i o n .  F u r t h er m o r e,  co m m o n l y  u s ed  cl as s i f i cat i o n   m e t h ods   w e r e   di s c us s e d.  T h i s   s t u d y   e v a l u a t e f i v e   di f f e r e n t   f i l t e r  a l g or i t hm s :  R a n do m   f or e s t ,   i nf or m a t i on  ga i n   a nd   c hi - s q u ar ed   o n   t h r e can cer   d at as et s ;   a n d   ev al u a t ed   t h ei r   e f f ec t   o n   t h r ee  cl as s i f i cat i o n   al g o r i t h m :   S OM ,  KNN,  K - m e a ns  a nd  R a nd o m  F o r e s t .       2.   M ETH O D  A N D  M A TER I A LS   2. 1.     G en era l  B a ch g ro u n d   A n al y s i s  o f   g en e  ex p r es s i o n  d at a i s  p r i m ar i l y  b as ed  o n  co m p ar i s o n  o f  g e n e e x p r es s i o n  p r o f i l es .  T o   d o   t h es e,   w n eed   m ea s u r e   t o   q u an t i f y   t h s i m i l ar i t y   b et w ee n   g en e s   i n   ex p r es s i o n   p r o f i l es .   A   v ar i et y   o f   d is ta n c e   m e a s u r e s  c a n  b e   u s e d  to  c o m p u te  s i m i la r it y .  I n   th is  s e c tio n ,  a  d e s c r ip tio n  o f   m o s m e tr ic s   u s e d  i s   d i s c u s se d .   T h g en ex p r es s i o n   d at f r o m   m i cr o ar r a y   ex p er i m en t s   i s   u s u al l y   i n   t h f o r m   o f  l ar g m at r i ces   ( + 1 ) ×     o f  e xp r e s s i o n l e ve l s  o f   ge ne s   1 , 2 , ,   u n d e r  d if f e r e n t e x p e r i m e n ta c o n d itio n s   1 , 2 ,     a nd   th e  la s t r o w  c o n ta i n s   t h e l ab el     o f  eac h  s a m p l e,  t h e i r  v al u es   { 1 , 1 } E ach   el e m en t   [ , ] d en o t ed   as    ,   r ep r es en t s   t he  e xp r e s s i o n l e ve l  o f   t he   ge ne     i n t he  s a m p l e     ( s ee T ab l e 1 ) .   T h e  e x pr e s s i on  pr of i l e  of   a g en ca n  b e r ep r es en t ed  as  a r o w   v ect o r :     = ( 1 , 2 , . . ,  )   a s  f o llo w :       = 1 = 1 1 1 1  1         T ab l 1 .  M i cr o a r r ay  D at as et  E x a m p l e   G en es \ S a m p l es   1   2   3   4       1   5 6 , 23   4 3 , 74   4 , 1 8   9 ,5     3 4 , 1 8   2   3 3 , 54   3 0 , 5   4 , 7 1   3 2 , 18     4 3 , 71   3   1 3   2 9 , 09   4 , 1 3   2 , 8 8     4 9 , 13   4   6 4 , 25   7 0 , 24   7 6 , 1   3 1 , 4     3 6 , 9 1                   3 , 5 4   0 ,5   4 0 , 71   2 , 9 9       L ab el   : Y   N or m a l   AN o r m a l   N or m a l   An o r m a l     N or m a l       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708   In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 O c t obe r  20 18   :   319 4   -   3203   3196   P ear s o n  co r r el at i o n  co ef f i ci en t :   ( r ep r es en t ed  b y  t h e l et t er   ρ ) ,   c a b e   o b t a i b s ub s t i t ut i n c o va r i a nc e s      an d  v ar i an ce s     ba s e d on  a   s a m pl e .  S o,  f or  t w o g e n e s   1   a nd   2   t h e  f or m ul a  f or   ρ   is :     ρ =  ( 1 , 2 ) 2 ( 1 ) 2 ( 2 ) = ( 1 1 ) ( 2 2 ) = 1 ( 1 1 ) 2 = 1 ( 2 2 ) 2 = 1           (2 )     w h er 1 = 1 n 1 n i = 1   a nd   2 = 1 n 2 n i = 1   ar e t h m ea n   f o r  g en 1   a nd   2   r es p ect i v el y .   M u t u al  i n f o r m at i o n  ( M I ) :   I t is  a  d i s t a n ce  m eas u r e t h at  co m p ar es  g e n es   w h o s e  p r o f i l es  ar d i s cr et e.  I t   can   b cal cu l at ed   u s i n g   S h a n n o n ʼ s   en t r o p y .   I t   h a s   b een   u s ed   t o   m eas u r t h d ep en d en c y   b e t w ee n   t w o   r an d o m   v a r i a bl e s  ba s e d on   t h e  pr oba bi l i t y  o f  t h e m .  F or  t w o g e n e s   1   a nd   2 ,  t he   m ut ua l  i n f o r m a t i o n b e t w e e n t he m e ,   ( 1 , 2 ) ,   can  b e cal cu l at ed  as  f o l l o w :  [ 2 5 ] ,  [ 2 6 ] :     ( 1 , 2 ) , = ( 1 ) ( 1 | 2 )                                       =   ( 2 ) ( 2 | 1 )                                                                         =   ( 1 ) + ( 2 ) ( 1 , 2 )           (3 )     w h er e:   ( 1 ) , ( 2 )   ar t h S h an n o n ʼ s   en t r o p i es ,   ex p r es s ed   as   f o l l o w :     ( 1 ) = ( 1 ) × l og 2 ( 1 ) = 1                 ( 1 , 2 )   is  th e  j o in t e n tr o p y  o f  t h e   1   a nd   2   d e f in e d  a s  f o llo w     ( 1 , 2 ) = 1 , 2 × l og 2 1 , 2 = 1 = 1       ( 2 | 1 )   is   th e  c o n d itio n a l e n tr o p y  o f   g 1   gi ve g 2   .  I t  can  b e cal cu l at ed  as  f o l l o w :     ( 2 | 1 ) = 1 , 2 × l og 2 ( 2 | 1 ) = 1 = 1           N o te d  th a ( 1 )   r ep r es en t  t h p r o b a b ilit y   m a s s  f u n c tio n ,  i t  can  b e cal cu l at ed ,   w h e n  g e n 1   i s  d i s cr et e,  as   f o llo w :     p ( 1 ) = n u m b e r   o f   i n s t a n t s   wi t h   va lu e   1 to ta l   n u m b e r   o f i n s t a n t s   ( n )         a nd   1 , 2   is  th e  j o in t p r o b a b ilit y   m a s s  f u n c tio n  o f  th e   g e n e   1   a nd   2     2.2.   F ea t u re   S el ect i o n   T h e g o al  o f  t h e f eat u r e s el ect i o n  i s  t o  s el ect  t h e s m al l e s t  s u b s et  o f  f ea t u r es  b y   s co r i n g  al l  f eat u r es   an d  u s i n g  a t h r e s h o l d  t o  r e m o v e f eat u r es  b el o w   t h e t h r es h o l d .   T h i s  p r o ces s   m a k es  a cl a s s i f i cat i o n  p r o b l em   s i m p l er  t o  i n t er p r et  an d  r ed u c es  t h e t i m f o r  t r ai n i n g   m o d el .  M at h e m at i cl y ,  f o r  a f ea t u r e s et  co m p o s ed  b y  a l l   ge ne s   = 1 , 2 , ,  ,   t h e f eat u r e s el ect i o n  p r o ces s  i d en t i f i es  a  s u b s et  o f  f eat u r es   S f   wi t h   di m e ns i on   k   wh e r e k     n ,  a nd     S f .  I n  t h i s  s t u d y ,   f i v e f eat u r es  s el ect o r  al g o r i t h m   w er e d es cu s s ed ,   i n cl u d es   i n f o r m at i o n  g ai n ,  m R M R ,  l i n ear   c o r r e la tio n   a nd  c hi - s qu a r e d.  T h e  c h oi c e  of   f i l t e r   m e t h od i ns t e a d of   w r ap p er  o n e d u e t o  t h e h u g e  co m p u t at i o n a l  co s t s   w h en   u s e s   w r ap p er s   m e t h ods   [2 ] .   I nf o r m a t i o ga i n ( I G ) :   It   i s   a  f i l t e r   m e t ho d  t ha t  r a nk s  f e a t ur e s  b a s e d  o hi gh  i n f o r m a t i o n ga i n   en t r o p y  i n  d ecr eas i n g  o r d er .  I t  r an k s   f eat u r es  b as ed  o n  t h e   v al u e  o f   t h ei r   m u t u al  i n f o r m a t i o n   w i t h  t h e cl a s s   la b e l u s in g  e q u a tio n  3 .  S im p lic it y  a n d  lo w  c o m p u ta tio n a l  c o s ts  a r e  th e  m a i n   a dv a nt a ge s  of  t h i s   m e t h od.   H o w e v er ,  i t  d o es   n o t   t ak e  i n t o  co n s i d er at i o n  t h e d ep en d en c y  b et w ee n   t h e  f eat u r es ;  r at h er ,  i t  as s u m e s   i n d ep en d en c y ,   w h i c h   i s   n o t  a l w a y s   t h cas e.   T h er ef o r s o m o f   t h s e l ect ed   f eat u r es   m a y   car r y   r ed u n d an t   in f o r m a tio n .     C hi - s q ua r e d   ( 2 ) : is  a  s ta tis tic a te s t to  d e te r m i n e  t h e  d e p e n d e n c y  o f  t w o  e v e n ts ,  it c h a r a c te r i z e  b y   i t  s i m p l i ci t y  t o  i m p l e m e n t  ( I n  f eat u r e s el ec t i o n ,  t h e t w o  e v e n t s  ar e o ccu r r en ce o f  t h f eat u r e an d  o cc u r r en ce   o f  t h e cl a s s ) .  T h e p r o ces s  co n s i s t s  o f  cal c u l at i o n   of   Ch i 2   b et w een   ev er y  f eat u r e v ar i ab l e   g f i   an d  t h e  l ab el   Y .  I Y   i s  i n de pe n de n t  of   g f i   ,  t h i s  f eat u r e v ar i ab l w i l l  b e d i s car d .   I f  t h e y  ar e d ep en d en t ,  t h i s   f eat u r e v ar i ab l w i l l   b e  p r e s e n t in to  tr a in i n g   m o d e l   [ 2 7 ] .   T h e   in itia h y p o t h e s i s   0   i s t h e  a s s u m p tio n  th a t th e  t w o  f e a tu r e s  a r e   u n c o r e la te d ,  a n d  it is  te s te d  b y   2   f o r m u la  a s  f o llo w :   Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       E f f e c t  of  F e at ur e  Se l e c t i on  on  G e ne  E x pr e s s i on D at as e t s   ….   ( Hi c h a m Oma r a )   3197     2 = (   ) 2  = 1 = 1               (4 )     w h er    i s  t he  o b s e r ve d  f r e q ue nc y  a nd      i s  t he  e xp e c t e d  f r e q ue nc y u nd e r  t he   nul l  h y p o t he s i s .      can  b e   co m p u t ed  b y  :      =        ×                  T he  hi g h va l ue  o f   2   i n d i cat es  t h at  t h h y p o t h es i s  o f  i n d ep en d en ce i s  i n co r r ect  an d  t h f eat u r e i s   co r r el at ed   w i t h  t h e cl a s s ,  t h u s   i t  s h o u l d  b s el ect ed   f o r   m o d e l tr a in i n g .   L i n e a r c o rre l a t i o n  ( C o rr):   ( w e ll - kno w n   s i m i l ar i t y   m eas u r e b et w een  t w o  r an d o m   v ar i ab l es )  I t  can  b e cal cu l at ed  u s i n g  P ear s o n  co r r el at i o n  co ef f i ci e n t   ( )  a s  d e f i ne d  i n  e q ua t i o n 2 .  T he  r e s ul t i n g va l ue   i s  i n   [ 1 ; 1 ] ,  wi t h   - 1  m ea n i n g   p er f ect  n e g a ti v e  c o r r e la tio n   ( as  o n e v ar i ab l e i n cr eas es ,  t h e o t h er  d ecr eas es ) ,  +1  m ea n i n g  p er f ect  p o s i t i v e co r r el at i o n  an d  0  m ea n i n g  n o   l i n ear  co r r el at i o n  b et w ee n  t h e t w o   v ar i ab l es   [2 8 ].   m i n i m um  R e dun da n c y - M a xi m u m   R e l e va nc y ( m R M R ) :   T h e m R M R  f i l t er  m et h o d   s el ect s   g e n e s  wi t h   t h e h i g h es t  r el e v a n ce an d   m i n i m al l y  r ed u n d an t   w i t h  t h e t ar g et  cl as s   [ 8 ] ,  [ 2 9 ] .  m R M R  o f   g en e s  ar e b as ed  o n   m u t u al  i n f o r m at i o n  u s i n g  eq u at i o n  3 .  T h e M ax i m u m   R el ev an ce   m et h o d   s el ect s  t h e   h i g h e s t  t o p   k   g e n es ,   w h i c h  h av e t h e h i g h e s t  r el ev an ce co r r el at ed   t o  t h e cl as s  l ab el s  f r o m  t h e d es cen t  ar r an g ed  s et  o f   ( , ) e q ua t i o n 5 .  M i ni m u m   R e d u nd a nc y  c r i t e r i o i s  i nt r o d uc e d  b y [ 1 4 ]  i n o r d e r  t o   r e m o ve  t he  r e d und a nc f e a t ur e s ;   th is  c r ite r io n  d e f i n e d  b y  E q u a t io n  6 .      1 ( ; )                 (5 )      1 2 ( ; ) ,               (6 )     T h e ( m R M R )   f i l t er  t a k es  t h m u t u al   i n f o r m at i o n  b et w ee n  each  p ai r  o f  g e n es  i n t o  co n s i d er at i o n  an d  co m b i n e s   b o th  o p tim iz a tio n  c r ite r ia  o f  e q u a tio n  5  a n d  6 .     2.3.   C la s s if ie r s   I n  th is  p a r t,  a  b r ie f  d e s c r ip tio n  o f   c o m m o n l y  c la s s i f ie r  a lg o r ith m s   u s e d   f o r  c la s s i f ic a tio n  t a s k .   T ab l 2   s h o w s  t h e p ar a m et er s  u s ed  f o r  each  cl as s i f i er .       T ab l e 2 .  T a b l P ar am et er s  o f   C l as s i f i er   C l a ssi f i e r   P a r a m et er   K - m ea n s   K= 2 : 9   D i s t a n ce  =  E u cl i d e an  d i s t an ce ;   KN N   D i s t an c e =  E u c l i d ea n   d i s t a nc e ;   N u m b e r  o f  n e a r e s t   n e i g h b o r s  =   5   K er n el =  r ec t a n g u l a r   S OM   N u m b e r   o f   i n p u t  n e u r o n s  =  1 0 × 1 0   L ea r n i n g   r a t e =  0 .9   R a d i u s  =  2 0   D i s t an c e M et r i =  E u c l i d ean   I n itia l iz a tio n   =  R a n d o m   N u m b e r  of  i t e r a t i on  =  10 0 0   R a n d o m   Fo r e s t   N u m b er  o f  t r ees :  5 0 0   N u m b e r o v a r i ab l es  t r i ed   a t  ea ch  s p l i t :  1 0       K - m ean s :   is  a  c lu s te r in g  a lg o r ith m  o r  u n s u p e r v is e d  c la s s i f ic a tio n   w h ic h  d iv id e s  o b s e r v a ti o n s  in to  k   cl u s t er s   [3 0 ] [ 3 2 ] .  I t  c a n  b e   ad ap t ed   f o r   s u p er v i s ed   cl as s i f i cat i o n   cas b y   d i v i d i n g   d at i n t o   eq u al   t o   o r   mo r e  t h a n   th e n u m b er   o f  c l as s es .   I t   t ak es   a   s et     o   s am p l es  an d  t h n u m b e r  o f   cl u s t er s     a s   in p u t,   a nd o ut p ut s   a   s e t   = { 1 , 2 , , }   o   c e n t r o i d s .   T h e  a lg o r i th m  s ta r ts   b y  in iti a lis in g   r a n d o m ly  a ll   c e n t r o i d s th e n ,  it  ite r a te s  b e tw e e n  tw o  s te p s  u n t il a   s t o p pi ng c r i t e r i a  i s   do ne   ( o f t e n,  t h e  m a xi m u m   n u m b e r  o f   i t er a t i o n s  i s  r e ach e d ) .  I n   t h f i r s t  o n e,   ea c h   s a m p l   is   a s s ig n e d  t o  its   n e a r e s t c e n tr o id   b as e d  o n   t h e  d i s t an ce   m eas u r e  b e t w een     a nd     a s  f ol l ow :     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708   In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 O c t obe r  20 18   :   319 4   -   3203   3198   a r g min  ( , ) 2                 (7 )     ge ne r a t i ng a  s e t     f o r m ed  b y  s am p l e   as s i g n m en t s   f o r  ea ch   k t h   cl u s t er  ce n t r o i d .   I n   t h e s e co n d  s t ep ,   ea ch  cen t r o i d     i s   upda t e d b a s e d o n t he   m e a n o f  a l l   s a m p l e s  a s s i gne t t he i r     a s  f o l l o w:     = 1                     (8 )     Se l f - o r ga ni z i ng  m a p s  ( S O M ) :   S O M  i s  c o m m o nl y u s e d  f o r  vi s ua l i z i n g a nd  c l us t e r i ng o f   m u ltid i m e n s io n a l   d a ta ,   d u e   to   h i s   a b ilit y   to   p r o j e c h ig h - di m e ns i on a l  da t a   i n a   l o w e r   di m e ns i on   [ 33] - [3 7 ].   T he  S O M  o f t e n c o ns i s t s  o f  a  r e gul a r   gr i d  o f   m a p  un i t s .  E a c h u ni t  i s  r ep r es en t ed  b y  a  v ect o r   =   ( 1 , 2 ,   ,  ) ,  w h er   i s  i np ut  s a m p l e  d i m e ns i o n.  T he  uni t s  a r e  c o nne c t e d  t o  a dj a c e nt  o ne s  b y   ne i g hb o ur ho o d   r el at i o n .  T h e S O M  i t er at i v el y  t r ai n ed .  A t  each  t r ai n i n g   s t ep ,  a s a m p l e i n p u t     i s  r a nd o m l y  c ho s e f r o m   t he   in p u t d a ta   s e t,  a   m e tr ic  d is ta n c e  is  c o m p u te d   f o r  a ll  w e i g h v e c to r s     t o  f i n d  t h r ef er e n ce v ec t o r  W b mu   ( c a lle d  B e s t M a tc h in g  U n it   ( B M U )  th a t s a tis f ie s  a   m i n i m u m  d i s ta n c e  o r   m a x i m u m   s i m ila r it y  c r ite r io n   f o llo w in g  t h e  E q u a tio n  9 .        ( ) =  1 ( ) ( )             (9 )     W he r e   i s   t he   ne ur o ns   n u m b e r   i t he   m a p .   T he   w e i ght s   o f   t he   b mu   an d   i t s   n ei g h b o u r s   ar t h en   ad j u s t ed   t o w a r d s  t he  i np ut  p a t t e r n,  f o l l o w i ng e q ua t i o n:     ( + 1 ) = ( ) +  , ( )             ( 10)     w h er  ,   i s  t he   ne i ghb o ur ho o d  f u nc t i o n b e t w e e n  t he   w i n ne r   ne ur o b mu   a n d n e i gh bou r  ne u r on   i .  I t i s   d ef i n ed  b y  t h e eq u at i o n  ( 1 1 ) .      , ( ) = ex p    2 2 ( )               ( 11)     W he r e        a nd   a r e  p o s itio n s  o f  th e  B M U  a nd  ne ur o n i  o n t he  K o ho n e n   t o p o l o g i cal   m ap .   T h σ ( t )   d ecr eas es   m o n o t o n i cal l y   w i t h   t i m e .   K  ne a r s t  ne i g hb o ur s  ( k - NN) :   i s  a   no n - p a r a m e tr ic   m et h o d  u s ed   f o r  cl as s i f i cat i o n   [ 38] [ 40] .  T h e   p r o c e s s  b e g in s  b y  c a lc u la t in g  s i m ila r it y  d is ta n c e    ,   b et w ee n  t es t  s a m p l   a n d  a  s e t   o f  t r a i ni ng  s am p l es     a n d  it   s o r ts   th e  d i s ta n c e s  in   as cen d i n g   ( o r  d e s cen d i n g )  o r d e r .  T h en ,  i t   s el e ct s   k  cl o s es t   ne i ghbo u r s  t o   t he  s a m p l e   ,  a n d   i g a th e r s   th e m   to g e th e r .  T o  p r e d i c t th e  c l a s s  o f   th is   s a m p le ,  it  u s e s   t he  m a j o r i t y  vot i ng:  t he   c l a s s  t ha t   oc c u r s  t he  m o s t  f r e q u e nt l y  i t he  ne a r e s t  ne i ghbor s  w i ns .   Ra n d o m   f o r e st  ( RF ) :   c a n  be  s u ppos e d of  a s  a  f or m  of   n e a r e s t  n e i g h bor  pr e di c t or .   I t  cr eat es  a s et  o f   d eci s i o n  t r ee s   f r o m  r a n d o m l y   s el ect ed   s ub s e t  o f  o r i gi na l  t r a i ni n g s e t ;   a nd  s u m s   t he  vo t e s  f r o m   d i f f e r e nt   d eci s i o n  t r ees  t o  d eci d e t h f i n al  cl as s  o f  t h t es t  o b j ect .   I t is  c o n s id e r e d   w e ll  s u ite d  to  s it u a tio n s  c h a r a c te r iz e d   b y  a l ar g e n u m b er  o f   f eat u r es   [ 41] - [4 3 ].     2. 4.   D a t a s et s  D es crep t i o n   I n  th is   s tu d y ,  th e  f o llo w i n g  p u b lis h e d  d a ta s e ts   w a s   u s e d  ( a  b r ie f  d e s c r ip tio n  e x is t s  i n  T a b le  2 ) .   T h e   f i r s t  o n e  i s   A L L / A M L  l e uk e m i a  pr opos e d by  G ol u b e t  a l  i 1999 [ 3] ;  t h e s e  da t a  c on t a i n s   7129 g e n e s  a n d 72  sa m p l e s   sp l i t s i n  t w o  c l a s se s .  I t   w a u s e d  t o  c l a s s i f y  p at i en t s   w i t h  ac u t m y el o i d  l eu k e m i a ( l ab el l ed  as  A M L )   25 e x a m pl e s  ( 34. 7% )  a n d a c u t e  l y m p h obl a s t i c  l e uk e m i a  ( l a be l l e d a s  A L L )  47 e x a m pl e s  ( 65. 3% ) .   T h e  s e c on da t a s e t  i s  C ol o n  c a n c e r  da t a s e t  [ 44]  t h a t  c o n t a i n s  62 s a m pl e s .   A m o ng  t h e m ,  40 t um or  bi ops i e s   ar e f r o m   t u m o r s  ( l ab el ed  as  “ N ”)  an d  2 2  n o r m al  ( l ab el ed  as  "P " )   b i o p s i es  ar e f r o m   h eal t h y  p ar t s   o f  t h e co l o n s  o f  t h s a m e p at i e n t s .  T h e t o t al   n u m b er  o f  g en e s  t o  b e t es t ed  i s  2 0 0 0 .   T h e t h i r d  d at as et  i s   L y m p h o m a C a n cer  D at a   C la s s i f ic a tio n  [ 4 5 ] ; it in c lu d e s   4 5  t i s s u es  a n d  4 0 2 6  g en es .  T h e f i r s t  cat eg o r y ,  G er m i n al  C e n t r e B - L i k e   ( l ab el l ed  as  G C L )  h a s  2 3  p at i en t s ,  a n d  t h e s eco n d  t y p A ct i v at ed  B - L i k e ( l ab el l ed  as  A C L )  h as  2 2 .  T h e   p r o b le m  is   to  d is ti n g u is h  t h e   G C L  s a m p le s   f r o m  t h e   A C L   s a m p le s .  T h i s  d a ta  c o n ta i n s  a bou t  3. 28%  m i s s i ng  va l ue s .     B e f or e  a ppl y i n g  a ny  l e a r n i n g a l g or i t hm ,  t h e  da t a   m us t  be  pr e - p r o ces s ed  b y  s e v er al  p r o ces s es  a s   m i s s i ng  va l ue s  i m p ut a t i o n,  no i s y  d a t a  e l i m i na t i o n,  a nd  no r m a l i z i n g d a t a .  M i s s i ng  va l ue s :  I n ge ne r a l ,  d a t a s e t   c o nt a i n s   m i s s i ng  va l ue s   o ccu r i n g  d u t o  a v ar i et y  o f  r eas o n s  i n cl u d i n g  h y b r i d i zat i o n   f ai l u r es ,  ar t i f act s  o n  t h e   m ic r o a r r a y ,  in s u f f ic ie n t r e s o l u tio n ,  i m a g e   n o is e  a n d  c o r r u p tio n ,  o r  th e y   m a y  o c c u r  s y s te m a tic a ll y  a s  a  r e s u lt   Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       E f f e c t  of  F e at ur e  Se l e c t i on  on  G e ne  E x pr e s s i on D at as e t s   ….   ( Hi c h a m Oma r a )   3199   o f  t h e s p o t t i n g  p r o ces s .  T h er e ar e m a n y   t ech n i q u e s  t o  h a n d le  th e s e   m is s in g   v a lu e s  s u c h  a s  o m itti n g  t h e  e n tir e   r eco r d  w h i ch  co n t a i n s  t h m i s s i n g   v al u e o r  i m p u t e t h e m e s  b y  Med i an ,  Mea n ,  K - NN [ 4 6 ] .  Da t a   N o r m a liz a tio n : S o m e  a l g o r ith m s ,   s u c h  a s  K - m e a ns  a nd  K - N N ,   m a y  r eq u i r e t h a t  t h e d at a b e n o r m al i zed   t o   i n cr eas e t h e f f ic a c y  a s   w e ll   a s  e f f ic ie n c y  o f  t h e  a l g o r ith m .  T h e  n o r m a liz a tio n   w ill p r e v e n t a n y   v a r ia tio n  i n   d i s t an ce  m ea s u r es   w h er e t h e   d at m a y   n o t  b een   n o r m al i zed .  N o r m al i zi n g  t h e  at t r i b u t e   w i l l  p l ace al l  at t r i b u t e   w i t hi a   s i m i l a r   r a n ge ,   u s ua l l [ 0 ,   1 ]   [ 4 7] .   D a t a   D i s cr et i zat i o n :   D i s cr et i zat i o n   i s   t h p r o ces s   o f   co n v er t i n g   c o n tin u o u s   v a r ia b le s  i n to   n o m i n a o n e s .   S tu d ie s   h a v e   s h o w n  t h a t d is c r e tiz a tio n   m a k e s   le a r n in g  a l g o r ith m s   m o r e acc u r at e an d  f as t er  [ 4 8 ] .   T h e p r o ces s  can  b e d o n m an u al l y  o r  b y  p r ed ef i n i n g  t h r e s h o l d s  on   w hi c h  t di v i de   t h e  da t a   [ 49] [ 51 ] .   I n t hi s   s t ud y ,   t he   p e r c e nt a ge   o f   m i s s i ng  va l ue s   i o ur   d a t a  s e t  i s   l e s s  t ha n 5 % ,   w h i c h  l ead s   u s   t o  i m p u t e t h m i s s i n g   v al u es  b y  t h m ean ;   an d  al l  d at w er e n o r m al i zed   t o  zer o .   T h en ,   ge ne   ex p r es s i o n  v al u es  w er d i r ec t l y  u s ed  as  i n p u t  ch ar act er i s t i cs  f o r  cl as s i f i er s .  T h e f r a m e w o r k  o f  o u r  p r o ces s  i s   de s c r i be d i n  F i gu r e  1.           F i g u r e 1 .  F r a m e w o r k  u s ed  i n  t h i s  r es ear c h       B e f or e  a ppl y i n g  a ny  l e a r n i n g a l g or i t hm ,  t h e  da t a   m us t  be  pr e - p r o ces s ed  b y  s e v er al  p r o ces s es  a s   mi s s i n g   v al u e s  i m p u t at i o n ,  n o i s y  d at a el i m i n at i o n ,  an d  n o r m al i zi n g  d at a.  M i s s i n g   v al u e s :  I n  g en er al ,  d at as et   co n t ai n s   m i s s i n g  v al u e s  o ccu r i n g  d u t o  a v ar i et y  o f  r eas o n s  i n cl u d i n g  h y b r i d i zat i o n   f ai l u r es ,  ar t i f act s  o n  t h e   m ic r o a r r a y ,  in s u f f ic ie n t r e s o l u tio n ,  i m a g n o i s e a n d  co r r u p t i o n ,  o r  t h e y   m a y  o ccu r  s y s t e m at i cal l y  a s  a r es u l t   o f  t he  s p o t t i ng p r o c e s s .  T he r e  a r e  m a n y   t e c h ni q ue s  t o  ha nd l e  t he s e   m i s s i n va l ue s  s uc h a s  o m i t t i ng t he  e n t i r e   r eco r d  w h i ch  co n t a i n s  t h m i s s i n g   v al u e o r  i m p u t e t h e m e s  b y  Med i an ,  Mea n ,  K - N N [ 4 6 ] .  Da t a   N o r m a liz a tio n : S o m e  a l g o r ith m s ,   s u c h  a s  K - m e a ns  a nd  K - N N ,   m a y  r eq u i r e t h a t  t h e d at a b e n o r m al i zed   t o   i n cr eas e t h e e f f i cac y  a s   w el l   as  ef f i ci e n c y  o f  t h e al g o r i t h m .  T h e n o r m al i zat i o n   w i l l  p r ev en t  a n y   v ar i at i o n  i n   d i s t an ce m ea s u r es  w h er t h e  d at a   m a y   n o t b e e n   n o r m a l iz e d .  N o r m a liz i n g  th e  a ttr ib u te   w i ll p la c e  a ll a t tr ib u te   w i t h i n   s i m i l ar   r an g e,   u s u a l l y   [ 0 ,   1 ]   [ 4 7 ] .   D at D i s cr et i zat i o n :   D i s cr et i zat i o n   i s   t h p r o ces s   o f   co n v er t i n g   c o nt i n uo u s   va r i a b l e s  i nt o  no m i na l   o ne s .   S t ud i e s  ha ve  s ho w n   t ha t   d i s c r e tiz a tio n  m a k e s  le a r n in g   a l g o r ith m s   m o r e acc u r at e an d  f as t er  [ 4 8 ] .   T h e p r o ces s  can  b e d o n m an u al l y  o r  b y  p r ed ef i n i n g  t h r e s h o l d s  o w h i c h t o   di v i de  t h e  da t a  [ 49] - [ 5 1 ] .  I n t hi s  s t ud y ,   t he  p e r c e nt a ge  o f   m i s s i n va l ue s  i n o ur  d a t a  s e t   i s  l e s s  t ha n 5 % ,   w h i c h   l ead s  u s  t o  i m p u t e t h m i s s i n g   v al u es  b y  t h m ean ;  an d  al l  d at w er e n o r m a l i zed  t o  zer o .   T h en ,  g en e   ex p r es s i o n   v al u es   w er e d i r ect l y  u s ed  as  i n p u t  ch ar act er i s t i cs  f o r  cl as s i f i er s .  T h e f r a m e w o r k  o f  o u r  p r o ces s  i s   d es cr i b ed  i n  F i g u r e 1       3.   R ES U LT S   A ND AN AL Y S I S   I n  t h i s  s t u d y ,   f i v e f eat u r es   s el ect o r   w er e t e s t ed  o n  f o u r  d i f f er e n t  cl as s i f i er s   u s i n g  t h r ee g e n e   ex p r es s i o n  d at as et s  l ab el ed  L eu k ei m i a,  C o l o n  an d  L y m p h o m a   s h o r t d e s c r ip tio n  in  T a b le  3 .  C la s s if ic a tio n   accu r aci es  ar e p r es en t ed  b ef o r e an d  af t er  t h e f eat u r e s e l ect i o n  i n  T ab l e 4 . T h e co l u m n s   n a m ed   A L L ,   R F S ,  I G ,   C hi - 2 ,  C o r r ,   m R M R  p r es en t  t h e accu r ac y   v al u es  o f  cl as s i f i cat i o n  u s i n g  al l   f eat u r es ,  R a n d o m   F o r es t  S el ect o r ,   I nf o r m a t i o n G a i n,  C hi - s q u ar e,  l i n ear  C o r r el at i o n  an d  M i n i m u m   R ed u n d an c y  M a x i m u m  R el ev an ce  f i l t er s .       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708   In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 O c t obe r  20 18   :   319 4   -   3203   3200   T ab l 3 .  A  B r i ef  S u m m ar y  o f   D at as et s  U s ed   D at as e t   N o.  of   ex a m p l es   N o.  of   f ea t u r es   N o . o f  cl as s e s   C l a ss 1   C l a ss 2   L eu k ei m i a   7 2   7 1 2 9   4 7 ( A LL)   2 5 ( A M L )   C ol on   6 2   2 0 0 0   4 0 ( P )   2 2  ( N )   L ym p h om a   4 7   4 0 2 6   2 2 ( A C L )   2 3 ( G C L )       T ab l 4 .  E f f ect s  o f  F eat u r S el ect i o n  o n  C l a s s i f i er s  U s i n g  1 0 0  I m p o r t an t  F eat u r es   C l a ssi f i e r   D a t a s et  n am e   C l as s i f i ca t i o n  A ccu r a cy  %   AL L   R FS   IG   C hi - 2   C or r   m R M R   K - NN   L eu k ei m i a   8 9 . 28   9 6 . 43   9 2 . 86   9 5 . 24   9 4 . 29   1 0 0   C ol on   7 8 . 01   8 7 . 22   8 6 . 82   8 7 . 77   8 8 . 88   8 5 . 63   L ym p h om a   9 3 . 33   1 0 0   1 0 0   1 0 0   1 0 0   1 0 0   K - m ea n s   L eu k ei m i a   8 4 . 72   9 8 . 61   9 8 . 61   9 7 . 22   9 7 . 22   9 8 . 61   C ol on   7 9 . 03   8 7 . 09   8 8 . 70   8 8 . 70   8 8 . 70   9 0 . 32   L ym p h om a   8 2 . 22   9 3 . 33   9 7 . 7   1 0 0   1 0 0   1 0 0   S OM   L eu k ei m i a   9 3 . 05   9 1 . 66   9 4 . 44   8 7 . 5   9 5 . 83   9 4 . 44   C ol on   8 8 . 70   9 8 . 38   9 6 . 77   9 3 . 54   9 6 . 77   9 5 . 16   L ym p h om a   8 7 . 68   8 8 . 88   9 5 . 55   9 3 . 33   9 5 . 55   9 7 . 77   R a n d o m   Fo r e s t   L eu k ei m i a   9 7 . 11   9 8 . 55   9 7 . 76   9 8 . 63   9 7 . 13   9 7 . 13   C ol on   8 3 . 39   8 8 . 40   8 6 . 50   8 8 . 73   8 6 . 82   8 5 . 06   L ym p h om a   9 0 . 74   9 8 . 33   9 5 . 16   9 3 . 05   9 3 . 16   1 0 0       T he  k - N ear es t   N ei g h b o r  ( k - N N ) ,  Se l f - o r ga ni z i n m a p s  ( S O M ) ,  K - me a n s   an d  R a n d o m  F o r es t  w er u s ed  as  cl as s i f i er s  i n   t h e  ex p e r i m en t s ,  a n d  t h e accu r ac y  o f   f i v f i l t er s :   R an d o m  F o r es t   S el ect o r ,  I n f o r m at i o n   G a i n,  c hi - s q u ar e,  l i n ear  co r r el at i o n  a n d  M i n i m u m   R ed u n d an c y   Max i m u m   R el ev a n ce,   w h e n   t h e  t o p  1 0 0   f eat u r es  ar e s el ect ed  ar e c o m p ar ed  b et w ee n  t h e m .   T h e ch o i ce o f  f i l t er s  i s  d u e t o   t h e en o r m o u s  s i ze o f  t h e d at as et s  u s ed   w h i ch  i n cr eas e s  t h e c al cu l at i o n   ti m e .  F o r  th e  k - N N  cl as s i f i er ,  w e u s ed  t h e E u cl i d ea n  d i s t an c e as  t h e d i s t an ce  m et r i c,  an d  t h e b es t  k  b et w ee n  2   a nd  9 ;  t he   s a m e  t hi n g f or  K - m e a ns .   F or  S O M ,   w e  us e d t he  pa r a m e t e r s  a s   f ol l o w :  ( 10× 10)  i n pu t  n e u r on s ,  0. L ear n i n g  r at e,  E u cl i d ean  D i s t an ce M et r i c,  al l  t h n eu r o n   w er e i n i t i al i zed  i n  r a n d o m  an d   1 0 0 0  as  N u m b er  o f   i t er at i o n .  F o r  R a n d o m   F o r es t ,   w u s ed   n u m b er  o f  t r ees  eq u al  t o  5 0 0  an d  t h n u m b er  o f   v ar i ab l es  t r i ed  at  each   s p lit is  1 0 .  T h e  s u m m a r iz e d  d e s c r ip tio n  is  i n  T a b le  2 .   T he  r e s ul t  o f  t hi s   w o r k i n T a b l e  4  a nd  i n F i gur e s  2  , 3 ,  4  a nd 5  s ho w s  a  ve r y i m p o r t a n t  e f f e c t  o f  t he   s el ect i o n  o f   v ar i ab l es  o n  t h cl as s i f i cat i o n  r at e ( t h e t o p  1 0 0  f eat u r es  i n  t h i s  ex p er i m e n t ) .  F r o m  t h e t ab l w e   can  o b s er v e t h at   m R M R  an d   F R S  ar e a  l i t t l e b et t er  o n  t h L e u k ei m i a  d at as et  t h a n  o t h er   m et h o d s  i f  u s ed   w i t h   K - N N  a nd  K - m ea n s ,   w i t h  a   g r eat  i m p r o v e m e n t  o v er  t h u s e   o f  al l  v ar i ab l es  i n  cl a s s i f i cat i o n .  F o r L y m p h o m a   d a ta s e t,  a ll th e  s e le c to r s   w o r k   v e r y   w e ll  w it h  a ll c la s s i f ie r s ,   w it h  t h e  e x c e p tio n  o f  S O M   w h ic h   is  s u ita b le   w it h   m R MR ,  a n d  F R S ,  an d  s t i l l ,  t h er e i s  an  i m p r o v e m en t  o v er  t h e u s e o f   A L L  f eat u r es .   F o r  t h e co l o n  d at as et ,  t h e   c la s s i f ic a tio n  r a te  is  a l w a y s  l o w   i n  al l  cas e s ,   w i t h  an  i m p r o v e m en t   w h e n   u s i n g   S O M  a s  cl a s s i f i er s  an d   R F S  a s   f ilte r .           F i g u r e 2 .  E f f ect s  o f   f eat u r e s e l ect i o n  o n  K N N   u s i n g  1 0 0  i m p o r t an t  f eat u r es     Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       E f f e c t  of  F e at ur e  Se l e c t i on  on  G e ne  E x pr e s s i on D at as e t s   ….   ( Hi c h a m Oma r a )   3201       F i g u r e 3 .  E f f ect s  o f   f eat u r e s e l ect i o n  o n  K - m e a n s   u s i ng  100 i m por t a n t  f e a t u r e s           F i g u r e 4 .  E f f ect s  o f   f eat u r e s e l ect i o n  o n  S O M   u s i n g  1 0 0  i m p o r t an t  f eat u r es       4.   CO NCL U S I O N   F eat u r e s el ect i o n  i s  an  i m p o r t an t  i s s u e i n  cl a s s i f i cat i o n ,  b ecau s e i t   m a y  h a v e a co n s i d er ab l e ef f ect  o n   accu r ac y  o f  t h e cl as s i f i er .  I t  r ed u ces  t h n u m b er  o f  d i m e n s i on s  of  t h e  da t a s e t ,  s o t h e  pr oc e s s or  a n m e m or u s a g e r ed u ce;  t h e d at a b eco m es   m o r e co m p r eh e n s i b l e a n d  eas i er  t o  s t u d y  o n .  I n  t h i s   s t u d y   w e  h a v i n v e s t i g at ed  t h e i n f l u e n ce o f  f eat u r e s el ect i o n  o n  f o u r  cl as s i f i er s   S O M ,  K - NN,  K - m e a ns  a nd  R a nd o m  F o r e s t   us i n f i v e d at as et s .  S o  b y  j u s t  u s i n g  1 0 0  t o p  f eat u r es ,  t h e cl as s i f i cat i o n  acc u r ac y  i s  i m p r o v ed  u p  t o  9 %   co m p ar i n g  t o  al l   f eat u r e,  an d  t h e co m p l ex i t y  a n d  t h e t r ai n i n g  t i m w er e r ed u ced .       R EF ER EN C ES     [ 1]   D .  D ev ar aj ,  B .  Y e g n an ar a y an a,  a n d  K .  R am ar ,  “ R a di a l  ba s i s   f unc t i on ne t w or k s  f or  f a s t  c ont i ng e nc y   r a nk i ng ,  I nt .  J .   E l e c t r P o w e r  E n e r g y  S y s t ., v o l . 2 4 , p p 3 8 7 39 3,  J un .  2 00 2.   [ 2]   [ S .  D u doi t ,  J .   F r i dl y a nd,  a n d T .   P .  S pe e d,  “ C om pa r i s on of  D i s c r i m i na t i o n M e t h ods  f or  t he  C l a s s i f i c a t i on  of  T um or s   Usi n g  G e n e  E x p r e s s i o n  D a t a ,”  J . A m . S t a t . A s s o c ., v o l . 9 7 n o . 4 5 7 , p p . 7 7 8 7,  M a r .  20 0 2.   [ 3]   T .  R .  G o l u b  et  al . ,  “M o l ecu l ar  C l as s i f i cat i o n  o f  C an cer :  C l as s  D i s co v er y  an d  C l as s  P r ed i ct i o n  b y  G en e E x p r es s i o n   M oni t or i ng ,  S c i e nc e ,  v ol .   28 6,   n o.  5 43 9,   pp .  5 31 53 7,   O c t .  1 9 99.   [ 4]   L .  L i ,  C .  R .  W ei n b er g ,  T .  A .  D ar d en ,  a n d  L .  G .   P ed er s en ,  “G en e s el ect i o n  f o r  s am p l e cl as s i f i cat i o n   b as ed  o n  g en e   e x pr e s s i on da t a :  s t udy  of  s e ns i t i v i t y  t o c hoi c e  of  pa r a m e t e r s  of  t he   G A / K N N   m e t hod,  B i oi nf or m a .   O xf .  E ng l . ,  v ol .   17,  no .   1 2,  pp .   1 13 1 1 14 2,  D e c .  20 0 1.   [ 5]   A .  N ar a y an an ,  E .  C .  K eed w el l ,  J .  G a m al i el s s o n ,  an d  S .  T at i n en i ,  “S i n g l e - l ay er  A r t i f i ci al   N eu r al   N et w o r k s  f o r  G en E x pr e s s i on A na l y s i s ,  N e ur oc om put . ,  v ol .  6 1,   no.  C ,   pp.   21 7 24 0,  O c t .   20 04.   [ 6]   A.  Ar a u z o - A zo f r a,  J .  L .   A zn ar t e ,  an d  J .   M .  B en í t ez,   “E m p i r i cal  S t u d y  o f  F eat u r e S el ect i o n  M et h o d s  B as ed   o n   I ndi v i d ua l  F e a t ur e  E v a l ua t i on f or  C l a s s i f i c a t i on P r ob l e m s ,  E x pe r t  S y s t   A ppl ,  v ol .  38 ,  n o.  7,   pp.   8 170 8 17 7,  J ul .   201 1.   [ 7]   A .  L .  B l u m  an d   P .  L an g l e y ,  “S el ect i o n   o f  r el ev an t  f eat u r es  an d  ex a m p l es  i n  m ach i n e l ear n i n g , ” A r t i f .  I n t el l . ,   v o l .   97,  no .   1 ,   p p.  24 5 27 1,   D e c .  19 97 .   [ 8]   C .  D i n g  an d  H .   P en g ,  “M i n i m u m  r ed u n d a n cy   f eat u r e s el ect i o n  f r o m   m i cr o ar r a y  g en e ex p r es s i o n   d at a, ” J .   B io in f or m .  C om put .  B i o l . ,  v ol .  3 ,   no.   2,   pp .  1 85 20 5,  A p r .  20 05 .   [ 9]   I .  G u y on a nd A .  E l i s s e e f f ,  “ A n I nt r o duc t i on t o V a r i a bl e  a nd F e a t ur e  S e l e c t i on,  J .  M a c h.  L e a r n.  R e s . ,  v ol .  3,  n o .   M a r ,   p p.  11 57 11 82 ,  20 03 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708   In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 O c t obe r  20 18   :   319 4   -   3203   3202   [ 1 0]   R . R u i z , J . R i q u e l m e , J . A g u i l a r - R u i z,  an d  M .  G ar ci a T o r r es ,  “F as t  f e at u r e s el ect i o n  ai m ed  at  h i g h di m e ns i ona l   d at a v i a h y b r i d s eq u en t i al r a nk e d s e a r c he s ,  E x pe r t  S y s t .   A ppl . ,  v ol .   39,  p p.   11 09 4 11 10 2,   S e p.  20 12.   [ 1 1]   A .  S ha r m a ,  S .  I m ot o,  a nd  S .   M i y a no,  “ A  t op - r  f eat u r e s el ect i o n  al g o r i t h m  f o r   m i cr o ar r a y  g en e e x p r es s i on da t a ,   I E E E / A C M  T r a ns .  C om put .  B i ol .  B i oi nf or m . ,  v ol .  9,   no.  3,  p p.   75 4 76 4,  J un .  2 01 2.   [ 1 2]   Z .  W an g ,  V .  P al ad e,  an d  Y .  X u ,   “N eu r o - F u zzy  E n s e m b l A p p r o ach  f o r  M i cr o ar r a y  C an cer   G en E x p r es s i o n  D at A na l y s i s ,  i n 2 00 6 I n t e r na t i o na l  S y m pos i u m  on E v ol v i ng  F uz z y  S y s t e m s ,  200 6,   pp.  2 41 2 46.   [ 1 3]   K .  K i r a an d  L .  A .  R en d el l ,  “A  P r act i cal   A p p r o ach  t o  F eat u r e S el e ct i o n , ” i n   P r o ceed i n g s  o f  t h e N i n t h  I n t er n at i o n a l   W or k s hop o n M a c hi ne  L e a r ni ng ,   S a n F r a nc i s c o,  C A ,  U S A ,  1992 ,  p p.  2 49 25 6.   [ 1 4]   R .  K oha v i  a nd G .  H .  J ohn,  “ W r a ppe r s  f o r  f e a t ur e  s ubs e t  s e l e c t i on,   A r t i f .  I nt e l l . ,  v ol .  97,   no .  1,   pp.   273 32 4,  D e c .   199 7.   [ 1 5]   I .  G he y a s  a nd L .  S m i t h,  “ F e a t ur e  s ubs e t  s e l e c t i on  i n l a r g e  di m e ns i ona l i t y  dom a i ns ,  P a t t e r n R e c og n i t . ,  v ol .  4 3,  p p .   5 1 3,  J a n.  2 01 0.   [ 1 6]   E . B . H u e r t a , B . D u v a l , a n d  J . - K.  Ha o ,   “G en e S el ect i o n  f o r  M i cr o ar r a y  D at a b y  a  L D A - B a s ed  G en et i c A l g o r i t h m , ”  i P a t t e r n  R e c og ni t i on i n B i oi nf or m a t i c s ,  200 8,   pp.  2 50 2 61.   [ 1 7]   E .  K .  T a ng ,  P .  S ug a nt ha n,  a nd  X .  Y a o,  “ G e ne  s e l e c t i on a l g or i t hm s   f or   m i c r oa r r a y  da t a  ba s e on l e a s t  s q ua r e s   s upp or t  v e c t or   m a c hi ne ,  B M C  B i oi nf or m a t i c s ,  v ol .  7,   p.   95,  F e b.  2 006 .   [ 1 8]   M .   P er ez an d  T .  M ar w al a,  “M i cr o ar r a y  d at a f eat u r e s el ect i o n  u s i n g  h y b r i d  g en et i c al g o r i t h m  s i m u l at ed  an n eal i n g ,   i n 2 01 2 I E E E  2 7t h C o nv e nt i o of  E l e c t r i c a l  a nd E l e c t r oni c s  E ng i ne e r s  i n I s r a e l ,  2 01 2,   p p . 1 5.   [ 1 9]   J .  C a nul - R ei ch ,  L .  O .  H al l ,  D .  B .  G o l d g o f ,  J .  N .  K o r eck i ,  an d  S .  E s ch r i ch ,  “I t er at i v e f eat u r e p er t u r b at i o n  as  a g en s e l e c t or  f or   m i c r oa r r a y  da t a ,  I nt .   J .   P a t t e r n R e c og ni t .  A r t i f .  I nt e l l . ,   v ol .  2 6,   no.  0 5,   p.   12 60 00 3,  A ug .  201 2.   [ 2 0]   I . G u y o n , J . We s t o n,  S .  B a r nhi l l ,  a nd V .   V a pn i k ,  “ G e ne  S e l e c t i on f or  C a nc e r  C l a s s i f i c a t i on us i ng   S up por t   V e c t or   M ach i n es , ” M ach .  L ear n . ,  v o l .  4 6 ,  n o .  1 3,   pp .  3 89 4 22 ,  J a n.  20 02 .   [ 2 1]   S .  M al d o n ad o ,  R .  W eb er ,  an d  J .   B as ak ,  “S i m u l t an eo u s  F eat u r S el ect i o n  an d  C l as s i f i cat i o n  U s i n g   K er n el - p en al i ze d   S up por t   V e c t or  M a c hi ne s ,  I nf  S c i ,  v ol .   18 1,   no .  1 ,  p p.   11 5 12 8,  J a n.  2 01 1.   [ 2 2]   P .  A .  M u n d r a a n d  J .  C .  R aj ap ak s e,  “S V M - R F E  W i t h  M R M R  F i l t er  f o r  G en e S el ect i o n , ” I E E E  T r an s .   N a noB i os c i e nc e ,  v ol .  9,  n o.   1,   pp.  31 37 ,  M a r .   20 10 .   [ 2 3]   L. - Y .  C hua ng ,  C . - H.  Ya n g ,  K. - C . W u ,  a n d  C . - H .  Y an g ,  “A  H y b r i d  F eat u r e S el ect i o n  M et h o d  f o r  D N A  M i cr o ar r a y   D a t a ,  C om put  B i ol  M e d,  v ol .  4 1,  no.  4,  p p.   22 8 23 7,   A pr .  20 11.   [ 2 4]   C. - P .  L e e  a nd Y .  L e u,  “ A  nov e l  hy br i f e a t ur e  s e l e c t i on m e t hod f or   m i c r oa r r a y  da t a  a na l y s i s ,   A ppl .  S of t  C om put . ,   v ol .  1 1,   no.  1,  p p.   20 8 21 3,  J a n.  2 011 .   [ 2 5]   M .  B en n as ar ,  Y .  H i ck s ,  an d  R .   S et ch i ,  “F eat u r e s el ect i o n  u s i n g  J o i n t   M u t u al  I n f o r m at i o n  M ax i m i s at i o n , ” E x p er t   S y s t .   A ppl . ,  v ol .  4 2,   no.  2 2,   pp.  8 520 8 53 2,   D e c .  20 15.   [ 2 6]   C .  E .  S h an n o n ,  “A  M at h em at i cal  T h eo r y  o f  C om m uni c a t i on,  S I G M O B I L E  M ob C om put  C om m un R e v ,  v ol .  5,   no.  1,  pp .   3 55 ,  J a n.  20 01 .   [ 2 7]   H .  Z h an g  et  al . ,  “I n f o r m at i v e   G en e S el ect i o n  an d  D i r ect  C l as s i f i cat i o n  o f  T u m o r  B as ed  o n  C h i - S q u ar e T es t  o f   P ai r w i s e G en e I n t er act i o n s , ” B i o M ed  R es .  I n t . ,  v o l .  2 0 1 4 ,   p .   e 58 9 290 ,  J ul .  2 01 4.   [ 2 8]   H .  F .  E i d ,  A .  E .  H as s an i en ,  T .  K i m ,  an d  S .  B an er j ee,  “L i n ear  C o r r el at i o n - B as ed   F eat u r e S el ect i o n  f o r  N et w o r k   I nt r us i on D e t e c t i on M ode l ,  i A dv a nc e s  i n S e c ur i t y  o f  I nf or m a t i on a nd C om m uni c a t i on N e t w or k s ,  S pr i ng e r ,   B er l i n ,  H ei d el b er g ,  2 0 1 3,   pp .  2 40 24 8.   [ 2 9]   S .  S .  S h r eem ,  S .  A b d u l l a h ,  M .  Z .   A .  N azr i ,  an d  M .  A l zaq eb ah ,  “H y b r i d i zi n g  r el i ef f ,   m R M R  f i l t er s  an d  G A   w r ap p er   a ppr oa c he s  f or  g e ne  s e l e c t i on,  J .  T he or .  A ppl .  I nf .  T e c hnol . ,  v ol .  4 6,  n o.   2,   pp .  1 03 4 1 03 9,  20 12 .   [ 3 0]   F. - X . W u , W . J . Z h a n g , a n d  A .  J .  K u s al i k ,  “ A   G en et i c K - m e a ns  C l us t e r i ng  A l g or i t hm   A ppl i e d t o G e ne  E x pr e s s i on  D at a, ” i n  A d v an ces  i n  A r t i f i ci al  I n t el l i g en ce,  2 0 0 3 ,  p p .   5 2 0 52 6.   [ 3 1]   K .  R .  N i r m al  an d  K .  V .   V .  S at y an ar a y an a,  “I s s u es  o f  K  M ean s  C l u s t er i n g  W h i l e M i g r at i n g  t o  M ap  R ed u ce   P ar ad i g m   w i t h  B i g  D a t a :   A  S u r v e y ,  I n t . J . E l e c t r . C o m p u t E n g . I J E C E , v o l 6 n o . 6 , p p 3 0 4 7 30 51 ,  D e c .  20 16 .   [ 3 2]   W .  K .  O le iw i,  “ U s in g  th e  F u z z y  L o g ic  to  F in d  O p tim a l C e n te r s  o f  C lu s te r s  o f  K - m ean s , ” I n t .  J .   E l ect r .  C o m p u t .   E n g . I J E C E , v o l . 6 , n o 6 p p . 3 0 6 8 30 72 ,   D e c .  20 16.   [ 3 3]   C .  B uda y a n,  I .  D i k m e n,  a nd M .  T .  B i r g onul ,  “ C om pa r i ng  t he  p e r f or m a nc e  o f  t r a di t i ona l  c l us t e r  a na l y s i s ,  s e l f - or g a ni z i ng  m a ps  a nd f uz z y  C - m e a ns   m e t hod f or  s t r a t e g i c  g r oupi ng ,  E x pe r t  S y s t .   A ppl . ,  v ol .  36 ,  no .  9,  pp.   11 77 2 117 81 ,   N ov .  20 09 .   [ 3 4]   I.   V a l ov a ,  G .   G e or g i e v ,  N .   G ue or g ui e v a ,  a nd J .  O l s on,  “ I ni t i a l i z a t i on I s s ue s  i n S e l f - o r g an i zi n g  M ap s , ” P r o ced i a   C om put .  S c i . ,  v ol .   20 ,  p p.   52 5 7,  J a n.   2 01 3.   [ 3 5]   M .  E t t a o ui l  a nd  M .  L a z a a r ,   V e c t or  Q ua nt i z a t i o n by  I m pr ov e d K ohone n A l g or i t hm ,  J .  C o m put . ,  v ol .  4,   no . 6 , J u n .   201 2.   [ 3 6]   T .  K oho ne n,  “ E s s e nt i a l s   of  t he  s e l f - or g a ni z i ng   m a p,  N e ur a l  N e t w . ,  v ol .  3 7,   pp .  5 2 65 ,   J a n.  20 13 .   [ 3 7]   S .   P av el  an d  K .  O l g a,  “V i s u al  an al y s i s  o f  s el f - or g a ni z i ng   m a ps ,  N onl i ne a r  A na l  M ode l  C on t r ol ,  v ol .   16,  n o.   4,   pp .   488 50 4,  D e c .  20 11 .   [ 3 8]   T.  C o v e r  a nd P .  H a r t ,  “ N e a r e s t   N e i g hbor   P a t t e r n C l a s s i f i c a t i on,  I E E E  T r a ns  I nf   T he or ,  v ol .  13,   no.   1,  p p.  2 1 2 7 S e p.  2 00 6.   [ 3 9]   R .  M .   P ar r y  et  al . ,  “k - N ear es t   n ei g h b o r  m o d el s  f o r  m i cr o ar r a y  g en e ex p r es s i o n  an al y s i s  an d  cl i n i cal  o u t co m p r ed i ct i o n , ” P h ar m aco g en o m i cs   J .,  v o l . 1 0 n o . 4 , p p 2 9 2 3 09 ,  A ug .  201 0.   [ 4 0]   A .   A l al o u s i ,  R .  R azi f ,  M .   A b u A l h aj ,  M .  A n b ar ,  an d  S .  N i zam ,   A  P r el i m i n ar y  P er f o r m an ce E v al u at i o n  o f  K - me a n s ,   K N N  a nd E M  U ns upe r v i s e d M a c hi ne  L e a r ni ng  M e t ho ds  f or  N e t w or k  F l ow  C l a s s i f i c a t i on,  I nt .  J .   E l e c t r .  C om put .   E n g . I J E C E , v o l . 6 , n o 2 p p . 7 7 8 78 4,   A pr .  20 16 .   Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       E f f e c t  of  F e at ur e  Se l e c t i on  on  G e ne  E x pr e s s i on D at as e t s   ….   ( Hi c h a m Oma r a )   3203   [ 4 1]   D .  A m ar at u n g a,  J .  C ab r er a,  an d  Y . - S .  L e e ,  “ E nr i c he d r a ndom   f or e s t s ,  B i oi nf or m a t i c s ,  v ol .  24,  no .  18,  p p.  2 01 0 201 4,  S e p.  20 08 .   [ 4 2]   L .  B r e i m a n,  “ R a ndom  F or e s t s ,  M a c h.  L e a r n. ,  v ol .   45,  n o.   1,   pp.  5 3 2,  O c t .  20 01.   [ 4 3]   X .  C he n a nd H .  I s hw a r a n,  “ R a ndom  F or e s t s   f or   G e nom i c  D a t a   A na l y s i s ,   G e no m i c s ,   v ol .  99,  no .  6,  pp.   323 32 9,   J un.  20 12 .   [ 4 4]   U .  A l on e t  a l . ,  “ B r oa d pa t t e r ns  of  g e ne  e x pr e s s i on r e v e a l e d by   c l us t e r i ng  a na l y s i s  of  t u m or  a nd nor m a l  c ol on t i s s ue s   pr o be d by  o l i g o nuc l e ot i de  a r r a y s ,  P r oc .  N a t l .  A c a d.  S c i .  U .  S .  A . ,   v ol .  9 6,   no.  1 2,   pp.  6 74 5 67 50,   J un.  19 99 .   [ 4 5]   A .   A .   A l i zad eh  et  al . ,  “D i s t i n ct  t y p es  o f  d i f f u s e l ar g e B - c e l l  l y m phom a  i de nt i f i e d by  g e ne  e x pr e s s i on  pr of i l i ng ,   N a t ur e ,   v ol .  40 3,  no.   6 76 9,  pp.   5 0 3 51 1,  F e b.  20 00 .   [ 4 6]   E .  A cu n a an d  C .  R o d r i g u ez,  “T h e T r eat m en t  o f  M i s s i n g  V al u es  an d  i t s  E f f ect  o n  C l as s i f i er   A c cu r ac y , ” i n  J o u r n al  o f   C l a s s i f i c a t i on,  20 04,   p p.  63 9 647 .   [ 4 7]   Y .  K .  J a i n a n d S .  K .  B ha nda r e ,  “ M i M a x  N or m a l i z a t i on ba s e d a t a  P e r t u r ba t i on  M e t ho d f or   P r i v a c y   P r o te c tio n ,   I nt e r na t i o na l  J o ur na l   of  C om put e r  &  C om m uni c a t i on T e c hnol og y  ( I J C C T ) ,  v ol .  2,   no.  8,  p p.   45 5 0,  201 1.   [ 4 8]   J .  D oug he r t y ,  R .  K oha v i ,  a nd M .  S a ha m i ,  “ S upe r v i s e d a nd U ns upe r v i s e d D i s c r e t i z a t i on of  C ont i n uo us  F e a t ur e s ,  i n   M ach i n L ear n i n g :  P r o ceed i n g s   o f  t he  T w e l f t h I nt e r na t i o na l  C o nf e r e nc e ,  19 95,  p p.   19 4 20 2.   [ 4 9]   H .  L i u,  F .  H us s a i n,  C .  L .  T a n,  a n d M .  D a s h,  “ D i s c r e t i z a t i on:  A n E na bl i ng  T e c hni que ,  D a t a  M i n.  K now l .  D i s c ov . ,   v ol .  6,  n o.   4,   pp.  3 93 4 23,  O c t .  2 002 .   [ 5 0]   P . E M e y e r , F . L a f i t t e , a n d  G . B o n t e m p i , “ m i ne t :  A  R / B i oc ond uc t or   pa c k a ge   f or  i nf e r r i ng  l a r g e  t r a ns c r i pt i ona l   ne t w or k s  us i ng  m ut ua l  i nf or m a t i on,  B M C  B i oi nf or m a t i c s ,  v ol .  9,   p.  4 61 ,  O c t .   20 08.   [ 5 1]   Y .  Y a ng  a nd  G .  I .  W e bb,  “ O n W h y  D i s c r e t i z a t i on W or k s   f or  N a i v e - B a y e s  C l a s s i f i e r s ,  i A I  2003:  A dv a nc e s  i A r ti f ic ia l I n te llig e n c e ,  2 0 0 3 ,   p p .  4 4 0 45 2.       Evaluation Warning : The document was created with Spire.PDF for Python.