I nd o ne s ia n J o urna l o f   E lect rica E ng ineering   a nd   Co m p u t er   Science   Vo l.   11 ,   No .   3 Sep tem b er   201 8 ,   p p 1 2 2 3 ~ 1 2 2 7   I SS N:  2502 - 4752 DOI : 1 0 . 1 1 5 9 1 / i j ee cs . v 11 .i 3 . p p 1 2 2 3 - 122 7           1223       J o ur na l ho m ep a g e h ttp : //ia e s co r e. co m/jo u r n a ls /in d ex . p h p / ijeec s   An Ef fect iv e  P re - Process ing  P ha se  for G e ne Ex press i o Cla ss ificatio n       Cho o n Sen Sea h 1 ,   Sh a hree K a s i m 2 ,   M o hd   F a rha M d F ud ze e 3 ,   M o hd   Sa beri  M o ha m a d 4 ,   Rd R o h m a t   Sa edud i n 5 ,   Ro h a y a nti  H a s s a n 6 ,   M o hd   Arf ia n Is m a il 7 ,   Ro dzia h At a n 8   1 , 2, 3 S o f Co m p u ti n g   a n d   Da ta M in in g   Ce n tre,  F a c u lt y   o f   Co m p u ter S c ien c e s an d   In f o rm a ti o n   T e c h n o lo g y ,   Un iv e rsiti   T u n   Hu ss e in   On n   M a lay sia   4 F a c u lt y   o f   Cre a ti v e   T e c h n o lo g y   a n d   He rit a g e ,   Un iv e rsiti   M a lay sia   Ke lan tan ,   Ka ru n g   Be rk u n c 0 1 ,   1 6 3 0 0 ,   Ba c h o k ,   Ke lan tan ,   M a lay sia   5 S c h o o o f   In d u strial  En g in e e rin g ,   T e lk o m   Un iv e rsit y ,   4 0 2 5 7   Ba n d u n g ,   W e st Ja v a ,   In d o n e sia   6 L a b o ra to ry   o f   Bio d iv e rsit y   a n d   Bio in f o rm a ti c s,  Un iv e rsiti   T e k n o lo g M a lay si a ,   8 1 3 0 0   S k u d a i ,   Jo h o r,   M a lay sia   7 F a c u lt y   o f   Co m p u ter S y ste m s an d   S o f twa re   En g in e e rin g ,   Un iv e rsiti   M a lay sia   P a h a n g ,   P a h a n g ,   M a la y sia   8 De p a rtme n o f   S o f twa re   En g in e e rin g   &   In f o rm a ti o n   S y ste m ,   F a c u l ty   o f   Co m p u ter S c ien c e   a n d   In f o r m a ti o n   T e c h n o l o g y ,   Un iv e rsit y   P u tra M a lay sia   (UP M ),   4 3 4 0 0   S e la n g o r,   S e r d a n g ,   M a lay sia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   A p r   5 ,   2 0 1 8   R ev i s ed   J u n   6 ,   2 0 1 8   A cc ep ted   J u n   2 0 ,   2 0 1 8       A   r a w   d a tas e t   p re p a re d   b y   r e se a rc h e rs  c o m e s   w it h   a   lo o f   in fo rm a ti o n .   W h e th e th e   in f o rm a ti o n   is  u se f u ll   o n o t,   c o m p lete ly   d e p e n d o n   t h e   re q u irem e n a n d   p u rp o se s.  In   m a c h in e   lea rn in g ,   d a ta  p re - p r o c e ss in g   is  th e   v e r y   in it ial  sta g e .   It  is  a   m u st  to   m a k e   su re   th e   d a tas e is  t o tally   su it a b le  f o r   th e   re q u irem e n t.   In   sig n if ica n d ir e c ted   ra n d o m   wa lk   (sD R W ),   th e r e   a re   th re e   ste p in   d a ta  p re - p ro c e ss in g   sta g e .   F irst,   we   re m o v e   u n wa n ted   a tt rib u tes ,   m is sin g   v a lu e   a n d   p ro p e a rra n g e m e n t,   f o ll o w e d   b y   n o rm a li z a t io n   o f   th e   e x p re ss io n   v a lu e   a n d   las tl y ,   f il te rin g   m e th o d   is   a p p l ied .   T h e   f irst  tw o   ste p s   a re   c o m p lete d   b y   Bio c o n d u c to r   p a c k a g e   w h il e   th e   las ste p   is   w o rk in   sD RW .   K ey w o r d s :   B io co n d u cto r   Data   p r e - p r o ce s s in g   Gen ex p r es s io n   d ataset   Sig n i f ica n d ir ec ted   r an d o m   w al k   Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   C h o o n   Se n   Sea h   So f t Co m p u ti n g   an d   Data   Mi n in g   C e n tr e,   Facu lt y   o f   C o m p u ter   Scien ce s   an d   I n f o r m a tio n   T ec h n o lo g y ,   Un i v er s iti T u n   H u s s ei n   On n   Ma la y s ia.   E m ail: sea n s ea h 0 7 0 2 @ g m ail. co m       1.   I NT RO D UCT I O N   Mic r o ar r ay   tec h n o lo g y   i s   a   b r an ch   o f   b io lo g y   tech n o lo g y   w h ic h   ai m s   to   s t u d y   th e   ex p r ess io n   o f   g en e s   f r o m   t h ce ll  [ 1 ] .   I p l ac es  th e   g e n s eq u en ce s   o n   g las s   s lid ca lled   g e n c h i p .   T h g en c h ip   is   d esig n ed   to   d is p lay   th s eq u en ce s   o f   d eo x y r ib o n u cle ic  ac id   ( DNA )   o r   r ib o n u cleic   ac id   ( R NA ) .   C o m p le m en tar y   b ase  p air in g   b et w ee n   th s a m p le  ce ll  a n d   g en s eq u en ce s   o n   t h ch ip   p r o d u ce s   d if f er en t   co lo u r s   b ased   o n   th ex p r es s io n   le v el  o f   t h g e n e.   T h in tr o d u ctio n   o f   m icr o ar r a y   tech n o lo g y   allo w s   r esear ch er s   to   an al y s t h o u s a n d s   o f   g en e x p r ess io n   p r o f iles   s i m u lta n eo u s l y   [ 2 - 5 ] .   T h d atasets   p r o d u ce d   b y   m icr o ar r a y   tech n o lo g y   is   k n o w n   as  g e n e x p r ess io n   d at aset  [ 2 ] .   Mu ch   b io m ed ical  r esear ch ,   esp ec iall y   ca n ce r o u s   r esear c h ,   h as  b ee n   i n cr ea s ed .   Ho w e v er ,   th p r o p er ties   o f   lar g d i m e n s io n   w o u ld   af f ec t   th r es u lt  o f   r esear ch   as  w ell.   Si n ce   t h m i cr o ar r ay   d ataset  i s   lar g d i m e n s io n ,   clas s i f y i n g   a n d   co m p u t in g   th e   alg o r it h m s   b ec o m e s   m o r co m p lex   to   s tu d y   t h g e n e x p r ess io n   c h ar ac t er is tics   [ 6 ] .     B esid es  th at,   m icr o ar r a y   d ata s ets  h av e   m a n y   i m p r o p er   attr ib u t es  a n d   m is s in g   v al u es  m i g h t   o cc u r   af ter   th f ir s co llectio n   o f   d ataset.   T h ac cu r ac y   o f   t h clas s i f icatio n   a lg o r it h m   w o u ld   b af f ec ted .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 11 ,   No .   3 Sep tem b er   201 8   :   1 2 2 3     1 2 2 7   1224   Hen ce ,   d ata  p r e - p r o ce s s i n g   is   o n o f   th e   m a n d ato r y   p r o ce s s es  to   u n d er g o   b ef o r t h d at aset  ca n   b ap p lied   in to   o th er   m a in s tr ea m   r esear c h   alg o r it h m s   [ 7 ] .   I n   th n e x s ec tio n ,   w w o u ld   lik to   in tr o d u ce   th u s ed   o f   g en ex p r ess io n   d atas et  an d   its   in f o r m atio n ,   f o llo w ed   b y   t h e   m et h o d   to   p r e - p r o ce s s   t h d ataset.   W h ile  in   s ec tio n   3 ,   th o u tco m a f ter     p r e - p r o ce s s in g   t h d ata  w i ll  b d em o n s tr ated   a n d   co m p ar is o n   w il b m ad to   s h o wca s t h d if f er e n ce   b ef o r an d   a f ter   p r e - p r o ce s s i n g   o f   d ataset.   L a s tl y ,   w e   w o u ld   li k to   co n cl u d w it h   th e   o u tco m e   b ef o r t h e   en d in g   o f   t h is   r esear c h   p ap er .       2 .         RE SE ARCH   M AT E RI AL   & M E T H O DO L O G Y   I n   th is   s ec tio n ,   t h m ater i al  an d   m et h o d o lo g y   ap p lie d   in   t h s t u d y   w ill   b ex p lain ed .     Gen e x p r ess io n   d ataset   is   a p p lied   as  in p u d atase f o r   t h d ata  p r e - p r o ce s s in g   p u r p o s e.   I n   t h i s   s tu d y ,   B io co n d u cto r   an d   s i g n i f ica n d ir ec ted   r an d o m   w a lk   ( s DR W )   w il p la y   t h r o l to   p r e - p r o ce s s   t h d ata  b ef o r e   it h as b ee n   u s ed   to   p r ed ict  an d   class i f ied   th g en e s .     2 . 1 .     M icro a rr a y   Da t a   Gen ex p r es s io n   d ataset  i s   th d ataset  p r o d u ce d   b y   m icr o ar r ay   tec h n o lo g y .   I ca n   b ac ce s s ed   f r o m   Natio n al  C e n ter   f o r   B io tech n o lo g y   I n f o r m atio n   ( N C B I ) .   I n   th i s   r esear ch ,   GSE1 0 0 7 2   [ 8 ]   is   d o w n lo ad ed   in   r a w   f i le.   T h p latf o r m   to   p r ep ar th is   Af f y m etr i x   m icr o ar r a y   g e n ex p r ess io n   d ataset  is   G P L 9 6 .   T h s am p le s   id en ti f icatio n   ( I D)   o f   lu n g   ca n ce r   d ataset  ar b et w ee n   GSM 2 5 4 6 2 5   t o   GSM2 5 4 7 3 1 .   GSE 1 0 0 7 2   is   o n o f   th e   lu n g   ca n ce r   t y p s a m p les  s et.   I h as  1 0 7   s a m p les,  o f   w h ic h   5 8   ar ca n ce r o u s   s a m p les  an d   4 9   ar n o r m al   s a m p les.  I n   o v er all,   GSE1 0 0 7 2   h as 1 3 7 8 8   g en es.     2 . 2 .     M et ho do lo g y   A   r a w   f ile  o f   g e n e x p r ess io n   d ata  is   s at u r ated   w it h   a n   ab u n d an ce   o f   i n f o r m atio n   e x tr ac te d   f r o m   t h e   ce ll.  T h is   r a w   f ile  n ee d s   to   b p r o ce s s ed   in   o r d er   f o r   th r ig h attr ib u te s   to   b ex tr ac ted   f o r   th n e x r esear c h   s tu d y .   R   p r o g r a m m i n g   la n g u a g is   c h o s e n   an d   h e n ce   p ac k a g es  t h at  ar b u i ld   u p   b y   R   p r o g r a m m i n g   lan g u ag e   w il b u s ed   to   p r e - p r o ce s s   t h d ataset.   I n   o u r   s t u d y ,   t h B i o co n d u cto r   p ac k ag i s   d o w n l o ad ed   an d   i m p o r ted   f o r   th p u r p o s ed   o f   d ata  p r e - p r o ce s s in g   [ 9 ] .   T h B io co n d u cto r   w ill  a n al y s e   th e x p r ess io n   v a lu a n d   f u r t h er   ar r an g t h d ataset  u s i n g   n o r m aliza tio n   w h ich   n ar r o w s   t h r an g o f   d ata  to   b s t u d ied .   I n   th is   s t u d y ,     th d ataset   w ill  u n d er g o   3   p r e - p r o ce s s i n g   s ta g es  b e f o r b ein g   ap p lied   in to   t h r ea cla s s if icatio n   al g o r ith m s   s u c h   as   g e n etic  a lg o r it h m   [ 1 0 ] ,   p ath w a y   b ased   ca n ce r   cla s s i f icatio n   [ 1 1 ] ,   an d   s ig n i f ica n d ir ec ted   r an d o m   w al k   ( s D R W )   [ 1 2 ] .   Fig u r 1   illu s tr ate  t h p h a s es i n   d ata  p r e - p r o ce s s in g   s ta g e.           Fig u r 1 .   Data   p r e - p r o ce s s in g   o f   g e n ex p r ess io n   d ataset       T h f ir s 2   s tep s   w il r u n   u n d er   B io co n d u cto r   w h ile   th last   s tep   w ill  r u n   u n d er   s DR W .     First,  u n w a n ted   attr ib u tes,  m i s s in g   v al u an d   p r o p er   ar r an g e m en ts   o f   d ataset  w ill  b ap p li ed   in   o r d er   to   clea n   th d ata.   Fi g u r 2   s h o w s   th e   d etails  o f   t h f ir s s tep   o f   d ata  p r e - p r o ce s s in g .   U n w an ted   attr ib u tes  a n d   t h e   s a m p les  th at  h a v m is s in g   v a lu es  w i ll  b r e m o v ed .   R ea r r a n g e m e n o f   d ata  ac co r d in g   to   th r eq u ir e m e n o f   f o r m at  w i ll  b r u n   t h r o u g h   b e f o r p r o ce ed in g   to   th n e x p h ase s .   Oth er   t h an   e x p r ess io n   v alu e,   t h er is   o t h er   in f o r m atio n   ( attr ib u tes)  s u c h   as  p atien b io lo g ical  in f o r m at i o n   an d   d ataset  i n f o r m atio n   wh ich   in cl u d ed   in   t h g en e x p r ess io n   d ataset.   A ll  o f   th i s   in f o r m a tio n   i s   n o g o in g   to   ap p ly   i n   s DR W   f o r   c an ce r   class i f icat io n   p u r p o s es  [ 1 3 ] .   Hen ce ,   th ese  attr ib u tes  ar co n s id er ed   as  u n w a n ted   attr ib u te s   an d   w i ll  b r e m o v f r o m   th e   d ataset.   On l y   w a n ted   attr ib u t es  w il b k ep f o r   th ca n ce r   class if icat io n   p u r p o s es  [ 1 4 ] [ 1 5 ] .   E x am p le  o f   w a n ted   attr ib u te s   ar ex p r ess i o n   v al u es,  t h p o s itio n   o f   g en e s ,   th m ea n s   o f   g e n e s   w ei g h t,   an d   s o   o n .   A ttrib u tes   t h at  h av e   m is s i n g   v al u es   w ill   b p r o h ib ited   b ec au s w i th o u t h e   ex p r ess io n   v alu e ,     th d eo x y r ib o n u cleic   ac id   ( DNA )   s eq u e n ce s   co u ld   n o d eter m in t h ac tu al  ex p r es s io n   v alu a n d   th r esu lt   w il b a f f ec ted   if   p r ed icted   v alu e   is   ap p lied   to   it.  Hen ce ,   attr ib u tes  th at   co n tai n   m i s s i n g   v al u e s   w ill   b e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       A n   E ffective   P r e - P r o ce s s in g   P h a s fo r   Gen E xp r ess io n   C la s s ifica tio n   ( C h o o n   S en   S ea h )   1225   eli m i n ated .   B esid es  t h at,   p r o p er   ar r an g e m e n o f   d ataset s   w il b ap p lied .   DNA   s eq u en ce s   ar af ter   ea ch   o t h er   an d   th X”   an d   Y”  v al u w i ll  d eter m i n t h p lacin g   o f   th e   g en e s .   T h e   “X”   an d   Y”  a x i s   w i ll  d eter m i n t h e   p o s itio n   o f   th e   g e n es   in   t h s e q u en ce s   o f   DN A .   T h is   is   i m p o r tan f o r   t h n e x p r o ce s s   i n   s DR W   b ec au s t h i s   co u ld   h elp   in   d eter m in in g   th e   n ex g e n an d   h e n ce ,   f u r th er   r ef er en cin g   co u ld   b m ad b y   co m p ar i n g   w it h   o th er   r ef er en ce   d ata  s u c h   a s   K y o to   E n c y clo p ed ia  o f   Ge n e s   an d   Ge n o m e s   ( KE GG)   p at h w a y   an d   p r o tein - p r o tein   in ter ac tio n   ( P P I )   s eq u en ce s .   Oth er   t h an   t h is ,   an   ad d itio n al  o f   3   v alu es  ( m ea n ,   s ta n d ar d   d ev iatio n   an d   n p ix el s )   ar u s ed   as  ad d itio n a l   attr ib u tes  i n   ca n ce r   p r ed ic tio n   an d   cla s s i f icatio n   p r o ce s s .   T h m ea n   i s   d ef i n ed   as  th a v er ag o f   t h s u m   o f   th w ei g h o f   t h g en e.   S tan d ar d   d ev iatio n   is   t h p ar a m ete r   w h ich   is   u s ed   to   q u an ti f y   t h a m o u n o f   v ar iat io n   i n   t h g en e s   w ei g h t.T h n p ix el s   ar t h l in ea r   d i m e n s i o n   o f   th e   g e n es   i n   p ix els.           Fig u r 2 .   Step   1 ,   r em o v u n wan ted   attr ib u tes,  m i s s i n g   v al u e   &   p r o p er   ar r an g e m e n t       Seco n d ,   n o r m aliza tio n   is   ap p lied   to   d eg r ad th b ig   v alu an d   ca u s e s   th w ei g h o f   t h g en e s   f al l   in to   t h r an g b et w ee n   0     1 0   [ 1 6 ] .   Du r in g   th n o r m a l iza tio n   p h ase,   g e n e’ s   w ei g h t,  m ea n s ,   a n d   s ta n d ar d   d ev iatio n   i s   u s ed   to   ca lc u late  t h n o r m alize d   v alu e.   Fo r   th n o r m alize d   v al u es  t h at  ar g r e ater   th a n   1 0 ,   it  w ill   b r em o v ed   as  w j u s w a n t   to   k ee p   th d ig it  w it h in   0   t o   1 0 .   T h is   is   to   r e m o v t h in s i g n i f i ca n g e n es.     Fig u r 3   illu s tr ate  th s tep s   in   n o r m aliza t io n .           Fig u r 3 .   Step   2 ,   n o r m aliza t io n       L ast l y ,   f ilter in g   m eth o d   [ 1 7 ]   i s   ap p lied   to   s elec th o s g en e s   th at  h av p - v al u less   t h an   0 . 0 5 .   T h is   is   b ec au s p   v al u w ill  d eter m i n th e   s i g n i f ican to w ar d s   ca n c er   m u tatio n .   Fi g u r 4   s h o w s   t h s tep s   i n   f ilter in g   m et h o d .   T h is   s tep   w ill b ta k e   p lace s   in   s D R W .           Fig u r 4 .   Step   3 ,   f ilter in g   m et h o d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 11 ,   No .   3 Sep tem b er   201 8   :   1 2 2 3     1 2 2 7   1226   Af ter   h av in g   g o n e   th r o u g h   t h d ata  p r e - p r o ce s s in g   s ta g e,   t h clea n ed   d ataset  is   n o w   r e ad y   to   b ap p lied   in   th ev alu at io n   alg o r ith m   a n d   f u r t h er   i m p le m en t ed   in   class i f ier   as  w e ll.  Data   p r e - p r o ce s s in g   n o o n l y   clea r s   u p   t h d ataset  to   b r ea d y   f o r   th i m p le m en ta tio n   p u r p o s b u al s o   allo w   t h r esear ch er s   to   s elec t   th r i g h attr ib u tes   t h at  w o u ld   b th k e y   i n f l u en ce s   f o r   t h s tu d y .   I n   s D R W   [ 1 2 ] ,   Seah   b el iev es   t h w ei g h o f   g en e s   p la y s   a n   i m p o r ta n r o le  in   af f ec ti n g   th t u m o u r   f o r m at io n   an d   h e n ce ,   d u r in g   d ata  p r e - p r o ce s s i n g   s tag e,   h w as  f o cu s in g   o n   t h o s attr i b u te  th at  ar r elate d   to   g en e s   w ei g h t.       3 .         RE SUL T S AN ANA L YSI S   I n   o r d er   to   s h o w ca s th d at p r e - p r o ce s s in g   b y   B io co n d u cto r   an d   s DR W ,   l u n g   ca n c er   d ataset,   GSE1 0 0 7 2   is   u s ed   as  an   ex a m p le.   Data s et  w ill  b p r o c ess ed   s tep   b y   s tep   ac co r d in g   to   th s eq u en ce s   ar r an g e m en i n   m et h o d o lo g y .   Or ig in a ll y ,   r a w   f ile  co n ta i n s   m u ch   i n f o r m atio n   ab o u th d ataset  w h ic h   in cl u d es  th u n w a n ted   in f o r m atio n   f o r   th ca n ce r   class i f icatio n   p r o ce s s .   B u af ter   d ata  p r e - p r o ce s s in g ,     o n l y   w a n ted   attr ib u tes  ar k e p an d   b ein g   f u r th er   p r o ce s s   in   s D R W   f o r   t h ca n ce r o u s   g en p r ed ictio n   a n d   c an ce r   class if icatio n   p u r p o s es.  Fig u r 5   s h o w s   p ar o f   t h v is u aliza tio n   o f   d atase i n   r a w   t y p e.   W h ile  Fig u r 6   illu s tr ates t h o u tco m o f   d ataset  af ter   d ata  p r e - p r o ce s s in g .               Fig u r 5 .   Vis u al izatio n   o f   G S E 1 0 0 7 2   C E L   f ile     Fig u r 6 .   Vis u al izatio n   o f   G S E 1 0 0 7 2   af ter   d ata    p r e - p r o ce s s in g       B y   co m p ar in g   b et w ee n   Fi g u r 2   an d   F ig u r 3 ,   w ca n   c le ar l y   d i f f er e n tiate  th e   d ata  ar r an g e m e n t   w h il s v i s u a lizi n g   it.  As  in   F i g u r 2 ,   th d ataset  i s   ar r an g e d   in   2   r o w s   an d   th o n l y   w a y   to   d if f er en tia t th e   v alu e s   ar t h s p ac i n g   ap p lied .   T h er ar also   u n w a n ted   attr ib u tes  s u c h   a s   p atien t   b io lo g ical  i n f o r m atio n ,   d ataset’ s   in f o r m atio n   an d   s o   o n .   I n   Fi g u r 3 ,   th d ataset  is   a r r an g ed   in   s eq u en ce s   an d   m o r r o w s   ar ap p lied   to   d if f er e n tiate  b et w ee n   attr ib u te s .   T h r ig h at tr ib u tes  ar p la y i n g   a n   i m p o r tan r o le  i n   t h e   alg o r ith m   b ec au s it c an   ea s t h r u n n i n g   p r o ce s s   o f   alg o r ith m .       4 .         CO NCLUS I O N   Fo r   ca n ce r   class if icat io n   p u r p o s e,   w p r esen ted   th d ata  p r e - p r o ce s s i n g   s ta g w it h   th ex a m p le  o f   g en e   ex p r es s io n   d ata s et.   Ge n ex p r ess io n   d ataset   co n tai n s   m an y   a ttrib u te s   an d   m u c h   b io lo g ical  i n f o r m atio n   ab o u th s a m p le s .   Hen ce ,   ch o o s in g   t h r ig h attr ib u te  th at  co u ld   af f ec t h alg o r ith m   is   o n o f   th i m p o r tan k e y   s tep s   w h ic h   s h o u ld   n o b ig n o r ed   o r   n eg lecte d .   Data   p r e - p r o ce s s i n g   s tag e s   allo w   r ese ar ch er s   to   cr af t h e   d ataset  as  in te n d ed .   I n   th i s   s ta g e,   th d ata  w ill  b ac co r d in g l y   c lean   a n d   tu r n ed   i n to   th t y p o f   clea n   d ata  th at   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       A n   E ffective   P r e - P r o ce s s in g   P h a s fo r   Gen E xp r ess io n   C la s s ifica tio n   ( C h o o n   S en   S ea h )   12 27   is   n ee d ed   f o r   th n ex m ac h i n e   lear n i n g   p r o ce s s .   Fo r   in s tan ce ,   w o n l y   f o c u s   o n   t h s elec t io n   o f   a ttrib u tes   th a t   ar w ei g h t - r elate d .   An o th er   d ir ec tio n   o f   f u t u r r esear ch   i s   to   co m b i n t h cle an ed   d ata  an d   e n h a n ce d   t h n u m b er   o f   s a m p les  w i th   co m b i n atio n   o f   o th er   s i m ilar   d atasets .   T h n u m b er   o f   s a m p les  i n   clea n ed   d ata  af ter     p r e - p r o ce s s in g   s ta g is   lo w er   co m p ar ed   to   th o r i g in al   d at aset.  He n ce ,   it  i s   p o s s ib le  to   co m b i n w i th   o th er   s i m ilar   d atasets   to   p r o d u ce   m o r s am p les  i n   d at aset.  I i s   co m m o n l y   s ee n   s ce n ar io   w h er eb y   th er is   a   m u ltit u d o f   b io lo g ical  d atas ets  w h ic h   s h ar th s a m f ea tu r es  b u w er co llected   b y   d if f er en r esear c h er s   u n d er   d if f er en ex p er i m en ta l   co n d itio n s .   T h o u g h   t h e y   m a y   d i s p la y   d i f f er en u n d er l y i n g   d i s tr ib u tio n s ,     th e y   s h ar h i g h l y   r elev a n t   in f o r m at io n .   E ac h   clea n ed   d atas et  co n tai n s   li m ited   s a m p le s ,   b u h i g h   d i m en s io n s   o f   g en e x p r ess io n   v alu is   i n s u f f icie n to   b co n s id er ed   as  g o o d   class if ier .   I n   s u c h   ca s e s ,   tr an s f er   lear n in g   is   o n o f   t h p o s s ib le  w a y   to   b o r r o w   m o r s a m p les b et w ee n   d atasets .       ACK NO WL E D G E M E NT S   W w o u ld   li k to   t h a n k   t h U n iv er s iti  T u n   Hu s s ei n   O n n   Ma la y s ia,   C e n tr Fo r   Gr ad u ate  St u d ies  a n d   Min i s tr y   o f   Hi g h er   E d u ca ti o n   Ma la y s ia  f o r   s u p p o r tin g   th is   r esear ch   u n d er   th MY B R A I N1 5   an d   Fu n d a m e n t al  R e s ea r ch   Gr an Sch e m ( Vo n u m b er s 1 5 5 9 ) .   T h is   p ap er   w a s   p ar tl y   s p o n s o r ed   b y   t h C en tr e   f o r   Gr ad u ate  Stu d ie s   UT HM .       RE F E R E NC E S   [1   Ba ir,   E.   Id e n t if ica ti o n   o f   sig n if ica n f e a tu re in   DN A   m icr o a rra y   d a ta.  W il e y   In ter d isc ip li n a ry   Rev iews Co mp u t a ti o n a S ta t i stics .   2 0 1 3 ;5 ( 4 ):3 0 9 - 3 2 5 .   [2   Ka si m ,   S . ,   F u d z e e ,   M .   F . ,   S a l a m a t,   M .   A . ,   Ra m li ,   A .   A . ,   M a h d i n ,   H.,   &   A b d u ll a h ,   M .   H.  An   imp ro v e d   c o mp u t a ti o n a fra me wo rk   u si n g   o n e   sta g e   fi lt r a ti o n   b y   in c o r p o r a ti n g   k n o wled g e   i n   g e n e   e x p re ss io n   c lu ste ri n g .   P r o c e e d in g o f   th e   I n te rn a ti o n a Co n f e re n c e   o n   A rti f icia In telli g e n c e   a n d   Ro b o ti c a n d   t h e   In tern a ti o n a l   Co n f e re n c e   o n   A u to m a ti o n ,   Co n t ro a n d   Ro b o ti c s E n g in e e rin g   -   IC A IR - C A CRE  1 6 .   2 0 1 6 .   [3   S e v u g a p a n d i,   N.  a n d   Ch a n d ra n ,   C.   Clas sif i c a ti o n   A lg o rit h m   f o G e n e   Ex p re ss io n   G r a p h   a n d   M a n h a tt a n   Dista n c e .   In d o n e sia n   J o u rn a o El e c trica En g i n e e rin g   a n d   C o mp u ter   S c ien c e .   2 0 1 7 ; 5 (2 ): 4 7 2 .   [4   L iu   W ,   L C,   X u   Y,  Ya n g   H,  Ya o   Q,  Ha n   J et al.   T o p o lo g ica ll y   in f e rrin g   risk - a c ti v e   p a th wa y s to w a rd   p re c ise   c a n c e r   c las si f ica ti o n   b y   d irec ted   ra n d o m   w a l k .   Bi o in f o rm a ti c s.   2 0 1 3 ; 2 9 (1 7 ):2 1 6 9 - 2 1 7 7 .   [5   Ch o o n   S e n ,   S . ,   Ka sim ,   S . ,   M d   F u d z e e ,   M . ,   A b d u l lah ,   R.   a n d   A ta n ,   R.   Ra n d o m   Walk   F ro m   Di ff e r e n P e rsp e c ti v e .   Acta   El e c tro n ica   M a l a y sia .   2 0 1 7 ; 1 (2 ): 2 6 - 27.   [6   S e a h   C,   Ka sim   S ,   M o h a m a d   M .   S p e c if ic  T u n in g   P a ra m e ter  f o Dire c ted   Ra n d o m   W a lk   A l g o rit h m   Ca n c e Clas sif ic a ti o n .   In ter n a ti o n a J o u rn a o n   Ad v a n c e d   S c ien c e ,   En g i n e e rin g   a n d   I n fo rm a ti o n   T e c h n o lo g y .   2 0 1 7 ; 7 (1 ): 1 7 6 .   [7   Re v a th y   N,  Am a lraj  D.  A c c u ra t e   Ca n c e Clas sif ic a ti o n   Us i n g   Ex p re ss io n s   o f   V e ry   F e w   Ge n e s.  In ter n a ti o n a l   J o u rn a o Co m p u ter   A p p l ica ti o n s .   2 0 1 1 ; 1 4 ( 4 ): 1 9 - 22.   [8   L a n d M ,   Dra c h e v a   T ,   Ro tu n n o   M ,   F ig u e ro a   J,  L iu   H,  Da s g u p ta  A   e a l.   Ge n e   Ex p re ss io n   S ig n a tu re   o f   Cig a re tt e   S m o k in g   a n d   Its  Ro le i n   L u n g   A d e n o c a rc in o m a   De v e lo p m e n a n d   S u rv iv a l.   PL o S   ONE .   2 0 0 8 ;3 ( 2 ):e 1 6 5 1 .   [9   Da i,   Y.,   G u o ,   L . ,   L i,   M .   a n d   Ch e n ,   Y.  M icro a rra y   Я  US:   a   u se r - f r ien d ly   g ra p h ica in terf a c e   to   Bio c o n d u c to to o ls   th a e n a b les   a c c u ra te  m icro a rra y   d a ta  a n a ly sis  a n d   e x p e d it e c o m p re h e n siv e   f u n c ti o n a a n a ly sis   o f   m icro a rra y   re su lt s.  BM Res e a rc h   No te.   2 0 1 2 ;5 ( 1 ):2 8 2 .     [1 0   Od e h ,   A .   No v e G e n e ti c   A l g o rit h m   f o Earl y   P re d icti o n   a n d   De tec ti o n   o f   L u n g   Ca n c e r.   J o u rn a o C a n c e r   T re a tme n a n d   Res e a rc h .   2 0 1 7 ; 5 ( 2 ):1 5 .   [1 1   G ra u d e n z i,   A .   P a th w a y - b a se d   c las sif ic a ti o n   o f   b re a st  c a n c e su b ty p e s.  Fro n ti e rs   in   Bi o sc ien c e .   2 0 1 7 ;2 2 (1 0 ):1 6 9 7 - 1 7 1 2 .   [1 2   S e a h ,   C. ,   Ka sim ,   S . ,   F u d z e e ,   M . ,   L a w   Tze   P in g ,   J.,   M o h a m a d ,   M . ,   S a e d u d in ,   R.   a n d   Ism a il ,   M .   A n   e n h a n c e d   to p o lo g ica ll y   sig n if i c a n d irec ted   ra n d o m   wa lk   in   c a n c e c las si f ica ti o n   u sin g   g e n e   e x p re ss io n   d a tas e ts.   S a u d i   J o u rn a o Bi o lo g ica l   S c ien c e s.   2 0 1 7 ;2 4 (8 ): 1 8 2 8 - 1 8 4 1 .   [1 3   S e a h   C,   Ka si m   S ,   F u d z e e   M ,   M o h a m a d   M .   A   Dire c P ro o f   o f   S ig n if ica n Dire c ted   Ra n d o m   W a l k .   IOP  Co n fer e n c e   S e rie s: M a ter ia ls  S c ien c e   a n d   En g in e e rin g .   2 0 1 7 ; 2 3 5 :0 1 2 0 0 4 .   [1 4   W u ,   J.  F e a tu re   S e lec ti o n   f o Ca n c e Clas si f ica ti o n   Us in g   M icro a rra y   Ge n e   Ex p re ss io n   Da ta.  Bi o sta ti stics   a n d   Bi o me trics   Op e n   Acc e ss   J o u rn a l.   2 0 1 7 ; 1 (2 ).   [1 5   L i,   J.,   M e n g ,   X . ,   W e n ,   J.  a n d   X u ,   Y.  A n   I m p ro v e d   M e th o d   o f   S V M - B P S F e a tu re   S e lec ti o n   B a se d   o n   Clo u d   M o d e l.   T EL KOM NIKA  I n d o n e sia n   J o u r n a l   o f   El e c trica E n g i n e e rin g .   2 0 1 4 ;1 2 (5 ).   [1 6   S h Jin g ,   L . ,   F a th iah   M u z a f f a r   S h a h ,   F . ,   S a b e ri  M o h a m a d ,   M . ,   M o o rth y ,   K.,   De ris,   S . ,   Zak a ri a ,   Z.   a n d   Na p is,   S .   A   Re v ie w   o n   Bio in f o rm a ti c En rich m e n A n a l y sis  T o o ls  T o w a rd F u n c ti o n a A n a ly sis  o f   Hig h   T h ro u g h p u t   G e n e   S e Da ta.  Cu rr e n Pro teo mic s .   2 0 1 5 ;1 2 (1 ): 1 4 - 27.   [1 7   Kim ,   Y.  a n d   Yo o n ,   Y.  A   g e n e ti c   f il ter  f o c a n c e c las si f ica ti o n   o n   g e n e   e x p re ss io n   d a ta.  Bio - M e d ica M a ter ia ls  a n d   En g i n e e rin g .   2 0 1 5 ;2 6 (s1 ): S 1 9 9 3 - S 2 0 0 2 .   Evaluation Warning : The document was created with Spire.PDF for Python.