I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m p u t er   Science   Vo l.   21 ,   No .   2 Feb r u ar y   2 0 2 1 ,   p p .   1 1 5 1 ~1 1 59   I SS N:  2 5 02 - 4 7 5 2 ,   DOI : 1 0 . 1 1 5 9 1 /i j ee cs.  v 2 1 . i2 . p p 1 1 5 1 - 11 59          1151       J o ur na l ho m ep a g e h ttp : //ij ee cs.ia esco r e. co m   K no w ledg d iscovery  f ro m   g ene  e x press io d a tas et   u sing   ba g g ing   la ss o  deci sio n t ree       U m u Sa a da h M a s it ho h Ye s s i R o cha y a ni ,   Ani B ud i A s t u t i   F a c u lt y   o f   M a th e m a ti c s an d   Na tu ra S c ien c e s,  Un iv e rsitas   Bra w ij a y a ,   In d o n e sia       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   J u n   1 8 ,   2 0 2 0   R ev i s ed   A u g   1 1 ,   2 0 2 0   A cc ep ted   Sep   7 ,   2 0 2 0       Clas sify in g   h ig h - d im e n sio n a d a ta  a re   a   c h a ll e n g in g   tas k   in   d a t a   m in in g .   G e n e   e x p re ss io n   d a ta i s a t y p e   o f   h ig h - d im e n sio n a d a ta t h a h a s th o u sa n d s o f   f e a tu re s.  T h e   stu d y   w a p ro p o sin g   a   m e th o d   to   e x trac k n o w led g e   f ro m   h ig h - d im e n sio n a g e n e   e x p re ss io n   d a t a   b y   s e lec ti n g   f e a tu re a n d   c las sify in g .   L a ss o   w a u se d   f o s e lec ti n g   f e a tu re s   a n d   th e   c las sif ica ti o n   a n d   re g r e ss io n   tree   (CA R T a l g o rit h m   w a u se d   to   c o n str u c th e   d e c isio n   tree   m o d e l.   T o   e x a m in e   th e   sta b il it y   o f   th e   las so   d e c isio n   tree ,   w e   p e rf o r m e d   b o o t stra p   a g g r e g a ti n g   (B a g g in g w it h   5 0   re p li c a ti o n s.  T h e   g e n e   e x p re ss io n   d a ta  u se d   w a a n   o v a rian   t u m o d a tas e t h a h a 1 , 5 4 5   o b se rv a ti o n s,   1 0 , 9 3 5   g e n e   f e a tu re s,  a n d   b in a ry   c las s.  T h e   f in d in g o f   th is  re se a rc h   sh o w e d   th a th e   las so   d e c isio n   tree   c o u ld   p r o d u c a n   in terp re tab le  m o d e th a th e o re ti c a ll y   c o rre c t   a n d   h a d   a n   a c c u ra c y   o f   8 9 . 3 2 % .   M e a n w h il e ,   th e   m o d e o b tain e d   f ro m   th e   m a jo rit y   v o te  g a v e   a n   a c c u ra c y   o f   9 0 . 2 9 %   w h ich   sh o w e d   a n   i n c re a se   in   a c c u ra c y   o f   1 %   f ro m   th e   sin g le  las so   d e c isio n   tree   m o d e l.   T h e   sli g h tl y   in c re a sin g   a c c u ra c y   sh o w s th a th e   las so   d e c isio n   tree   c las sif ier  is  s tab le.   K ey w o r d s :   B ag g i n g   Dec is io n   t r ee   Featu r s elec t io n   Gen ex p r es s io n   Hig h - d i m e n s io n al   T h is  is  a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   U m u   Sa ad ah     Dep ar t m en t o f   Stati s tics   Un i v er s ita s   B r a w ij a y a   J alan   Vete r an ,   Ma lan g ,   I n d o n esia   E m ail:  u . s aa d ah @ u b . ac . id       1.   I NT RO D UCT I O N     Gen ex p r es s io n   d ata  h a v b ee n   u s ed   to   s tu d y   th d i f f e r en ce s   in   g en c h ar ac ter is tic s   b et w ee n   p atien ts   w it h   ce r tai n   d i s ea s es   an d   n o r m al  p eo p le.   T h m aj o r   ch alle n g e   to   a n al y ze   g en e   e x p r ess io n   d ata  i s   it   h as  m a n y   p r ed icto r s   ( g e n e s) ,   b u th s a m p le  is   m u ch   les s .   Gen e x p r ess io n   d ata  is   t y p e   o f   h i g h - d i m e n s io n al  d ata  th at  co n s is t   o f   t h o u s an d s ,   ev en   ten s   o f   t h o u s a n d s   o f   g e n f ea tu r es,  b u t h s a m p le  s iz is   o n l y   h u n d r ed s .   T h er ef o r e,   ce r tain   s tr ateg y   i s   n ee d ed   to   d ea l w it h   d i m en s io n al  p r o b lem s   in   g e n ex p r ess i o n   d ata.   On o f   t h s tr ateg ie s   i n   th e   c lass i f icatio n   o f   h ig h - d i m e n s io n al  d ata  i s   b y   r ed u ci n g   t h d i m e n s io n .   T h er ar tw o   ap p r o ac h es  in   d i m e n s io n   r ed u ctio n   n a m e l y   f ea tu r e x tr ac tio n   a n d   f ea tu r s elec tio n .   T h co m m o n   d i m e n s io n   r ed u ctio n   ap p r o ac h   in   g en ex p r es s i o n   d ata  is   f ea tu r s elec tio n .   Featu r s elec tio n   eli m i n ate s   ir r elev a n a n d   r ed u n d an f ea t u r es.  R e s ea r ch   [ 1 ]   i n v e s ti g ated   th in f l u e n ce   o f   f ea tu r s elec tio n   o n   th ac cu r ac y   o f   th clas s i f icat io n   o f   g e n ex p r ess io n   d ata.   T h r esu lt  o f   th s t u d y   w a s   f ea tu r s elec tio n   ca n   in cr ea s ac cu r ac y   u p   to   9 %.   Sev er al  m et h o d s   t h at   co m b i n f ea t u r s elec tio n   a n d   clas s i f icatio n   h av e   b ee n   i m p le m e n ted   in   th e   class i f icatio n   o f   g e n e x p r ess io n   d ata.   A s s a w a m ak i n   et. al.   [ 2 ]   u s ed   re cu r s iv e   f e at u re   e li m in at ion   ( R FE)   to   s elec g e n es  a n d   s u p p o r v ec to r   m ac h in e   ( SVM)   to   clas s i f y   s e v er al  g e n e x p r ess io n   d ata.   Kan g   e t.a l.  [ 3 ]   p r o p o s ed   h y b r id   m eth o d   o f   R elax ed   L a s s o   a n d   Gen er aliz ed   SVM  f o r   t h m u lticla s s   cl ass i f icatio n   o f   g e n e   ex p r ess io n   d ata.   I n   th p ap er ,   Kan g   et. al.   m e n tio n ed   th e   s e lecte d   g e n es,  b u t h ese  r e s u l t s   ar n o t   v al id ated   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l.  21 ,   No .   2 Feb r u ar y   2 0 2 1 :   1 1 51   -   11 59   1152   b ased   o n   th eo r y .   Gao   et. al.   [ 4 ]   u s ed   in f o r m atio n   g ain ,   g ain   r atio ,   r elief ,   an d   co r r elatio n   to   s elec g en es  a n d   SVM  f o r   class if y i n g   ca n ce r .   H o w e v er ,   th o s s t u d ies o n l y   f o cu s ed   o n   t h ac cu r ac y   o f   th m o d el  o b tain ed .   A cc u r ac y ,   in ter p r etab ilit y ,   a n d   m o d el  s ize   ar t h r ee   i m p o r t an a s p ec ts   o f   m ac h in e   lear n i n g   [ 5 ] ,   an d   m an y   a u t h o r s   a g r ee   t h at  m o d el  in ter p r etab ilit y   is   th e   m ain   co n ce r n   [ 6 ] .   I n   t h cla s s if ica tio n   o f   g en e   ex p r ess io n   d ata,   i n ter p r etatio n   is   v er y   i m p o r ta n b esid es  t h e   m o d el  ac cu r ac y .   C las s i f icati o n   an d   R e g r es s io n   T r ee   ( C A R T ) ,   p r o p o s ed   b y   B r ei m a n   et. al.   [ 7 ] is   Dec i s io n   T r ee   alg o r ith m   t h at  i s   p r o m o t ed   to   b ea s il y   u s ed   in   i n ter p r etatio n   to   ex p lo r k n o w led g f r o m   th e   d ata  [ 8 ] .   T h C A R T   alg o r it h m   is   o f te n   u s ed   i n   d ec is io n   an al y s is   to   v is u alize   d ec is io n   m a k in g .   B esid e s   t h at,   t h e   C AR T   alg o r ith m   a ls o   ca n   b u s ed   f o r   f ea tu r e   s elec tio n .   B u C AR T   r eq u ir es  h i g h   co m p u tat io n al  co s t s   to   w o r k   o n   v er y   lar g d ata  s u ch   as  g e n e x p r ess io n   d ata.   T h er ef o r e,   ap p ly i n g   t h f ea tu r s elec tio n   b ef o r ap p ly i n g   C AR T   is   v er y   u s ef u l.    R o ch a y an i,   et. al.   [ 9 ]   co m b in e d   L as s o   r eg u lar izatio n   a n d   D ec is io n   T r ee   to   s elec t   g e n es   a n d   clas s i f y   g en e   ex p r es s io n   d ata.   T h L ass o   r eg u lar izatio n   h as   lo co m p u ta tio n al   co s t.  Mo d els   o b tain ed   f r o m   t h e   L as s o   Dec is io n   T r ee   ar e   also   ea s y   to   in ter p r et  an d   th eo r etic all y   co r r ec t.  I n   th is   s tu d y ,   w ar in ter ested   in   ex a m in i n g   t h s tab ilit y   o f   t h L as s o   Dec i s io n   T r ee .   A   s tab le  class if ier   is   cla s s i f ier   f o r   wh ich   t h p r ed ictio n   d o es n o t c h an g m u c h   w h en   t h s li g h m o d i f icatio n   o cc u r s   i n   th tr ai n i n g   s et.   B ag g i n g ,   i n tr o d u ce d   b y   B r eim an   [ 1 0 ] ,   is   o n o f   th en s e m b le  m et h o d s   th a h as  b ee n   w i d ely   u s ed   t o   in cr ea s th ac cu r ac y   o f   p r ed ictio n   m o d els  [ 1 1 ] ,   im p r o v th r o b u s tn ess   a n d   s tab ilit y   o f   t h m o d el  [ 1 2 ,   1 3 ]   an d   h a n d le  u n b alan ce d   clas s   p r o b lem s   [ 1 4 ] .   A cc o r d in g   to   B r eim a n   [ 1 0 ] ,   im p r o v i n g   th ac cu r ac y   o f   B ag g i n g   d ep en d s   o n   th s tab ilit y   o f   t h e   class i f ier .   B ag g in g   u s u all y   co u ld   i m p r o v ac c u r ac y   o n   u n s t ab le  class i f ier s   b u t   ca n n o o n   s tab le  class i f ier s .   As  an   en s e m b le  m et h o d ,   B ag g i n g   co m b i n es  s ev er al  s i n g le  m o d els  in to   o n f i n al  m o d el  b ased   o n   th m aj o r ity   v o tes.  C o m m o n l y ,   t h s i n g le  class i f ier   f o r   B ag g i n g   is   t h D ec is io n   T r ee .   B u r ec en tl y   B ag g i n g   h a s   b ee n   u s ed   in   o th er   m ac h i n lear n i n g   alg o r ith m s   s u c h   as  B ag g i n g   C o n v o l u tio n al  Ne u r al   Net w o r k   [ 1 5 ]   an d   B ag g in g   Ne ar est Ne ig h b o r   Su p p o r t V ec to r   Ma ch in [ 1 6 ] .   W p er f o r m ed   th B a g g i n g   L ass o   Dec is io n   T r ee   to   ex a m in th s tab ili t y   o f   th L a s s o   De cisi o n   T r ee   in   m o d elin g   t h g en e x p r ess i o n   d ataset.   T h d ataset  u s ed   w a s   t h o v ar ia n   t u m o r   d atase t .   I is   i n ter esti n g   to   u s t h is   d atase s i n ce   o v ar ian   ca n ce r   is   o n o f   t h m o s f ata d is ea s es  i n   w o m e n   w h ich   i s   f r eq u en t l y   s tr ik e s   p o s t - m e n o p au s al  w o m e n   [ 1 7 ,   18] .   T h s u cc ess   o f   th t w o   m et h o d s   w i ll  b v er y   u s ef u i n   m ed ical  r esear ch ,   esp ec iall y   to   d is co v er   n e w   k n o w led g f r o m   d is ea s e.       2.   T H E O R E T I CA L   B ACK G R O UND   2 . 1 .   L o g is t ic  re g re s s io n   B in ar y   lo g is tic  r e g r ess io n   is   u s ed   to   m o d el  d ataset  w it h   b in ar y   r esp o n s v ar iab le.   T h s tan d ar d   b in o m ial  lo g is t ic  r eg r ess io n   m o d el  is   s tated   as a   lo g   o f   o d d s :          (   (     )       (     ) )                            ( 1 )     w h er   (     )             (                        )                     is   th o b s er v atio n   in d ex                     is   th i n d ex     o f   p r ed icto r   v ar iab le,         is   th in ter ce p t,  an d         is   th r eg r ess i o n   co ef f icie n o f     th   p r e d icto r   v ar iab le.   T h esti m atio n   i n   lo g i s tic  r eg r es s io n   p ar a m eter s   w as c o n d u cted   b y   m a x i m izi n g   th lo g - l ik el ih o o d   f u n ct io n :       (                     )       *       (                        )      .                              / +           ( 2 )     No te  th at  th f ir s ter m   o f   ( 2 ) ,                          ,   is   f o r m   o f   a f f in f u n ctio n ,   th er ef o r it  is   co n ca v e .   An d   th s ec o n d   ter m ,      .                              / ,   is   al s o   co n ca v e.   Si n ce   t h s u m   o f   co n ca v f u n ctio n s   i s   also   co n ca v e,   h en ce     (                     )   is   co n ca v f u n ct io n   a n d   it  i m p lies   th a th n e g ati v lo g - li k eli h o o d ,   i.e .       (                     ) ,   is   c o n v ex   f u n ctio n .   T h n eg ati v lo g - l ik el ih o o d   is   also   ca lled   th o b j ec tiv f u n c tio n   o f   lo g is tic   r eg r es s io n .   T h ad v a n tag o f   co n v ex it y   o f   n e g ati v lo g - l ik el ih o o d   f u n ctio n   g u ar an tees  th at   t h lo ca l   o p tim u m   i s   al s o   g lo b al  o p ti m u m .   A n   o p ti m izat io n   al g o r ith m   f o r   co n v ex   f u n ctio n   s u ch   as  t h Ne w to n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       K n o w led g d is co ve r fr o g en ex p r ess io n   d a ta s et  u s in g   b a g g in g   l a s s o   d ec is io n   tr ee   ( Um u   S a a d a h )   1153   m et h o d   or   th g r ad ien t   d esce n ca n   b i m p le m en ted   to   s o l v t h lo g is t ic  r eg r e s s io n   p r o b le m .   T h esti m ated   p ar am eter s   o f   lo g i s tic  r eg r es s i o n   ar s tated   in   ( 3 ) .         ̂             [     (                     ) ]     ( 3 )     2 . 2 .   Reg ula riza t io n   R eg u lar izatio n   is   m et h o d   to   av o id   o v er f itti n g   b y   ad d in g   co n s tr ai n ts   w h ile  s o l v i n g   t h o p ti m izatio n   p r o b lem .   L et  t h r eg u lar izati o n   f u n ctio n   is   d en o ted   b y     (   ) ,   w h er     (               ) I n   th r eg u lar ized   lo g is tic   r eg r es s io n ,   th e   co n s t r ain t   w a s   ad d ed   to   t h lo g is t ic  r eg r es s io n   lo s s   f u n ctio n .   T h s o lu tio n   to   t h e   o p tim izatio n   p r o b le m s   s tated   in   ( 4 ) .       ̂               [     (                     ) ] ,   s u ch   t h at    (   )     .   ( 4 )     T h L ag r an g f o r m   o f   t h o p tim izatio n   p r o b lem   i n   ( 4 )   is   s tat ed   in   ( 5 ) .       ̂               [     (                     )      (   ) ]   ( 5 )     W h er     is   a   r eg u lar izatio n   p ar a m eter   an d   is   p o s itiv r e al  n u m b er .   C o n s id er   th o p tim izatio n   p r o b lem   in   ( 5 ) .   W h en       is   s et  t o   ze r o ,   th en   th s o l u tio n s     ̂     ar th s a m as  t h s o l u tio n   o f   t h e   u n co n s tr ai n ed   p r o b lem   ( f u ll  m o d el)   s tated   in   ( 3 ) .   Ho w e v er ,   f o r   h i g h - d i m en s io n al  p r o b lem s   ( p >n ) ,   th     ca n n o t b s et  to   ze r o   b ec au s th s atu r ated   lo g is tic  r eg r ess io n   f it is   u n d e f in ed   [ 1 9 ] .   L ea s A b s o lu te  Sh r i n k ag Sel ec tio n   Op er ato r   ( L ass o )   is   p o p u lar   r eg u lar izatio n   m e th o d   in tr o d u ce d   b y   T ib s h ir an [ 2 0 ] .   L ass o   w o r k s   b y   ad d in g   t h L 1   p en alt y   ter m ,   d ef i n ed   as        |     |         ,   to   s h r in k   t h co ef f icie n t s   o f   p ar ticu lar   v ar ia b les   to   be   ze r o .   T h er ef o r e,   L ass o   ca n   b u s ed   f o r   v ar iab le  s elec ti o n .   T h v ec to r   o f   esti m ated   co ef f icie n ts   o f   t h L as s o   is   s tated   as:       ̂                     [     (                     )         ]   ( 6 )     Sin ce   t h co ef f icie n ts   o f   th r eg u lar izatio n   p r o b lem   ar co n tr o lled   b y   t h r eg u lar izatio n   p ar am eter   (   ) ,   th en   th o p ti m u m       s h o u ld   b e   esti m ated .   K - f o ld   cr o s s - v al id atio n   is   u s ed   to   e s ti m ate  t h o p ti m u m     .   T h e   o p tim u m   λ   i s   th o n w i th   t h s m al lest   a v er ag b in o m ial  d ev ian ce   f r o m   th cr o s s - v alid atio n   r esu lts ,   i.e .       ̂                *               +    (   )   ( 7 )     w h er e        (   )              (   )           ( 8 )     2 . 3 .   Dec is io n t re e   On o f   t h D ec i s io n   T r ee   alg o r ith m s   i s   t h C las s i f icatio n   a n d   R e g r es s io n   T r ee   ( C A R T )   t h at  ca n   b e   u s ed   w h en   t h e   p r ed icto r   v ar iab les  ar e   ca teg o r ical  v al u o r   co n tin u o u s   v al u e .   T h C AR T   a lg o r ith m   u tili ze d   t h e   Gin i i m p u r it y   as t h s p lit tin g   c r ite r ia.   T h Gin i i m p u r it y   m ea s u r at  n o d w as d ef i n ed   as:       (   )           (       )     ( 9 )     W h er   (   )   w as   th e   Gi n i m p u r it y   a n d     (       )   w a s   t h p r o p o r tio n   o f   cla s s       i n   t h n o d   .   T h e   Dec is io n   T r ee   co n s tr u ctio n   b eg in s   w i th   s p litt i n g   b i n ar y   t h r o o n o d w h ich   co n tai n s   all  o b s er v atio n s   o f   t h e   tr ain i n g   s et.   T h cr iter ia  u s ed   to   d eter m in t h s p litt in g   o f   th r o o n o d e   is   th g o o d n ess   o f   s p lit,  d en o ted   b y       (       ) ,   an d   d ef in ed   as:          (       )     (   )       ,   (     ) -       ,   (     ) -   ( 10 )   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l.  21 ,   No .   2 Feb r u ar y   2 0 2 1 :   1 1 51   -   11 59   1154   w h er e:       : a   s p lit,         : p r o p o r tio n   o f   o b s er v atio n s   at   n o d th at  g o   in to   th le f t c h i ld   n o d             : p r o p o r tio n   o f   o b s er v atio n s   at   n o d th at  g o   in to   th r ig h t c h ild   n o d     ,     (     )   i m p u r it y   o f   t h le f t c h i ld   n o d e,   an d     (     )   : i m p u r it y   o f   t h r ig h t c h ild   n o d e.   T o   o b tain   th p o s s ib le  s p lit - p o in t   f o r   co n t in u o u s - v al u ed   f e atu r es t h o b s er v atio n   v a lu e s   o f   th e          p r ed icto r ,   i.e .   {                            } ar s o r te d   in   in cr ea s i n g   o r d er   an d   o r d e r ed   o b s er v atio n   v al u es  {   (   )   }   ar e   o b tain ed .   T h en ,   th m id p o in o f   t w o   ad j ac en v al u es  is   co n s id er ed   as  p o s s ib le  s p lit - p o i n [ 2 1 ] .   T h p o in t   th at  h ad   m a x i m u m   g o o d n ess   o f   s p lit,  i.e .            {             (      ) }   is   s elec ted   as  th s p lit - p o in o f   th n o d e   [ 2 2 ] .   T h s ize  o f   th tr ee   is   n o li m ited .   T h er ef o r e,   s p litt i n g   ca n   b ca r r ied   o u to   o b tain   m o r lea f   n o d es.  Ho w e v er ,   lar g tr ee s   ten d   to   o v er f it.  T h w a y   to   s i m p lify   t h tr ee   is   to   p r u n e.   T h p ar a m eter   to   m ea s u r t h co m p le x it y   o f   tr ee   is   ca lled   th co m p le x it y   p ar a m ete r   ( C P ) .   T o   g et  th C P   v alu e,   f ir s t ,   ca lc u late   r esu b s tit u ti o n   est i m a te  an d   r el ativ er r o r .   R es u b s tit u tio n   e s ti m ate  i s   t h p r o p o r tio n   o f   m is c lass i f icatio n   i n   th e   tr ain i n g   s e t   [ 7 ] .   Su p p o s e         r ep r esen ts   t h s u b tr ee   o f   th e   m ax i m u m   tr ee           (               ) .   T h en   th r esu b s tit u tio n   esti m ate  o f         d en o ted   b y     (     )   is   ca lc u lated   u s in g   t h f o r m u la  in   ( 11 ).       (     )         (     (     )               )   ( 1 1 )     W h er e,       is   an   in d icato r   f u n c tio n   th at  h a s   v alu 1   if       (     )         an d   v alu 0   if       (     )       ,   an d       is   th n u m b er   o f   o b s er v atio n s .   Nex t,  th r elativ er r o r   is   o b tain ed   f r o m   t h r atio   o f   th r esu b s titu tio n   esti m ate  o f   th s u b tr ee         an d   th r es u b s tit u tio n   e s ti m ate  at  t h r o o n o d o r       .   T h r elativ er r o r   v alu e   is   d ef i n ed   b y   ( 1 2 ) .        (     )     (     )   (     )   ( 1 2 )     w h er e      (     )     :   r elativ er r o r   o f   th s u b tr ee           (     )     :   r esu b s tit u tio n   esti m ate  o f   th s u b tr ee           (     )     :   r esu b s tit u tio n   esti m ate  o f   th f ir s t su b tr ee   ( s u b tr ee   th at  o n l y   co n s is ts   o f   r o o t n o d e)   t he   co m p le x it y   p ar a m eter   is   d ef i n ed   b y   ( 13 ).               (     )      (         )            (         )              (     )   ( 1 3 )     w h er e :          :   t h co m p le x it y   p ar a m eter s   o f   s u b tr ee            (     )   :   th r elati v er r o r   of   s u b tr ee                    (     )   :   th n u m b er   o f   t h s p li tti n g   o f   s u b tr ee         A   v al u o f   C P :   0   in d icate s   n o   p r u n in g   w h ich   m ea n s   t h s u b tr ee   is   m a x i m u m   tr ee .   A cc o r d in g   to   [ 7 ] ,   to   o b tain   th o p ti m u m   Dec is io n   T r ee ,   th o n s tan d ar d   er r o r   r u le  ( 1   S E   r u le)   i s   u s ed .   T h 1   SE  r u le  s elec ts   a   m o d el  w i th   r elati v er r o r   o f   th cr o s s - v alid atio n   r esu lt  (    (     ) )   s m aller   o r   eq u al  to      (     )   m i n i m u m   p l u s   o n s tan d ar d   d ev iatio n   (    (     ) ) .   T h r elativ er r o r   o f   th cr o s s - v alid ati o n   r esu lt  is   ca lc u lated   u s i n g   th f o r m u la  in   ( 14 ) .   Me an w h ile ,   th s tan d ar d   d ev iatio n   an d   s tan d ar d   er r o r   in   th       s u b tr ee   ar ca lcu lated   u s i n g   ( 15 )   an d   ( 16 ).        (     )          (     (   ) )           ( 1 4 )          (     )       (    (     (   ) ) )      (     (   ) ) )   ( 1 5 )   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       K n o w led g d is co ve r fr o g en ex p r ess io n   d a ta s et  u s in g   b a g g in g   l a s s o   d ec is io n   tr ee   ( Um u   S a a d a h )   1155      (     )        (     )     ( 1 6 )     t h o n s ta n d ar d   er r o r   r u le  is   p r esen ted   in   t h ( 1 7 ) .        (     )      (   ̂   )      (   ̂   )   ( 1 7 )     w h er e       ̂                     *                   +      (     )   ( 1 8 )     2 . 4 .   B o o t s t ra a g g re g a t ing   ( ba g g ing )     T h b asic  id ea   o f   B ag g in g   is   t o   u s b o o ts tr ap   r esam p li n g   to   g et  co m b in ed   p r ed ictio n s .   T h f ir s t   s te p   o f   B ag g in g   i s   b o o t st r ap   r esa m p lin g   th a t ta k es      s a m p le s   f r o m   th e   tr ai n i n g   s et   w it h   r ep lace m en t to   g et  t h n e tr ain i n g   s et .   F u r th er m o r e,   class if ica tio n   m o d eli n g   i s   p er f o r m ed   in       b o o ts tr ap   r ep licates.  T h s ec o n d   s tep   is   ag g r e g ati n g ,   w h ic h   is   co m b i n i n g   t h est i m a tio n   r es u lt s   in to   s in g le  est i m ated   v al u e.   T h ag g r e g ati n g   p r o ce s s   is   d o n b y   m aj o r it y   v o te.       3.   RE S E ARCH   M E T H O D   W im p le m e n ted   th m et h o d   in   th OV A   O v ar y   g en ex p r es s io n   d ata  av ailab le  o n   h ttp :// o p en m l.o r g .   T h d atas et  co n s is ts   o f   1 , 5 4 5   tu m o r   t is s u o b s er v atio n s ,   in   w h ic h   10, 9 3 5   g en es  ar o b s er v ed   o n   ea c h   o f   th o s e   t u m o r   tis s u e s .   Ob s er v ed   t u m o r   t is s u e s   ar e   lab eled   w it h   O v ar y ”  a n d   Ot h er ”.   T h O v ar y ”  cla s s   is   t h clas s   o f   o v ar ian   t u m o r   ti s s u e;  w h ile  th e   Ot h er ”  class   i s   th cla s s   o f   o th er   tu m o r   tis s u e s in cl u d in g   co lo n ,   b r ea s t,  e n d o m etr ial,   k id n e y ,   l u n g ,   o m e n ta l,  p r o s tate,   an d   u ter u s   t u m o r .   T h d ata  an al y s i s   s tep s   ar d escr ib ed   as f o llo w s .   3 . 1 .     Ste ps   f o predict o v a ri a bles   s elec t io n u s ing   la s s o   a)   Sp lit  th o r ig i n al  d atase in to   th tr ain in g   an d   te s ti n g   s et.   W u s ed   th r atio   o f   8 0 f o r   th tr ain i n g   s et   an d   2 0 % f o r   th test i n g   s et.   b)   Stan d ar d ize  th tr ai n in g   s et  a n d   r u n   th L as s o   r eg u lar izatio n   w it h   1 0 0   iter atio n s .   c)   Dete r m i n th o p ti m u m   r eg u l ar izatio n   p ar a m eter   (   )   o f   th L as s o   u s i n g   1 0 - f o ld   cr o s s - v al id ati o n   d)   E x tr ac t th v ec to r   o f   co ef f icie n ts   (           )   at  th o p ti m u m         3 . 2 .     Ste ps   f o m o deli ng   a   decisi o n t re us i ng   t he  CAR T   a lg o rit h m   a)   Dete r m i n all  p o s s ib le  s p lit - p o in t f o r   ea ch   p r ed icto r   v ar iab le.   b)   C alcu late  th g o o d n es s   o f   s p l it              (      )   u s i n g   th f o r m u la  ( 7 )   to   g et  th b est  s p li t - p o in t.  T h b e s s p lit - p o in t is            {             (      ) } .   c)   Use  t h s p lit - p o in     to   s p lit  t h r o o n o d b in ar y   s o   th at   t h le f c h ild   n o d an d   r i g h c h ild   n o d ar o b tain ed .   d)   Sp lit   th t w o   ch ild   n o d es u n til  m ax i m u m   D ec is io n   T r ee   is   f o r m ed .   e)   P r u n th m a x i m u m   tr ee   b as ed   o n   th r u le  s tated   i n   t h ( 1 7 )   s o   th at  th m a x i m u m   D e cisi o n   T r ee   i o b tain ed     3 . 3 .     Ste ps   f o ba g g ing   la s s o   decisi o n t re e   a)   P er f o r m   s a m p li n g   w it h   r ep lace m en     ti m es i n   t h tr ain in g   s e t,  w h er     s tates th s ize  o f   o b s er v atio n s   i n   th tr ain in g   s et .   b)   R u n   t h L a s s o   o n   t h tr ain i n g   s et  to   s elec t p r ed icto r   v ar iab les.   c)   C o n s tr u ct  a   Dec i s io n   T r ee   u s in g   t h C A R T   alg o r it h m   o n   th tr ai n i n g   s et   t h at  h as   b ee n   s elec ted   f o r   p r ed icto r   v ar iab les.   d)   R ep ea t step   1   to   s tep   3       ti m es t o   o b tain       Dec is io n   T r ee s .   e)   C o m b i n     D ec is io n   T r ee   u s i n g   m aj o r ity   v o tes.   T h d ata  an al y s i s   p r o ce s s   wa s   co n d u cted   u s i n g   R .   T h R - p ac k ag e s   u s ed   w er g l m n et  f o r   g e n e   s elec tio n   u s i n g   L as s o   r eg u la r izatio n ,   r p ar f o r   g en er ati n g   th class i f icatio n   m o d el,   an d   r p ar t .   p lo t   f o r   v is u alizi n g   th cla s s i f icat io n   m o d el.       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l.  21 ,   No .   2 Feb r u ar y   2 0 2 1 :   1 1 51   -   11 59   1156   4.   RE SU L T A ND  D IS CU SS I O N     T h d ataset  w a s   f ir s s p lit   i n t o   th tr ain in g   s et   an d   th test i n g   s et   w it h   r atio   o f   8 0 %:2 0 % .   F o r   th e   tr ain i n g   s et,   1 , 2 3 6   o b s er v atio n s   w er o b tain ed   t h at  w o u ld   b u s ed   to   co n s tr u c t   t h m o d el .   Me an w h ile,   f o r   th e   test i n g   s et,   3 0 9   o b s er v atio n s   w er o b tai n ed   th at   w o u ld   b u s ed   f o r   ev al u ati n g   t h e   m o d el.   I n   t h tr ai n i n g   s et ,   s tan d ar d izatio n   i s   p er f o r m ed ,   an d   th e n   t h L as s o   r eg u lar izat io n   is   r u n   to   g et            .   B ec au s             d e p en d s   o n   th r e g u lar iza tio n   p ar a m ete r   (   ) f ir s t,  t h o p ti m u m       is   esti m ated   u s i n g   1 0 - f o ld   cr o s s - v alid atio n .   Fi g u r 1   s h o w s   t h r es u lt o f   1 0 - f o ld   cr o s s - v al id atio n   to   o b tain   th o p ti m u m       o f   th L as s o .             Fig u r 1 .   E s ti m at in g   t h o p ti m u m   r e g u lar izatio n   p ar a m eter       T h lef t - h an d   p ict u r in   Fi g u r 1   s h o w s   th r es u lt  o f   cr o s s - v alid atio n   a n d   th r ig h t - h an d   zo o m s   i n   th f o cu s ed   ar ea .   I n   b o th   p ict u r es,  th v er tical  li n o n   t h le f t   s h o w s   t h m in i m u m   a v er ag b in o m ial  d e v ia n ce w h ic h   is               0 . 0 1 6 9 1 7 .   Me an w h i le ,   th o n e   o n   t h r i g h t   s h o w s   th o n e   s ta n d ar d   er r o r   o f   th e   m i n i m u m ,   w h ic h   is                          .   On ca n   u s th     w i th i n   o n s tan d ar d   er r o r   o f   th m i n i m u m .   Fo r   th is   ca s e,   w u s           as  th o p tim u m   r e g u lar iz atio n   p ar a m eter .   T h n u m b er   alo n g   t h to p   o f   th p ictu r s t ate  th n u m b er   o f   n o n ze r o   co ef f icie n t s .   T h er ef o r e,   th o p ti m u m       th at  w u s e   p r o d u ce d   7 1   p r ed ict o r   v ar iab les  w it h   n o n ze r o   co ef f icie n t.  Af ter   th o p ti m u m       is   o b tain ed ,   th co ef f icien   ̂     o f   th L a s s o   is   t h en   e x tr ac ted .       4 . 1 .   Dec is io n t re m o delin g     T h s tep s   to   b u ild   D ec i s io n   T r ee   a r to   d eter m i n t h Gi n in d ex   f r o m   th e   tr ain i n g   s et ,   d eter m in e   th n o d s p lit - p o in t,  an d   d eter m in t h g o o d n ess   o f   s p lit .   Sp litt in g   t h n o d es  is   d o n u n til  g e tti n g   t h e   m ax i m u m   tr ee   an d   th e n   p r u n e   it  to   g et  s i m p ler   tr ee .   Su p p o s th at  t h m a x i m u m   tr ee   is   d en o ted   b y             an d   th s u b tr ee   o f   th m ax i m u m   t r ee   is   d en o ted   b y       .   T o   o b tain   t h o p ti m u m   tr ee ,   cr o s s - v alid a tio n   is   u s ed .   T h e   o p tim u m   tr ee s   ar s u b tr ee s   t h at  h a v    (     )      (   ̂   )      (   ̂   )   as  s tated   in   ( 1 7 ) .   Fig u r 2   p r esen ts   th e   s u b tr ee s   o f   t h m ax i m u m   tr ee   o f   th OV A _ O v ar y   d ata s et  w it h   s elec ted   g e n e s   f r o m   L a s s o .   T h r esu lt o f   cr o s s - v alid atio n   i s   d is p la y ed   b y   t h p lo t o f   th co m p lex it y   p ar a m e ter   ( C P )   p r esen ted   in   Fi g u r 3 .               ( a)         ( b )         ( c)         ( d )                     Fig u r 2 S u b tr ee s   o f   t h OV A_ Ov ar y   d ataset  w it h   t h s elec t ed   g en es  f r o m   l as s o   ( a)       ,   ( b )       ,   ( c)         ( d )                 Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       K n o w led g d is co ve r fr o g en ex p r ess io n   d a ta s et  u s in g   b a g g in g   l a s s o   d ec is io n   tr ee   ( Um u   S a a d a h )   1157   In   Fi g u r 3 ,   th e   d o tted   h o r izo n tal  l in e   co r r esp o n d s   to   t h m i n i m u m   cr o s s - v alid atio n   er r o r   p lu s   o n e   s tan d ar d   er r o r   o f   th m in i m u m ,      (   ̂   )       (   ̂   ) w h ich   is   0 . 5 9 5 .   T h o p ti m u m   tr ee   is   in d icate d   b y   p lo b elo w   th h o r izo n tal  li n e .   T h n u m b er   alo n g   t h to p   o f   th p lo s tates  th n u m b er   o f   leaf   n o d es  p r o d u ce d   b y   th s u b tr ee .   R ef e r r i n g   to   Fi g u r 3 ,   th o p ti m u m   s u b tr ee s   ar th e   s u b tr ee   th a p r o d u c e s   2 ,   5 ,   an d   6   lea f   n o d es  b ec au s th p lo is   lo ca ted   b el o w   th h o r izo n ta lin e Fu r t h e r m o r e,   f r o m   t h th r ee   alter n at iv o p ti m u m   tr ee s ,   w o n l y   u s o n to   b th o p ti m u m .   W h e n   th s u b tr ee   w i th   2   leaf   n o d es  is   u s ed ,   th m o d el  w o u ld   p er f o r m   p o o r ly .   An d   w h e n   th e   s u b tr ee   w it h   t h 6   lea f   n o d es  i s   u s ed ,   th m o d el  w o u ld   te n d   to   o v er f it.  T h er ef o r e,   w e   u s t h s u b tr ee   w i th   5   leaf   n o d es to   b th o p ti m u m   tr ee   as s h o w n   i n   Fi g u r 4 .           Fig u r 3 .   T h p lo o f   th co m p lex it y   p ar a m eter       I n   Fi g u r 4 ,   t h lab el  o n   t h n o d s h o w s   th e   clas s   th a h a s   th lar g est  p r o p o r tio n   o f   t h at   n o d e.   T h co m p atib il it y   o f   t h m o d el  o b tain ed   f r o m   t h o p ti m u m   D ec is io n   T r ee   is   m ea s u r ed   u s i n g   ac cu r ac y .   T h ac cu r ac y   o f   th o p ti m a D ec is io n   T r ee   is   9 5 . 3 1 f o r   th tr ain in g   s et  an d   8 9 . 3 4 f o r   t h test i n g   s e t.  T h is   ac cu r ac y   v alu i s   h i g h   ev e n   t h o u g h   th m o d el  o n l y   i n v o lv e s   f o u r   p r ed icto r s .   B e s i d e s   e v a l u a t i n g   t h e   c l a s s i f i c a t i o n   p e r f o r m a n c e ,   w e   a l s o   i n t e r p r e t   t h e   m o d e l .   B a s e d   o n   t h e   m o d e l   i n   F i g u r e   4 ,   t o   d i s t i n g u i s h   b e tw e e n   o v a r i a n   t u m o r   t i s s u e   a n d   o t h e r   t u m o r s ,   f i r s t ,   t h e   e x p r e s s i o n   o f   t h e   S T A R   g e n e   i s   s e e n .   I f   t h e   S T A R   e x p r e s s i o n   s h o w s   a   v a l u e   o f   m o r e   t h a n   o r   e q u a l   t o   2 2 6 ,   t h e n   t h e   t u m o r   t i s s u e   i s   p r e d i c t e d   t o   b e   o v a r i a n   t u m o r   t i s s u e   w i t h   a   p r o b a b i l i t y   o f   8 5 % .   M e a n w h i l e ,   i f   t h e   S T A R   e x p r e s s i o n   v a l u e   i s   l e s s   t h a n   2 2 6 ,   t h e n   t h e   W T 1   e x p r e s s i o n   i s   s e e n .   I f   W T 1   e x p r e s s i o n   i s   l e s s   t h a n   7 , 0 6 7 ,   i t   c a n   b e   e s t i m a t e d   t h a t   t h e   t u m o r   t i s s u e   i s   a n o t h e r   t u m o r   t i s s u e   w i t h   a   p r o b a b i l i t y   o f   9 7 % .   I f   W T 1   s h o w s   a n   e x p r e s s i o n   v a l u e   g r e a t e r   t h a n   o r   e q u a l   t o   7 , 0 6 7 ,   t h e n   t h C 1 9 o r f 5 3   g e n e   e x p r e s s i o n   i s   t h e n   s e e n .   I f   t h e   e x p r e s s i o n   o f   C 1 9 o r f 5 3   i s   m o r e   t h a n   o r   e q u a l   t o   5 , 3 2 3   t h e n   t h e   t u m o r   t i s s u e   m u s t   b e   o v a r i a n ,   b u t   i f   t h e   C 1 9 o r f 5 3   e x p r e s s i o n   i s   l e s s   t h a n   5 , 3 2 3   t h e n   t h e   e x p r e s s i o n   o f   t h e   M T X 2   g e n e   is   a l s o   s e e n .   I f   t h e   M T X 2   g e n e   h a s   m o r e   t h a n   o r   e q u a l   e x p r e s s i o n   w i t h   2 , 8 6 7 ,   t h e n   i t   i s   p r e d i c t e d   a s   o v a r i a n   t u m o r   t i s s u e ,   b u t   i f   i t   i s   l e s s   t h a n   2 , 8 6 7 ,   t h e n   i t   i s   p r e d i c t e d   a s   a n o t h e r   t u m o r   t i s s u e .     T h e   D e c i s i o n   T r e e   m o d e l   o b t a i n e d   i s   t h e o r e t i c a l l y   c o r r e c t .   A c c o r d i n g   t o   [ 2 3 ] ,   S T A R   p l a y s   a n   i m p o r t a n r o l e   i n   t h e   p r o d u c t i o n   o f   s t e r o i d   h o r m o n e s .   E s t r o g e n   i s   a   s t e r o i d   h o r m o n e   t h a t   f u n c t i o n s   a s   a   f e m a l e   s e x   h o r m o n e .   E x c e s s i v e   e s t r o g e n   c a n   c a u s e   o v a r i a n   c a n c e r .   T h e   t h e o r y   s u p p o r t s   t h e   r e s u l t s   o f   t h i s   s t u d y   w h e r e   o v a r i a n   t u m o r   p a t i e n t s   h a v e   h i g h e r   S T A R   e x p r e s s i o n   t h a n   o t h e r   t u m o r   p a t i e n t s .   W T 1   e x p r e s s i o n   i n   o v a r i a n   t u m o r s   h a s   b e en   r e v i ew e d   b y   [ 2 4 ,   2 5 ] .   W T 1   h a s   a   h i g h   e x p r e s s i o n   i n   e p i t h e l i a l   o v a r i a n   t u m o r   p a t i e n t s   ( i . e .   t u m o r s   i n   t h e   o v a r y   c o v e r i n g   m e m b r a n e )   a n d   t h e   h i g h e r   e x p r e s s i o n   o f   W T 1   i n d i c a t e s   a   h i g h   t u m o r   s t a g e   [ 2 4 ] .   M e a n w h i l e ,   t h e   r e s u l t s   o f   r e s e a r c [ 2 5 ]   st a t e d   t h a t   e x c e s s i v e   W T 1   e x p r e s s i o n   c a n   m a k e   c a n c e r   c e l l s   m o r e   a g g r e s s i v e   i n   o v a r i a n   c a n c e r .   M e a n w h i l e ,   t h e   e x p r e s s i o n   o f   C 1 9 o r f 5 3   a n d   M T X 2   g e n e s   i n   o v a r i a n   t u m o r s   h a s   n o t   b e e n   o r   h a s   n o t   b e e n   s t u d i e d   b y   r e s e a r c h e r s .   H o w e v e r ,   C 1 9 o r f 5 3   a n d   M T X 2   a r e   n o t   i m p o r t a n t   m a r k e r s   b a s e d   o n   t h e   m o d e l .           Fig u r 4 .   T h o p tim u m   tr ee   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l.  21 ,   No .   2 Feb r u ar y   2 0 2 1 :   1 1 51   -   11 59   1158   4 . 2 .   B a g g ing   l a s s o   decisi o n t re e     W cr ea ted            b o o ts tr ap   r ep li ca tes  as  d o n b y   [ 1 0 ]   an d   in   o r d er   n o t o   r e q u ir lo n g   co m p u tatio n   ti m e.   I n   th 5 0   b o o ts tr ap   r e p licates,  th L ass o   w as  u s ed   to   s elec t h p r ed icto r   v ar iab les,  an d   th en   th e   D ec is io n   T r ee   m o d el  w a s   co n s tr u cted   u s i n g   t h C AR T   alg o r ith m   to   o b tain   5 0   s i n g le  m o d el s .   O f   t h e   5 0   s in g le  m o d els  f r o m   t h b o o ts tr ap   r ep licates,  v o te  w a s   ca r r ied   o u to   c o m b i n th m o d els  in to   o n e   f in a l   m o d el.   I n   t h tr ai n in g   s et,   t h B ag g i n g   m o d el  g av e   an   ac c u r ac y   o f   9 5 . 2 3 %.  Me an w h ile,   i n   th te s ti n g   s et,   t h e   B ag g i n g   m o d el   g a v a n   ac cu r ac y   o f   9 0 . 2 9 %.  s u m m ar y   o f   t h e   ac cu r ac y   v alu e s   f r o m   t h s i n g le  m o d el   an d   th B ag g in g   m o d el  i s   p r esen te d   in   T ab le   1.       T ab le  1 .   T h a cc u r ac y   o f   th s in g le  an d   th e   b a g g i n g   M o d e l   A c c u r a c y   o f   t h e   t r a i n i n g   se t   A c c u r a c y   o f   t h e   t e st i n g   se t   S i n g l e   L a sso   D e c i si o n   T r e e     9 5 . 3 1 %   8 9 . 3 2 % .   B a g g i n g   L a sso   D e c i si o n   T r e e     9 5 . 2 3 %   9 0 . 2 9 %       C o m p ar in g   th ac c u r ac y   o f   t h s in g le  m o d els  an d   t h B ag g i n g   m o d el  h as  b ee n   co n d u cted   b y   [ 2 6 ] .   I n   th at  s tu d y ,   s i n g le  D ec is io n   T r ee   m o d el  w a s   co m p ar ed   w i th   B ag g i n g   D ec i s io n   T r ee   w it h   t h r ee   s p litt in g   cr iter ia,   n a m el y   t h g ain   r at i o ,   in f o r m a tio n   g ai n ,   an d   Gi n i   in d ex .   T h r esu lt  is   o b tai n e d   th at  B ag g in g   ca n   in cr ea s ac cu r ac y   b y   2 . 9 6 %,  1 . 6 5 %,  an d   2 . 1 8 %.  I n   th is   s t u d y ,   an   i n cr ea s i n   ac cu r ac y   is   o n l y   1 o f   th e   s in g le  L as s o   Dec is io n   T r ee   m o d el.   T h is   m ea n s   t h at  t h L as s o   Dec is io n   T r ee   class if i er   is   s tab le  o n   t h e   OV A _ Ov ar y   d ata s et.       5.   CO NCLU SI O N     T h B ag g in g   L as s o   Dec is io n   T r ee   w as  p er f o r m ed   to   ex am i n th s tab ilit y   o f   th L as s o   Dec is io n   T r ee   class if ier .   Fro m   th O V Ov ar y   d ataset,   t h L as s o   Dec is io n   T r ee   m o d el  w as c o n s tr u ct ed   w it h   f o u r   s p lit s   b u w a s   ab le  to   p r o d u ce   an   a cc u r ac y   o f   8 9 . 3 f o r   th test in g   s et.   Me an w h ile,   t h B ag g in g   m o d el  g a v a n   ac cu r ac y   o f   9 0 . 2 9 %.  T h s li g h tl y   i n cr ea s i n g   ac cu r ac y   s h o ws  t h at  t h L a s s o   Dec i s io n   T r ee   class if ier   is   s tab le.   T h m o d el  o b tain ed   also   g av e   r esu lt  t h at   t h eo r etica ll y   co r r ec t,  b eg in n in g   t h at  t h s p lit - p o in o f   ST AR   w a s   s elec ted   as  s p lit - p o in o f   t h r o o t   n o d e.   S T A R   w as  th i m p o r ta n g e n in   estro g e n   h o r m o n p r o d u ctio n .   T h er ef o r e,   r esear ch er s   o r   p r ac titi o n er s   co n ce r n in g   o n co g e n o m ic  m a y   u s t h L a s s o   Dec i s i o n   T r ee   m et h o d   to   s tu d y   t h d i f f er en ce   in   g en e   ch ar ac ter is tic s   b et w ee n   n o r m al   an d   d i s ea s e   co n d itio n s   a n d   u s B ag g i n g   L as s o   Dec is io n   T r ee   to   in cr ea s th ac cu r ac y .       ACK NO WL E D G E M E NT S     W w o u ld   li k to   ex p r ess   o u r   d ee p   g r atitu d to   P r o f .   W id o d o ,   S.Si.,   M. Si.,   P h . D.   Me d . Sc. ,   th h ea d   o f   L ab o r ato r iu m   Sen tr a l   I l m u   Ha y ati  ( L SIH )   Un iv er s itas   B r a w ij a y a ,   f o r   g iv i n g   u s   k n o w le d g ab o u t g en e s .       RE F E R E NC E S   [1 ]   H.  Om a ra ,   M .   L a z a a r,   a n d   Y.   T a b ii ,   Eff e c o f   fe a tu re   se lec t io n   o n   g e n e   e x p re ss io n   d a tas e ts  c las si f ica ti o n   a c c u ra c y ,   In t.   J .   El e c tr.   Co mp u t.   En g . ,   v o l .   8 ,   n o .   5 ,   p p .   3 1 9 4 - 3 2 0 3 ,   2 0 1 8 .   [2 ]   A .   As sa wa m a k in ,   S .   P r u e k sa a ro o n ,   S .   Ku law o n g a n u n c h a i,   P .   J.  S h a w ,   V .   V a ra v it h y a ,   T .   Ru a n g ra ji t p a k o rn ,   a n d   S .   T o n g si m a ,   Bio m a r k e s e lec ti o n   a n d   c las sif ic a ti o n   o f   „“   -   o m ic ‟  d a ta  u sin g   a   t w o - ste p   b a y e c las si f ica ti o n   f ra m e w o rk ,   Bi o me d   Res .   In t. ,   2 0 1 3 .   [3 ]   C.   Ka n g ,   Y.  Hu o ,   L .   X i n ,   B.   T ian ,   a n d   B.   Yu ,   F e a tu re   se lec ti o n   a n d   t u m o c las sif ic a ti o n   f o m icro a rra y   d a ta  u sin g   re lax e d   las so   a n d   g e n e ra li z e d   m u lt i - c las s su p p o rt  v e c to m a c h in e ,   J .   T h e o r.   Bi o l. v o l .   4 6 3 ,   p p .   7 7 - 9 1 ,   2 0 1 9 .   [4 ]   L .   Ga o ,   M .   Ye ,   X .   L u ,   a n d   D.  H u a n g ,   Hy b rid   m e th o d   b a se d   o n   i n f o rm a ti o n   g a in   a n d   su p p o r v e c to m a c h in e   f o r   g e n e   se lec ti o n   in   c a n c e c las sif ica ti o n ,   Ge n o mic s.  Pr o teo mic s B i o i n fo rm a t ics ,   v o l.   1 5 ,   n o .   6 ,   p p .   3 8 9 - 3 9 5 ,   2 0 1 7 .   [5 ]   A .   B a c k h a u a n d   U.  S e i ff e rt,   Ne u ro c o m p u ti n g   Clas sif ica ti o n   in   h ig h - d im e n sio n a sp e c tral  d a ta :  a c c u ra c y   v s.   in terp re tab il it y   v s .   m o d e siz e ,   Ne u ro c o mp u ti n g ,   v o l .   1 3 1 ,   p p .   1 5 - 2 2 ,   2 0 1 4 .   [6 ]   A .   Bib a a n d   B.   F n a y ,   In terp re tab il it y   o m a c h in e   lea rn in g   m o d e ls  a n d   re p re se n tati o n s :  a n   i n tro d u c ti o n ,   in   Eu ro p e a n   S y m p o siu o n   Arti f icia Ne u ra Ne two rk s,  Co mp u ta ti o n a In telli g e n c e   a n d   M a c h i n e   L e a rn in g ,   p p .   7 7 - 82 2 0 1 6 .   [7 ]   L .   Bre i m a n ,   J.  H.  F ried m a n ,   R.   A .   Olsh e n ,   a n d   C.   J.  S to n e ,   Cla ss if ica ti o n   a n d   Reg re ss io n   T re e s .   Ch a p m a n   a n d   Ha ll ,   1 9 8 4 .   [8 ]   A .   A n d rz e jak ,   F .   L a n g n e r,   a n d   S .   Zab a la,  In terp re tab le  m o d e ls  f ro m   d istri b u ted   d a ta  v ia  m e r g in g   o f   d e c isio n   tree s ,   in   2 0 1 3   IEE E   S y mp o siu o n   C o mp u ta t io n a I n telli g e n c e   a n d   Da t a   M in i n g   ( CIDM ) p p .   1 - 9 ,   2 0 1 3 .   [9 ]   M .   Y.  Ro c h a y a n i,   U.  S a ‟a d a h ,   a n d   A .   B.   A stu ti ,   Tw o - sta g e   g e n e   s e lec ti o n   a n d   c las sif ic a ti o n   f o a   h ig h - d im e n sio n a m icro a rra y   d a ta ,   J .   On li n e   I n fo rm . ,   v o l.   5 ,   n o .   1 ,   p p .   9 - 1 8 ,   2 0 2 0 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       K n o w led g d is co ve r fr o g en ex p r ess io n   d a ta s et  u s in g   b a g g in g   l a s s o   d ec is io n   tr ee   ( Um u   S a a d a h )   1159   [1 0 ]   L .   Bre i m a n ,   Ba g g in g   P re d ict o rs,   M a c h .   L e a rn . ,   v o l .   2 4 ,   n o .   2 ,   p p .   1 2 3 - 1 4 0 ,   1 9 9 6 .   [1 1 ]   H.  R.   S a a d ,   In d u strial  e n g in e e r in g   &   m a n a g e m e n u se   b a g g in g   a lg o rit h m   to   im p ro v e   p re d ictio n   a c c u ra c y   f o e v a lu a ti o n   o f   w o rk e p e r f o rm a n c e a a   p ro d u c ti o n   c o m p a n y ,   In d   En g   M a n a g . ,   v o l .   7 ,   n o .   2 5 7 ,   p p .   2 1 6 9 - 0 3 1 6 ,   2 0 1 8 .   [1 2 ]   P .   Kim   a n d   K.  L i m ,   V e h icle   t y p e   c las si f ica ti o n   u sin g   b a g g in g   a n d   c o n v o lu ti o n a n e u ra n e tw o rk   o n   m u lt v ie w   su rv e il lan c e   ima g e ,   in   IEE C o n fer e n c e   o n   Co mp u ter   Vi si o n   a n d   Pa t ter n   Rec o g n i ti o n   W o rk sh o p s ,   p p .   41 - 46 2 0 1 7 .   [1 3 ]   A .   Ra m a s wa m y r e d d y ,   S .   S h iv a ,   K.  V   Ra n g a ra o ,   a n d   A .   S a ra n y a ,   Eff icie n d a ta m in in g   m o d e f o p re d ictio n   o f   c h ro n ic  k id n e y   d ise a s e   u sin g   w r a p p e m e th o d s,”  In t.   J .   I n fo rm a ti c Co mm u n .   T e c h n o l . ,   v o l.   8 ,   n o .   2 ,   p p .   6 3 - 7 0 ,   2 0 1 9 .   [1 4 ]   N.  W .   S .   W a rd h a n i,   M .   Y.  Ro c h a y a n i,   A .   Irian y ,   A .   D.  S u li sty o n o ,   a n d   P .   L e sta n t y o ,   Cro ss - v a li d a ti o n   m e tri c f o e v a lu a ti n g   c las sif i c a ti o n   p e rf o rm a n c e   o n   i m b a lan c e d   d a ta ,   in   2 0 1 9   In ter n a t io n a Co n fer e n c e   o n   Co mp u ter ,   Co n tro l,   I n fo rm a ti c s a n d   i ts   Ap p li c a ti o n s ( IC3 INA) ,   p p .   1 4 - 1 8 ,   2 0 1 9 .   [1 5 ]   H.  L i,   Y.   L i,   F .   P o rik li ,   a n d   M .   W a n g ,   Co n v o lu ti o n a n e u ra n e t   b a g g in g   f o o n li n e   v isu a trac k in g ,   Co mp u t.   Vi s.   Ima g e   Un d e rs t. ,   v o l.   1 5 3 ,   p p .   1 2 0 - 1 2 9 ,   2 0 1 6 .   [1 6 ]   I.   A ries h a n ti ,   Y.  P u rw a n a n to ,   A .   Ra m a d h a n i,   a n d   M .   U.  Nu h a ,   Co m p a ra ti v e   stu d y   o f   b a n k ru p tcy   p re d ictio n   m o d e ls ,   T EL KOM NIKA   ( T e le c o mm u n ica ti o n   C o mp u ti n g   El e c tro n ics   a n d   Co n tro l) ,   v o l.   1 1 ,   n o .   3 ,   p p .   5 9 1 - 5 9 6 ,   2 0 1 3 .   [1 7 ]   P .   M o o rm a n B.   Ca li n g a e rt,   R.   P a lm ieri,   E.   Iv e rse n ,   R.   Be n tl e y ,   S .   Ha lab i,   A .   Be rc h u c k ,   a n d   J.  S c h il d k ra u t Ho rm o n a risk   f a c to rs  f o o v a ria n   c a n c e in   p re m e n o p a u sa a n d   p o stm e n o p a u sa w o m e n ,   Am.   J .   Ep id e mi o l. ,   v o l .   1 6 7 ,   n o .   9 ,   p p .   1 0 5 9 - 1 0 6 9 ,   J u n .   2 0 0 8 .   [1 8 ]   F .   S h e n ,   S .   Ch e n ,   Y.  Ga o ,   X .   Da i,   a n d   Q.  Ch e n ,   T h e   p re v a len c e   o m a li g n a n a n d   b o rd e rli n e   o v a rian   c a n c e r   in   p re -   a n d   p o st - m e n o p a u sa c h i n e se   w o m e n ,   Bi o me d   Res .   I n t. ,   v o l.   8 ,   n o .   4 6 ,   p p .   8 0 5 8 9 - 8 0 5 9 4 ,   2 0 1 7 .   [1 9 ]   T .   Ha stie,  R.   T ib sh iran i,   a n d   M .   W a in w rig h t,   S ta ti s ti c a L e a rn i n g   wit h   S p a rs it y T h e   L a ss o   a n d   Ge n e ra li za ti o n s Ch a p m a n   a n d   Ha ll ,   2 0 1 5 .   [2 0 ]   R.   T ib sh iran i,   Re g re ss io n   sh rin k a g e   a n d   se lec ti o n   v ia t h e   las so ,   J .   R.   S ta t .   S o c .   S e r.  B ,   v o l.   5 8 ,   n o .   1 ,   p p .   2 6 7 - 2 8 8 ,   1 9 9 6 .   [2 1 ]   J.  Ha n ,   M .   Ka m b e r,   a n d   J.  P e i,   D a t a   M i n in g   Co n c e p ts  a n d   T e c h n iq u e s T h ir d   Ed it io n .   El se v ier,  2 0 1 2 .   [2 2 ]   Y.  Yo h a n n e a n d   P .   W e b b ,   Clas sif ic a ti o n   a n d   re g re ss io n   tree s,  c a rt  -   a   u se r   m a n u a f o id e n ti fy in g   in d ica to rs  o f   v u ln e ra b il it y   to   f a m in e   a n d   c h ro n ic  f o o d   in se c u rit y .   W a sh in to n   D. C ,”   In ter n a ti o n a F o o d   Po li c y   Res e a rc h   In stit u te 1 9 9 9 .   [2 3 ]   P .   R.   M a n n a ,   C.   L .   S tetso n ,   A .   T.   S lo m in sk i,   a n d   K.  P ru it t,   Ro le   o f   th e   ste ro id o g e n ic  a c u te  re g u lato ry   p ro tein   i n   h e a lt h   a n d   d ise a se ,   En d o c rin e ,   v o l.   5 1 ,   n o .   1 ,   p p .   7 - 2 1 ,   2 0 1 6 .   [2 4 ]   B.   H y lan d e r,   E .   Re p a sk y ,   P .   S h rik a n t,   M .   In te n g a n ,   A .   Be c k ,   D .   Drisc o ll ,   P .   S in g h a l,   S .   L e le,  a n d   K.  Od u n si Ex p re ss io n   o f   W il m T u m o g e n e   (W T 1 in   e p it h e li a o v a rian   c a n c e r,   Gy n e c o l.   On c o l. ,   v o l.   1 0 1 ,   n o .   1 ,   p p .   1 2 - 1 7 ,   2 0 0 6 .   [2 5 ]   Z.   L iu ,   K.  Ya m a n o u c h i ,   T .   Oh tao ,   S .   M a tsu m u ra ,   a n d   M .   S e in o ,   Hig h   L e v e ls  o W il m s‟  Tu m o 1   (W T 1 e x p re ss io n   we re   a ss o c iate d   w it h   a g g r e ss iv e   c li n ica fe a tu re in   o v a rian   c a n c e r ,   An ti c a n c e Res . ,   v o l.   3 4 ,   n o .   5 ,   p p .   2 3 3 1 - 2 3 4 0 ,   2 0 1 4 .   [2 6 ]   A .   Dz e li h o d z ic an d   D.  Do n k o ,   C o m p a riso n   o f   e n se m b le c las si f ica t io n   tec h n i q u e s an d   si n g le cla ss if i e rs co m p a riso n   o f   e n se m b le  c las si f ica ti o n   tec h n i q u e a n d   sin g le  c las sif ier p e r f o rm a n c e   f o c u sto m e c re d it   a s se ss m e n t ,   M o d e l.   Arti f.   In tell. ,   v o l.   1 1 ,   n o .   3 ,   p p .   1 4 0 - 1 5 0 ,   2 0 1 6 .     Evaluation Warning : The document was created with Spire.PDF for Python.