I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   9 ,   No .   4 A u g u s t   201 9 ,   p p .   3 2 4 1 ~ 3 2 4 6   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 9 i 4 . p p 3 2 4 1 - 3246           3241       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   Ens e m bl e learnin g  f o r so ft w a re f a ult  pred iction p ro b le m   w ith  i m ba la nced  da ta       T ha nh   T un g   K hu a t ,   M y   H a nh   L e   In f o rm a ti o n   T e c h n o l o g y   F a c u lt y ,   T h e   Un iv e rsit y   o f   Da n a n g ,   Un iv e rsity   o f   S c ien c e   a n d   T e c h n o lo g y ,   V ietn a m       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Oct   10 ,   2 0 1 8   R ev i s ed   Mar   19 ,   2 0 1 9   A cc ep ted   A p r   3 ,   2 0 1 9       F a u lt   p re d icti o n   p r o b lem   h a s   a   c ru c ial  ro le  in   th e   so f t wa re   d e v e lo p m e n p ro c e ss   b e c a u se   it   c o n tri b u tes   to   re d u c in g   d e f e c ts   a n d   a ss isti n g   t h e   tes ti n g   p ro c e ss   to w a rd fa u lt - f re e   so f t w a re   c o m p o n e n ts.  T h e re f o re ,   th e re   a re   a   lo o e ff o rts  a i m in g   to   a d d re ss   th i ty p e   o f   issu e s,  in   w h ich   sta ti c   c o d e   c h a ra c teristics   a re   u su a ll y   a d o p ted   to   c o n stru c f a u lt   c las sif ica ti o n   m o d e ls.   On e   o f   th e   c h a ll e n g in g   p ro b lem s   in f lu e n c in g   t h e   p e rf o rm a n c e   o f   p re d ictiv e   c las si f iers   is   th e   h ig h   i m b a lan c e   a m o n g   p a tt e rn b e lo n g in g   to   d if f e re n t   c las se s.  T h is  p a p e a i m to   in teg ra te  th e   sa m p li n g   te c h n iq u e a n d   c o m m o n   c las si f ica ti o n   tec h n i q u e t o   f o rm   a   u se f u e n se m b le  m o d e f o th e   so f t w a re   d e f e c p re d ictio n   p ro b lem .   T h e   e m p iri c a re su lt s c o n d u c ted   o n   th e   b e n c h m a r k   d a tas e ts  o f   so f t w a re   p ro j e c ts  h a v e   sh o w n   th e   p ro m isin g   p e rf o r m a n c e   o f   o u p ro p o sa i n   c o m p a riso n   w it h   i n d i v id u a c las sif iers .   K ey w o r d s :   C las s i f ier   Data   s a m p li n g     E n s e m b le  lear n i n g   R an d o m   u n d er   s a m p li n g   So f t w ar f a u lt   p r ed ictio n     Co p y rig h ©   2 0 1 9   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   M y   Han h   L e,     I n f o r m a tio n   T ec h n o lo g y   Fac u l t y ,   Un i v er s it y   o f   Da n an g ,   U n iv er s it y   o f   Scie n ce   an d   T ec h n o lo g y ,     5 4   Ng u y e n   L u o n g   B a n g ,   Da n a n g ,   5 5 0 0 0 0 ,   Viet  Nam .   E m ail:  lt m h an h @ d u t. u d n . v n       1.   I NT RO D UCT I O N     In   th p as f e w   y ea r s ,   r esear ch er s   h av p u m o r e f f o r in t o   s o f t w ar p r o p er ty   p r ed ictio n   p r o b lem s   s u c h   as  e f f o r esti m atio n   [ 1 ] ,   d ef ec clas s i f icatio n   [ 2 ] ,   an d   s o f t w ar q u alit y   p r ed ictio n   [ 3 ] .   W h ile  t h r is k   o f   d ef ec ts   w i th in   th s o f t w ar m o d u les  u n d er   d ev elo p m e n ar e   h i g h ,   test i n g   o p er atio n s   [ 4 ]   ar ti m e - co n s u m i n g   an d   ex p en s iv e,   an d   th e y   ca n n o b p er f o r m ed   f o r   en tire   ele m en ts .   A s   r esu l t ac cu r ate  p r ed ictio n   o f   f a u lts   i n   s o f t w ar u n its   m i g h h elp   m a n ag er s   to   allo ca te  li m ited   ti m an d   p r ec io u s   r eso u r ce s   to   d ep lo y   a n   e f f icie n t   s o f t w ar test i n g   p r o ce ss Alo n g   w it h   th e   ad v a n ce m en t   o f   m ac h i n lear n i n g   tec h n iq u e s v ar io u s   s o f t w ar e   m etr ics  h a v b ee n   u s ed   to   co n s tr u ct  p r ed ictiv m o d els  f o r   id en ti f y i n g   f au l t - p r o n s o f t w a r m o d u les  s u ch   a s   s tatic  co d m etr ic s ,   ex ec u tio n   tr ac es,  an d   h is to r ical  co d ch an g e s   [ 5 ] .   T h is   w o r k   also   e m p l o y s   th s ta tic  co d m etr ics i n cl u d in g   clas s - lev el  a n d   m et h o d - le v el  o n es   to   b u i ld   s o f t w ar f au lt c la s s i f ier s .   On o f   t h f ea tu r e s   o f   s o f t w ar q u alit y   d ataset s   is   t h i m b al an ce   b et w ee n   t h n u m b er   o f   p atter n s   i n   ea ch   cla s s   lab el w h er e   m o s t   v u ln er ab le  co m p o n e n ts   o f   t h s o f t w ar s y s te m   m a y   o n l y   b s o u g h t   w i th   s m al l   r ati o T h er ef o r e ,   th q u an tit y   o f   f a u lt y   s a m p les  i n   su ch   s o f t w ar d ataset s   is   m u c h   lo w e r   th an   t h at  o f   n o n - d ef ec tiv e   p atter n s   [ 6 ] .   Un f o r tu n ate l y ,   th e   p er f o r m a n ce   o f   m o s co n v e n tio n al   cla s s i f ier s lik e   s u p p o r v ec to r   m ac h in e s   [ 7 ] ,   K - n ea r est  n ei g h b o r   [ 8 ] ,   n eu r al  n et w o r k s   [ 9 ] an d   B ay esia n   n et w o r k   [ 1 0 ] ,   is   s ig n if ica n tl y   d ec r ea s ed   on   th class - i m b ala n ce   p r o b lem .   T h ey   ar u s u all y   to w ar d s   th d o m in a n clas s   an d   ten d   to   d is r eg ar d   th m i n o r it y   clas s ,   an d   th i s   p h en o m en o n   i s   p o s s ib le   to   lea d   to   h i g h   f a ls n e g ati v r ates   [ 1 1 ] .   T o   s o lv e   th is   p r o b lem ,   d ata  s a m p li n g   m et h o d s   ar r eg u lar l y   ad o p ted   co m b in ed   w i th   p r ed icti v m o d el s .   T h is   p ap er   m ak e s   u s e   o f   r an d o m   u n d er s a m p li n g   ( R U S)   to   co p w it h   th i m b a lan ce d   d ata  p r o b le m .   W f ir s p r o d u ce   t h b alan ce d   d atasets   b y   u tili z in g   th R US   tech n iq u e s   f o r   an   o r ig in a i m b ala n ce d   d ataset.   T h ese  b alan ce d   d atasets   ar th e n   p u to   v ar io u s   b ase  p r ed icto r s   an d   f i n all y ,   s p ec if ic  e n s e m b le  r u le  is   d ep lo y ed   to   co m b i n e   th clas s i f icatio n   r es u lt s   o f   t h e s b ase  m o d els.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t   201 9   :   3 2 4 1   -   3246   3242   T h eo r etica an d   e m p ir ical  e v i d en ce   h a s   i n d icate d   th a t h en s e m b le  m et h o d   o f   m u l tip le   class i f ier s   m a y   m a k e   th u lti m ate  p r ed ictiv m o d el   m o r ac c u r ac y   [ 1 2 ] Nev er th eles s th er ar v er y   f e w   s t u d ies   ap p l y i n g   t h en s e m b le   ap p r o ac h   to   th s o f t w ar d ef ec t   p r ed ictio n   p r o b lem   [ 1 3 ] .   T o   th b est  o f   o u r   k n o w led g e,   th is   w o r k   is   t h f ir s s tu d y   o n   e m p ir ical  ass e s s m en t   o f   th in f l u e n ce   o f   s a m p lin g   o n   en s e m b l e   m o d el s   co n ce r n i n g   i m b alan ce d   tr ain i n g   d ataset s   f o r   t h s o f t w ar f a u lt   p r ed ictio n   p r o b le m .   T h p r in cip al  ai o f   th is   p ap er   is   to   r ev ea l   th v ital   r o le  o f   th s am p li n g   tech n i q u to   th ac cu r ac y   o f   th en s e m b le  class i f ier   on  i m b alan ce d   d ata.   W u s s o f t w ar d ef ec en s e m b le  p r ed icto r   co n s is ti n g   o f   f i v e   b ase  class i f ier s :   k - n ea r es t   n eig h b o r ,   B ay e s ia n   n et w o r k s ,   J 4 8 ,   m u lti la y er   p er ce p tr o n ,   an d   s u p p o r v ec to r   m ac h i n e s .   T h d iv er s it y   i n   class i f icatio n   ab ilit ies  o f   th b ase  class i f ier s   m a y   co n tr ib u te  to   ca p tu r in g   d i f f er en t   s tatis tic al   ch ar ac ter is tic s   o f   th u n d er l y in g   d ata.   E m p ir ica r esu lt s   ar e   p er f o r m ed   o n   s e v en   s o f t w ar d ef ec d ataset s   f r o m   t h P R OM I S E   r ep o s ito r y   [ 1 4 ] .   Ou r   m ain   co n t r ib u tio n s   i n   t h is   p ap er   ca n   b s u m m ar ized   as  f o llo w s :   -   W p r o p o s g en er al  m eth o d   o f   b u ild in g   a n   en s e m b le  m o d el  o f   b ase  cla s s i f ier s   f o r   s o f t w ar f a u lt   p r ed ictio n   u s i n g   i m b ala n ce d   tr ain i n g   d atase ts   -   W ass es s   t h cr u c ial  r o le  o f   t h u n d er - r a n d o m   s a m p le   tech n iq u o n   i m p r o v i n g   th e   p er f o r m an ce   o f   th e   en s e m b le  m o d els t h r o u g h   e x p er i m en tal  r esu lts   o n   h i g h l y   i m b alan ce d   s o f t w ar f a u lt d ata s e ts   T h r em ai n d er   o f   t h is   p ap er   is   o u tli n ed   as  f o llo w s s ec tio n   2   p r esen ts   t h b ac k g r o u n d   k n o wled g an d   r elate d   w o r k   o f   t h r an d o m   u n d er s a m p lin g   a n d   en s e m b le   lea r n in g .   Sect io n   3   d is c u s s es  o u r   p r o p o s ed   m et h o d w h ile  s ec tio n   4   th a n al y s i s   o f   ex p er i m e n tal  r es u lts .   T h co n clu s io n   an d   f u t u r w o r k   ar g i v en   i n   s ec t io n   5 .       2.   B ACK G RO UND   2 . 1 .     So f t wa re   f a ult  predict io n   Def ec p r ed ictio n   is   m eth o d   o f   ea r l y   id en ti f icatio n   o f   f au lts   in   s o f t w ar m o d u le s .   I in v e s t ig ates  t h e   p r o p er ties   o f   in d iv id u al  co d ele m e n ts   to   d eter m i n t h o s u n its   b ein g   f au lt - p r o n o r   n o [ 1 5 ]   o r   to   p r ed ict  th n u m b er   o f   f au lts   i n   ea c h   co m p o n en [ 1 6 ] .   W h ile  th latter   co n s id er s   s o f t w ar d e f ec t p r ed ictio n   as a   r eg r e s s io n   is s u e,   th f o r m er   ap p r o ac h   r eg ar d s   it  as  class i f icat io n   p r o b le m .   T h is   s t u d y   o n l y   d ea ls   w i t h   th cla s s i f icat io n   v ie w p o in t,   w h ich   p r ed icts   a   s o f t w ar m o d u le  in to   f a u lt - p r o n o r   n o n - f au lt - p r o n e.   lar g n u m b er   o f   s tatic   co d ch ar ac ter is tics   h av b ee n   p r o p o s ed   f o r   th s o f t w ar f au lt  p r ed ictio n   r an g i n g   f r o m   m et h o d   lev el  m etr ics  s u c h   as   L in e s   O f   C o d e - b ased   m ea s u r es   [ 1 7 ] ,   Mc C ab [ 1 8 ]   an d   Hal s tead   [ 1 9 ]   m etr ics  to   class   lev el   m etr ics   lik C h id a m b er - Ke m er er   [ 2 0 ]   an d   C o n ce p t u al  C o h e s io n   o f   C lass es  m ea s u r [ 2 1 ] .   B ased   o n   s tatic  co d m e tr ics,  r esear ch er s   h av ad o p ted   d if f e r en m e th o d s   to   co n s tr u c s o f t w ar f au lt  p r ed ictio n   m o d els.  I n   g en er al ,   co n v en tio n al  d ef ec p r ed ictio n   ap p r o ac h es  co n s is o f   f o u r   m ai n   s tep s ,   i.e . ,   co n s tr u ct io n   o f   tr ai n i n g   d at asets ,   f ea tu r ex tr ac tio n   f r o m   s o f t w ar d ef ec d ataset s ,   d ev elo p m e n o f   a   p r ed ictiv m o d el,   an d   th ap p licatio n   o f   t h co n s tr u cted   m o d el.     2 . 2 .     Cla s s   i m ba la nce  pro ble m   a n d r a nd o m   un der  s a m pl ing   C las s   i m b ala n ce   i s   a n   in teg r al  attr ib u te  o f   t h s o f t w ar d e f ec t d ata,   w h ic h   co m p r is o n l y   f e w   f au lt y   u n i ts   an d   lar g n u m b er   o f   n o n - f a u lt y   m o d u le s   [ 2 2 ] .   T h is   ch ar ac ter is tic  h as  co n s id er a b le  im p ac o n   b o th   th t r ain i n g   o f   m o d el  an d   th p r ed ictiv p er f o r m a n ce   s in c m o s m ac h i n lear n i n g   al g o r ith m s   ten d   to   f o r m   class i f ier s   m a x i m izi n g   t h o v er all  clas s i f icatio n   ac c u r ac y .   C o n s eq u en tl y ,   t h v a lu ab le   m i n o r it y   cla s s   i s   u s u all y   i g n o r ed   b y   s u c h   m o d els.  Fo r   ex a m p le,   g i v e n   d ataset  h av in g   o n l y   1 o f   t h f au lt y   co m p o n en ts ,   an   o v er all  ac cu r ac y   o f   9 9 m ig h b ea s il y   attain ed   b y   b in ar y   clas s i f ier   g r o u p in g   all  d ata  p atter n s   as  n o n - f au lt y   p atter n s .   A s   r es u lt,  t h m i n o r it y   d e f ec ti v in s ta n c es  ar all  m is c la s s if ied   w it h   th is   s i m p le  m o d el.   I n   th i s   ca s e,   it  o u tp u ts   v er y   h ig h   ac c u r ac y ,   b u it  m a k es  n o   s en s e.   T h er ef o r e,   th class   i m b a lan ce   p r o b le m   o f ten   d i m i n is h es  t h b in ar y   p r ed icto r s ,   an d   f u r th er   m ak e s   th e s class if icatio n   m o d els   n o to   p r ed ict  th m i n o r it y   f au l t y   s o f t w ar u n i ts   ac cu r atel y .   Ma n y   s t u d ies  h av b ee n   i n tr o d u ce d   to   h an d le  t h cla s s   i m b alan ce   p r o b le m .   A   s u r v e y   o f   t ec h n iq u es   f o r   r ed u cin g   t h n e g ativ e   i m p ac o f   i m b a lan ce   o n   clas s i f icatio n   p er f o r m a n ce   w a s   p r o p o s ed     b y   W eiss   et  a l.  [ 2 3 ] .   C r u cial   m et h o d s   f o r   allev iatin g   th e   i n f l u en ce   o f   c lass   i m b alan ce   m i g h t   b ca te g o r ized   in to   g r o u p s ,   n a m el y   e x ter n a l   an d   in ter n al  m et h o d s .   I n ter n al  tech n iq u e s   ai m   to   m o d if y   e x is tin g   m ac h i n e   lear n in g   al g o r ith m s   f o r   r ed u cin g   th eir   s e n s iti v en e s s   to   cla s s   i m b a lan ce   [ 2 4 ] ,   w h ile  th e   ex ter n al  ap p r o ac h   ten d s   to   f o r m   b alan ce d   tr ain i n g   d ataset.   T h ex ter n al  ap p r o ac h es  ar w id el y   u s ed   as  th e y   ar in d e p en d en o f   th u n d er l y in g   cla s s i f icatio n   alg o r ith m s .   Data   s a m p li n g   b e lo n g s   to   th e x ter n al  g r o u p .   T h u n d er s a m p l in g   tech n iq u o f ten   eli m i n ate s   s a m p les  o f   th m aj o r it y   clas s   f o r   o b tain in g   b alan ce d   d ataset   b ef o r tr ain in g   t h e   class i f ier s .   Ma n an d   Z h a n g   [ 2 5 ]   p o in ted   o u th at  th r an d o m   u n d er s a m p l in g   tech n i q u r eg u lar l y   o u tp er f o r m s   o th er   co m p lex   s a m p l in g   s tr ateg ies.  T h er ef o r e,   w u s r a n d o m   u n d er s a m p li n g   in   co m p ar is o n   w it h   b ase   class i f ier s   to   b u ild   a n   u lt i m ate   en s e m b le  m o d el.       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       E n s emb le  lea r n in g   fo r   s o ftw a r fa u lt p r ed ictio n   p r o b lem  w ith   imb a la n ce d   d a t a   ( My  Ha n h   Le )   3243   3.   P RO P O SE E N SE M B L E   M O DE L   I n   o u r   p r o p o s ed   m o d el,   ea ch   b ase  class i f ier   i s   tr ain ed   o n   a   d if f er e n b alan ce d   d atase f o r m ed   f r o m   th s a m p l in g   s tep ,   a n d   t h e   m o d el  i n cl u d es   th r ee   co m p o n en ts :   d ata  b ala n cin g ,   class i f ier s   tr ain in g ,   an d   class i f y i n g .   T h d etails ar s h o w n   i n   Fi g u r e   1 .             Fig u r 1 .   P r o p o s ed   en s e m b le  class i f ier       Du r in g   t h tr ai n i n g   p r o ce s s ,   t h m aj o r ity   cla s s   s a m p le s   i n   t h o r ig i n al  i m b alan ce d   d atase ar s p lit   in to   s ev er al  b in s   b y   ad o p tin g   th r an d o m   u n d er s a m p li n g   m et h o d .   E ac h   b in   in clu d es  t h eq u al  n u m b er   o f   p atter n s   to   t h at  o f   th m i n o r it y   clas s ,   an d   t h e n   all  m i n o r it y   class   p at ter n s   ar p u in to   ea ch   b in   to   f o r m   t h e   b alan ce d   tr ain i n g   d ataset.   Af t er   th at,   ea ch   b ase  clas s i f ier   will  b tr ain ed   o n   s ep ar ated   b alan ce d   d ataset  b y     s p ec if ic  c lass if ica tio n   al g o r ith m .   Fi n all y ,   t h f in a clas s i f ier   is   b u ilt  b y   co m b i n i n g   th o u tco m e s   o f   b as e   p r ed icto r s   r elied   o n   th m aj o r it y   v o ti n g   r u le.   T h en s e m b le   m o d el  w o u ld   th e n   b d ep lo y ed   to   class if y   n e d ata.   T h er ar v ar io u s   c lass if icatio n   tec h n iq u e s   p o s s ib le  to   b u s ed   f o r   b ase  cla s s i f ier s .   T h d iv er s it y   o f   b ase   p r ed icto r s   m i g h r es u lt  i n   t h p er f o r m a n ce   i m p r o v e m en o f   th f in a en s e m b le   m o d el.   I n   th is   s t u d y ,   w u s e   f i v co m m o n   clas s i f icatio n   al g o r ith m s ,   i n cl u d in g   s u p p o r v ec to r   m ac h i n es  ( SVM)   [ 7 ] ,   m u ltil a y er   p er ce p tr o n   ( ML P )   [ 9 ] ,   B a y es ian   n et w o r k s   [ 1 0 ] ,   K - n ea r est  n ei g h b o r   ( K NN)   [ 2 6 ] ,   an d   d ec is io n   tr ee   J 4 8   [ 2 7 ] .   Div er s it y   is   cr u cial  f ac to r   i n   t h e n s e m b le  m e m b er s '   d ec i s io n s .   I ca n   b s ee n   th at   b ase  lear n er s   ar tr ain ed   o n   d i f f er en t   d atasets ,   a n d   t h is   w ill   co n tr ib u te  to   t h d i v er s it y   o f   t h f i n al  en s e m b le  m o d el  f o r m ed   f r o m   th m aj o r it y   v o tin g   r u le  f o r   o u tco m e s   o f   b ase  clas s if ier s .       4.     RE SU L T S AN ANA L Y SI S   4 . 1 .   E m p irica l e v a lua t io n   cr it er ia   a nd   da t a s et   E ac h   b in ar y   cla s s i f icatio n   is s u is   as s o ciate d   w it h   f o u r   p o s s ib le  p r ed ictio n   ca s es,  i.e . ,   tr u p o s itiv e s   ( T P ) ,   tr u n eg ati v es  ( T N) ,   f alse  p o s iti v es  ( FP ) ,   an d   f a ls n eg a tiv e s   ( FN) .   As  f o r   t h s o f t w ar d e f ec p r ed ictio n ,   if   s a m p le  is   clas s if ied   as  " f au l t y "   an d   is   ac tu a ll y   " f au lt y " ,   it  is   tr u p o s iti v e;  if   n o n - f a u lt y   p atter n   is   m is c lass if ied   a s   " f au lt y " ,   it  is   f a u lt  p o s iti v e.   I n   s i m ilar   w a y ,   tr u n e g ati v s h o w s   t h at  t h n o n - f au lt y   s a m p le  is   p r ed icted   to   " n o n - f au l t y , "   w h ile  f a u lt   n e g ativ in d icate s   a n   er r o r   s it u at io n   w h er b u g g y   p r o g r am   u n it  i s   i n co r r ec tl y   g r o u p ed   as  " n o n - b u g g y " .   B ased   o n   t h ese  f o u r   v ar iab les,   m ea s u r es  s u c h   a s   P r ec is io n ,   R ec all,   an d   F1 - s co r ar co m p u ted   as  f o llo w s :      =   +         =   +        1  = 2      +      Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t   201 9   :   3 2 4 1   -   3246   3244   T o   ev alu ate  th e f f ec ti v en e s s   o f   th e n s e m b le  cla s s i f ier ,   w e   co n d u cted   ex p er i m en t s   o n   co llectio n   o f   s ev e n   h ig h l y   i m b a lan ce d   b i n ar y   d ataset s   f r o m   th P R OM I SE  r ep o s ito r y   o f   s o f t w ar d ef ec d atab ases   [ 1 4 ]   T h ese  s ev e n   o p en   s o u r ce   d at asets   h av t h d i f f er e n n u m b er   o f   p atter n s ,   f ea tu r es,   a n d   t h clas s   i m b ala n ce   r atio .   T ab le  1   s h o w s   t h at t r ib u tes  o f   ea c h   s elec ted   i m b alan ce d   d ataset,   in cl u d i n g   t h to tal  n u m b er   o f   attr ib u tes  ( # A t tr . ) ,   th n u m b er   o f   p atter n s   ( #   P ats.) ,   th n u m b er   o f   d ef ec ti v co m p o n en t s   ( #   Def ec t) ,   th n u m b er   o f   n o n - d ef ec ti v u n i ts   ( #   No n - d ef ec t) ,   t h r atio   o f   f a u lt y   m o d u les  to   all  m o d u les  i n   ea c h   d ataset   ( Def ec t) .   A ll  s e v e n   s o f t w ar s y s te m s   h a v b ee n   w r it ten   i n   J av p r o g r a m m i n g   la n g u a g e.   E ac h   in s tan ce   i n   th ese   d atasets   r ep r esen t s   a   s i n g le  J av a   clas s .   T h f ea t u r s et   o f   ea c h   d ata s et  co n s i s ts   o f   2 0   s o f t w ar m etr ic s   s u c h   as c o m p le x it y ,   co u p lin g ,   co h esio n ,   s ize  an d   d ef ec t p r o n en es s   ch ar ac ter is t ic s   o f   J av class .       T ab le  1 .   Su m m ar y   o f   s e v e n   h i g h l y   i m b alan ce d   d ataset s   D a t a se t   #   A t t r .   #   P a t s   #   D e f e c t   #   N o n - d e f e c t   %De f e c t   A n t   1 . 7   20   7 4 5   1 6 6   5 7 9   2 2 . 2 8 %   C a me l   1 . 6   20   9 6 5   1 8 8   7 7 7   1 9 . 4 8 %   I v y   2 . 0   20   3 5 2   40   3 1 2   1 1 . 3 6 %   P o i   2 . 0   20   3 1 4   37   2 7 7   1 1 . 7 8 %   T o mca t   20   8 5 8   77   7 8 1   8 . 9 7 %   X a l a n   2 . 4   20   7 2 3   1 1 0   6 1 3   1 5 . 2 1 %   S y n a p se   1 . 2   20   2 5 6   86   1 7 0   3 3 . 5 9 %       4 . 2 .      E x peri m ent a l r esu lt s   4 . 2 . 1 .   Co m pa riso n o f   t he  ens e m ble  m o del s   w it h a nd   w it ho ut  us ing   ra nd o m   un dersa mp lin g   T h is   p ar is   to   u n co v er   i f   t h u n d er s a m p li n g - b ased   en s e m b l m o d el  ca n   h a n d le  t h class   i m b alan c e   p r o b lem   m o r e f f icien co m p ar ed   w i th   o n w it h o u u s in g   t h u n d er s a m p l in g   tec h n iq u e.   No n - s a m p li n g   en s e m b le  m ea n s   th at  b ase  c la s s i f ier s   ar tr ain ed   o n   t h e n ti r o r ig in al  i m b a lan ce d   d ataset .   T a b le  2   s h o w s   t h e   av er ag r esu lts   o f   F1 - s co r o v er   3 0   ex ec u tio n   ti m es  f o r   th n o n - s a m p lin g   an d   u n d e r s a m p li n g   en s e m b le  m o d el s .   I n   th tab le,   t h b est v alu o f   ea c h   d ataset  is   h i g h li g h ted   in   b o ld .   Fro m   T ab le  2 ,   it  is   o b s er v e d   th at  t h i n te g r atio n   o f   t h e   r an d o m   u n d er s a m p li n g   m e t h o d   w ith   en s e m b le  lear n i n g   o u tp er f o r m s   t h e n s e m b le  class if ier   w it h o u u s in g   t h s a m p li n g   tech n iq u in   all   i m b alan ce d   d ata s ets,   esp ec iall y   f o r   th e   p o 2 . 0   d ataset.   I n   t h is   d ataset,   th e   en s e m b le  p r ed icto r   tr ain ed   o n   th e   o r ig in al  i m b a lan ce d   d ata  o u tp u ts   t h F1 - s co r v al u b ein g   c o m p lete l y   i n ac cu r ate,   w h ile  th en s e m b le  m o d el   u s i n g   t h r an d o m   u n d er s a m p l in g   al g o r ith m   s ig n i f ica n tl y   e n h an ce s   t h ac c u r ac y   o f   F1 - s c o r e.   T h ese  r es u lts   in d icate   t h at  s a m p lin g   tech n iq u co n tr ib u tes   to   t h co n s id er ab le   i m p r o v e m e n o f   t h e   ac cu r ac y   o f   th e   en s e m b le  clas s if ier   r eg ar d in g   t h class   i m b ala n ce   tr ain i n g   d atasets .       T ab le  2 .   A v er ag F1 - s co r v al u es o f   i m b ala n ce d   d atasets   f o r   th en s e m b le  m o d els   D a t a se t   N o n - samp l i n g   e n se mb l e   U n d e r S a m p l i n g   e n se mb l e   A n t   1 . 7   0 . 5 2 7 8   0 . 6 2 6 1   C a me l   1 . 6   0 . 2 3 2 1   0 . 4 4 1 3   I v y   2 . 0   0 . 2 7 5 9   0 . 3 9 3 7   P o i   2 . 0   0   0 . 3 3 5 4   T o mca t   0 . 2 2 2 2   0 . 3 8 9 9   X a l a n   2 . 4   0 . 2 5 3 5   0 . 4 5 3 5   S y n a p se   1 . 2   0 . 5 3 3 3   0 . 6 4 8 7       4 . 2 . 2 .   Co m pa riso n o f   t he  ens e m ble  m o del a n d it s   ba s cla s s if iers   T h p u r p o s o f   th i s   ex p er i m en is   to   v alid ate  w h et h er   th e n s e m b le  m o d el  u s i n g   th r an d o m   u n d er s a m p li n g   lead   to   b etter   a v er ag F1 - s co r v al u es c o m p a r ed   to   th eir   b ase  clas s i f ier s .   T ab le  3   d escr ib es th e   r esu lt s   o f   th en s e m b le  m o d el  an d   its   b ase  class i f ier s   w h en   tr ain ed   o n   th o r ig i n al  i m b alan ce d   d ata  an d   b alan ce d   d atasets .   T h b est r esu lt s   f o r   ea ch   d atase ar e   h ig h l ig h ted   in   b o ld .   Gen er all y ,   b ase  p r ed icto r s   tr ai n ed   o n   b ala n ce d   d ata  o u tp u m u ch   b etter   av er a g F1 - s co r r e s u lt s   o v er   all  d atasets   co m p ar ed   to   th o s tr ain ed   o n   o r ig in al  i m b alan ce d   d atasets ,   esp ec iall y   k NN,   ML P ,   an d   SVM.   I t is ea s y   to   o b s er v t h at  s e v er al  class i f ier s   s u c h   as J 4 8 ,   SVM,   an d   k NN  ar v er y   s e n s iti v e   to   i m b alan ce d   d ata,   an d   th e y   g en er ate  i n cr ed ib l y   i n ac cu r ate  F1 - s co r v al u es.  W h en   ad o p tin g   t h o r ig in al  i m b alan ce d   d ataset  to   tr ain   m o d el s ,   t h en s e m b le  m o d el   ca n n o o u tp er f o r m   all   b ase  clas s if ier s   o n   all  e x p er i m en tal  d ataset s .   Ho w e v er ,   th r an d o m   u n d er s a m p lin g   tec h n iq u ass i s ts   t h e   en s e m b le  clas s i f ier   to   p er f o r m   b etter   t h an   t h eir   b ase  lear n er s   o n   all  d ata s ets .   I is   co n clu d ed   t h at  t h u s o f   r an d o m   u n d er s a m p li n g   co n tr ib u tes  to   t h e   s ig n i f ica n i m p r o v e m e n o f   th p er f o r m a n ce   o f   b ase   class i f ier s   a n d   th f i n al   en s e m b le  m o d el.   Ob tain ed   r es u lts   h a v s h o wn   t h cr itical   r o le  o f   b ala n c ed   tr ain in g   d ata s e ts   o n   t h ac cu r ac y   o f   b i n ar y   class i f icatio n   alg o r it h m s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       E n s emb le  lea r n in g   fo r   s o ftw a r fa u lt p r ed ictio n   p r o b lem  w ith   imb a la n ce d   d a t a   ( My  Ha n h   Le )   3245   T ab le  3 .   A v er ag F1 - s co r o v er   d atasets   o f   th e n s e m b le  m o d el  an d   its   b ase  class i f ier s   Ty p e   C l a ssi f i e r   D a t a se t   A n t   1 . 7   C a me l   1 . 6   I v y   2 . 0   P o i   2 . 0   T o mca t   X a l a n   2 . 4   S y n a p se   1 . 2   O r i g i n a l   i mb a l a n c e d   d a t a se t   En se mb l e   0 . 5 2 7 8   0 . 2 3 2 1   0 . 2 7 5 9   0   0 . 2 2 2 2   0 . 2 5 3 5   0 . 5 3 3 3   k N N   0 . 4 9 6 1   0 . 2 1 7 1   0 . 2 6 6 7   0 . 0 8 3 3   0 . 1 1 5 4   0 . 1 9 1 8   0 . 5 5 5 6   BN   0 . 6 0 9 5   0 . 2 4 4 9   0 . 3 2 5 6   0   0 . 3 6 3 4   0 . 4 3 4 8   0 . 5 3 8 5   J4 8   0 . 5 5 7 6   0 . 2 8 5 7   0 . 3 1 2 5   0   0 . 3 0 7 7   0 . 2 6 3 2   0 . 5 5 7   M L P   0 . 4 4 9 3   0 . 3 1 7 2   0 . 1 9 3 5   0 . 0 6 6 7   0 . 2 7 4   0 . 3 0 5 9   0 . 5 7 8 9   S V M   0 . 3 1 8 6   0 . 0 2 0 8   0 . 1 9 0 5   0 . 0 8 3 3   0   0 . 0 3 5 1   0 . 4 7 0 6   R a n d o u n d e r   samp l i n g   En se mb l e   0 . 6 2 6 1   0 . 4 4 1 3   0 . 3 9 3 7   0 . 3 3 5 4   0 . 3 8 9 9   0 . 4 5 3 5   0 . 6 4 8 7   k N N   0 . 5 3 8 2   0 . 4 0 2 1   0 . 2 6 9 5   0 . 3 1 9 1   0 . 3 4 5 5   0 . 3 8 6 5   0 . 5 9 4 3   BN   0 . 6 0 5 9   0 . 2 4 3 9   0 . 3 7 0 9   0 . 3 2 0 6   0 . 3 6 8 6   0 . 4 0 6 7   0 . 6 1 0 5   J4 8   0 . 5 8 3 3   0 . 3 8 0 4   0 . 3 5 3 4   0   0 . 3 4 1 8   0 . 3 9 8 4   0 . 5 5 9   M L P   0 . 5 0 1 5   0 . 3 9 5 4   0 . 2 9 3 4   0 . 3 1 8 4   0 . 3 3 9 3   0 . 3 8 0 7   0 . 5 8 3 3   S V M   0 . 5 8 8 4   0 . 3 7 7 6   0 . 3 2 2 7   0 . 3 0 7 8   0 . 3 5 3 8   0 . 3 9 3 1   0 . 5 9 2 4       5.   CO NCLU SI O N   T h is   p ap er   s h o w ed   t h e f f ic ie n c y   o f   i n te g r ati n g   th e   r an d o m   u n d er s a m p li n g   to   t h e n s e m b le  lear n i n g   o n   th i m b ala n ce d   s o f t w ar d ef ec d atasets .   E x p er i m e n t al   o u tco m es   p o in ted   o u t   t h a b alan ce d   tr ain in g   d atasets   allo w   t h s i g n i f ica n en h a n ce m en t   o f   p er f o r m a n ce   o f   b o th   th e n s e m b le  m o d el  a n d   b ase  class if ier s .   As  r es u lt,  t h co m b in at io n   o f   t h s a m p li n g   tec h n iq u an d   en s e m b le   lear n i n g   co n tr i b u tes  to   f o r m i n g   a   p r o m i s in g   cla s s i f ier   f o r   t h s o f t w ar f au l p r ed ictio n   p r o b le m .   T h en s e m b le  m o d el  i n   t h i s   p ap er   ad o p ts   o n l y   s i m p le   m aj o r it y   v o tin g   r u l e .   T h er ef o r e ,   w i n ten d   to   p r o d u ce   v ar iet y   o f   e n s e m b l class i f ier s   u s in g   d if f er e n r u les   i n   th f u t u r e .   Mo r eo v er ,   s ev er al  o th er   s am p lin g   m et h o d s   s u c h   as  o v er s a m p lin g   tec h n iq u es  an d   ev o lv i n g   s a m p lin g   s tr ate g ie s   w il l   b ap p lied   to   b in ar y   clas s i f icatio n   m o d els.       ACK NO WL E D G E M E NT S   T h is   w o r k   w as   s u p p o r ted   b y   Un i v er s i t y   o f   Da n a n g ,   U n iv er s it y   o f   Scie n ce   an d   T e ch n o lo g y ,   co d n u m b er   o f   P r o j ec t:  T 2 0 1 8 - 02 - 50,   an d   Min is tr y   o f   E d u ca tio n   a n d   T r ain in g   Vie tn a m   f o r   th r esear ch   p r o j ec t in   th p er io d   2 0 1 9 2 0 2 0 ,   co d n u m b er   o f   P r o j ec t:  B   2 0 1 9 - DNA - 03 .       RE F E R E NC E S     [1 ]   T .   T .   Kh u a a n d   M .   H.  L e ,   " A   No v e H y b rid   A BC - P S A lg o rit h m   f o Eff o rt  Esti m a ti o n   o f   S o f tw a re   P r o jec ts  Us in g   Ag il e   M e th o d o lo g ies , "   J o u r n a o f   In telli g e n S y ste ms ,   v o l.   1 7 ,   n o .   3 ,   p p .   4 8 9 - 5 0 6 ,   2 0 1 7 .   [2 ]   I.   H.  L a ra d ji ,   M .   A lsh a y e b ,   a n d   L .   G h o u ti ,   " S o f tw a re   d e f e c p re d ictio n   u sin g   e n se m b le  lea rn in g   o n   se lec ted   f e a tu re s,"   In fo rm a ti o n   a n d   S o ft w a re   T e c h n o l o g y ,   v o l .   5 8 ,   p p .   3 8 8 - 4 0 2 ,   2 0 1 5 .   [3 ]   X .   Y u a n ,   T .   M .   K h o sh g o f taa r,   E.   B.   A ll e n ,   a n d   K.  G a n e sa n ,   " A n   a p p li c a ti o n   o f   f u z z y   c lu ste rin g   to   so f twa re   q u a li ty   p re d ictio n , "   in   Pro c e e d in g o th e   3 rd   IEE S y mp o si u o n   Ap p li c a ti o n - S p e c if ic  S y ste ms   a n d   S o ft w a re   En g in e e rin g   T e c h n o l o g y p p .   8 5 - 9 0 ,   2 0 0 0 .   [4 ]   T .   M .   H.  Le,  T .   B.   Ng u y e n ,   a n d   T .   T .   Kh u a t,   " S u rv e y   o n   M u tatio n - b a se d   T e st  D a ta  G e n e r a ti o n , "   In ter n a ti o n a l   J o u rn a o El e c trica a n d   C o mp u t e r E n g i n e e rin g   ( IJ ECE ),   v o l.   5 ,   n o .   5 ,   p p .   1 1 6 4 - 1 1 7 3 ,   2 0 1 5 .   [5 ]   M .   D’A m b ro s,  M .   L a n z a ,   a n d   R.   Ro b b e s,  " Ev a lu a ti n g   d e f e c p re d ictio n   a p p r o a c h e s:  a   b e n c h m a rk   a n d   a n   e x ten siv e   c o m p a riso n , "   Emp irica S o f twa re   En g i n e e rin g ,   jo u rn a a rticle ,   v o l.   1 7 ,   n o .   4 ,   p p .   5 3 1 - 5 7 7 ,   2 0 1 2 .   [6 ]   Z.   S u n ,   Q.   S o n g ,   a n d   X .   Z h u ,   " Us in g   Co d i n g - Ba se d   En se m b le  L e a rn in g   to   Im p ro v e   S o f t w a re   D e fe c P re d icti o n , "   IEE T ra n s a c ti o n o n   S y ste ms ,   M a n ,   a n d   Cy b e rn e ti c s,  Pa rt  ( Ap p li c a ti o n a n d   Rev iews ) v o l.   4 2 ,   n o .   6 ,     p p .   1 8 0 6 - 1 8 1 7 ,   2 0 1 2 .   [7 ]   R.   Ak b a n i,   S .   Kw e k ,   a n d   N.  Ja p k o w icz ,   " A p p ly in g   S u p p o r V e c to M a c h in e to   Im b a lan c e d   Da tas e ts, "     in   Pro c e e d i n g o t h e   1 5 th   Eu r o p e a n   Co n fer e n c e   o n   M a c h i n e   L e a r n in g ,   p p .   3 9 - 50 ,   2 0 0 4 .   [8 ]   H.  He   a n d   E.   A .   G a rc ia,  " Le a rn in g   f ro m   I m b a lan c e d   Da ta, "   IEE T ra n sa c ti o n o n   K n o wl e d g e   a n d   D a t a   En g i n e e rin g ,   v o l.   2 1 ,   n o .   9 ,   p p .   1 2 6 3 - 1 2 8 4 ,   2 0 0 9 .   [9 ]   N.  Ja p k o w i c z   a n d   S .   S tep h e n ,   " Th e   c las i m b a lan c e   p ro b lem s y ste m a ti c   stu d y , "   In tell.   Da ta   An a l . ,   v o l.   6 ,   n o .   5 ,   p p .   4 2 9 - 4 4 9 ,   2 0 0 2 .   [1 0 ]   N.  Bo u g u il a ,   W .   Jia n   Ha n ,   a n d   A .   B.   Ha m z a ,   " A   Ba y e sia n   a p p r o a c h   f o so f tw a r e   q u a li ty   p re d icti o n , "   i n   Pro c e e d in g o t h e   4 th   I n ter n a ti o n a I EE C o n fer e n c e   In tell ig e n t   S y ste ms ,   p p .   1 1 4 9 - 1 1 5 4 ,   2 0 0 8 .   [1 1 ]   Y.  S u n ,   M .   S .   Ka m e l,   A .   K.  C.   W o n g ,   a n d   Y.  W a n g ,   " Co st - se n siti v e   b o o st in g   f o c las si f ica ti o n   o f   im b a lan c e d   d a ta,"   Pa tt e rn   Rec o g n i ti o n ,   v o l .   4 0 ,   n o .   1 2 ,   p p .   3 3 5 8 - 3 3 7 8 ,   2 0 0 7 .   [1 2 ]   L .   Ro k a c h ,   " Tax o n o m y   f o c h a ra c teriz in g   e n se m b le  m e th o d in   c las sif ic a ti o n   tas k s:  A   re v ie a n d   a n n o tate d   b ib li o g ra p h y , "   Co mp u t a ti o n a S t a ti stics   &   Da ta   An a lys is,  v o l.   5 3 ,   n o .   1 2 ,   p p .   4 0 4 6 - 4 0 7 2 ,   2 0 0 9 .   [1 3 ]   T .   Wan g ,   W .   L i,   H.  S h i,   a n d   Z .   L iu ,   " S o f twa re   De fe c P re d icti o n   Ba se d   o n   Clas sifi e rs  En se m b le,"   J o u rn a o f   In fo rm a t io n   a n d   Co mp u t a ti o n a S c ien c e ,   v o l.   8 ,   n o .   1 6 ,   p p .   4 2 4 1 - 4 2 5 4 ,   2 0 1 2 .   [1 4 ]   T .   M e n z ies ,   R.   Krish n a ,   a n d   D .   P ry o r.   " T h e   P ro m ise   Re p o sito ry   o f   E m p iri c a S o f t w a r e   En g in e e rin g   Da ta ,"   [ On li n e ] .   A v a il a b le:  h tt p :/ / o p e n sc ien c e . u s/re p o .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t   201 9   :   3 2 4 1   -   3246   3246   [1 5 ]   T .   M e n z ies ,   J.  Gre e n w a ld ,   a n d   A.  F ra n k ,   " Da t a   M in in g   S tatic  Co d e   A tt rib u tes   to   L e a rn   De f e c t   P r e d icto rs,"   IEE T ra n sa c ti o n o n   S o ft w a re   En g in e e rin g ,   v o l .   3 3 ,   n o .   1 ,   p p .   2 - 1 3 ,   2 0 0 7 .   [1 6 ]   T .   J.  Os tran d ,   E.   J.  W e y u k e r,   a n d   R .   M .   Be ll ,   " P re d icti n g   th e   l o c a ti o n   a n d   n u m b e o f   f a u lt in   larg e   so f t w a r e   s y ste m s,"   IEE T ra n s a c ti o n s o n   S o ft w a re   En g in e e rin g ,   v o l .   3 1 ,   n o .   4 ,   p p .   3 4 0 - 3 5 5 ,   2 0 0 5 .   [1 7 ]   N.  E.   F e n to n   a n d   M .   Ne il ,   " S o ftw a r e   m e tri c s:  su c c e ss e s,  f a il u re a n d   n e d irec ti o n s,"   J o u rn a o S y ste ms   a n d   S o ft w a re ,   v o l.   4 7 ,   n o .   2 ,   p p .   1 4 9 - 1 5 7 ,   1 9 9 9 .   [1 8 ]   T .   J.  M c Ca b e ,   " A   Co m p lex it y   M e a su re , "   IEE T ra n sa c ti o n o n   S o ft wa re   En g in e e rin g ,   v o l .   S E - 2 ,   n o .   4 ,     p p .   3 0 8 - 3 2 0 ,   1 9 7 6 .   [1 9 ]   D.  N.  Ca rd   a n d   W .   W .   A g r e sti,   " M e a su rin g   so f t w a re   d e si g n   c o m p lex it y , "   J o u rn a o S y ste ms   a n d   S o ft wa re ,   v o l.   8 ,   n o .   3 ,   p p .   1 8 5 - 1 9 7 ,   1 9 8 8 .   [2 0 ]   S .   R.   Ch id a m b e a n d   C.   F .   Ke m e re r,   " m e tri c s   su it e   f o o b jec o rien ted   d e sig n , "   IEE T ra n sa c ti o n o n   S o ft wa re   En g i n e e rin g ,   v o l.   2 0 ,   n o .   6 ,   p p .   4 7 6 - 4 9 3 ,   1 9 9 4 .   [2 1 ]   A .   M a r c u s,  D.  P o sh y v a n y k ,   a n d   R.   F e re n c ,   " Us in g   th e   Co n c e p t u a Co h e sio n   o f   Clas s e s   f o F a u lt   P re d ictio n   in   Ob jec t - Orie n ted   S y ste m s, "   IEE T ra n sa c ti o n o n   S o ft w a re   En g in e e rin g ,   v o l .   3 4 ,   n o .   2 ,   p p .   2 8 7 - 3 0 0 ,   2 0 0 8 .   [2 2 ]   D.  Bo w e s,  T .   Ha ll ,   a n d   D.  G ra y ,   " DCo n f u sio n :   a   tec h n iq u e   t o   a ll o w   c ro ss   stu d y   p e rf o rm a n c e   e v a l u a ti o n   o f   f a u lt   p re d ictio n   s t u d ies , "   Au to ma ted   S o ft wa re   En g in e e rin g ,   j o u r n a l   a rticl e .   v o l.   2 1 ,   n o .   2 ,   p p .   2 8 7 - 3 1 3 ,   2 0 1 4 .   [2 3 ]   G .   M .   W e iss,  " M in in g   w it h   ra rit y a   u n ify in g   f ra m e w o r k , "   ACM   S IGKD Exp lo r a ti o n Ne wsle tt e r,  v o l.   6 ,   n o .   1 ,   p p .   7 - 1 9 ,   2 0 0 4 .   [2 4 ]   L .   G o n z a lez - A b ril ,   H.  Nu ñ e z ,   C.   A n g u lo   a n d   F .   V e las c o ,   " G S V M A n   S V M   f o h a n d li n g   im b a lan c e d     a c c u ra c y   b e t w e e n   c las s e in b i - c las sif ic a ti o n   p ro b lem s, "   Ap p li e d   S o ft   C o mp u ti n g ,   v o l.   1 7 ,   n o .   S u p p lem e n C,     p p .   2 3 - 3 1 ,   2 0 1 4 .   [2 5 ]   I.   M a n a n d   J.   Zh a n g ,   " KN Ap p r o a c h   to   Un b a lan c e d   Da ta  Distrib u t io n s:  A   Ca se   S tu d y   In v o lv in g   In f o rm a ti o n   Ex trac ti o n , "   in   Pro c e e d in g s o f   In t e rn a ti o n a l   Co n fer e n c e   o n   M a c h in e   L e a rn in g ,   2 0 0 3 .   [2 6 ]   J.  Ha n ,   M .   Ka m b e r,   a n d   J.  P e i,   D a ta   M i n in g Co n c e p ts  a n d   T e c h n i q u e s .   M o rg a n   Ka u f m a n n ,   2 0 1 2 .   [2 7 ]   G .   E.   Ba ti sta ,   R.   C.   P ra ti ,   a n d   M .   C.   M o n a rd ,   " A   stu d y   o f   th e   b e h a v io o f   se v e ra m e th o d f o b a lan c in g   m a c h in e   lea rn in g   train i n g   d a ta,"   S IGKD Exp lo r.  Ne wsl.,   v o l.   6 ,   n o .   1 ,   p p .   2 0 - 2 9 ,   2 0 0 4 .       B I O G RAP H I E S   O F   AUTH O RS        T h a n h   T u n g   K h u a t   c o m p lete d   th e   B. S   d e g re e   in   S o f t w a r e   En g in e e rin g   f ro m   Un iv e rsit y   o S c ien c e   a n d   T e c h n o l o g y ,   D a n a n g ,   V iet n a m ,   in   2 0 1 4 .   Cu rre n tl y ,   h e   is  w o rk in g   to w a rd th e   P h . D.   d e g re e   a t   th e   A d v a n c e d   A n a l y ti c s   In stit u te,  F a c u lt y   o f   En g in e e rin g   a n d   In f o rm a ti o n   T e c h n o l o g y ,   Un iv e rsit y   o f   T e c h n o lo g y   S y d n e y ,   A u stra li a .   His   re se a rc h   in tere sts  in c lu d e   m a c h in e   lea rn in g ,   k n o w led g e   d isc o v e r y ,   e v o lu ti o n a ry   c o m p u tatio n ,   i n telli g e n o p ti m iza ti o n   tec h n iq u e a n d   a p p li c a ti o n s in   so f tw a r e   e n g in e e rin g .             My   H a n h   L e   is  c u rre n tl y   a   lec tu re o f   th e   I n f o rm a ti o n   T e c h n o lo g y   F a c u lt y ,   Un iv e rsit y   o S c ien c e   a n d   T e c h n o l o g y ,   Da n a n g ,   V iet n a m .   S h e   g a in e d   M . S c .   d e g re e   in   2 0 0 4   a n d   P h . D.  d e g re e   in   Co m p u ter  S c ien c e   f ro m   T h e   Un iv e rsit y   o f   Da n a n g   in   2 0 1 6 .   H e re se a rc h   in tere sts  a re   a b o u t   so f t w a re   tes ti n g   a n d   m o re   g e n e ra ll y   a p p li c a ti o n   o f   h e u rist ic  tec h n i q u e t o   p ro b lem in   so f tw a r e   e n g in e e rin g .       Evaluation Warning : The document was created with Spire.PDF for Python.