I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute r   E ng in ee ring   ( I J E CE )   Vo l.   7 ,   No .   4 A u g u s t   201 7 ,   p p .   2 2 1 5 ~ 2 2 2 2   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v7 i 4 . p p 2 2 1 5 - 2222          2215       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   Lea rning  f ro m  a  Cla ss  I m ba la nced  P ublic  Hea lth  Da tas et :   a   Co st - b a sed Co m p a riso o Cla ss ifie Per for m a nce       Ro hin i R .   Ra o 1 K rish na m o o rt hi M a kk it ha y a 2   1 De p a rt m e n t   o f   Co m p u ter A p p li c a ti o n s,  M a n i p a In stit u te  o f   T e c h n o lo g y   (M IT ),   M a n ip a l,   I n d ia   2 De p a rt m e n o f   Co m p u ter S c ien c e   &   En g in e e rin g ,   M a n i p a I n stit u t e   o f   T e c h n o lo g y   (M IT ),   M a n ip a l,   In d ia       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   J u n   1 4 ,   2 0 1 7   R ev i s ed   Ma y   3 1 2017   A cc ep ted   A u g   2 8 ,   2017       P u b l ic  h e a lt h   c a re   sy ste m ro u t in e ly   c o ll e c h e a lt h - re late d   d a ta   f ro m   th e   p o p u lati o n .   T h is  d a ta  c a n   b e   a n a ly z e d   u sin g   d a ta  m in in g   tec h n iq u e to   f in d   n o v e l,   in tere stin g   p a tt e rn s,  w h ich   c o u ld   h e lp   f o rm u late   e ffe c ti v e   p u b l ic h e a lt h   p o li c ies   a n d   in terv e n ti o n s T h e   o c c u rre n c e   o f   c h ro n ic  i ll n e ss   is  ra re   in   th e   p o p u lati o n   a n d   th e   e ff e c o th is   c las s   i m b a lan c e ,   o n   th e   p e rf o rm a n c e   o f   v a rio u c las si f iers   w a s   stu d ied .   T h o b j ec tiv o f   th is   w o r k   is   t o   id en tif y   th e   b est  class i f ier s   f o r   class   im b ala n ce d   h ea lt h   d atasets   th r o u g h   co s t - b ased   co m p ar i s o n   o f   cla s s i f ier   p er f o r m an ce .   T h e   p o p u lar,  o p e n - so u rc e   d a ta  m in in g   to o l   W EKA ,   w a u se d   to   b u il d   a   v a riety   o f   c o re   c las si f iers   a w e ll   a s   c las si f ie e n se m b les ,   to   e v a lu a te  th e   c las si f iers   pe rf o r m a n c e .   T h e   u n e q u a m isc la ss if ic a ti o n   c o sts  w e re   re p re se n ted   in   a   c o st   m a tri x ,   a n d   c o st - b e n e f it   a n a l y sis  w a a lso   p e rf o r m e d   In   a n o t h e e x p e rime n t,   v a rio u sa m p li n g   m e th o d su c h   a u n d e r - sa m p li n g ,   o v e r - s a m p li n g ,   a n d   S M OT w a p e r f o r m e d   to   b a la n c e   th e   c las d istri b u ti o n   in   th e   d a tas e t ,   a n d   th e   c o sts  w e re   c o m p a re d .   T h e   Ba y e sia n   c la ss i f iers   p e r f o r m e d   w e ll   w it h   a   h ig h   re c a ll ,   l o w   n u m b e o f   f a lse   n e g a ti v e a n d   w e re   n o a ff e c ted   b y   th e   c las s   im b a lan c e .   Re su lt c o n f ir m   th a to tal  c o st   o f   Ba y e sia n   c las si f i e rs  c a n   b e   f u rth e re d u c e d   u sin g   c o st - se n siti v e   lea rn in g   m e th o d s.   C las sif iers   b u il u sin g   th e   ra n d o m   u n d e r - sa m p led   d a tas e t   s h o w e d   a   d ra m a ti c   d ro p   in   c o st s   a n d   h ig h   c las si f ica ti o n   a c c u ra c y .   K ey w o r d :   C las s   i m b ala n ce   C las s i f i er   ac cu r ac y   C o s t b en e f it a n al y s is   Data   m i n i n g   Hea lth ca r e   Co p y rig h ©   2017   In s t it u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e .     Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   R o h i n i R.  R ao ,     Dep ar t m en t   o f   C o m p u ter   A p p licatio n s ,   Ma n ip al  I n s tit u te  o f   T ec h n o lo g y ,   Ma n ip al -- 5 7 6 1 0 4 ,   I n d ia .   E m ail:  r o h i n i.r ao @ m a n ip al. ed u       1.   I NT RO D UCT I O N     A ll   o v er   t h w o r ld ,   p u b lic  h ea lth   o r g a n izatio n s   ar c u r r en tl y   f ac i n g   th c h alle n g o f   tack li n g   c h r o n i c   d is ea s es.  P u b lic  h ea lt h   ag e n ci es  n ee d   to   r esp o n d   w it h   co s t - e f f ec tiv e,   e v id en ce - b ased   i n ter v en t io n s   to   p r o m o te   h ea lt h y   l iv i n g   an d   p r ev e n t   ch r o n ic  d is ea s es .   P u b lic  Hea lth   Or g an izatio n s   r o u ti n el y   co llect  d ata  o n   d em o g r ap h ics,  s o cio - ec o n o m i s tatu s ,   li v in g   co n d itio n s ,   a n d   u n d er l y i n g   h ea l th   co n d itio n s   in   t h p o p u latio n .     Data   m i n i n g   tec h n iq u es  ca n   b ap p lied   to   th is   p o p u latio n - b a s ed   d ata,   to   g ai n   n e w   i n s i g h ts   i n to   t h u n d er l y in g   h ea lt h   p r o b le m s .   I n   t h m ed i ca d iag n o s is   d o m ai n ,   clas s i f i er s   h a v b ee n   b u il to   p r ed ict  d is ea s e s   s u c h   as   b r ea s ca n ce r ,   i n s o m n ia,   t h y r o id   d is ea s e,   P ar k in s o n s   d i s ea s a n d   e v en   r ec o m m e n d   m ed icatio n   [ 1 - 6 ] .   P o llettin i   et  al.   [ 7 ]   p r o p o s class i f ier   w h ich   a u to m atica ll y   class i f ies  p atie n t s   i n to   s u r v ei llan ce   le v els  b ased   o n   ass o ciatio n s   a m o n g   p atien t   f ea tu r e s   an d   h ea lt h .   C las s i f ie r s   h av a ls o   b ee n   d esi g n ed   to   p r ed ict  th co s o f   h ea lt h ca r s er v ice s ,   to   p r ed ict  in te n s i v ca r u n it  r ea d m i s s io n ,   m o r talit y   r ate  an d   li f e x p ec tan c y   r ate  [ 1 ] ,   [ 8 ] .   Sen s o r   b ased ,   u n o b tr u s i v e,   co n ti n u o u s   h o m m o n ito r in g   s y s te m s   h a v b ee n   d ep lo y ed ,   an d   h u m a n   ac tiv it y   i s   b ein g   ass e s s ed   u s in g   cla s s i f ie r s   [ 3 ] .   I n   t h p u b lic   h ea l th   d o m a in ,   clas s if icatio n   tech n iq u es  ca n   b u s ed   to   an al y ze   t h ef f ec o f   v ar io u s   s o cial  an d   en v ir o n m e n tal  f ac to r s ,   s u ch   a s   w o r k   en v ir o n m en t,   liv in g   co n d itio n s ,   ed u ca tio n   o n   t h h ea l th   o f   t h e   p o p u latio n .   T h r elatio n s h ip   b et w ee n   p atien f ea t u r es  an d   d is ea s es  co u ld   h elp   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   4 A u g u s 2 0 1 7     2 2 1 5     2 2 2 2   2216   f o r m u late  ef f ec ti v p u b lic  h e al th   in ter v e n tio n s   [ 8 ] Fo r   in s tan ce ,   T ak ed et  al.   [ 9 ]   u tili z ed   m u ltip le  lo g i s tic   an al y s es  to   r ep o r th s ig n i f ic an ass o ciatio n s   b et w ee n   m en tal  h ea lth   a n d   p s y ch o s o cial  s t r ess o r s   lik f a m il y   r elatio n s h ip ,   p r eg n a n c y ,   a n d   in co m e.   Ho w e v er ,   th ese  p u b lic  h ea lt h   d atasets   o f te n   s u f f er   f r o m   “r ar ca s es”  o r   r ar e   class es”   p r o b lem ,   w h ic h   r esu l in   i m b ala n c ed   class es  i n   t h tr ain i n g   d atasets   [ 1 0 ] .   Fo r   ex am p le,   m o s h ea th   d atasets   u s u all y   h av v er y   f e w   ca s e s   o f   th ta r g et  d is ea s e,   w h e n   co m p ar ed   to   th n u m b er   o f   h ea l th y   p ati en ts   i n   th d ataset   [ 1 1 - 1 4 ] .   I n   th b in ar y   cla s s i f icatio n   f o r   m ed ical  d iag n o s i s ,   th r ar m i n o r it y   cla s s   r e f e r s   to   th p o s iti v e   in s ta n ce s   o r   th e   tar g et   clas s ,   wh er ea s   t h m aj o r it y   clas s   i s   r e p r esen ted   b y   t h n e g ati v i n s t an ce s   in   th e   d ataset.     C las s   i m b ala n ce   ca n   al s o   o cc u r   w h e n   th d ata  co llectio n   p r o ce s s   is   li m ited ,   r esu ltin g   i n   a r tif icial  i m b ala n ce s .   T o   b class if ied   as a   clas s - i m b alan ce d   d ataset,   r ar it y   s h o u ld   b b etw ee n   0 . 1   to   1 0 %.      T h is   p ap er   co n s id er s   h ea lth   b ased   d ataset  w h ic h   r ec o r d s   th p r e s en ce   o f   c h r o n ic  d is ea s es  i.e .   d iab etes,  h ea r d is ea s e   an d   h y p er te n s io n   in   t h p o p u latio n .   P atien d em o g r ap h ics,  li v in g   co n d itio n s ,   s o cio - ec o n o m ic  s tatu s   ar also   r ec o r d ed   in   th d ataset.   T h au th o r s   atte m p to   b u ild   cla s s i f ier s   to   p r ed ict  th e   o cc u r r en ce   o f   an y   o f   th t h r ee   ch r o n ic  d is ea s es  i n   th p o p u l atio n .   L iter at u r r ev ie w   i n d icate s   th at  t h er is   n o   s in g le  clas s i f ier   m et h o d   w h ic h   y ield s   t h b est  r esu lt  f o r   all   t y p es  o f   class   i m b ala n ce d   tr ain i n g   d ataset s   [ 1 ] .   T h am o u n o f   t h cla s s - i m b a lan ce   b ias  d ep en d s   o n   f ac to r s   s u c h   as  t h cla s s i f icat io n   m et h o d ,   th n u m b er   o f   attr ib u tes  i n   t h d atase an d   t h s a m p le  s ize  [ 1 5 ] .   T h m o ti v atio n   f o r   th i s   w o r k   i s   to   s t u d y   th e f f ec o f   c las s   i m b alan ce   o n   t h v ar io u s   clas s if ier s   f o r   th h ea lt h   d ataset.   T h o b j ec tiv o f   t h i s   w o r k   i s   to   id en ti f y   th e   b es t   class i f ier s   f o r   th class   i m b al an ce d   h ea lth   d ataset  f r o m   co s t - b ased   co m p ar is o n   o f   clas s if ier   p er f o r m a n ce .   T h is   w o r k   is   r ele v an to   p u b lic  h ea lth   p o lic y   m ak er s ,   w h o   ca n   u s t h clas s i f ier s   to   au g m e n m ed ica l   p r o g n o s is   i n   t h e   p o p u latio n   a n d   also   id en ti f y   t h u n d er l y i n g   p atien f ea t u r es  t h at  ar co r r elate d   w it h   c h r o n ic   d is ea s es.       1 . 1 .   Cla s s   I m ba la nce  P ro ble m   T h is   class   i m b ala n ce   p r o b lem   is   ch allen g to   class i f ier   tec h n iq u es   b ec au s n o r m al   clas s if ier   ai m s   to   i m p r o v e   o v er a ll c lass if ier   a cc u r ac y .   C o n s id er   t w o - cla s s   b in ar y   c lass if ier   f o r   a   h ea lth   d ataset,   i n   w h ic h   th e   o u tco m es   ar lab eled   as  p o s it iv ( P )   o r   n eg at iv ( N) T h class i f ier   ac c u r ac y   ca n   b co m p u ted   b y   ap p l y i n g   th class i f ier   to   test   d ataset  an d   co m p ar in g   th c las s i f i er   r esu lt  w it h   ac tu a class   lab els.  T h er a r f o u r   p o s s ib le  o u tco m es,  i f   t h p r ed icted   v al u is   P   a n d   t h ac t u al   v al u is   a ls o   P ,   t h en   it   is   tr u p o s iti v ( T P ) .     I f   th ac t u al   v al u is   N   a n d   it  is   p r ed icted   as P ,   th en   it r es u lt s   i n   f alse p o s i tiv e   ( FP ) .   C o n v er s el y ,   w h e n   b o th   t h e   p r ed ictio n   o u tco m an d   th a ctu al  v al u ar N,   it  in d icate s   tr u n eg at iv ( T N) .   F alse  n eg ati v ( FN )   o cc u r s   w h e n   t h p r ed ictio n   o u tco m e   is   w h ile   th e   ac t u al   v alu e   is   P .   T h class   i m b ala n ce   p r o b lem   a f f ec ts   d i f f er en t   class i f ier s   in   v ar iet y   o f   wa y s ,   f o r   i n s ta n ce   i n   d ec is io n   tr ee   in d u ctio n   al g o r ith m s ,   it   r esu l ts   in   s m aller   d is j u n cts   [ 1 1 ] T h class i f ier s   tr ai n ed   o n   c lass - i m b ala n ce d   d ata  ar u s u al l y   b i ased   to w ar d s   th e   m aj o r it y   n eg at iv clas s ,   an d   th ac cu r a c y   o f   p r ed ictio n s   f o r   th m in o r it y   tar g et   clas s   is   v er y   p o o r .   T h class - i m b alan ce   p h en o m e n o n   o f ten   p r o d u ce s   class i f ier s   t h at  h a v e     p o o r   p r e d ictiv r ec all,   p ar ticu lar l y   w h e n   th p o s itiv e   lab el   is   th m i n o r it y   tar g et  cla s s   [ 4 ] .   T h p r o b lem   o f   i m b ala n ce d   d ata   is   also   as s o ciate d   w it h   a s y m m etr ic  co s t s   o f   m is c lass if y i n g   ele m en t s   o f   d if f er en c lass e s .   Fo r   e x a m p le ,   co n s id er   b in ar y   cla s s i f ier   b u ilt  f o r   m ed ica l   d iag n o s i s ,   t h co s o f   m is d ia g n o s i n g   h ea lt h   p atie n a s   h av in g   h ea lt h   co n d itio n   ( f al s p o s itiv e)   is   le s s   t h an   th co s o f   f al s el y   d ia g n o s i n g   a   s ick   p atien as  h ea l th y   p er s o n   ( f alse  n eg at iv e) .   T h FP   ca s e   co u ld   lead   to   m o r e   d iag n o s tic   test s   u n til  th p atien t   is   d iag n o s ed   as   h ea l th y .   T h co s o f   FN  er r o r   co u ld   r esu lt   i n   d ela y ed   d iag n o s i s ,   an d   u lti m ate l y ,   t h lo s s   o f   lif e.   T h er ef o r e,   i n   m ed ical  d iag n o s is   b ased   cla s s i f ier s ,   th co s o f   FN  i s   m o r e   s i g n i f ica n t h at  t h FP   co s t.  W h ile  t h FP   co s t   ca n   b ca lcu lated   as  t h ex p e n s e s   in c u r r ed   in   f u r t h er   test i n g ,   t h co s t o f   FN s   h ar d   t o   q u an ti f y .     1 . 2 .   L ea rning   f ro m   cla s s   I m ba la nced  D a t a s et s   T h er ar t w o   b r o ad   ap p r o ac h es  to   f i n d in g   e f f ec ti v e   clas s i f i er s   in   t h clas s - i m b ala n ce d   d a tasets :   th e   alg o r ith m   s p ec i f ic   ap p r o ac h   an d   th d ata  p r e - p r o ce s s in g   ap p r o ac h .   I n   th alg o r ith m   s p ec if ic  ap p r o ac h ,   th e   class i f ier   m et h o d s   th at   ar k n o w n   to   w o r k   e f f ec tiv e l y   in   t h class - i m b alan ce d   d ataset s   c an   b u s ed   w it h   n o   m o d i f icat io n   o f   d atasets .   Fo r   ex a m p le,   W ei s s   [ 12]   ad v o ca tes  th e   u s o f   in s ta n ce - b ased   lea r n in g   m et h o d s   li k e   k - Nea r est  N eig h b o r s   o r   Su p p o r Vec to r   Ma ch in es,  to   p r ed i ct  th m i n o r it y   clas s   ef f ec tiv e l y T h ey   f o u n d   th a t   in d ep en d en t   o f   th tr ain i n g   s iz e lin ea r l y   s ep ar ab le  d o m ai n s   ar n o s en s iti v to   i m b ala n ce .   He  also   co n clu d e s   th at  n o n - g r ee d y   s ea r c h   tec h n i q u es  u s ed   i n   t h Ge n etic   alg o r ith m   m ak e   it  m o r s u itab le  f o r   d ea lin g   w i th   th e   class   i m b ala n ce .   I n   t h d ec is i o n   tr ee   alg o r it h m ,   h e   s u g g es t s   th at  s p litt i n g   r u le s   ca n   b m o d if ied   to   en s u r t h at   b o th   class e s   ar a d d r ess ed .     J ap k o w icz  [ 13]   co n clu d ed   th a t   th M u lti L a y er   P er ce p tr o n   b ased   class i f ier s   ar e   n o s e n s iti v to   cla s s   i m b ala n ce .   Ker n el - b ased   s u p p o r v ec to r   m ac h i n clas s i f ier s ,   cl u s ter in g   a n d   u tili zi n g   d en s itie s   to   e s ti m ate   tar g et  c l ass   m e m b er s h ip   ar k n o w n   to   w o r k   w ell  i n   t h cla s s - i m b a l an ce d   d atasets   [ 16] Si m u latio n   s t u d ies  s h o w   t h a t   th class - i m b alan ce   a n d   h ig h   d i m en s io n al it y   i m p ac th p er f o r m an ce   o f   class i f ier s   li k k - n ea r est   n ei g h b o r ,   d iag o n al  lin ea r   d is cr i m in an t   an al y s i s ,   r an d o m   f o r ests   an d   s u p p o r v ec to r   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708       Lea r n in g   fr o a   C la s s   I mb a la n ce d   P u b lic  Hea lth   Da ta s et:   a   C o s t - b a s ed   C o mp a r is o n   o f … .   ( R o h in i R .   R a o )   2217   m ac h in e s   w i th   li n ea r   k er n el  b asis   [ 1 5 ] C o s t - s e n s iti v e   lear n i n g   m eth o d s   m o d i f y   ex i s ti n g   a lg o r ith m s   u s i n g   t h co s in f o r m atio n .   Fo r   in s ta n ce ,   in   tr ee   b ased   clas s i f ier ,   th e   co s ca n   b u s ed   to   ch o o s t h s p litt i n g   a ttrib u te   o r   m a n ip u la te  th w ei g h t o f   tr ain i n g   r ec o r d s   [ 17] .   T h er ar also   s p ec if ic  alg o r i th m s   s u c h   as  T w o   p h a s r u l in d u ctio n ,   C R E DOS  o r   t h e   o n e - cla s s   class i f ier s   w h ic h   ar p r o v ed   to   b u s ef u in   cla s s if y i n g   r ar ca s es  i n   tr ain i n g   d atasets   [ 1 1 ] ,   [ 1 6 ] ,   [ 1 8 - 2 0 ] T h e   m ai n   id ea   o f   t h ese  cla s s i f icati o n   m et h o d s   is   t h at  t h al g o r it h m   s h o u ld   co n ce n tr ate  o n   t h e   in s ta n ce s   th at  ar e   d if f ic u lt  to   lear n .   [ 1 1 ] ,   [ 1 2 ] .     He m p s tal k   et  al.   [ 1 6 ]   u s co m b in ed   d en s it y   esti m atio n   w it h   clas s   p r o b ab ilit y   esti m atio n   f o r   t h p u r p o s o f   o n e - cla s s   c lass if ica tio n .   T h P Nr u le  al g o r ith m   u s es  a   t w o - p h ase   r u le  i n d u c tio n   m et h o d W h ile  t h f ir s p h ase   f o cu s es  o n   r ec all,   i n   t h s ec o n d   p h ase   p r ec is io n   i s   o p ti m iz ed   [ 1 8 ] .   C R E DOS   ef f ec tiv e l y   u til izes  r ip p le  d o w n   r u le s ”  to   lear n   co m p ar ab le   o r   b etter   m o d els  f o r   v ar iet y   o f   r ar class es   [ 2 0 ] I n   m o s ca s es,   th e   co s t   o f   m i s class if ica tio n   er r o r s   ar n o t   eq u al ,   an d   co s t - s e n s iti v e   le ar n in g   ap p r o ac h   i s   r eq u ir ed   [ 1 9 ] I n   c o s s en s iti v lear n in g   m et h o d s   s u c h   as  Ad aCo s an d   Me taC o s t,  th co s is   r ep r esen ted   in   a   m atr i x ,   an d   it  is   u t ilized   to   g en er ate  m o d el  w i th   lo w er   co s t.  E m p ir icall y ,   it  i s   o f te n   r ep o r ted   th at  co s t - s en s iti v lear n i n g   o u tp er f o r m s   r an d o m   r e - s a m p li n g   [ 1 1 ]   T h l iter atu r e   r e v ie w ed   al s o   i n d icate s   th at   u s i n g   m u ltip le  c lass i f ier s   i n   e n s e m b les   an d   a g g r e g ati n g   th p r ed ict io n s   o f   m u ltip le  cla s s i f ier s ,   te n d   to   b m o r ac cu r ate  th a n   t h co r class i f ier s   [ 1 9 ] W an g   et  al.   [ 4 ]   d is cu s s   an   i m p le m e n tatio n   o f   an   en s e m b le  o f   lear n i n g   alg o r ith m s   to   r ec o m m e n d   m ed icatio n   to   d iab etic   p atien ts .     E n s e m b le   m et h o d s   in cl u d b ag g in g ,   b o o s ti n g   an d   r an d o m   f o r ests   [ 17] .   B ag g i n g   u s ed   m aj o r it y   v o te  to   m a k m o r ac cu r ate   class i f icatio n s   u s in g   m u lt ip le  class i f ier s .   B o o s tin g ,   o n   th e   o th er   h a n d ,   u s es   a n   ad ap tiv e   s a m p lin g   o f   i n s ta n c es,  b ased   o n   t h w ei g h ts   o f   t h i n s ta n ce s   to   i m p r o v th p er f o r m a n ce   o f   t h e   class i f ier s B o o s tin g   m et h o d s   lik SMOT E B o o s an d   A d aBo o s h av e   b ee n   f o u n d   to   b e f f ec tiv e   i n   th r ar e   ca s s ce n ar io   [ 1 9 ] .   B len d in g   is   an   en s e m b le  m et h o d   w h er m u ltip le  alg o r it h m s   ar p r ep a r ed   o n   th tr ain in g   d ata.   Me ta  class i f ier s   co m b in th p r ed ic tio n s   o f   m u lt ip le  class i f ier s   to   m a k ac cu r ate  p r ed ictio n s   o n   u n s ee n   d ata.   T h d ata  p r e - p r o ce s s in g   ap p r o ac h   to   th e   clas s   i m b alan ce   p r o b lem   w o u ld   b to   m o d i f y   t h tr ai n in g   d ataset   its el f   u s in g   v ar io u s   s a m p lin g   tec h n iq u e s   [ 4 ] ,   [ 1 1 - 1 3 ] ,   [ 2 1 ] .   B asic   s a m p li n g   m et h o d s   in cl u d u n d er - s a m p li n g   to   r ed u ce   t h e   m aj o r it y   c lass   i n s ta n ce s   o r   o v er - s a m p lin g   w h er ei n   th e   m in o r it y   class   in s ta n ce s   ar e   in cr ea s ed   to   m atc h   t h n u m b e r   o f   m aj o r ity   c lass   i n s ta n ce s .   T h S y n th e tic  Mi n o r it y   Ov er - s a m p li n g   T ec h n iq u e   ( SMOT E )   is   w id el y   u s ed   i n   t h class   i m b alan ce   p r o b le m .   S MO T E   is   an   o v er - s a m p li n g   a p p r o ac h   th at  cr ea tes  s y n t h etic  m i n o r it y   cla s s   s a m p les  to   m atc h   t h n u m b er   o f   m aj o r it y   clas s   i n s ta n ce s .   S MO T E   is   r ep o r ted   t o   p er f o r m   b etter   th a n   s i m p le  o v er - s a m p li n g .   SMOT E   is   al s o   co m p u tatio n all y   e x p e n s i v to   i m p le m en w h en   co m p ar ed   to   s a m p lin g   m et h o d s   lik r a n d o m   u n d er - s a m p l in g   [ 2 1 ] .   Ho w ev er ,   o th er   e x p er im en ts   h av e   p r o v ed   th at  s i m p le  u n d er - s a m p li n g   ten d s   to   o u tp er f o r m   SMOT E   in   m o s s i tu atio n s   [ 2 2 ] T h p er f o r m an ce   o f   class i f ier s   i m p le m e n ti n g   SM OT E   h as  b ee n   f o u n d   to   v ar y   b ased   o n   th n u m b er   o f   d i m e n s io n s   i n   t h tr ai n i n g   d ataset   [ 2 2 ] .   Sm ar t   re - s a m p li n g   ca n   b d ep lo y ed   i n s tead   o f   co s t - s e n s i tiv lear n i n g   a s   t h e y   ca n   p r o v id n e w   in f o r m atio n   o r   eli m i n ate  r ed u n d a n i n f o r m atio n   f o r   th l ea r n in g   al g o r ith m   [ 1 1 ] .   T h e   d is ad v an ta g es  o f   s a m p li n g   ar e,   th r a n d o m   u n d er s a m p li n g   m eth o d   ca n   p o ten tiall y   r e m o v ce r tai n   cr i tical   in s ta n ce s ,   a n d   r an d o m   o v er - s a m p li n g   ca n   l ea d   to   o v er - f itti n g   [ 1 1 ] [ 1 2 ] .     T h th r e s h o ld - m o v i n g   ap p r o ac h   to   t h e   clas s   i m b alan ce   p r o b le m   d o es  n o in v o l v a n y   s a m p li n g .   C er tai n   clas s i f ier s   li k th B a y esia n   o r   d ec is io n   tr ee   in d u ctio n ,   r etu r n   p r o b ab ilit y   v alu alo n g   w it h   th cla s s   lab e w h ic h   ca n   b u s ed   to   co m p u t n e w   th r es h o ld .   I n   class ,   b ala n ce d   d atasets   t h p r o b a b ilit y   th r e s h o ld   is   0 . 5 .   I n   ca s o f   clas s   i m b ala n ce ,   th r esu lts   o f   th e   class i f ier   ca n   al s o   b w ei g h te d   b ased   o n   co s t s .   I n   g e n er al,   t h r es h o ld   m o v in g   m o v es  th e   t h r es h o ld ,   s o   t h at  t h e   r ar class   t u p les   ar ea s ier   to   class i f y .   Th r esh o ld   m o v i n g   te ch n iq u e   is   k n o w n   to   r ed u ce s   t h co s tl y   FN   er r o r s   in   clas s i f ier s   u s ed   f o r   m ed ical  d iag n o s i s .     1 . 3 .   E v a lua t ing   Cla s s if ier  P er f o rm a nce    T r a d itio n al  class i f icatio n   ac cu r ac y   m ea s u r es  s u c h   as  ac c u r ac y   o r   m is cla s s i f icat io n   r ate   ar n o g o o d   in d icato r s   o f   cla s s i f ier   ac c u r a c y   i n   c lass - i m b ala n ce d   d atase ts   [ 1 1 ] ,   [ 1 2 ] .   I f   th e   tar g et   cla s s   i s   v er y   r ar e,   s a y   0. 5 % ,   co r r ec tly   p r ed ictin g   a ll i n s ta n ce s   o f   th m aj o r it y   cla s s   ca n   ac h iev e   a   v er y   h i g h   ac c u r ac y   le v el  o f   9 9 . 5 %.     T h ac cu r ac y   m ea s u r o f   p r ec is io n   an d   r e ca ll  ar m o r e   r elev an in   th ca s o f   clas s - i m b ala n ce d   d atasets   [ 1 7 ] .   P r ec is io n   d en o tes   t h f r ac tio n   o f   in s tan ce s   t h at   ar T P s   in   th s et  o f   al i n s ta n ce s   p r ed icted   as  P   ( T P +FP) .   R ec all  m ea s u r e s   th f r ac tio n   o f   T P s   co r r ec tly   p r ed icted   in   th s e o f   all  ac t u al  P   in s tan ce s   ( T P +FN) .     C las s i f ier s   w i th   h i g h   r ec all  h av e   les s   n u m b er   o f   FNs .     Hen ce   f o r   r ar class e s ,   t h class i f ier   s h o u ld   b ev alu a ted   b ased   o n   h o w   it  p er f o r m s   o n   b o th   r ec all  an d   p r e cisi o n .     Us u all y ,   i n   class - i m b al an ce d   d atasets ,   th e   tar g et   clas s   h a s   m u c h   lo w er   p r ec is io n   an d   r ec all  th a n   t h m aj o r ity   cla s s .   Ma n y   p r ac titi o n er s   h a v o b s er v ed   th at  f o r   s k e w ed   c lass   d is tr i b u tio n s   t h r ec all   o f   th e   m in o r it y   clas s   i s   o f ten   0 ,   w h ich   m ea n s   th a n o   class i f icatio n   r u le s   h a v b ee n   g en er ated   f o r   t h tar g et  cl as s .     C o m m o n l y   u s ed   g r ap h ical   d i s p la y   o f   cla s s i f ier   ac cu r ac y   i n clu d e   r ec eiv er   o p er atin g   ch ar ac ter is tic   cu r v ( R O C ) ,   th e   p r ec is io n - r ec all  cu r v ( P R C )   a n d   co s t   cu r v e s .   Fo r   b i n ar y   c lass if ie r ,   R OC   cu r v i s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   4 A u g u s 2 0 1 7     2 2 1 5     2 2 2 2   2218   g r ap h ical  m et h o d   to   g r ap h ical l y   r ep r esen t   th e   tr ad e - o f f   b et w ee n   T P   r ate  an d   FP   r ate  [ 1 1 ] ,   [ 1 4 ] .   A   R OC   p lo t   p r o v id es  s in g le  p er f o r m a n ce   m ea s u r ca lled   th A r ea   u n d e r   th R O C   cu r v ( A UC )   s co r e.   A U C   s co r is   0 . 5   f o r   c h a n ce ”  cla s s i f ier s ,   w h ic h   i n d icate s   th e   lack   o f   a n y   s t atis tical  d ep en d e n ce   a n d   is   eq u iv a len t   to   r an d o m   g u e s s i n g   an d   1 . 0   f o r   p er f ec class i f ier s .   T h A r ea   u n d er   R OC   C u r v ( A UC )   ca n   b u s ed   to   co m p ar th p er f o r m a n ce   o f   m u lt ip le  class if ier s ,   b u th e y   ar n o v er y   u s ef u f o r   class - i m b ala n ce d   d atasets .   P r ec is io n - R ec all   c u r v e s   ( P R C )   ar o f te n   u s ed   in s tead   o f   R OC   p lo ts   to   r ep r esen t   ac cu r ac y   i n   th e   class - i m b ala n ce d   d atasets   [ 2 3 ] ,   [ 2 4 ] .   T h P R C   p lo s h o w s   p r ec is io n   v al u es  f o r   co r r esp o n d in g   r ec all  o r   s en s it i v it y   v al u es.  W h i le  th b aseli n is   f i x ed   w i th   R O C ,   th b asel i n o f   P R C   is   d et er m in ed   as  P   ( P   N ) .   T h ar ea   u n d er   th P R   cu r v e ,   d e n o ted   as  AUC   ( P R C ) ,   i s   a   b etter   in d icato r   f o r   m u l tip le  cla s s i f ier   co m p a r is o n s   in   t h cla s s - i m b alan ce d   d ataset s   [ 1 4 ] .   T h co s cu r v ( C C )   is   an   a lter n ati v to   th R O C   p lo t,   an d   th e y   an a l y ze   cla s s i f icatio n   p er f o r m a n ce   b y   v ar y in g   o p er atin g   p o in ts ,   w h ic h   ar b ased   o n   class   p r o b a b ilit ies  an d   m is c lass if ica tio n   co s ts   [ 1 4 ] T h p r o b a b ilit y   co s f u n ctio n   o r   P C r ep r esen ts   t h o p er at in g   p o in ts   o n   t h x - ax is ,   a n d   th n o r m alize d   ex p e cted   co s t o r   NE [ C ]   acco u n ts   f o r   th e   class i f icatio n   p er f o r m a n ce   o n   th y - a x is     2 . 4 .   P ro po s ed  S o lutio n   T h au th o r s   u s t h o p en   s o u r ce   W E KA   to o to   cr ea te   class i f ier s   u s in g   b o th   th a lg o r ith m ic   ap p r o ac h   as  w ell  as  t h s a m p lin g   ap p r o ac h .   T h au th o r s   p ick ed   W E KA ,   b ec au s o f   it s   p o p u lar it y   a m o n g   r esear ch er s   [ 2 5 ] .   W E KA   is   a   f r ee l y   a v ailab le,   J av a - b ased   co llectio n   o f   m an y   d ata  m i n i n g   i m p le m e n tatio n s   an d   v is u aliza t io n   to o ls .   I ts   ea s y   to   u s GUI   in ter f ac is   b et ter   s u ited   f o r   n o n - tec h n ical  u s er s   lik t h h ea lth   ca r p o licy   m a k er s .   Sin ce   t h s o f t w ar is   o p en - s o u r ce ,   an y   r esear ch er   ca n   m o d if y   t h s o u r ce   an d   r ep ea t   ex p er i m e n ts   to   co m p ar r es u lts .   co s t - b en e f it   a n al y s is   u s i n g   W E K A   w as  d o n e ,   an d   th cla s s i f ie r   p er f o r m a n ce   w as  co m p ar ed   to   id en tify   t h b est  class if ier s   f o r   th cu r r en class   i m b ala n ce d   h ea lth   d ataset.   I n   th class if ier s   d ef i n ed   f o r   p r e d ictio n   o f   ch r o n ic  h ea lth   co n d itio n s ,   w ar s p ec if icall y   in ter ested   in   r ed u cin g   th f alse  n e g ati v es   b ec a u s it   h as  h i g h er   co s t.  T h class i f i er   s h o u ld   b ab le  to   p r ed ict  s ig n i f ica n t   n u m b er   o f   t h m i n o r it y   o r   tar g et   clas s   in s ta n ce s .   O n ce   t h co r cla s s if ier s   ar s t u d ied ,   t h a u t h o r s   atte m p to   i m p r o v e   th p er f o r m a n ce   o f   t h class if i er s   u s i n g   an   e n s e m b le   o f   clas s if ier s   a n d   also   d ata  s a m p li n g   t ec h n iq u es.          2.   RE S E ARCH   M E T H O D     T h d ata   f o r   th is   ex p er i m e n h as  b ee n   p r o v id ed   b y   th R u r al  Ma ter n it y   an d   C h ild   W elf a r Ho m e s   ( R MCW H )   o r g a n izatio n ,   w h i ch   i s   t h lar g e s p r i v ate  i n te g r ated   h ea lth   ca r d eliv er y   n et w o r k   in   Kar n ata k a.     R MCW H s   ar m an n ed   b y   th D ep ar tm e n t   o f   C o m m u n it y   Me d icin e,   Kast u r b Me d ical  C o lleg e,   Ma n ip al,   I n d ia.   T h d ataset  h as  to tal   o f   2 2 , 5 9 8   in s tan ce s   a n d   5 3   attr ib u tes.  T h p r ed icto r   v ar iab les  in   t h d atase t   r ec o r d   th p atien t‟ s   d e m o g r a p h ics,  f a m i l y   d etail s ,   s o cio ec o n o m ic  s ta tu s ,   an d   li v i n g   co n d itio n s .   T h class   att r ib u te  is   b in ar y   attr ib u te  w h ic h   in d icate s   if   t h p atien h as  o n o r   m o r o f   th f o llo w i n g   c h r o n ic  d is ea s e s :   d iab etes,  h ea r t d is ea s e   o r   h i g h   b lo o d   p r ess u r e.   T h class   is   i m b a lan ce d   w i th   1311   p atien ts   w it h   c h r o n ic  ill n ess   an d   20982   h ea lth y   p atien t s .   T h is   d atase i m p lie s   r ar ca s e,   w h er ein   5 . 8 o f   t h to tal  p o p u latio n   i s   th r ar e   p o s itiv e   ca s e.   T h d ataset  is   also   u n iq u b ec au s it  co n tai n s   3 0 5   in s ta n ce s   w it h   m is s in g   class   lab el s .   T h d ataset   co n tai n s   an   a l m o s e q u al  n u m b er   o f   m ale  a n d   f e m ale  r ec o r d s .   T h e   ch r o n ic  d i s ea s w a s   f o u n d   in   p atien ts   w h o   ar ab o v t h a g o f   4 0 .   T h attr ib u te s   w h ic h   ar h ig h l y   co r r elate d   w i th   th e   c h r o n ic  ill n e s s   o cc u r r en ce   ar e   ag e,   g e n d er   an d   m ar ital  s tat u s   o f   t h p atie n t.  T h p atien ts   w i th   c h r o n ic   d is ea s es  w er also   f o u n d   to   b f r o m   t h h ig h er   in co m g r o u p .     B ased   o n   liter atu r r ev ie w ,   t h au t h o r s   s e lecte d   s u b s e o f   W E KA   cla s s i f ier s   th a ar e   k n o w n   to   w o r k   w ell  i n   th clas s - i m b al an ce d   d atasets   [ 2 5 ] .   C lass if ie r s   w h ich   w o r k   w it h   m is s in g   class   v al u es  w er e   ch o s en   d u to   lar g n u m b er   o f   m is s i n g   v alu e s   in   t h h ea lt h   d ataset .   I n   th ca s o f   th ch r o n ic  h ea lt h   d ataset th co s ts   o f   FNs   i s   m u ch   m o r th at  th co s o f   FP s .   A lt h o u g h   it  is   p o s s ib le  to   co m p u te   th co s t   o f   th FP   r eg ar d in g   t h co s t   o f   d iag n o s tic  test s ,   t h e   co s o f   late   d iag n o s is   an d   d ea th   ca n n o b ea s il y   q u a n ti f ied .   T h e   au th o r s   c h o s to   r ep r esen t h e   W E KA   co s m atr i x   in   t h r at io   o f   1 : 10 ,   i.e . ,   T he   co s o f   FN  is   ten   ti m es   m o r e   th an   t h co s t   o f   th FP .   T h w id el y   u s ed   s tr ati f ied   10 - f o ld   cr o s s - v alid atio n   w a s   d ep lo y ed   f o r   th test in g   o f   t h class i f ier s ,   d u e   to   its   r elati v el y   lo w   b ias  a n d   v ar ia n ce   [ 7 ] ,   [ 1 7] .   T h co r class if ier s   w er co m p ar ed   in   ter m s   of   to tal  co s a n d   tr u p o s iti v r ate.   C o s b en e f it   an al y s is   w a s   d o n e   w it h   t h r es u lts   o f   b asic   class i f ier s ,   a n d   t h e   co s f u n ctio n   w as  m i n i m ized   s o   as  to   lo w er   to tal  co s t s   in   g e n er al  as  w ell  a s   r ed u ce   th to tal   n u m b er   o f   FN s   in   th clas s i f ier .     Af ter   t h b est co r class i f ier s   h ad   b ee n   id en ti f ied ,   t h au t h o r s   co n d u cted   ex p er i m e n ts   to   c h ec k   i f   co s t   s en s iti v lear n i n g ,   f ilter ed   class i f ier s ,   an d   en s e m b le  m et h o d s   co u ld   b u s ed   to   im p r o v th r esu l ts .   W E K s u p p o r ts   e n s e m b le - b ased   cla s s i f icatio n b o o s ti n g ,   b a g g in g   a n d   b len d i n g .   B o o s tin g   w a s   d o n w it h   t h e   A d aB o o s tM1   w it h   d if f er e n b ase  clas s i f ier s   to   s ee   i f   t h eir   r esu lt s   co u ld   b i m p r o v ed .   B a g g i n g   w i th   v ar io u s   b ase  class i f ier s   w as  p er f o r m e d   to   s ee   if   it  r esu lts   en h an ce d   b y   t h s ep ar atio n   o f   d ata  in to   s a m p les.    B len d in g   w a s   co n d u cted   u s i n g   Stac k i n g   in   W E KA   w h ic h   is   b ased   o n   th Stac k ed   Ag g r eg atio n   m et h o d   u s in g   d iv er s e   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708       Lea r n in g   fr o a   C la s s   I mb a la n ce d   P u b lic  Hea lth   Da ta s et:   a   C o s t - b a s ed   C o mp a r is o n   o f … .   ( R o h in i R .   R a o )   2219   b len d   o f   alg o r ith m s .     T h ch o ice  o f   b ase  class if ier s   f o r   th en s e m b le  w as  b ased   o n   th as s u m p tio n   t h at  b ase  class i f ier s   ar in d ep en d e n t o f   ea ch   o th er   an d   t h at  th b ase  cl ass i f ier s   p er f o r m   b etter   t h an   r a n d o m   g u es s i n g .     I n   th last   e x p er i m e n t,  th d ataset s   w er m o d if ied   u s i n g   u n d er - s a m p li n g ,   o v er - s a m p lin g   a n d   SMOT E   tech n iq u e s   to   s ee   t h eir   i m p ac o n   t h p er f o r m a n ce   o f   class i f ier s .   E ac h   o f   t h ese  s a m p lin g   tec h n iq u e s   en s u r ed   th at  b o th   class   lab els   ar b alan ce d ,   u s in g   t h W E KA   f ilter s   “Res a m p le, ”  “Sp r ea d Su b Sa m p le”  a n d   SM OT E . ”  I n   th f ir s s tr ate g y ,   t h   “Sp r ea d Su b Sa m p le”  f ilter   w h ich   p r o d u ce s   r an d o m   s u b s a m p le  o f   a   d ataset  w as   u s ed .   T h is   f il ter   p er f o r m s   u n d er - s a m p li n g   to   en s u r u n i f o r m   d is tr ib u tio n   o f   cla s s e s ,   w h ic h   r esu lted   i n   d ataset   w i th   1 0 7 4   p o s itiv i n s tan ce s   an d   1311   n eg ati v i n s ta n ce s .   I n   t h s ec o n d   s tr ateg y ,   th e   “Res a m p le”  f ilter   w a s   u s ed ,   w it h   th b ia s T o Un if o r m D is t r ib u tio n ”  o p tio n   to   g et  a n   o v er - s a m p led   d ataset   w it h   r ep lace m en t.  T h o v er - s a m p led   d ataset  r es u lted   in   a   d ataset  w it h   11299   p o s itiv c l ass   i n s tan ce s   a n d   1 1 1 4 0   n eg ati v clas s   in s ta n ce s .   T h SMOT E   f ilter   w a s   als o   u s ed   to   r esa m p le  t h d atase t   u s i n g   f iv n ea r est   n eig h b o r s   to   g e n er ate  14421   p o s itiv i n s ta n ce s   a n d   20982   n eg at iv i n s tan ce s .   T h th r ee   d atasets   w er t h en   u s ed   to   p r o d u ce   class if ier s   u s i n g   d i f f er en t c las s i f ier   m e th o d s ,   an d   th r esu l ts   w er r an k ed   b ased   o n   co s t .       3.   RE SU L T A ND  D I SCU SS I O   I n   th f ir s s tag e,   co r class i f ier s   w er b u ilt ,   an d   its   p er f o r m an ce   f o r   th class - i m b alan c ed   d ataset   w a s   an al y ze d .   T h d ata  also   co n tain s   m is s in g   v alu e s ,   an d   o n l y   th o s cla s s i f ier s   w h ich   s u p p o r m is s i n g   cla s s   v alu e s   w er ev a lu ated   f o r   t h eir   p er f o r m an ce .   T h S u p p o r Vec to r   Ma c h in e   b ased   W E KA  i m p le m e n tat io n   L I b SVM,   p r o d u ce d   an   e f f ec ti v cla s s i f ier   w i th   t h s ig m o id   k er n e w h ile  o t h er   k er n el s   li k li n e ar   a n d   r ad ial   r esu lted   in   c h a n ce”   class i f ier s   w h ic h   w er e   eq u i v alen to   r an d o m   g u es s .   T h is   also   i m p li es  th at  t h s o lu tio n   s p ac is   n o t   li n ea r l y   s ep ar ab le.   C h a n ce   c lass if ier s   w er e   el i m in a ted ,   an d   t h e   r e m ai n i n g   clas s i f ier s   w er e   s h o r tlis ted   an d   r an k ed   b ased   o n   th to tal  co s o f   th class if i er   ( s ee   T ab le   1 ) .   T h T o tal  C o s t‟   w as  ca lc u lated   b ased   o n   th e   co s m atr i x ;   t h e   co s ts   w er f u r th er   r ed u ce d   b y   p er f o r m in g   co s t - b e n ef it  a n al y s i s   to   e n s u r a   m i n i m u m   n u m b er   o f   FNs .   T h T o tal  C o s ( Op ti m ized )   r ep r esen ts   t h e   co s ts   af ter   c o s t - b en e f it   an a l y s is .     F e w er   FNs   ( w h ic h   r es u lts   in   l ess   co s t)   a n d   h i g h   r ec al is   d e s ir ab le.   T h to tal  n u m b er   o f   F Ns  b ef o r an d   a f ter   co s t - b en e f it  a n al y s i s   w er ta b u lated T h A UC   v al u es  i n   co lu m n   8   p r o v e   th at  all  t h es class i f ier s   ar n o t   eq u iv ale n t to   r an d o m   g u e s s   b u t c an   class if y   t h d ata  in   s p ite  o f   class   i m b ala n ce .       T ab le  1 .   C o s ts   an d   p er f o r m an ce   o f   co r class if ier s   ( T o p   1 0 )   R a n k   W E K A   C l a ssi f i e r     T o t a l   C o st   T o t a l   C o st   ( O p t i m i z e d )   R e c a l l     F N s   ( o u t   o f   1 3 1 1 )   F N ( O p t i m i z e d   )     A c c u r a c y   R a t e   ( %)   A U C     A U C   ( P R C )     1   B a y e si a n   N e t   5 5 0 4   4 9 5 3   0 . 7 3   3 5 7   1 7 4   8 9 . 7 2   0 . 9 2 5   0 . 3 7 9   2   N a ï v e   B a y e si a n   5 6 0 2   4 9 8 8   0 . 7 2   3 6 7   1 4 3   8 9 . 6 9   0 . 9 2 4   0 . 3 7 9   3   L o g i st i c   1 0 4 8 0   4 9 2 8   0 . 2 2   1 0 2 1   1 7 2   9 4 . 2 1   0 . 9 2 4   0 . 3 8 7   4   R a n d o T r e e   1 0 7 0 7   9 6 6 2   0 . 2 4   9 9 3   8 0 6   9 2 . 0 6   0 . 6 5 7   0 . 1 4 2   5   J4 8   1 1 1 3 7   7 4 6 7   0 . 1 7   1 0 9 1   5 2 8   9 4 . 0 8   0 . 8 3 6   0 . 2 8 6   6   V o t e d P e r c e p t r o n   1 1 4 8 8   1 1 3 2 7   0 . 1 4   1 1 2 7   1 1 0 5   9 3 . 9 7   0 . 5 7 2   0 . 1 1 7   7   JR I P   1 1 4 4 7   1 1 4 6 8   0 . 1 4   1 1 2 2   1 1 2 2   9 3 . 9 5   0 . 5 7 6   0 . 1 2 8   8   L i b S V M     S i g mo i d   k e r n e l   1 1 9 4 5   1 1 9 7 1   0 . 1 2   1 1 5 3   1 3 1 1   9 2 . 9 7   0 . 5 5 0   0 . 0 8 3   9   S i mp l e C a r t   1 2 0 5 4   9 1 5 8   0 . 0 9   1 1 9 4   7 4 3   9 4 . 1 3   0 . 7 6 8   0 . 2 1 9   10   I B K ,   K = 5   1 2 5 4 8   1 0 0 2 9   0 . 0 5   1 2 4 9   5 7 7   9 4 . 1 4   0 . 7 2 1   0 . 1 7 8       I n   g e n er al,   m o s o f   t h e   to p   class i f ier s   ex h ib ited   lo w   to tal  co s t,  an d   th n u m b er   o f   FNs   w a s   d r asti ca ll y   r ed u ce d   u s i n g   th co s t - b en e f it  a n al y s i s .   T h B ay e s ia n   clas s if ier s   h ad   t h b est  p er f o r m an c e   r eg ar d in g   t h co s o f   th co r class i f ier s   i n   th class   i m b ala n ce d   h ea lth   d ataset   ( T ab le  1 ) .   T h W E KA   b ased   p air ed   t - test   p r o v ed   t h at  t h er e   is   n o   d if f er en ce   in   th e   p er f o r m an ce   o f   t h Na ïv e   B a y esia n   an d   B a y es ian   n et   class i f ier s .   T h B a y e s ian   n et   class i f ier   i s   p r ef er r ed   b ec au s in itial  e x p lo r atio n   s h o w s   s tr o n g   co r r elatio n   a m o n g   t h p atie n t   f ea tu r es.   B a y esia n   cla s s i f ier s   ar k n o w n   to   w o r k   w ell   i n   s it u atio n s   li k e   m ed ical   d iag n o s is ,   w h er ein   t h r elatio n s h ip   b et wee n   th attr ib u te  s et  an d   class   v ar iab le  is   n o n - d eter m in i s tic.   B ay e s ian   cla s s i f ier s   ar also   r o b u s t   to   n o is e,   ir r elev an t   attr ib u tes  a n d   co n f o u n d i n g   f ac to r s   t h at  ar n o in c lu d ed   i n   t h e   class i f icatio n .   A ll  t h o th er   al g o r ith m s   l ik L o g is tic,   R an d o m   T r ee   an d   Vo ted   P e r ce p tr o n   h av h i g h   n u m b er   o f   f al s n eg at iv e s   w h ich   d r ast icall y   i n cr ea s e s   t h co s o f   th e   class i f ier .   T h r esu l ts   al s o   co n t r ad ict  th e   r esu lt s   o f   W eiss   [ 1 2 ]   w h o   ad v o ca ted   th u s o f   i n s tan ce   b ased   lear n er s   f o r   th clas s   i m b ala n ce   p r o b lem .   T h r u le - Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   4 A u g u s 2 0 1 7     2 2 1 5     2 2 2 2   2220   b ased   class if ier ,   J R I P   w h ic h   is   an   i m p le m e n tatio n   o f   p r o p o s itio n al  r u le  lear n er ,   is   w ell  s u ited   f o r   h an d li n g   class   i m b ala n ce s   a n d   ap p ea r s   in   th to p   10   class if ier s .     T h is   r es u lt  is   i n   lin w it h   p r ev io u s   r esu lt s   w h ic h   s u g g e s ted   t h at   k er n el  b ased   S VM w o r k   b etter   i n   cla s s   i m b alan ce   p r o b le m s   [ 1 2 ] ,   [ 1 3 ] ,   [ 1 5 ] .   E v en   th o u g h   th e   class i f ier   ac cu r ac y   f o r   all  clas s if ier s   is   h i g h ,   b et w ee n   89 a n d   94  %,     o n l y   th B a y e s ia n   class i f ier s ,   h a v h ig h   r ec all  ( 0. 7 3 )   an d   lo w   n u m b er   o f   FNs   I n   th s ec o n d   e x p er i m e n t,  t h ef f ec t o f   e n s e m b li n g   m e th o d s   lik R an d o m   Fo r est,  B o o s tin g ,   B ag g i n g ,   Stack i n g   a n d   Vo ti n g   o n   t h e s e   b aselin e   clas s i f ier s   w as  s t u d ied .   T h r esu lts   ar tab u la ted   i n   T ab le  2 .   T h co s s en s iti v lear n in g   a n d   t h m eta  co s i m p le m en ta tio n s   i n   W E K A   w er also   e v al u a ted .   T h class i f ier   p er f o r m a n ce   w as   ag ai n   r an k e d   b ased   o n   to tal   co s t   w h ich   w a s   f u r th er   o p ti m ized   u s i n g   c o s t - b en e f it   a n al y s is   an d   t ab u lated   in   T ab le  2 .       T ab le  2 C o s ts   an d   p er f o r m an ce   o f   E n s e m b le  &   C o s t b ased   C las s i f ier s   ( T o p   1 0 )   R a n k   C l a ssi f i e r   T o t a l   C o st   T o t a l   c o st     ( o p t i m i z e d )   R e c a l l   F N s   ( o u t   o f   1 3 1 1 )   F N ( o p t i m i z e d   )   A c c u r a c y   Rate   ( %)   A U C     A U C   ( P R C )     1   C o st   S e n s i t i v e   ( B a y e sN e t )   4 9 6 8   5 0 0 7   0 . 9 0   1 3 7   1 6 9   8 3 . 2 5   0 . 9 2 4   0 . 3 7 8   2   F i l t e r e d   c l a ss,   C l a ss B a l a n c e r ,   ( B a y e sN e t )     5 1 5 0   5 0 0 0   0 . 9 1   1 1 7   1 6 9     8 1 . 6 2   0 . 9 2 4   0 . 3 7 8   3   C o st   se n s i t i v e   ( JR I P )   5 2 8 1   5 4 4 8   0 . 8 5   1 9 7   2 1 4   8 4 . 2 6   0 . 8 5 7   0 . 2 6 2     M e t a C o st   ( B a y e sN e t )   5 4 2 6   5 1 8 5   0 . 9 3   95   1 9 2   7 9 . 4 9   0 . 9 1 9   0 . 3 5 5   5   C o st   se n s i t i v e   ( L o g i st i c )   5 5 0 7   5 6 0 7   0 . 8 5   1 9 6   2 2 3   8 3 . 2 1   0 . 9 0 4   0 . 3 1 2   6   B a g g i n g       ( B a y e sN e t )   5 5 7 5   4 9 6 9   0 . 7 2   3 6 8   1 7 1   8 9 . 8 5   0 . 9 2 4   0 . 3 8 0   7   F i l t e r e d   c l a ss,   C l a ss B a l a n c e r ,   ( L o g i st i c )   5 6 1 8   5 5 4 7   0 . 8 8   1 5 3   2 1 1   8 0 . 9 8   0 . 9 0 7   0 . 3 2 0   8   F i l t e r e d   c l a ss   C l a ss  B a l a n c e r ,   ( J4 8 )   6 2 4 0   6 2 8 7   0 . 7 0   3 9 9   4 0 3   8 8 . 1 2   0 . 7 9 7   0 . 2 3 1   9   V o t e   ( B a y e sN e t   w i t h   L o g i st i c )   6 4 4 3   4 9 3 6   0 . 6 0   5 2 0   1 9 1   9 2 . 0 9   0 . 9 2 8   0 . 3 9 4   10   V o t e   ( B a y e sN e t   w i t h   r a n d o m fo r e st )   6 5 4 3   4 8 3 6   0 . 5 9   5 3 4   1 5 4   9 2 . 2 0   0 . 9 2 7   0 . 4 0 0       T h co s s en s iti v lear n i n g   i m p le m e n tatio n   w it h   d if f er en co r clas s i f ier s   e x h ib ite d   th b est   p er f o r m a n ce .   I n   t h ca s o f   t h J R I P   an d   L o g is t ic  cla s s i f i er s ,   th e   co s t - s e n s i tiv e   lear n in g   ap p r o ac h   al m o s t   h alv e s   th to tal  co s o f   t h co r i m p le m e n tatio n .   T h f ilter ed   class i f ier   w i th   t h class   b alan ce r   f ilter   p r o d u ce s   g o o d   r esu lts   w ith   L o g is tic  an d   J 4 8   m eth o d s   w h ic h   w er p r ev io u s l y   a f f ec ted   b y   th cla s s   i m b alan ce .   Ho w e v er ,   t h co s t - b en e f it   a n al y s i s   s o m eti m e s   led   to   an   i n cr ea s i n   o v er all  co s e v en   th o u g h   t h n u m b er   o f   FNs   w er lo w .   T h in cr ea s in   to tal  co s w a s   d u to   m a s s i v i n cr ea s in   FP s   as  r esu lt  o f   t h r esh o ld   m o v in g .     As   in d icate d   in   th e   liter at u r e ,   th e   en s e m b le  m eth o d s   li k Vo ti n g   a n d   A D A B o o s tM1   s ig n i f i ca n tl y   i n cr ea s t h p er f o r m a n ce   o f   cla s s i f ier s   i n   i m b a lan ce d   clas s   d ataset s   i n   co m p ar i s o n   to   co r class i f ier s   [ 1 9 ] .   I n   th t h ir d   ex p er i m e n t,  th e f f ec o f   s a m p li n g   to   b alan ce   th class es  w a s   d o n u s in g   tec h n iq u e s   lik e   u n d er - sa m p lin g ,   o v er s a m p li n g   a n d   SMOT E   ( T ab le  3 ) .     T h r es u lt s   w er r an k ed   b ased   o n   t o tal  co s t,  an d   a   co s t - b en e f it  a n al y s i s   w as  p er f o r m ed   to   s ee   if   co s ts   co u ld   b r ed u ce d .   I n   g en er al,   as  in d ica ted   in   th e   liter at u r e u n d er - s a m p lin g   s ee m s   to   w o r k   b etter   th an   o v er - s a m p li n g   an d   SMOT E   [ 2 2 ] .   T h au th o r s   r ec o m m e n d   th e   u s a g o f   r an d o m   u n d er - s a m p li n g   a s   s o lu tio n   f o r   class   i m b ala n ce d   d atasets   b ec au s it  is   al s o   co m p u tatio n all y   le s s   e x p en s iv to   im p le m e n t   th a n   SMOT E   o r   o v er - s a m p li n g .   I also   r ed u ce s   th s ize  o f   t h e   d ataset,   w h ich   w il i m p r o v ti m co m p lex i t y   w it h o u s ac r if i ci n g   cla s s i f icatio n   p er f o r m an c e.   I n   th ca s o f   th e   J4 8   an d   I B K,   it  w a s   o b s er v ed   th at  all  th r ee   s a m p li n g   s tr ate g i es  i m p r o v ed   th co s d r a m atic all y .   T h s a m p lin g   r esu lt s   in d icate   th a J 4 8   an d   I B w o r k   b etter   in   class   b alan ce d   d ataset s .   T h is   r esu lt  co n tr ad icts   s o m p r ev io u s   e m p ir ical   r esu lts ; t h s a m p li n g   m et h o d s   o u tp er f o r m ed   th c o s t - s e n s iti v m et h o d s   [ 1 1 ] .         Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2 0 8 8 - 8708       Lea r n in g   fr o a   C la s s   I mb a la n ce d   P u b lic  Hea lth   Da ta s et:   a   C o s t - b a s ed   C o mp a r is o n   o f … .   ( R o h in i R .   R a o )   2221   T ab le  3 .   C o s ts   an d   p er f o r m an ce   o f   C las s i f ier s   u s i n g   s a m p li n g   tech n iq u e s   ( T o p   1 0 )   Ra nk   C las s i f ier   T o tal  C o s t   T o tal  c o s   ( o p tim ize d)   R ec all   A cc u r ac y   R ate   ( %)   FNs   FNs   ( o p tim ized )   A U C     A U C   ( P R C )     1   Ov er s a m p lin g   R an d o m   T r ee   766   530   1 . 0 0   9 6 . 5 8   0 /1 1 2 9 9   5   0 . 9 7 9   0 . 9 5 9   2   Un d er Sa m p li n g   J R I P   1198   1349   0 . 9 2   8 4 . 1 0   9 1 /1 0 7 4   68   0 . 8 4 1   0 . 7 1 1   3   Un d er Sa m p li n g   B ay e s n et   1215   756   0 . 9 1   8 6 . 0 4   9 8 /1 0 7 4   11   0 . 8 8 6   0 . 7 7 7   4   Ov er Sa m p lin g   J 4 8   1265   1292   0 . 9 9   9 5 . 2 0   2 1 /1 0 7 4   14   0 . 9 6 3   0 . 9 3 4   5   Un d er Sa m p li n g   J 4 8   1455   1170   0 . 8 9   8 3 . 8 9   1 1 9 /1 0 7 4   65   0 . 8 3 8   0 . 6 9 3     Un d er Sa m p li n g   Vo ted P er ce p tr o n   1533   1039   0 . 8 8   8 5 . 5 3   1 3 2 /1 0 7 4   56   0 . 8 4 7   0 . 7 0 9   6   Un d er Sa m p li n g   L o g i s tic   1682   804   0 . 8 6   8 4 . 1 9   1 4 5 /1 0 7 4   11   0 . 8 7 5   0 . 7 4 8   7   Un d er Sa m p li n g   I B k =5   2205   1096   0 . 8 2   7 8 . 4 9   1 8 8 /1 0 7 4   9   0 . 8 3 1   0 . 7 0 9   8   Un d er Sa m p li n g   R an d o m   T r ee   3271   1548   0 . 7 2   7 5 . 3 0   2 9 8 /1 0 7 4   0   0 . 7 5 0   0 . 6 1 1   9   Un d er Sa m p li n g   L I b SVM  ( s ig m o id   k er n el)   3528   1431   0 . 7 1   7 0 . 5 7   3 1 4 /1 0 7 4   105   0 . 6 8 7   0 . 5 4 1   10   Ov er s a m p lin g   I B k 5   5033   3991   0 . 9 9     8 3 . 9 5   1 5 9 /1 1 2 9 9   956   0 . 9 6 2   0 . 9 3 8       4.   CO NCLU SI O N     T h is   w o r k   is   r elev a n to   p u b lic  h ea lth   p o lic y   m ak er s ,   w h o   ca n   u s th class if ier s   to   p r ed ict  th o cc u r r en ce   o f   ch r o n ic  d i s ea s e   in   th p o p u latio n   an d   also   id en ti f y   t h f ac to r s   th at  ar co r r elate d   w it h   ch r o n ic   d is ea s es.  T h class if ier s   w ill  h elp   h ea lth   ca r p r o v id er s   in   im p r o v in g   th e ir   p r o g n o s is ,   d iag n o s is   an d   tr ea t m e n t   p lan s   E x p er i m en ts   w er co n d u cted   b ased   o n   v ar io u s   ap p r o ac h es  s u g g e s ted   in   t h liter a tu r e ,     to   tack le  t h e   class   i m b alan ce   p r o b le m .   T h W E KA   b ased   class if ier s   w er u s ed   to   r ec o r d   an d   an al y ze   t h class if ier   p er f o r m a n ce   in   ter m s   o f   co s t .   T h B ay e s ia n   clas s i f ier s   w e r id en ti f ied   as  th e   b est  cla s s if ier s   f o r   t h cla s s   i m b alan ce d   d atase t.  T h au t h o r s   r ec o m m e n d   th B a y esia n   Net  clas s i f ier   b ec au s o f   u n d er ly i n g   co r r elatio n   a m o n g   p atien f ea tu r es.  T h c o s s en s i ti v e   i m p le m en ta tio n s   an d   co s t - b e n ef it   an a l y s is   ca n   f u r t h er   r ed u ce   t h e   to tal  co s w h ile  m ai n tai n in g   t h ac cu r ac y .   Ho w e v er ,   th e n s e m b le  m et h o d s   is   co m p le x   s o l u tio n   w h er ei n   th er ar h u g n u m b er   o f   s o lu tio n s   t h at  s ti ll  n ee d s   to   b ex p lo r ed .   Un d er - s a m p l in g   is   a n   ef f icie n t   d ata  p r e - p r o ce s s in g   ap p r o ac h   w it h   lo w   co m p u ta tio n   co s ts ,   a n d   i is   r ec o m m e n d ed   f o r   b u ild in g   co s e f f ec ti v e   class i f ier s .   T h u n d er - s a m p li n g   ca n   d r a m at icall y   i m p r o v t h e   p er f o r m a n ce   o f   m e th o d s   li k J 4 8 ,   I B w h ic h   ar af f ec ted   b y   th e   clas s   i m b al an ce .     T h cu r r en w o r k   as s u m es t h at  th co s t o f   FNs   i s   te n   ti m e s   m o r t h a n   th e   co s t o f   T P s .   T h w o r k   ca n   b i m p r o v ed   b y   ac t u all y   q u an t if y i n g   th e   ac t u al  co s t s   i n   g en er ati n g   clas s i f ier   er r o r s .   I n   f u t u r w o r k ,   t h e f f ec o f   f ea tu r s e lectio n   o n   t h c lass if ie r   co s w ill   b s t u d ied .   T h o u g h   ir r elev a n f ea t u r es   ar n o t k n o w n   to   i m p r o v clas s if ica tio n   p er f o r m a n ce   s i g n i f ic an tl y ,   t h e y   ca n   s lo w   d o w n   th class i f ier   p r o ce s s .           ACK NO WL E D G E M E NT   W th a n k   Dr .   Har is h c h an d r Heb b ar ,   P r o f ess o r ,   Sc h o o o f   I n f o r m a tio n   Scie n ce s ,   Ma n ip al  an d   th e   D ep ar t m en t   o f   C o m m u n it y   M ed icin e,   KM C ,   Ma n ip al  f o r   s h ar in g   w it h   u s   v al u ab le  d ata.   W th an k   Dr .   Vee n a   Ka m at h ,   P r o f ess o r ,   Dep ar t m en o f   C o m m u n it y   Me d ici n e ,   KM C ,   Ma n ip al,   f o r   ex ten d in g   u s   h er   s u b j ec ex p er tis e.       RE F E R E NC E S     [1 ]   T o m a D,  Ag a r wa S .   A   su rv e y   o n   Da ta  M in i n g   a p p ro a c h e f o He a lt h c a re ”,   In ter n a ti o n a J o u rn a o Bi o - S c ien c e   a n d   Bi o - T e c h n o lo g y .   2 0 1 3 ;   5 ( 5 ):  2 4 1 - 2 6 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E     Vo l.  7 ,   No .   4 A u g u s 2 0 1 7     2 2 1 5     2 2 2 2   2222   [2 ]   Diss a n a y a k a   C,   A b d u ll a h   H,  A h m e d   B,   P e n z e T ,   Cv e tk o v ic   D.  Cla ss if ica t io n   o He a lt h y   S u b je c ts  a n d   In s o mn i a c   Pa ti e n ts   Ba se d   o n   A u to m a ted   S l e e p   On se De tec ti o n .   In   In ter n a ti o n a C o n f e re n c e   f o In n o v a ti o n   in   Bio m e d ica En g in e e rin g   a n d   L if e   S c ien c e s: I CIBEL 2 0 1 5 ;   2 0 1 5 P u traja y a ,   M a la y sia .   [3 ]   Ch ien   C,   P o tt ie   G J,   A   Un iv e r sa l   Hy b rid   De c isio n   T re e   Clas si f ier  De sig n   f o Hu m a n ”,   In   3 4 t h   A n n u a In ter n a ti o n a Co n f e re n c e   o f   th e   IEE EM B S 2 0 1 2 S a n   Die g o ,   USA .   [4 ]   W a n g   Y ,   L P f ,   T ian   Y,  Re n   Jj,  L Js ,   A   S h a re d   De c isio n   M a k in g   S y st e m   f o Dia b e tes   M e d ica ti o n   Ch o ice   Util izi n g   El e c tro n ic He a lt h   Re c o r d   Da ta ,   EE J o u rn a l   o f   Bi o me d ica a n d   He a lt h   I n fo rm a ti c s .   2 0 1 6 p p ( 9 9 ): 1 - 1.   [5 ]   Ko n d a   S ,   Ba lm u ri  KR,  Ba sire d d y   RR,  M o g il i   R,   H y b rid   A p p ro a c h   f o P re d icti o n   o f   Ca rd io v a sc u lar  Dise a s e   Us in g   Clas A ss o c iatio n   Ru les   a n d   M L P ,   In ter n a ti o n a J o u r n a o El e c trica a n d   Co mp u ter   En g in e e rin g .   2 0 1 6 6 (4 ): 1 8 0 0 .   [6 ]   Bo ris  M il o v ic ,   M il a n   M il o v ic ,   P re d ictio n   a n d   De c isio n   M a k in g   i n   He a lt h   Ca re   u sin g   Da ta  M in i n g ,   In ter n a ti o n a J o u rn a o P u b li c   He a l th   S c ien c e ,   De c e m b e r   2 0 1 2 ;   1 ( 2 ):  6 9 - 78.   [7 ]   P o ll e tt i n i   JT ,   P a n ico   S RG ,   Da n e lu z z JC,  T in ó R,   Ba ra n a u sk a J A ,   M a c e d o   AA ,   Us in g   M a c h in e   L e a rn in g   Clas sif ier s to   A ss ist  H e a lt h c a re - R e late d   De c isio n s: Cl a ss i f ica ti o n   o f   El e c tro n ic P a ti e n Re c o rd s ”,   J o u rn a o M e d ica l   S y ste ms ,   2 0 1 2 3 6 3 8 6 1 - 3 8 7 4 .   [8 ]   He r lan d   M ,   Kh o sh g o f taa T M ,   W a ld   R,   A   re v ie w   o f   d a ta  m in in g   u sin g   b ig   d a ta  in   h e a lt h   i n f o rm a ti c s” ,   J o u rn a o f   Bi g   Da ta ,   2 0 1 4 1 :2 .   [9 ]   T a k e d a   F ,   T a m i y a   N,  No g u c h H,  M o n m a   T,   R e latio n   b e tw e e n   M e n tal  He a lt h   S ta tu a n d   P sy c h o so c ial  S tres so rs  a m o n g   P re g n a n a n d   P u e rp e ri u m   W o m e n   in   Ja p a n :   F r o m   th e   P e rsp e c ti v e   o f   W o rk in g   S tatu s” ,   In ter n a ti o n a l   J o u rn a o P u b li c   He a lt h   S c ien c e ,   2 0 1 2 1( 2 ):  3 7 - 4 8 .   [1 0 ]   M il o v ic   B,   M il o v ic   M ,   P re d icti o n   a n d   De c isio n   M a k in g   in   He a lt h   Ca re   u sin g   Da ta  M in i n g ,   I n ter n a ti o n a l   J o u r n a l   o P u b li c   He a lt h   S c ien c e ,   2 0 1 2 1 (2 ):  6 9 - 7 8 .   [1 1 ]   Ch a w la  NV .   Da ta  M in in g   f o I m b a lan c e d   D a tas e ts:  a n   Ov e rv ie w .   In   Da t a   M in in g   a n d   Kn o w led g e   Disc o v e r y   Ha n d b o o k ,   S p rin g e US;   2 0 0 5 ,   8 5 3 - 8 6 7 .   [1 2 ]   W e iss   G M . ,   M in in g   w i th   Ra rit y Un ify in g   F ra m e w o r k ,   A CM   S IG KD D   Ex p lo ra ti o n Ne w sle tt e -   S p e c ial  issu e   o n   le a rn in g   f ro m   i m b a lan c e d   d a tas e ts” ,   Ju n e   2 0 0 4 6 ( 1 ): 7 - 1 9 .   [1 3 ]   Ja p k o w ic z   N,   T h e   Cla ss   Imb a la n c e   Pro b le m:  S i g n i fi c a n c e   a n d   S tra teg ies I n   th e   2 0 0 0   In tern a t io n a Co n f e re n c e   o n   A rti f icia In telli g e n c e   [ ICA I] 2 0 0 0 L a s V e g a s,  USA .   [1 4 ]   S a it o   T ,   Re h m s m e ier  M ,   T h e   P re c isio n - Re c a ll   P lo Is  M o re   I n f o rm a ti v e   th a n   th e   ROC  P l o W h e n   Ev a lu a ti n g   Bin a ry   Clas si f ier s o n   Im b a lan c e d   Da tas e ts” ,   P L o S   ON 1 0 (3 ):   e 0 1 1 8 4 3 2 .   d o i : 1 0 . 1 3 7 1 /j o u rn a l. p o n e . 0 1 1 8 4 3 2   [1 5 ]   L u sa   L ,   Bla g u R,   T h e   c la ss - imb a l a n c e   p r o b lem   f o h i g h - d ime n s io n a c l a ss   p re d ictio n ,   i n   2 0 1 2   1 1 th   I n tern a ti o n a l   Co n f e re n c e   o n   M a c h i n e   L e a rn in g   a n d   A p p li c a ti o n s;  2 0 1 2 .   [1 6 ]   He m p sta lk   K,  F ra n k   E,   W it ten   IH,   On e - c las Clas sif ic a ti o n   b y   Co m b in in g   De n sity   a n d   Cl a ss   P ro b a b il it y   Esti m a ti o n ,   M a c h in e   L e a rn in g   a n d   K n o w led g e   Disc o v e r y   in   Da ta b a se s,   2 0 0 8 5 2 1 1 :   5 0 5 - 5 1 9 .   [1 7 ]   T a n   P n ,   S tei n b a c h   M ,   K u m a V .   I n tro d u c ti o n   to   Da ta M i n i n g P e a rso n   P u b l ica ti o n 2 0 1 4 .   [1 8 ]   Jo sh M V ,   A g a r w a RC,  Ku m a V ,   M in in g   Ne e d les   in   a   Ha y st a c k Cla ss if y in g   Ra re   Cl a ss e v ia   T wo - Ph a se   Ru le  In d u c ti o n , i n   t h e   2 0 0 1   A CM   S I G M OD   in tern a ti o n a c o n f e re n c e   o n   M a n a g e m e n o f   d a ta;  2 0 0 1 ;   Ne w   Yo rk ,   US A .   [1 9 ]   Jo sh M V,  A g a r w a RC,  Ku m a V ,   Pre d icti n g   Ra re   Cl a ss e s:  Ca n   B o o sti n g   M a k e   An y   W e a k   L e a r n e S tro n g ?” ,   i th e   e ig h th   A CM   S IG KD in tern a ti o n a c o n f e re n c e   o n   Kn o w led g e   d isc o v e r y   a n d   d a ta  m in in g 2 0 0 2 Ne w   Yo rk   ,   USA .   [2 0 ]   Jo sh M V ,   Ku m a V ,   CRE DO S Cla ss if ica ti o n   u si n g   R ip p le  d o wn   S tru c t u re   [ Ca se   fo Ra re   Cla ss e s ] In   t h e   2 0 0 4   S IA M   In tern a ti o n a Co n f e re n c e   o n   Da ta M in i n g 2 0 0 4 F l o ri d a ,   USA .   [2 1 ]   Ditt m a n   DJ ,   Kh o sh g o f taa T M ,   Ra n d a ll W a ld   ,   Na p o li tan o   A ,   Co m p a riso n   o f   Da ta  S a m p li n g   A p p ro a c h e f o r   Im b a lan c e d   Bio in f o rm a ti c Da ta ,   In   th e   T w e n t y - S e v e n th   I n t e r n a ti o n a F l o ri d a   A rti f icia In telli g e n c e   Re se a r c h   S o c iety   Co n f e re n c e 2 0 1 4 F lo r id a .   [2 2 ]   Blag u s   R,   L u sa   L ,   S M OT f o h ig h - d im e n sio n a c las s - im b a lan c e d   d a ta” ,   BM Bi o in f o rm a ti c s,   2 0 1 3 1 4 : 1 0 6 .   [ 2 3 ]   Da v is  J,  G o a d rich   M ,   T h e   Re latio n sh ip   b e tw e e n   P re c isi o n - Re c a ll   a n d   ROC   Cu rv e s” ,   In   2 7   rd   In tern a ti o n a Co n f e re n c e   o n   M a c h i n e   L e a rn in g 2 0 0 6 P it tsb u rg h ,   USA .   [2 4 ]   Ja n e z   De m sa r,   S tatisti c a Co m p a riso n o f   Clas sif iers   o v e M u lt ip le  Da ta  S e ts” ,   J o u rn a o M a c h in e   L e a rn i n g   Res e a rc h ,   2 0 0 6 7 :   1 - 30.   [2 5]   F ra n k   E,   Ha ll   M A ,   W it ten   IH,  T h e   W EK A   W o rk b e n c h .   On li n e   A p p e n d ix   f o " Da ta  M in in g P r a c ti c a M a c h in e   L e a rn in g   T o o ls  a n d   T e c h n iq u e s” ,   M o rg a n   Ka u fm a n n ;   2 0 1 6   [ c it e d   2 0 1 6   M a y   0 1 ,   Av a il a b le  f ro m :   h tt p : // ww w . c s. w a ik a to . a c . n z /m l/ w e k a /.         Evaluation Warning : The document was created with Spire.PDF for Python.