I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   14 ,   N o .   3 J u n e   20 1 9 ,   pp .   1560 ~ 1571   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 4 .i 3 . pp156 0 - 1571             1560       Jou r n al   h o m e pa ge ht t p: / / i ae s c or e . c om / j our na l s / i nde x . php/ i j e e c s   Im b a l a n c e   c l a ss p r o b l e m s i n   d a t a   m i n i n g :   a   r e v i e w       H as e e b   A l i 1 ,   M o h d   N aji b   M o h d   S al l e h 2 ,   R o h m at  S ae d u d i n 3 ,   K as h i f   H u s s ai n 4   M u h amm ad   F ah e e m   M u s h taq 5   1 , 2 , 4 , 5 F a c ul t y   of   C o m put e r   S c i e nc e   a nd   I nf o r m a t i o T e c hno l o gy ,   U ni v e r s i t i   T u H u s s e i n   O nn   M a l a y s i a ,     P a r i t   R a j a ,   86 400 ,   J o ho r ,   M a l a y s i a   3 D e pa r t m e n t   o f   I ndus t r i a   E ng i n e e r i ng ,   T e l ko m   U n i v e r s i t y ,   B a n dung ,   I ndo ne s i a       A r ti c l e   I n fo     A B S TR A C T     Ar t i c l e   h i s t or y :   R e c e i v e D e c   1 5 ,   2018   R e v i s e F e b   14,   201 9   A c c e pt e F e b   27,   201 9       T he   i m ba l a nc e d   da t a   pr o bl e m s   i da t a   m i ni ng   a r e   c o m m o no w a da y s ,   w hi c o c c ur   due   t o   s ke w e na t ur e   o f   da t a .   T h e s e   p r o bl e m s   i m pa c t   t h e   c l a s s i f i c a t i o n   pr o c e s s   ne g a t i v e l y   i m a c hi ne   l e a r ni ng   p r o c e s s .   I s uc pr o bl e m s ,   c l a s s e s   ha v e   di f f e r e n t   r a t i o s   o f   s pe c i m e ns   i w hi c a   l a r g e   num be r   o f   s pe c i m e n s   be l o ng   t o   o ne   c l a s s   a nd  t he   o t h e r   c l a s s   ha s   f e w e r   s p e c i m e n s   t h a t   i s   us ua l l y   a e s s e nt i a l   c l a s s ,   bu t   unf o r t u na t e l y   m i s c l a s s i f i e by   m a n y   c l a s s i f i e r s .   S o   f a r ,   s i g ni f i c a n t   r e s e a r c i s   pe r f o r m e t o   a ddr e s s   t he   i m ba l a nc e d a t a   pr o bl e m s   by   i m pl e m e n t i ng   d i f f e r e n t   t e c hni que s   a n a p pr o a c he s .   I t hi s   r e s e a r c h,     a   c o m pr e he ns i v e   s u r v e y   i s   pe r f o r m e t o   i de n t i f y   t he   c ha l l e ng e s   o f   ha nd l i ng   i m ba l a nc e c l a s s   pr o bl e m s   dur i ng   c l a s s i f i c a t i o pr o c e s s   us i ng   m a c hi ne   l e a r n i ng   a l g o r i t hm s .   W e   d i s c us s   t he   i s s ue s   o f   c l a s s i f i e r s   w hi c e n do r s e   b i a s   f o r   m a j o r i t y   c l a s s   a nd  i g no r e   t he   m i no r i t y   c l a s s .   F u r t h e r m o r e ,   t he   v i a b l e   s o l ut i o ns   a nd   po t e n t i a l   f ut ur e   d i r e c t i o ns   a r e   p r o v i de t o   ha ndl e   t h e   pr o bl e m s .   Ke y w or ds :   Cl a s s i f i c a t i o n   Im b a l a n c e d a t a   M a c hi n e   l e a rni n g   M a j o r i t y   c l a s s   M i n o r i t y   c l a s s   C opy r i gh t   ©   201 9   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   M o h N a j i b   M o hd  S a l l e h,     F a c ul t y   of   Co m put e r   S c i e n c e   a n d   I n f o r m a t i o T e c hn o l o gy ,   U n i v e r s i t i   T u n   H us s e i O nn  M a l a y s i a ,   B a t p a h a t ,   J o h o r,   M a l a y s i a .   E m a i l :   n a j i b @ ut hm . e du. m y       1.   I N TR O D U C TI O N     A m o un t   o f   da t a   i s   i n c r e a s i n d a y   by   da y   a l o n w i t h   d i s pa r a t e   di s t r i b ut i o n s   i n   m a n y   r e a l   t i m e   a ppl i c a t i o n s .   I n   a   d a t a s e t ,   i f   qua n t i t y   of   s pe c i m e n s   p r e s e nt   i n   o n e   c l a s s e s   i s   m o r e   t ha n   o t h e c l a s s ,   t h e n   t h i s   da t a s e t   i s   s a i t o   b e   h i g hl y   di s pa r a t e   i n   na t u r e   [1] ,   [ 2] .   T h e   m a j o r   c l a s s   i s   us e t o   i de n t i fy   t h e   a n y   i m b a l a n c e   da t a s e t   t h a t   h a v e   m o r e   n u m b e r   o f   s pe c i m e n s ,   w h e r e a s   t h e   m i n o r   c l a s s   c o n t a i n s   l e s s   n um b e r   o f   s pe c i m e n s   [1] O f t e n l y ,   m a j o r   c l a s s   e xpr e s s e s   t h e   s pe c i m e n s   a s   n e ga t i v e   a n d   m i n o r   c l a s s   e xp r e s s e s   t h e   s pe c i m e n s   a s   po s i t i v e   [3],   [4] .   T h e   a m o u n t   o f   m a j o r i t y   c l a s s   s pe c i m e n s   do m i na t e s   t h e   m i n o ri t y   c l a s s   s pe c i m e n s   by   t h e   c l a s s ’s   ra t i o s   w h i c h   c a b e   100  w i t h   a n 1 000  w i t h   1,   e t c .   T h e   d a t a s e t   ha v i n g   o n l y   t w o   c l a s s e s   i s   kn o w n   a s   b i n a r y   c l a s s ,   w h e r e a s   t h e   da t a s e t   c o n t a i ni n m o r e   t ha n   t w o   c l a s s e s   i s   kn o w n   a s   m ul t i - c l a s s ,   a n b o t h   t h e   b i n a r y   a n m u l t i - c l a s s   da t a s e t s   s uf f e r   f r o m   i m b a l a n c e   da t a   p r o b l e m s .   M a n y   r e a l - w o r l do m a i n s   i n c l ude   i m b a l a n c e   d a t a s e t   p r o b l e m s ,   l i ke   de t e c t i n g   u nr e l i a b l e   t e l e c o m m uni c a t i o n   c us t o m e r s ,   w o r pr o n u n c i a t i o n s   l e a rni ng,   m a r k i n o f   o i l   s pi l l s   i n   t h e   i m a ge s   o f   s a t e l l i t e   ra da r,   i n f o r m a t i o n   r e t ri e v a l ,   t e xt   c l a s s i f i c a t i o n ,   f i l t e r i n g   t a s ks ,   r e v e l a t i o o f   f a ke   t e l e ph o n e   c a l l s   a nd  m o s t   i m po rt a nt l y   t h e   m e d i c a l   di a g n o s i s .   [5] [7] .   In  s uc c i r c um s t a n c e s ,   m o s t l y   t h e   m a j o r i t y   c l a s s e s   b i a s   t h e   c l a s s i f i e r s   t o w a r ds   t h e m s e l v e s   a n t h e   c l a s s i f i e r   p r e s e nt s   t h e   r a t e s   o f   m i n o ri t y   c l a s s e s   c l a s s i f i c a t i o n   po o r l y ;   e ve n t ua l l y ,   a   c l a s s i f i e a d d r e s s e s   e n t i r e l y   a s   m a j o r i t y   c l a s s   a n d   i g n o r e s   t h e   m i n o r i t y   c l a s s .   T o   s o l ve   pr o b l e m s   a f f i l i a t e d   w i t t h e   c l a s s   i m b a l a n c e ,   v a r i o us   t e c hn i que s   ha v e   b e e n   pr o po s e i n   l i t e r a t u r e   [8] .   T h i s   i s   a   t h o ug h t - p r o v o ki n a n c ha l l e n gi n i r e s e a r c h   t o pi c s   n o w a da y s   [9] ,   w h e r e   m a n y   i s s u e s   a t   a   t i m e   n e e a t t e nt i o n   s uc h   a s   m ul t i pl e   c l a s s e s   pr o b l e m ,   b i n a r y   c l a s s   pr o b l e m ,   c o s t   of   m i s c l a s s i f i e c l a s s ,   c l a s s   o ve rl a pp i n g ,   i n s i g n i f i c a nt   di s j o i nt s ,   a n s i z e   o f   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im bal an c e   c l as s   pr ob l e m s   i n   dat m i ni n g:  a   r e v i e w ( H as e e A l i )   1561   i m b a l a n c e da t a s e t s .   P r o b l e m s   o f   t h e   b i n a r y   c l a s s e s   r e l a t e t o   i m b a l a n c e   da t a ,   r e c e i ve a t t e n t i o n ,   b ut   m ul t i - c l a s s   i m b a l a n c e   pr o b l e m s   h a v i n v a r i o us   t y pe s   of  i s s ue s   a r e   h a rdl y   s o l v e d.   In   w h i c h   t h e   n u m b e r   of   m a j o r i t y   a n m i n o ri t y   c l a s s e s   c a n   b e   o n e   o r   m o r e   t h a o n e   i n   t h e   m u l t i p l e   c l a s s   i m b a l a n c e   p r o b l e m s .   D e c o m po s i t i o n   o r   a n y   o t h e t e c hn i que s   m i g ht   b e   us e fo r   m u l t i - c l a s s   p r ob l e m ,   b ut   i t   s t i l l   n e e ds   c o n s i de r a t i o n .   H e n c e ,   w h e n e v e r   t h e   d a t a   w i l l   b e   di s pa r a t e   i n a t u r e ,   i t   w i l l   b e   s e r i o us l y   m o r e   da r i ng  t o   p r o c e e w i t t h e   m i n o r i t y   c l a s s   [1] .   O w i n t o   t h e   i m po r t a n c e   o f   t h i s   i s s ue ,   t o   s o l v e   t h e s e   pr o b l e m s ,   t h e r e   a r e   s i g ni f i c a n t   c o nt r i b ut i o n s   m a de   i de v e l o pi n t e c hni que s .   T h e s e   pr o po s i t i o n s   c a n   b e   c a t e go r i z e i n t o   t hr e e   t y pe s   a c c o r di n t o   h o w   t h e y   a r e   pr o c e e di n w i t h   c l a s s   i m b a l a n c e ,   e xt e rn a l   o r   da t a   l e v e l   a pp r o a c h,   w h i c h   i s   pr e p r o c e s s i n of   da t a   fo r   r e b a l a n c i ng  t h e   c l a s s   di s t r i b ut i o n s   t o   de c r e a s e   t h e   di s pa ra t e   di s t ri b ut i o n   e f fe c t   i n   c l a s s i f i c a t i o n   p r o c e s s     [11] ,   [2] .   T h e   i n t e rn a l   o a l go r i t hm i c   l e v e l   a pp r o a c c r e a t e s   o r   m o di f i e s   t h e   e xi s t i n g   a l go r i t hm s   a nd  t a ke s   c o n s e que n c e s   of   m i n o r   c l a s s   i n t o   c o n s i de ra t i o n   [12] [14 ] .   A n t h e   t hi r o n e ,   c o s t - s e n s i t i v e   a ppr o a c h ,     t h a t   m a y   uni t e   d a t a   l e v e l   a n d   a l go ri t hm i c   l e v e l   a pp r o a c h e s   t o   i n t e g r a t e   v a r i e t y   of   m i s c l a s s i f i c a t i o c o s t   f o r   e ve r y   c l a s s   i l e a rni n g   p ha s e   [15] ,   [16] .   In  e xt e rna l   o r   d a t a   l e v e l ,   b e fo r e   t h e   c l a s s i f i c a t i o n   p r o c e s s ,   r e s a m pl i n i s   pe r f o r m e i n   d a t a s e t s   t o   b a l a n c e   t h e   da t a   e xt e rna l l y .   F o r   e xa m pl e ,   t h e   s pe c i m e n s   of   m a j o r i t y   c l a s s   a r e   r a ndo m l y   r e m o v e d,   a nd  s pe c i m e n s   of   m i n o r i t y   c l a s s   a r e   i n c r e a s e by   g e n e ra t i ng  a rt i f i c i a l   s pe c i m e n s   t o   b a l a n c e   t h e   ra t i o ,   o r   i n   i de a l   c a s e ,   n o   s pe c i m e n   i s   c r e a t e o r   de l e t e b ut   c h o i c e   of   s pe c i m e n s   t o   c r e a t e   o r   e l i m i n a t e   i s   i n f o r m e [10]   In   a l go r i t h m i c   a pp r o a c h ,   m i n o r i t y   c l a s s   i s   t a ke n   i nt o   c o n s i d e r a t i o n   a n t h e   l e a rn e r   i s   n o t   a l l o w e t o   b i a s   fo r   t h e   m a j o ri t y   c l a s s   t o   o ve r c o m e   t h e   o ve r a l l   c o s t   of   m i s c l a s s i f i c a t i o n   [1 7] .   I n   c o s t - s e n s i t i v e   m e t h o d,     w e   c o n s i de r   a l l   t y pe s   of   c o s t s ,   a n m o s t l y   f oc us   o n   m i s c l a s s i f i c a t i o c o s t   t o   m i n i m i z e   t h e   t o t a l   c o s t   i n   o r de r   t o   m a ke   c l a s s i f i e n o n b i a s e [18] .   N um e r o us   s u r v e y   a n d   r e v i e w   pa pe r s   o n   i m b a l a n c e d a t a   p r o b l e m s   w e r e   pub l i s h e du ri n g   l a s t   de c a de .   R e ga r dl e s s   o f   r e a s o n a b l e   w o r a v a i l a b l e   o n   ha n d l i n t h e   i m b a l a n c e da t a   s e t   p r o b l e m s ,   t hi s   r e s e a r c h   s t udy   e s pe c i a l l y   foc us e s   m o r e   de e s ur v e y   of   c l a s s   i m b a l a n c e   pr o b l e m s .   F o l l ow i n po i nt s   c a n   s um m a r i z e a s   t h e   m a i o b j e c t i ve s   of   t hi s   r e s e a r c h.   a)   T o   r e v i e w   t h e   e ff o r t s   m a de   o n   i m b a l a n c e da t a   t o   de t e r m i n e   h o w   m a n y   i de a s   a n s o l ut i o n s   a r e   pub l i s h e d   i t hi s   a r e a   o f   r e s e a r c h .   b)   T o   f o l l ow   t h e   r e s e a r c t r e n ds   i da t a   n o rm a l i z a t i o a n di s t i n g ui s h i ng  t h e   c o n s e que n c e s   o f   t h i s   a r e a .   c)   T o   de t e rm i n e   t h e   h u rdl e s   a nd  di s t ra c t i o n s   r e s e a r c h e r s   f a c e b y   t h e   i n f l ue n c e s   o f   s ke w e da t a .   T h e   r e m a i n i ng  pa pe r   i s   o r g a n i z e a s   f o l l ow s :   R e s e a r c m e t h o do l o g y   i s   gi ve n   i n   S e c t i o 2.     S e c t i o n   b ri e f l y   de s c r i b e s   t h e   i s s ue s   o f   i m b a l a n c e d a t a   i c l a s s i f i c a t i o p r o b l e m s   a n pe r f o r m a n c e   m e t ri c s .   S e c t i o n   p r o v i de s   s o l ut i o n s   p r o po s e fo r   c l a s s   i m b a l a n c e   p r o b l e m s .   T h e   r e s e a r c h   g a ps   a r e   d i s c us s e i S e c t i o n   5.   F i na l l y ,   S e c t i o n   i n c l ude s   t h e   c o n c l us i o a n po t e n t i a l   f ut u r e   d i r e c t i o n s   i t hi s   a r e a   o f   r e s e a r c h.       2.   R ES EA C H   M ET H O D O L O G Y     T h e   s y s t e m a t i c   l i t e ra t u r e   r e v i e w   s e a r c h   c a n   b e   c o n duc t e i n t o   t w o   w a y s :   m a nua l   [19 ]   a n a u t o m a t i c   [20] .   F i r s t   s t r a t e gy   w a s   pr e fe rr e by   t h i s   s t udy   b e c a us e   t h e   s e c o n a pp r o a c h   s h o w s   s o m e   dr a w b a c ks   s i n c e   a ut o m a t i c   s e a r c e n g i n e s   w h i c h   a r e   c u rr e n t l y   a v a i l a b l e   a r e   n o t   f e a s i b l e   fo r   t h i s   k i n o f   s t ud y   [21]   T h e   m a nua l   s e a r c h   f r o m   t h e   m o s t   r e l e v a nt   s o ur c e s   a r e   c o m m o n l y   us e fo r   s e a r c h i n p r i m a r y   s t udi e s .     T h i s   s t udy   w a s   c o n duc t e i nt o   a   t w o - s t a ge   s e a r c h   p r o c e s s   b a s e o n   r e s e a r c h   m e t h o do l o g y   of   [22] ,   i n   o r de r   t o   c o m pi l e   r e l e v a n t   pa pe r s   pub l i s h e i n   l a s t   t w o   d e c a de s .   In   pri m a r y   s t a ge ,   s e v e n   l i b r a r y   da t a b a s e s :   S pr i n ge r ,   E l s e v i e r ,   I E E E xp l o r e ,   S a ge ,   A CM ,   C a m b ri dge   a nd  W i l e y ,   w e r e   e m pl oy e t o   s e a r c h   a n c o l l e c t   l i t e ra t u r e ,   w h i c h   c o v e r s   m o s t   n a t u r a l   s c i e n c e   a n s o c i a l   s c i e n c e   r e s e a r c h   f i e l ds .   T o   f urni s h   a   c o m pl e t e   s e t   of   s e a r c h   t e rm s   t o   c ov e r   a ppl i c a t i o n   a n t e c hni c a l   a r t i c l e s   o n   i m b a l a n c e da t a   a n ra r e   e ve n t s ,   a   t w o - l e ve l   ke y w o r ds   t r e e   i s   g i v e n   i F i gu r e   1 .     F i r s t   l e v e l   of   t h e   t r e e   w a s   l i m i t e t o   b a s i c s   of   s k e w e d/ i m b a l a n c e da t a ,   w h i c h   fo c us e o n   c l a s s   i m b a l a n c e   c l a s s i f i c a t i o n,   l e a rni n f r o m   i m b a l a n c e d a t a .   T he   s e c o n l e v e l   of   t r e e   s e a r c t e r m s   w e r e   di v i de i n t o   t w o   n o de s   t o   t a ke ove r   b o t h   p r a c t i c a l   a n t e c hni c a l   a r t i c l e s .   K e y w o r ds   fo r   t e c hni que s   a n d   a pp r o a c h e s   f o r   t h e   c l a s s   i m b a l a n c e   c l a s s i f i c a t i o n   i n   d a t a   m i n i ng,   ke y w or ds   f o r   a pp l i c a t i o n s   f o r   ra r e   e v e n t s   l i ke   f r a ud   de t e c t i o n ,   c a n c e r   m e di c a l   di a g n o s i s ,   c ha l l e n ge s   a n t h e i s o l ut i o n s .   T h e   p ri m a r y   s e a r c y i e l de 550  pa pe r s   o n   i m b a l a n c e da t a   do m a i n s ,   w h i c h   w e r e   dow n l o a de a n a ga i n   f i l t e r e fo r   n e xt   s t a ge .   A f t e r   m a n ua l   r e v i e w   of  pa pe a l m o s t   400  pa pe r s   w e r e   f o un t o   b e   r e l e v a n t   o f   t h i s   s t udy .   I n   s e c o n s t a ge   o f   s e a r c r e l e v a n t   c r o s s   r e f e r e n c e s ,   t hr o ug h   go o gl e   s c h o l a r ,   t h e s e   pa pe r s   a r e   a l s o   i nc l ude i n   t hi s   s e a r c r e v i e w .   A f t e r   s e c o n s t a ge   t h e s e s   pa pe r s   a l s o   a dde i n t o   t hi s   r e v i e w   a n d   t o t a l   o f   440  pa p e r s   a r e   i n c l u de i nt o   t hi s   s t u dy .         Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1 5 6 0     1 5 7 1   1562       F i gu r e   1 .   T w o   l e v e l   ke y w o r ds   t r e e   f o r   r e s e a r c m e t h o do l o g y       3.   I S S U ES   A N D   P ER F O R M A N C P A R A M E TER S   I N   I M B A LA N C ED   D A TA   P R O BLE M S   T h e   c l a s s   i m b a l a n c e   pr o b l e m s   e ve n t ua t e   due   t o   t h e   p r e s e n c e   of   m i n o r   c l a s s   i n   d a t a ,   a n o c l a s s i f i c a t i o n,   t h e   c l a s s i f i e r s   s h o w   b i a s   b e h a v i o r   t o w a r ds   t h e   m a j o r i t y   c l a s s .   F o r   i n s t a n c e ,   i a   m a j o r i t y   c l a s s   w e   h a v e   99%  s pe c i m e n s   a nd  j us t   1%   s pe c i m e n s   i n   m i no r i t y   c l a s s ,   a n t h e n   a c c u r a c y   a t t a i n e d   by   t h e   c l a s s i f i c a t i o a l go r i t hm   i s   99% ,   t ha t   i s   f r o m   t h e   m a j o r i t y   c l a s s .   W h e r e a s ,   t h e   m i n o r i t y   c l a s s   i s   do m i na t e by   m a j o r i t y   c l a s s   a n t h a t   1%  c o ul b e   s o m e   i m po r t a n t   s a m p l e s .   F o r   e xa m pl e ,   c a t c h i n o f   c a n c e r o us   c e l l s   i n   m e di c a l   di a g n o s i s ,   m i s c l a s s i f i c a t i o n   o n o n - c a n c e r o us   c e l l s   m a y   pr e s c r i b e   m o r e   c l i n i c a l   t e s t s ,   b ut   i f   de fe c t e d   c e l l s   of   c a n c e r   w i l l   b e   m i s c l a s s i f i e t h e n   i t   po s e s   a   ve r y   s e r i o us   h e a l t h   r i s k .   H e n c e ,   i n   u n b a l a n c e da t a   c l a s s i f i c a t i o n,   due   t o   t h e   de s i g n   p r i n c i p l e s   o f   a l go r i t hm s ,   t h e   m a j o r i t y   c l a s s   s pe c i m e n s   a r e   n o t   o r   l e s s   m i s c l a s s i f i e d.   S ub s e que n t l y ,   t h e   a l l - a r o un d   a c c ura c y   of   c l a s s i f i c a t i o n   i n   m a c h i n e   l e a rni n g   a l go r i t hm s   m o s t l y   m i s c l a s s i f i e s   m i n o ri t y   c l a s s   w h i c h   w i l l   r e s ul t   i nt o   m o r e   m i s c l a s s i f i c a t i o c o s t ,   t i m e   a n d   r i s k   e v a l ua t i o [2 3] .   R a r e n e s s   c o m e s   i n   t h e   r e s ul t   o f   e r ri n na t u r e   o f   s m a l l   di s j o i n t s .   S o ,   w h y   r a r e n e s s   i s   a   pr o b l e m ,     c a n   b e   un de r s t o o by   kn ow i n t h e   r e a s o n s   w h y   s m a l l   di s j o i nt s   a r e   s o   e r r o r   di s po s e d.   O n e   r e a s o n   i s   t h a t   s m a l l   di v i s i o n s   o r   d i s j o i n t s   m a y   n o t   s h o w   t h e   r a r e   o r   a n o m a l o us   c a s e s ,   y e t   r e l a t i v e l y   s o m e t h i ng  e l s e   l i ke   n o i s y   da t a .   T h e r e f o r e ,   i t   s h o ul ke e o n l y   m e a n i ngf ul   s m a l l   d i v i s i o n s .   F o r   r e m o v i n s ub - i de a s   (i . e . ,   di s j o i nt s t ha t   a r e   n o t   m e a ni n gf ul ,   m o s t l y   c l a s s i f i e r   i n duc t i o n   s y s t e m s   h a v e   s om e   w a y s   of   a vo i di n o v e r   f i t t i ng.   I nduc t i v e   b i a s   i n   ra r e   c l a s s e s   a l s o   pe r f o r m s   a   r o l e .   S o ,   i t h e   p r e s e n c e   o f   un c e rt a i nt y   (o r   b i a s i n g   t o w a r ds   p r i o r s   c l a s s ),     m a n y   i nduc t i o s y s t e m s   l e a n   t o   f a v o r   m o r e   c o m m o c l a s s e s   [17] .   D i s t i ngui s hi n b e t w e e n   t w o   c o m p o n e nt s   o t h e   i m b a l a n c e d a t a s e t s   i s   a   m a j o r   i s s ue   o f   i m b a l a n c e d a t a s e t s   p r o b l e m s :     (IR t h e   i m b a l a n c e   a s   t h e   r a t i o   o f   m a j o r i t y f n u m b e r m i n o r i t y of n u m b e r   o           (L I)  T h e   l a c k   o f   i n f o r m a t i o n   f o r   t h e   m i n o ri t y   c l a s s .   Bo t h   c o m po n e n t s   e xi s t   i n   i m b a l a n c e da t a s e t s   l e a rn i n p rob l e m s ,   b ut   a s   m e n t i o n e b e f o r e ,   o t h e f a c t o r s   s uc h   a s   o v e r l a p pi n g ,   o v e r   f i t t i n g ,   s m a l l   d i s j o i n t s   a nd  s i z e   o f   da t a s e t s   a l s o   a f fe c t   a   s pe c i f i c   m a c hi n e   l e a rn i ng  a l go r i t hm .   A l l   a l go r i t h m s   s uf f e r   f r o m   t h e   l a c o f   i n f o r m a t i o n   (w h i c h   c a nn o t   b e   l e a rn e d)   b ut   i t   i s   i m po rt a nt   t o   c o n c l ude   t h e   o n e s   w hi c do   n o t   s uf f e r   f r o m   i m b a l a n c e   da t a   r a t i o .   F o r   e xa m pl e ,   a   d a t a s e t   c o n t a i ni n 1: 9 ra t i o   fo r   m i n o r i t y : m a j o r i t y   s p e c i m e n s   r e s pe c t i v e l y ,   IR   i s   s a m e   fo r   ra t i o   10: 990 ,   b ut   m i n o ri t y   c l a s s   i s   l o w   e s t e e m e due   t o   p oo r   r e p r e s e n t a t i o n   i f i r s t   da t a s e t   a n s us t a i f r o m   L l a c o f   i n f o r m a t i o n   t h a t h e   s e c o n da t a s e t   [24] .   F o r   pe r f o r m a n c e   e v a l ua t i o n,   m o s t   i m po rt a nt   c o n s i de ra t i o i s   t c h oo s e   a ppr o p r i a t e   pe r f o r m a n c e   m e t r i c s   fo r   a n a l y s i s .   T o   c a l c ul a t e   t h e   a c c ura c y   r a t e ,   w e   c o m m o n l y   us e   c o n f us i o n   m e t r i c s .   B ut ,   i t   s h o w s   s o m e   f l a w s   i n   r e s ul t s   l i ke   i t   n e g l e c t s   t h e   m i n o ri t y   c l a s s   d a t a   a n i t   j us t   l ow e r e t h e   gl o b a l   m e a s u r e s   t o   gi v e   t h e   be s t   r e s ul t   l i ke   a s   l o w   e r r o r   ra t e   [25] .   A   v e r y   a ppl i c a b l e   v i s ua l   t oo l ,   R e c e i v e r   O pe r a t i n C ha r a c t e r i s t i c   (R O C)   c ur v e   de m o n s t ra t e s   t h e   di a g n o s t i c   a b i l i t y   of   a   l e a rni n c l a s s i f i c a t i o n   s y s t e m   a s   i t s   pe r c e pt i o n   t hr e s h o l i s   di v e r s e ,   i t   i nt e r p r e t   t h e   t ra de - o ff   b e t w e e n   t h e   c o s t s   ( F al s e   P os i t i v e   r at e a n b e n e f i t s   ( T r ue   P os i t i v e   r at e [ 29] .   F o r   e v a l u a t i o n   o f   m o d e l s   o n   a v e r a ge ,   t h e   A r e a   U n de r   a R O c ur v e   (A U C)  gi v e s   a   m e a s ur e   pe r f o r m a n c e   o f   s i n gl e   c l a s s i f i e r   [27 ] .   T h e r e   a r e   a l s o   m a n y   o t h e r   m e t r i c s   us e d   f o r   pe r f o r m a n c e   e v a l ua t i o n,   s o m e   f a m o us   a n c o m m o nl y   us e a r e   G e o m e t r i c - m e a n   (G - m e a n ) ,   F - m e a s u r e   (F m ) ,   s e n s i t i v i t y ,     a n s pe c i f i c i t y   [25],   [ 28] .         Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im bal an c e   c l as s   pr ob l e m s   i n   dat m i ni n g:  a   r e v i e w ( H as e e A l i )   1563   4.   S O LU TI O N S   P R O P O S ED   F O R   C LA S S   I M B A LA N C E   P R O B L EM S   O w i n t o   t h e   i m po rt a n c e   o f   c l a s s   i m b a l a n c e   p r o b l e m s ,   t he r e   i s   s i g ni f i c a n t   c o n t ri b ut i o n   m a de   i de ve l o pi n t e c hni que s   t o   s o l ve   t h e s e   pr ob l e m s .   T h e s e   pr o pos i t i o n s   c a n   b e   c a t e go r i z e i n t o   t hr e e   t y p e s   a c c o r di n t o   h o w   t h e y   a r e   pr o c e e di n w i t h   c l a s s   i m b a l a nc e ,   e xt e r na l   o r   d a t a   l e v e l   a ppr o a c h ,   i nt e rn a l   o r   a l go ri t hm i c   l e v e l   a ppr o a c h   a nd  c o s t - s e n s i t i v e   a pp r o a c h .   M o re ove r ,   e n s e m b l e   l e a rn i ng  c l a s s i f i e r s   a r e   a l s o   pl a y   a   s i g ni f i c a n t   r o l e   i i m b a l a n c e da t a   c l a s s i f i c a t i o n .     4. 1 .       Ex te r n al ,   D a ta   Le v e l   ( P r e p r o c e s s i n g )   A p p r o ac h   R e s a m pl i n t e c hni que s   a r e   us e fo r   pr e p r o c e s s i n o f   i m b a l a n c e da t a   t h a t   c a n   b e   di s t r i b ut e i nt t hr e e   t y pe s ;   r a ndo m   u n de r - s a m pl i n m e t h o t h a t   e l i m i na t e s   s pe c i m e n s   o f   m a j o r i t y   c l a s s   r a ndo m l y   a n d   ge n e ra t e s   a   s ub s e t   of   pri m a r y   da t a s e t   i a   w a y   t o   b a l a n c e   t h e   ra t i o .   It   m a y   l e a t o   t h e   l o s s   of   po t e n t i a l   da t a   due   t o   e l i m i na t i n s o m e   da t a   t ha t   c a n   b e   us e d   i n   i n d u c t i o n   p r o c e s s .   R a n do m   o ve r - s a m p l i ng  m e t h o d,     i t   i n c r e a s e s   t h e   qu a n t i t y   of   s pe c i m e n s   i m i n o ri t y   c l a s s   by   re pl i c a t i ng  t h e   e xi s t i n g   s pe c i m e n s   ra n do m l y   a n ge n e ra t e s   a   s upe r s e t   o f   t h e   pr i m a r y   da t a .   B ut ,   i t   c a n   e nha n c e   t h e   c h a n c e s   of   ove r   f i t t i n due   t o   r e pl i c a t i o n .   A n d   l a s t l y ,   h y b r i d   t e c hni que ,   i t   u ni t e s   b o t s a m pl i n g   m e t h o d s   t o   b a l a n c e   t h e   r a t i o   [29] .   S y n t h e t i c   m i n o r i t y   ov e r   s a m pl i n t e c hn i q ue   (S M O T E [10 ] ,   i n   m i n o ri t y   c l a s s ,   n e w   s pe c i m e n s   a r e   c r e a t e by   i n t e r po l a t i o n   o f   m i n o r i t y   c l a s s   s pe c i m e n s   w h i c h   re s i de   t o ge t h e r .   S M O T E   s e l e c t s   ra n do m l y   o n e   o t h e   k - n e a r e s t   n e i g h b o r s   (kN N of   a n   i n f e r i o r   s pe c i m e n s   a nd  c r e a t e s   a   dupl i c a t e   s pe c i m e n   ge n e ra t i n v a l ue   f r o m   a   ra n do m   b o t h   i nt e r po l a t e s pe c i m e n s .   D e c i s i o n   b ounda ri e s   ha v e   be e n   m a de   f o r   m i n o ri t y   c l a s s   t di s pe r s e   m o r e   i nt o   t h e   s p a c e   of   m a j o r i t y   c l a s s .   H e r e by ,   t hi s   m e t h o a v o i ds   t h e   o v e r   f i t t i ng  p r o b l e m   b ut   i t   c r e a t e s   n o i s y   a n b o r de rl i n e   s pe c i m e n s   t h a t   m a y   c r e a t e   pr o b l e m s .   F o r   s uc h   pr o b l e m s   f a c e i n   S M O T E ,     s o m e   of   t h e   f i l t e r i ng  b a s e m e t h o ds   a r e   us e t o   a vo i n o i s e   i n   i m b a l a n c e da t a s e t s   (i . e .   S M O T E - T L   a n S M O T E - E L )   o n   t h e   o t h e r   ha n d,   f o r   h a ndl i n t h e   i m b a l a nc e da t a ,   o r i g i n a l   s a m p l i n g   t e c hni que s   a r e   a l s m o di f i e w i t n e i g h b o rh o o d - b a l a n c e b a ggi ng  (N B B a g)  [3 0 ] .   M o di f i e d   s y n t h e t i c   m i n o ri t y   ov e r s a m pl i n t e c hni que   (M S M O T E [31]   i s   a n   i m p r o v e fo r m   of  S M O T E .   By   c a l c ul a t i o n   o f   di s t a n c e s   b e t w e e n   a l l   s pe c i m e n s   i n   t hi s   a l go r i t hm ,   m i n o ri t y   c l a s s   i s   di v i de i n t t hr e e   gr o ups ,   l a t e n t   n o i s e ,   s a f e ,   a nd  b o r de s pe c i m e n s .   I t   r e j e c t s   t h e   h i dde n o i s e   s po t s   b a s e o n   kN N   c l a s s i f i c a t i o n   m e t h o w h e n   M S M O T E   ge n e r a t e s   n e w   e xa m pl e s .   H ow e v e r ,   i t   do e s   n o t hi n f o r   h i dde n   n o i s e   i n s t a n c e s ,   a l s o   d o e s   n o t   p ri o ri t i z e   t h e   i m po r t a n t   c h a ra c t e r i s t i c s .   E xt e n s i o o f   S M O T E   a nd  I t e r a t i v e P a rt i t i o n i n g   F i l t e (IP F i s   us e t o   h a n d l e   n o i s e s   a n r e gu l a t h e   c l a s s   b o un da ri e s   [32] .   M o di f i c a t i o n s   o S M O T E   go   f urt h e f o r   m o r e   po w e r f ul   da t a   l e v e l   t e c hn i q ue s ,   l i ke   e xt e n s i o o f   S M O T E ,   B 1 - S M O T E   a n d   B 2 - S M O T E   [32]   t o   n o rm a l i z e   t h e   i m b a l a n c e d a t a .   M a j o r i t y   w e i gh t e m i n o ri t y   ove r s a m pl i ng  t e c hn i q ue   (M W M O T E [ 33]   s e l e c t s   t h e   s pe c i m e n s   o m i n o ri t y   c l a s s   e ffe c t i v e l y   w h i c h   a r e   di f f i c ul t - to - l e a rn   a n t h e n   a l l o c a t e s   w e i gh t s   a pp r o p r i a t e l y .   M o r e ov e r ,     i t   i s   a b l e   t o   c r e a t e   a c c ur a t e   a r t i f i c i a l   e xa m pl e s .   S e l e c t i v e   pr e pr o c e s s i n o f   i m b a l a n c e da t a   (S P ID E R [34]   i s   a l s o   a   t e c hn i que   w h i c h ,   f r o m   m a j o r i t y   c l a s s ,   i t   m e r ge s   s c r e e n e c o m pl e e xa m pl e s   w i t h   l o c a l   o v e r s a m pl i n g   of   m i n o ri t y   c l a s s   by   c o i n c i di ng  t w o   ph a s e s ,   i de n t i f i c a t i o a n p r e p r o c e s s i n g.     A   n e w   i n v e r s e   r a n do m   u n de r - s a m p l i n (IR U S [35]   i s   us e t o   r e s o l v e   t h e   i m b a l a n c e da t a   p r o b l e m   by   us i n i n v e r s e   (ra t i o   of   un b a l a n c e   c a r di na l i t y a ppr o a c h.   I t   i s   a l s o   s i gni f i c a nt   f o r   m ul t i - l a b e l   c l a s s i f i c a t i o n.   In  [36] ,   f o r   h a ndl i n t h e   p r o b l e m s   of   i m b a l a n c e da t a s e t s ,   ra di a l   b a s i s   f un c t i o n   n e t w o r (R B F N i s   pr o po s e d   i n   w h i c s t r a t e gy   of   t ra i ni n g   l o c a l   w e i ght s   i s   us e d,   w hi c i s   d e s i gn e by   us i ng  l o c a l   a n d   gl o b a l   t e rm s .   I l o c a l   w e i ght s   t r a i n i ng  m e t h o ds ,   l e s s e n e v a l ue   of  i m b a l a n c e   ra t i o   (IR s h o ul b e   b a l a n c e w i t h   a n y   t e c h ni que     (i . e .   S M O T E   o r   a n y   o t h e r )   a n d   t h e   m a j o r   v a l ue   o f   IR   gi v e s   be t t e r e s ul t s .   A ut h o r s   p r o po s e i [37]   a   c l a s s i f i e r   a l go r i t hm   w h i c i s   a   c o m b i n a t i o o f   pa rt i c l e   s w a rm   o pt i m i z a t i o n   (P S O a n S M O T E ,   w h e r e a s   i n c o rpo r a t i ng  l i k e   l o gi s t i c   r e g r e s s i o n   (L R ),   C5  de c i s i o n   t r e e   (C5)  m o de l ,   a n 1 - n e a r e s t   n e i g h b o r   s e a r c h   a n s o m e   f a m o us   c l a s s i f i e r s .   A c c ura c y   i n di c e s   a n G - m e a n   a r e   us e a s   pe r f o r m a n c e   m e t r i c s   f o r   t hi s   n e w   s e t   o f   c l a s s i f i e r s   fo r   j us t i f y i n i t s   e ff e c t i v e n e s s .   E xpe r i m e nt a l   r e s ul t s   s h o w   t h a t   P S O   +   S M O T E   +   C i s   a n   e f f i c i e n t   h y b r i a l go r i t hm   fo r   5 - y e a r   l a s t i ng n e s s   of   b r e a s t   c a n c e r   pa t i e n t s .   A n o t h e r   t e c hn i que   v e r y   p ow e r f ul   f o r   b i n a r y   c l a s s   i m b a l a n c e pr o b l e m s   i s   pr o po s e t h a t   i s   f us i o n   o P S O ,   S M O T E   a n a i de r a di a l   b a s i s   f un c t i o n   (R B F c l a s s i f i e r   i n   [38 ]   a n t e s t e by   di ff e r e n t   t y pe s   of   m e t r i c s   s h o w s   c o m b i n a t i o n   o f   S M O T E   +   P S O - RB F   pe r fo r m s   w e l l   o n   n o r m a l   i m b a l a n c e da t a s e t s ,   b ut   n o t   s a t i s f a c t o r y   fo r   t h e   h i g hl y   i m b a l a n c e da t a s e t s .   N e i g h b o r   W e i gh t e K - N e a r e s t   N e i gh b o r   (N W - K N N [39]   us e fo r   s a m b a t   o nl i n e   c l a s s i f i c a t i o a n d   t hi s   a l go ri t hm   i s   a b l e   t o   c l a s s i fy   i m b a l a n c e da t a   w i t h   o pt i m a l   v a l ue   of   n e i g h b o r   3 .   A l l   d a t a   l e v e l   t e c hni que s   a r e   s um m a ri z e i T a b l e   1   w i t p r o s   a nd  c o n s .     4. 2 .       I n t e r n a l   A l go r i th m i c   A p p r o ac h e s   Int e rna l   o r   a l go r i t hm i c   l e v e l   a ppr o a c h   m a y   c r e a t e   o r   m o di fy   t h e   e xi s t i n a l go ri t hm s   a n t a ke   c o n s e que n c e s   of  m i n o r   c l a s s   i n t o   c o n s i de r a t i o n   f o r   ha ndl i n t h e   i m b a l a n c e da t a .   D i f f e r e n t   t y pe s   o a l go ri t hm s   a r e   d i s c us s e b e l ow .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1 5 6 0     1 5 7 1   1564   4. 2 . 1.     V ar i an ts   o S u p p o r V e c to r   M ac h i n e   (S V M )     Cl a s s   i m b a l a n c e   p r o b l e m s   oc c ur   f r e que nt l y   i D N A   m i c ro a rr a y   da t a ,   due   t o   w h i c h   f o r e c a s t i n g   pe r f o r m a n c e   f o r   m i n o r i t y   c l a s s e s   b e c o m e s   poo r .   F u rt h e rm o r e ,   o t h e r   f e a t u r e s ,   s uc h   a s   hi g h - d i m e n s i o a nd  hi g h   n o i s e ,   s m a l l   s a m p l e ,   e t c . ,   a gg ra v a t e   t hi s   i s s ue .   A n t   c o l o n y   o pt i m i z a t i o n   (A CO s a m p l i ng  w a s   pr o po s e d   i n   [40] ,   t ha t   i s   a   n e w   un de r - s a m pl i ng  t e c hni que   b a s e o n   t he   A CO   i de a   f o r   ha n dl i n t h i s   p r o b l e m .   S uppo r t   v e c t o r   m a c h i n e   (S V M i s   a   c l a s s i f i c a t i o n   t e c hn i q ue   w h i c h   i s   ge n e r a l l y   us e fo r   t h e   i m b a l a n c e da t a .     D a t a   l e v e l   a pp r o a c h e s   w i t p r o s   a n d   c o n s   s h o w n   i s   T a b l e   1 .   S V M   a n i t s   v a ri a nt s   w i t h   t h e i r   p r o s   a n c o n s   s h o w n   i s   T a b l e   2.       T a b l e   1 .   D a t a   l e v e l   A pp r o a c h e s   w i t P r o s   a n d   Co n s   D a t a   l e v e l   M e t h o d s / A p p ro a c h e s   P ro s   Co n s     S y n t h e t i c   m i n o ri t y   o v e r s a m p l i n g   t e c h n i q u e   ( S M O T E [1 0 ]     In c re a s e   m i n o c l a s s   e x a m p l e s   t o   b a l a n c e     O v e f i t t i n g   N e i g h b o r h o o d - b a l a n c e d   b a g g i n g   (N B Ba g )   [3 0 ]   Be t t e r   t h a n   c u rr e n t   o v e r - s a m p l i n g   b a g g i n g   e x t e n s i o n   a n d   c o m p e t i t i v e   t o   ra n d o m l y   b a l a n c e   b a g g i n g .   Co s t l y   M o d i fi e d   S M O T E   (M S M O T E [3 1 ]   It   r e d u c e s   t h e   n o i s e .   D o e s   n o t   c o n s i d e t h e   p ri o ri t i e s   o i m p o r t a n t   fe a t u re s .   It e ra t i v e P a rt i t i o n i n g   F i l t e +   S M O T E   ( S M O T E - IP F [3 2 ]   A d d r e s s i n g   t h e   p r o b l e m   o b o r d e re d   a n d   n o i s e   e x a m p l e s   i n   u n b a l a n c e d   d a t a   s e t s .   S m a l l   s a m p l e   s i z e   M a j o r i t y   w e i g h t e d   m i n o ri t y   o v e r s a m p l i n g   t e c h n i q u e   (M W M O T E ),   [3 3 ]   A c c o r d i n g   t o   E u c l i d e a n   d i s t a n c e   i t   c r e a t e s   a rt i f i c i a l   i n fe ri o s a m p l e s .   M u l t i   c l a s s   i m b a l a n c e   p ro b l e m .   S e l e c t i v e   p r e p ro c e s s i n g   o f   i m b a l a n c e d   d a t a   (S P ID E R)  [3 4 ]   F i l t e r   d i ffi c u l t   e x a m p l e s .   Co m p l e x   N o v e l   i n v e r s e   ra n d o m   u n d e r - s a m p l i n g   (IR U S [3 5 ]   Im p ro v e   m u l t i - l a b e l   c l a s s i f i c a t i o n   a c c u ra c y ,   Be n e fi c i a l   fo i rr e g u l a r   l e a rn i n g   d a t a s e t s   s i z e s .   O t h e d i ffe r e n t   a p p l i c a t i o n s   t o   m u l t i - l a b e l   c l a s s i f i c a t i o n .   Ra d i a l   Ba s i s   F u n c t i o n   N e t w o rk s   (RB F N S M O T E   [3 6 ]   H i g h e t h e   IR   V a l u e   o d a t a s e t   t e n d s   t o   b e t t e r e s u l t .   M o r e   s t o ra g e   S p a c e .   S M O T E   +   P S O   +   C5   [3 7 ]   E s t i m a t e   5 - y e a l a s t i n g n e s s   o f   b r e a s t   c a n c e p a t i e n t s   It   c a n   i m p r o v e   f o o t h e r   c a n c e d a t a s e t s .   Co m b i n e d   S M O T E   a n d   P S O - b a s e d   RBF   c l a s s i f i e r s   (S M O T E + P S O - R BF )   [3 8 ]   Cre a t e   s y n t h e t i c   s p e c i m e n s   fo m i n o ri t y   c l a s s ,   a n d   RB F   g i v e   v e r y   g o o d   p e r f o r m a n c e .   M o r e   s t o ra g e   s p a c e .       T a b l e   2 .   S V M   a n d   i t s   V a ri a n t s   w i t T h e i r   P r o s   a nd  Co n s   A l g o ri t h m s / M e t h o d s / A p p r o a c h e s   P ro s   Co n s   A n t   c o l o n y   o p t i m i z a t i o n   ( A CO s a m p l i n g ,   S V M   [4 0 ]   T o   re s o l v e   i m b a l a n c e d   d a t a   c l a s s i f i c a t i o n   p r o b l e m   b y   A CO   a l g o r i t h m   b a s e d   s a m p l e   s e l e c t i o n   p ro c e s s .   E x c e s s i v e   Co m p u t a t i o n a l   a n d   s t o ra g e   c o s t .   M e g a - t r e n d   d i ff u s i o n   a n d   S u p p o rt   v e c t o m a c h i n e   (M T D - S V M [4 1 ]   E n h a n c e   t h e   n u m b e o f   s a m p l e s   i n   m i n o ri t y   c l a s s .   S y n t h e t i c   d a t a   g e n e ra t i o n   i s   c o s t l y ,   a n d   M T D   t e c h n i q u e   p e r f o r m s   b e t t e o n   s m a l l   s i z e d   d a t a s e t s .   A d j u s t e d   F - m e a s u re ,   S V M   w i t h   s u i t a b l e   k e rn e l   t ra n s fo r m a t i o n   [4 2 ]   It   m a n a g e s   t h e   c o s t   f u n c t i o n   a n d   i m b a l a n c e   d a t a   w i t h   k e r n e l   s c a l i n g .   E ffi c i e n t   e s t i m a t i o n   S t ra t e g y   fo r   p a ra m e t e r s   a n d   d i ffe r e n t   k e rn e l s .   P a ra l l e l   S e l e c t i v e   S a m p l i n g   ( P S S ),   c o m b i n e d   w i t h   S V M ,   ( P S S - S V M ).   [4 3 ]   A c c u ra t e   s t a t i s t i c a l   p re d i c t i o n s   a n d   l o w   c o m p u t a t i o n a l   c o m p l e x i t y   F o r   p a ra l l e l   a n d   d i s t ri b u t e d   c o m p u t i n g .   E n S V M   a n d   E n S V M +   w i t h   a d d i t i o n a l   r e - s a m p l i n g   m e t h o d   [4 4 ]   E ffe c t i v e   t h a n   n o r m a l   S V M   It   d o e s   n o t   d e t e r m i n e   t h e   v a l u e   o f   k   a u t o m a t i c a l l y .   P re p r o c e s s o r   S V M   w i t h   M L P ,   L R,   a n d   R F   i n t e l l i g e n t   a l g o r i t h m .   [4 5 ]   It   b a l a n c e   d a t a   i n   e ffe c t i v e   m a n n e a n d   i n c r e a s e   t h e   n u m b e r   o s a m p l e s   i n   m i n o ri t y   c l a s s.   N o t   s o   s i m p l e r   a n d   f a s t e r   S e c o n d - o r d e c o n e   p ro g ra m m i n g   w i t h   S V M   ( S O CP - S V M )   [4 6 ]   D u e   t o   S V M - L P   f o rm u l a t i o n   i t   g i v e s   Ro b u s t   a n d   i m p r o v e d   c l a s s i fi c a t i o n   p e r f o r m a n c e .   O n l y   d e s i g n e d   fo i m b a l a n c e d   d a t a .   N e a r - Ba y e s i a n   S u p p o rt   V e c t o M a c h i n e   (N B S V M )   [4 7 ]   It   m i n i m i z e s   t h e   m i s c l a s s i f i c a t i o n   c o s t   b y   m i n o r i t y   c l a s s .   P e r fo r m a n c e   m e t ri c s       Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im bal an c e   c l as s   pr ob l e m s   i n   dat m i ni n g:  a   r e v i e w ( H as e e A l i )   1565   T h e   n u m b e r   of   s p e c i m e n s   c a n   a l s o   b e   e n ha n c e i n   m i n o r i t y   c l a s s   by   us i n m e ga - t r e n di f f us i o n   (M T D m e t h o d.   S V M   a n K N N   a r e   e m pl oy e w i t h   m a c h i n e   l e a rni n m e t h o ds   fo r   c r e a t i n h y b r i M T D - K N N ,   M T D - S V M   a n p r e di c t i o n   m o de l s   i n   t h e   p r e di c t o r   s t a ge   [41] .   By   us i n t h e   c o s t   a na l y s i s ,   i t   i s   m a rke t h a t   t h i s   t e c hni que   M T D - S V M   i s   f i n e s t   m o de l   a s   c o m pa r e t o   R a n do m   F o r e s t ,   N a ï v e   B a y e s ,   a nd  K N N .     In   a n   i m b a l a n c e da t a s e t ,   m a j o r i t y   a n m i n o r i t y   pr o b l e m s   a r e   ha n dl e i n   [42] ,   i n   w hi c h   S V M   i s   i m p r o v e w i t h   t h e   ke rn e l   s c a l i ng  m e t h o d.   P a ra l l e l   s e l e c t i v e   s a m pl i ng  (P S S ),   c o m b i n e w i t h   t h e   S V M ,     PSS - SVM  [43]   c l a s s i f i c a t i o n   p r e s e n t e p r o m i s i ng  r e s ul t s   o n   b e n c h m a r d a t a s e t s ,   t ha t   i s   f a r   s upe ri o r   f r o m   s t a n d a r S V M   be c a us e   of  n o   c o n v e r ge n c e .   F o r   r e duc i n u n b a l a n c i n i n   l a r ge   da t a   s e t s ,   i t   i s   a b l e   t s e l e c t   da t a   f r o m   t h e   m a j o ri t y   c l a s s .   A ut h o r s   i [44]   c o m b i n e e n s e m b l e s   of   S V M s   w i t h   b o t h   u n de r - s a m pl i n a n o v e r - s a m pl i n t e c hn i que s   fo r   i m p r o v i n t h e   p r e di c t i o n   pe r f o r m a nc e .   Co m pr e h e n s i v e   e xpe r i m e nt s   s h o w e t h a t   t h i s   t e c hn i q ue   i s   b e t t e r   t h a i n d i v i dua l   S V M   a s   w e l l   a s   s e v e r a l   o t h e c l a s s i f i e r s .   T h e   r e s e a r c h   e xpe ri m e n t e o n   s e l e c t i ve   e n s e m b l e   E n S V M +   a n d   b a s e   m o de l   E n S V M   w i t a ddi t i o n a l   r e - s a m p l i n g   m e t h o ds .     M ul t i l a y e r   pe r c e pt r o n   (M L P ),   ra n do m   f o r e s t   (RF ),   l o gi s t i c   r e g r e s s i o n   (L R a n o t h e r   i n t e l l i ge n t   m a c h i n e   l e a rn i ng  a l go r i t hm s   r e s ul t s   a r e   m o r e   i m p r o v e by   t h e s e   a pp r o a c h e s   i w h i c h,   S V M   t r a i n e a s   t h e   pr e p r o c e s s o r   fo r   i m p r o v i n t h e   r e s ul t s   of   i n t e l l i ge nt   a l go r i t hm .   T w o   ph a s e s   h a v e   be e n   t a ke n   i n   b a l a n c i ng  a pp r o a c h;   i n   f i r s t   p ha s e ,   t h e   S V M   t u n e d   t h e   i m b a l a n c e da t a   t o   ge t   i m p r o v e b a l a n c e   da t a   a n d   t hi s   i m p r o v e d   da t a ,   w hi c h   i s   us e a s   t h e   i n p ut   i t h e   s e c o n pha s e   t o   M L P ,   R F   a n L R   [45] .   F u r t h e rm o r e ,   t h e s e   a l l   t e c hn i q ue s   a r e   s u m m a r i z e i n   T a b l e   2   w i t h   p r o s   a n d   c o n s .     4. 2 . 2     C l u s te r i n g   Cl us t e r i n g   i s   us e t o   s e pa ra t e   t h e   d a t a   i n t o   c l a s s e s ,   w h e r e a s   fo r   de t e c t i n t h e   m i n o ri t y   c l a s s   s a m pl e s   i n   d a t a ,   o ut l i e r   de t e c t i o n   i s   e m pl o y e d.   O n   t h e   b a s i s   o c l us t e ri n g   t e c hni que s   a nd  o ut l i e r s   de t e c t i o n,     t h e   s i m i l a r i t y   b a s e h i e r a r c ha l   de c o m po s i t i o n   m e t h o t a k e s   pl a c e .   It   c o n t a i n s   t w o   p o r t i o n s   i n   h i e ra r c h y   c o n s t r uc t i o n ;   o n e ,   i n   w hi c h   c l us t e r s   a r e   m i s c l a s s i f i e d,   a nd  s e c o n d,   c l us t e r s   a r e   pe r f e c t l y   c l a s s i f i e [48]   D a t a   s i m i l a r i t i e s   o f   l a b e l e s ub s e t s   a t   e v e r y   l e ve l   a r e   us e t o   m a ke   h i e r a r c h y   a nd  f e a t u r e   s ub s e t s   a s   w e l l   t b ui l o t h e r   d a t a   b a s e o n   t h e s e   di f f e r e n t   l e v e l s .   Cl a s s   o v e r l a ppi n a n v a ri e t y   of   i m b a l a n c e p r o b l e m s   c a n   b e   a v o i de by   t h i s   m e t h o d.   F uz z y   r ul e   b a s e c l a s s i f i c a t i o n   s y s t e m s   (F RB CS s [4 9]   a l s o   i m p r o v e t h e   c l a s s i f i c a t i o pe r f o r m a n c e .   F o r   ha n d l i ng  t h e   i m b a l a n c e da t a ,   t hi s   i s   a   us e f ul   t e c h n i que   w h e r e   l o w   a n h i g h   ra t i o   o i m b a l a n c e da t a s e t s   c a n   b e   t a ke n   by   t h i s   m e t h o by   us i n 2 - t upl e   ge n e t i c   t u n i ng  w h i c h   a l s o   e n ha n c e s   t h e   pe r f o r m a n c e   o f   F RB CS s .   S um m a r y   of   t hi s   m e t h o i s   gi v e i T a b l e   3.     4. 2 . 3.     F e atu r e   S e l e c t i o n   F o r   m a n y   m a c hi n e   l e a rni n a l go ri t hm s ,   f e a t u r e   s e l e c t i o n   i s   k n o w n   t o   b e   d oo r   s t e p,   i n   s uc h   s i t ua t i o n s   w h e n   t h e   da t a   i s   e xc e pt i o na l l y   h i g h - d i m e n s i o na l .   T h e   da t a   w hi c i s   d i s pa ra t e   i n   na t u r e   a n hi g h - di m e n s i o n a l   i n   l e a rni n g ,   f e a t ur e   s e l e c t i o n   m e t h o i s   s upe r i o r   t o   a c hi e v e   t h e   b e s t   pos s i b l e   r e s ul t s .   W h e n   de a l i n w i t h   s m a l l   f e a t ur e   s e t s ,   t h e   f un d a m e nt a l   po w e r   o f   F S   m e t r i c s   i s   n e ga t e d.   I ge n e ra l ,   m a i o bj e c t i v e   of   t h e   f e a t ur e   s e l e c t i o n   i s   t pe r m i t s   t h e   c l a s s i f i e r   f o r   a c h i e v i n b e s t   p e r f o r m a n c e   by   c h o os i n a   s ub s e t   o y   f e a t ur e s ;   h e r e   y   i s   a   us e r - s pe c i f i e d   pa r a m e t e r.   E a c h   f e a t u r e   i s   v a l ue i n de pe n de n t l y   b a s e d   o n   a   rul e   by   us i n f i l t e r s   f o r   h i g di m e n s i o na l   d a t a   s e t s   [ 50]   E xi s t i n g   f e a t ur e   s e l e c t i o m e a s u r e s   f o r   i m b a l a n c e d a t a s e t s   a r e   n o t   s ui t a b l e ,   s ugge s t e by   Z h e n g   e t   al  [51 ] .   A   f e a t u r e   s e l e c t i o n   f ra m e   w o r w a s   pr o po s e by   a ut h o r s ,   w h i c h   c h o o s e s   t h e   m a j o r i t y   a n m i n o r i t y   c l a s s e s   f e a t ur e s   s e pa r a t e l y   a n c o m b i n e s   t h e s e   fe a t ur e s   e xpl i c i t l y .   E xi s t i n m e a s u r e s   i n   t h i s   w a y   c a n   b e   s i m pl y   c o n v e r t e by   c o n s i de r i ng  t h e   f e a t ur e s   o m a j o r i t y   a nd  m i n o ri t y   c l a s s   i n di v i du a l l y .   T h i s   m e t h o i s   s f a r   s i m pl e   b ut   e ffe c t i ve   fo r   a l l   h i g h   di m e n s i o n a l   a n t h e   i m b a l a n c e da t a s e t s   h a v i n l i m i t e s a m pl e   s i z e   c l a s s e s   of   t h e   i m b a l a n c e d a t a s e t s .   T o   r e s o l v e   t h e   pr o b l e m s   i n   i m b a l a n c e   da t a s e t s   r e l a t e t o   fe a t u r e   s e l e c t i o n ,   t w o   di ffe r e n t   m e t h o ds   w e r e   pr o po s e by   a ut h o r s ,   D e c o m po s i t i o n - b a s e a n H e l l i n ge r   di s t a n c e - b a s e m e t h o ds .   F i r s t   m e t h o w a s   us e t o   t a c kl e   t h e   c o n f l i c t s   of   t h e   i m b a l a n c e c l a s s   di s t ri b ut i o n   b y   m e a s uri n t h e   di s t r i b ut i v e   di f fe r e n c e s .     In   s e c o n m e t h o d ,   h u ge   c l a s s e s   w e r e   i s o l a t e i n   s y n t h e t i c   s u b c l a s s e s   a n v a r i o us   t e c hni que s   w e r e   ut i l i z e f o r   c l a s s i f i c a t i o p r o c e s s   [52] .   S u m m a r y   i s   gi v e i T a b l e   3.     4. 2 . 4.     O n e   C l as s   Le ar n i n g   In   t h i s   m e t h o d,   t h e   a l go r i t hm   i de nt i f i e s   s uc h   s pe c i m e n s   w hi c h   c o rr e s po n t o   t h a t   pa rt i c ul a r   c l a s s   w h e r e a s   r e j e c t s   t h e   r e m a i n i ng.   I n   t hi s   w a y ,   i t   i s   h e l pf ul   f o r   i m b a l a n c e da t a   c l a s s i f i c a t i o n .   F o r   i n s t a n c e ,     fo r   m i n o ri t y   c l a s s ,   i t   fe t c h e s   t h e   s a m pl e s   s pe c i f i c a l l y   w h i c h   b e l o n t o   i t s   c l a s s ,   i gn o r e   t h e   o t h e r   s a m p l e s ,     a n do e s   s a m e   fo r   t h e   m a j o r i t y   c l a s s .   O n e   c l a s s   l e a rni n f o r   hi g h - di m e n s i o n a l   i m b a l a n c e da t a s e t s ,     gi v e s   b e t t e r   pe r f o r m a n c e   t h a o t h e r s   [50] .   F u r t h e rm o r e ,   t hi s   m e t h o i s   b a s e o n   t h e   r u l e s ,   t h e   s e pa ra t e   a nd  c o n que r   a p p r o a c h   i s   us e i n   r u l e   i n duc t i o n   s y s t e m   t o   b ui l i t e r a t i v e l y   r ul e s   a n c o ve r   t h e   e xa m p l e s   of  Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1 5 6 0     1 5 7 1   1566   pr e v i o us   un c o ve r e t ra i ni n e xa m p l e s ,   R i ppe r   [53 ] .   F r o m   m o s t   r a r e   t o   m o s t   c o m m o n   c l a s s ,   i t   m a ke s   r u l e s   fo r   e a c h   c l a s s ,   up  t o   n o   n e g a t i v e   s a m pl e s   c o ve r e d;   i t   ke e ps   a ddi n c o n d i t i o n s   f o r   e a c h   r ul e .   T h e   c a pa b i l i t y   of   t h i s   a l go ri t hm   p r o v i de by   R i ppe r   i s   f a i rl y   di r e c t e t o   l e a rn  rul e s   fo r   m i n o ri t y   c l a s s   o n l y .     F o r   e xc e s s i v e l y   i m b a l a n c e da t a s e t s   w h i c h   m a y   be   e n c o m pa s s   of   n o i s y   fe a t ur e s   a n hi g di m e n s i o na l   s p a c e   o n e   c l a s s   l e a rni n i s   e ff i c i e n t l y   us e f ul .   K ow a l c z y a n R a s kut t i   [ 5]   a rgue   t h a t   v i o l e n t   f e a t ur e   s e l e c t i o n   m e t h o ds   a r e   r e l a t e t o   o n e   c l a s s   l e a rni n g ,   how e ve r   o f t e n   i t   c a n   b e   e xpe n s i v e   t o   a ppl y   r a t h e t h a o n e   c l a s s   l e a rni n g ,   w h i c h   i s   m o r e   p ra c t i c a l .   T hi s   m e t h o i s   s u m m e ri z e w i t p r o s   a nd  c o n s   i T a b l e   3.     4. 3     C o s S e n s i t i v e   L e ar n i n g   Co s t   s e n s i t i v i t y   f r a m e w o r l i e s   be t w e e n   i n t e rna l   a nd  e xt e rna l   l e v e l   a ppr o a c h e s .   It   i nt e gra t e   b o t h   a pp r o a c h e s ,   a l go ri t hm i c   l e v e l   m o di f i c a t i o n s   a n d a t a   l e v e l   a l t e ra t i o n s   by   m o di fy i n t h e   l e a rni n p r o c e dur e   t o   a c c e pt   c os t s   a nd  a ddi n g   c o s t s   t o   s a m pl e s   r e s pe c t i v e l y   [16] [ 54] .   F o m i n i m i z i ng  t h e   o v e r a l l   e rr o r   c o s t   of   bo t h   c l a s s e s   a n d   by   a s s um i n hi g h e m i s c l a s s i f i c a t i o n   c o s t   of   m i no r i t y   c l a s s ,   i t   t e nds   t h e   c l a s s i f i e r   t o   b i a s   t o w a r ds   m i n o ri t y   c l a s s .   M o r e o ve r ,   f r o m   a n   e xa m pl e   i n   t h e   a s pe c t s   of   c os t   s e n s i t i v i t y   fo r   m i n o r i t y   c l a s s   of   a   c e r t a i n   c a n c e pa t i e n t s   m e di c a l   di a g n o s i s ,   i f   w e   de c l a r e c a n c e r   p a t i e n t   a s   po s i t i v e   c l a s s   (i . e .   m i n o r i t y   c l a s s a nd  n o n - c a n c e r,   h e a l t h y   a s   n e ga t i v e   c l a s s   (m a j o r i t y   c l a s s s o   m i s c l a s s i fy i n a   c a n c e r   pa t i e n t   i s   c a l l e f a l s e   n e ga t i v e   (t h a t   w a s   a c t u a l l y   po s i t i v e   b ut   c l a s s i f i e a s   n e g a t i v e i s   v e r y   s e n s i t i v e   c a s e   a n d   e xpe n s i v e   a s   c o m pa r e d   t o   f a l s e   p o s i t i v e   (t ha t   w a s   a c t ua l l y   n e ga t i v e   b ut   c l a s s i f i e a s   po s i t i v e e rr o r   i . e .   f o r   n e ga t i v e   c l a s s .     In   m i s c l a s s i f i c a t i o n   o r   de l a y   i n   c o rr e c t   m e d i c a l   d i a g n o s i s   a n t r e a t m e n t ,   pa t i e n t   c a n   l o s e   h i s / h e r   l i f e   [18]   F o r   m i ni m i z i n g   t h e   m i s c l a s s i f i c a t i o n   a n t o t a l   t e s t   c o s t ,   c o s t   m a t ri f o r   c o s t   s e n s i t i v e   l e a rn i ng   a n fo r m u l a t i o c o s t   a l s o   w i t h   t h e i i m p r o v e m e n t s   a r e   di s c us s e i n   [1 8] ,   [ 56 ] .   F o r   r e a c h i ng  u n e qua l   t r e a t m e nt   t o   t h e   c l a s s e s   w h i c h   i s   n o t   e qua l l y   t r e a t e by   c o s t - s e n s i t i v e   l e a rn i ng,   i t   p r e s e r v e s   t h e   m a i n   A d a B oo s t   l e a rni n f r a m e w o r [29]   a n d   a l s o   i t   i n t r o duc e s   c os t   i t e m s   s i m ul t a n e o us l y   i n t o   w e i ght   upd a t e   f o r m ul a . ,   T h e r e f o r e ,   t h e   c o m m o n   d i f fe r e n c e   i n   t h e s e   pr o po s a l s   c a n   b e   l i ke   h o w   t h e y   i m p r o ve   t h e   w e i ght   upd a t e   f o r m ul a .   F r o m   t h e   b oo s t i n f a m i l y   of   c o s t   s e n s i t i v i t y ,   t h e   m o s t   r e pr e s e nt a t i v e   a pp r o a c h e s   a r e   A da C1 , A da C2  a n A da C3 [56] ,   CS B 1, CS B [57] ,   A da Co s t [58] .   P r o po s e t e x o n o m y   f o r   t h e   r e v i e w   of  i m b a l a n c e c l a s s   p r o b l e m s   i d a t a   m i ni n g   s h o w n   a s   F i gu r e   2 .           F i gu r e   2 .   P r o po s e t e xo n o m y   fo r   t h e   r e v i e w   of   i m b a l a n c e c l a s s   p r o b l e m s   i da t a   m i ni n g       4. 4 .       En s e m b l e   L e a r n i n A l go r i th m s   Co m po s i t i o n   o s e ve r a l   c l a s s i f i e r s   i s   us e i n   a   m a nn e r   t o   ge t   a   n e w   c l a s s i f i e r   s o   t h a t   e ve r y   o n e   of  s i ngl e   c l a s s i f i e r   pe r f o rm s   b e t t e r   [59] .   A c c ura c y   of   s i n gl e   c l a s s i f i e r   i n   m a c hi n e   l e a rn i ng  h a s   b e e n   i n c r e a s e b y   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im bal an c e   c l as s   pr ob l e m s   i n   dat m i ni n g:  a   r e v i e w ( H as e e A l i )   1567   e n s e m b l e s   of   c l a s s i f i e r   a s   w e l l   a s   s i n gl e   l e a rni n c l a s s i f i e r s   c a nn o t   s o l v e   i m b a l a n c e   c l a s s   pr o b l e m   i n di v i du a l l y ,   b ut   t de a l   w i t h   t hi s   i s s ue ,   l e a rn i ng  a l go r i t h m s   c a n   b e   s p e c i a l l y   de l i b e r a t e [29] .   D i f f e r e n t   t e c hn i q ue s   a n m e t h o ds   c a n   b e   us e t o   de ve l o e n s e m b l e   l e a rni n a l go r i t hm s   b y   c o n s i de r i n g   a   w e a l e a rni n g   a l go ri t hm .   L i ke   B a ggi n [60 ] ,   B o os t i ng  [61]   a n A d a b oos t   [62]   a r e   t h e   m o s t   f a m o us   e n s e m b l e   l e a rn i n g   a l go ri t hm s .       B a ggi n :   T h e   c o n c e pt   o f   boo t s t r a p   a c c um u l a t i n t o   c o n s t ruc t   e n s e m b l e s   i n t r o duc e by   B r e i m a [60] B a ggi n us e f o r   i m b a l a n c e da t a   p r o b l e m s   i n   a   w a y   t o   c r e a t e   t h e   b a l a n c e da t a s e t s   d i s t r i b ut i o n s   o m i n o ri t y   a n m a j o r i t y   s a m pl e s .   F u r t h e rm o r e ,   f o ur   m a i n   b a ggi n b a s e e n s e m b l e s   a r e   p r o po s e d:     O v e r - B a ggi n [63] ,   U n de r - B a ggi ng  [64] ,   U n de r   O v e r - B a ggi ng  [63] ,   w i t h o ut   c o m pr o m i s i ng  t h e   imp o rt a n c e   o f   t h e   di v e r s i t y .     Bo os t i ng  :   I n   1 990 ,   S c ha p i r e   [61]   i nt r o duc e a   n e w   t e rm   A d a pt i v e   Re s a m pl i ng  a nd  Co m b i n i ng  (A R Ci n g) .   T h e   r e s e a r c h e r   c e r t i f i e t ha t   P r o b a b l y   A ppr o xi m a t e l y   Co r r e c t   (P A C)  l e a rn i ng  f r a m e w o r c a n   c ha n ge   a   w e a l e a rn e r   i n t o   a   s t r o n g   l e a rn e r.   B o os t i n g   i s   l i t t l e   v a r i a t i o n   i b a ggi ng  l i ke   s e l e c t i ng  t h e   po i n t s   w hi c gi v e   w r o n p r e di c t i o n .   S M O T E B o os t   [65] ,   M S M O T E B o o s t   [31] ,   R U S Boo s t   [66]   a n D a t a B oo s t - IM   [67]   a l go ri t hm s   a r e   i n c l ude i n   b oo s t i ng  b a s e e n s e m b l e s   fo r   t ra i ni n o f   e n s ui n g   c l a s s i f i e r   d i r e c t e t o   m i n o ri t y   c l a s s .     A da B oo s t   [62]   w a s   f i r s t   p r a c t i c a b l e   a ppr o a c h   of   Bo os t i ng,   a n i t   i s   fo un i n   t o t e n   da t a   m i n i ng   a l go ri t hm s   [6 8] .   I n   i m b a l a n c e da t a ,   t h e   a l go ri t hm   b i a s e s   t h e   l e a rni n g   (t h e   w e i ght ),   b ut   i A da B o o s t   w h o l e   da t a s e t   i s   us e t o   t r a i n   e a c h   c l a s s i f i e r   s e ri a l l y   a n d   a f t e r   i t e r a t i o n ,   t h e   s a m pl e s   w h i c h   a r e   h a rde r   t o   c l a s s i fy   (m i n o r i t y   e xa m pl e s a r e   m a i nl y   f oc us e d   by   t h i s   a pp r o a c h   [62] .   A da B o o s t . M a n A da B o o s t . M 2   [69]   a r e   t h e   t w o   of   f a m e m o di f i c a t i o n s   t ha t   h a v e   b e e n   us e i n   i m b a l a n c e do m i ni o n s .   F o r   c l a s s i f i c a t i o n   o f   i m b a l a n c e da t a ,   a   n o v e l   e n s e m b l e   t e c h ni que   i s   a l s o   us e d,   t ha t   c o n v e r t   a i m b a l a n c e da t a s e t   i nt o   m a n y   b a l a n c e s ub s e t s   of  o r i g i n a l   da t a   a n n u m b e r   of   c l a s s i f i e r s   w i t h   s pe c i f i c   c l a s s i f i c a t i o n   a l go ri t hm   a r e   t h e n   a ppl i e o n   t h e s e   m ul t i p l e   s ubs e t s .   T h e s e   c l a s s i f i e r s   f o r   n e w   da t a   gi v e   c l a s s i f i c a t i o r e s ul t s   w h i c h   a g a i u ni t e b y   s pe c i f i c   e n s e m b l e   r u l e   [70 ] .     4. 5 .       M u l ti c l as s   I m b al an c e   P r o b l e m   B i n a r y   c l a s s   i m b a l a n c e   pr o b l e m s   a r e   m a i n l y   m o r e   foc us e by   a l l   e ff o r t s   do n e   s o   f a r .   B ut   i m ul t i c l a s s   i m b a l a n c e   p r o b l e m s ,   t h e r e   i s   n o t   e n o ugh  re s e a r c pe r f o r m e d   t o   s o l v e   t h e s e   pr o b l e m s .     T h e s e   un s o l v e i s s ue s   fo un i m a n y   r e a l - w o r l a pp l i c a t i o n s   w h i c h   ha v e   m ul t i - m i n o ri t y ,   m u l t i - m a j o r i t y   c l a s s e s   l i ke   o n e   m a j o r i t y   a n d   m a n y   m i n o ri t y   c l a s s e s   o r   o n e   m i n o ri t y   a n m a n y   m a j o r i t y   c l a s s e s   r e s pe c t i ve l y .   Bo t t y pe s   o f   c l a s s e s   a f fe c t   n e ga t i v e l y   t o   m i n o r i t y   a n d   o ve r a l l   pe r f o r m a n c e   [1 ] .         T a b l e   3 .   C l us t e r i ng,   F e a t u r e   s e l e t i o n ,   O n e   C l a s s   L e a rni n g ,   C o s t   S e n s i t i v i t y ,   E n s e m b l e   L e a rn i ng  a n d   M ul t i c l a s s   T e c hn i que s   a n d   A pp r o a c h e s   A l g o ri t h m s / M e t h o d s / A p p r o a c h e s   P ro s   Co n s   Cl u s t e r i n g   b y   t e c h n i q u e   s i m i l a r i t y - b a s e d   h i e ra rc h i c a l   d e c o m p o s i t i o n ,   o u t l i e d e t e c t i o n   [4 8 ]   T h i s   t e c h n i q u e   u s e f u l   fo i d e n t i fi c a t i o n   o f   c l a s s e s   a n d   b a l a n c i n g   t h e m .   In   d u ra t i o n   o t ra i n i n g   t h i s   m e t h o d ,   c o m p u t a t i o n a l   c o m p l e x i t y   i s   v e r y   h i g h .   F RBC S s ,   2   t u p l e   b a s e d   g e n e t i c   a l g o ri t h m s ,   g e n e t i c   f u z z y   s y s t e m s .   [4 9 ]   E n h a n c e   t h e   p e r f o rm a n c e   o s t a n d a r d   F RBC S s .   H i g h l y   i m b a l a n c e d   d a t a s e t s .   D e n s i ty   B a s e d   F e a t u r e   S e l e c ti o n   (D BF S [7 1 ]   T o   t a c k l e   h i g h - d i m e n s i o n a l   d a t a   a n d   t h e   s m a l l   s i z e d   s a m p l e s   p r o b l e m   i n   i m b a l a n c e d   d a t a s e t s .   D o n t   w o rk   fo m u l t i c l a s s ,   e n c o u n t e r   m a n y   p r o b l e m s .   D e c o m p o s i t i o n - b a s e d   a n d   H e l l i n g e d i s t a n c e - b a s e d   m e t h o d s .   [5 2 ]     T o   s o l v e   t h e   fe a t u r e   s e l e c t i o n   i s s u e s   i n   t h e   i m b a l a n c e d   d a t a s e t s .   O n l y   c o m p a r e d   w i t h   o n l y   t h r e e   t re n d i n g   fe a t u r e   s e l e c t i o n   m e t h o d s .   O n e   c l a s s   l e a r n i n g   [5 0 ]   E ff i c i e n t   w h e n   d a t a   i s   h i g h   d i m e n s i o n a l ,   u s e f u l   fo r   b o t h   b i n a ry   a n d   m u l t i c l a s s   i m b a l a n c e d   d a t a s e t s   E x p e n s i v e .   C o s s e n s i ti v e   l e a r n i n g   [5 5 ]   Re d u c e   t h e   t o t a l   e rr o c o s t   D e f i n e   m i s c l a s s i fi c a t i o n     A d a C o s t   [5 8 ]   E ffi c i e n t   t h a n   n o r m a l   CS L   Co m p l e x   En s e m b l e   Le a r n i n g   [5 9 ]   It   i n c re a s e s   t h e   g e n e ra l i z a t i o n   a b i l i t y   a n d   a c c u ra c y   o f   s i n g l e   c l a s s i fi e r   A l o n e   n o t   s u ffi c i e n t   t o   s o l v e   c l a s s   i m b a l a n c e   p r o b l e m s   A   N o v e l   e n s e m b l e   m e t h o d   f o c l a s s i fy i n g   i m b a l a n c e d   d a t a .   [7 0 ]   N o   l o s s   o f   i n fo r m a t i o n   a n d   re m o v e   c h a n c e s   o m i s t a k e s   F o r   o n l y   b i n a ry   c l a s s   i m b a l a n c e d   d a t a .   O A A   a n d   O A O   S c h e m e s   [7 2 ]   [7 3 ]   Im p ro v e   t h e   c o v e ra g e   o f   m i n o ri t y   c l a s s   s a m p l e s   Cre a t e   a m b i g u i t y       F o r   s o l ut i o n   of   m ul t i c l a s s   i m b a l a n c e   pr o b l e m s ,   m o s t   e xi s t i ng   m e t h o ds   us e   de c o m po s i t i o n   i n   w h i c h   i t   ha n dl e s   e a c h   i m b a l a n c e b i n a r y   s ub t a s by   e m pl oy i n b i na ry   c l a s s   i m b a l a n c e   t e c hni que s .   O n e   m o s t   c o m m o n   e xa m pl e   o f   i m b a l a n c e m ul t i c l a s s   pr o b l e m   i s   p r o t e i n   f o l c l a s s i f i c a t i o n,   T h e   a ut h o r   T a n   e t   a l .   [7 4]   put   o n e - Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   14 ,   N o .   3 J u n e   20 1 9   :     1 5 6 0     1 5 7 1   1568   a ga i n s t - o n e   (O A O [7 3] ,   o n e - a g a i n s t - a l l   (O A A [7 2]   i de a s   t o   r e s o l v e   t h i s   p r o b l e m   a n i m p r o v e t h e   pr e di c t i o n   o f   m i n o r i t y   c l a s s   e xa m pl e s ,   t h e   r e s e a r c h   b ui l t   r u l e - b a s e l e a rn e r s .   W i t h o ut   f ul l   d a t a   k n o w l e dge ,     i t   t ra i n e e a c h   i ndi v i du a l   c l a s s i f i e r ,   w hi c h   m a y   l e f t   un c o ve r e da t a   r e gi o n s   a n a l s o   c a us e   c l a s s i f i c a t i o n   un c e rt a i n t y   by   e a c h   t y pe   of   de c o m po s i t i o n   [74] .   W i t h o ut   us i n g   c l a s s   de c o m po s i t i o n   f o r   m ul t i c l a s s   i m b a l a n c e   pr o b l e m   w h i c a dd r e s s e s   di r e c t l y ,   a   c o s t - s e n s i t i v e   e n s e m b l e   t e c hn i q ue   i s   p r o po s e [75] .   A   n o v a l   a da p t i v e   da ra   s t r uc t u r e   b a s e ove r s a m pl i ng  [76]   m o de l   i s   pr o po s e w h i c h   c r e a t e   s y n t h e t i c   s a m pl e s   a nd  E xt r e m e   L e a rn i ng  M a c h i n e   f o r   O r di na l   R e gr e s s i o n   (E L M O P f o r   m ul t i c l a s s   i m b a l a n c e da t a   i s s ue s . T h e   s um m a r y   of   t h e s e   m e t h o ds   i s   s h o w n   i n   T a b l e   3.       5.   R ES EA R C H   G A P S   T h e r e   a r e   c o r r e s po n d i n g a ps   i n   t h e   i n   t h e   f i e l of   i m b a l a n c e da t a   t ha t   n e e a t t e n t i o n   f r o m   t h e   r e s e a r c h e r   c o m m u n i t y .   G e n e r a l l y ,   t h e   p r e p r o c e s s i n o f   da t a   i n   r e s a m pl i n m e t h o ds   i s   m o r e   e ff e c t i v e   t b a l a n c e   t h e   c l a s s   da t a   b e f o r e   l e a rn i n p r o c e s s .   A l t h o ugh,   m a n y   a c h i e v e m e n t s   ha s   b e e n   m a de   us i n h y b r i s a m pl i n t e c hn i que s .   S t i l l ,   t h e r e   a r e   s o m e   i s s ue s   t h a t   n e e t o   be   s o l ve d;   s uc h   a s ,   o ve r - f i t t i ng,   c o m put a t i o c os t ,   l a c o f   c o n s i de ra t i o n   o f   i m po r t a n t   f e a t u r e s ,   a n s t o ra ge   c o n s um pt i o n   o f   s o m e   t e c h ni que s .   V a ri o us   m e t h o ds   of   S V M   i n   a l go r i t hm i c   l e v e l   a r e   us e f ul   t o   r e s o l ve   i m b a l a n c e da t a   p r o b l e m s   a n m i s c l a s s i f i c a t i o c os t ,   b ut   s uc h   t e c hni que s   e n c o unt e r   p r o b l e m s   of   e x c e s s i v e   c o m put a t i o n a l   a nd  s t o ra ge   c o s t ,   y e t   s o m e   t e c hn i q ue s   a r e   n o t   s i m p l e   o r   f a s t   o r   s pe c i f i c   fo r   t h e   p r o b l e m s .   F o r   t h e   pur po s e   of  h i g h   di m e n s i o na l   da t a ,     t h e   f e a t ur e   s e l e c t i o m e t h o i s   e f f i c i e n t   t o   i m b a l a n c e c l a s s   da t a ;   h o w e v e r   i t   i s   i n e f f i c i e n t   o m u l t i - c l a s s   da t a s e t s ,   a l s o   i n s i g ni f i c a nt   f o r   s m a l l   s i z e da t a .   C l us t e r i n a n o n e - c l a s s   l e a rni n a r e   a l s o   s pe c i f i c   fo r   s o m e   da t a s e t s   a n i m b a l a n c e   pr o b l e m s .   Co s t   s e n s i t i v e   a ppr o a c h   i s   us e t o   r e duc e   t h e   t o t a l   e rr o r   c o s t   a n d   e ff i c i e n t l y   w o r w i t h   b oo s t i n l e a rni n a l go r i t hm   fo r   i m b a l a n c e c l a s s   pr o b l e m s ,   y e t   i t   r e qui r e s   a ddi t i o na l   f oc us   t de f i n e   m i s c l a s s i f i c a t i o n   c o s t .   E n s e m b l e   l e a rni n a l go ri t hm   ha n dl e   t h e   o ve r   f i t t i ng  p r o b l e m   a n ge n e r a l i z a t i o a b i l i t y   of   c l a s s   i m b a l a n c e p r o b l e m s ,   h o w e v e r   s o m e   e n s e m b l e   l e a rni n t e c hn i que s   a l t e t h e   da t a   di s t ri b ut i o n,   ha r t o   i m p l e m e nt   o n   r e a l   w o r l da t a .   A l s o   m ul t i - c l a s s   da t a s e t   i m b a l a n c e i s s ue s   n e e m o r e   i m p r o ve m e n t .   R e s e a r c g a ps   a r e   s um m a r i z e a s   f o l l ow s .     T e c hn i que s   us e fo r   o ve r s a m pl i ng  l i ke   S M O T [10]   a r e   s uff e r i n t hr o ug h   o v e r l a ppi ng,   n o i s e   o ov e r f i t t i n g   o f   m i n o ri t y   a n d   m a j o r i t y   s a m pl e s   due   t o   w r o n s e l e c t i o n   o f   s a m pl e s   f o r   s y n t h e t i c   ge n e ra t i o n,   t h i s   i s   i a l s o   c a s e   o f   un de r - s a m p l i n g   t e c hni que s   w h i c h   r e m ov e   s o m e   po t e n t i a l   d a t a   f r o m   t h e   m a j o r i t y   c l a s s .     T h e   h y b r i a l go r i t hm s   p r o po s e fo r   c l a s s i f i c a t i o n   o f   i m b a l a n c e da t a   l i ke   S O CP - SVM  [46] ,   M T D - S VM [41]   gi v e   s i g n i f i c a n t   a c c ura c y   b ut   c o m pl e xi t y   of   a l go r i t h m   i s   i n c r e a s e due   t o   h y b r i a pp r o a c h e s .   Cl us t e r i n b y   t e c h ni que   s i m i l a r i t y - b a s e h i e ra r c hi c a l   de c o m po s i t i o n   [48] ,   o ut l i e r   de t e c t i o c o m put a t i o n a l   c o m pl e xi t y   i s   h i g h   i n   t r a i n i ng  p r o c e s s .   O n e   c l a s s   l e a rn i n [ 50]   i s   s i g n i f i c a n t l y   e xpe n s i v e   a s   i t   h a s   c o m pl e m o de l   w h i c h   i s   r o b us t   f o r   bo t h   b i na ry   a n d   m u l t i   c l a s s   d a t a s e t s ,   m o r e o ve r   i t s   c o m put a t i o n a l   t i m e   i s   l o ng.     Co s t   s e n s i t i v e   l e a rn i ng  i s   s i g n i f i c a n t   f o r   i m b a l a n c e c l a s s   pr o b l e m s   e s pe c i a l l y   i n   m e di c a l   r e a l   w o r l d   da t a s e t s   b u t   i t   c a nn o t   de f i n e   t h e   m i s c l a s s i f i c a t i o c o s t   s pe c i f i c a l l y .         6.   C O N C LU S I O N   A N D   F U TU R W O R K     T h i s   pa pe r   s u r v e y e l i t e r a t u r e   a nd  fo un t h e   t h e o r e t i c a l   c o n c e pt s   o i m b a l a n c e   da t a   p r o b l e m s ,     a n p r e s e nt e di f f e r e n t   c ha l l e n ge s   a nd  m e t h o ds   t o   h a ndl e   i m b a l a n c e   da t a   p r o b l e m s   i n   c l a s s i f i c a t i o n.   It   i s   e s s e n t i a l   t o   b a l a n c e   t h e   i m b a l a n c e c l a s s   w i t h   e ff i c i e n t   m e t h o by   c o n s i de r i ng  t h e   c os t   f a c t o r .   T h e   r i g ht   s e l e c t i o n   of  c l a s s i f i e r   m e t h o ds   w i t h   pe r f o r m a n c e   e v a l ua t i o n   m e t r i c s   s h o ul b e   a ppl i e i n   o r de r   t o   a c c o m pl i s h   b e t t e r   r e s ul t s .   I n   c o n c l us i o n ,   w e   h a v e   fo un t ha t   e n s e m b l e   l e a rni n a l go r i t h m s   ha n d l e   t h e   o ve r   f i t t i n g   pr o b l e m   a n d   i n c r e a s e   ge n e ra l i z a t i o n   a b i l i t y   of   c l a s s   i m b a l a n c e pr o b l e m s .   T h e   r e s e a r c h   c o m m u n i t y   pr e s e n t e po s i t i v e   c o l l a bo r a t i o n   b e t w e e n   t h e   s a m pl i n t e c hni q ue s   a n d   b a ggi ng  e n s e m b l e   l e a rni n a l go ri t hm s ;   s uc h   a s ,   RU S boo s t ,   w h i c h   s h o w e t o   be   t h e   l e a s t   c o m pl e i n   c o m put a t i o n   a m o n a l l   s i g ni f i c a n t   pe r f o r m e r s .   F urt h e rm o r e ,   c u rr e n t   n o v e l   e n s e m b l e   l e a rn i n m e t h o ds   a r e   a l s o   e ff e c t i ve   fo r   bo t h   b i n a r y .   S uc h   a s   B oo s t i n g w h i c h   i s   a l s o   us e f ul   e n s e m b l e   l e a rn i ng  a l go r i t h m ;   i t   e nha n c e s   t h e   pe r f o r m a n c e   of   w e a c l a s s i f i e r s .     W h i l e   de ve l o pi n m o r e   s o l ut i o n s   f o r   i m b a l a n c e l e a rni n p rob l e m s ,   t h e   r e s e a r c h   c o m m u ni t y   s h o ul c o n s i de t h e   f o l l ow i n s u m m a r i z e d i r e c t i o n s .     T h e   na t u r e   a nd  s t r uc t u r e   o f   s a m pl e s   i n   m i n o ri t y   c l a s s e s   n e e fo c us   t o   b e   i m pr o v e s o ur c e   of   l e a rn i ng  c o m pl i c a t i o n s .     F ut u r e   r e s e a r c h   o l e a rni n a l go r i t h m s   s h o ul c o n s i de n e w   a r e a ,   r e s e a r c h   i n   h o w   l e a rni n a l go r i t h m s   a r e   di v e r ge n t   a n c o n s i de s pe c i f i c   m e t h o f o r   w h a t   t y p e   of   l e a rni n g   p r o b l e m s .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Im bal an c e   c l as s   pr ob l e m s   i n   dat m i ni n g:  a   r e v i e w ( H as e e A l i )   1569     P r o po s e   s o l ut i o n s   f o r   m u l t i - l a b e l   l e a rn i ng  b a s e o p a r t i c ul a de s i g n e na t u r e   o f   pr o b l e m .     B e s i de s   a l t e r i ng  t h e   d a t a   d i s t ri b ut i o n s ,   f o c us   o n   t h e   na t u r e   o f   i m b a l a n c e da t a s e t .     P r o po s e   n e w   t e c h ni que s   f o r   m ul t i - c l a s s   i m b a l a n c e da t a   t ha t   c o n s i de r   d i f f e r e n t   r e l a t i o n s hi ps   b e t w e e n   t h e   c l a s s e s .       A C K N O WL ED G E M EN TS   T h e   a ut h o r s   w o ul l i ke   t o   t h a nk  U n i v e r s i t i   T u n   H us s e i n   O nn   M a l a y s i a   (U T H M f o r   s uppo r t i n t hi s   r e s e a r c u n de P o s t gra dua t e   I n c e nt i v e   R e s e a r c h   G ra nt ,   V o t e   N o . H 334.       R EF ER EN C ES     [ 1]   S .   W a ng   a nd  X .   Y a o ,   M u l t i c l a s s   I m ba l a nc e   P r o b l e m s :   A na l y s i s   a nd  P o t e nt i a l   S o l u t i o ns ,   I E E E   T r ans .   Sy s t .   M an .   C y be r n. ,   v o l .   42 ,   no .   4,   pp .   111 9 11 30 ,   2 012 .   [ 2]   N .   V   C ha w l a ,   N .   J a pko w i c z ,   a nd  P .   D r i v e ,   E d i t o r i a l :   S pe c i a l   I s s ue   o L e a r n i ng   f r o m   I m ba l a nc e D a t a   S e t s ,   Si gk dd   E x p l o r . ,   v o l .   6 ,   no .   1 ,   pp .   2000 200 4,   20 04.   [ 3]   H .   H e   a n E .   A .   G a r c i a ,   L e a r n i ng   f r o m   i m ba l a nc e da t a ,   I E E E   T r an s .   K n ow l .   D a t E ng . ,   v o l .   21,   no .   9,     pp.   12 63 1 284 ,   2009 .   [ 4]   J .   V a H ul s e   a n T .   K ho s hg o f t a a r ,   K no w l e dg e   di s c o v e r y   f r om   i m ba l a nc e a nd  no i s y   da t a ,   D a t K now l .   E ng . v o l .   68,   no .   12 ,   pp .   1513 154 2,   20 09 .   [ 5]   B .   R a s ku t t i   a nd  A .   K o w a l c z y k,   E xt r e m e   R e - ba l a nc i ng   f o r   S V M s :   a   c a s e   s t u dy ,   A C M   S I G K D D   E x pl or .   N e w s l . v o l .   6,   no .   1,   p p.   60 69 ,   2004 .   [ 6]   G .   W a n E .   Y .   E .   C ha ng ,   C l a s s - bo unda r y   a l i g nm e n t   f o r   i m b a l a nc e da t a s e t   l e a r ni ng ,   T w e nt .   I nt .   C onf .   M a c h .   L e ar n.   ( I C M L ) ,   W or k .   I m ba l an c e D a t a   Se t s ,   no .   1,   pp .   49 56,   2 00 3.   [ 7]   R .   Y a n,   Y .   L i u,   R .   J i n ,   a nd  A .   H a upt m a nn ,   O N   P R E D I C T I N G   R A R E   C L A S S E S   W I T H   S V M   E N S E M B L E S   I N   S C E N E   C L A S S I F I C A T I O N ,   L and s c a pe ,   p p.   21 24 ,   2003 .   [ 8]   C .   S e i f f e r t ,   T .   M .   K ho s hg o f t a a r ,   J .   V a n   H ul s e ,   a nd  A .   N a po l i t a no ,   A   c o m pa r a t i v e   s t udy   o f   da t a   s a m pl i ng   a n c o s t   s e ns i t i v e   l e a r n i ng ,   P r oc .   -   I E E E   I nt .   C on f .   D a t a   M i n .   W or k .   I C D M   W or k .   200 8 ,   pp .   46 52 ,   2 008 .   [ 9]   X .   W u,   10  C h a l l e ng i ng   P r o bl e m s   i D a t a   M i ni ng   D e v e l o pi ng   a   U ni f y i ng   T he o r y   of   D a t a   M i n -   i ng   S c a l i ng   U p   f o r   H i g D i m e ns i o na l   D a t a   a nd   H i g S pe e d   D a t a   S t r e a m s ,   pp.   1 9,   2 0 05.   [ 10]   N .   V .   C ha w l a ,   K .   W .   B o w y e r ,   L .   O .   H a l l ,   a nd  W .   P .   K e g e l m e y e r ,   S M O T E :   S y nt he t i c   m i no r i t y   ov e r - s a m pl i ng   t e c hni que ,   J .   A r t i f .   I nt e l l .   R e s . ,   v o l .   1 6,   pp .   321 357 ,   200 2.   [ 11]   G .   E .   A .   P .   A .   B a t i s t a ,   R .   C .   P r a t i ,   a n M .   C .   M o na r d ,   A   S t udy   o f   t h e   B e ha v i o r   o f   S e v e r a l   M e t ho ds   f o r   B a l a nc i ng   M a c hi n e   L e a r ni ng   T r a i n i ng   D a t a ,   A C M   SI G K D D   E x p l o r .   N e w s l .   -   Spe c .   i s s ue   L e ar n .   f r om   i m bal anc e dat as e t s v o l .   6,   no .   1,   p p.   20 29 ,   2004 .   [ 12]   J .   R .   Q u i n l a n ,   I m pr ov e e s t i m a t e f o r   t he   a c c c ur a c y   o f   s m a l l   di s j u nc t s ,   M ac h .   L e ar n ,   v o l .   6,   no .   19 91,     pp.   93 98 ,   1991 .   [ 13]   B .   Z a dr o z ny   a nd  C .   E l ka n ,   L e a r n i ng   a nd  m a k i ng   de c i s i o ns   w he c o s t s   a nd  pr o ba b i l i t i e s   a r e   bo t unkno w n,   ”  P r oc .   s e v e nt h   A C M   S I G K D D   I n t .   C on f .   K n ow l .   D i s c ov .   da t a   M i n .   -   K D D   0 1 ,   pp .   204 213 ,   200 1.   [ 14]   G .   W a nd   E .   Y .   C h a ng ,   K B A :   K e r ne l   bo und a r y   a l i g nm e n t   c o ns i d e r i ng   i m ba l a nc e d   da t a   d i s t r i bu t i o n,   I E E E   T r ans .   K now l .   D a t a   E ng . ,   v o l .   17 ,   no .   6 ,   pp .   786 795 ,   2005 .   [ 15]   A .   F r e i t a s ,   A .   da   C o s t a   P e r e i r a ,   a n P .   B r a z di l ,   C o s t - S e n s i t i v e   D e c i s i o T r e e s   A ppl i e t o   M e d i c a l   D a t a . ,   D aW aK v o l .   4654 ,   pp .   303 312 ,   2007 .   [ 16]   N .   V .   C h a w l a ,   D .   A .   C i e s l a k ,   L .   O .   H a l l ,   a nd  A .   J o s h i ,   A ut o m a t i c a l l y   c o unt e r i ng   i m ba l a nc e   a nd  i t s   e m p i r i c a l   r e l a t i o ns h i p   t o   c o s t ,   D a t a   M i n.   K now l .   D i s c ov . ,   v o l .   1 7,   no .   2 ,   p p.   225 2 52,   2 008 .   [ 17]     a nd  R .   C .   A .   M .   V .   J o s h i ,   V .   K um a r ,   E v a l u a t i ng   B o o s t i ng   A l g o r i t hm s   t o   C l a s s i f y   R a r e   C l a s s e s :   C o m pa r i s o a nd   I m pr o v e m e nt s ,   F i r s t   I E E E   I n t .   C on f .   D a t a   M i n . ,   p p.   25 7 2 64,   2 00 1.   [ 18]   C .   X .   L i ng   a n V .   S .   S he ng ,   C o s t - S e n s i t i v e   L e a r n i ng   a n t he   C l a s s   I m ba l a nc e   P r o bl e m ,   E nc y c l .   M a c h .   L e ar n. pp.   23 1 23 5,   20 08.   [ 19]   S .   K e e l e ,   G ui de l i n e s   f o r   pe r f o r m i ng   S y s t e m a t i c   L i t e r a t ur e   R e v i e w s   i S o f t w a r e   E ng i ne e r i ng ,   E B SE   T e c h .   R e p. v o l .   2. 3 ,   no .   01 ,   2 007 .   [ 20]   M .   P e t e r s e n,   K .   a nd   F e l d t ,   R .   a nd   M uj t a b a ,   S .   a n M a t t s s o n,   S y s t e m a t i c   M a ppi ng   S t u di e s   i S o f t w a r e   E ng i ne e r i ng ,   P r oc .   12 t h   I n t .   C onf .   E v a l .   A s s e s s .   So f t w .   E ng . ,   no .   F e br u a r y   2015 ,   pp .   6 8 77 ,   200 8.   [ 21]   P .   B r e r e t o n,   B .   A .   K i t c he n ha m ,   D .   B udg e n,   M .   T u r ne r ,   a nd  M .   K ha l i l ,   L e s s o ns   f r o m   a ppl y i ng   t he   s y s t e m a t i c   l i t e r a t ur e   r e v i e w   pr o c e s s   w i t h i t he   s o f t w a r e   e ng i ne e r i ng   do m a i n,   J .   Sy s t .   So f t w . ,   v o l .   80 ,   no .   4,   pp.   571 583 ,   2007 .   [ 22]   M .   B .   J .   D .   K a nn a G o v i nda n ,   E L E C T R E :   A   c o m pr e he n s i v e   l i t e r a t u r e   r e v i e w   o m e t ho do l o g i e s   a n a ppl i c a t i o ns ,   E ur .   J .   O pe r .   R e s . ,   v o l .   250 ,   no .   3 ,   pp .   1 29 ,   201 6.   [ 23]   R .   L o ng a dg e ,   S .   S .   D o ng r e ,   a nd  L .   M a l i k,   C l a s s   i m ba l a nc e   pr o bl e m   i da t a   m i ni ng:   r e v i e w ,   I n t .   J .   C om pu t .   Sc i .   N e t w . ,   v o l .   2 ,   no .   1,   pp .   83 87 ,   2 013 .   [ 24]   A .   R .   V i s a ,   S o f i a ,   F uz z y   C l a s s i f i e r s   f o r   I m ba l a nc e d ,   C o m pl e C l a s s e s   o f   V a r y i ng   S i z e ,   I n   P r oc .   of t he   I P M U C onf e r e nc e , P e r ugi a ,   p.   3 93 4 00. ,   200 4.   [ 25]     a nd   M .   K .   H a n,   J i a w e i ,   D at a   M i ni ng:   C on c e pt s   a nd  T e c hni que s .   20 01.   [ 26]   W .   B .   Y u,   Y .   c hi I .   C ha ng ,   a nd   E .   P a r k,   A   m o di f i e a r e a   u nde r   t he   R O C   c u r v e   a nd   i t s   a pp l i c a t i o t o   m a r k e r   s e l e c t i o a nd   c l a s s i f i c a t i o n,   J .   K or e an  St a t .   Soc . ,   v o l .   43 ,   no .   2 ,   pp .   161 175 ,   201 4.   Evaluation Warning : The document was created with Spire.PDF for Python.