I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   21 ,   N o .   1 J a n u a r y   2021 ,   pp .   4 12 ~ 41 9   IS S N :   25 02 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 21 .i 1 . pp 412 - 419             412       Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   c l a ss  s k e w - i n sens i t i v e   A C O - b a se d   d e c i si o n   t r e e   a l g o r i t h m   f o r   i m b a l a n c e d   d a t a   s e t s       M u h am ad   H as b u l l ah   Bi n   M o h d   R az al i 1 R i z au d d i n   B i n   S ai an 2 Y ap   B e e   Wah 3 ,     K u   R u h an K u - M ah amu d 4   1 , 2 , 3 F a c ul t y   o f   C o m put e r   a nd   M a t he m a t i c a l   S c i e nc e s ,   U n i v e r s i t i   T e k no l o g i   M A R A ,   P e r l i s ,   M a l a y s i a   4 S c hoo l   o f   C om put i ng ,   U n i v e r s i t i   U t a r a   M a l a y s i a K e d a h M a l a y s i a       A r ti c l e   I n fo     A B S TR A C T     Ar t i c l e   h i s t or y :   R e c e i v e d   Ma r   1 4 ,   2 0 20   R e v i s e Ju n   2 7 ,   20 20   A c c e pt e J u l   2 7 ,   20 20       A nt - t r e e - m i n e r   ( A T M )   ha s   a a dv a n t a g e   o v e r   t he   c o nv e nt i o na l   de c i s i o t r e e   a l g o r i t hm   i t e r m s   o f   f e a t u r e   s e l e c t i o n.   H o w e v e r ,   r e a l   w o r l d   a p pl i c a t i o ns   c om m o nl y   i nvo l v e i m ba l a nc e c l a s s   p r o bl e m   w h e r e   t he   c l a s s e s   ha v e   di f f e r e n t   i m po r t a nc e .   T hi s   c o ndi t i o i m pe de t h e   e n t r o py - ba s e h e ur i s t i c   o f   e xi s t i ng   A T M   a l g o r i t hm   t o   de v e l o e f f e c t i v e   de c i s i o bo unda r i e s   due   t o   i t s   bi a s ne s s   t o w a r ds   t h e   do m i na n t   c l a s s .   C o ns e qu e n t l y ,   t he   i nd uc e d   de c i s i o t r e e s   a r e   do m i na t e by   t he   m a j o r i t y   c l a s s   w hi c l a c i p r e d i c t i v e   a bi l i t y   o n   t he   r a r e   c l a s s .   T h i s   s t udy   pr o po s e a n   e n ha nc e d   a l g o r i t hm   c a l l e he l l i ng e r - a nt - t r e e - m i ne ( H A T M )   w h i c i s   i n s pi r e by   a nt   c o l o n y   o pt i m i z a t i o ( A C O )   m e t a h e u r i s t i c   f o r   i m ba l a nc e l e a r n i ng   us i ng   de c i s i o t r e e   c l a s s i f i c a t i o n   a l g o r i t hm .   T he   p r o po s e a l g o r i t hm   w a s   c o m pa r e t o   t h e   e xi s t i ng   a l g o r i t hm ,   A T M   i ni ne   ( 9)   p ub l i c l y   a v a i l a b l e   i m ba l a nc e d a t a   s e t s .   S i m u l a t i o s t u d y   r e v e a l s   t h e   s upe r i o r i t y   of   H A T M   w he t he   s a m p l e   s i z e   i nc r e a s e s   w i t h   s ke w e c l a s s   ( I m ba l a nc e R a t i o   <   50 % ) .   E xp e r i m e n t a l   r e s ul t s   de m o ns t r a t e   t he   pe r f o r m a nc e   o f   t he   e xi s t i ng   a l g o r i t hm   m e a s ur e by   B A C C   ha s   be e n   i m pr o v e due   t o   t he   c l a s s   s k e w - i ns e ns i t i v e ne s s   o f   he l l i ng e r   di s t a nc e .   T he   s t a t i s t i c a l   s i g ni f i c a nc e   t e s t   s ho w s   t h a t   H A T M   ha s   h i g he r   m e a B A C C   s c o r e   t ha n   A T M .   Ke y w or d s :   A nt   c o l o n y   o pt i m i z a t i o n   Cl a s s i f i c a t i o n     D e c i s i o n   t r e e   H e l l i n ge r   d i s t a n c e     Im b a l a n c e l e a rn i ng   T hi s   i s   an   ope n   ac c e s s   ar t i c l e   u nde r   t he   C C   B Y - SA   l i c e ns e .     Cor r e s pon di n g   Au t h or :   M uha m a d   H a s b ul l a h   M o h R a z a l i   F a c ul t y   of   Co m put e r   a n d   M a t h e m a t i c a l   S c i e n c e s   U n i v e r s i t i   T e kn o l o gi   M A R A   A ra u,   P e rl i s ,   M a l a y s i a   E m a i l :   h a s b ul l a h 782 @ u i t m . e du . m y       1.   I N TR O D U C TI O N     Im b a l a n c e c l a s s   i s   a   c o n di t i o n   w h e n   a   da t a   s e t   c o n s i s t s   o f   on e   c l a s s   t ha t   ha s   m o r e   o b s e r v a t i o n s   t ha t h e   o t h e r s .   T h e   s e v e r i t y   o f   i m b a l a n c e c l a s s   c a n   b e   m e a s ure by   t h e   i m b a l a n c e ra t i o   (IR ).   F o r   e xa m p l e ,   a   da t a   s e t   w i t 5%   IR   i n d i c a t e s   t h e   m a j o ri t y   c l a s s   do m i n a t e s   95%  o f   t h e   da t a s e t ’s   c l a s s   l a b e l .   T hi s   s i t ua t i o n   i s   c o m m o n   w h e de a l i n w i t da t a - i n t e n s i v e   a pp l i c a t i o n s   s u c h   a s   b i o m e di c a l ,   de f e n s e   a n d   f i n a n c e   [1] .   F o i n s t a n c e ,   t h e r e   w e r e   o n l y   5. 6%  o f   r e c ur r e n t   di s e a s e   pa t i e nt s   o ut   o f   154  f o l l ow - up  pa t i e nt s   r e po r t e by   M a l a y s i a N a t i o na l   Ca n c e P a t i e nt   R e gi s t r y   i n   2008 .   T h e   o t h e r   94. 4%  p a t i e nt s   a r e   di s e a s e   f r e e   t h us   c o n s i de r e a s   l e s s   i m po r t a n t   g r o up .   I n   t e r m s   o f   da t a   m i ni n pe r s pe c t i v e ,   i t   w o ul be   b e n e f i c i a l   t o   t h e   m e di c a l   pra c t i t i o n e r s   t o   ha v e   i n s i g ht s   o w h a t   t h e   5 . 6%  r e c u rr e n t   di s e a s e   pa t i e n t s   s h a r e   i n   c o m m o n   l i ke   a ge ,   ge n de r ,   ra c e   o r   b l oo t y pe   fo r   b e t t e r   de c i s i o n - m a k i n p r o c e s s .   H e n c e ,   t h e   pa t i e n t s   c a n   b e   t r e a t e e f fe c t i ve l y .   T h i s   i s   kn o w n   a s   s upe r v i s e l e a rni n i w h i c h   t h e   m a c h i n e   l e a rni ng  a l go r i t hm   l e a rn   t h e   p a t t e rn   o f   t h e   t ra i ni n d a t a   a n r e v e a l   t h e   s i g ni f i c a n t   f e a t u r e s   i t h e   m o de l   f o r   p r e di c t i o o f   n e w   a n d   u n s e e d a t a .     Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   c l as s   s k e w - i ns e ns i t i v e   A CO - bas e de c i s i o t r e e   a l gor i t hm   f or . . .   ( Muham ad  H as bul l ah  B i Mohd   R az a l i )   413   D e c i s i o n   t r e e   i s   o n e   o f   t h e   m o de l s   i m a c hi n e   l e a rn i ng  w h i c i s   w i de l y   us e f o r   c l a s s i f i c a t i o n .   T hi s   m o de l   i s   w e l l - k n o w n   f o r   i t s   s i m p l i c i t y   a n d   e a s y   t o   i n t e r p r e t   IF - T H E N   rul e s   s i n c e   i t   c a b e   r e p r e s e n t e i n   gra p hi c a l   f o r m .   A s   w i t h   o t h e m a c hi n e   l e a rn i ng  m o de l s ,   d e c i s i o n   t r e e   i s   a f f e c t e by   t h e   i m b a l a n c e c l a s s   i s s ue   due   t o   i t s   e nt r o p y - b a s e s pl i t t i n c r i t e r i o n   w h i c h   i s   b i a s e t ow a r d s   t h e   m a j o ri t y   c l a s s   [2].   D e v e l o pi n g   a   de c i s i o n   t r e e   w i t h   s i g n i f i c a n t   f e a t ur e s   t ha t   c a n   c o rr e c t l y   c l a s s i fy   t h e   r a r e   a n m o r e   i m po rt a nt   g r o up  i s   a   c h a l l e n gi ng  t a s k .   I nt ui t i v e l y ,   m o s t   m o de l s   a r e   m i s l e u n de r   i m b a l a n c e c l a s s   e n v i r o nm e nt   s i n c e   t h e   m a j o r i t y   gr o up   do m i na t e   t h e   l i ke l i h o o o f   pr e di c t i o i t h e   l e a rni n g   pr o c e s s .   A   h e u r i s t i c   a pp r o a c w h i c ut i l i z e d   b i o - i n s pi r e d   b e h a v i o ur  f o r   t r e e   i n duc t i o s uc a s   A n t - T r e e - M i n e (A T M )   i s   a l s o   a f fe c t e by   t h e   s ke w e c l a s s   di s t r i b ut i o n .   T hi s   i s   due   t o   t h e   e nt r o p y - b a s e h e uri s t i c   f u n c t i o n   w hi c s uf fe r   f r o m   i n f o r m a t i o n   l o s s   s i n c e   t h e   m a j o r i t y   c l a s s   do m i n a t e s   t h e   f r e que nt l y   oc c ur ri n e v e n t s .   T h i s   u n f a v o r i a b l e   b e h a v i o ur   i s   i l l us t r a t e i   F i gu r e   1 .   I t h i s   e xpe r i m e n t   s e t up ,   t h e   Io n o s p h e r e   da t a   s e t s   i s   d i v i de i n t o   t hr e e   s e t s   o f   c l a s s   i m b a l a n c e ra t i o s   (IR i w h i c t h e   60% : 40%   r e p r e s e nt s   t h e   o r i g i n a l   da t a   s e t s   c l a s s   d i s t r i b ut i o w h i l e   t h e   s y n t h e t i c   do m a i w i t 5 %   IR   i s   a   h i g h l y   i m b a l a n c e c l a s s   s ke w n e s s .   I t   c a b e   s e e t ha t   a s   t h e   c l a s s   d i s t r i b ut i o n   b e c a m e   s ke w e (IR = 5%),   t h e   e nt r o p y - b a s e h e uri s t i c   (g a i r a t i o i s   s hri n k i n g   w hi c i ndi c a t e s   a   s i g n i f i c a n t   l o s s   of   i n f o r m a t i o n   t h us   j us t i f i e t h e   c l a i m   i n   l i t e ra t u r e   t h a t   e n t r o py - b a s e i n f o r m a t i o n   w o r ks   w e l l   w h e n   t h e   c l a s s   i s   e v e n l y   di s t r i b ut e d.   Co n s e que nt l y ,   t h e   de v e l o pe de c i s i o n   t r e e   w i t po o r   a t t ri b ut e   e v a l ua t i o n   due   t o   b i a s n e s s   t o w a r ds   t h e   do m i na nt   g r o up  t e n ds   t o   m i s c l a s s i fy   t h e   r a r e   c l a s s   i n e w   a n d   u n s e e d a t a   s e t s   a s   t h e   m a j o r i t y   gr o up  t o   a c hi e v e   h i g a c c ura c y   r a t e .   T h i s   i s   w hy   a c c ur a c y   r a t e   i s   n o t   a   s u i t a b l e   pe r f o r m a n c e   m e a s u r e   f o i m b a l a n c e d   c l a s s   p r o b l e m   s i n c e   h i g h e a c c ura c y   ra t e   do e s   n o t   n e c e s s a ri l y   m e a n s   t h e   c l a s s i f i e i s   go o d.     F o r   i n s t a n c e ,   r e l a t e d   w o r ks   by   [3 - 6]  f oc us e o n   t h e   a b i l i t y   of   t h e   c l a s s i f i e t o   de t e c t   t h e   r a r e   c l a s s   w h i c i s   k n o w n   a s   t h e   M i n o ri t y   Cl a s s   P r e di c i t i o (M CP ) .   H ow e ve r ,   i t hi s   s t udy   w e   us e t h e   i m p r o v e d   a c c ur a c y   m e a s u r e   i n s p i r e b y   t h e   w o r o f   [7]  a s   t h e   pe rfo r m a n c e   m e a s u r e   c a l l e d   t h e   b a l a n c e   a c c ura c y   (B A CC)  w h i c n o rm a l i z e s   t h e   c o rr e c t   p r e di c t i o f r o m   b o t c l a s s e s .   M i s c l a s s i f i c a t i o o f   i m po r t a nt   a n d   ra r e   c l a s s   c o ul b e   di s a s t r o us   s i n c e   f o r   i n s t a n c e   c l a s s i f y i n t h e   re c ur r e nt   d i s e a s e   pa t i e n t s   a s   di s e a s e   f r e e   i s   a   v e r y   c os t l y   de c i s i o n .   O t h e   o t h e r   ha n d ,   s t a t i s t i c a l   d i s t a n c e   w hi c i s   b a s e o c l a s s   d i s t ri b ut i o n   di v e rge n c e   (H e l l i n ge r   D i s t a n c e i s   f o un t o   b e   l e s s   a f fe c t e by   t h e   c l a s s   s ke w n e s s   s i n c e   t h e   p r i o r   di s t ri b ut i o h a s   n o   e f fe c t   dur i ng  t h e   c o m put a t i o n.   H e n c e ,   H e l l i n ge r   D i s t a n c e   i s   fo un t o   b e   a   m o r e   r e l i a b l e   h e u r i s t i c   m e a s u r e   f o r   a t t ri b ut e   e v a l ua t i o u n de r   i m b a l a n c e c l a s s   e n v i r o n m e n t .   T hi s   i s   t h e   m a i m o t i v a t i o o f   t hi s   s t udy   due   t o   t h e   f a c t   t ha t   h e u r i s t i c   f u n c t i o i b i o - i n ps i r e a l go r i t h m s   s uc h   a s   A T M   i s   a   c r uc i a l   w e i gh t i n g   e l e m e n t   t o   b i a s   t h e   a n t s ’  pa t c r e a t i o n s   i t h e   p r o b a b i l i s t i c   t r e e   i n duc t i o n   p r o c e s s .             F i gu r e   1 .   S y n t h e t i c   i o n o s ph e r e   d a t a   s e t s       2.   R ELA TED   WO R K S   2. 1 .       C l as s i fi c at i o n   o i m b al an c e d   d ata  s e ts     Im b a l a n c e l e a rn i ng  i s   a b o ut   r e duc i n t h e   i m pa c t   o f   i m b a l a n c e c l a s s   e i t h e r   v i a   a l go ri t hm i c   o r e s a m pl i n g   a pp r o a c h .   A l go ri t hm i c   a pp r o a c h   i s   m o r e   p r o m i s i n g   s i n c e   l e s s   e f fo r t   i s   n e e de o p r e - pr o c e s s i n t h e   d a t a   e v e n - t h o ugh  t h e   s o l ut i o n e e de i s   q ui t e   c o m pl e x.   T hi s   a pp r o a c w i l l   i m po s e   a   b i a s   o t h e   ra r e   c l a s s   by   a da pt i n g   t h e   de c i s i o t hr e s h o l d   s i n c e   m o s t   m a c hi n e   l e a rni n g   (M L )   m o de l s   s uc a s   s uppo rt   v e c t o r   m a c h i n e   (S V M a n d   de c i s i o n   t r e e   a r e   a f fe c t e by   t h i s   c o n d i t i o n.   F o i n s t a n c e ,   [8 p r o po s e a   n e w   b i a s   f o r   i m b a l a n c e c l a s s i f i c a t i o by   a dj us t i n t h e   f un c t i o n   l e a rn e b y   t h e   S V M   t o   i m p r o v e   t h e   s t a n da rdi z e e rr o r   m e a s u r e s   b a s e Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   21 ,   N o .   1 J a n u a r y   2021   :     412   -   419   414   o n   s e n s i t i v i t y   a n g - m e a n s .   O n   t h e   o t h e r   ha n d ,   r e s a m p l i n a pp r o a c h   i n v o l v e   r e m o v i n i n s t a n c e s   f r o m   m a j o r i t y   c l a s s   o r   dup l i c a t i n g   i n s t a n c e s   f r o m   t h e   m i n o r i t y   c l a s s .   B o t h   t e c hni que s   a r e   k n o w n   a s   u nde r - s a m p l i ng  a n o v e r - s a m p l i ng  r e s pe c t i v e l y .   L a t e s t   w o r by   [9]  i nt r o duc e a e f f i c i e n t   u n de r - s a m pl i n a l go r i t h m   by   c a l c ul a t i n g   t h e   m e m b e r s h i p   p r o b a b i l i t i e s   t o   t h e   m a j o r i t y   c l a s s   i n   o rde t o   e l i m i na t e   s a m p l e   w i t h   t h e   l o w e s t   m e m b e r s hi p   p r o b a b i l i t y .   T h e i w o r k   w a s   m o t i v a t e b y   t h e   f a c t   t ha t   r e s a m p l i n g   t e c hni que   f o r   i m b a l a n c e d a t a   s e t s   n e e t o   b e   c o n duc t e c a r e f ul l y   s i n c e   i t   c o ul po t e n t i a l l y   i n t r o duc e   n o i s e   o r   l o s e   i n f o r m a t i o du r i ng  t h e   l e a rn i ng  p ha s e .     T h e   m o s t   p r o m i n e nt   w o r t ha t   m o di fy   t h e   de c i s i o n   t r e e   a l g o r i t hm   t o   b e   s ke w - i n s e n s i t i v e   i s   by   [2].   T h e   a l go ri t hm   i s   k n o w a s   H e l l i n ge r - D i s t a n c e - D e c i s i o n - T re e   (H D D T w h i c i s   b a s e o n   t h e   c o n v e n t i o n a l   de c i s i o n   t r e e   a l go ri t hm   b ut   w i t s ke w - i n s e n s i t i v e   s pl i t t i n g   c ri t e ri o c a l l e d   t h e   H e l l i n ge D i s t a n c e .   D ue   t o   t h e   gr e e dy   n a t u r e   o f   c o n ve n t i o n a l   de c i s i o t r e e ,   [1 0]   de v e l o p e a   h y b r i d   o f   t h e   s w a m p   i n t e l l i ge n c e   t e c hn i q ue   kn o w a s   t h e   A nt   Co l o n y   O pt i m i z a t i o (A CO )   w i t t h e   de c i s i o n   t r e e   a l go r i t hm   c a l l e d   A nt - T r e e - M i n e (A T M ).   T h e i r   w o r i s   a e xt e n s i o o f   a l go r i t h m   by   [1 1],   t h e   A nt - M i n e r   w hi c o nl y   e xt r a c t   c l a s s i f i c a t i o n   r u l e s   f r o m   da t a   s e t s .   A T M   i s   b e t t e r   t ha t h e   c o n v e n t i o na l   de c i s i o n   t r e e   s i n c e   t h e   o pt i m i z a t i o n   a pp r o a c h a s   a a dv a n t a ge   t o   i n duc e   a   de c i s i o n   t r e e   w i t h o ut   b e i n g   t ra ppe i l o c a l   o pt i m a   due   t o   i t s   i t e ra t i v e   w a y   of   s e a r c h i ng  fo r   g l o b a l   b e s t   t r e e .     M e a n w hi l e ,   t h e   i m p a c t   o f   i m b a l a n c e c l a s s   c a b e   r e l a xe d   b y   h y b r i t e c hni que   w hi c h   c o m b i n e s   t h e   a l go ri t hm i c   a nd   s a m pl i n g   a p p r o a c s i m ul t a n e o us l y .   I [1 2]   p r e s e nt e a   n e w   h y b r i s a m p l i ng  a n d   b o os t i n a l go ri t hm ,   c a l l e d   R U S Bo os t ,   f o l e a rni n g   f r o m   s ke w e t r a i n i n g   d a t a   w h i c p r o v i de s   a   s i m pl e a nd   f a s t e a l t e rna t i v e   t o   S M O T E B oo s t   [4].   S M O T E B o o s t   i s   a n   a l go r i t hm   t h a t   c o m b i n e s   b oo s t i n g   a nd  da t a   s a m pl i ng  f o r   s ke w e d   da t a   s e t s .   I b o t h   t e c hn i q ue s ,   t h e   m a i i de a   i s   t o   b a l a n c e   t h e   c l a s s e s   us i n a   r a ndo m   s a m pl i ng  pr o c e dur e   b e fo r e   e a c h   r o un d   o f   bo os t i ng.   A n o t h e r   h y b r i a p pr o a c h   by   [13]  p r o po s e a n   a l go ri t hm   c a l l e G A - E o i n   ha n d l i ng  t h e   i m b a l a n c e c l a s s   p r o b l e m   i A l z h e i m er s   d a t a s e t .   T h e   a l go ri t hm   ut i l i z e t h e   ge n e t i c   a l go ri t hm - b a s e s e a r c m e t h o t o   f i n d   t h e   o pt i m u m   c o m b i na t i o f r o m   a   po o l   o f   b a s e   c l a s s i f i e r s   t o   f o r m   a   h e t e r o ge n o us   e n s e m b l e   a l o n g   w i t ra n do m   s ub - s a m pl i n g   a p pr o a c t o   b a l a n c e   t h e   c l a s s   d i s t ri b ut i o n.   I [14 d e ve l o pe a   c os t   s e n s i t i v e   fe a t u r e   s e l e c t i o n   a l go r i t hm   t ha t   a dds   t h e   c o s t - b a s e e v a l ua t i o n   f u n c t i o o f   a   f i l t e f e a t ur e   s e l e c t i o n   us i ng  a   c h a o s   ge n e t i c   a l go r i t h m   na m e l y   CS F S G .   T h i s   a pp r o a c h   i s   a b l e   t o   c o n s i de r   b o t h   f e a t ur e   a c qu i r i ng  c o s t   (t e s t   c o s t s a n m i s c l a s s i f i c a t i o c o s t   w h i c i s   c r uc i a l   i i m b a l a n c e c l a s s   l e a rn i ng.     2. 2 .       Bi o - i n s p i r e d   a l go r i th m s   fo r   i m b al an c e d   l e ar n i n g   T h e   i de a   o f   s w a r m   i n t e l l i ge n c e   (S I)  w h i c h   i s   a   b r a n c h   o f   a r t i f i c i a l   i n t e l l i ge n c e   (A I)  f o r   m a c hi n e   l e a rn i ng  i s   ga i ni n i nt e r e s t   s i n c e   i t   c o m b i n e s   t h e   h e u ri s t i c   a n p h e r o m o n e   m e a s u r e   fo r   v a r i o us   a pp l i c a t i o n s .   F o r   e xa m pl e ,   [ 15]  h y b r i t h e   h o n e y be e   m a t i n o pt i m i z a t i o n   (H B M O b e h a v i o r   w i t h   t h e   P i - S i gm a   n e u r a l   n e t w o r k   (P S N N f o r   c l a s s i f i c a t i o n   t a s k .   A a p p r o a c h   b y   [ 16]  f o un t ha t   by   e m be ddi ng   t h e   c i r c l e   c ha o t i c   s e a r c h   o f   w h a l e   o pt i m i z a t i o a l go r i t hm   (W O A i t h e   s e a r c h i ng  i t e ra t i o n s ,   t h e y   w e r e   a b l e   t o   e f fe c t i ve l y   s e l e c t   r e l e v a n t   f e a t ur e s   of   b r e a s t   c a n c e r   d a t a .   A n   i n t e r e s t i n a pp l i c a t i o n   by   [17]  c o m b i n e t h e   f r ui t   f l y   o pt i m i z a t i o n   a l go r i t hm   (F F O A a s   t h e   f e a t ur e s   s e l e c t i o n   m e t h o w i t h   m ul t i - ke rn e l   s uppo rt   v e c t o r   m a c h i n e   (M K S V M fo r   c l a s s i f i c a t i o n   o c h r o ni c   ki d n e y   di s e a s e   (CK D ).   T h us ,   i t   c a n   b e   c o n c l ude t h a t   t h e r e   a r e   v a r i o us   a ppl i c a t i o n s   o S fo r   M L   off e r e i n   t h e   l i t e ra t u r e   s i n c e   S i s   a b l e   t o   c o m pe n s a t e   t h e   i m p r e c i s i o n s   of  l o c a l   a t t ri b ut e   e v a l ua t i o n   b y   m o s t   m a c h i n e   l e a rni n g   m o de l s .     M e a n w hi l e ,   i m b a l a n c e l e a rni n v i a   b i o - i n s pi r e a l go ri t hm   i s   ga i ni n a   s i g ni f i c a n t   a t t e n t i o n   i n   d a t a   m i ni n r e c e n t l y .   A   r e c e n t   w o r by   [18]  pr o po s e t h e   us e   of   e nt r o p y   a n i n f o r m a t i o n   g a i n   a s   a   f i t n e s s   f un c t i o i n   ge n e t i c   a l go r i t hm   w i t h   a a i m   t o   i m p r o v e   t h e   i m pu ri t y   a nd  gi v e s   a   m o r e   b a l a n c e r e s ul t   w i t h o ut   c h a ngi ng  t h e   o r i gi na l   d a t a s e t .   E a rl i e r   w o r by   [19]  pr o po s e a   c o s t - s e n s i t i v e   de e p   n e ura l   n e t w o r k,   w h i c h   c a n   a ut o m a t i c a l l y   l e a rn   r o b us t   fe a t u r e   r e p r e s e n t a t i o n s   f o r   b o t h   t h e   m a j o ri t y   a n m i n o r i t y   c l a s s e s .   T h e   pr o po s e d   a pp r o a c h   i s   a ppl i c a b l e   t o   bo t h   b i na r y   a n m u l t i c l a s s   pr o b l e m s   w i t h o ut   a n y   m o di f i c a t i o n   t o   t h e   o r i gi na l   d a t a   di s t r i b ut i o n ,   w hi c h   r e s ul t s   i n   a   l o w e r   c o m put a t i o na l   c o s t   dur i n t h e   t ra i ni n p r o c e s s .   T h e   r e s ul t s   o n   s i m a j o i m a ge   c l a s s i f i c a t i o n   d a t a   s e t s   s h o w   t ha t   t h e   p r o po s e a ppro a c h   s i g n i f i c a n t l y   o ut pe r f o r m s   t h e   po pul a r   d a t a   s a m pl i n t e c hni que s .   A n o t h e r   w o r by   [20]  i nt r o duc e b i o - i n s pi r e ke rn e l s   i t w i n   s uppo rt   v e c t o r   m a c h i n e   (B i o - T W S V M fo r   pr e di c t i o n   o f   i m b a l a n c e m ul t i c l a s s   p r o t e i n   d a t a   s e t s .   T h e r e   i s   a l s o   po s s i b i l i t y   t o   m e r ge   S w i t h   t h e   s a m p l i n t e c hn i q ue .   F o r   i n s t a n c e ,   [21]  c o m b i n e A CO   w i t h   unde r - s a m p l i ng  fo r   i m b a l a n c e D N A   m i c r o a rra y   da t a   c l a s s i f i c a t i o us i ng  S V M .     B a s e o n   t h e   p r e v i o us   w o r ks ,   t h e r e   w e r e   s i gn i f i c a nt   a m o u n t   of   e ff o r t s   be e n   t a ke n   o n   h y b r i di z i n S I   w i t h   M L   m o de l s   pa rt i c ul a r l y   t o   a l l e v i a t e   t h e   i m p a c t   o f   i m b a l a n c e c l a s s   p r o b l e m .   H ow e v e r ,   s uc h   s t ra t e gy   i s   s t i l l   i i t s   i n f a n c y .   T h us ,   t h i s   i s   t h e   m a i n   m o t i v a t i o n   o f   o ur   s t udy   t o   i m pr o v e   t h e   A CO - b a s e de c i s i o n   t r e e   b y   h y b r i di z i n H e l l i n ge r   D i s t a n c e   i n   t h e   a l go ri t hm .   T h e   a i m   i s   t o   i m pr o v e   t h e   a n t s ’  h e u r i s t i c   m e a s u r e   s o   t h a t   t h e   c o n s t r uc t e de c i s i o n   t r e e   i s   i n s e n s i t i v e   t ow a r ds   c l a s s   s ke w n e s s   t h us   a b l e   t pr e di c t   t h e   m i n o ri t y   c l a s s   w e l l .   T h e   p r o po s e a l go ri t hm   i s   c a l l e h e l l i nge r - a n t - t r e e - m i n e (H A T M ).     Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   c l as s   s k e w - i ns e ns i t i v e   A CO - bas e de c i s i o t r e e   a l gor i t hm   f or . . .   ( Muham ad  H as bul l ah  B i Mohd   R az a l i )   415   3.   M ET H O D O L O G Y   T h i s   s t udy   e xt e n ds   t h e   w o r o f   [10]  by   h y b r i d i z i n s t a t i s t i c a l   di s t a n c e   c a l l e H e l l i n ge r   D i s t a n c e   i i n duc i n t h e   de c i s i o n   t r e e   w i t h   A CO   a l go r i t hm .   T h i s   n e w   a l go ri t hm   w i l l   c o m b i n e   H e l l i n ge r   D i s t a n c e   a nd  ph e r o m o n e   t o   p r o v i de   a   p r e c i s e   r e s po n s e   o f   t h e   v a l ue   o a   f e a t u r e   c o n s i de ri n i t s   i n f l ue n c e   i a   w h o l e   de c i s i o n   t r e e   unde r   i m b a l a n c e c l a s s   do m a i n s .   T h us ,   i t   i s   i n f e rr e t o   c o m pe n s a t e   t h e   s ke w   s e n s i t i v e n e s s   o t h e   c o n v e n t i o na l   i n f o r m a t i o ga i n   m e a s u r e   a s   t h e   a n t ’s   b i a s   c o m po n e n t   t o w a r ds   t h e   p r o m i s i n p a t h s   d u ri n g   t h e   t r e e   c o n s t ruc t i o n s   p r o c e s s .   T h e   pr o po s e H A T M   a l gori t hm   f o l l ow s   t h e   t r a d i t i o n a l   s t r uc t u r e   o f   A T M   a l go ri t hm   i n   F i gu r e   2.   H A T M   a l go r i t h m   s t a rt s   by   i n i t i a l i z i n t h e   p h e r o m o n e   v a l ue s   a n c o m put i ng  t h e   H e l l i n ge r   D i s t a n c e   f o r   e a c a t t r i b ut e   o f   t h e   t r a i n i ng  s e t   (F i g ur e   3) .   T h e n ,   i t   e n t e r s   i a i t e ra t i v e   l o o ( w h i l e   l o o p)  w h e r e   e a c h   a n t   i n   t h e   c o l o n y   c r e a t e s   a   n e w   de c i s i on   t r e e   unt i l   a   m a xi m um   n u m b e r   o f   i t e r a t i o n s   i s   r e a c h e o r   t h e   a l go ri t hm   ha s   c o n v e r ge d.   A n   a nt   c r e a t e s   a   d e c i s i o n   t r e e   (fo r   l o o p)  i n   a   t op - do w n   f a s h i o n   by   pr o b a b i l i s t i c a l l y   s e l e c t i n a t t r i b ut e s   t o   b e   a dde a s   de c i s i o n   n o de s   b a s e o n   t h e   a m o unt   o f   ph e r o m o n e   ( )   a n d   h e u r i s t i c   i n f o r m a t i o ( ) .   T h e   p r o b a b i l i t y   of   a a n t   t o   v i s i t   t he   a t t ri b ut e   v e r t e i s   g i v e n   b y   (1).     T h e   a l go r i t hm   o f   Co m put e   H e l l i n ge r   D i s t a n c e ()  f un c t i o r e t u rn s   t h e   H e l l i n ge r   D i s t a n c e   of   t h e   a t t ri b ut e s   a s   i n   F i gu r e   3 .   T hi s   a l go ri t hm   w i l l   m e a s u r e   t h e   f e a t u r e s ’  di s t r i b ut i o n a l   di v e r ge n c e   by   qua n t i fy i n t h e   s i m i l a ri t y   be t w e e n   t h e   m a j o r i t y   a n m i n o r i t y   pr ob a b i l i t y   di s t r i b ut i o n   i n   d i s c r i m i n a t i n t h e   c l a s s .   T h i s   f un c t i o a l s o   r e t u rn s   t h e   H e l l i n ge r   D i s t a n c e   f o r   e a c f e a s i b l e   a t t r i b ut e   i t h e   de c i s i o n   t r e e   i nduc e du r i ng  t h e   t r a i ni n s t a ge .   N o t e   t h a t   t h e   i m pl e m e nt a t i o n   o f   t hi s   f un c t i o n   i s   s l i g h t l y   di ffe r e n t   t o   t h e   o n e   a ppl i e i n   H e l l i n ge r - D i s t a n c e - D e c i s i o n - T r e e   (H D D T i n   s uc h   a   w a y   t ha t   i n   H A T M ,   t h e   H e l l i n ge r   D i s t a n c e   i s   us e a s   t h e   h e u r i s t i c   f un c t i o w h i l e   H D D T   r e t u rn s   t h e   hi g h e s t   H e l l i nge r   di s t a n c e   a s   t h e   s pl i t t i n g   c r i t e ri o n.     F i F i i i i i i x L E x L E P , . , , . , ,   (1)     w he r e   a)   ) , , ( i x L E i s   t h e   a m o u n t   o f   p h e r o m o n e   a s s o c i a t e w i t t h e   e n t r y   E x L E i , ,   i s   t h e   a t t ri b ut e   c o n d i t i o r e p r e s e n t e d   by   t h e   e dge   b e i n g   f o l l ow e o r   - ’  a t   t h e   s t a rt   o f   t h e   c o n s t ruc t i o p r o c e dur e ,   L   i s   t h e   a nt c urr e n t   l e v e l   i n   t h e   de c i s i o t r e e   o 0   a t   t h e   s t a r t   o f   t h e   c o n s t ruc t i o p r o c e dur e ,   i x i s   t h e   i - t a t t ri b ut e   v e r t e o f   t h e   c o n s t r uc t i o g ra p h - i n   t h e   p h e r o m o n e   m a t r i x .   b)     i s   t h e   h e u r i s t i c   i n f o r m a t i o (H e l l i n ge r   di s t a n c e o f   t h e   i - t a t t ri b ut e .   c)     i s   t h e   s e t   o f   a v a i l a b l e   (f e a s i b l e a t t ri b ut e s   f o r   s e l e c t i o n .   d)   P a ra m e t e r     a n   us e t o   c o n t r o l   t h e   i n f l ue n c e   of   t h e   p h e r o m o n e   a nd  h e u r i s t i c   i n f o r m a t i o n ,   r e s pe c t i v e l y ,   duri n t h e   s e l e c t i o o f   ve r t i c e s .           F i gu r e   2 .   P s e udo c o de   of   t h e   h e l l i nge r - a nt -   t r e e - m i n e r   a l go r i t hm                       F i gu r e   3 .   P s e udo c o de   of   c om put e   h e l l i ng e r   d i s t an c e ( )   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   21 ,   N o .   1 J a n u a r y   2021   :     412   -   419   416   3. 1 .       S i m u l ati o n   p r o c e d u r e   In   t hi s   s t udy ,   da t a   X   w e r e   s i m ul a t e us i n R   s of t w a r e   a n a s s i g n e t o   gr o up  o r   us i n t h e   fo l l ow i n g   l o gi s t i c   r e gr e s s i o m o de l :     z e Y P 1 1 ) 1 (   (2)     w h e r e   k k X X X z ... 2 2 1 1 0   a n k   i s   t h e   num b e r   o f   f e a t ur e s .   S i n c e   de c i s i o n   t r e e   c o n s t r uc t i o n   i s   a   pr o c e s s   of   r ul e   i n d uc t i o n   w h i c h   i n v o l v e   d e t e r m i ni n t h o s e   fe a t u r e s   i m po r t a nt   f o r   c l a s s i f i c a t i o n ,   h e n c e   t h e   pr e di c t o r s   (o f e a t ur e s w e r e   s e t   a s   s i g n i f i c a nt   f e a t u r e s   w i t h   o dds - r a t i o   g r e a t e r   t h a 1 .   T h e   v a l ue   o f   t h e   r e g r e s s i o n   c o e ff i c i e n t s   w a s   s e t   a t   a n   i n c r e m e nt a l   f a c t o r   o 0. s t a r t i n f r o m   0 . u t o   1. t o   ge n e ra t e   10   f e a t ur e s .   10  f e a t ur e s   a r e   ge n e ra t e s i n c e   t h i s   i s   t o   a vo i poo r l y   gr ow n   t r e e   i f   t oo  f e w   f e a t ur e s   i n v o l ve d.   H e n c e ,   a   c ov a r i a t e   w i t h   a   c o e f f i c i e n t   o f   1. w i l l   gi v e s   a   s i g n i f i c a n t   o dds   ra t i o   (O R of   3. 32012  fo r     X   (O R   =   1 . 2 =   3. 32 012) .   W e   c o n s i de r e s i i m b a l a n c e ra t i o s   (IR ):   5% ,   10 %,   20% ,   30 %,   40%  a n d   50%   w h e r e   IR   of   5%  r e f l e c t s   a   h i g hl y   i m b a l a n c e c l a s s   i n   t h e   r e s po n s e   v a r i a b l e .   T h e   f ul l   m ul t i v a r i a t e   l o gi s t i c   r e g r e s s i o n   (M L R i s   p r e s e n t e d   i (3) :       (3)     w h e r e   k 0 i s   v a r i e a c c o r di n t o   t h e   IR .   T h e   di s t ri b ut i o n   o f   t h e   c ov a r i a t e s   (X c o n s i de r e i n   t h i s   s t udy   i s   t h e   s t a n d a r n o rm a l   di s t ri b ut i o n,   N (0, 1) .   T h e   s a m pl e   s i z e s   w e r e   ge n e ra t e f o r   1000,   5000  a nd  10000  s ub j e c t s   i n   o r de r   t o   pe rm i t   t h e   i n v e s t i ga t i o n   o f   t h e   l e a rn i ng  a b i l i t y   of  bo t h   a l go r i t hm s   a s   s a m p l e   s i z e   i n c r e a s e s .   T h e   s i m ul a t e da t a   i s   t h e n   s pl i t   i nt o   90%  t ra i n   a nd  10%  t e s t   by   us i n t e n f o l c r o s s   v a l i da t i o n   s t r a t e g y   w h i c c o n s i s t s   of   di v i di n t h e   da t a   s e t   i n t o   t e n   s t r a t i f i e pa r t i t i o n s   of   e xa m pl e s .   E a c h   pa rt i t i o n   ha s   a   s i m i l a r   IR .   T h e   90%: 10 s pl i t t i n s t r a t e g y   i s   pra c t i c a l   f o r   i m b a l a n c e c l a s s   l e a rn i ng  i n   o r de t o   a l l o w   t h e   de c i s i o n   t r e e s   t s uff i c i e n t l y   r e p r e s e n t   t h e   u n de r - r e p r e s e n t e g r o up  ( r a r e   c l a s s t o   b e   s a m pl e du ri n g   t h e   de c i s i o t r e e   c o n s t r uc t i o n   p r o c e dur e   [ 22 ].   F i n a l l y ,   b a s e o n   t h e   c o n f us i o n   m a t ri i n   F i gu r e   4 ,   t h e   b a l a n c e   a c c u r a c y   (B A CC)  a s   s h o w n   i ( 4)  i s   a v e r a ge a f t e r e pe t i t i o n s   o v e r   v a r i o us   s a m pl e   s i z e s   a n d   IR s   t o   a v o i n o i s e .           F i g u r e   4 .   Co n f us i o n   m a t r i x       2 N TN P TP B A C C   (4)     3. 2 .       A p p l i c at i o n s   to   r e a l   d a ta  s e ts   T h e   s um m a r y   of   t h e   da t a   s e t s   us e i s   p r e s e n t e i n   T a b l e   1.   T h e   da t a   s e t s   h a v e   v a r i o us   i m b a l a n c e d   ra t i o   (IR r a ngi n f r o m   1 . 4%  t o   40%.   T h e   m o s t   s e v e r e   c l a s s   IR   i s   t h e   B i o a s s a y _A ID 362  da t a   s e t   w i t h   144   f e a t ur e s   of  s i z e   4279  w h i l e   b o t h   D i a b e t e s - F r a n kf urt   a n D i a b e t e s - P i m a   h a v e   t h e   l e a s t   n u m b e r   o f e a t ur e s .   H e pa t i t i s   i s   t h e   s m a l l e s t   da t a   s e t   w h i c h   c o n s i s t   o f   155  i n s t a n c e s .   T h e   c l a s s   l a b e l s   a r e   p r e s e n t e i t h e   pa r e nt h e s e s .   N o t e   t h a t   b o t h   B i o a s s a y   da t a   s e t s   a r e   h i g h l y   s ke w e w i t h   IR   l e s s   t h a n   15 %.   T h e s e   da t a   s e t r e qui r e   a   d a t a   p r e - p r o c e s s i n i o r de r   t o   a v o i poo r l y   s t r uc t ur e t r e e s   s i n c e   i t   i s   l e a rn t   t ha t   t h e   m i n o ri t y   c l a s s   i s   n o t   s uf f i c i e n t   t o   p r o v i de   e ffe c t i ve   de c i s i o n   b o un da r i e s   f o r   t h e   t r e e   a l go ri t hm s   t o   l e a rn   t h e   ra r e   c l a s s   pa t t e rn.   T h us ,   t h e   s y n t h e t i c   m i n o r i t y   ov e r s a m pl i n t e c hn i q ue   (S M O T E w a s   a pp l i e us i ng  W E K A   s o f t w a r e   i n   o r de t o   i m p r o v e   t h e   IR   t o   be   30%  s i n c e   t h o r o ug h   e xpe ri m e nt s   s h o w   t h a t   t hi s   IR   i s   r e a s o n a b l e   t o   pr o v i de   i n f o r m a t i o n   f o r   l e a rni n e xpe ri e n c e   du r i n t h e   t r a i n i ng  p h a s e .   T h e   e xpe r i m e nt   w a s   i n i t i a t e by   ge n e r a t i n a   10 - f o l ds   c r o s s - v a l i da t i o n   t o   s pl i t   t h e   da t a   s e t s   i nt o   90%  t ra i n   a nd  10%  t e s t   do m a i n s .   T h e n,   a l l   c o n t i nuo us   f e a t ur e s ,   i f   t h e r e   a r e   a n y ,   w e r e   di s c r e t i z e d   b a s e o n   t h e   m i n i m um   de s c r i pt i o n   l e n g t (M D L p r i n c i pl e   by   [23].   T h e   s t o c h a s t i c   a l go ri t hm s   w e r e   r un   t i m e s   fo r   a l l   10 - f o l ds   da t a   s e t s   a n f i na l l y   t h e   B A CC  w a s   a v e r a ge a n Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   c l as s   s k e w - i ns e ns i t i v e   A CO - bas e de c i s i o t r e e   a l gor i t hm   f or . . .   ( Muham ad  H as bul l ah  B i Mohd   R az a l i )   417   v a l i da t e d.   B o t a l go ri t hm s   w e r e   r u w i t t h e   de f a ul t   pa ra m e t e v a l ue s   a s   de pi c t e i T a b l e   due   t o   t h e   go o d   pe r f o r m a n c e   t h a o t h e c o m b i na t i o n s   [1 0].       T a b l e   1 .   S u m m a r y   of   t h e   d a t a   s e t s     D a t a   s e t s   M a j o r i t y   c l a s s   f r e q .   M i n o r i t y   c l a s s   f r e q .   S i z e   N o   o f   fe a t u r e s   IR   1   Bi o a s s a y _ A ID 1 2 8 4   3 0 5   (In a c t i v e )   5 7   (A c t i v e )   362   103   15%   2   Bi o a s s a y _ A ID 3 6 2   4 2 2 1   (In a c t i v e )   6 0   (A c t i v e )   4279   144   1 . 4 %   3   D i a b e t e s _ F ra n k f u rt   1316  (N o n - d i a b e t i c )   6 8 4   (D i a b e t i c )   2000   8   30%   4   D i a b e t e s _ P i m a   5 0 0   (N e g a t i v e )   2 6 8   (P o s i t i v e )   768   8   30%   5   H e p a t i t i s   1 2 3   (L i v e )   3 2   (D i e )   155   19   20%   6   H o r s e   2 3 2   (N o )   1 3 6   (Y e s )   368   26   40%   7   Io n o s p h e r e   2 2 5   (G o o d )   1 2 6   (Ba d )   351   34   40%   8   S t a t l o g - H e a r t   150  (A b s e n c e )   1 2 0   (P re s e n c e )   270   13   40%   9   V o t e   2 6 7   (D e m o c ra t e )   1 6 8   (Re p u b l i c a n )   435   16   40%       T a b l e   2 .   P a ra m e t e r s   s e t t i ng   P a ra m e t e r s   V a l u e s   Co l o n y   s i z e   5   M a x   i t e ra t i o n s   500   M i n   c a s e   3   S t a g n a t i o n   40   E v a p o ra t i o n   ra t e   0 . 9       4.   R ES U LTS   A N D   A N A L Y S I S   4. 1 .       Bal an c e   ac c u r ac y   o s i m u l ati o n   an d   r e a l   d at s e ts   In   o r de r   t o   c o m pa r e   t h e   pe r f o r m a n c e   of   A T M   a n H A T M ,   b o t h   a l go ri t hm s   w e r e   f i t t e o n   t h e   s i m ul a t i o d a t a   s e t s   ge n e ra t e d   i S e c t i o 3 . 1   a nd   n i n e   (9)   pub l i c l y   a v a i l a b l e   d a t a   s e t s   f r o m   U CI  m a c hi n e   l e a rn i ng   r e po s i t o r y   [ 24 a s   s um m a ri z e d   i T a b l e   1.   T h e   a v e ra ge   B A CC   o f   10 - fo l ds   c r o s s   v a l i da t i o f o b o t h   do m a i n s   w e r e   r e c o r de i T a b l e   a n T a b l e   4   r e s pe c t i v e l y .       T a b l e   3 .   B a l a n c e   a c c ura c y   (B A CC)  o f     s i m ul a t i o da t a   s e t s   N o     D a t a   s e t   A T M   H A T M   1   S i m 1 _ 1 0 0 0 _ 5 %   * 5 0 . 5     0 . 3   * 5 0 . 5     0 . 3   2   S i m 2 _ 1 0 0 0 _ 1 0 %   6 1 . 6     0 . 8   6 2 . 0     0 . 9   3   S i m 3 _ 1 0 0 0 _ 2 0 %   7 0 . 1     0 . 6   7 2 . 3     0 . 7   4   S i m 4 _ 1 0 0 0 _ 3 0 %   7 3 . 5     0 . 4   7 3 . 9     0 . 5   5   S i m 5 _ 1 0 0 0 _ 4 0 %   7 1 . 1     0 . 4   7 1 . 5     0 . 3   6   S i m 6 _ 1 0 0 0 _ 5 0 %   7 0 . 8     0 . 4   6 9 . 2     0 . 4   7   S i m 7 _ 5 0 0 0 _ 5 %   5 5 . 8     0 . 2   5 5 . 5     0 . 4   8   S i m 8 _ 5 0 0 0 _ 1 0 %   5 8 . 2     0 . 3   5 7 . 2     0 . 3   9   S i m 9 _ 5 0 0 0 _ 2 0 %   6 7 . 2     0 . 2   6 7 . 0     0 . 3   10   S i m 1 0 _ 5 0 0 0 _ 3 0 %   * 7 1 . 1     0 . 3   * 7 1 . 1     0 . 3   11   S i m 1 1 _ 5 0 0 0 _ 4 0 %   7 3 . 1     0 . 2   7 4 . 0     0 . 3   12   S i m 1 2 _ 5 0 0 0 _ 5 0 %   7 3 . 9     0 . 2   7 3 . 4     0 . 2   13   S i m 1 3 _ 1 0 0 0 0 _ 5 %   * 5 0 . 0     0 . 0   * 5 0 . 0     0 . 0   14   S i m 1 4 _ 1 0 0 0 0 _ 1 0 %   5 6 . 1     0 . 2   5 6 . 6     0 . 2   15   S i m 1 5 _ 1 0 0 0 0 _ 2 0 %   6 4 . 3     0 . 1     6 4 . 8     0 . 3   16   S i m 1 6 _ 1 0 0 0 0 _ 3 0 %   6 9 . 1     0 . 2   6 9 . 5     0 . 2   17   S i m 1 7 _ 1 0 0 0 0 _ 4 0 %   7 2 . 1     0 . 2   7 2 . 2     0 . 1   18   S i m 1 8 _ 1 0 0 0 0 _ 5 0 %   7 4 . 3     0 . 2   7 3 . 3     0 . 1               * T i e s               * B o l d   v a l u e s   c o rr e s p o n d   t o   a l g o r i t h m   w i t h   h i g h e B A C C   T a b l e   4.   B a l a n c e   a c c ura c y   (B A CC)    of   r e a l   d a t a   s e t s   No   D a t a   s e t   A T M   H A T M   1   Bi o a s s a y   A ID 1 2 8 4   +   S M O T E   8 4 . 1     0 . 4   8 5 . 7     0 . 3   2   Bi o a s s a y _ A ID 3 6 2   +   S M O T E   9 3 . 2     0 . 3   9 3 . 4     0 . 2   3   D i a b e t e s - F ra n k f u rt   8 1 . 4     0 . 0 4   8 1 . 2     0 . 0 3   4   D i a b e t e s - P i m a   7 3 . 2     0 . 5   7 3 . 3     0 . 5   5   H e p a t i t i s   6 6 . 8     1 . 3   6 5 . 9     1 . 2   6   H o r s e   * 8 6 . 2     0 . 5   * 8 6 . 2     0 . 5   7   Io n o s p h e r e   8 8 . 7     0 . 3   9 0 . 5     0 . 4   8   S t a t l o g   H e a rt   8 2 . 0     0 . 4   8 2 . 3     0 . 5   9   V o t e   9 5 . 3     0 . 4   9 5 . 9     0 . 4   * T i e s   * B o l d   v a l u e s   c o rr e s p o n d   t o   a l g o r i t h m   w i t h   h i g h e B A C C       4. 2 .       S ta ti s ti c al   s i gn i fi c an c e   t e s   B a s e o n   T a b l e   a nd  T a b l e   4 ,   b o t A T M   a nd  H A T M   w e r e   c o m p a re f o r   s i g ni f i c a nc e   d i f f e r e nt   us i ng   t h e   n o np a ra m e t ri c   S i g n   T e s t   [ 25 ] .   T h e   nu l l   h y po t h e s i s   t o   b e   t e s t e i s   H A T M A T M o H :   a g a i n s t   t h e   a l t e rna t i v e   h y po t he s i s   H A T M A T M H : 1 .   T hi s   m a ke   t he   s i g ni f i c a nc e   t e s t   a   o n e - t a i l e t e s t   w i t h   s i g ni f i c a n c e   l e v e l   = 0 . 05 .   F r o m   b o t h   t a b l e s ,   w e   s e e   t ha t   H A T M   w i n s   15  t i m e s   o v e r   A T M ,   t i e s   t i m e s ,   a nd  l o s e s   t i m e s .   B a s e o n   t h e   t a b l e   o f   c ri t i c a l   v a l ue s   f o r   t h e   S i g n   T e s t ,   f o r   27  d a t a   s e t s ,   a   c l a s s i f i e r   n e e ds   t o   w i n   a t   l e a s t   1 t i m e s   f o r   t h e   nu l l   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   21 ,   N o .   1 J a n u a r y   2021   :     412   -   419   418   h y po t he s i s   t o   b e   r e j e c t e d   w i t h   s i g ni f i c a n c e   l e v e l   = 0 . 05  f o r   o n e - t a i l e t e s t .   T hus ,   s i n c e   H A T M   w i ns   15  t i m e s ,   i n   t hi s   c a s e ,   t h e   nu l l   h y po t h e s i s   c a n   b e   r e j e c t e d .   W e   c o n c l u de   t ha t   t he r e   i s   s uf f i c i e nt   e v i de n c e   t o   r e j e c t   t h e   nu l l   h y po t he s i s   t hus   i nd i c a t i ng   t h e   H A T M   a l go ri t hm   ha s   a   hi g he m e a o f   B A C C   t ha A T M .       5.   C O N C LU S I O N     T h i s   s t udy   h a s   de m o n s t r a t e t h e   h y b r i d   o f   H e l l i n ge r   D i s t a n c e   a s   n e w   h e uri s t i c s   m e a s u r e   i t h e   e xi s t i n g   A T M   a l go ri t hm   i s   a b l e   t o   i m p r o v e   t h e   l e a rn i ng  e xpe ri e n c e   o f   A T M   i n   i m b a l a n c e c l a s s   d a t a   s e t s .   T h e   H e l l i n ge r   D i s t a n c e   i s   r e l i a b l e   f o r   i t s   s ke w - i n s e n s i t i v e n e s s   w h e r e   i m p r o v e t r e e s ’  pe r f o r m a n c e   m e a s u r e by   B A CC  c a n   b e   i nduc e d.   T h e   s i m u l a t i o s t u dy   r e v e a l s   t ha t   H A T M   pe r f o r m e w e l l   f o r   i m b a l a n c e c l a s s   d a t a   s e t s   w h i l e   A T M   c o n s i s t e nt l y   i n duc e hi g h e B A CC  de c i s i on  t r e e   i a l l   b a l a n c e d   da t a   s e t s .   T h i s   i s   e xpe c t e s i n c e   e n t r o py - b a s e h e u r i s t i c   pu t   m o r e   w e i gh t a ge   o t h e   f e a t u r e s   w hi c c a s e pa ra t e   t h e   c l a s s   e v e n l y   w h i l e   s uf fe r e f r o m   i n f o rm a t i o l o s s   i i m b a l a n c e l e a rn i ng   e n v i r o n m e nt .   F u rt h e a ppl i c a t i o n s   o r e a l   d a t a   s e t s   de m o n s t r a t e   H A T M   i s   s t a t i s t i c a l l y   s i gn i f i c a n c e   fo r   i m b a l a nc e da t a   s e t s   w i t h   m i n i m u m   da t a   p r e - p r o c e s s i n g   e f fo r t s   t h us   s uppo rt   t h e   i ni t i a l   f i n di ngs   i n   o u r   s i m u l a t i o p r o c e dur e .   F u t u r e   r e s e a r c c o ul us e o t h e s t a t i s t i c a l   d i s t a n c e - b a s e f un c t i o n s   a s   t h e   a l t e rn a t i v e   h e uri s t i c   m e a s u r e .       A C K N O WL ED G E M EN TS     T h e   a ut h o r s   w i s t o   t h a nk  t h e   M i n i s t r y   o f   H i gh e r   E duc a t i o M a l a y s i a   f o r   f undi n g   t hi s   s t udy   un de F un d a m e nt a l   R e s e a r c G ra n t   S c h e m e ,   F R G S / 1/ 20 18/ S T G 0 6/ U IT M / 02/ a n d   R e s e a r c M a na ge m e n t   Ce n t r e   (R M C),   U n i v e r s i t i   T e k n o l o gi   M A R A ,   M a l a y s i a   f o r   t h e   a d m i ni s t r a t i o n   o f   t h i s   s t udy .       R EF ER EN C ES     [ 1]   H .   H e   a nd  Y .   M a ,   I m ba l a nc e l e a r n i ng :   f o unda t i o ns ,   a l g o r i t hm s ,   a nd  a p pl i c a t i o ns ,”   H o bo ke n,   N J :   I E E E   P r e s s ,   W i l e y ,   201 3.   [ 2]   D .   A .   C i e s l a k ,   e t   a l . H e l l i ng e r   d i s t a nc e   de c i s i o t r e e s   a r e   r o bus t   a nd  s ke w - i n s e n s i t i v e ,   D a t M i n i ng  a nd   K now l e dge   D i s c o v e r y ,   v o l .   24 ,   no .   1 ,   pp .   136 - 158 ,   201 2.   [ 3]   C .   C a r d i e ,   I m pr o v i ng   m i no r i t y   c l a s s   p r e d i c t i o u s i ng   c a s e - s pe c i f i c   f e a t ur e   w e i g ht s ,   i n   P r oc e e di ngs   of   t he   F our t e e nt I nt e r n at i on al   C on f e r e nc e   on   M ac h i ne   L e ar ni n g ,   pp .   57 - 65 ,   19 97 .   [ 4]   N .   V .   C ha w l a ,   e t   a l . S M O T E B o o s t :   I m pr ov i ng   P r e di c t i o o f   t he   M i no r i t y   C l a s s   i B o o s t i ng ,   i K n ow l e dge   D i s c ov e r y   i n   D a t ab as e s :   P K D D   200 3 ,   B e r l i n ,   H e i d e l be r g ,   pp .   10 7 - 119,   2 003 .   [ 5]   T .   M .   P a dm a j a ,   e t   a l . M a j o r i t y   f i l t e r - ba s e m i no r i t y   pr e di c t i o ( M F M P ) :   A a ppr o a c f o r   u nba l a nc e da t a s e t s ,   i T E N C O N   2 008   -   2 008   I E E E   R e gi on   10   C on f e r e nc e ,   p p.   1 - 6,   2 00 8.   [ 6]   B .   K r a w c z y k,   e t   a l . ,   I m pr o v i ng   m i no r i t y   c l a s s   p r e d i c t i o us i ng   c o s t - s e n s i t i v e   e n s e m b l e s ,   20 11 .   [ 7]   V .   G a r c í a ,   e t   a l . I nde o f   B a l a nc e A c c ur a c y :   A   P e r f o r m a nc e   M e a s u r e   f o r   S ke w e C l a s s   D i s t r i b ut i o ns ,   i P at t e r R e c og ni t i on   and   I m age   A n al y s i s ,   B e r l i n ,   H e i de l be r g ,   pp.   4 4 1 - 448,   20 09.   [ 8]   H .   N úñ e z ,   e t   a l . I m pr ov i ng   S V M   C l a s s i f i c a t i o o I m ba l a nc e d   D a t a s e t s   by   I nt r o duc i ng   a   N e w   B i a s ,   J our nal   o f   C l as s i f i c a t i o n ,   v o l .   34,   no .   3 ,   pp.   4 27 - 443 ,   2017 .   [ 9]   G .   A hn,   e t   a l . A   M e m be r s hi P r o ba b i l i t y B a s e U nd e r s a m p l i n g   A l go r i t hm   f o r   I m ba l a nc e D a t a ,   J o ur n al   o f   C l as s i f i c a t i o n ,   20 20 .   [ 10]   F .   B.   O t e r o ,   e t   a l . I nduc i ng   de c i s i o t r e e s   w i t a a nt   c o l o n y   o p t i m i z a t i o a l g o r i t hm ,   A p pl i e So f t   C om pu t i ng ,   v o l .   12,   p p.   36 15 - 3626 ,   201 2.   [ 11]   A .   F r e i t a s ,   e t   a l . A nt   c o l o n y   a l g o r i t hm s   f o r   da t a   c l a s s i f i c a t i o n,   E nc y c l ope di of   I n f o r m at i on  S c i e nc e   and   T e c hnol o gy ,   v o l .   1 ,   p p.   15 4 - 159 ,   2 009 .   [ 12]   C .   S e i f f e r t ,   e t   a l . R U S B o o s t :   A   H y br i A ppr o a c t o   A l l e v i a t i ng   C l a s s   I m ba l a nc e ,   I E E E   T r ans ac t i o ns   on   Sy s t e m s ,   M an,   a nd  C y be r ne t i c s   -   P ar t   A :   Sy s t e m s   and   H um an s ,   v o l .   40 ,   no .   1 ,   pp .   185 - 197 ,   201 0.   [ 13]   M .   N .   H a q ue ,   e t   a l . H e t e r o g e ne o us   E ns e m b l e   C o m bi na t i o S e a r c U s i ng   G e ne t i c   A l g o r i t hm   f o r   C l a s s   I m ba l a nc e d   D a t a   C l a s s i f i c a t i o n,   P L O O N E ,   v o l .   11 ,   no .   1,   p .   e 01 4611 6,   20 16.     [ 14]   J .   B i a n ,   e t   a l . A E f f i c i e nt   C o s t - S e ns i t i v e   F e a t u r e   S e l e c t i o U s i n g   C ha o s   G e ne t i c   A l go r i t hm   f o r   C l a s s   I m ba l a nc e   P r o bl e m ,”   M at he m a t i c al   P r ob l e m s   i E ngi ne e r i ng ,   v o l .   201 6 ,   pp .   1 - 9,   2 016 .   [ 15]   J .   N a y a a nd  B .   N a i k,   N o v e l   H o ne y - B e e s   M a t i ng   O pt i m i z a t i o A ppr o a c w i t H i g he r   o r de r   N e u r a l   N e t w o r k   f o r   C l a s s i f i c a t i o n,   J ou r na l   of   C l as s i f i c at i on ,   v o l .   3 5,   no .   3,   p p.   51 1 - 548,   201 8.   [ 16]   G .   I .   S a y e d,   e t   a l . A   N e w   C ha o t i c   W ha l e   O p t i m i z a t i o A l g o r i t hm   f o r   F e a t ur e s   S e l e c t i o n ,   J o ur na l   o f   C l as s i f i c a t i o n ,   v o l .   35,   no .   2 ,   pp.   3 00 - 3 44 ,   2018 .   [ 17]   L .   J .   R ub i n i   a nd  E .   P e r um a l ,   E f f i c i e n t   c l a s s i f i c a t i o o f   c hr o ni c   ki d ne y   di s e a s e   by   us i ng   m ul t i - k e r n e l   s u ppo r t   v e c t o r   m a c hi ne   a nd   f r u i t   f l y   o pt i m i z a t i o a l g o r i t hm ,   I nt e r n at i on al   J o ur n a l   o f   I m a g i n Sy s t e m s   and   T e c hno l og y ,   20 20 .   [ 18]   M .   A .   U .   H .   T a h i r ,   e t   a l . A   C l a s s i f i c a t i o M o de l   F o r   C l a s s   I m ba l a nc e   D a t a s e t   U s i ng   G e n e t i c   P r o g r a m m i ng ,   I E E E   A c c e s s ,   v o l .   7 ,   pp .   7101 3 - 71037 ,   201 9.   [ 19]   S .   H .   K ha n,   e t   a l . C o s t   S e ns i t i v e   L e a r n i ng   o f   D e e F e a t ur e   R e pr e s e nt a t i o ns   f r o m   I m ba l a nc e D a t a ,   ar X i v : 1 508 . 03 422 2 017 .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   c l as s   s k e w - i ns e ns i t i v e   A CO - bas e de c i s i o t r e e   a l gor i t hm   f or . . .   ( Muham ad  H as bul l ah  B i Mohd   R az a l i )   419   [ 20]   S .   K .   G ur a m a n d,   e t   a l . O p t i m i z e b i o - i ns p i r e ke r ne l s   w i t t w i s uppo r t   v e c t o r   m a c hi ne   us i ng   l o w   i d e nt i t y   s e qu e nc e s   t o   s o l v e   i m ba l a nc e   m u l t i c l a s s   c l a s s i f i c a t i o n ,   J ou r na l   of   E n v i r onm e nt al   B i o l og y ,   v o l .   40,   no .   3 ( S I ) ,     pp.   56 3 - 576,   2 019 .   [ 21]   H .   Y u,   e t   a l . A C O S a m pl i ng :   A a nt   c o l o n y   o pt i m i z a t i o n - ba s e u nde r s a m p l i ng   m e t ho f o r   c l a s s i f y i ng   i m ba l a nc e d   D N A   m i c r o a r r a y   da t a ,   N e ur oc om pu t i n g ,   v o l .   101 ,   pp.   3 09 - 318 ,   20 13.   [ 22]   G .   M .   W e i s s   a n F .   P r o v o s t ,   L e a r ni ng   w he t r a i n i ng   da t a   a r e   c o s t l y :   t he   e f f e c t   o f   c l a s s   di s t r i bu t i o o t r e e   i nduc t i o n,   J our nal   o f   A r t i f i c i a l   I n t e l l i ge nc e   R e s e ar c h ,   v o l .   19 ,   no .   1,   pp .   315 - 354 ,   200 3.   [ 23]   U .   M .   F a y y a a nd  K .   B .   I r a ni ,   M u l t i - I nt e r v a l   D i s c r e t i z a t i o o f   C o nt i nuo us - V a l ue A t t r i bu te s   f o r   C l a s s i f i c a t i o L e a r ni ng ,   J e t   P r o pul s i o L a bo r a t o r y ,   C a l i f o r ni a   I ns t i t ut e   o f   T e c hn o l ogy ,   1993.   [ 24]   D .   D u a   a nd  C .   G r a f f ,   U C I   M a c hi ne   L e a r ni ng   R e po s i t o r y ,   I r v i ne ,   C A :   U ni v e r s i t y   of   C a l i f o r n i a ,   S c ho o l   o f   I n f o r m a t i o a nd   C o m put e r   S c i e nc e ,   2019 .   A v a i l a b l e :   ht t p: / / a r c h i v e . i c s . uc i . e d u/ m l .   [ 25]   N .   J a pko w i c z   a nd  M .   S h a h ,   E v a l ua t i ng   L e a r n i ng   A l g o r i t hm s :   A   C l a s s i f i c a t i o P e r s p e c t i v e ,”   U S A ,   C a m br i dg e   U ni v e r s i t y   P r e s s ,   2011 .       B I O G R A P H I ES   O F   A U T H O R S         M u h am ad   H as b u l l ah   B i n   M o h d   R az al i   ho l d   a   B a c he l o r   i n   S t a t i s t i c s   ( 20 08 )   a nd   M a s t e r   o f   A ppl i e S t a t i s t i c s   ( 20 11)   f r o m   U ni v e r s i t i   T e kno l o g i   M A R A ,   M a l a y s i a .   C ur r e n t l y   he   i s   pur s u i ng   P hD   i S t a t i s t i c s   i n   U n i v e r s i t i   T e k no l o g i   M A R A ,   M a l a y s i a .               R i z au d d i n   S ai an   i s   c ur r e nt l y   a   S e ni o r   L e c t ur e r   a t   F a c ul t y   of   C o m put e r   a nd  M a t he m a t i c a l   S c i e nc e s ,   U n i v e r s i t i   T e k no l o g i   M A R A   ( P e r l i s ) ,   M a l a y s i a   a nd  h a s   be e t e a c h i ng   t he r e   s i nc e   O c t o be r   199 9.   H e   r e c e i v e d   hi s   B S c   H o no ur s   i M a t h e m a t i c s   f r o m   U ni v e r s i t i   M a l a y a   i 199 8 ,   M S c   ( I nf o r m a t i o T e c hno l o gy )   ( T i t l e :   S t e m m i ng   A l go r i t hm   i S e a r c hi ng   M a l a y   T e xt )   i 2 005 ,   a nd  P hD   ( T i t l e :   A   H y br i o f   A nt   C o l o n y   O pt i m i z a t i o A l g o r i t hm   a nd  S i m ul a t e A nne a l i ng   f o r   C l a s s i f i c a t i o R ul e s )   i n   201 f r o m   U n i v e r s i t i   U t a r a   M a l a y s i a .         Y ap   B e e   Wa h   ho l ds   a   B a c he l o r   i M a t he m a t i c s   f r o m   U ni v e r s i t i   S a i n s   M a l a y s i a ,   M a l a y s i a   i n   1985  a nd  M a s t e r s   d e g r e e   i S t a t i s t i c s   f r o m   U ni v e r s i t y   o f   C a l i f o r ni a ,   R i v e r s i de ,   U S A   i 1993 .   H e r   P hD   i S t a t i s t i c s   w a s   o bt a i n e f r o m   U ni v e r s i t i   M a l a y a ,   M a l a y s i a   i 2001 .   H e r   r e s e a r c h   i nt e r e s t s   a r e   i D a t a   M i n i ng ,   M u l t i v a r i a t e   A na l y s i s ,   S t a t i s t i c a l   M o de l i ng ,   C o m put a t i o na l   S t a t i s t i c s                 K u   R u h an K u - M ah am u d   ho l ds   a   B a c he l o r   i M a t he m a t i c a l   S c i e nc e s   a nd  a   M a s t e r s   de g r e e   i n   C o m put i ng ,   bo t f r o m   B r a df o r U ni v e r s i t y ,   U ni t e K i ng do m   i 19 83  a n 1 986  r e s pe c t i v e l y .   H e r   P hD   i n   C o m put e r   S c i e nc e   w a s   o b t a i ne d   f r o m   U ni v e r s i t i   P e r t a n i a M a l a y s i a   i n   199 4.   A s   a n   a c a de m i c ,   he r   r e s e a r c i nt e r e s t s   i nc l ud e   a n t   c o l o n y   o pt i m i z a t i o n,   p a t t e r c l a s s i f i c a t i o a nd   v e hi c l e   r o ut i ng   pr o b l e m .       Evaluation Warning : The document was created with Spire.PDF for Python.