Indonesi an  Journa of El ect ri cal Engineer ing  a nd  Comp ut er  Scie nce   Vo l.   13 ,  No.   1 Jan uar y   201 9 ,   pp.  102 ~ 108   IS S N: 25 02 - 4752, DO I: 10 .11 591/ijeecs .v1 3 .i 1 .pp 102 - 108          102       Journ al h om e page http: // ia es core.c om/j ourn als/i ndex. ph p/ij eecs   Integr ation o f syn thetic mi nority  overs ampli ng tech niq ue for  imb alance class       Noviyan ti S anto s o, W ahyu Wi bo w o, Hil d Him awa ti   Depa rtment  o B usiness Sta ti sti cs,   Facu lty   of  Voc at ion al ,     Instit ut Te kno lo gi  Sepuluh   Nope m ber ,   Kam pus IT S Su koli lo - Sur abay a ,   Indon esia       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   A ug   1,   2018   Re vised  N ov 1 , 2018   Accepte d Nov   19 , 201 8       In  the   data  m ining,  class   imbala nc is  probl emati issue  to  l ook  for  the   soluti ons.  It  p r obably   be ca use   m ac hine   le a rni ng  is  construc t ed  b y   using   al gorit hm with   assum ing  the   n um ber   of  insta n ce in  ea ch  b ala nce c la ss ,     so  when  using  a   cl ass  imbala nc e ,   it   is  poss ibl th at   the   pre d ic t ion   result are   not  appr opri ate.   They   ar solut io ns  offe red   to   sol ve  class   imbalance   issues,   inc ludi ng   ove rsam pli ng,   un der sam pli ng,   and  s y n the t ic  m inorit y   over sam pli ng  technique   (SM OT E).   Both  ov ersa m pli ng  and  und ersa m pli ng  ha ve  it disadv ant ag es,   so  S MO TE   is  an  al t ern ative  to  over come  it .     B y   integra t ing  SM OTE  in  the   dat m ini ng  cla ss ifi ca ti on  m et h od  such  as   Naive   B a y es,   S upport  Vec tor  Mac hine  (SV M) ,   and  R andom  Forest  (RF)  is   expe c te to  improve  the   p erf or m anc of  a cc ur acy .   In   thi rese arc h,   it   was   found  tha t   the  d at of   SM OTE  gave   b et t er  a cc u racy   th an  th or igi nal  data.    In  addi ti on  to  t he  thre c la ss ifica t ion  m et hods  used,   RF   give the   highe st   ave rag AU C,   F - m ea sure,   and  G - m ea ns score .   Ke yw or ds:   Accuracy   Data m ining   Im balanced  cl a ss   SMOTE     Copyright   ©   201 9   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e .     Al l   rights re serv ed.   Corres pond in Aut h or :   Noviya nti Sa nto so   Dep a rtm ent o f B us iness  Stat ist ic s,  Faculty  of  Vocat ion al ,     In sti tut Te knol og Sepulu h N op em ber ,   Kam pu s ITS  S ukolil o - Suraba ya , 60111, I ndon e sia .   Em a il no viya nt i_s@stat ist ika.it s.ac.id       1.   INTROD U CTION   cl ass  on  da ta set   with  unbalance cl ass   distrib utio m akes  cl assifi cat ion   res ults  m or li kely   to   belo ng   to  m ajo rity   cl ass  than  the  m ino rity   cl ass.  Cl ass  i m balance  in  t he  dataset   is  prob le m   in  machin e   le arn in g,   wh e r the  m ajo rity   (n e gative)  cl as is  hig he tha the  m ino rity   (positi ve)   cl as s.  The  iss ue  of   cl ass   i m balance  is  a   com m on   pr oble m   fo und  in   the  dataset   in  var io us   fiel ds,  includi ng   ba nkr up tc y   pr e di ct ion cred it   ca rd  f ra ud  detect io [ 1] an disease  diag nosis  [ 2].  Cl ass  i m balance  is  ve ry  diss erv i ng  f or  rese arch e rs   that  are  en gaged  in  data  m ini ng.  The  reas on  is  in  the  data  m ining   ge ner al ly   has  diff ic ulti es  in  cl assify i ng   t he   m ino rity   cl ass  corre ct ly That   al gorithm   assume that  the  te ste cl ass  distri bu ti on h as  al re ady  balan ced  s that   there  is   an   er ror  in   cl assify in the v al ue   of  ea ch  cl ass.   Mo re ov e r,  m achine learn in al gori thm are  desig ned  to   gen e rali ze  the  te ste data  as  equ al   an m ake  the  si m plest  hypothesis.  T he   pr inci ple  is  e m bed ded   in  va rio us  al gorithm su ch  as  decisi on   tree,  near est   neighb or a nd  suppo rt  vec tor  m achine.  Ther e f or e,  when  this   al gorithm   te sts   the  un balance dataset it   wi ll   te nd   to  f ocus  on  m ajo rit and   i gnore  t he  m ino rity   cl ass  an causin e rrors  in m ino rity  class cl assifi cat io n.  Mi nority  class i s consi der e as  noise  on ly .   The  pro blem   o cl assifi cat ion  te sti ng   m et ho in  i m balance dataset usua ll hav the  ch aracte risti cs  as  cl assifi ed  in sta nce  val ues  ( m isc la ssific at i on   c o st)  i the  m ino rity   cl ass  higher  t han   t he   m isc la ssific at i on   i m ajo rity   cl ass.   Ma ny  of   rese arch   [3 - 6]  ha ve   pro vid e the   releva nce  of  this  m a tt er  in  cl assifica ti on   c ase.    In   rece nt  ye ar s,  cl assifica ti on   pro blem   fo i m balanced  dataset beca m the  chall e ng i ng   r esearc top ic .   Ther e f or e,   the  chall enge  in  overc om ing   this   is  how  to  cl as sify  m ino rity   cl ass  m or accu ratel y.  Accor din t Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le En &  Co m Sci     IS S N:  25 02 - 4752       In te gr atio n of  Syn t hetic  Min ori ty  O vers ampl ing   Tech nique  for Im ba l an ce d C lass   ( Noviy anti  San t oso )   103   researc [7 ] t he   way  to  overc om the  cl ass  im balance  is  to  resam pling   the   or i gin al   datas et ei ther  i m i nority   cl ass (ov e rsam pling),   or m ajorit y cl ass ( un de rsam pling ).   Ov e rsam pling   is  m echan is m   fo balanci ng   cl ass  distri bu ti on  by  ra ndom ly   rep li cating   m ino rity  cl ass  instance.   Howe ver t he   la ck  of   over sam pling   is  the  increase possibil it ov e r fitt ing becau s this   proce dure  m akes  the  d up li cat ion   of  in sta nc es  preci sel y.  Unde rsam pling   is  a   pr ocedu re  f or  balanci ng  cl ass  distrib ution  by  ra ndom ly   su btracti ng  the  m aj or it cl ass  in sta nce.  The   la ck   of  un der sam pling  is  the   loss   of  the   essenti al   data  for  the  c onti nuit of   the   de ci sion   m aking  the  proce ss  by   m achine  le arn i ng   [8 ] The [ 9]   pro po se a   so l ution  cal le S yntheti Mi nor it Ov ersam pling  Tec hn i qu e   (S MOT E).  S MOTE  ca ge ner at e   syntheti m inorit sa m ple  cl a ss  util iz ing   int erpolat ion   proc esses  bet ween   m ino rity   cl ass  instance  that  l oc at ed   adj ace nt.  SMO TE u ti li zes the  near est   neig hb or s  f act or  a nd t he desire d ov e r sam pling  level.   Ther a re  sev eral  work tha integrated  S MOTE  an da ta   m ining   te ch nique.  Acc ord ing   to  [ 10]   com bin at ion   a m on SM OT an Tom ek  li nk s   as  resa m pl ing   a ppr oa ch  s how bet te pe rfo rm ance  in   i m balanced  cl ass  dataset F urt her m or e,  c on cl us io of  [ 11 ]   is  AU sc ore  of   im balance dataset   wh ic ha resam pling   us ing  SM OTE  i nc reasin as   we ll   as  pe rfor m ance  of  accu rac for  al data  m ining   m et hods   t hat  integrate in I the   m edical   dataset [ 1 2]  a pp li ed   SM OT ensem bled  m achine  le ar nin ap proac t predict   diabetes  m el lit us t he  r esults   is  Ra ndom   Fo rest  (RF)  an Naïve  Ba ye show t he  gr eat er   sc or for  al l   evaluati on  m easur em ents.  W hile  [ 13 ]   a nd  [14]  co nclu de   that  SV M   an C.   45  is  outs ta nd in m et hods   t o   pr e dict  kind  of  fish  based   on   DNA  ba rc od e The re  is  no   ex act ly   a ppr oach   that  consi ste ncy  prov i de s   appr opriat e p e r form ance,  beca us e it   dep e nds  on quali ty  and  char act e risti c of it s d at aset .     Ba sed  on  the   descr ipti on   above,  t his  re search  will   i nteg rat the  SMOTE  a nd   data  m ining  cl assifi cat ion   m et ho ds   of   N ai ve  Ba ye s,  S VM,  an RF   to  evaluate  their  pe rfor m ance  to  ov e rc om ing   unbalance cl a ss  on  ba nk i ng  case.  T he  resu l ts  of  this  st ud y   are  e xpect ed  t be  a al te r na ti ve  in  set tl em ent  of  cl assifi cat ion   cases  w it unba la nced   cl asses  in  var i ou fiel ds S it   can  be  an  early   warnin m od el   to  pr e dict   the ev e nts t hat  will  co m e w it a h i gh d e gree  of accu racy.       2.   RESEA R CH MET HO D   2.1 .     D atase t   This  resea rc is  us in Ba nk  Mark et in dataset from   UCI  Ma chine  Lea rni ng From   45 210  i ns ta nc e s ,   as  m uch   as  10 sam ple  is  r andom ly   ta ken   so  that  t he  nu m ber   of  insta nc es  use is  4521.  T he   total   of  52 instances  ( 13 %)  belo ng  to   m ino rity   (p osi ti ve)   cl ass,  and   4000  instances  ( 87 % is  includi ng   m ajorit (n e gative)  clas s.  It i nd ic at es  t hat the Ba nk  Ma rk et in g data set  h as a n u nb a la nced  class  ca te gory.   To  e valuate  t he  m od el we   sp li dataset   into  trai ning  s et   and  te sti ng  set   in  f our  c om bin at ion s,     i.e. ,   90:1 0,   80: 20,  70:3 0,   an 50 :5 0.   Pe rform   the  validat i on   us in 5 - f old   cross  validat ion   th e cal culat the   accuracy  of cla ssific at ion   us in th ree e valuat ion  m easur es , i .e.,   A UC, G - m eans,  and  F - m e asur e .     2.2 .       Metho ds   2.2.1 S ynthe tic Min orit O ve rsamplin Te chnique   The  SMOT m et ho pr opose by  [9 ]   as  one  of   the  s olu t ion in  deali ng  with  unbalanc ed  data  wit the  di ff e ren pri nciple  from   the  pre viously   pro posed   ove rsam pling   m eth od.   Wh e t he   oversam plin has  var i ou s   pri nci ples  ra ndom ly ,   SMOTE   m eth od  a dds  the   nu m ber   of  m i nor  cl ass  t e qu al   t m ajo r   cl ass  by  gen e rati ng  arti fici al   data.  The   arti fici al   or   synthesis  data  is  m ade  base on   k - nest  nei ghbor.   Determ ini ng   t he   nu m ber   of  k - ne st  neighb or by   con side rin t he  ease  of  the  app li cat io n.   Ge ner at in arti fic ia nu m erical   da ta   is   diff e re nt  from   cat ego rical   da ta Me asur in the  distan c of   num erical   data  us in Eucli dean   di sta nce,    wh e re  cat e gorical   data  is  sim pler  th an  num e rical   data,  it   m easur e by  the   m od value Gen e rat in ne data,   in g e ne ral,  us in g   (1).                     (1)     2.2. 2 Na ï ve  B ayes   Naive  Ba ye s   is  sim ple  pr oba bili sti classifier  t hat  c al culat es  pro ba bili ti es  by  s umm ing   the   fr e qu e ncies  an com bin at ions  of   dataset giv e n.   T he  al gorithm   us es  Ba ye theor em   and   as su m es  al the  ind e pende nt  or  no nm utu al   at tribu te giv e by  va lues   on   t he  cl ass  var ia bles  [ 15 ] .   Naive  Ba ye s   is  cl assifi cat ion   te chn i qu with  pro bab il it and  sta ti sti ca m eth od  br ought  by   Brit ish  sci e ntist   Tho m as  Ba ye s,  pr e dicti ng   t he   fu t ur opport un it ie bas ed  on   t he  past  exp e riences   an it   is  known   as  Ba ye Th eo rem .   Com bin ing   t he   theo rem   with  Naive  w hich  t he  c onditi on  be tween  at tri bu t es  is  ass um ing   ind e pende nt.  T he  NB   cl assifi cat ion   i assum ed  that   whet her  there   is  the  prese nc of  certai featur e   or  no t,   it   has  nothi ng  to  do   with  the  cha ra ct erist ic of   the  oth e cl asses The  cal culat ion   of   NB  is  th Xi  occurre nc pr oba bili ty   i the  Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   13 , N o.   1 Ja nu a ry 20 19   :   102     108   104   cl ass  cat eg or of  P (C|Xi)  m ul ti plied  by  cl ass  cat eg or of  P (C)  pro ba bili ty Then  t he  resu lt   is  m ulti plied  by the  occ urre nce  of X var ia ble pr ob a bili ty  P( Xi ) . Mat hem at ic al ly , it i s w ritt en  in t he fol lowing e quat io n:     ( | ) ( ) ( | ) () i i i P C X P C P C X P PX                   (2)     The  ne xt  pr oc ess  is  op ti m al   cl ass  sel ect ion  by  c hoos i ng  the  la r gest  pro ba bili ty   value  of  eac cl ass   pro bab il it y. He re is the  for m ula to c hoos e  the  larg est   valu e s how by (3)                   (3)     Functi on   3   is  t he  Nai ve  Ba ye m od el   wh ic the  ne xt  will   be   us e f or   cl as sific at ion   if  Xi  is  rand om   var ia ble  with  c at egorical   data.  If   Xi  is  co nt inu ous  data,  it   is  assum ed  as  data  that  f ollo Ga us   distrib utio wit h densi ty  f unct ion  in  ( 4 ).                   (4)     W he re µ  is m e an,  a nd σ  is the  stan dard  dev ia ti on .     2.2.3 S upp ort  Vector  M achi ne   Suppor Vecto Ma chi ne  ( SVM is  le anin that  us es  a op e s pace  i high  dim ensi on al   featu r e   sp ace.  Tr ai ning  the  al gorithm   based   on  op ti m iz at ion   theor by  im ple m enting  le arn in bias   [1 6] .     SV becam fam ou be caus of  it s ucces in  rec ognizin hand wr it in dig it with  1%   of  e rror s T he   basic   con ce pt  of  SVM   is  to  find   an  optim al   fu nction  th at   can  sepa rate  two  dataset f or  two  dif fer e nt   cl asses.     This  te ch ni qu e  h as  a c onvin ci ng p e rfo rm ance in pr e dicti ng  a n e w data  clas s.   SV is  in  the  sam e   cl ass  wit the  A rtific ia Neural  Netw ork w hich  is  in cl ud in in  the  su pe r vised   le arn in g,   but  in  it i m ple m entat ion S WM  giv es  bette res ults  than   ANN,   es peci al ly   in  a chiev ing   th e   so luti ons.   S V has  good  perform ance  f or  so l ving  m any  pro blem of  i den ti fica ti on   [17].  M oreo ver,    SV can  fi nd   the  op ti m u m   s olu ti on  in  each   runn i ng   [ 18] Accor ding  to  [ 19 ] the  S VM  m et ho is  eff ic ie nt  to   so lve  classi fica ti on   for bina ry  cl ass.   The  m axi m u m   m arg in  hype r plane   giv es  t he   m axi m u m   se par at io betwe en  the  decisi on  cl asses  as   sh ow in  Fig ure  1.  I the   tra ining  dataset   i an  im balance,  the the  c hoic of  the   opt i m al   hyper pla ne  was  aff ect ed  dom in antly   by  sa m ples  vecto rs  of  m ajo rity   cl ass,  cl ass  wh ic has  m uch   m or sa m ples  data  [13].   The  se pa rator f un ct io t o dete rm ine the d at cl ass for x is  as  (5) :                       (5)           Figure  1. The   m axi m u m   m ar gin   hype r plane  of SVM         M a x i m u m     m ar g i n   X 1   X 2   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le En &  Co m Sci     IS S N:  25 02 - 4752       In te gr atio n of  Syn t hetic  Min ori ty  O vers ampl ing   Tech nique  for Im ba l an ce d C lass   ( Noviy anti  San t oso )   105   W he re    an   ar coe ff ic ie nts  t hat  est im a te by   m ini m iz ing   the  re gula rized   risk  functi on.  Kernel  m et ho is   the  so luti on  th at   us es  to  dupl ic at SV wh en  the  data  is  hard  or   m ayb i m po ssible  to  be  cl assifi ed  with   lim it ed  li near   fiel ds The  us of   Ke r nel  m et ho ca us ed  da ta   in  inp ut  spa ce  being   m app ed  in  the  fe at ur e   sp ace  with  hi gh e dim ension al   by  φ  m ap  as  φ  →  φ(x ) T his  m a pp i ng  is  doin t keep i ng  th dat a   char act e risti cs  or  data  t opol ogy.  So m of  the   Ke rn el   ge ner a form that  use for  t he  S V m e tho are   li near,   po ly nom ia l, rad ia l basis  f un ct ion ,  and  sigm oid .     2.2.4  Rand om  Fo res t   Ra ndom   fo rest   is  one  of   t he  e ns em ble  m et ho ds   to   im pr ov t he  acc ur acy   of  data  cl assifi c at ion   of   a un sta ble  sing le   div ide thr ough  m ult iple  com bin at ion of   m et ho ds   sim i l ar  to  the  vo ti ng  process  to  ge final  cl assifi cat ion   pr e dicti on.  Th te r m   RF  was  propose by   [20]  from   Boo tst rap   Agg regat ing   proce ss  or   m ore   popul arly   kn own   as  Ba gg i ng.  I t he  baggin process , b oot strap  resam pling  is used  to generate  a   cl assifi cat ion  tree.  The  cl assifi cat ion   tree  is  gen e ral  te chni qu with  m ultip le   ver si ons  w hich  the it   com bin es  to  ob ta in  the   final  pre dicti on Where  t he  RF  m e tho d,   ra ndom iz at ion   proces is  not  only   done  on  th sam ple  data  bu al s on   t he  in depen den var ia bles  colle ct ion s t hat  the  cl assifi cat ion   tree  raised,  will   hav t he  di ff e ren siz es  an sh a pes.   RF   is  de velo pm ent   of  decisi on  tree  ( DT).  I t he  DT,   t he  cl a ss ific at ion   tree   is  m ade  in  on ly   on e,   wh il in  RF  i m ade  m or than  one  an it   ov erc om es  no ise   a nd  m is sing   value T he   al gorithm   of   RF  is    sh ow n by:   S t e p   1 :   T o   g e t   t r a i n i n g   d a t a ,   g e n e r a t e   n e w   r a n d o m   s a m p l e   w i t h   b o o t s t r a p   r e s a m p l i n g   m e t h o d   N   t i m e s .   S t e p   2 :   M a k e   t h e   d e c i s i o n   t r e e   o r   r e g r e s s i o n   t r e e   b a s e d   o n   d a t a   b y   S t e p   1   S t e p   3 :   R e p e a t   S t e p   1   a n d   S t e p   2 ,   s o   i t   w i l l   o b t a i n   s e v e r a l   t r e e s   a n d   b e c o m e   a   f o r e s t   S t e p   4 :   L e t   e a c h   o f   t h e   t r e e s   c h o o s e   t h e   X   S t e p   5 :   C o u n t   t h e   n u m b e r   o f   t h e   c h o s e n   X i   i n   e a c h   c l a s s .   T h e   c l a s s   w i t h   t h e   m o s t   n u m b e r   i s   t h e   d e t e r m i n a n t   o f   a   c l a s s i f i c a t i o n   l a b e l   f o r   X i .   S t e p   6 :   T h e   i m p r o p e r   p e r c e n t a g e   c l a s s i f i c a t i o n   i s   t h e   c l a s s   e r r o r   r a t i o   i n   t h e   r a n d o m   f o r e s t .   Accor ding  to  [ 21 ] i the  im balanced  pr e dict ion   us in rand om   fo rests,  t he re  are  t wo   a ppr oach e s:  one  is  cost  sensiti ve   le arn in wh i ch  inc orp or at e cl ass  weig hts   into  the  rand om   fo rests  cl ass ifie r,   an t he  ot her   is   by  us in over - sam pling   m et h od with  the  m ino rity   cl ass  and   or  un der - sam pling   with  the  m ajo rity   on to   balance t he ori gin al   data.     2.2.5  Accur ac y Mea sureme nt   Cl assifi cat ion   accuracy  is  use to  asse ss  t he  go odness  of  m od el   in  r epr ese ntin or  cl assify ing   act ual  eve nts.  The  m easur of  cl assifi cat io accu racy  us e for  unbala nce data  is  A rea   U nd e R OC  Curve  (AUC).   A UC  i com plete   accuracy  i the   c on te xt  of  im balance  acc ur acy I perf or m ing   AU cal c ula ti on s,    it  n eeds to  calc ulate  sen sit ivit y and  s pecifici ty  f irst. For easi er calculat ions,  it  u su al ly  u ses  a co nf us io m at rix.   The fo rm ula to calculat e the s ensiti vity , s pec ific it y and   AUC  score is s ho wn b (6), ( 7),  and ( 8).                     (6)                     (7)                   (8)     Ther e   are   ot he cl assifi cat io evaluati on  m easur e s;  there   are  G eom et ric  Me ans  (G - m e ans)  w hich  was  int rod uced  by  [ 22] T he  ba sic   idea  w as  t m axi m iz th accu racy  of  e ach  cl ass  by  ke epin the   bala nc of  the both                   (9)     Stud by  [ 6]  wer usi ng  F - m easur to  ev al uate  the  cl assifi cat ion   accu racy  on   the  im balance  cl ass  dataset F - m easur is  c ombinati on  of  se ns it ivit and   s pecifici ty   wh i ch  it   is  us ed  t determ ine  th best   pr e dicti on r es ul t.                          (10)     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   13 , N o.   1 Ja nu a ry 20 19   :   102     108   106   3.   RESU LT S  AND A N ALYSIS   3.1 .       Data  Bal an ci n g   Be fore  doin cl assifi cat ion   analy sis  usi ng   NB,  S VM an RF,  it   is  essenti al   to  know  the   descr i ption  of  the  data  us e d.   In   t he  researc h,  the  m et ho dol og has  bee e xp la ine t hat  in  the   pre - proc essin sta ge,   the  data  will   be  div ide into  trai ning  a nd   te sti ng  data In   this  stu dy,   the  propo rtion  of   sam ple  train in and   te sti ng  dat is  div id ed  i nto   f our,  i.e.,  90:10   w hich  m eans  90 %   of  trai ning  da ta   an 10%  of  te sti ng  data,   80 : 20,  70 : 30  a nd  50:5 0.  It   is  done  t get  th best  pro porti on  in form at ion   by  a ppl yi ng   t his  propo rtion  to  the   or i gin al   data  a nd  the  data  a fter  SM OTE.  Ta ble  prese nts  su m m ary  of   t he  per ce ntage   of  data  te sti ng  for  the   neg at ive  a nd posit ive cla sses  in each  co m bina ti on .   Af te r   dete rm in ing   t he  sam pling  pr opor ti on,   perform ing   cl assifi cat ion   on  t he  data  with  th ree  m et ho ds   of  Nai ve  Ba ye s,  S VM,   an R andom   Fo re st  to  e valuate   the  cl assifi cat ion   m et ho d.  Me as ur i ng  the   go odness   of   the  m e tho ds  is  us in ev al uation  cl assi ficat ion i.e. accu rac y,  AU C,  F - m easur e an G - m eans.  Table  sho w s   the  accuracy  of  each  sam ple  pro portions  of  the  or igi nal  da ta   and   after  S MOTE  data  th accuracy  of  eac m et ho ds are  pr esented  in  t he Ta ble  3.       Table  1 .   Cl ass  D ist rib ution  b a sed o Sam pling  P r oport io n   Data   9 0 :1 0   8 0 :2 0   7 0 :3 0   5 0 :5 0   N eg ativ e   P o sitiv e   N eg ativ e   P o sitiv e   N eg ativ e   P o sitiv e   N eg ativ e   P o sitiv e   Origin al   8 8 .05 %   1 1 .95 %   8 9 .05 %   1 0 .95 %   8 8 .35 %   1 1 .65 %   8 8 .36 %   1 1 .64 %   Af ter  SM OT   7 8 .97 %   2 1 .03 %   7 9 .17 %   2 0 .83 %   7 8 .86 %   2 0 .62 %   7 9 .45 %   2 0 .55 %       Table  2.  T he   A ccur acy   of  Eac Cl assifi er   us i ng the  O rigin al   an Af te r   SM OTE  Data   Data  co m b in atio n   Origin al   Af ter  SM OT E   NB   SVM   RF   NB   SVM   RF   9 0 :1 0   8 5 .6%   8 9 .2%   8 9 .4%   8 3 .5%   8 9 .35   9 1 .1%   8 0 :2 0   8 7 .5%   8 9 .7%   8 9 .9%   8 3 .7%   8 8 .2%   8 9 .2%   7 0 :3 0   8 7 .8%   8 9 .4%   8 9 .7%   84%   8 8 .4%   8 9 .3%   5 0 :5 0   8 7 .9%   8 9 .8%   8 9 .5%   8 3 .5%   88%   8 9 .4%       Table  3.  T he  AUC  Sc or e   of  E ach Cla ssifie r   us in t he  Or igi nal  an A fter  S MOTE  Data   Data    co m b in atio n   Origin al   Af ter  SM OT E   NB   SVM   RF   NB   SVM   RF   9 0 :1 0   67%   6 1 .8%   6 1 .2%   7 4 .4%   79%   8 2 .2%   8 0 :2 0   7 1 .3%   6 1 .9%   6 2 .5%   7 5 .7%   7 7 .8%   7 8 .5%   7 0 :3 0   6 8 .4%   6 0 .8%   6 0 .9%   7 6 .3%   7 8 .6%   80%   5 0 :5 0   70%   6 1 .5%   5 9 .4%   7 8 .4%   7 8 .6%   7 9 .7%       3.2 .    C ompari so of cla ssifie r   Com par ison   of  cl assifi cat ion  accuracy  for  each  cl assifi er   wer evaluate by  so m m e asur em ent.   Table  s hows   that  the  highe st  accuracy  val ue  on  the  NB  m et ho is   to  use   50:5 sam pling   pro portio n   in  the   or i gin al   data  w it accuracy  87. 9%.   Li kew is on   t he  SV m et ho with  a ccur acy   e qu al   t 89. 8%.   For  the  RF  m et ho d,   t he  hi gh est   acc ur ac is  ob ta ine thr ough  the  90:1 sam pling  propo rtion i the  SM OTE   data .   Howe ver,  acc ur acy   is  c on s idere ina ppr opriat to  be  us e as  an   e valuati on  of   t he  go odness  of   t he  cl assifi cat ion   m od el   on   the  da ta set   with  an  unbalance cl ass.  It  is  becau s of   the  accu ra cy   fo rm ulati on   based  on accu rate  observ at io i t he  n e gative a nd  po sit ive  class.   Table  s hows   that  the  A UC  ob ta ine d   by  N m et ho with   50:5 sam pling   propo rtion s   of   sam pling   data  is  the  la r ge st  a m on a no ther  sam pling   pro portions.  T he  hi gh e st  A U scor with  t he  S VM  m et h od   was  79%  w hich   is  ob ta ine by  90 :10   sam pling   pro portio ns   with  data  after  S MOTE,  a wel as  RF  m et ho wit AU value  e qual   to  82 ,2 % I Ta ble  it   ca al so   be  see that  the  A UC  in  the  SM OTE  data  te nds  to  ha ve  a   m or sign ific ant  value  tha the  ori gin al   dat a.  Ba sed  on  th m et ho d,   the  m os con sidera ble  value  is  ob ta ined   by RF  with a  90:1 sam pling   pro po sal   of   the  d at a a fter S M OTE.   Ba sed  on  Ta bl 4 it   can  be   known  t hat  the  highest  F - m easur am on thr ee  m et ho ds   is  in  th e   SMOTE  da ta   with  90:1 sa m pl ing   pro port ion s F - m easure   is  on of   the  evaluati on  m ea su res  t hat  appr opriat e   for  data  with  i m balance  cl ass,  the   hi gh e t he  F - m easur e,   the  bette t he   cl assifi cat ion  m et ho d,  because   F - m easur e is  obta ined by cl assi ficat ion   obser va ti on  acc ur acy   in the p os it ive  cl ass only .   The  la st  e valu at ion   m easur e m ent  is  G - m ea ns ,   the  a naly si res ult  is  pr es ented   in  Table   5 .   Ta ble   5   sh ow that  the  la rg est   G - m eans  is  ob ta ine by  the  NB  m eth od  an it   is  e qu al   to  88, 2%  by  80 : 20   pr opor ti ons   sam pling   in  t he   ori gin al   data.   For  SV M   m eth od  is th G - m eans  sc or e   is  eq ual  to   76,9%  with   50: 50  s a m pling  Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le En &  Co m Sci     IS S N:  25 02 - 4752       In te gr atio n of  Syn t hetic  Min ori ty  O vers ampl ing   Tech nique  for Im ba l an ce d C lass   ( Noviy anti  San t oso )   107   pro portions  in  the  SMOTE  da ta   and   the  hi ghest   G - m eans  scor by  RF  m eth od  is  obta ine by  90:1 sa m pl ing   pro portions i the SMO TE  da ta .   Ba sed  on  t he   pro portion  sa m pl ing of   tra ining   an te st ing   data,  m os cl assifi cat ion  evaluati on  m easur em ent  in  th ree  m et hods  obta in  t he  hi gh e st  val ue  at   90 : 10  pr oport ion s .   It  m eans  that  the   la r ger  s a m ple   us e to  gen e rat the  cl assifi ca ti on   m od el it   will   descr i be  the  un balance data  co ndit ion s So   t hat  w he us in te sti ng  d at f or   validat io it  obtai ns  h ig A U C,  F - m easur e , an G - m eans  s cor e Be side s,  i the   ori gi nal dat is   com par ed  wit the  data  after   SMOTE,  t he  analy sis  resu lt denote  that  SMOTE  data  perform ance  is  bette than  the  ori gi na data.  It  m atch es  with  the  t heory  an pr e vious  resea rch  wh ic on ce  st at es  that  the  SMOTE  sam pling  is u s ed  to  s olv e t he c la ss i m balanc e so   that t he  classi ficat ion  e va luati on   obta in ed  is a ppr opria te .       Table  4 . T he  F - m easur Sc ore  of  Eac Cl as sifie us in the   Or i gin al   a nd  Af te r   SMO TE  Data    Data  co m b in atio n   Origin al   Af ter  SM OT E   NB   SVM   RF   NB   SVM   RF   9 0 :1 0   4 0 .4%   6 0 .8%   6 5 .0%   6 1 .4%   8 3 .3%   8 7 .7%   8 0 :2 0   4 3 .9%   5 6 .5%   5 8 .7%   6 0 .8%   7 3 .0%   8 2 .5%   7 0 :3 0   4 7 .6%   6 1 .7%   6 6 .1%   6 0 .8%   7 7 .2%   8 0 .0%   5 0 :5 0   4 7 .9%   6 6 .3%   6 5 .4%   5 8 .1%   7 5 .0%   8 1 .1%       Table  5 . T he  G - m eans  Score  of  Each  Cl assif ie us i ng the  O rigin al   a nd  Af t er  SM OTE  Dat a   Data  co m b in atio n   Origin al   SMOT E   NB   SVM   RF   NB   SVM   RF   9 0 :1 0   6 2 .4%   5 0 .3%   4 8 .6%   7 2 .6%   7 7 .0%   8 0 .8%   8 0 :2 0   8 8 .2%   5 0 .6%   5 1 .6%   7 4 .4%   7 5 .7%   7 6 .4%   7 0 :3 0   6 3 .5%   4 7 .9%   4 8 .0%   7 5 .1%   7 6 .8%   7 8 .4%   5 0 :5 0   6 6 .1%   4 9 .3%   4 4 .6%   7 8 .0%   7 6 .9%   7 7 .9%       The  best  m et ho is  determ ined  by  cal culat ing  the  a ver a ge  of   al e valuati on  m easur em ent of  the d at a   after  SM OTE  s a m pling  p r oport ion s on  eac evaluati on  m ea su re T he  m os extensi ve  eval uation  m easur e m ent  will   be  sel ect e as  the  best  m et ho d.   Fi gur sh ows  that   the  m et ho w it the  hig hest   aver age  of   A UC,  F - m easur e,  a nd  G - m eans  val ue   am on a no t he m et ho is  R F.  T her e fore,   the  best  m et ho f or  this  st udy  is  RF  with the  d at a  a fter S M OTE .           Figure  2. Com par is on p e rfo r m ance of eac h cl assifi er       4.   CONCL US I O N   Ba sed  on  the   analy sis,  we   co nclu de  t ha data  a fter  r esam pling   by   SM OT ob t ai ned  bette r   perform ance  than  or i gin al   da ta This  rese arch   has  acc om pl ished  the  obj ect ives  w he re  three  cl as sifie rs    (N B,   S VM,  a nd  RF wer e   pe rfor m ed  f or  a im balanced  cl ass  dataset .   T he   pri m ary  ob j e ct ive  of  t his  st ud is  to  ide ntify  the b est   te ch n iq ue  for  im balanced   cl ass  predict io befor e   an a f te resam pling  b SMO TE. Hence ,   after  ap plyi ng  the  three  m et hods c omparati ve  a naly sis  has  bee perform ed  to  determ ine  the  m os t   appr opriat on e.  The  e xperim ental   res ults  showe that  RF  perform well   becau se  of  it abili ti es  to  pr e dict  the   higher  por ti on  of d at with  hi gh e r AUC , F - m easur e, a nd  G - m eans s c or e .   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   13 , N o.   1 Ja nu a ry 20 19   :   102     108   108   Fo r   f uture  wor k,   t he  f ollo wing  s uggestio ns   c an  be  c on si dered;  Com bin in oth e resam pli ng  m et ho ds  su c as  Tom e li nk a nd   R andom   Un de r - sam pling Use  m or sam ple  i m balanced  da ta set   with  diff e rent   distrib ution o f c la ss wou l d be  a v al ua ble i dea .       ACKN OWLE DGE MENT   The  a utho rs  grat efu ll ack no wled ge  t he  fin ancial   sup port  from   Head  of  I ns ti tute  for  Re search   an Com m un it y Se rv ic ITS t hro ugh R esearc h G ran for  Be g in ne Re searc he s chem e in 2 01 8 .       REFERE NCE S   [1]   Phoungphol P.   A Cl assificat ion   Fram ework  for  I m bal anc ed   Dat a. Ge orgia Sta te Unive rsit y .   2013 .   [2]   Rohini   RR ,   Kr ishnamoorthi   M .   L ea rn ing  fro m   Cla ss   Im bal an ce d   Public  Hea l th  Da ta se t:   Cost - b ase d   Com par ison  of  Cla ss ifi er  Perfor m anc e.   Int ernational  Journal  of   El ectric al  and  Computer  Engi n ee ring  ( IJE CE) 2017  ;7(4): 2215 - 2222.   [3]   Qiang  W .   H ybrid  Sam pli ng  S VM   Approac t Im bal ance D at a   Cla ss ifica t io n.   Abs tra c and  Applie Ana l y s i s.   2014;  1:   1 - 7 .   [4]   Sukarda   B,   Muham m ad  MI,  Xi Y,  and  Kaz u yuki  M.  MW M O TE     Majori t y   W ei ghte Minor ity   Ov ersa m pli n Te chn ique   for  I m bal anc ed  Da tas et   Learni ng.   I EE T ran sac ti o ns  on  Know le dge  and  Dat E ngine er i ng.   201 4;    26(2):  405 425 .   [5]   Giovanna   M,  N ic ol T.   Trainin and  As sess in Cla ss ifica ti on   Rule with  Im bal an ce Dat a.   Data   Mining  an Know le dge  Disc over y .   2014 28( 1):  92 122 .   [6]   Gala M,  Ferna ndez   A,  Barr eneche and  Her rre ra  F.  EUSBoos Enha nci ng   ense m ble f or  highly   imbala nc dat a - se ts b y   evolutiona r y   under sa m pli ng.   Pa tt ern   Re cogn it ion .   20 13:  3460 - 3471.   [7]   Choi  MJ .   A   Sele ctive  Sam pli ng   Method  for  Imba la n ce Data   Le arn ing  on  Su pport  Vec tor  Mac hin es.   Gradua te   The ses.  US :   Iowa  Sta te Unive rsit y ;   2010.   [8]   Yap  BW ,   Rani   KA ,   Ary an H,  Rahman  A,  Fong  S,  Khair udin  and  Abdulla NN .   A Appl ic at ion  of  Ove rs ampling,   Under - sam pli ng,   Baggi ng  and   B oosting  in  Handl ing  Imbalanc ed  Datasets .   Proce e dings  of  the  First   Inte rna ti ona Confer ence  on  Advanc ed  Data  and  Inform at ion  Engi nee rin g   (DaE ng - 2013).   Stanford.   2015;     285:  13 23.   [9]   Chawla   NV ,   Bow y er  KW ,   Hall   LO,   and  Kege l m e y er  W P.  SMOTE S y nth et i Minority   Oversa m pli ng  Te chni q ue .   Journal  of   Artifi ci al   Intelli g ence and R ese arch .   2 002;  16:   321 - 35 7.   [10]   Sain  and  Purnam SW .   Combine  sam pli n sup port  ve ctor   machine   for   imbalanc ed  d ata  cl ass if i catio n Proce edi ng   of T he  Th ird  Inform at ion   S y st ems   Inte rna ti ona Conf ere nc e. Sura ba ya.   2015 72 59 - 66.   [11]   Maira   and  Mohs in  A.  Inve sti gat ing  th Perfo rm anc of  Sm ote   for  Cla ss   Im bal anced  Learni ng:   Case  Stud y   o Credi t   Scoring D at ase ts.   Europ e an  Sci ent if ic Journal .   2017;   13(3 3):  340 - 353 .   [12]   Mana A,  Mouaz   A,  Steve K,  Cli nton  B,   Jonat han  E,   and  Sheri S.  Predic ti ng  dia be te m el li tus  using  SMOTE   and  ense m ble   m ac hi ne  le a rning  ap proa ch:   Th Henr y   Ford  Ex er cIse   Te st ing  (F IT)   project .   PL oS  ON E.   2017;    12(7):  e0179805 .   [13]   Kus um W A,  N ovia na  N,  Hasib uan  LS,   Nurilma la   M.  Im proving  DN Barc ode - base Fis Ide nt ifi c at ion  S y s te m   on  Im bal anc ed  Data   using  SM OTE.   TEL KOMNIKA  ( Tele communic ati on  Co mputing  El e ct ro nic and  Control) .     2017;  15 (3):   123 0 - 1238.   [14]   Loke sh  SK   and   John  SU .   Co m par at ive  Stud y   of   Re comm enda ti on   Algorithm and  S y ste m using  W EK A.  Inte rna ti ona Jou rna of   Com puter Appli c at ions .   2 015;  110(3) .     [15]   Pati TR  and   Shere kar   SS .   Per form anc Ana l ysis  of  Naive  Ba y es  and  J48  Cl ass ifi cation  Alg orit hm   for  Dat a   Cla ss ifi c at ion .   I nte rnational   Jou rnal  of  Comput e r Sc ie n ce and Ap pli cations .   2013 ;   6(2):  256 - 2 61.   [16]   Vapnik  VN .   Sup port - vector  n et w orks.  Mac hi ne  L earning .   1995 2 0:  273 - 297.   [17]   Bat uwita  and   Pala de   V.  E ff i c ie nt  resam pli ng   methods  for   traini ng  suppor ve c tor  machine s   wit imbalan ced  dataset s .   Proc eeding  of  In te rn at i onal   Join Confe ren ce on  Neur al  Networks.  Bar celona ,   Span y ol .   2 010:  1 - 8   [18]   Seiffe rt   C,   Khos hgofta ar  TM,   Hulse  JV   and  Napoli t ano  A.   RUS Boost:  hy brid   appr o ac h   to  a ll ev ia t ing  cl ass  imbala nc e.  IEEE   Tr ans.  Syst. Ma Cybe rne t .   201 0;  40:   185 - 197.     [19]   Miner  G,  Nisbe t   R,   E lde J ,   Del en  and  Fast   A.  Prac t ic a T ex Mining  and  St at isti cal  Anal y si for  Uns truc tur ed   Te xt   Data Applications.  First   Edition. US A:  Aca d emic  Press .   2012 1000.   [20]   Brei m an  L .   R an dom   fore sts.  Ma chi ne   Learning .   2001;  45(1):   5 - 3 2.     [21]   Zhou  L ,   W ang  H.  Loa n   Defa u l Prediction  on   La rge   Im bal an c ed  Dat Us ing  Random  Forests.   TEL KOMNIKA   ( Tele communic ati on  Computing   El e ct ronics  and   Control) .   2012; 10(6):  1519 - 152 5.   [22]   Kubat  and  Ma twin  S.  Addres sing  the   Curse  o Im bal anced  Tr ai ning  Se t:   One  Sided  Selecti on .   Proce ed ing  of  th e   14th  Int ernati on al  Conf ere nce o Mac hin Lear ning .   Nashvi ll e ,   US A.  1997:  179 - 186.   Evaluation Warning : The document was created with Spire.PDF for Python.