Int ern at i onal  Journ al of Ele ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   10 ,  No.   3 June   2020,  pp. 3 227 ~ 32 34   IS S N: 20 88 - 8708 DOI: 10 .11 591/ ijece . v10 i 3 . pp3227 - 32 34          3227       Journ al h om e page http: // ij ece.i aesc or e.c om/i nd ex .ph p/IJ ECE   The  pe rtin ent single - attri bu te - bas ed classi fier    for sm all datasets  classifi cation       Mona J am joo m   Depa rtment  o C om pute Scie n ces ,   Prince ss   Nour ah  Bin Abdulr a hm an  Univer sit y Kingdom   of   S aud A rab ia       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   J ul  27 , 2 019   Re vised  Dec  5 ,   20 19   Accepte Dec   11 , 20 19     Cla ss if y ing  d at ase using  ma chi n learni ng   al gorit hm can  be  big  cha l le nge  wh en  the   t arg et  is  s m al dataset .   Th OneR   c la ss ifi e ca b used   for  such  ca ses  due  to  it sim pli cit y   and  eff i cienc y.   In  thi pape r ,   we  rev eale d   the   power  of  a   single   a tt ribu te   b y   in troducing  t he  per t ine nt  sin gle - a tt ribu te - base d - heteroge n ei t y - r at io   class ifier  (SA B - HR)  th at   use d   a   per t inent  a tt rib u te  to  class if y   sm all  dataset s.  Th SA B - HR’s   u se d   fea tur sel ec t io m et hod,   which  use d   the  Hete roge n ei t y - R at io   (H - Rat io)   m ea sure  to   ide n t if y   th m ost  hom ogene ous  attribut e   among  t he  othe attributes  in  the  set.  Our  empiric a l   result on  12   be nchmark  dataset from   UCI  m ac hine   le a rnin rep osito r y   show ed  tha th e   SA B - HR  cl assifie signif ic an tly  outpe rform ed  t he  class ic al  OneR  cl assifie for  sm al dat ase t s.  In  addi ti on ,   using  the   H - Rat io  as  fea tu r e   sele c ti on  c riterio for  select ing  t he  single   attribu te   was  m ore   eff ec tu al   th an   othe r tradition al   cri t eri a ,   such   as  Inform at ion  Ga i (IG) a nd   Gain   Rat io   (GR).   Ke yw or d s :   Cl assifi cat ion   Feat ur e  selec ti on   On eR  classi fier   Sing le - at trib ute - base cl assi fier   S m a ll  d at aset       Copyright   ©   202 0   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   Mon a  Jam j oom   Dep a rtm ent o f C om pu te Scie nces ,   Pr inces s No ur a Bi nt  A bdulra hm an  Un i ver si ty ,   Air port Roa d,  Ri ya dh   11671,  Kingdom  o f Sa ud A rab ia .   Em a il m m j a m j oom @p nu.e du.sa       1.   INTROD U CTION   Cl assifi cat ion  is o ne of  the m a in tasks  of d at a   m ining  an m achine lear ning  [ 1] that i s w idely  u sed  to  pr e dict  dif fer e nt  real - li fe  sit uations.  High  accuracy  is  key  in dicat or   for  s uccess f ul  predict io m od el Buil ding  a ac cur at cl assi fier  is  on e   of   t he   i m po rtant  goal s,  a nd  ric dataset m ake  this  ta sk   easi er   an m ore   eff ect ive  [ 2].  Cl assify ing   s m al dataset eff ic ie ntly   is  essenti al   as  s om real  sit uations   ca nnot  pro vid   suffici ent  nu m ber   of  cases.   li m i te trai ni ng   set   is  c halle ng i ng  to   le ar an d,  as  a   res ul t,  base   decisi on  on  it.   In   m any  mu lt ivariable  cl a ssific at ion   or  r egr es sio pro bl e m s,  su ch  as  est i m ation   or  f or ecast in g,   we   hav e     trai ning   set   Tp  =   ( x i ,   t i of  p   pair of  in put/ ou t pu t   vect or  x     n   a nd   scal ar  ta rg et   t T hu s acc ord ing  to   Vapni k’s  de finiti on sm all   dataset   fo T is  determ ine as  fo ll ows:   "Fo est im ating   functi ons  wi th  VC   dim ension   h , we c onsider  th e size   p   of  data  to be sm al l i the  rati p / h   is  sm a ll  ( say   p / h   < 20)" [ 3].   The  pr ob le m   with  the  sm al l   dataset   is  that,  if  not  el a bor at el colle ct ed it   is  no rep rese ntati ve   sam ple.  No n - r epr ese ntati ve  instances  hinde the  proces of   prov i ding  e nough  in f or m at ion   f or   the  le arn e m od el   becau se   of   the  gap e xi sti ng   betwee instances;   th us ,   the  m od el   doe no ge ne rali ze  well Ma ny  work hav bee pro po s ed  in  t he  li t eratur t so l ve   the  pro blem   of   sm al data  s iz by  us in di ff e ren m et ho ds.  O ne   of   the  com m on   m e tho ds   us e is  to  increase  the  siz of   data  by  add ing   arti fici al   instances  [4 ] but  this   appr oach  la cks   data  c red i bili t and  re fle ct io on  real - li fe   us e.  So m rese arch e rs  ha ve  use featu re - sel ect ion   m et ho ds   [5 - 8],  wh e reas  no vel  te ch nique  us in m ulti ple   runs  for  m od e dev el op m ent  was  propose by  [ 9]  and o t her s .   sim ple  so lut ion   is  one  of   t he  re quirem ents  w hen  the  pro blem   is  beco m in i ncr easi ng l com plex.   This p hilo sop hy   has  bee sta te by  Occam ' razor [ 1]. Lite ratur i the   fiel of   cl assi ficat ion  has   s how s om e   su ccess fu at te m pts  of   ver s i m ple  ru le to  achieve  high  a ccur acy   with  m any  dataset [10].  O neR  is  on of   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  10 , No 3 J une  2020 :   32 27   -   3234   3228   the  sim ple  and  widely   us e a lgorit hm in  m achine  le a rn i ng  to  buil si m ple  cl assifi er tra de - off  be tween   si m plici t and   high  pe rfor m ance  [10]  m ake On eR perf or m ance  sli gh tl le ss  accurate  than  sta te - of - the - art   cl assifi cat ion   a lgorit hm [1 1 12 ] al th ough   so m e tim es  i ou t perform the m   [1 3 14] Its  m a in  advant age  is   that  it   balances  the  best  accuracy  possi ble  with  m od el   that  is  sti ll  si m ple  en ough  for  hum ans  t   unde rstan d [12 ] .   On eR   is  singl e - at tribu te - bas ed  cl assifi er  th at   inv olv e on l on at tribu te   at   the  cl as sificati on   tim e.   sin gle  at tribu te   co ncep is  powe rful  if  it   c an  directl infl uen ce  t he  cl assifi cat ion   accu r acy   of   the  data set   in     po sit ive  m ann er Yet  not  al at tribu te ha ve   to  po sit ively   con t rib ute  to  the  cl assifi cat io proces w hich  m a increase  the   si ng le   at trib ute  powe r.   The  si ng le   at trib ute  ru le   can  be   m or ef fecti ve  than  c om plex  m et ho ds  wh e it   is  dif fi cult  to  le ar f r om   the  dataset   du t it   bei ng   si m ple,  sm a ll no isy or  com plex.   A   stu dy  by   [15]   us e the  sin gle  at tribu te   c onc ept  by  c reati ng   m ul t iple  on e - dim ension al   cl assifi ers  from   t he  or i gin al   dataset   in   the trainin ph ase and  c om bi ning the r es ults in the p re dicti on   ph a se. T he  new  m et ho is un li ke On eR   be caus e   it   con side rs  al at tribu te s’  c on t rib ution at   the  pr e dicti on  tim e.   Feat ure  sel ect ion   is  data - m ining   pre - processi ng   ste widely   us e to  i m pr ove  the   cl assifi cat ion   and   reduce  the   per f orm ance  t i m e.  It  is   eff ec ti ve  in   reducin the   da ta set ’s  dim ension al it by  el im inati ng   no n - c on t rib utable  at trib utes.  It  us es   dif fer e nt  te ch nique s   to  c om up   wi th  a   sin gle  at tri bu te   or  a   subse of  at trib utes  [ 16,  17 ] .   Mo reover it   has  pro ve it e ff ect ive ness   in im pr ov i ng vario us  a pp li cat ion s   predict ive  accu racy [ 18 - 20 ] .     In   t his  pap e r,  we  ta c kle  th pro blem   of   cl assify ing   sm al dataset by   ex pandin t he   powe of     per ti ne nt  sin gle  at tribu te   usi ng   S AB - HR   cl assifi er,  w hi ch  is  si m i la to  O neR  cl assifi er  in  us i ng   sing le   at tribu te   at   cl as sific at ion   ph a s e,  but  diff e re nt  in  wh ic inste ad  of   ge ner at in ru le   f or   ea c at trib ute,  a   fe at ur e   sel ect ion   m e tho is  em plo ye to  sel ect   the  at tribu te   that  is  le ss  hetero ge nic  am on the  oth er  at tr ibu te s.     We  cal culat ed   the  H - Ra ti [ 21]   f or   eac at t rib ute  (att the ide ntifie t he   at tribu te   wi th  the  l ow e st  H - Ra ti value  ( att H - Ratio ).   We  us e th pair  ( att H - Rati o c),   w her e   is  the  cl ass  va lue,  to   le ar a nd  cl assify   the   sm a ll  dataset The  re su lt wer e nc oura ging  an s howe sig nif ic ant  i m pr ove m ent  com par ed  to  the  cl assic al   On eR   cl assifi er.  In   a dd it io n,   we  cre at ed  m ulti ple  c la ssifie rs  in  the  sa m m ann er  of   S AB - HR,  usi ng   di ff e ren c rite ria   to  sel ect   the  pe rtinent  si ng le   a tt ribu te We  use IG   an GR  in  the  featu re - s el ect ion   proces an c reated  S AB - IG   a nd  S AB - GR  cl assifi ers ,   corres pondin gl y.  W in div id ually   com par ed  the  ne cl as sifie S AB - HR  with   oth e rs  (i.e.,   S AB - I an S AB - GR).   T he  rem ai nd er  of   this  pap e is  organ iz e as  fo ll ow s:  Sect io rev ie w s   the  backgro und  of   our  w ork In   Sect io 3,   we  pro po s the  rese arch   m et ho SA B - HR  cl assifi er.     The  e xp e rim ents  and   a   bri ef  discuss i on  of  t he  fi nd i ngs   is  in   subsect io ns   3.1  a nd   3.2,  c on s eq ue ntly Finall y,  Sect ion   c onc lud es  the  pa per.       2.   BACKG ROU ND   In this sect io n we  will  r evie w  so m e o t he  te chn i qu e s that  will  b us e in   this stu dy.     2.1.    OneR  c lassi fier   On eR is  s hort  for  " On e   Rule" an has   bee introd uced  by   Rob  H olte  [ 22,   10] It  is  on e   of  the  m os pr im itive  te ch niques,  base on  1‐ le vel   de ci sion   tree   th at   create one  ru le   for  eac a tt ribu te   in  t he  dataset ,   then  sel ect th ru le   with  m i nim u m   cl assific at ion   er r or a it "on e   ru le ".  To  c reate  ru le   f or  an   at tribu te ,   it   con str ucts  a   fr e qu e ncy  ta bl fo r   each  at t rib ute  again st  the  cl ass  [ 22 ] ,   F igure  s hows  the  ps e udoc od e   of   On eR   al gorit hm .   It  has  sh own  that  O neR   work   disti nctivel well   in  pr act ic with  re al - w or ld  data  and   ca com pete  the  s ta te - of - the - art  cl assifi cat ion   al go rithm in  so m si tuati ons  [13,   14,  23] .   On eR   is  us in one  at tribu te   f or   cl assifi cat ion   a nd  m any  con sider  it   as  one  of   featur sel e ct ion   m et ho d s   with  featu re  su bse con ta ini ng  si ng le   at trib ute  [24].   Com par i ng   t he  On eR   cl assifi er  with   the  baseli ne  cl assifi er  Zer oR   [14],  On eR   is  a   one  ste bey ond.  Both  O neR  an Zero a re  us e f ul  f or   determ ining   m ini m um   s ta nd ar cl a ssifie r   for  oth e cl assi ficat io al gorithm s.  On eR ’s  a ccur acy   is  al w ay higher   or  a le ast   equ al   t he   baseli ne   cl as sifie wh e e valuate on  the  t raini ng  data.   T he  a uthors  in  [ 25 ]   pro po se at te m pts  to  enh a nc the  perform ance  of  On eR   by  a ddr essing  tw iss ues:  the  quant iz at ion   of  c on ti nu ous - val ued  at tribu te s,   an the   treat m e nt  of   m issi ng  v al ues .           Figure  1.  The   ps e udoc od e  of  On eR   al gorith m  [ 15 ]   F o r ea c h  a tt ri b u te  ( a tt ),         F o r each v a lu e  of  th a a tt m a k e  a r u le  a s f o ll o ws;                    C o u n t h o o ft e n  e a c h  valu e  of  c lass  a p p e a rs                    F in d  t h e  m o s t fr e q u e n t c lass                    Ma k e   th e  ru l e  a ss ig n  th a t c lass  to  th is  val u e  of  th e   a t t         C a lcul a te  th e  to tal e rr o r o f t h e  ru les  o f ea c h   a tt   C h o o se t h e   a tt   with   th e  sm a ll e st  to tal e rr o r.     Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       Th pertine nt s ing le - attri bute - ba s ed  classif ie for s m all d at as et s cla ssif ic ation   ( M. J amjo om )   3229   2 . 2.     Fe at ure   s el ection   Feat ur e   sel ect ion  m et ho ds   at t e m pt  to  fi nd  the  m ini m al   su bs et   of   featu re that  do  not  s ign ific a ntly  decr ease   the  c la ssific at ion   ac cur acy Feat ur sel ect ion   m e thods  ca be  c at egorized  as  wr a pper  m et ho ds  or   filt er  m et ho ds   [17].  S urveys  done  by  [17]  and   [ 16 ]   sho w ed  ple nty  of   s uch   m et ho ds.   w rappe m e thod  is    m od el - base appr oach  w here  the  qu al it of   the  featur e se le ct ed  is  m eas ur e by  the   cl assifi cat ion   acc ur ac y   of   t he  cl assifi c at ion   al go rith m   being   us e d.  So m us g reed sea rch  to  sel ect   the  s ubset   [ 16] Me anwhil e,   in  filt er  m e thod,  cal le a   m od el - f ree  a ppr oach,  the  s el ect ion   of   fe at ur es  is  done   ind e pende ntly   fr om   the cla ssific at ion al gorithm . It  selec ts t he  subset’s  featu res depe ndent  on general m easur a ble ch a ract erist ic s o f   the  featu re,  s uc as  in f or m ation   Gain,  Gai Ra ti o,   Pears on  Co rr el at io n,   Mutual  I nfor m at ion   (M I)   [16 ] and  Heter og e neity   Ra ti [2 1].   I this  pap e r,   we  us e feature   sel ect ion   that  util iz es  fi lt er  m et hods   (i.e. at trib ute  evaluati on)  a nd  f ocu se o s om of   the  m e ntion e m easur es  (i.e. I G,   G R,  and   H - Ra ti o).  bri ef  de s cripti on   of each  foll ows.   -   Inform at io n   g ain   [ 21 ]   m e asur e the  am ount  of   in f orm at ion   giv en  by  an  at tribu te   about  the  cl ass.  It  is   def i ned b for m ula ( 1) :      (  ) = ( )  ( )     (1)     wh e re  H att   ( Y)  m easur es  the  entr op of  the   at tribu te   att   by   con trib utin to  cl ass  w hile  H(Y)   cal c ulate s     the  ent ropy  of  cl ass  Y.  I fac t,  entr opy  is  th quantit of  i nfor m at ion   c onta ined   or  delivere by  s ou rce  of   inf or m at ion . I is al so   us e in   m easur in th releva ncy an d defi ned b for m ula ( 2) :     ( ) =     ( )  2   ( )       (2)     -   G ain  r ati o   [ 26 ]   is   rati of  in form ation  gai to   intri nsi inf or m at ion It  determ ines  the  releva nc of  an   at tribu te . GR i s  calc ulate d usi ng the  f or m ula ( 3):     (  ) =  (  ) (  )   (3)     wh e re   H(att )   ( )    2 ( )   an P( v j )   rep r esents   the   pr obabili ty   to  have  the  value   v j   by   con t rib uti ng   to ove rall  v al ue s for at tribu te   j   -   Heter ogenei t r ati o   is  ne m easur def i ned  b [21]  that  m easur es  the  rati of  h et er ogeneit of   no m inal  at tribu te   am ong  the   dataset   at tribu te s.  I ot her   wor ds it   qu a ntifie the   ho m og e neity   of  set   of   i ns t ances  sh ari ng the  sa m e v al ue   of att rib utes. T he H - Ra ti is de fine d   by for m ula (4):      (  ) = (  ) +  ( ) ( )     (4)     The rat io  (  ) ( )   ad ds value  to  t he h om og eneit y i nst ances  based o at trib utes a nd class s im ultaneo us ly  whe re as   the  rati o    ( ) ( )   apprecia te the  hom og eneit in sta nces  of  the   sam c la ss  and   sh a res  the  sam value  of   at tribu te s.       3.   RESU LT S   A ND AN ALYSIS   In   this  sect io n,  we  intr oduce  new   si ng le - a tt ribu te - base cl assifi er  SA B - HR  to  cl assif the  s m al l   dataset s.  T he  ne al gorithm   us es  ne crit erio to  sel ect   the  po werfu pe r ti nen si ng le   at tribu te wh ic will   con t rib ute  in  t he  cl assifi cat io n.   SA B - HR  is  un li ke   O neR  i gen e rati ng  ru le   for  eac a tt ribu te It  cal culat es   the  H - Ra ti f or  each  at trib ute  ( att H - Ratio in  the  dataset   to  determ ine  the  at tribu te   that  is  le ss  heterog eni a m on th othe at tribu te s.  The  at trib ute  with  the  lo we st  heteroge neity   ra ti value  is  us ed  in  pair with   the  cl ass  c   ( att H - Ratio c in  the  cl assifi cat ion   process  w hile  the  rem ai nin a tt ribu te a re  el im inate d.   T he  pow e r   of   th sin gle  at tribu te   sel ect ed   for  S AB - HR  li es  in  it ho m og eneit with  oth er  at trib utes  i w hich  it   pro vid e s   enou gh   i nform at ion   for  th cl assifi er  to   pr e dict  corre ct ly att H - Rat io   is  rep re sent at ive  at tribu te   that  is  su f fici ent fo s m al l datase ts. Th e al gorithm i c d esc riptio n o S AB - HR is  presente in   F ig ur e  2.           Figure  2.   The   ps e udoc od e  of  SA B - HR al gor it h m   Fo each att ribu te ( a tt ),           Calcu late the   a tt H - R a tio ;   Ch o o se th a tt   with  the s m allest   a tt H - R a tio   v alu e;   Re m o v e  al a tt   in  t h e dataset ex cept  t h e pairs ( a tt H - R a to c );   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  10 , No 3 J une  2020 :   32 27   -   3234   3230   3.1.    Ex peri ments     In   the  f ollow i ng   e xperim ents,  we  ai m   to  e valuate  the  perform ance  of   th new   SA B - H cl assifi er   wh e deali ng  with  sm al dat aset s.  I ad diti on,  we   wa nt  to   com par the  pe rfor m ance  of  SA B - HR  with  oth e sing le   at trib ute  cl assifi ers  tha us diff e re nt  crit eria,  s uc a IG   a nd   GR,  wh e sel ect ing  the  sing le   at tr ibu te   durin the  fe at ur e - sel ect ion  process W e   us ed  t he  w el l - known  op en  s ource  s oft war WEKA   [27].    The  dataset wer ob ta ine fr om   the  UCI  Re posit or f or   Ma chi ne  L earn i ng   [28].  We  sel ect ed  12  sm all  dataset corres pondin to  V apn i k’ def i niti on   [ 3].  Table   li sts  the  m ai char act eris ti cs  of   the  dataset colle ct ed  an use in  te rm of  nu m ber   of  ins ta nces,  num ber  of   at trib utes,  a nd   Va pn i k’ ra ti for  determ i ning   the d at aset ’s  si ze. T he nu m ber   beside  t he dat aset   nam e w il l be its re fer e nce  in  the  f i gures.   The  On eR   w as  us e as  base  cl assifi er 10 - f old   c r os s - validat io and   pair ed   t - te st   with     confide nce  le vel  of   95%   wer us e t determ ine  i the  dif fer e nc es  in  cl assifi cat ion   accu rac wer e   sta ti sti cally   sign if ic ant,   an unde rline in   t he  ta bles.  We   com par ed   the   dif fer e nt  m eth ods   with   res pect  t   the  ave ra ge  cl a ssific at ion   acc ur acy   a nd  the   nu m ber   of  data set for  w hich  each  m et ho a chieve bette resu lt s.   Be tt er r esults a re show in  the  tables i n b old  font.    In   t he  ta bles,  we  nam ed  each  te chn i qu us i ng   the  a bbrev i at ion   SA f or   sing le - at tri bu te - base nam e,  su f fixe with  a a bbre vi at ion   f or  the   m easur us e for  sel ect in t he  si ng le   at tri bute   in   the  feat ur e - sel ect ion  proces s.  The  new   cl ass ifie rs,   with  res pect  to  the  dif fer e nt  m easur es,  are  nam ed  as  fo ll ows:  S A B - HR,  SA B - I a nd   SA B - GR.  I our  ex per im ents,  we  a ppli ed  the  featur e - sel ect ion   p r ocess  us in diff e ren m easure s   (H - Ra ti o,   IG,   an GR to   sel ect   the   pe rtinent   si ng le   at tribu te t he we  el i m inate the  rem ai nin g   (i.e ., u ns el ect e d) att ribu te s  and classi fie d wit pair  of att ri bu te s  ( per ti ne nt   sing le  att ri bu t e, class) .       Table  1.   C har a ct erist ic s o f dat aset s u se i th e ex per im ents   #   Dataset   #  ins tan ces   #  attr ib u tes   #  ins tan ces/#  attr ib u tes   1   Po sto p erative - p atien t - d ata   90   9   10   2   co n tact - len ses   24   4   6   3   weather - n o m in al   14   4   3 .5   4   co lic.ORIG   368   27   1 3 .63   5   cy lin d er - b an d s   540   39   1 3 .85   6   Der m ato lo g y   366   34   1 0 .76   7   Flag s   194   29   6 .69   8   lu n g - cancer   32   56   0 .57   9   sp ect_ train   80   22   3 .64   10   Sp o n g e   72   45   1 .6   11   Zoo   101   17   5 .94   12   p ri m ar y - tu m o r   339   17   1 9 .94       3.2.    Res ults  and  d isc u ssion   The  e xp e rim e nt’s  resu lt a re   com bin ed  in   Table  2,  wh ic com par es  t he   perf or m ance  of   cl assic al   On eR   with  the   new   create cl assifi ers.   No t ic eably the  pe rfor m ance  of  the  cl assic al   O neR   is  insig nif ic ant   wh e c om par ed  to  the  ne app li ed  cl assi f ie rs.   T he  over al aver age  ac cur acy   f or  the   new   cl assifi e r (i.e.,  SA B - HR,  S A B - IG   an S AB - GR)  is   64. 6% 49. 72%  an 61.31% res pe ct ively corres pondin to  48. 53%  f or   the  cl assic al   On eR   cl assifi er.  Fu r t her m or e,  t he  dif fer e nce  in  ave rag acc uracy   betwee S AB - HR  com par ed  to  the  cl assic al   On eR   is  sta ti sti cal ly  sign ific ant.  Th ave r age  dif fe ren ce   betwee the  cl assic al   On e and     the  ap plied  cl a ssifie rs  (i.e .,  S AB - HR,  S AB - IG   a nd  SA B - GR)  is  16.07 %,  1.1 9%  a nd  1 2.7 8 % res pe ct ively favor i ng n e c la ssifie rs.       Table  2 .   T he  perf or m ance’s  s umm ary of   a pp li ed  cl assifi ers c om par ed  t th e cla ssica l One R cl assifi er   Dataset   On eR   SAB - HR   On eR   SAB - IG   On eR   SAB - GR   Po sto p erative - p atien t - d ata   6 7 .78   7 1 .11   6 7 .78   7 1 .11   6 7 .78   6 8 .89   co n tact - len ses   7 0 .83   7 0 .83   7 0 .83   7 0 .83   7 0 .83   7 0 .83   weather - n o m in al   4 2 .86   5 7 .14   4 2 .86   50   4 2 .86   50   co lic.ORIG   6 7 .66   6 5 .76   6 7 .66   6 7 .66   6 7 .66   6 3 .86   cy lin d er - b an d s   4 9 .63   6 7 .59   4 9 .63   4 9 .63   4 9 .63   65   d er m ato lo g y   4 9 .73   3 6 .07   4 9 .73   5 0 .27   4 9 .73   3 6 .07   f lag s   4 .64   3 3 .51   4 .64   4 .64   4 .64   4 2 .78   lu n g - cancer   8 7 .5   9 6 .88   8 7 .5   8 7 .5   8 7 .5   7 8 .13   sp ect_ train   6 7 .5   9 2 .5   6 7 .5   75   6 7 .5   75   sp o n g e   4 .17   9 8 .61   4 .17   4 .17   4 .17   9 5 .83   zo o   4 2 .57   6 0 .4   4 2 .57   4 2 .57   4 2 .57   6 0 .4   p ri m ar y - tu m o r   2 7 .43   2 4 .78   2 7 .43   2 3 .3   2 7 .43   2 8 .9                 Av erage Ac cu rac y   4 8 .53   6 4 .6   4 8 .53   4 9 .72   4 8 .53   6 1 .31   #  of  better dataset   3   8   1   4   3   8   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       Th pertine nt s ing le - attri bute - ba s ed  classif ie for s m all d at as et s cla ssif ic ation   ( M. J amjo om )   3231     Figure  (a - c com par the  a pp li ed   cl assifi e rs  to   the  cl assi cal   On eR   cl as sifie in  te rm s   of  ave ra ge   accuracy,   with   the  le ss  heter og e nous  at trib ute  cl assifi er  ( SA B - HR)   ra nking   first,  f ollo wed  by  S AB - GR  wit h   sli gh dif fer e nce  (3.29% from   first,  an S AB - I G   cl assifi er  with  big  di ff ere nce  from   oth e cl assifi er but   lookin ty pical   to  the  cl assical  On eR the   two   li nes  ap pro xim a te ly  identic al   as  sh own  in   Fi gure  ( b) .   Th ( att IG )   at tribu te   us e in  SA B - IG   c on ta i ns   the  la rg e st  a m ou nt  of  inf orm ation   ab ou the  cl ass.  In   sm a l l   dataset   case,  it   m ay  be  m or i m po rtant  to  be  co ncerne about  the  co nsi ste ncy  of   the  at tribu te   with  oth e r   at tribu te du e   to  the  li m i te num ber   of  in sta nces  in  t he   dataset T his  would  m ini m i ze  the  ga ps   e xisti ng   betwee the  in sta nces  in  the  dataset The  hom og eneit of  the  dataset   hel ps   m ake  it   m or represe ntati ve  an d,   thu s m or acc ur at t be  le a rn e d.   I a dd it ion,  the   ne cl assifi ers  ac hie ved  bette r   ave r a ge  acc ur acy   i m or dataset than  On eR   as  s how in  Ta ble  2.   Figure  (a - c sh ows  eac ne cl assifi er  in  com par ison   t On eR .   The  num ber   of  bette da ta set achieve is   8,   an f or  SA B - HR SA B - IG  an SA B - GR,  res pe ct ively corres pondin g t 3,  1 ,   a nd  3 f or O neR cla ssi fier.           Figure  3.  Com par is on of a ppli ed  cl assifi ers   ver s us   O neR cl assifi er in t erm   of a ver a ge  acc ur acy           Figure  4.   Com par is on of a ppli ed  cl assifi ers   ver s us   O neR cl assifi er in t erm  of  nu m ber     of b et te r data se ts achie ve d     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  10 , No 3 J une  2020 :   32 27   -   3234   3232   Fr om   Table  2,  it   is  ob vious  that  sel ect ing   the  sing le   at tribu te   that  has  a   lower   cl assifi cat ion   erro   rate  f or   t he  O neR  cl assifi er  is  no al ways  op ti m al especial ly   in  s m all  dataset s.  Using  m or deli ber at e   te chn iq ue   to  se le ct   the  sin gle  at tribu te   has  a   po sit ive   im pac on  cl assifi cat ion   ac cu racy  a nd  num ber   of  bette r     dataset ac hiev ed.   Me a nwhile we   de vel op e T a ble  t hi gh li ght  the   ne cl assifi e S AB - HR,  w hich  us e ho m og e neity   fo the  pe rtine nt  sing le   at tri bu te   sel ect io n.  Table  s hows  com par i so betwee t he  ne cl assifi er  S AB - HR  a nd  the  oth e create cl assifi ers  f or  the  sam pu r pose  (i.e.,  SA B - I a nd   SA B - GR) .     The  res ults  showe that  SAB - HR’s  a ver a ge  accu racy  outpe rfor m SA B - IG’s  ave ra ge   accuracy  by   near ly   14.88% w hile   with  SA B - G the  di ff e rence   is  only   1.3 7%.   I gen e ra l,  the  perform ance  of   t he  S AB - HR   cl assifi er  is  re m ark able  wh e com par e to   the  cl as sic al   On eR   or   t he  a pp li ed  cl assi fiers  (i.e .,  S AB - IG   a nd   SA B - GR) Fig ur (a)   an ( b)   s how  the  di ff e ren ce  of   pe r form ance  of   each  dataset   bet ween   S AB - HR   and   the o t her ap plied classi fier s i te rm s o f  av e r age acc ur acy .       Table  3.   A   c om par ison   betw een th e  n e cl assifi er  S AB - HR   and  t he othe cl assifi ers   Dataset   SA B - HR   SA B - IG   SA B - HR   SA B - GR   Po sto p erative - p atien t - d ata   7 1 .11   7 1 .11   7 1 .11   6 8 .89   Co n tact - len ses   7 0 .83   7 0 .83   7 0 .83   7 0 .83   W eath er - n o m in al   5 7 .14   50   5 7 .14   50   Co lic.ORIG   6 5 .76   6 7 .66   6 5 .76   6 3 .86   Cylind er - b an d s   6 7 .59   4 9 .63   6 7 .59   65   Der m ato lo g y   3 6 .07   5 0 .27   3 6 .07   3 6 .07   Flag s   3 3 .51   4 .64   3 3 .51   4 2 .78   Lun g - cancer   9 6 .88   8 7 .5   9 6 .88   7 8 .13   Sp ect_ train   9 2 .5   75   75   75   Sp o n g e   9 8 .61   4 .17   9 3 .06   9 5 .83   Zoo   6 0 .4   4 2 .57   6 0 .4   6 0 .4   Pri m a r y - tu m o r   2 4 .78   2 3 .3   2 4 .78   2 8 .9             Av erage Ac cu rac y   6 4 .6   4 9 .72   6 2 .68   6 1 .31   #  of  better dataset   8   2   5   3           Figure  5.   Com par is on of a ppli ed  cl assifi ers   ver s us   SA B - H R cl assifi er in t erm  o A ve rage Acc ur acy         In   s umm ary,  we  can  c on cl ud e   that,  f or   sm al dataset s,  us in si m ple  cl assifi er,  s uc as OneR,  is on e   of  the  m ai opti ons  f or  e nhancin it cl as sific at ion   acc uracy I a ddit ion,  em plo yi ng  the  featu re - se le ct ion  m et ho for  sel ect ing   si ng le   at tribu te   us in c omm on   m easur li ke  H - Ra ti o,  I or  GR  will   do  s o,   wit bette resu lt s.  On   the  ot her   ha nd,  co ns ide ring   the  hom og e neity   of   the  at t rib ute  fo per ti nen sin gle  at tribu te   sel ect ion   can  posit ively   i m pact  the  cl assifi cat ion   pro cess.  It  helpe to  r e du ce  t he  ga be tween  insta nc es,  an accor dingly   ha represe ntati ve  dataset Co ns e qu e ntly it   pro vid e en ough   in form at ion   fo the  cl assif ie to  le arn   a nd   achi eve  decen a ver a ge  acc ur ac y.  From   the  previo us   r esults,  sing le - at tri bu te - base cl assifi er  ca be  po werfu f o cl assify in sm a ll   dataset s   wh e the  pert inent  at tribu te   is  sel ect ed.   That  is  the  case  wit   the n e w SAB - HR, whic is  r ecom m end e a m on the test e cl assifi er s in   this w ork.       4.   CONCL US I O N   In   this  wor we  ha ve  e xp l ored  the  powe of   the  si ng le   a tt ribu te   w he sel ect ed  us in an  ef fectual   featur e - sel ect ion  crit eri on.  We  ha ve  a ddr essed  t he  sm al dataset   m ining   pro blem   as  it   is  not  al ways   easy   to   gathe la r ge  a m ou nt  of  real  data.  T he  new   al gorit hm   SA B - HR  is  per ti ne nt  sin gle - at tri bu te - base cl a ssifie Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       Th pertine nt s ing le - attri bute - ba s ed  classif ie for s m all d at as et s cla ssif ic ation   ( M. J amjo om )   3233   consi sti ng   of  pair  of  (sim plici ty eff ect ivene ss)  t c ontrib ute  posit ively   in  cl assif yi ng   sm al dataset s.    The  sin gle  at tribu te   sel ect ed  to  be  the  m os ho m og e nous   with  the  ot her   at tribu te in  th e   dataset   giv es   m or e   consi ste ncy  be tween  i ns ta nc es.  O ur  em pirical   resu lt us e 12  be nc hm ark   dataset of  sm al l   siz e   corres pondin to  Vapnik ’s   de finiti on.  The  res ults  s how  t hat  S A B - HR’s   pe r form ance  sign if ic antly  ou t perform the  cl assic al   On e R’s  pe rfor m ance.   In   a ddit ion ,   we  com par ed  the  perf or m ance  of   S AB - HR   with   oth e sing le   at tribu te   cl assifi ers  that  us di ff ere nt  at tribut sel ect ion   crit eria  (e.g .,  IG  and   GR ),   an al l     the  res ults  co nfi rm ed  the  effe ct iveness  of   t he  S AB - HR  cl assifi er.  In   fu t ur wor k,   we  int end   t in ve sti gate   al gorithm to  i m pr ove  the  c la ssific at ion   a ccur acy   of   s m al dataset us in m or pr ogressi ve  cl as sifie rs.    In ad diti on, we  ai m  to  pro pos e m or e si m ple m et ho ds f or cla ssific at ion .       ACKN OWLE DGE MENTS   This  re searc was  fun ded  by  the  Dea ns hi o Scie ntific   Re searc at   P rincess   Nou rah  bi nt   Abd ulra hm an  Un i ver sit th rough  t he  Fast - tr ack  Re sea rch  Fund i ng  Pro gra m The  a utho is  s gr at ef ul   for  al these s upports  in con du ct i ng this r e searc a nd m akes it succ essfu l .       REFERE NCE S   [1]   T.   Mi tc h el l ,   Ma chi ne   Learni ng ,   McGraw Hill,   1 997.   [2]   T.   Van  Gem ert,  On  the   infl uen c of  dataset   cha r ac t eri sti cs  on  cla ss ifi er  per form a nce ,   Ba che lor   The sis,  Facu lty   of   Hum ani ti es ,   Ut r ec ht   Univer sit y ,   pp.   1 13 ,   2017 .   [3]   V.  Vapnik ,   Statis ti cal Le arn ing The or y ,   W ile y ,   New York,   2000 .   [4]   N.   H.  Rupare l ,   N.   M.  Shahane,  and  D.   P.  Bhamare ,   L ea rning  f rom   s m al data  set  to  buil cl as sific a ti on  m odel   surve y , ”  IJC Proceedi ngs  on  Inte rnationa l   Confe renc on   Re c ent   Tr ends   in  Eng in ee ring   and  Technol og ICRTET vol .   4 ,   pp.   23 26 ,   2013 .   [5]   X.  Chen   and   J.   C.   Jeong,   Mi nimum   ref ere nc set  base d   feat ure   select ion   fo sm al sam ple   cl assifi ca t ions,   Proce ed ings o f   t he  24th   Int ernational  Conf ere nce on  Mac h ine Lea rning  -   ICML ’0 7 ,   pp .   153 160 ,   2007.     [ 6]   S.   L.   Happ y ,   R .   Moha nt y ,   and  A.  Routray ,   An  eff ective   f ea t ure   select ion  m et hod  base on  pai r - wise  fe at ur e   proximit y   for  hi gh  dimensional   low  sam ple   size   dat a,   25th  Eur opean  Signal   Pr oce ss ing  Confe r enc e ,   EUSIP CO pp.   1574 1578 ,   2017 .   [7]   A.  Golugula,  G.   Le e ,   and   A.  Mada bhush i,   Ev a lua ti ng   feature   s el e ct ion  str ategi es  for  high  dimensional,  sm al l   sam ple   size   dataset s,   Conf ere nce   Proceedi ng s   Annual   Inte rnational   Confe re nce   of  the   IE E Engi ne ering  i Me dicine  and   B i ology   So ci e ty.  I E EE   Engi ne ering in  Me d ic in and   Bi ology Society ,   pp.   949 952 ,   20 11.   [8]   I.   Soare s,  J.  Dias,   H.  Rocha ,   M.  d Carmo L opes,   and  B.   Ferre ira,  Feat ure   select io in  sm al dat abas es:  m edi ca l - ca se  stud y , ”  IF MBE   Proceedi n gs:  XIV   Me di te r ranean  Confe re nce   on   Me d ic al   and  B iol ogi cal  Engi n ee ring   an Computing ,   vo l.  57,   pp .   808 813 ,   2016.   [9]   T.   Shaikh ina,  D .   Lowe ,   S.  Dag a,   D.   Briggs,   R .   Higgins,   and   N.  Khovanova ,   Mac hine   l ea rni ng  for  pre di ct iv m odel li ng  b ase d   on  sm al l   data in   biomedical   enginee ring ,   IFA C - Pape rs OnL ine ,   vol .   28 ,   pp .   469 474 ,   2015 .   [10]   R.   C.   Holt e,  Ver y   sim ple   class ifi cation  ru le p e rform   well   on   m ost  comm onl y   u sed  dataset s ,   M achi ne   Learning ,   vol.   11 ,   pp .   63 9 1,   1993 .   [11]   A.   K.  Dogra   and   T.   W al a ,   compara ti ve  stud y   of  sele c te c la ss i fic a ti on  a lgori th m of  dat m ini ng ,”  Int ernati onal   Journ al  of   Computer  Sc ie nc and   Mobile  Computi ng ,   vol .   4 ,   no .   6 ,   pp.   220 229 ,   20 15.   [12]   F.  Alam  and   S .   Pacha ur i,   Com par at ive   stud of  J48 ,   Naive  Ba y es  and  One - cl assifi catio te chni qu for     cre di c ard   fra u det e ct ion   usin W EKA,   Advance in  Compu tat ional   S cienc e and  Technol o gy ,   vol .   10 ,   no.   6,     pp.   1731 1743 ,   2017.   [13]   V.   S.  Parsania ,   N.   N.  Jani,   and   N.   H.  Bhal odiy a ,   Appl y ing  Naïve   Ba y es,   B a y esNet ,   PA RT,  JRip  and  One a lgori thms   on  h ypoth y ro id  d at ab a se  for com par at i ve  an aly sis , ”  I J DI - ERET ,   v ol. 3, pp. 1 6,   2015.   [14]   C.   Nasa   and   Su m an,   Eva lu at io of  diff ere n class ifi cation  tech nique for  W EB   d ata,   Int ernational  Journal   of   Computer  Appli cat ions ,   vol .   52 ,   pp.   34 40 ,   2012 .   [15]   L.   Du  and   Q .   Song,  sim ple   cl assifi er  base on  single  attri bute ,   Proc ee d i ngs  of  the   14 th  I EE In te rnation a l   Confe renc on  High  Pe rform ance   Computing   and  Comm unic ati ons,  HPCC - 2012  &   9th  IEE Int ernati ona Confe renc on   E mbedde S of twa re  and  Syst ems, ICESS - 2012 ,   pp .   660 665,   2012.   [16]   M.  Dash a nd   H.  Li u,   Feat ure   sel ec t ion  for   class ifi cation,   In te l li g ent   Data   Analysi s,   v ol.  1 ,   pp.   131 156 ,   1997 .   [17]   L.   Huan   and  L.  Yu,  Towa rd  i nte gra ti ng  featu re  sele c ti on  al g orit hm for  cl assific a ti on  and  clus te ring,   IEEE   Tr ansacti ons on Knowledge and D ata  Engi n ee rin g ,   vol .   17 ,   pp .   49 1 502 , 2 005 .   [18]   M.  Ramasw ami  and   R.   Bh aska ra n,   stud y   on  f ea tur sel ec t ion  t ec hniqu es  in  edu ca t iona d ata  m ini ng,   Journal  o f   Computing ,   vo l.  1 ,   pp .   7 11 ,   200 9.   [19]   Y.  Pan,   proposed  fre quen c y - bas ed  fe at ur e   select ion   m et h od  for  c ancer  c la ss ifi c at ion ,   Maste Thes e s   &   Spec ia li st  Projects,   Top   SHCO L AR ,   Fa cul t of  t he  Department   of  Computer  Sci e nce ,   W este rs   Kent ucky  Unive rs ity 2017.   [20]   I.   Sangai ah ,   A.   V.   A.  Kum ar,   and  A.  Bal amurugan,   An  empiric al   stud y   on  different   ran king  m ethods   for  eff ec ti v dat a   class ifi c at io n,   Journal  o M odern  Applied   St ati stic a M et hod s ,   vol.   14 ,   pp.   35 52 ,   2015 .   [21]   M.  Tra b el si ,   N.   Meddouri,  and   M.  Maddouri ,   new  fea tur sele c ti on  m et ho for  nom ina l   c la ss ifi er   base o n   form al   con ce pt   a naly s is,”   Proc ed ia  Computer  S cienc e ,   v o l.  112 ,   p p.   186 194 ,   201 7.   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  10 , No 3 J une  2020 :   32 27   -   3234   3234   [22]   R.   Holte,   Mac hine   l ea rning , ”  Proce ed ing  of  t he  Tenth  Int ernati onal  Conf ere nce ,   Uni ve rs ity  of  Mass achuse tts ,   Amhe rs t,   Ju ne   1 993.   [23]   D   . I.   Morari u,   R.   G.   C.   Ulesc u,   and  M.  Breazu ,   Feat ure   se l ec t ion  in  docu m ent   cl assificat i on ,   T he  Fourt h   Inte rnational   Co nfe renc in   Rom ania  of   Informat ion  Sc ie nc and   Information  Lit e racy ,   Romania ,   2013.   [24]   J.  Novakovic ,   Us ing  informati on  gai at tri bu te  eva lua t ion  to  class if y   sonar  ta rg et s ,   17  ThT   El ec omm unucat io Forum ,   pp.   1351 1354 , 2 009 .   [25]   C.   G.  Nevill - Ma nning,   G.  Holm e s,  and  I.   H.  W it t en,   The   dev el o pm ent   of  Holte ’s  1R  cl assifie r ,   Proce ed ings  1995   Sec ond  New  Zealand  Inte rnatio nal  Tw o - Stream  Confe renc on   Arti fi c ial   Neur al  Net works  and  Ex pert  Syste m s 1995 .   [26]   J.  Novaković,  P.  Strbac ,   and  D.  Bula tov ,   Towa rd  opti m al  fea tur sel ec t i on  using  ran ki ng  m et hods  and   cl assifi ca t ion al g orit hm s,   Y ugosl av  Journal   of   Operations  R ese arc h ,   vol .   21 ,   pp .   11 9 135,   2011 .   [27]   of   W ai kat o,   W EKA:  The   W ai kat o   envi r onm ent   for  kn owledge   a na l y s is ,   2018.   [Onl ine ] .   Avail able :   htt p://ww w.c s.wai ka to. a c. n z/ m l/w eka /   [28]   UCI,  UC m ac hine  le arn ing   rep ositor y ,   2018 .   [Online ] ,   Avail ab l e:     htt p: / /a r chi ve . i cs. uci.e d u /ml/m achine - l ea rningd ataba ses/     Evaluation Warning : The document was created with Spire.PDF for Python.