Indonesi an  Journa of El ect ri cal Engineer ing  an d  Comp ut er  Scie nce   Vo l.   1 3 ,  No.   3 Ma rch   201 9 , p p.   999~ 1006   IS S N: 25 02 - 4752, DO I: 10 .11 591/ijeecs .v1 3 .i 3 .pp 999 - 10 06          999       Journ al h om e page http: // ia es core.c om/j ourn als/i ndex. ph p/ij eecs   Sn ake s p ec i es  id en tificatio n by usi ng natu ral l angu age  processi ng       Nu r Li yana Iz z at i Rusli 1 , A mi z Amir 2 , N ik Ad il ah H ani n Z ah ri 3 , R .   Badli shah  Ahm ad 4   1,2,3 School   of  Co m pute and   Com m unic at ion   Enginee ring ,   Univ ersit M al a y si Per l is,  Mal a y s ia   4 Facul t y   of  Infor m at ic s a nd   Com puti ng,   Univer sit Sulta n   Z ai n al   Abidin  (UniSZA ),   22200   Besut,  Te ren gg anu       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Oct   1,   2018   Re vised Dec   10, 2 018   Accepte d Dec   25, 201 8       The   pape pre se nts  the   snake   sp ec i es  ide nti f ic a tion  b y   using  nat ura la ngua g e   proc essing.   I aim to  hel m edi cal  profe ss ion al in  pre d ictin the   snak e   spec ie for  snak e - bite  tr ea tment base on  the  pat i ent ’s  de scr ip ti on  of  th e   snake .   The   de ci s ion  in  suita ble   a nti - venom  cri tic al l y   dep ends  on  the   t y pe  of   snake   spec ie s.   W rong  ant i - ven om   m ay   resul t   in  seve re  m o rbidi t y   and  m orta li t y .   Thi rese arc inv esti g at es  the   hum an  per ce p ti on  and  t he  sele c ti o n   of  words   in  desc ri bing  snake   base on  th ei v isual   vi ew.   Th desc riptions   were   pre sente in  unstruct ure te xt ,   and  the   NLP  proc essing  invol ves  pre - proc essing,   feat ure   ext ra ct ion  and  cl assifi ca t i on.   Four  m ac hine   le arn ing  al gorit hm (na ïv Ba y es ,   k - Nea r est  Neighbour ,   Suppor Vec tor   Mac hin e,   an d   Dec ision  Trees  J48)  were   used  during  tra ini ng  an cl assificat ion .   Our  result s   show   tha J48  al gorit hm   obtai ned  the   high est   cl assificat ion  ac cur acy   of   71. 6%  cor re ct   pr edi c ti on  for  the   NLP - Snake  dat a   set  with  high  pre ci sion  and  rec a ll .   Ke yw or ds:   N at ural  lan gu a ge     Hu m an  pe rce ption     Sn a ke  im ages    TF - IDF       Copyright   ©   201 9   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e .     Al l   rights re serv ed.   Corres pond in Aut h or :   Am iz a A m ir,    School  of Com pu te a nd Com m un ic at ion  Enginee rin g,     Pauh   P utra  Cam pu s,  U niv e rsi ti  Mal ay sia  Per li s,    02600 A ra u,  M al ay sia   Em a il : a m iz aa m ir@u nim ap. e du.m y       1.   INTROD U CTION     Sn a kes  t hat  ar cold - blood e ve rtebr at es   fa ll into  tw ca te gories;   ve no m ou an non - ve nom ou s.   Ma ny  ve no m ou s na kes  hav e   ap pear e in   m any  co untrie s,  and  they   are   real  threat  t t he  public  safet an healt h.   T he re  a re  m or than   3000  s pecies  of  the  s nak n owadays 60 of  them   are  ve nom ou s,  a nd  ov er  20 are  co ns i der e i m po rtant  i m edical   reco r [1 ] Highest   m edical   i m po rtant  treat m ents  are  s nak bites   from   a   highly   venom ou sn a ke  that  a re  necessa ry  to   be  recog nized   since  they   can   cause  seve re  pain  a nd   e ven   death  (e. g. Bl ac M a m ba,   Ki ng   C obra,  I nd ia Kr ai t).   Sec onda ry  m edical   i m po rtant  sn a ke   bites  are  du to  the  venom ou s na kes  (e .g.,  Al bin B ur m ese  Pyt hon,   Ba ll   Pyt ho n,  Re Ra Snake)  that  ca r esult  in  disa bili ty   and  sever pai bu in  le ss  i m pacted  due  to  t heir  act ivit or   m ay be  beca us of   t he  ha bitat   that  near   of  hum an   popula ti on In   Ma la ysi a,  the  five - ye ar  re vie of  sn a keb it e   patie nts  show that  there  we re  260  cases  of  sn ake   bites re ported , a nd 52.9%  of t he  s na ke bit es w ere  fro m  u nk now [ 2].    In   m any  e m er ge ncy  cases,  one  has  to  identif the  sn ake  sp e ci es  m erely  based   on  the  te xt  descr i ption  giv e to  them   by  the  victi m   or   witness  without  any  gr a phic al   ai ds Be ing   able  to  rec ognize  the  ty pe  of  sn a ke   base on  the   descr i ption  of  the  pe op le   ha ve  bec om ver im p or ta nt  in  s ocial   an m edical   progr ession.   To  pe rfor m   optim a cl inica l   t reatm ent,  the  diag nosis  of   th sn ake  s pecie respo ns ible  f or   the  s nake  bi te   is   cru ci al The  sl igh te st  delay   m igh giv res ult  in  sever m or bid it and  m or ta li ty .   Thu s,  it   is  i m per at ive  t pr eci sel and   c on ci sel deter m ine  the  ty pe  or   s pecies  of   th sn akes The  colle ct ed  inf orm at ion   is  i m po rtant  to   identify   if   the s nak e   is venom ou s  o not,  t hus  hel ps   m edical   prof e ssio nal  t determ ine  th su it able anti - venom   and f ur t her tre atm ent p la n.   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   1 3 , N o.   3 Ma rc h   201 9   :   999     1006   1000   Ty pi cal ly sn ake  sp eci es  a re  recog nized  m a nu al ly   base on  the  vis ual  fe at ur es  s uch   as  head   s ha pe ,   sk in  col or,  ey sh ape and   body  sh a pe.   T his  process  re qu i res  knowle dg of   cha ract erist ic of   the   sn akes   wh ic is  no quit com m on   fo m os peo ple   wh er on ly   th e xp e rts  hav this  us ef ul  knowle dge.  Co ns i der i ng  the  dif ficult f aced  by  m os people  in  id ent ify ing   the  s na ke   sp eci es,  the  m ai aim   of   this  work   is  t pe rfor m   sp eci es  recog niti on   base d on the  descr i ptio n from  the w it ne ss or  victim  in  un st ru ct ur e te xt for m   In  this  w ork,  a i ntell igent  sy stem   that  will   help   the  m edical   pro fessio nal   to  be  able  t pr e dict  the   ty pe  of   t he  s na ke  ba sed  on  the  desc riptio in  the  un st ruct ur e te xt  by   us in natu ral  la ngua ge  pro cessi ng   (N L P) C ommon   per ce ptio and   wor ds   us e by  m any  diff ere nt  pe op le   to  desc ribe  m a ny  diff e re nt  typ es   of   sn a kes  will   be   analy zed.  T he   te xt  will   be  prep ro ce ssed re le van ke ywo r ds   will   be  e xtr act ed  base on  thei r   weig ht  in   the  c on te xt,  a nd  the se  key words  w il be  use as  f eat ur es   duri ng  cl assifi cat ion   by   m ach ine  le ar ning   to lear a nd pr edict  the s peci es of s na kes.   Li m it ed  stud ie ha ve   bee c onduct ed   f or  s pecies  recog niti on  by  us i ng  m achine  le ar ni ng.  B utterfly   sp eci es  recog ni ti on   in   [ 3]  us e ne ur al   net work s   to  rec ogniz butt erf ly   s pe ci es  base on  butt erf li es’   s ha pe T he  br a nc le ngth   si m il arity  (BLS)  e ntr opie f r om   the  boun da ry  pi xels  of  butt erf ly   s hap e   wer e   ext racted   in  t his  stud y. Woo sp eci es  rec ogniti on   wa pro pos ed  by  Zha et   al [4 , 5 ]   and   Z a m ri  et   a l.  [6 ] In   [ 4]  an [ 6],  i m age   base fe at ur e (co l or ,   te xt ur e,   an s pectral  f eat ur es wer e   e xtracted   to   ide ntify  the  w ood  sp eci es   by  us i ng  the   back   prop a gati on   neural  network.  I [5 ] k - near e st  neig hbor  (k - N N)   was  us e to  cl assify   wo od  sp eci es  thr ough im ages.  Im age - based plant  sp eci es  re cogniti on  by  us in g k - N wa s also su ggest ed by Fa ria et  al. [7]   Christi anse et   al [8 ]   us k - NN   cl assifi e to  discrim inate   ani m al  and   non - anim al   ba sed  on  heat   char act e risti cs  of   ob j ect s.  Whi le   in  the  wo rk  of   Y et   al [9 ] .,  Su pp or Ve ct or   Ma chine  ( SV M)  has  bee us e to  extrac feat ur es  a nd  cl ass ify   i m ages  of  57   a nim al   sp eci es  captur e by  cam era  tr aps  with  a a ver a ge   cl assifi cat ion  a ccur acy   of 82 %.   To  our  knowle dg e the  cl os es wo r to  our  r esearch  ca be   fo un in  [10]  and   [ 11] In   th ese  works ,   autom at ic  sn ake  sp eci es  ide ntific at ion   te chn i qu e from   sn a ke  i m ages  wer pr opos e by  us ing   m a chine   le arn in al gori thm s.  A m ir  et   al [10]  ap plied  te xture  based  appr oach   as  fe at ur es,  w hile  Ja m es  et   al [1 1]   us e featur e desc ribing  top,  side  and   body  view of   sna ke  im a ges.   I co ntras t,  NLP   was  util iz ed  in  our  w ork  t enab le   sn a ke  s pecies rec ognit ion  t hro ugh  te xt - base in f or m at ion   from  a h um an.       2.   RESEA R CH MET HO D     This  w ork  in volve the  colle ct ion   of  the  te xt - based   desc riptio of   s na ke based   on   th pr ese nted   sn a ke  i m ages  by  us in surv e m e tho ds  (qu est ionnaire) T hen,  i m po rta nt  featur es  wer e   extracte by  us in te rm   fr eq uen c   inv erse  docum ent  fr eq ue ncy  (TF - I DF),  an these  f eat ur es  we re  pro vid e to  m achin e   le arn in al gorithm s to  le arn   an d pr e dict t he sn ake s pecies  us i ng  W e ka  t oo l  [12 ] .       2.1.      Ra w   D ata Co ll ecti on   60   respo nd e nt fr om   m ulti pl ranges  of  ag par ti ci pated  in  the  qu e sti onnai re  survey  durin data  colle ct ion   proc ess.  T he  res po nd e nts  wer s how with  se ries  of  sn a ke ’s  pictures.  Im ages  of   t hr ee  sp eci es  of   sn a kes  ( Na j Trip ud ia ns B oa   Con stric tor and  D og - T oothed   Ca t)  w ere   us e in  t his  s urvey.  Af te r   that,  th e   respo nd e nts  w ere  aske fe quest io ns   in   qu e sti onnair to  desc ribe  t he  s nak im age  that  they   ha see base on  their   per ce ptio a nd  opinio of  the   sn a ke.  T hey  wer e   al lowe t us t heir  ow wor ds   to   e xpla in  the   sn a kes’ cha racteri sti cs. Two  e xam ples o f sna ke  im ages ar e s how in  Fig ure  1 .     Durin the  sur vey,  the  res pond e nts  are  gui ded   to wa rd e xp la ini ng   th ei gh physi cal   char act erist ic s   of  the  sn a ke    that  play a   m a j or  ro le   in  deci di ng  wh at   ki nd  of  the   s nak e   t hat  is  venom ou or  non - ve nom ou s.   s nake  ob se r ver is al ways  usi ng these c ha r act erist ic s to  re cognize t he  s na ke  s pecies:   a)   Len gth   of it s bod y   b)   The  s ha pe of  it s bod y   c)   Its h ea a nd  ne ck  s ha pe    d)   The  c olor a nd  patte rn on its  body   e)   Scal e tex tu re   f)   Ey e pup il  s hape   g)   Tai l scal es   h)   An al   plat di vis ion   180  sam ples  of   unstr uctu re te xt  re pres ent  the  s na ke s’  de scripti on  are  obta ine from   the   qu e sti onnaire   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Snake  sp eci es  i den ti fi catio n b y u si ng natur al  lang uage pr oc essing   ( Nur L i yana Izz ati Ru s li )   1001     (a)       (b)     Figure  1. Tw o exam ples o f sn ake im ages f r om   the sp eci es  of Do g - To oth e d C at  ( a)  and B oa   Co ns tric tor  (b)       2.2.     Te xt   Pre - pr ocessin g   The  m et ho of  pr e - proces sin te xt  is  the  first  ste and   an  i m po rtant  ste in  te xt  m ining   te chn iq ues .   Pr e - proces sin g i s p e rfor m ed  to m ini m ise  the d im ension al it y of t he rep res entat ion   sp ace   wh ic incl uded  [13 ] :   a)   Da ta  to ken iz at i on   To ken iz at io was  pe rfor m ed  us ing   Wek t br ea do wn   te xt  into  pieces  of   w ords.   In   this  w ork,  tok e nizat ion i bro ken into  wo rd s . E xam ple of to ke nizat ion  i s sho wn as  fo ll ow s:   Inp ut: I  sa a   gr ee s na ke,  a nd it  h as  tw f angs   Ou t pu t:   I,  sa w,  a,  gr ee n, sn a ke , and, i t, h a s,  t wo, fan gs   b)   Ste m m ing   Ste m m ing   is  t he  process  of  fin ding  the  r oot  of  the   w ord  f r om   diff ere nt  w ord  form s w her e   the   su f fixes   an prefixes  will   be  rem ov ed.   w ord  s uc as  pl ay ing ”  an pl ay ed”  can  be  stemm ed  as  “play ”.  Ste m m ing   was   nee ded  as  it   preve nts  ov e rf l ow  of   t he  diff e r ent  w ord  with  the  sam m eaning   i the   li br a ries.   Exam ple o f st em m ing  p r ocess  shown a s foll ows:    Inp ut: I,   saw , a , gree n,  s na ke,   and, it,  has, t w o,   fa ng s   Ou t pu t:   I,  see , a , gree n,  s na ke , and, i t, h a s,  t wo,  f an g   c)   Sy m bo ls a nd S top - w ord  el im i nation   The  ste m m ed  te xt  ob ta ine pr e viously   unde rw e nt  the  pro cess  in  rem ov ing   al the  sp ec ia sy m bo ls   su c as  ‘(‘,  )’ ,   ‘# ‘!’,  ? _’,  ‘+ ’,   - ‘,‘ *’ a nd   ‘/’.   Sto w ord  or  sto w ord  li st  are  the  set   of   com m on   wor that  h um an  us e   ever day  in  any  la nguag e It   do es  not  ha ve  le ss  sign ific ant   m eaning   in  th te xt  or   par a grap h.  Com m on  w ord s ( e. g.  “a”, “a n” , and  “t he” ar e elim inate by  u sing   sto p - w ord  rem ov al  fu nction  i n W e ka . Th is   process  can  m i nim ise  the d im ensio nalit y about  15%  to 2 0%  r e du ct io i th e colle ct ed dat a [ 13 ] .   Inp ut: i , s ee,  a,  gr ee n, sn a ke, a nd, it,  has, t w o, fa ng   Ou t pu t:  i,  see,  gr ee n, sn a ke, i t, h a s,  t wo, f a ng     2.3.     Fe ature  Extr act i on   using  TF - I DF   high  num ber  of   w ords  in  th te xt  descr ipti on   will   cause  high   dim ension al it of   the  re pr ese ntati on  sp ace d ur i ng  tr ai nin a nd  te sti ng.  T heref or e , in   this w ork,  T F - I DF  wei gh ti ng  is use to   id entify   im po rtant  an releva nt  key w ords  from   each  descr i ptio n.   These   hi gh  w ei gh ti ng  keyw ords  will   be   e xtracted   as  im portan t   featu re an w il be  us ed  to  op ti m ise   the  trai nin process.   Term   fr eq uency   (TP)   re pr es ents  how  m any  tim es   the  num ber   of   t he  w ord   that  occ ur s   in  sin gle  te xt  or   doc um ent.  We  use fle xib l filt er   nam ed   Strin gtoWo r dV ect or   i W e ka  t c onve rt  strin at tri bu te s   in to   se of  w ord  vect or  w hich   re pr e sents   the  w ords  occ urren ce Be lo are  t hr ee  e xam ples  of   s na ke  de scripti on  by  hu m an  in  te xt  f or m   a nd   how   featur e  ex t racti on is  done.   Exam ple:   Text  1: “I   saw   a long a nd a  gr een s na ke.   Text  2: “T he g reen sna ke  is  a  dang e rous sna ke.   Text  3: “T he  lo ng snake  is sca rier.”   Af te r  pre - proc essing, the  text  w il l be a s foll ow s:   Text  1: I ,  see,  long, g ree n,  a nd, sna ke   Text  2: gree n,   sn a ke,   be, da nger ous,  s na ke   Text  3: lo ng, snake , be,  scary   TF - ID F  w ei ght o a term  is cal culat ed  as   f ollow s:   (a)   Ca lc ulate  term   fr e qu e ncy  (TF)   (b)   Ca lc ulate  d oc um ent f re qu e nc y (D F a nd the   inv e rse of  the  DF   (IDF ).   (c)   Com pu te  TF - I DF     The n or m al iz e T F is m easure acc ordin t E quat ion ( 1).   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   1 3 , N o.   3 Ma rc h   201 9   :   999     1006   1002        =    .                                          (1)     In   reali ty each   te xt  will   con t ai dif fer e nt  si ze,  an us ually the  va lue  of   TF  will   be  higher  t han   a exam ple  of   TF   in  Table  1.   N ext,  th te xt  w il be  norm aliz ed  ba sed  on  it siz by  div i di ng   T by  the  total   nu m ber   of ter m s.        Table  1.  T F Ba sic  Cal culat ion f or   Text  1, Te xt 2 an d Text  3   Text 1   i   see   lo n g   an d   g reen   sn ak e   TF   1   1   1   1   1   1   No r m   TF   0 .16 7   0 .16 7   0 .16 7   0 .16 7   0 .16 7   0 .16 7   Text 2   g reen   sn ak e   be   d an g erou s         TF   1   2   1   1       No r m   TF   0 .20 0   0 .40 0   0 .20 0   0 .20 0       Text 3   lo n g   sn ak e   be   scary       TF   1   1   1   1       No r m   TF   0 .25 0   0 .25 0   0 .25 0   0 .25 0           In   TF,  al te r m being   treat ed  as  e qual I c on tra st,  the   inv e rse  do c um ent  fr e qu e nc (I D F)   is   a   m easur of   ho m uch   in for m at ion   the  wor prov i des  ac r os al te xt  or   do c um ents.  Th us IDF  is  c ompu te as   fo ll owin E qu at ion   2:      =   log   (            .                         )   (2)     Fo r  e xam ple, the  te rm  o t he “ gr ee n” was  use to  f i nd IDF:   Total  no. o te xts: 3   Nu m ber   of text s w it h t erm  g re en on i t:  2      (   ) =    ( 3 2 )           Table  s hows   the ex am ple of  m easur ed ID F  v al ue  for t erm s that a pp ea re d i al l t he  text.     Finall y, TF - I D F w ei gh t i s  m e asur e d usi ng E qu at io n ( 3) .       Table  2.   Inve rs e Docum ent Frequ e ncy   Ter m s   IDF   I   0 .47 7   see   0 .47 7   lo n g   0 .47 7   an d   0 .47 7   g reen   0 .17 6   sn ak e   0 .00 0   be   0 .17 6   d an g erou s   0 .47 7   scary   0 .47 7        _  =          (3)       Table  3.  E xam ple on  w ord oc currence s in  T F - I DF   W o rds   Text 1   Text 2   Text 3   i   0 .08 0   -   -   see   0 .08 0   -   -   lo n g   0 .08 0   -   0 .12 0   an d   0 .08 0   -   -   g reen   0 .02 9   0 .03 5   -   sn ak e   0 .00 0   0 .00 0   0 .00 0   be   -   0 .35 2   0 .04 4   d an g erou s   -   0 .09 5   -   scary   -   -   0 .12 0       Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Snake  sp eci es  i den ti fi catio n b y u si ng natur al  lang uage pr oc essing   ( Nur L i yana Izz ati Ru s li )   1003   Fr om   the  exam ple  in  Ta ble  3,  the  w ord   “sna ke”  is  c onsider ed  c omm on   due  to  it   is  an  oc currence   i al descr i ption  with   wei gh t   val ue  of  0.0 00.  In  a no t he word,  t he  word  “s na ke”   is  not  si gnif ic ant  in   determ ining   th cha racteri sti of  sn a ke  de scribe i eac te xt T her e fore,  a   w ord   wit ze ro  or  l ow  weig ht   will  b e c onside red irrele van f eat ur e a nd  om i tt ed  duri ng trai ning a nd classi ficat ion .     2.4.     Tr aining  a n Clas sific at i on   In   s up e rv ise cl assifi cat ion trai ning  m us be  first  co nduc te d,   an cl assifi cat ion   ta sk   f ollows  this.  The  trai ning  involve bu il din m od el   based   on  one  or   m or nu m eric al   and   cat egori cal   var ia bles  su ch  a s   at tribu te or  fe at ur es.  Cl assifi cat ion   is  te xt  m ining   ta sk   of  pr e dicti ng   the v al ue  of  cat egorical   var ia bl su ch   as target  or cla ss.    Four   m achine  le arn in al gorithm wer ch ose to   pe rfo rm   these  ta s ks T hey  are  naïve   Ba ye [13],   Suppor Ve ct or  Ma chine  (SV M)  [14],  k - Ne arest  Neig hbou rs  (k - NN)  [ 15 ] and   decisi on  tree  J4 [ 16] I this  work,  18 sam ples  of   te xt - base desc ription   c ollec te from   60   respo ndents  will   be  us e for  trai ni ng   a nd   cl assifi cat ion Du e   to  li m i ted   sam ple,  in  order  to  ob ta i ned  m or accurate  resu lt 10 - fo l strat ifie cr oss   validat io was   app li e to  e nsure  t he  vali dity   of   our  re su lt   be  co nduc te f or   eac al go rithm The  trai ni ng   a nd   cl assifi cat ion   proces ses  wer e   perform ed  on  diff e re nt sets  of the  d at a as  to   gen e rali ze the  new in form at io n.         3.   RESU LT S   A ND AN ALYSIS     The  quest io nn ai re  was  fill ed   by  the  so ci et throu gh   s ocial   m edia  as  the  m edium and   we  obta ine 180  sam ples  from   60   pa rtic ipants.  Eac par t ic ipant  was  a s ked   t de scri be   three  s na ke  im ages  (r e prese nting   a   sp eci es  each ).   The  ra datase in  te xt  fo rm   t hen   was  im po rted  into  an  Attr ibu te - Re la ti on  Fil Fo rm at   (A RFF)   file The n,  pre processi ng  an featu re  e xtract ion   we re  perform ed.   ARFF   fi le   is  le ss  m e mo ry  i ntensiv e faster   and b et te r  for a naly sis beca use  it  inclu des  m et a d at a a bout  colum hea der an d data col um n.   Convertin word   t vect or   is  sim ply  m echan ism   to  input  an pro c ess  w ords  f or   any  natu ral   la nguag e   proc essing  ta sk.  A m entioned  in  Se ct ion  V durin prep ro c essing,  We ka  pack a ge   was   us e t conve rt  word   into  the  vecto r.   This  res ults   in  483  at tribu te wer f ou nd   in  the  da ta set Then,  fe at ur es   extracti on  m eth ods  s uc as stop  w ord  el im in at ion ste m m er an to ke nizer   wer e   pe rfor m ed.   Fi nally TF - IDF T   trans form  w as  execu te t cal culat e the  weig ht of eac h w ord  in  each  doc um ent.    These  feat ur extracti on  ta sks  resu lt   in  re du ct io of  the  dim ension al it of   at trib utes  to  30%.  Af te r   featur e extrac ti on the  num ber   of  at tribu te s   decr eases  t 346  at trib utes.  Hen ce the  re s ulti ng   data  set   wh ic cal le the  NLP - Snake  d at a set  consist of   18 sam ples w it h 3 46 att r ib utes.     3.1.      Clas si ficat i on   Accur ac y   Cl assifi cat ion   accuracy  is   pr esented   as  a   per ce ntage   w he re  100%   is  the  best  a al gorithm   can  achieve.  F our  m achine  le arn i ng   al go rithm decisi on  tree  J4 8,  SV (Li ne ar  Kernel) na ïve  Ba ye s,  k - N are  sel ect ed  as  cl assif ie rs  in  this  pro j ect The  pe rfor m ance  of   t he  cl assifi ers  a repor te in  F igure  il lustra te the   correct ly   and   inco rr ect ly   cl a ssifie instanc es.  Figure  ind ic at es  that  J4 has  the  hi gh e st  per ce ntage  of   71.67%  fo ll ow ed  by  S VM  w it 68.33% N ve  Ba ye ob ta i ned   61. 11%   wh ic the f ol lowed   by  k - N by  55.56%  as the   lowest  per ce nt age  ob ta in ed  for co rr ect ly  classi fied  i ns ta nce s.    Fo i ncorr ect l cl assifi ed  instances J48   ob ta ine the   lowest  pe rce ntage  of   bein inc orrectl cl assifi ed  insta nces  with  28. 33%.   This   the fo ll owe by  31. 67%  f or  S V M,  38. 89%  f or   naïve   Ba ye s.  k - NN  ob ta ine t he  highest  propo r ti on   of  inc orr ect ly   cl assifi e in sta nces  by   44.44% He nce,  J48  ac hie ves  t he  highest  pe rce nt age  of  c orrec pr e dicti on   c om par ed  to   S VM,  k - NN,  a nd  naï ve  Ba ye for  t he  N LP - Sn ake   dataset .           Figure  2. The  a ccur acy   of n ve  Ba ye s, k - N N,   SV M,  and  J 48 for N LP - Snake  dataset   0 50 1 0 0 n aïv e Bay es k -NN SVM (L in ear Ker n el) J4 8 6 1 .11 5 5 .56 6 8 .33 7 1 .67 3 8 .89 4 4 .44 3 1 .67 2 8 .33 Cla ss ified  Ins tances Co rr e ctly  Class ifi ed Inco rr ectly  Class if ied Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   1 3 , N o.   3 Ma rc h   201 9   :   999     1006   1004   3.2.       Preci si on a nd Rec all   Re gardin pro bab il ist ic   inter pr et at io n,   preci sion  an recall   are  no i nter pret ed  as  rati os .   I ns te ad they   are  inte rpreted   as  pro ba bili ti es.  P recisi on  is  the  pr ob a bili ty  that  sel ect ed   data  is   releva nt  w hile  re cal is  th e   pro bab il it that  sel ec te data  is  cor rectl retrieve d.   Pre c isi on   an recal bo th  are  sta ti sti cal   m easur e of   perform ances o f  a m achine learn i ng alg or it hm . Th e out com es w e re sh own i Fig ure  a nd Fig ur e  4.   Figure  il lust rates  the  preci sion  pe rfor m ances  obta ined   in  W e ka  i nter f aces  after   te trai ning  a nd  cl assifi cat ion   wer car ried  out.  It  show th at   the  hig hest  pr eci sio outc om of   m achi ne  le arn i ng   al gorithm for  Bo Co ns tr ic tor  was  k - N by  87. 2%,   th second  hi gh e st  is  J4 by  78. 9%,   the  sec ond  lowest  preci sion   f or   Boa Co ns tric to is  62.1% f ollow e d by  naïve B ay es as the l owest   pr eci sio n by 60%           Figure  3. The   pr eci sio n pe rfo rm ance o f naï ve  Bay es, k - NN,  S VM,   a nd J 48  for  th ree s na ke  s pecies i n N LP - Sn a ke data set           Figure  4. The  re cal l perfo rm a nce  of n ve  B ay es, k - N N,  S VM,   a nd J 48 for t hr ee  s nak e   sp eci es in  NLP - Sn a ke data set       The  highest  preci sion   of   m achine  le a rn i ng   a lgorit hm fo Dog - To oth e Ca is  J4 with   69. 4%,   SVM   with  64. 6%,   fol lowed   by  naïv Ba ye with  57. 9%  as  the  se cond  lo west  pr eci sion   an k - NN   with  56%  as  the   lowest  preci sio n.   F or   Na j T ripudian s,  the  hi gh e st  pr eci sio is  J4 by  87. 2% the  second  highest  pr eci si on   is   SV by  78. 9% f ollowe by   the  se co nd  lowest  pr e ci sio f or  Na j T ripudian is  naï ve  Ba ye by  64. 7%.  More ov e r, t he l ow est   pr eci si on is  obta ined  by  k - NN w it h 5 1.6%  only .   Figure  sho w that  the  hig he st  recall   ou tc om of   m achine  le arn in al gorithm fo Boa  Con stric to r   was  J 48  by  75 %,  the   sec on highest  is  S V by  60% the   seco nd  lo west   recall   f or  Boa   Const rict or  is  55%  in   naïve  Ba ye f ol lowed b k - N as t he  l ow est  r ecal l by  18. 3% .   The  highest  re cal of   m achin le arn i ng  al go rithm fo D og - To oth e Ca i J48  t hat  goes   by  71.7%,   SV an k - N sh a r the  sa m ou tc om by  70 a nd   naïve  Ba ye by  55%  as  the  lo w est   recall Fo Naj a   Trip ud ia ns s urp risin gly  the  highest  recall   is  k - NN   by  78. 3%,   the  sec ond  highest  rec al is  SV by  75 % ,   fo ll owe by  th second  lo we st  recall   fo N aja  Trip udia ns  is  naïve  Ba ye b 73.3 % J4 ob ta in the   lowest  recall  w it h 6 8.3%  only   0 20 40 60 80 1 0 0 n aïv e Bay es k -NN SVM J4 8 Prec isio n Cla ss ifiers Bo a Co n str icto r Do g -T o o th ed   Cat Naj a T r ip u d ian s 55 1 8 .3 60 75 55 70 70 7 1 .7 7 3 .3 7 8 .3 75 6 8 .3 0 20 40 60 80 1 0 0 n aïv e Bay es k -NN SVM J4 8 Bo a Co n str icto r Do g -T o o th ed   Cat Naj a T r ip u d ian s Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Snake  sp eci es  i den ti fi catio n b y u si ng natur al  lang uage pr oc essing   ( Nur L i yana Izz ati Ru s li )   1005   In  ge ne ral,  for  pr eci sio an r ecal perform a nce  am ong  the   f our  al gorith m fo th NL P - S nake  data   set J48  sho ws   the  m os prec ise   per ce nta ge   we re  ob ta ine for  eac s na ke  s pecies.   It  al so   has  th hi gh est   accuracy c om par ed  to SVM,   k - NN an d naï ve  Bay es.       4.   CONCL US I O N     The  pa pe dem on st rates  the  prel i m inary  resul fo the  r eco gnit ion   of   s nake   sp eci es  by  us i ng   natu ral  la nguag e   pr oce ssing.  Hu m an  descr i ption  of  sn a ke  im ages  f ro m   three  s pec ie was  c ollec te th r ough  s urvey  in  so ci al   m edia.  The  res ulti ng   raw   data  set   con ta ins  te xtu al   descr ipti on  of   sn a ke  char a ct erist ic by  hum an.   The  pre - proces sing   an feat ure  sel ect ion   was   then  perf or m e d.   The  feature   extracti on  ta sk  inv ol ves  sto wor el i m inati on st e m m ing word  tok e nizer  an TF - I DF   tra nsfo rm The  pro cessed  data  set nam ed  NLP - Snak e   dataset c on sis ts  of  34 at tr ibu te with  180  sam ples.  Then,  the   pe rfo rm ance  of   f our  m achine  le arn i ng   al gorithm (n ve  Ba ye s,  k - N N,   SV a nd  de ci sion   tree   J 48)  are  e valuate f or  trai ning  a nd  cl assifi cat io n.   All  in  al l,  the  ov e rall   per f orm ances  sh ow  that   the  J4 is  th best  an su i te for  te xt  cl assifi cat ion   ta s k,   in   par ti cula r,  t id entify  sn a ke  c ha racteri sti c in  natu ral la ngua ge  ta s k.     In   t he  fu t ur e we  ai m   to  colle ct   la rg e da ta   set   by  in volv ing   a   great er  num ber   of  s na ke   sp eci es  a nd   m or e p arti ci pa nts.  By   do i ng s o,  m or e acc ura te  r esults a re e xp ect e d for  rea l - w or ld  im ple m entat ion .       ACKN OWLE DGE MENTS     We  would  li ke   to  th an ks   t th ra ndom   par ti ci pan ts  w ho  he lped  us  by  a nsweri ng  th sur vey  f or  thi s   stud y.   W e  also  wou l li ke  t t hanks  Tam an  Ular  Perlis f or  the s nak e  p ic tu res.       REFERE NCE   [1]   W HO   blood  produc ts  and   relat ed   Biol ogi ca ls a ni m al   sera   Ant ivenom fra m es  page .   R et ri eve d   Oc tobe 7 ,   2016 ,   fr om  htt p://apps. who. i nt/ bloodproducts/snake an ti venom s/dat ab ase /   [2]   Chew,   K.S. ,   Kh or,   H.W.,  Ahm ad,   R. ,   Rahman ,   N.A.H. (2011) .   Five - y e ar  r et rospec ti ve   rev i ew  of  snake b ite   pat i ent s a dm itte to a ter t ia r y   un ive rsit y   hospital  in  Mal a y s ia.  Int e rna ti on al   Journ al of  E m erg ency   Medic in 4(1) ,   1 -   [3]   Kang,   S.H. ,   Song,  S.H.,  Lee,   S . H.  (2012).   Id entificat ion  of   butterfl y   spe ci es  wit single  neur a net work  s y s tem .   Journal  of  As i a - Paci fi En tomolog y   15(3), 431    435.   [4]   Zha o,   P.,  Dou,   G.,  Chen,  G.S .   (2014)W ood  Speci es  ide nt ifica t ion  using  f e at ure - le ve fusio sche m e.  Opti -   Inte rna ti ona Jou rna for   L ight   an Elec tron   Opti c s 125(3),   1144     1148.   [5]   Zha o,   P. ,   Dou,  G.,   Chen,   G.S.  (2014).   W ood  s pec i es  ide ntific a ti on  using  improved  ac t ive   sha pe  m odel .   Optik   -   Inte rna ti ona Jou rna for   L ight   an Elec tron   Opti c s 125(18),   5212     5217    [6]   Za m ri,   M . I. P. ,   C ordova ,   F. ,   Kha i ruddin,   A.S . M.,  Mokhtar,   N. ,   Yu sof,  R.   (2016)   T ree   spe cies  class ifi c at ion   base o image  anal y s is  using  improved - basic   gre y   le ve aur m at rix .   Co m pute rs  and  El e ct roni cs  in  Agri cul tur 124,   227     233.   [7]   Faria ,   F.A . ,   Al m ei da,   J. ,   Alber ton,   B. ,   Morel lato,   L . P.C. ,   Roc ha,   A. ,   da  S.   T orre s,  R. (2015)  Ti m serie s - b ase d   cl assifi er  fusion   for  fine - g rai n ed pla nt   spec i es  re c ognit ion.  Pa tt er Recogni t ion  L et t ers   pp.     [8]   Christi anse n ,   P.,  Stee n,   K . A. ,   Jrgensen,   R . N.,  Karstoft ,   H.(2014)   Autom at ed  de t ec t ion  and  r ec o gnit ion  of  w il dlif e   using t her m al ca m era s.  Sensors   1 4(8),   13778   [9]     Yu,  X.,   W ang ,   J.,   Ka y s,   R. ,   Jan sen,   P.A. ,   W ang ,   T . ,   Huang,  T .   ( 2013).   Autom ated  id ent if icati on   of  an imal  spe cies   in  c amera   tra p   i m age s.  EUR ASI Journal   on  Im age  and  Vi d eo  P roce ss ing  2013 ( 1),   1 10     [10]   Am ir  A.,   Za hri  N.A.H. ,   Yaa kob   N.,   Ahm ad  R. B.   (2017)  Im age   Cla ss ifi c at ion  for  Snake  Species  Us ing  Mac hine   Le arn ing  Techni ques.   In:  Phon - Am nuai suk  S.,   Au  TW.,   Om ar  S.  (ed s)  Com put at ion al   Intelli g e nce   in  Inform at i on   S y stems .   CIIS 2 016.   Advan ce s i Intelli g ent S y s te m s a nd  Com puti ng,   vol  5 32.   Springer, Cha m   [11]   Jam es,   A.P.,   Ma the ws ,   B. ,   Suga t han,   S.,   R aveen dra n,   D.K.  (201 4)  Discriminat iv histogra m   ta xo nom y   f ea tu res  f or   snake   spec ie id ent ific a ti on.   Hu man - ce ntric Co mputing  and  In f orm ati on  Scienc es   4(1), 1 11    [12]   M   Im ambi,   S.,   Sudha  (2011).   Pre - Proce ss in of  m edi ca d ocuments  and  r educ ing  Dim ens iona lit y .   Ad vanced  Computing:  An   I nte rnational   Jou rnal ,   2 (5) ,   15 24   [13]   Za idi,  N.  A. ,   Pet it jean,   F. ,   W e bb ,   G.  I.   (2016).  Prec ondit ion ing   an  Artifi c ia Ne ura Network  Us ing  Naive   Ba y es .   Proce ed ings  of  t he  20th  Pac i fic - Asia  Confe ren ce  on  Adv an ce in   Knowle dge   Discov ery   and  Data   Mini ng ,   P AKDD   2016 ,   pp .   341 - 3 53    [14]   Cao  J,  Fang  Z,   Qu  G,  Sun  H,  Zha ng  (2017).   An  ac cu ra te   tr aff ic   c la ss ifica t i on  m odel   base on  support  vec tor   m ac hine s.   Int J Network  Mgmt .   2017;27: e1962 .     [15]   P.  Gu,  R.   Kh at o un,   Y.  B egr ic h and  A.  Serhrou c hni.   (2017) .   k - N ea rest   Neighbou rs  cl assificat ion  base S y b il   at t a ck   det e ct ion  in  Vehic u la Netwo rks.  2017  Thir Inte rnational   Confe renc o Mobil and   Sec ure  Serv ices  ( MobiSe cSe rv) ,   Miami  Beach, FL,   2017 ,   pp .   1 - 6 .     [16]   M.  Aashkaa r,   P.   Sharm and  N.  Garg.   (2017).   Perform anc an aly s is  using  J48   dec ision  tree  fo India cor pora te  world.   2016  In ter nati onal  Conf ere nce  on  R ese arc Adv an ce in   In te grated   Navi ga t ion  Syst ems  ( RA INS) ,   Banga lor e,  2016,   pp .   1 - 5.     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   1 3 , N o.   3 Ma rc h   201 9   :   999     1006   1006   BIOGR AP HI ES OF  A UTH ORS         Nur  Liy ana   Ru sli   gra duated  with  Bac h el or  of   Com pute Network  Engi nee ri ng  from  Univer sit y   Ma lay sia   Perli in  20 17.   She  is  now  working  in  E rics on  as  NO E ngine er .   Her  intere st   incl ude  m ac hin e lea rning  and   compu te n et works .       Am iz Am ir  is a seni or le ct ure r   i School  of   Com pute r and  Com m unic a ti on  Engi ne eri ng  at   Univ ersit i   Ma lay s ia Perl is.   Sh re ceive d   her   P h. D. in  Inform ati on  Technol og y ,   on  distri bute d   ar ti fi ci a in te l li gen ce,   from   Monash Unive rsit y ,   Aus tralia i 2015 .   H er curr ent  rese arc h   in te rest s inc lud m ac h in l ea rn ing ,   d istributed  s y stem,   m et a   heur ist ic  opti m iz ation,   da t an aly t ic and  s oftwa re - def ine d   net work (SDN ).   She  teac h es  cour ses i dat a   an aly t ic s a n artificia in te l ligence.           NI AD ILA HANI Z AHR is a seni or le cturer  in   School   of   Com pute r and  Com m unic at ion Engi ne eri ng  at  Univer siti   Malays ia   Perl is.  She   re ce iv ed  h er  Ph.D.   in  Medic a Eng inee ring,   on   Com m unic a ti on  and  Inf orm at ion  S y s te m ,   from   Univer si t y   of  Yam ana shi,  Jap a in  2013 .   He c urre nt  r ese ar ch i nte rests  inc lud e nat ura l angua g e   proc essing,   m a c hin e le arn ing, data  m ini ng   and   da ta   ana l y t i cs.   She   te a che s progr amm ing,   software   engi ne e ring  and   da ta   an aly tics c ourse             R.   Prof.   Dr.  R . B adl ishah   Ahm ad is a   Profess or in  Malay s ia.  He   is  Deput y   Vic Ch anc e ll or  (Rese arc h   and   In novat ion) ,   Univ e rsiti   Sult an  Za in al   Abid in  (UniS ZA)  since 15  Ma rch   2017.   Gradua te d   PhD   (1999)  fro m   Univer sit y   of   Strat hcly d (Sco tl and ,   UK ).   H h as  supervise m ore   tha n   40  PhD   an MS student s.   Speci a li z ed and Expe rt ise  in   Co m pute and  T el e comm unic a ti on  Ne twor Modelling,   Embedde S y s te m   Design  and  Op e Source   Software .     Evaluation Warning : The document was created with Spire.PDF for Python.