Indonesi an  Journa of El ect ri cal Engineer ing  an d  Comp ut er  Scie nce   Vo l.   13 ,  No.   3 Ma rch   201 9 , p p.   902 ~ 909   IS S N: 25 02 - 4752, DO I: 10 .11 591/ij eecs .v1 3 .i 3 .pp 902 - 909          902       Journ al h om e page http: // ia es core.c om/j ourn als/i ndex. ph p/ij eecs   A compa rative s t ud y o f  sentim ent anal ysis usin g SVM and  SentiWo rdNet       Moham ma d F ikri , R iy anar t S arno   Depa rtment  o I nform at ic s,   Insti tut   Te knolog Se puluh  Nopem ber ,   Indone si a       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Ma 21 , 201 8   Re vised  N ov   13 , 2 018   Accepte Dec   5 , 2 018       Senti m ent   an alys is  has  grown  ra pidly   and   impacts   on  the   num ber   of  services   using  the   int e rn et   popping  up  i Indone sia.   In  thi rese ar ch,   th senti m ent  ana l y sis  uses  th rule - base m et hod  with   the  hel of  Sen ti W ordNet   and   Support  Vec tor   Mac hine   (SV M)  al gori thm  with  Te rm   Freq uency - Inve rse   Docum ent   Freq uency   ( TF - IDF as  a   fe at ure   ex t rac t ion  m et hod .   The   d at a   as  the   c ase   stud y   f or  the   sent iment   ana l y sis  is  writ te in  Indon esian  la nguag e.  Since   th num ber   of  sent ences  in  positi v e,   n eg at iv and  n eut r a class es  is  imbala nc ed,   the  over sam pli ng  m et hod  is  implemente d.   For  i m bal anc ed   dat ase t,   th rul e - base Senti W or dNet  and  SV al gorit hm   ac h ie ve   ac cur acie s   of  56%  and  76%,   respe c ti ve l y .   How eve r,   for  t he  bal an ce d ataset ,   the   rul e - base Senti W ordNet   and  SV M   al gorit hm   ac h i eve   a cc ura cies  of  52%  and   89%,   r espe ctively .   Ke yw or ds:   Rule - ba sed   Sentim ent an al ysi s   Sentiw ord net    Suppor t  v ect or m achine   Wor dn et   Copyright   ©   201 9   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e .     Al l   rights re serv ed.   Corres pond in Aut h or :   Ri ya nar to Sa r no,    Dep a rtm ent o f Info rm at ic s,   In sti tut Te knol og Sepulu h N op em ber ,   Jal an  Ra ya  I T S , K e puti h,   Suk olil o,   Ko ta   Sur abaya, Ja wa  Ti m ur  6 01 11 , In donesia.   Em a il : riy anar to@if .it s.ac.id       1.   INTROD U CTION   W it th inc re ase  in  t he  nu m ber  of  inte rn et s,  us ers   can   op en  a opport unit to  giv e   go od  im pact  to  an  orga nizat io beca us of   t he  data  gen e ra te thr ough  int ern et   use act ivit y.  These  data  can  be  op i nio ns   or   facts  a bout  s om et hin g.  This  r esearc f ocu s es  on p ub li c op inions  a bout p r oducts  i the   f or m   of  ap plica ti on s   on   sm artph on e s.  These  opinio ns  can  be  furthe r   analy zed  f or   obta inin c onsiderati on  of  the   decisi on - m aking  in  a   com pan y t hat c reates t he  app li cat ion . A m ong t he  var io us  techn ic al  an al yz es , th e tec hn iq ue  is cal le senti m ent  analy sis  [1] This  te chn i que  pr oce sses  te xt  do c um ents  in  th form   o op i nions  to  gen e rate  piece  of   inf or m at ion   so  that  in form at i on  can   be   us ed   to  div i de  op i ni on s   into   posit ive,  ne gative,   or  neu tral   opini on s .   In  the  de velo pm e nt  of  in form at i on  te ch no l og y,   opinio m ining   is  on of  the  favor it r esear ch  to pics  in   th fiel of N at ur al  La ngua ge Pr ocessi ng (NLP ).   In   this  resear c h,   we  com par e   the  i m ple m ent at ion   of  s up e rvi sed  m achine  le arn i ng   a nd  r ul e - base f or  sentim ent  analy sis  us in data  from   Go ogle   Play store  a nd  A pp le   Appst ore   w ritt en  in  I ndonesi an  la ngua ge The  m et ho to   get  the  data  is  the  sa m m e thods   as  the  m et hod   in  these  sever al   pa pe rs   [2 - 3] .   Eac pr oduct  rev ie a   case   f old in proce ss,  norm al iz a tio of  punc tua ti on ,   norm al izati on   of  the   sl ang  w ord st opw ord   rem ov al trans form ation   int sing le   li ne and   t okenizat ion   will   be  ca rr ie out  as  s ta te on  [4 - 5] For   i m ple m entat io ns   us i ng   s uper vised  m achine   le arn in g,   we  us Term   Fr eq uen cy - I nv e rse  Do c um ent  Fr equ e nc y   (TF - I DF t conve rt  te xt  into  cl assifi able  f eat ur es  a nd   S uppo rt  Vecto Ma chines  to  c la ssify  the  pro cesses.   Senti Wo r dNet   does  not  suppo rt  la ngua nges  oth e th a E ngli sh w her eas   the   la ngua ge  of  the   data  i s   Ind on esi a n T he refor e transla ti ng   the  opinio ns   into  E ng li s is  need ed,   s that  resu lt   of  th transla ti on   ca be  done  by  the  an al ysi of   the  op inio ns   [6 - 7] .   This  resea rch   c on sist of  sect ion   that  exp la ins  the  us e m et hod,  sect ion   t hat e xp la in s the  r es ults o the  ana ly sis, and s ect io n 4 th at  c onta ins t he  c on cl us ion s .     Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       A com pa r ative   stud y  o f se ntim ent an alysis u s ing   SVM  an d S entiW ordNet ...  (   Riy anar to  Sa rn o )   903   2.   RESEA R CH MET HO D   The  m ai ob j e ct ive  of  t his  st ud is   to   com par e   te xt  cl assi ficat ion   al gorithm between  us in a   r ule - base al gorith m   with  the  help  of  Senti Wo r dN et   a nd  usi ng   the  com bin at i on   of   TF - I DF   al gorithm   and   Suppor t   Vecto Ma chine  (SVM)  al gorithm TF - I D extracts  featur es  f r om   te xt  to  vector   and   S VM  cl assifi es  an   i m balanced  da ta set   into  the  num ber   of   posit ive,  ne gative,  and   ne utral  cl asses.  T he  res ults  of   eac al gorithm   us e will   be  s ort ed  a nd c om par ed  b ase d   on t he  sc or e of  t he  F - S co re a nd  Accuracy     2.1.    Data C onstruc tio n   The  data set   co ntains  public  op i nions  a bout   so m app s .   T ho s opini ons  are  w ritt en  in   Ind on esi a la nguag e   an a re  ta ke f r om   Goo g le   Play Stor a nd  Apple  AppS t or e T he   data  co ns ist of   “i d_kom en”  as  the   identific at ion   cod of   c omm ents,  “t it le _k om en”  as  the  ti tl of   com ments,  an Kom en”  as  the  de ta il ed   com m ents.  Th sentim ents  fo each  sente nc are  dete rm in ed  by  hu m ans  into  th ree  cl ass es,  i.e.  posit ive  cl ass,   neu t r al   cl ass,  and   ne gative  cl ass.  The  dat aset   con ta in 553  se ntence s   wh ic are  25 posit ive  cl a ss,  24 1   neg at ive   cl ass,   an 53  neu tral   cl ass.  T he  pos it ive  cl ass  an neg at ive   cl ass  are  balance d;  howe ver,  the   ne utra l   cl ass  is  im bala nced  bec ause   the  neu t ral  cl as has   fe wer  se ntences   tha th oth e rs.  T he  da ta   is  store i data   fr am that  has   "C OMME NT colum fo com m ent,  "SENTI ME NT"  c olu m fo the  correct   sentim ent,  an "SENT IMEN T _ID" c olu m f or sen ti m ent id,  i.e. " 0"  a negat ive, "1 "   as  po sit ive, and  " 2" a s n e utr al .     2.2.    B ala ncin g Data   Ba la ncing an u nb al a nced d at aset  is a criti cal  p r ocess  in  m achine lea rn i ng. T he  m et ho d us e d   this  tim by ove rsam pli ng the m ino rit y cl ass  [ 8]   is s how in  Fig ure  1 .  T he  e xp la na ti on   of Fig ur e  1  is  as  fo ll ows :     1.   Ma rk in t he  M inorit y C la ss an d M aj or it y C la ss.   First,  c re at ing  on e   col um na m ed  flag _bal ance The n,  m ar king   the   m ino r it cl ass  (n e utr al by  fill ing   in   the f la g_balanc e   fiel d wit h 1 a nd the m ajorit y cl ass (p os it ive and  neg at iv e)  with  0.   2.   Sp li ts i nto 2  Dat a fr am es.   The   data  w hic has  in  the  flag _b al a nce  colum be com the  m ino rity   data  f ram and  the  data  wh ic has 0 i the  f la g_balance  c olum bec om e t he  m ajo rity  d at a fr am [9] .   3.   Re sa m ple Th Mi no rity  Cl ass  D at af ram e.   The  fir st  ta sk   is  ov e rsam pling  the  m ino rity   resam pled  cl ass  by  us in the  e xisti ng   al go rith m   in  the  sci kit - le arn   [ 9] Af te that,   re sam pl ing  ra ndom ly   un ti the   num ber  of  m ino rit cl asses   e qu a ls  the  a ver a ge   nu m ber   of  m ajo rity   cl asses.   I this   resea rc h,  ne utral  is   the   m ino rity   cl ass posit ive  a nd  neg at ive   is  the   m ajo rity  class .   4.   Com bin e Th e   Ma j ori ty  Cl ass D at af ram e and  T he U ps am pled  Mi nority .   First, m erg in g bo t h data f ram e (m ajo rity  and   m ino rity ).   The n,   ra ndom iz ing  the se quence  on th e  d at fr am e so  t hat  da ta  are  m erg ed   into  rand om .           Figure  1. Ba la ncin g Im balanced Data set  Process       2.3.    Pre proce ssing D ata   Be cause  Ind onesi an  la ng uag e   us i ng  by  t he  da ta   is  inf or m al t he  pr e process ing   is   do ne   to   change  t he   te xt   into  I ndon esi an  l an guage  in  the   f or m al  f or m The  f ol lo wing  pr e proces sing st eps   are  de scribe as  foll ow s:   1.   Enter” C harac te r Norm alizat i on.   Rem ov e " \   n" or enter  on t he se ntence  to be  a sin gle li ne onl y.   2.   Lo wer case  Norm al iz ation .   Turn  t he  se nte nce in t al l l owercase .   3.   Unnecessa ry C har act er  No rm al iz at ion .   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   13 , N o.   3 Ma rc h 201 :   902     909   904   Delet recur rin char act e r   wh et he it   i s   an  al ph abet  or   punct uation.  For  exam ple  "Set ia aaa"   to   "Set ia " and “Y ah. . ... "  to  " Ya h" .   4.   Punctuati on  N or m al iz ation .   Delet e pun ct ua ti on   on the  sent ence.   5.   Slang  Word N or m al iz ation .   Fixed  i nfo rm al  w ords  a nd  a bbre viati on s T he  fix   us es   m anu al   way,   not  s pellc heck i ng.  T he  m anual   way  m eans  m a tc hin the  wor with  has m ap  con ta ini ng  sla ng   wor if  the  wor m a t ches  the  key  of   the  sla ng  wor hash m ap  the the   w ord  is   cha ng e i nto  the  value  of  the   key  of  the   has m ap.   F or  exam ple, abbr e viati on s  su c a s "sp t"  t o be "s eper ti " a nd infor m al  w ords  li ke  " pak e"  to  " pa kai".   6.   Stopw ord  Re m ov al   Delet the wor ds   t hat  oft en   a pp ea i eac s entence.   T he  t ype  of  t he  delet ed  w ord   is  c onjun ct io w ord ,   su c as  " da n",  "serta" "se rta ",  an oth e rs Table  is  a exam p le   of   t he   prep ro ce ssin re su lt s.  The  or i gin al   te xt  use Indonesia la ng ua ge  in  the  inf or m al   fo rm and   the  preprocessi ng   re su lt changes  the   la nguag e  of   or i gin al  text  fro m  infor m al  f or m  to  f or m al  f or m       Table  1.   Pr e processin Re s ul ts   in  I ndonesi a n   La ngua ge   No   Origin al T ex t   Af ter  Prepro cess in g  T ex t   1   BETU LI N  DON APLI KASI NYA  ,   RUSAK  MU LU  N IH! ! !!   b etu lin  do n g  aplikasin y a r u sak   m elu l u  nih   2   Ap p  nya  cr ash  ter u s!!  Tolo n g  dip erbaik i agar  serv ice nya   se m ak i n  baik   ap p  nya   crash t eru s to lo n g  dip erbaik i   serv ice  n y a se m ak in  baik       2.4.    Ru le - B ase d U sin g Sen tiw ordn et   The   pu rpose  of   this  r esearc is  t com par two  dif fer e nt  m e tho ds   a nd  one  of  the  m et ho ds   is   Senti Wo r dNet .   Me an wh il e,   the  process   of  cl assifi cat ion   i dif fe ren bec ause  t he  S enti Wor dN et   is   cu rr e ntly   ver y l im i te an d no t y e t a vaila ble in I ndonesi an  la ng uag e .     1.   Tr an sla te  D ata   Be cause  Se ntiword net  is  currently   sti ll   lim it ed  to  the  Indonesia la nguag e there f ore  t he  data  i s   translat ed  int En glish   la ngua ge G oogle  T ra ns la te   is  us ed  as  the  la nguage  translat or   t ool.   The  res ults  of  this   translat or  to ol  can  be   assum ed  quit well   al thou gh   t her a r st il so m se ntences  t hat  do   no have  the  c orrect   sentence  str uctur e     2.   Tokeniz at io n   an d  PO S Tag ging   To ken iz at io is  pr oces to  sp li t   on sente nc into  piece  of   the  w ord A this  pr ocess the  sente nce  is split  into u ni gr am  w hic m eans s e ve ral p a rts consi sti ng  of  1 piece  of a  word.    Af te r   the  t ok e ni zat ion   pr ocess each   unig ram   is   determ ined  the  pa rt  of  s pe ech  [ 11] T here  are  par ts   of   sp eec wh ic are   nouns,   pr onou ns a dject ives ve rbs,  a dverb s pr e posit ion s co njunc ti on s ,     and  inter j ect io ns .   H oweve r,  the  par t   of  s pee ch  ta is  a   Pe nn  T ree bank  P OS   ta a nd  Se nti W or dN et   on ly   has   four  ge ne ral  P OS   ta gs   of  no un  ( N ),   verb  ( V ),   a dject ive  ( A ),   a nd  a dv e rb  ( R).  Fi nally ,   co nv e rtin the   P OS   ta to  Se nti W or dNet  PO S  tags  is  necessa ry  [ 12 ]   with the  foll ow ing   r ules :   a)   Noun (N )   If   POS ta gs   are  ' NN ' , ' NN S' , 'N N P' , ' NN PS' then  t he  P OS t ags  a re c hange int ' N' .   b)   Verb   ( V)   If   POS ta gs are   ' VB' ' VBD ' , 'V BG' , ' VBN' , ‘VBP'  o r  ‘VBZ' the the  P OS   ta gs  are  ch a ng ed  int ' V' .   c)   Adject iv e   ( A)   If   POS ta gs are  ' JJ' ' JJR ' , o ' J JS' , th en  t he P OS  ta gs  a re c ha ng e i nto  ' A' .   d)   Adver b   (R)   If   POS ta gs are  ' RB' , 'RBR' , o r  ' RB S ' , th en  t he  POS tag s ar e   change int ' R' .   The  la tt er  on  this  proce ss  is   done   le m m atizat ion L em m at iz at ion   is  process   w her e   w ord   is   returne to  it basic f orm  b ack in ac co r dan c e w it t he  P OS t ag.     3.   Sent im en t Cla ssific at i on   The  se ntim ent   cl assifi cat ion  in  this  stu dy  use Se nti W or dnet   an Wo r dnet   to ols.  Sent iWo rdnet  is   us e to  fin the  scor of   each  synset  a nd   Wor dn et   is  us ed  to  sea rch   f or  synon ym of   each  wor   bein a naly zed .   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       A com pa r ative   stud y  o f se ntim ent an alysis u s ing   SVM  an d S entiW ordNet ...  (   Riy anar to  Sa rn o )   905   Scores  f or   eac w ord  a re  sea rch e us in Se nti W or dn et   ac cordin to  POS  ta gs   if  t he  sc or es  a re  m or e   than 0 t hen it   is t ake n,   oth e rwi se it  is b ypass ed.   Af te se ntim en scor es  pe w ord  are  obta in ed,   we  hav t do  total   cal culat ion   to  ge senti m ent  scor for  one   sentence.  T he   se m antic   or ie ntati on   cal culat ion   us es  the  m et ho accor ding  to  E quat i on     (1)  a nd (2).         =           (1)         =           (2)     Ba sed  on  E qua ti on   ( 1),  ( 2),  S cor e positive   is  th final  num ber   of   posit ive  sco res  w hile  the  S cor e negative   is   the  final  nu m ber   of  ne gative  scor e s.  A nd  is  the  num ber   of   wor ds   w hos first  sente nc value  is  a bove  0.   The n,   t o get se nti m ent v al ue Eq uation   ( 3)   is ap plied.          {                0 . 05                 0 . 05       0 . 05 <          < 0 . 05   (3)     Sentim ent  ob ta ined  va lue  us e s   po sit ive  sc or diff e re nce  an neg at iv sc ore.   If   the  sco re  di ff e ren ce  is  gr eat er  t han   0.05   t hen   t he  sen tim ent  value  is  po sit ive.  If   t he   scor differe nc is  s m al le e qu al   to - 0.0 th en  the   sentim ent  value  is  neg at ive And  if  t he  sco re  dif fer e nce  i sm a ll er  than  0.05   a nd  great er  tha n - 0.05   t he t he  sentim ent v al ue  is ne utral.     2.5.    S uper vis ed Machine  L earnin u sing   SVM   In  this  sect i on,   the  T F - IDF  m et hod  is  us e a the  featu re  e xtracti on  proce ss  f ro m   te xt  to   vect or   an SV M i us e a s an al gorithm  f or text cl assi ficat ion .     2.5.1  Fe ature   Extr act i on   using  TF - I DF   Term   Fr equ e nc y - Inve rse  D oc um ent  Fr eq ue ncy  is  m et ho f or  co nverti ng  do c um ent  (sen te nce i corpu i nto   a   sta ti sti ca ll m easur a ble  wei ght  in  w hich  thi weig ht  repre sents  how  im po rta nt  the  wor is  in   the  doc um ent  or   phrase  [ 13 ] .   The re  are  se ve ral  ta sk t tr ansfo rm   cor pu s   into  a   wei gh us in t he   TF - IDF   m et ho d.   a)   To ken iz at io n   Do c um ents  that  exist  in  corpu a re  to ke nized  into  unig r a m   and   bi gr a m Un igram   c on sist of   on e   word   a nd   big r a m   con sist of  word s The  tok e nizat ion   pr ocess  can  be  seen  in  Fig ur 2.   Ba sed  on  Fi gure  2 al of   unigr am s   an big ram are  sti ll   in  I ndonesi an   la ngua ge   beca us t he  docum ents  are   wr it te i Ind onesi an  la nguag e .           Figure  2. To ke nizat ion   Proces s   of  Do c um ents in In done sia n Lan guage       b)   Term  Fr eq uen c ie s   Term   Fr eq uenci es  (TF)  m eas ur e s   ho of te w ord  a ppear in  docum ent.  It  is  po ssi ble   that  te rm   would  a pp ea m uch   m or tim es  in  l ong  doc um ents  than   s horter  ones.   Ter m   Fr equ e ncies  is  the  t otal  co unt  of   a   te rm  in  a d oc um ent.     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   13 , N o.   3 Ma rc h 201 :   902     909   906   c)   Inverse  Do c ume nt F reque ncy     Inverse  D oc um ent  Fr e qu e nc y   (IDF)   m ea su res   ho im portant  a   te r m   to  doc um ent.  Wh en   cal culat ing   te r m   fr eq uen ci es,   assum ing   that  al te r m s   have  the   sam e   i mp ort ance  in  do c um ent;  w he reas   conj un ct io nal  words   in  Ind onesi an  la ngua ge   su ch  as  "da n" "adala h",   an "serta" ,   are  ver oft en  ap pe ar  in  sever al   docum ents (se nte nces the reb re du c ing   how  im po r ta nt the wo r i s in  a  sen te nce.      ( , ) =   ln [ ( 1 + ) ( 1 +  ( , ) ) ] + 1   (4)     In  Eq uatio n   (4),   IDF(t,  d)  is  t he  Inverse  Do c um ent  Fr eq ue nc of   te rm   in  doc um ent,  is  the  t otal  nu m ber   of  the  do c um ents,  DF(t,  d)  is  the  nu m ber   of   doc um ents  with  te rm   (t)  in  it T he  ef fect  of   a ddin “1”   to  the  IDF  in  the  equ at i on   a bove  is  that  te rm with  zero   ID F;  i.e. te rm that  occur  in   al do cum ents  in  a   trai ning  set will   no be  entirel ign or e d.   T he   con sta nt  “1”  is  add ed  to  the   nu m erator   an de no m inator   of   the   ID F   as  if  a e xtra  do c um ent  was  see c onta ining  eve ry  te rm   in  the  colle ct ion   e xactl once,  w hich   pr e ven t s   zero di visions.   d)   Ca lc ulate  TF - I DF   Weig ht     In   t he  process   of   cal culat ing  weig hts  us in the  TF - I DF  m et hod  wh e re  al the  E qu at io n s   us e a re  in   accor da nce  with  E quat ion   ( 4),   (5).  This   sect ion  will   be   exe m pl ifie ho t he  cal culat io of   wei gh ts  us i ng  the   TF - ID F  m et ho d.     TF ID F ( t , d ) =   TF ( t , d )   x   ID F ( t , d )   (5)     e)   Norm al iz e TF - ID F   Weig ht   Norm al iz a ti on   is  done  so   t hat  the  TF - IDF  va lue  has  well - bala nced   wei gh t.  N or m al iz a ti on   is  done   us in L 2 n or m  so  t hat the   wei gh of tf - idf  for ea ch  te rm  h as  a w ei ght  of 0 - 1 sca le , s ee  Eq ua ti on   (6).      =   2 =   1 2 +   2 2 + +   2   (6)     As  an  e xam ple two  doc um ents  (D a nd   D2)  are  com pu te the  TF - I DF   va lues.  Term are  obta ine us in t he  to ke nizat ion   m et hod  as  sho wn  on  Fi gure  2.   D is  the  doc um ent  fr e qu e nc for  eac Te r m   in  do c um ent  (Dn ),   I DF   is  the  i nv e rse  do c um e nt  fr e quency  f or   eac Te rm   cal culat ed  us i ng  Eq uatio n   ( 4) Ter m   Fr e qu e ncy Inv erse  D ocu m en Fr eq uen cy   ( TF - ID F f or   e ach  Term   in  do c um ent  (D n)   is  cal culat ed  us i ng   Eq uation   ( 5)  and   is  norm alized  us in L2   No rm   as  sh own  by  Equ at i on   ( 6).  The  r esults  are  expl ai ned    in Ta ble 2.   T he  term s ar e w ritt en  in  In donesia la ng uag e D 1   is “dia  baik  se kali   an D 2   is   “dia j a hat se ka li .”       Table  2.  T F - IDF  W ei gh ti ng   w it Term s w ritt en  in  In donesia la ng uag e   Ter m   TF   DF   IDF   TF - I DF   TF - I DF  (L 2  Nor m )   D 1   D 2   D 1   D 2   D 1   D 2   d ia   1   1   2   1   1   1   0 .35 5   0 .35 5   b aik   1   0   1   1 .40 5   1 .40 5   0   0 .49 9   0   sek ali   1   1   2   1   1   1   0 .35 5   0 .35 5   jah at   0   1   1   1 .40 5   0   1 .40 5   0   0 .49 9   d ia baik   1   0   1   1 .40 5   1 .40 5   0   0 .49 9   0   b aik  sek ali   1   0   1   1 .40 5   1 .40 5   0   0 .49 9   0   d ia jahat   0   1   1   1 .40 5   0   1 .40 5   0   0 .49 9   jah at sek ali   0   1   1   1 .40 5   0   1 .40 5   0   0 .49 9       2.5.2   Sup po r t   Vec to r  Machi ne   Suppor Vecto Ma chine  ( S VM)  is  cl assifi cat ion   m eth od  f or   li nea r   or   no nlinear  data  by  us in nonlinea data   m app ed  t c onve rt  trai ning   data  to  hi gher  dim ension.  This  m et ho find   hype r plane  by  m axi m iz ing  m arg i n or   distan ce betwee n cl asses  [ 14] , [1 5] .   Con si der i ng   t he   cl ass  in  cl assifi cat ion the  one  vs   rest  strat egy  is  i m ple m ented,   t his  stra te gy  con sis ts  in f it ti ng one cl assifi er  per cl ass.     2.6.      Co m pari ng   Resul ts   Re su lt from   t he  cl assifi cat io of  r ule - base usi ng  Se ntiWor dN et   a nd   su pe r vised  m achine  le ar ning   and   us in S V al go rithm   with  TF - I DF   a featur e xtra ct ion   are  c ompare by  usi ng  Re cal l,  Pr eci sion,  F - Score  par am eter s.   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       A com pa r ative   stud y  o f se ntim ent an alysis u s ing   SVM  an d S entiW ordNet ...  (   Riy anar to  Sa rn o )   907   Pr eci sio is  the  abili ty   of   cl assifi cat ion   m od el   to  id entify   only   the  releva nt  dat po i nts,  se e   Eq uation   ( 7) Re cal is  the  abili ty   of   m od el   to  fin al th releva nt  case within  data set see  Eq uati on   ( 8) .   F - Sc or e   is  th har m on ic   m ean  of  preci sio and  recall   ta kin bot m et ric into   acc ount  in  the   E qu at io n   (9) .   Accuracy  is th e quali ty  o sta te  o f  b ei ng corr ect  o r  preci se,  see  Eq uatio n   ( 10).       =    (  +  )     (7)      =  (  +  )     (8)      = 2   (         ) (    +   )   (9)        =       +      +         +      +       +        +       +        (10)     The f or   the  s plit   between   tr ai nin data  an te sti ng   da ta   us in K - F old   Cros Vali dation  m et ho d.  S the  data  are  div ide into  f ol and   the will   be  execu te c la ssific at ion   process  as  m uch   as  the  and   f or  the   te sti ng   data  is  sel ect ed  from   on of   fo l a n tr ai ning  data  is  fo ld  w hich   are  not  us e a the  data  te sti ng   [16] The  sel ect ion   of   data  te sti ng   per   r ound  is  sel ect ed  in  sequ e nce  sta rtin from   the  fo ld 1,  see  Figure  3   for  th e   il lustrati on .  F or e xam ple, r ou nd 1 is  us ed  as  data te sti ng fol d 1 a nd s o on.           Figure   3.  K - F ol Cr os s - Vali da ti on       3.   RESU LT S  AND A N ALYSIS   Im ple m entation   of  this  rese arch   is  c reate by  us in P yt ho Pro gr a m m ing   Langu age.  T he  t otal  nu m ber   of   t he  dataset   is  55 data  with   detai for  posit ive  c la ss  259  data,  neg at ive   cl ass  241  data,  a nd  neu t ral  cl ass  53  da ta The s plit ti ng   betwee data  trai ning  a nd  da ta   te sti ng we  set   10  f or  the  K - F old  Cros s - Vali dation s plit ti ng  m et ho d.   In   Ta ble  3,   t he   resu lt betwee F - Sc ore  and   Accuracy   ob ta ined  us i ng   S V al go rithm   c om par ed  to   us in ru le - base Se nti Wo r dN et   is  q uite  cl ose S VM  al gorit hm   is  sli gh tl bette with  a accuracy  of  76%  an f - sc or e  51% . R ule - based Se ntiWor dn et   gets a ccur acy   56% a nd f - sc or 48% .       Table  3.  C om par iso n of Re su l ts usin g 1 0 - Fo l Cr os s  V al ida ti on  Bef ore Ba la ncing D at ase t   Metho d   Precisio n  ( %)   R ecall ( % )   F1 - Sco re  (%)   Accurac y  ( %)   SVM   4 8 .74   5 3 .23   5 0 .89   7 5 .75   Ru le - b ased  SentiWord Net   4 9 .5   4 6 .42   4 7 .76   5 5 .81       But  that  can  be   seen,  t her is   con si der a ble   diff e re nce  bet ween   Acc ur ac and   F - Sc or wh e us in SV M al gorith m ,  w it a d iffe ren ce  of   20 % c an  be  sai t here i s an  i m balance b et wee the  classe s p rese nt  in  the  Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   13 , N o.   3 Ma rc h 201 :   902     909   908   dataset F or  th 1 0th   rou nd  K - Fo l Cr os s - V al idati on t he  da ta   te sti ng   f or  the  neu tral   cl as does  no e xis at   al because  all  of t he 53 ne utral c la ss d at has b ecom e trai nin g data,  see Fi gur e 4 .           Figure  4.  U nde rf it ti ng   on  Neut ral Cl ass       Du to  the  unde rf it ti ng   dataset the  dataset   is  balanced  us ing   balanci ng   m et ho d   as   sh own  by     Figure  1.   During   t he  pr ocess  of   balanci ng   t he   dataset the  a m ou nt  of   ne utr al   cl ass  data  in creases  to  250  data  du e  to  t he  a verage  of posit ive  and n e gative  dat a.   Table  s how s   that  the  resu lt of   S VM  al gori thm   with  the  TF - I DF   m et ho as  featur e xtra ct ion   ( F - scor 83 a nd  Accu racy  89 %)  are  bette than  the  re su lt s   of   R ule - base Senti W ord Ne ( F - Sc or 50 and  Accuracy   51% ).   T he  re su lt from   Table  and   Table  c an  be   com par e d,   the   bala nce dataset get  bette resu lt wh e usi ng   SV al gorithm   with  TF - I DF   a feat ure  ext ractor si nce  it   increas e the  Ac cu racy  an F - Score  because   the  ne utral  cl ass  ha been  balance d ;   how ever,  the   Se ntiWor dN et   ru le - base al go rith m   ha s   decr ease d bo t h i Acc ur acy  a nd   F - Sc ore.   T he  ex pe rim ent  fo un the a ver a ge  num ber  of  word s which  w ere not   in  the  synsets  was  573  w ords .   T her e fore,  t he   r ule - ba sed   Se nti W or dN et   c onside rin th os e   m issi ng   573   s ynset s   can in c rease  th e accu racy t a bout  20%.       Table  4.  C om par iso n of Re su l ts usin g 1 0 - Fo l Cr os s  V al ida ti on  a fter Bal a ncin g Data set   Meth od   Precisio n  ( %)   Recall (% )   F1 - Sco re  (%)   Accurac y  ( %)   SVM   8 2 .02   8 5 .45   8 3 .69   8 9 .06   Ru le - b ased  SentiWord Net   5 1 .34   4 9 .65   5 0 .45   5 1 .59       4.   CONCL US I O N   Ba sed on t he r esults o t he  cl assifi cat ion   us i ng S VM and  r ule - based,  we c an  c on cl ud e   t hat:   1.   Ba la ncing   data set can  im pr ove  both  Acc uracy   and   F - Sc ore  achieve by  SV al gorith m   with  TF - IDF  a s   featur e xtracti on   m et ho d ho wev e bala ncing   dataset can  dec rease  bot Acc ur acy   a nd  F - Score   res ul te by   the  r uled - ba sed  S enti Wo r dNet .     2.   SV al gorith m   with  TF - I D as  featur e xt racti on   m et ho d   achie ves  bett er   res ults  than  tho se  re su lt ed  by  the   r ule - base d Senti Wo r dNet .   3.   Ther a re  sti ll  m any  wo r ds   that  do   not  have  synset  because   Indonesia vo ca bula ry  is  sti ll   incom plete U sin Se nti WordNet a nd transl at or  to ols a re  sti ll  n ot go od   e nough   f or tra nsl at ing  In donesi an  in t E ngli sh .       ACKN OWLE DGE MENTS   The  aut hors  w ou l li ke  to  thank   to  I ns ti tut   Teknolo gi  Sepu l uh   Nopem ber,  Direkt ora Rise da Pen gabdia Masy ar ak at,  Direkt orat  Jend e ra Pen gu atan  Rise dan  Pen ge mba ngan the  Mi ni stry  of  Re search , Tec hnology, a nd  Higher  Educat i on of  Ind on e sia  for   fina ncin g t he  resea rc h.       REFERE NCE S   [1]   B.   Pang  and  L.   Le e Opinion  Mi ning  and  Senti m ent   Anal y sis Fo und.   Tr ends®  InformatioP ang,   B . ,   Lee ,   L.  ( 2006) .   Opin.   Min .   S ent i m.  Anal.  Found.  Tr ends®  Inf.   R etr ie val,  1( 2) ,   91 231.   doi10 . 1561/ 1500000001n  Retr. ,   vo l.  1,   no.   2 ,   pp.   91 231 ,   200 6.   [2]   M.  R.   Islam N um eri rating  of   Apps   on  Google  Pla y   Store  b y   senti m ent   an aly s is  on  user  rev i e ws 1st  Int.   Con f.   El e ct r.   Eng. Inf. Com mun.  Techn ol.   IC EE ICT 201 4 ,   pp .   1 4 ,   2014 .   [3]   E.   Guzm an  and  W .   Maa le j How   do  users  li ke  this   fea ture ?   fine  gra ine sen ti m e nt  anal y sis  of  A pp  rev ie ws 201 4   IEE E   22nd  In t.  Re quir.   Eng .   Co nf.   RE 2014 - Pro c. ,   pp.   153 162,   2014.   [4]   A.  R.   Nara dh ip a   and  A.  Purw ariant i Senti m ent   Cla ss ifi c at ion  fo Indone sian  Me ss age in  Socia Media In t.   Conf .   El e ct r.   Eng. Inf o rm ati cs ,   no .   Jul y,   pp .   2 5 ,   2011 .   [5]   D.  A y and  K.  Khotimah Sentim ent   Detect ion  of  Com m ent   Ti t le in  Booking   .   com  Us ing  Probabil ist ic   L aten t   Sem ant ic   Ana l y s is 2018  6 th  In t.  Conf.   In f. Commun.  Techno l. ,   vo l .   0 ,   no .   c ,   pp .   51 4 519,   2018 .   Fo ld  10   Ju m lah  dat a tr a in in g  po sitif     :   217   Ju m lah  dat a tr a in in g  neg atif     :   228   Ju m lah  dat a tr a in in g  neu tral    :   53    Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       A com pa r ative   stud y  o f se ntim ent an alysis u s ing   SVM  an d S entiW ordNet ...  (   Riy anar to  Sa rn o )   909   [6]   N.  Farra ,   E .   Cha ll ita,   R .   A.  As si,  and  H.  Hajj Se nte nc e - le v el   and   document - le v el   senti m ent   m ini n for  ara bic   te xt s Proc. - IE EE Int .   Conf.   Data   Min i ng ,   ICDM ,   pp.   1 114 1119,   2010 .   [7]   K.  Dene cke Usi ng  Senti W ordNet   for  m ult il ing ual   senti m ent   a naly s is Proc. - In t.   Conf.   Data  E ng. ,   pp.   507 51 2,   2008.   [8]   A.  Sun,  E.   P.  Li m ,   and  Y.  Li u On  strat egi es  fo imbala nce t e xt  cl assifi ca t ion  using  SVM:  c om par at ive   stu d y Dec is.  Supp ort S yst. ,   vol .   48 ,   no .   1,   pp .   191 201 ,   2009.   [9]   W .   McKinne y Data   Struct ur es  for  Stat isti ca C om puti ng  in  P y t hon, ”  Proc .   9th  Py thon  Sc i.   Conf . ,   vol .   1697900,   no.   Scip y ,   pp .   51 56 ,   2010 .   [10]   F.  Pedre gosa  et   al.   Sci kit - le arn Mac hine  Learni ng  in  P y thon  G l   Varoqua ux J.   Ma ch.  Learn.   Re s. ,   vol .   12 ,   p p.   2825 2830,   201 1.   [11]   S.  Bird, E.  Kl ei n ,   and   E .   Lope r ,   Natural  languag proce ss ing   wit Python .   2009.   [12]   B.   S.  Rinty arn and  R.   Sarno Adapte weigh te d   gra ph  for  W or Sense  Disam b igua t ion 2016  4th  Int.   Conf.   Inf .   Comm un.   Techn ol.   ICoICT 2016 ,   vol .   4 ,   no .   c, 20 16.   [13]   H.  C.   W u,   R.   W .   P.  Luk,   K .   F.  W ong,   and  K .   L .   Kw ok Int e rpre ti ng  TF - IDF   te rm   weight a m aki ng  rel ev a nce   dec isions ACM   Tr ans.  Inf.   S yst. ,   vol.   26 ,   no .   3 ,   pp .   1 37 ,   2008 .   [14]   B.   Y.  Prata m and  R.   Sarno Personali t y   class ifica t ion  base on  Twit ter  te xt  usin Naive   Ba y es,   KN and  SV M Proc.   2015   Int .   Conf.   Data   Softw .   Eng .   ICOD S 2015 ,   pp.   170 174,   2016 .   [15]   F.  H.  Rac hm an,   R.   Sarno,   and  C .   Fati ch ah Mus i emotion  class ifi cation  base o l y r ic s - audi us ing  cor pus  base d   emotion In t. J. Elect r.   Comput.   Eng. ,   vol .   8 ,   no .   3,   pp .   1720 173 0,   2018 .   [16]   M.  Jupri  and  R.   Sarno Ta xp a y er   complia nc class ifi cation  using  C4. 5,   SV M,  KNN,   Naive   Ba y es  and  MLP in  201 8   Inte rnational   Co nfe renc on   Info rm ati on  and  Co mm unic ati ons Tec hnolog ( ICOIACT) ,   2018,   pp.   297 303.       BIOGR AP HI ES OF  A UTH ORS       Moh am m ad  Fikr is  now   f ourth   ye ar  stu den t   of  Inf orm at ic Dep art m ent  at   I ns ti tut   Tek no l og Sepulu Nopem ber His  c urren t   interest a re  in  Te xt  Re trie val  an Im age   Re trie val.   E - m ail: fikr i.m oh am m ad1 5@ m hs .if.its.ac.i d         Ri ya nar to  Sa r no   receive M .Sc  an P h.D  in  Com pu te S ci ence  from   the  Un i ver sit of  Brunswic Ca nad a   in  1988  a nd  19 92.  I 20 03  he   was   pr om oted  to  F ull  Pr ofess or.  His   te aching   a nd  r esearch  i nteres ts  includes  In t ern et   of  T hing s,  Process  Aware  I nfor m at ion  Sys tem s,  In te ll igent Syste m s an d B us i ness P ro ces s Mana ge m ent.    E - m ail: riy anart o@ if.it s.ac .id       Evaluation Warning : The document was created with Spire.PDF for Python.