Int ern at i onal  Journ al of Ele ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   8 , No .   6 Decem ber   201 8,   pp. 4 554~ 4567   IS S N: 20 88 - 8708 DOI: 10 .11 591/ ijece . v8 i 6 . pp 4554 - 45 67          4554       Journ al h om e page http: // ia es core .c om/ journa ls /i ndex. ph p/IJECE   A Novel  Hybrid  Classi fication  Ap proach f or Senti ment An alys i of  T ext Do cume nt        Ya s sine  Al Amr an i 1 M oha med Laz aar 2 Ka m al Eddin e El  Kadir i 3   1,3 LIROSA   La bo rat or y ,   Abdelma le Essaa di   Univ ersity ,   Morocc o   2 New T e chnol og y   Tre nds  Team ,   Abdelmale Essaa di   Univer sit y ,   Morocc o       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Feb  1 1 , 201 8   Re vised  Jun  2 0 , 201 8   Accepte J ul   22 , 2 01 8       Senti m ent   anal ysis  is  m ore   popula area  of  highly   a ct iv rese arc i n   Autom at ic   La ng uage   Proce ss ing.  She  assigns  n ega t ive   or  positi ve  polar i t y   to  one  or  m ore   e nti ties  using  diff ere nt  n at ur al   la n guage   pro ce ss in tool and   al so pre di cted  hi gh  and  low  p erf o rm anc of  v ari o us sent iment  c las sifie rs.  Our   appr oa ch  fo cuse on  the   an aly sis  of  fe el ings   result ing  from   rev ie ws   of   produc ts  using  origi nal   t ext   sea rch   techniqu es.   The se  rev iew ca be  cl assifi ed  as  h av ing  a   positi v or   negative  fe el ing   base on   c ert a i aspe c ts  in   rel a ti on  to   qu er y   base on  term s.  In  thi pa per ,   we  chose   t use  two   aut om at i le arn i ng  m et hods  for   cl assificat ion Support  Vec tor  Mac hine s   (SV M)  and  Ran dom   Forest,   and  we  int roduc a   novel   h y br id  a pproa ch  to   ide nti f y   produ ct  rev ie ws   offe red   b y   Am az on.   T his  is  useful  for   consum ers   who  want  to  re sea rch   the   se nti m ent   of  pro duct bef ore   p urc hase ,   o r   companie th at   want  to  m onit or   the   publ ic   sen t iment  of  th ei b ran ds.  Th e   result summ ari ze   tha th proposed  m et hod  o utpe rform the se  indi vidual   cl assifi ers  in   thi s   amaz on   dataset .   Ke yw or d:   Am azon   Cl assifi ers   Ra ndom  Fo rest   Sentim ent A na ly sis   Suppor t  V ect or Mac hin e   Copyright   ©   201 8   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   Yassine  A A m ran i,    LIROSA   La bora tor y   Abdelm al ek  Esaadi U niv e rsity ,   Tet uan, Mo r oc co .   Em a il al a m ran iy assine@g m ai l.com       1.   INTROD U CTION   Cl assifi cat ion   is  the  process  wh e rein  cl as la bel  is  assigned   to  unla bel ed  data  vect ors.  It  can  be   cat egorized  int supe rv ise a nd   un - s uper vis ed  cl assifi cat io w hich  is  al s known  as  cl ust ering.  I s up e r vised  cl assifi cat ion   l earn i ng  is  do ne   with  t he  help   of  s up e rv is or  i.e.  le ar ning  th rou gh   e xam ple.   I this   m et ho d,   t he  set   of   possi ble  cl ass  la bels  is  known  pr io ri   to  the  en us e r   [1] S uper vis ed  cl assifi cat io can  be  sub div ide into  no n - pa ra m et ric  and   par am et ric   cl as sific at ion Pa r a m et ric  cl assif ie m e tho i dep e nd e nt  on   the   pro bab il it distribu ti on  of  each  cl ass.  N on - par am et ric  c la ssifie rs  are  us e wh e th den sit func ti on   is   unknow n.   Exa m ples   of   par a m et ric  su pervised  cl assifi cat ion   m et ho ds   are  Mi ni m al   Dista nce  Cl assifi er ,   Ba ye sia n,   Mul ti var ia te   Ga us s ia n,   S uppo rt  V ect or   m achines   an d   Decisi on  Tree.  Exam ples  of  non - pa ra m et ric  su pe r vised   cl assifi cat ion   m et ho ds  are   K -   Nea rest  Nei ghbors ,   Eucli dea Dis ta nce,  L ogist ic   Re gr e ssio n,  Neural   Netw ork Ker ne l Densi ty  Esti m at ion , Arti fic ia l Neural  N et work a nd Mult il ay er P erce ptr on.   Re centl y,  m ult iple  platf or m are  dev el op i ng  ver i nteresti ng  ei ther   in  te rm of   volum of  data  or  accor ding  to  t he  num ber   of  us ers  a r ound  the  w or l d,   th ey   offer   us er al th po s sibil it ie to  ex pr ess   their   op i nions  an t exc ha ng th ei ideas  with   the  oth e rs   [2] .   The  sentim ent  analy sis  f ound  in  the  f or m   of   com m ents,  re views   an fee db ac a nd  prov i des  necess ary  inf orm ation   for  var i ou s   pur poses   [3] .   The s e   op i nions  or  senti m ents  can  be  div i ded   int two  cat eg ori es:   po sit ive  and   neg at ive;  or  al so   cat egories  of   diff e re nt  rati ng   po i nts  (e .g.  sta rs,   sta rs  a nd   sta rs).  T he   po la rity   of   se nti m ents  li ke  “goo d”  a nd   ba d”  al s identify   the  se nti m ents  ei ther  po sit ive  or  ne gative   [ 4] .   Sen tim ent  analy sis   is  the  par of   the  te xt  m ining   that  Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A Novel  Hybri Cl as sif ic atio A pproac fo r  S e ntiment  …  ( Ya ssi ne  Al A m ra ni)   4555   at tem pts to  defi ne  the  op i nion s,  feeli ngs a nd   at ti tud es prese nt in  a text  or  a  set of  te xt.  It i s p arti cula rly  used in   m ark et ing   t a naly se  for  e xa m ple  the  com m ents  of   th Net  surfe rs  or  the  com par at ives  a nd   te sts  of   t he  blogg e rs.   It  req ui res  m uch   m or underst an di ng   of  the  la ng uag tha te xt  analy sis  and   s ubj ect   cl assifi cat ion .   Indee d,   if   the   si m plest  al go ri thm con side on ly   the   sta ti sti cs  of  f reque nc of  occ urre nc of  the   w ords it   is  us ua ll insuffi ci en to  def i ne   the  do m inant  opinio i do c um ent.  It  i the  process   of   determ ining  the  con te xtu al   pola rity  o t he  te xt,  that is,  w hethe a te xt is posit ive or  ne gative   [ 5]   The  us of   t his   analy sis  help s   researc he rs  a nd  decisi on - m a ker s   bette unde rstan op i nions  a nd  cl ie nt  sat isfact ion   us i ng   sentim ent  cl assifi cat ion   te chn i qu e in  order   t a uto m atical ly   colle ct   diff ere nt  pe rs pe ct ives   on   from   var io us  platfo rm s.  Ther has  been   la rg am ou nt   of   researc in  the  area  of   se nt i m ent  cl assifi c at ion .   Trad it io nally   m os of   it   has  f ocused  on  cl as sifyi ng   la r ge pieces  of  te xt,   li ke  rev ie ws  ( B.  Pang,  L.  Le e,  an S Vait hyanath an . 20 02).  I this   pa per,  c om par iso of  po pula cl assifi ers   was  perf or m ed  to  cl assify   product   rev ie ws  ei ther   posit ive  or  ne gativ e:   S upport  Vector  Ma chine,   Ra ndom   Fo rest  a nd   our  a ppro ac Ra ndom   Fo r est  S upport  V ect or Mac hin (RFS VM).   This  pa per   pre sents  a   m et ho to  determ ine  how  se nti m ents  can  be  cl assi fied  usi ng  hybri ap proac of  Sup port  Ve ct or   Ma c hin e   and   Ra ndom   Fo r es t T he  pa per   pro vid es   the  c om pa rison  with  oth e e xi sti ng  te chn iq ue,  s hows  that  t he  use   of  hy br i a ppr oac ca im pro ve  the   ef fici ency  of  se nti m ent  analy sis.  T he   pro po se hybri a pproach  gi ve bette res ult  as  com par t the  e xisti ng   te chn i qu e s T he  rest  of  the   pa pe is   descr i bed   as  f ol lo ws:   Sect io desc ribe  se nt i m ent  analy sis  syst e m .   Sect ion   3   int rod uces  app li ed  al gorithm s   in  this  fiel d.  Sect ion   4   discuss es  pro pose m et ho ds Se ct ion   5   ex plain  the  res ults  and   a naly sis  ob ta ined.  Sect ion   6   prese nts the  conclus ion  a nd  fu t ur work f or the  pr opos e d wor k.       2.   SENTIME NT  ANA L YS I S SYSTE M   To  kn ow   the  opinio of  the  ot her   pe ople   wa al ways  an  im po rtant  infor m at ion   el e m ent  du ri ng   the  decisi on  pr oce ss.  Be f or m akin decisi ons pe op le   a re  in te rested  e norm ou sly   in  t he  opinio ns   of  the   oth e people  i diff e ren a reas.   T he consult  the  opinio ns  of  t he  oth e c on s um ers  befor e   m aking  a purc hase,  o r   lo ok   at  the o pin i ons  o the  oth e pe op le   befor e see ing  a film  w it the cinem a o befor buyi ng   a d isc . Th a nks  to the   i ntern et   we  ca disc over  the  op i nions  a nd   t he  ex pe rim ents   of   ver la r ge   nu m ber   of   pe op le   who  a re  neither   our  fr ie nds,  nor  the  ex per ts  of   fiel ds,  but  of   pe ople   who   can  hav the  sam e   ta ste s   that  us and   th us  their   op i nions  ca be   ver us e fu f or   us   be fore  m akin our  c ho i ce  an to  ha ve   our  own  i dea  on  gi ve s ubj ect .   To day,  m or and   m or pe ople   are  giv i ng   t he ir  op i nion  on   diff e ren to pi cs,  these  opini on a re  avail a ble  to  ever y on e  on t he  inter net.   Accor ding  to  t he  s urveys   [ 6] ,   81%  of  the  use rs  of  the   inter net  m ade  at   least  on ce  t he  onli ne  sea rch  on   pro duc and   a pproxim ately   80 of   the m   declare  that  oth e pe op le   ha ve  sign ific a nt  influ e nce  on   their   decisi on  of   pur chase,  wh ic r epr ese nts  one  ver la rg num ber   of   pe op le Appro xim a t el 30 pro vid ed  a op i nion  on  pro duct on  se rv ic or   on   pe rson  on li ne   vi m ark in syst e m wh ic is  no un im po rta nt   li ke  nu m ber F or   th is  reason,  i.e.  than ks   to  the  in te rest  wh ic th us ers  s how  f or   the  op i nions   on   the  product an the  ser vices,   the  s uppliers  of   the  arti cl es  s how   ve ry  gr e at   at te ntion   with  the  de velo pm ent   of   t he  m ark i ng  syst e m [H off m an  (20 08)].  W it the  e xp l osi on   of   platf orm s   li ke  the  blogs,  of   t he  disc ussi on   for um s,  Peer - to - Peer  net wor k,  and   var i ou oth e ty pes  of   so ci al   m edia,  the  consum ers  hav at   thei dis po sal   pl at fo rm   without  prece den t,  of   ra nge   a nd   po wer m aking   it   po s sible  to  sh are  their  ex per im e nts  and   to  m a rk   their   op i nion  ( posit ive  or  ne gativ e)  on  any  pr oduct  or   se rv ic e.  The  c om pan ie can  m eet  the  needs  f or  the   consum ers  by  carryin ou m on it ori ng  a nd  analy sis  of  the   opinio ns   t im pr ov thei pro duct S uch  a   syst e m   will   hav fir stl to  colle ct   op inio ns   of   the   con s um ers  an us e rs  in  do c um ents  wh ic sh ow  the  s ubje ct ive   op i nions  a nd  s entences S ome tim es,  that  is  relat ively   easy as  in   the   cases   of  gr eat   sit es  wh e re  t he  op i ni on s   of   the users  are w e ll  stru ct ured  s uch as  for  e xa m ple A m azon . com .   Sentim ent  is  visio based  on  em otion   rath er  tha reas on.   It  is  a   ki nd  of  su bject ive   im p ressio n,  not   facts,  al so   cal le the  ex pr essi on   of   sen sit ive  feeli ng   in  art  and   li te ratur e Sentim ent  An al ysi is   al so   t ask  of   natu ral  la ngua ge  pro cessi ng  and   i nfor m at ion   ext racti on   t ha aim to  get  the  feeli ngs  of   the  wr it er  e xp resse d   by  posit ive  or   neg at ive  c omm ents,  quest io ns   an r eq ues ts,  by  analy zi ng   gr eat   num ber   of   doc um ents.   Sentim ent  analy sis  is  the  com pu ta ti onal   te ch nique  f or  extra ct ing cl assify i ng,  un der sta nd ing   a nd  determ ining  op i nions  e xpre ssed  in  va rio us  con te nt.  It  fo c us es  on   i den ti f yi ng   the  opinio or  se ntim ent  that  is  held  a bout  a obj ect It  us es   natu ral  la ngua ge  pr ocessin an c om pu ta ti on al   te ch niq ue to   a uto m at the  extract ion  or   cl assifi cat ion   of se nti m ent f r om  g ener al ly  u nst ru ct ure te xt   [7] .   In   ge ner al se nti m ent  analy sis  aim to  determ ine  the  sta te   of   m ind   of  sp ea ker   or  a   wr it er  with   resp ect   to   subj ect   or   t he  ov erall   ton of   do c um ent.  Word   of   m ou th   is  the  proces of  passing  in f or m at io from   per son  to   ano t her   a nd   pl ay an  i m po rta nt  ro le   in  cl ie nt s'   decisi on   m a king  ab out  ser vices  or  pro du ct s.  In   bu si ness  sit uat ion s Wo r of  m ou th  involve consum ers  w ho   s ha re  at ti tud es,  op i nions,  pro du ct s,  or   se rv i ces   with  oth e rs.   W ord of m ou th c omm un ic at ion   functi ons  base d on soc ia l net work i ng   [ 8] .   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber  2 01 8   :   4554   -   4 567   4556   In   recent  ye ars the  m assive  i ncr ease  i the  us of  inte rn et   and   t he  exc ha ng of   public  op i nion  ar e   the  eng i nes  of   senti m ent  analy sis  tod ay The  W e is  an  im m ense  rep os i tory  of   str uctu red   an unstr uc ture data.  An al yz in this   data  t e xtract  la te nt  public  opinio an se ntim ent  is  dif ficult   ta sk.   Sentim ent  ana ly sis   can  be usef ul i n on li ne  pr oduc t rev ie ws,   rec omm end at io ns ,  b lo gs,  us er' s vi ews of p olit ic al  cand i dates.       3.   APPLIE AL GORIT HM S   To  eval uate  th perform ance  of   our  ap proac h,   w ch os to   us tw super vised  le ar ning  al gorithm s:   the  rand om  fo r est   al go rithm   wh ic is  cl as sific at ion   al gor it h m   that  red uc es  the  var ia nce   of   the  f or ecast of   a   decisi on  tree   a lon e,   th us   im pr ovin t heir  pe rfor m ances,  a nd  the   Al gorith m   of   Sup port  Vecto rs  Ma c hin es  or  Larg Ma rg i na Separ at or w hich  is  bi nary   cl assifi cat ion   m et ho by  super vised  le a rn i ng.  T hese  ha ve   bee chosen   beca use   they   a re  t he   m achine  le ar ning  al gorithm that  of te gi ve   t he  best  re su lt f or  a utom at i c   cl assifi cat ion   of texts.   Co ntr ol f lo w of     the  sy stem   as shown  in Figu re  1.           Figure  1 Co ntr ol f l ow of the  s yst e m       3.1.    R andom   Fores t   Ra ndom   fo rest,  wh ic we re  f or m al ly  pr op ose in  20 01   by  Leo  Brei m an  and   Ad èl Cut le r,   are  pa rt   of   the  aut om a ti le arn ing   te chn i qu e s.  This   al go rithm   com bin es  the  con cepts  of  ra ndom   su bspace and   "baggin g".   T he   decisi on   tree   fo rest  al gorit hm   trai ns   on   m ul ti ple  decisio trees  dr ive on  sli gh tl diff e re nt  su bse ts o f data .   Pict or ia l r ep re sentat i on of  ra ndom  f or e st as  sh ow in  Fi gur e 2 .   The  rand om   fo rest  is  par of  the  fam ily  set   m et ho ds   t ha ta ke  the  de ci sion   tree   as  an  in div i du al   pr e dictor they   are  ba sed  on  the  m et ho ds   of  ba ggin g,   rando m iz ing   outp uts  an rand om   su bspace  e xc us in boos ti ng.   This  al gorithm   is  on of   t he  best  a m on cl assifi cat ion   al gorit hm -   able  to  cl assify   la rg am ounts  of  data  with  accu racy.  It  is  an  ensem ble  le ar ning  m e tho f or   cl assifi cat io an regressi on   that  co ns tr ucts  a   nu m ber   of  dec isi on   trees  at   trai ning  tim a nd   deliver th cl ass  that  is  the  m od of  the  cl asses  outpu by   ind ivi du al  t ree s.    In  ra ndom   for est   cl assifi cat ion  m et ho d,  m any  cl assifi ers   are  gen e rated   f ro m   s m al le subsets  of  the  input  data  an la te their   in di vid ual   res ults  are  a ggre gate base on  vo ti ng   m echa nis m   to  ge ner at th e   desire outp ut  of  the   in put  data  set .   This   ensem ble  le arn in str at egy  has  rece ntly   be com ver popula r Be fore  RF,  boos ti ng   a nd   ba gg i ng   wer t he  only   two  ensem ble  le ar ning  m e tho ds   us ed.   RF  ha been  extensi vely   ap plied  in  var i ous  area inclu ding  m od er dru disc ov e r y,  netw ork  int ru si on   detect io n,   la nd   cov e a naly sis,  cre dit rati ng a naly sis, r em ote sen si ng and  ge ne  m ic ro arr ay s  d at a a naly sis e tc ...   [9]   Ther are  tw ways  to  evalua te   the  err or   rat e.  On is  to  spl it   the  dataset   i nto   trai ni ng   pa rt  and   te st  par t.  W ca em plo the  train in par to  bu il the  fo rest,  a nd   the us the   te st  par to  calcu la te   the  err or   rate.  Anothe way  i to  us e   the  O ut   of  Ba ( O OB)  er r or  est im a t e.  Be cau se  rando m   forests  al gorithm   cal culat es  the   OO er r or   du r ing   th trai ni ng  phase,  we  do   no nee to  spl it   the  trai nin data.   Ra ndom   forest  is  ensem ble  of  decisi on trees , whic a re  base d on in form at i on g ai n,  t he  c om pu ta ti on  form ula is p resen t ed  as:      ( ) = = 1 log 2    ( ) =  ( )  ( )     Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A Novel  Hybri Cl as sif ic atio A pproac fo r  S e ntiment  …  ( Ya ssi ne  Al A m ra ni)   4557   The  ste p of ra ndom  f orest  ca n be  re pr ese nted  as:   a.   Use bootst ra t e xtract  sam ples fr om  the original tr ai ning  sets with  N sa m ples f or   ti m es,   b.   Esta blish  k dec isi on  tree s,   c.   Vo te   acco r ding  to  the  cl assifi cat ion   res ults   of   al decisi on   trees,  the  vo ti ng   res ul ts  cal le confide nce   scor e  can  b e  d e scribe as:          =   (   )   (  )           Figure  2 Pict ori al  r ep rese ntati on   of r a ndom  f orest       3. 2   Su pp ort   Vector  M achi ne   The  SV m e thod  was  intr oduce by  Joa chim s   [10] then  us e by   Dr uc ke r   [11] Tai ra  and    Haru no   [ 12 ] a nd  Ya ng  a nd   Liu   [ 13] T he  geo m et ric  SVM   m et ho ca be  c onside red  as  the  at te m pt   to  fi nd ,   a m on al the   su r faces   1 2 ...  of  sp ace   of  dim ension s   |T|   wh ic se pa rates  the   posit ive   le arn i ng  e xam ples   from   the  neg at ives.  T he  le ar ni ng   set   is  giv e by  set   of  ve ct or as so ci at ed  wit their  c la ss  of   m e m ber sh i p:   ( 1 , 1 ) , ( 2 , 2 ) , , ( , ) ,     ,     { + 1 , 1 }   with:   a.   represe nts the c la ss of m e m b ersh i p.   I a t w o - cl ass  proble m   the f irst cl as s corres ponds  to  posit ive  answer  ( = + 1 ) , a nd th e seco nd class  corres ponds to   a n e gative a nswer   ( = 1 ) .   b.     re pr ese nts the   vecto r of  t he  te xt num ber   j   of   the traini ng set .   The   S upport  Vecto Ma chine  m e tho se pa rates  the  posit ive  cl ass  vector f r om   the  neg at ive  cl as s   vecto rs by a  hyperplane  d e fin ed by t he f ollo wing e qu at io n:     + ,     ,         Fo tw cl asse of   exam ples  giv e n,   the  goa of   SV is  to  fin cl assi fier  that  will   separ at the  dat and  m axi m iz the  distance  betwe en  thes tw c la sses   [ 14 ] Wi th  S VM,  this  c la ssifie is  li near   cl as sifie cal le hype pla ( ) I the  f ollo wing  diag ram we  de te rm ine  hype rp la ne  that  se par at es  t he  tw set of   point s.   Sepa rati on of t wo sets  with se par at or  a s s hown in Fi gure  3.     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber  2 01 8   :   4554   -   4 567   4558       Figure  3 Se parat ion   of tw se ts wit se pa rator       In   ge ner al ,   suc hype rp la ne  is  no uniqu e   [ 15 ] The   SV m et hod  determ ines  the  opti m a hype rp la ne by m axi m iz ing  the m arg in: t he m arg in is t h di sta nce b et wee the  posit ive l abeled  vecto rs and t he   neg at ive   la bel ed  vecto rs.   T he  le ar ning  s e is  not  neces saril li near ly   sepa rab le ,   va riables  of  ga   are  introd uced  f or   al the   Th e se    ta ke  i nto  account  t he  e rror  of   cl assif ic at ion a nd  m us sat isfy  the    fo ll owin i nequali ti es:     +   1   +   1 +     We  ha ve  t m i nim iz the  fo ll ow i ng  f unct io of  obj ect ive   by  ta ki ng  int account  t hese   const raints:  1 2 2 + = 1 The  first  te rm   of   t his  f un ct io co rr e spo nd t the  siz of   t he   m arg in  a nd   t he  sec ond  te rm   represe nts  the   cl assifi cat ion   e rror,  wh e re    re pr ese nts  t he  num ber   of  vect or s   of  t he  trai ni ng   set Fi nd i ng  the  pr e vious  ob j e ct ive  functi on  a m ou nts  to  so lvi ng   the  f ol lowing  quad r at ic   pr oble m fin ding  the  de ci sion  functi on    su c h t hat:  ( ) =  ( ( ) )   w her e:     ( ) = + = 1      ( )   re pr ese nt the  foll ow i ng fu nction:   a.   if  > 0   then   ( ) = 1   b.   if  < 0   then   ( ) = 1   c.   if  = 0   then   ( ) = 0     re pr ese nt the  c la ss of m e m ber sh ip ,     re pr ese nt the  param et ers  to b e  foun d     re pr ese nt the  s cal ar prod uct  of the  v ect or   Xi  with the  v ect or X .   The  near est   po ints,  w hich  al one  are  us e for   determ ining   t he  hy perplane ,   are  cal le s up port  vect or s .   Hy pe rp la ne  of   support  vecto m achine  as  s how in  Fig ure  4.   It  is  ob vious  that  t her is   m ult it ud of   valid   hype rp la ne  but  the  re m ark abl pr ope rty   of   the  SV is  that  this  hyper pla ne  m us be  op tim a l   [16] W e   are   go i ng   t lo ok  for  it   thu m ore  a m on the  va li hype rp la ne s,  the  on w ho  cr os ses  "i t he  m idd le po i nts  of   bo t cl asses   of   exam ples.  I nt uiti vely it   co m es  dow to   l ooking  f or  the   "safest"   hype r plane.  I ndeed le us   su pp os t hat  a e xam ple  was   not  pe rfec tl descr i bed,  a   s m al var ia ti on   will   no t   m od ify   it cl assifi cat ion   i it distance  in  th hyperplane  i big F orm all y,  this  a m ou nt to  lookin f or   hyperpla ne  w hose  m in i m u m   distance  to  the   le arn in exam ples  is  m axi m um This  distance  is  cal le "m arg in"  bet we en  the  hype r plane  an the ex am ples.  The o pti m al   separ at or   hype r plane  is t he on e  that m axi m iz es  the m arg in   [17] .   In t uiti vely the   fact  of  hav i ng   wi der   m arg i gets  m or se cur it w he cl assify ing   a   ne e xam ple.   More ov e r,   if  w find   the  cl ass ifie wh ic be ha ves  best  wit resp ect   to  the  l earn i ng   data,  it   i cl ear  that  i will   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A Novel  Hybri Cl as sif ic atio A pproac fo r  S e ntiment  …  ( Ya ssi ne  Al A m ra ni)   4559   al so   be   the  one   w ho   will   at   be st  al low  to   cl assify   the  ne e xam ples.  On  the  on ha nd  F i gure  5   s hows  us  that   with  an  opti m a hyper pla ne,   a   new   exam ple  rem ai ns   cl assif ie well   wh il it   fall in  the  m arg in.  O the   oth er  hand, we  noti ce o the   F ig ure   6   t hat w it h a s m al le m arg in, t he  exam ple se es it sel ba dly  cl assifi ed.           Figure  4 Hy pe rp la ne of s up port  vecto m achine           Figure  5 Be st  hype rp la ne  se pa rator           Figure  6 Hy pe rp la ne wit lo m arg in   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber  2 01 8   :   4554   -   4 567   4560   In   ge ner al t he   cl assifi cat ion   of   ne un know exam ple  is  giv e by  it posit ion   rela ti ve  to  the  op ti m al   h yperp la ne.   f or   e xa m ple,  in  the  F igure  5,   the  ne el em ent  will  be  cl assifi ed   in  the  cat e gory   of   re balls i ns te a d of g reen ball s.       4.   PROP OSE D MET HO D   In   t his  arti cl e,   we  pro po se   a   m e tho w hic c om bin es  th powe a nd  the  ca pab il it ie of  Ra ndom  Fo r est   an S uppo rt  Vect or  Ma chines  at   the  sam tim for  the   s up e r vi sed  ta s ks   to   s olv t he  pro bl e m   of   cl assifi cat ion .   Firstl y,  Ra ndom   fo rest  is  an   ensem ble  le ar ning  m et ho that  co ns tr uct  nu m ber   of  de ci sion  trees  at   ran do m ly  sel ect ed  featur es  an pr edict   the  cl ass  of   te st  instance  by  vo ti ng  of  the  ind i vidua trees.  Suppor Vecto Ma chine  re volves  a rou nd   t he  noti on  of  a   m arg in - ei t her  side  of  hy pe rp la ne  that  se par at es   two  cl asse s.    Ma xim iz ing   the  m arg in  a nd  wit this  w ay   creati ng   t he   la rg est   poss ible  distance  betwee the   separ at in hy pe rp la ne  an th instances   on  ei ther  side  of  it   has  bee pro ve to  re du ce  a uppe bo und  on   the   exp ect e ge ne rali zat ion   er ror.   RF  wa not   sensiti ve  to  i nput  pa ram et e rs;  thu s we  just  us e the  def a ult  par am et ers  for   each  cl assifi e r.   T he  trai ne cl assifi ers  retu rn   sc or e bet w een  a n 1,  these  sc or es  a r then  trans form ed  to  bin a ry  sta te   ind ic at in neg at ive ’  or   po sit ive ’.   For  each  c om bin at ion ,   the  e xistence  of   el e m ent  is  consi der e posit ive  (P)  or  ne gative  (N).   Be fore  tur ning  to   pola rity it   m ay   be  interest ing  to   identif y   wh et her  t he  do cum ent  cor r es ponds  t s ub j ect ive  opinio or  a obj ect iv fact.  We  w ould  ha ve  t w o - ste p   analy sis.   O bjec ti vity  an s ubje ct ivit y as sh own  in Fi gure  7.           Figure  7 O bje ct ivit y and  s ub j ect ivit y       The  nota ti on  of  TP   in dicat es  Tru e   P os it ives:   num ber   of   exa m ples  pr edict e posit ive  that  are  act ually   po sit ive FP  i ndic at es  False   P os it ives:  num ber   of  exam ples  pr e dicte posit ive  that  are  ac tuall neg at ive TN   ind ic at es  Tr ue  Neg at ive s:  num ber   of   exam ples  pr edict ed  ne gative  that  ar act ually   neg at ive  and   F in dicat es  False  N e gative s: n um ber  of e xam ples p re dic te ne gative  th at  are  act ually   po sit ive .   The  cl assifi cat ion   m et rics  consi der e f or   th e   senti m ent  analy sis  are  Accur acy Pr eci sio n,  Re cal and   F - Me asu re  a nd  these  pa ram eter are  e valuat ed  ba sed  on  th cal cul at ed  po sit ivit and   ne gativit of   rev i ews  by   the  propose hybr id  a ppr oach.  The  pe rfor m ance  eva luati on   of  cl assifi ers  is  m a de  accor di ng   to  the    fo ll owin g form ulas:   Re port of t he  tr ue posi ti ves.   It  corres ponds to:         =    (  +  )     It  is  thus  the  re port  bet wee the  nu m ber   of   posit ive  insta nc es  cl assifi ed  w el and   t he  tota nu m ber   of   el e m ents  wh ic s hould  be  cl assifi e well .   Re port  of  the  false  po sit ive  on e He   corres ponds,  sy m m e tric al ly  in  the  pr e vious  de fini ti on :         =    (  +  )     The  datum   of   t he  rates   TP  Ra te   and  FP  Ra te   al lows   t reconstr uct  the  m atr ix  of  co nfusi on  f or  giv e c la ss.   Pr eci sio is  th repo rt  betwe en  the  num ber   of   t he  tr ue  posi ti ve  an the  s um   of   the  tr ue  posit ives  a nd   t he   false   po sit ive . A  value of  1 ex pr e ss es  the  fact t hat  al l t he  posit ive  cl assifi ed  e xa m ples w ere r ea ll y:     Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A Novel  Hybri Cl as sif ic atio A pproac fo r  S e ntiment  …  ( Ya ssi ne  Al A m ra ni)   4561     =  (  +  )     Re cal is  the  pe rcen ta ge  of  c orrect  it em that  are  sel ect e d.  recall   of  m eans  t hat  al th posit ive  e xa m ple s   wer e  foun d.      =  (  +  )     Accuracy   is  com m on   m eas ur e for  the  cl as sific at ion   pe rfo rm ance  and   it pro portion al  o c orrectl cl a ssifie instances  to  th total   nu m ber   of   insta nces,   wh er eas  the  error   rate  use s   incorrect ly   classified  rathe r   than   correct ly .        = (  +  ) (  +  +  +  )     This  qu a ntit al lows   to   gro up  in  sin gle  nu m ber   the   pe rfor m ances  of  the  cl assifi er  ( for  giv e cl ass)  as  reg a rds Rec al and the  Pr eci si on :      = ( 2   ) (  +  )       5.   R ESULT S  AND DI SCUS S ION S   To  eval uate  our  a ppr oach,  we  us e the  " Am azon "   data set   wh ic c onta ins  1000  inst ances  di vid e into  po sit ive  ( 500)  a nd  ne gative  ( 500).  We  di vid ed   this  data   into  t wo   set s:  trai ning   s et   and  te st  set I thi s   arti cl e, Cro s Vali dation   m eth od  with  f old   va lue equal  t o 1 0 has  bee n use d for trai ning a nd test ing p has es.   We  will   us so m te chn ique that  autom at ic al ly  extracts  this  data  into  po sit ive  or  ne gative   sentim ents.  By  us in th sent i m ent  analy sis,  the  cu stom er  can  know  the  feedbac a bo ut   the  pro duct   be fore   m aking   purc hase.  Sentim ent  analy sis  is  ty pe  of  nat ur al   la nguag e   proce ssing   f or   trac ki ng   t he  m oo of  the   public ab out a  par ti cula r product .     5 . 1.     Usin g R andom  F orest   Table   1   sho w   the  res ult  obt ai ned   us in t he   Ra ndom   Fo r est   al gorithm Lo ok i ng   at   t he   res ults  of     T able   1 we  no ti ce  that  82 r eviews  are  c orrectl cl assifi e am on 1000,   and   18 re views  are  m isc la s sifie d.   Figure  8   s how  the  c os of   r a ndom   f orest   f or   cl ass  p os it ive.   Figure  9   s how  the  c os of   r a ndom   f orest   f or   cl ass  n egati ve .       Table  1.   C ro s Vali dation R es ults f or Ran dom  Fo rest     Po sitiv e   Neg ativ e   Total   Po sitiv e   415              85              500   Neg ativ e   95              405              500   Total   510              490              1000           Figure  8 Cost  analy sis o ra ndom   forest al gorithm  f or cla s s posit ive   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber  2 01 8   :   4554   -   4 567   4562             Figure  9 Cost  analy sis o ra ndom  f orest  alg or it hm  f or cla s s n e gative       5 . 2   Usin g Su ppo r t Vect or Mac hine   Table   2   s how   t he  res ult  obta ined   us in S up port  Vecto M achine   al gorith m Loo ki ng  at   the  re su lt of  T able   2 we  no ti ce  that  82 r eviews  are  c orrectl cl assifi e am on 1000,   and   17 re views  are  m isc la s sifie d.   Figure  1 0   s ho th c os of  s upport  v ect or  m achine  f or  c la ss  p os it ive.   Figure  1 1   s ho th c os of  s upport   v ect or  m achine for  class   n e gat ive.       Table  2 Cr oss  Vali dation R es ults f or S uppor t Vecto Ma chi ne     Po sitiv e   Neg ativ e   Total   Po sitiv e   409              91              500   Neg ativ e   85              415              500   Total   494              506              1000   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708       A Novel  Hybri Cl as sif ic atio A pproac fo r  S e ntiment  …  ( Ya ssi ne  Al A m ra ni)   4563       Figure  10 C ost  an al ysi s of s uppo rt v ect or  m achine al gorith m  f or  class  pos it ive           Figure  11 C ost  an al ysi s of s uppo rt v ect or  m achine al gorith m  f or  class  negat ive       5 . 3   Usin g R andom  F orest  Support  V ec t or Mac hine   Table   3   s how   the  res ult  obt ai ned  us i ng  our   ap proac R andom   Fo re st  Sup port  Vect or  Ma chi ne  al gorithm   ( RFSVM ) Lo o king  at   the  res ults  of   T a ble   3 w no ti ce  that  847  rev ie ws  are   correct ly   cl assifi ed   a m on 1000,  a nd   153  re view are  m isc la ssi fied.   Fi gure  1 2   sh ow   the  Cost   of   Ra ndom   Fo rest  S upport  Vecto Ma chine  f or  cl ass  Po sit ive.   F igure  1 3   s how   the  Cost  of  Ra ndom   Fo rest  Suppor Vecto Ma chine  for  cl ass  Neg at ive .       Table  3 C ro s Vali dation R es ults f or RFS V M     Po sitiv e   Neg ativ e   Total   Po sitiv e   422              78              500   Neg ativ e   75              425              500   Total   497              503              1000   Evaluation Warning : The document was created with Spire.PDF for Python.