I ndo ne s i a n J o ur na l  o f  E l e c t r i c a l  E ng i ne e r i ng  a nd C o m p u t e r  Sc i e nc e   V o l.   11 ,  N o.   1 J ul y   201 8 , p p 294 ~ 29 9   I SSN :   2502 - 4752 D O I :  10. 11 591/ i j eecs . v 11 .i 1 .p p 294 - 2 99           294       Jou r n al  h om e p age h ttp : //ia e s c or e . c om / j our nal s / i nde x . php/ i j e e c s   E ns e m bl e M et ho d f o r I ndo nes ia T w it t er  H a t e Sp e ech  Det ec t io n       M .  A li F a u z i 1 A nny  Y uni a r t i 2   1 F acu l t y  o f  C o m p u t er  S ci en ce,  B r aw i j a y a U n i v er s i t y ,  M al an g ,  I ndo ne s i a   2 I nf or m a t i c s  D e pa r t m e nt ,  I ns t i t ut   T e k nol og i  S e p ul uh N ope m be r ,  S ur a ba y a ,  I ndone s i a       A rt i cl e I n f o     AB S T RAC T     A r tic le  h is to r y :   R ecei v ed   27 D e c ,  201 7   Re v i s e d   J a n 9 ,  201 8   A ccep t ed   J a n 1 6 ,  2 01 8       D u e t o  t h e  m as s i v e i n cr eas e o f  u s er - g en er at ed   w eb  co n t en t ,  i n   p ar t i cu l ar  o n   s o ci al  m ed i a n et w o r k s   w h er e an y o n e can  g i v e a  s t at e m en t   f r eel y   w i t h o u t  an y   lim ita tio n s ,  th e  a m o u n o f  h a te f u l a c tiv itie s  is  a ls o  i n c r e a s in g .  S o c ia l m e d i a   a nd m i c r obl og g i ng  w e b s e r v i ce s ,  s u ch  as  T w i t t er ,  al l o w i n g  t o  r ead  an d   an al y ze u s er  t w eet s  i n  n ear  r e al  t i m e.  T w i t t er  i s   a l o g i cal   s o u r ce  o f  d at f o r   h at e s p eech  an al y s i s  s i n ce u s er s  o f  t w i t t er  ar m o r e l i k el y  t o  ex p r es s  t h ei r   e m ot i ons   of  a n e v e nt   by  pos t i ng   s om e  t w e e t .  T hi s  a na l y s i s  can  h el p  f o r  ear l y   i de nt i f i c a t i on  of  ha t e  s pe e c h s o i t  c a n be  pr e v e nt e d t o be  s pr e a d  w i de l y .  T he   m a n u a l w a y  o f  c la s s i f y in g  o u t h a te f u l c o n te n ts  in  tw itte r  is  c o s tl y   a n d  n o s cal ab l e.   T h er e f o r e,  t h e au t o m at i w a y  o f  h at s p eech  d et ect i o n  i s  n eed ed  t o   b e d e v e l ope d f or  t w e e t s  i n I nd one s i a n l a ng ua g e .  I n t hi s  s t u dy ,  w e  us e d   e ns e m bl e   m e t hod f or  ha t e  s pe e c h de t e c t i on i n I n do ne s i a n l a ng ua g e .  W e   e m pl oy e f i v e  s t a nd - a lo n e  c la s s if ic a tio n  a lg o r ith m s ,  in c lu d i n g  N a ïv e  B a y e s ,   K - N e a r e s t  N e i g hbour s ,  M a x i m u m  E nt r opy ,  R a ndo m  F or e s t ,  a n d S up por t   V e c t or  M a c hi ne s ,  a nd t w o e ns e m bl e  m e t hods ,  ha r d v ot i ng  a nd s of t  v ot i ng ,  o T w i t t er  h at e s p eech  d at as et .  T h e ex p er i m en t  r es u l t s  s h o w ed   t h at  u s i n g   en s e m b l m et h o d  can  i m p r o v e t h e cl as s i f i cat i o n  p er f o r m an ce.   T h e b es t  r es u l t   i s  ach i ev ed   w he n us i ng  s of t  v ot i ng  w i t h F 1 m e a s ur e  79. 8%  on   unba l a nc e   da t a s e t  a nd 84. 7%  on ba l a nc e da t a s e t .  A l t houg h t he  i m pr ov e m e nt  i s  not   t r ul y  r e m a r ka bl e ,  us i ng  e ns e m bl e  m e t hod c a n r e duc e  t he  j e opa r dy  of   ch o o s i n g  a p o o r  cl as s i f i er  t o  b u s ed  f o r  d et ect i n g  n ew  t w eet s  as  h at e s p eech   or  n ot .     Ke y wo rd s :   Cl a s s i f i e r  e n s e m b l e   H at e s p eech   I nd o ne s i a n l a n g ua ge   T e x t c la s s if ic a tio n   T w it te r     C opy r i g ht   ©  201 8   I ns t i t ut e  o f  A d v anc e d E ngi ne e r i ng  an Sc i e nc e   A l l  ri g h t s re se rv e d .   Co rre sp o n d i n g  Au t h o r :   M .  A li F a u z i ,   F acu l t y  o f  C o m p u t er  S ci en ce,     B r aw i j a y a U n i v er s i t y ,  M al an g ,  I ndone s i a   E m a il:  m o ch . al i . f au zi @ u b . ac. i d       1.   I NT RO D UCT I O N     H at e s p eech  i s  an y  co m m u n i c at i v e act s  t h a t  u s ed  t o  ex p r es s  h at r ed  t o w ar d s  a p er s o n  o r  a   g r o u p  o n   t h b as i s   o f   s o m e   ch ar act er i s t i s u c h   as  r ace,   et h n i ci t y ,   g e n d er ,   s ex u al   o r i en t at i o n ,   n at i o n al i t y ,   r el i g i o n ,   o r   o t h er  ch ar act er i s t i c [ 1 ] .  D u e  t o  t h m as s i v e i n cr eas e o f   u s e r - g e n er at ed   w eb  co n t e n t ,  i n  p ar t i cu l ar  o n  s o ci al   m ed i a n et w o r k s   w h er e an y o n e can  g i v a s t a t e m e n t   f r eel y   w i t h o u t   an y  l i m i t at i o n s ,  t h a m o u n t  o f   h at e f u l   act i v i t i e s  i s  a l s o  i n cr eas i n g .  S o ci al   m ed i a  t ech n o l o g y   m a k e  p eo p l e ab l e t o  ex p r es s  t h ei r   o p i ni o n,  i nc l ud i n g   h at s p eech ,  q u i ck l y ,  t h e n   s p r ead   w i d el y  a n d  b eco m v i r al   i f  t h e t o p i cs  co v er ed  ar i n t er es t i n g .  I t  ca n  b r i n g   u p  d i s p u t e s  b et w een   g r o u p s  i n  s o ci et y .  I n  I n d o n es i a,  b as ed  o n  t h e d at a o f  N at i o n al  P o l i ce C r i m i n al   I nve s t i ga t i o A ge nc y o f  I nd o n es i a i n  2 0 1 5 ,  t h er e ar 1 4 3  cy b er cr i m e s  i n  t h e f o r m  o f  h at s p eech .  T h i s   n um be r  i n c r e a s e d t o 199 i 2016.  H ow e v e r ,  t h i s  da t a  o nl y  c ov e r  h a t e  s pe e c h e s  be i n g c r i m i n a l i z e d a n r ep o r t ed  t o  t h e p o l i ce.  O b v i o u s l y  t h er e ar e s t i l l   m an y   m o r h at e s p eech es  t h at  ex i s t i n  v a r io u s  s o c ia m e d ia .     Evaluation Warning : The document was created with Spire.PDF for Python.
I nd o ne s i a n J  E l e c  E ng  &  C o m p   Sc i     I SSN :   2502 - 4752     E ns e m bl e  M e t hod f or  I n done s i an T w i t t e r  H at e  Spe e c h D e t e c t i on  ( M .  A li F a u z i )   295   O n e  o f  th e  p o p u la r  s o c ia m e d ia  in  I n d o n e s ia  is  T w itte r  [ 2 ] .  S o c ia l m e d ia  a n d   m ic r o b lo g g i n g   w e b   s er v i ces ,   s u c h   as  T w i t t er ,  al l o w i n g  t o  r ead  an d  an al y ze u s er  t w eet s  i n   n ear  r eal  t i m e.  T w i t t er  i s  a l o g i ca l   s o u r ce o f  d at a f o r  h at e   s p eech  an al y s i s   s i n ce u s er s  o f  t w i t t e r  ar e m o r e l i k el y  t o  ex p r es s  t h ei r  e m o t i o n s  o f  a n   ev en t  b y  p o s t i n g  s o m e t w eet   [ 3 ] .   T h i s  an al y s i s  can   h el p  f o r  ear l y  i d en t i f i cat i o n  o f  h a t e s p eech  s o  i t  can  b e   pr e v e n t e d t o be  s pr e a d w i de l y.  I t  i s  a l s o u s e f u l  f or  c on t e n f ilte r in g  a n d  e a r l y  d e te c tio n  o f  w r o n g f u l a c tiv it ie s   [ 4 ] .   T he  m a n ua l  w a o f   d et ect i n g   o ut  ha t e f ul   t w eet s   i s  co s t l y  a n d   n o t  s cal ab l e.  T h er ef o r e,  t h e  au t o m at i c   w a y   o f  h at e s p eec h  d et ect i o n  i s   n ee d ed  t o   b e d ev el o p ed  f o r  t w eet s  i n  I n d o n es i an  l a n g u a g e.   S o me  p r e v i ous   w or k s  pr opos e d i n  h a t e  s pe e c h  de t e c t i on   m os t l y   f or  E n g l i s h  [ 5 - 7] .  M os t  of  t h e m   u s e d   m ach i n e l ear n i n g  t ech n i q u e an d  t h e d at as et  i s  f r o m  T w i t t er .  Mean w h i l e,  t h e s t u d y  o f  h a t e s p eech  d et ect i o n  i n   I n d o n es i a n  l an g u ag i s   s t i l l  v er y  r ar e.   A s   f ar  as   w k n o w ,  [ 8 ]  an d  [ 9 ]  ar e t h e o n l y   w o r k s  i n  h at s p eech   de t e c t i on  i n  I n don e s i a n l a n gu a g e .  T h e s e   w or k s  pr ov i de   da t a s e t s   f or  h a t e  s pe e c h de t e c t i on  i n  I n don e s i a l an g u a g e f r o m  T w i t t er .  T h es w o r k s  al s o  u s ed   m ac h i n e l ea r n i n g  ap p r o ach  t o  t ack l e t h i s   p r o b l em .  B as i cal l w al s o   co n s i d er   t h h at s p eech   d et ect i o n   a s   t e x t   cl a s s i f i cat i o n   p r o b l e m .   I n   t h i s   w o r k ,   w f o cu s   o n   t h e   p r o b l em  o f  cl as s i f y i n g  a t w eet  as  h at e s p eech  o r  n o t .  T ex t  cl as s i f i cat i o n  t ech n i q u m o s t l y   u s i n g  b ag  o f   w o r d s   f eat u r es  a n d   m ac h i n e  l ear n i n g   m et h o d s   s u ch  as  N v e B ay e s  ( N B )  [ 1 0 ] ,  K - N e a re s t  N e i g h b o rs  (K N N ) [1 1 ],   M a x i m u m  E n t ro p y  (M E ) [1 2 ] ,   R a n d o m  F o re s t  (R F ) [1 3 ],  o r  S u p p o rt  V e c t o r  M a c h i n e s  (S V M ) [1 ] f o c la s s i f ic a tio n  ta s k .     I t hi s  w o r ks ,  w e  us e d   e n s e m b l e   m e t h od t o t a c k l e  t hi s  pr obl e m .   A n  e n s e m bl e  of   c l a s si f i e r s  i s a  se t  o f   s t a nd - a l o ne   c la s s if ie r s  w h ic h  c o m b i n e d   to   c la s s i f y  n e w   t we e t   i n or de r  t o i m pr ov e  c l a s s i f i c a t i on  pe r f or m a n c e   [ 1 4 ] .   I n  g en er al  t e x t  cl as s i f i ca t i o n ,  s ev er al   w o r k s  u s i n g  e n s e m b l m et h o d  h a v e b een  co n d u ct ed  an d  r ep o r t ed   th a t e n s e m b le s   m e t h o d  can  e n h an ce t h e cl as s i f i cat i o n  p er f o r m an ce ( e. g .  [ 1 5 - 1 7 ]).   S ev er al   cl as s i f i er  t h a t  b een   us e d  i n t hi s  e ns e m b l e  a r e   NB KNN M E RF ,  a nd   SV M .  W e ai m  t o   i m p r o v e  t h e p er f o r m a n ce o f  s o m e s t an d - al o n e cl as s i f i er s  b y  co m b i n i n g  t h e m .       2.   R ES EA R C H  M ETH O D   A s se e n   i n  F i g u r e 1 ,  h at s p eech  d et ect i o n   i n   t h i s   w o r k  co n s i s t s  o f  t h r ee  m ai n  s t ag es :  1 )   p r e p r oc e s s i n g;  2 )  t r a i ni ng  s o m e   s t a nd - a l o ne   cl as s i f i er s ;  a n d  3 )  co m b i n i n g  t h e cl as s i f i er s .             F i gu r e  1.   H at e S p eech  D et ect i o n  F l o w ch ar t         2 .1 T w ee t  P rep ro ces s i n g   I t w eet  p r ep r o ces s i n g ,  t h er e  ar e s o m e s t ep s  t o  b e co n d u ct ed :  1 )  t o k en i zat i o n ;  2 )  f i l t er i n g ;  3 )   s te m m i n g ; a n d  4 )  te r m   w e i g h t in g .  T o k e n iz a tio n  is  a  ta s k  o f  s p litti n g  t w e e t s  in to  s m a lle r  u n its  c a lle d  to k e n s  o r   t er m s .  I n  t h i s  p r o ces s ,  cas e f o l d i n g  a n d  cl ean s i n g   ar e al s o  co n d u ct ed .  C a s e f o l d i n g  i s   a p r o ces s  o f   c onv e r t i ng  al l  o f  ch ar act er s  i n t o  l o w er c as e.  I n  t h e  cl ea n s i n g  p r o ces s ,  p u n ct u at i o n ,   n u m b er s ,   h t m l  t ag  an d  ch ar act er s   o u ts id e  o f  th e  a lp h a b e w e r e  r e m o v e d .  T h e  n e x s te p  is   f ilte r i n g  o r  S to p w o r d s   R e m o v a l.  S to p w or ds  or   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   25 02 - 4752   I nd o ne s i a n J  E l e c  E ng  &  C o m p   Sc i ,   Vo l 11 , N o .   1 J ul y   201 8   :   2 64     299   296   u n i nf or m a t i v e   w or ds   w e r e  r e m o v e i t h i s   s t e ba s e o n   a n  e x i s t i ng   s t opl i s t   di c t i on a r y.   I n  t h i s   w or k ,   w e   s t opl i s t  di c t i on a r y  b y  T a l a  [ 18 ] .  T h e  f ou r t h  s t e p i s  s t e m m i ng or  a  pr oc e s s  of  r e du c i n g  e v e r y   w or ds  t o i t s  r oot   or  ba s e  f or m .   T h e   w or ds  ‘ di l a w a n’ ,  ‘ m e l a w a n ,   a n d ‘ pe r l a w a n a n w i l l   be   c onv e r t e t t h e  s a m e  w or d ‘ l a w a n’   [ 19] - [2 1 ].     T h e  l a s t  s t e p i n  pr e pr oc e s s i ng   i s   w or d or  t e r m   w e i gh t i n g .  I n   t h i s   w or k ,   w e   u s e  ba g  o f   w or ds  ( B O W )   f eat u r es   w i t h   T F . I D F   w ei g h t i n g .   T F . I D F  i s   t h m o s t   p o p u l ar   t er m   w ei g h t i n g   m e th o d   i n  te x c la s s if ic a tio n   [ 2 2 ] .   T F . I D F  i s  a  c o m b i na t i o n o f  t e r m   f r e q ue nc y  ( T F )  a nd  i nve r s e  d o c u m e nt   f r e q ue nc ( I D F ) .   T he  T F . I D F   w e i g h t o f  te r m  o r   w o r d  t in  t w e e t o r  d o c u m e n t d  is  c a lc u la te d  a s  f o llo w s :     ( ) ) l og 1 ( ) l og 1 ( ) , ( , + + = t d d t df N f d t I DF TF     w h er d t f ,   i s  t h e n u m b er  o f  o ccu r r en ces  o f  t er m  t  i n  t w eet  d  an d   d N   i s  t h e   num be r  of  t w e e t s  i n c or pu s  a nd   t df   i s  t h n u m b er  o f  t w ee t s  i n  co r p u s  t h a t  co n t ai n s  t er m  t .  F i n a l l y ,  t h i s  s t a g e p r o d u ce a b ag  o f   w o r d s  ( B O W )   f eat u r es   w h i ch   w i l l  b e u s ed  i n   t h e n e x t  s t ag e.     2 .2 T r a i ni ng  So m e  St a nd - a l o n e  C la s s if ie r s     I n   t h s eco n d   s t ag e,   s e v er al   p o p u l ar   c la s s if ie r s   is   tr a in e d .  I t hi s   w o r k,   w e   us e d   N v B ay e s ,   K - N ear es t  N ei g h b o u r s ,   M a xi m u m  E nt r o p y ,   R an d o m   F o r es t ,  an d  S u p p o r t  V ect o r  Mach i n es .  F o r  N v e B ay es ,   w e  u s e d  M u lti n o m ia d is tr ib u tio n  a s  it  p r o v e s   to  s h o w   g o o d  p e r f o r m a n c e  in  te x t c la s s if i c a tio n .  Mea n w h i l e,   f o r  S V M ,   w us e d   L i n ear  k er n el   f o r  t h e s a m e r eas o n .  F i n a ll y ,  th e  c la s s i f ie r s  is   e n s e m b le d  in  th e  la s t s ta g e     2 .3 C o m b in in g  t h e  C la s s if ie r s   I n t he   l a st   s t ag e,   s e v er al  cl as s i f i er s   f r o m  t h e p r ev i o u s   s t a g e i s  co m b i n ed .  W e co n d u c t ed  t w o  t y p es  o f   e n s e m bl e  m e t h ods :  1 )  ha r d v o t i ng ;  a n d 2)  s of t   v ot i ng I n h ar d  v o t i n g ,  each   s t a nd - a l o ne   cl a s s i f i er  h a s  o n e v o t e.   A s  s een  i n  F i g u r e 2 ,  t h e cat eg o r y  o f  a  t w eet   is   s el ect ed  b y  m aj o r i t y   v o t i n g .  T h e cat eg o r y  s el ect ed  i s  t h e o n e   w h i c h ha ve  a   m a j o r i t y ,  t ha t  i s ,   m o r e  t ha ha l f  t he  vo t e s .   M ean w h i l e i n  s o f t   v o t i n g ,  av er ag cat e g o r y   p r o b a b ilitie s  i s   u s e d   a s  v ot i ng  s c or e .   A s  s e e i n  F i gur e  3 ,  t he  f i na l  c a t e go r y o f  a   t w eet   i s  t he   o ne   w i th  th e   hi g he s t   v ot i ng  s c or e  or   av er ag e p r o b a b i l i t y   f r o m  eac h  cl as s i f i er s           F i gu r e  2.   H a r d V ot i n g  E ns e m bl e   M et h o d           F i gu r e  3.   S o f t V o tin g  E n s e m b le  M e th o d   Evaluation Warning : The document was created with Spire.PDF for Python.
I nd o ne s i a n J  E l e c  E ng  &  C o m p   Sc i     I SSN :   2502 - 4752     E ns e m bl e  M e t hod f or  I n done s i an T w i t t e r  H at e  Spe e c h D e t e c t i on  ( M .  A li F a u z i )   297   3.   R ES U LT S   A ND AN AL Y S I S   W e i m p l e m en t ed  t h e  e x p er i m en t s  u s i n g  S ci k i t - L ear n  [ 2 3 ] .  W e u s ed  T w i t t er   h at s p eech   d at as et  i n   I n d o n es i a n  l a n g u a g e t h at   h av e b een  co l l ect ed  an d  l ab el l ed  b y  [ 9 ] .  T h er e ar e 2 6 0  t w eet s  l ab el l ed  as   h at e   s p eech  a n d  4 4 5  t w eet s  l ab el l e d  as  n o n   h at s p eech .  W k ep t  t h e  d at as et   u n b al an ced  i n  t h e f i r s t  ex p er i me n t .   F o r  t h e s eco n d  e x p er i m e n t ,   w e t r an s f o r m  t h u n b al a n ced  d at as et  i n t o  a b al an ced  o n u s i n g  an   u n d er s a m p l i n g   m et h o d .  W e ch o o s e n o n  h at e   s p eech   t w eet s   r a n d o m l y   s o  t h at  t h n u m b er s  o f  t h n o n   h at e s p eech  t w eet s   b eco m e t h e s a m e n u m b er  o f  t h e h at s p eech  t w eet s .     I n t he  e xp e r i m e nt s ,   w e co m p ar ed  t h e r es u l t s  o f  s t an d - al o n e cl as s i f i er s   w i t h   o ur  e ns e m b l e   m e t ho d .   W e   u s e  10 f ol c r os s   v a l i da t i on ,   w hi c h   i s   m e a n   t h e   da t a s e t   i s   e qu a l l y  di v i de d i n t o 10 f ol ds   f i r s t .  I n  e a c ite r a tio n  o f  c r o s s   v a lid a tio n ,  t w e e t s  f r o m  9   f o l d s   w e r e  us e d  a s  t r a i ni ng d a t a  a nd  t he  r e m a i ni ng  f o l d   w a s  u s e d   as  t es t i n g  d at a.  W e u s e av er ag e F 1  M eas u r e as  t h e ev al u at i o n   m et h o d  i n  t h i s  ex p er i m e n t s .  E x p er i m e n t  r es u l t s   di s pl a y e d i n  F i gu r e  4 a n d F i gur e  5.               F i gu r e  4.   H at e S p eech  D et ect i o n   P e r f o r m a nc e  u s i ng  U n b al an ced  D at a s et   F i gu r e  5.   H at e S p eech  D et ect i o n  P er f o r m a n ce u s i n g   B al an ced  D at as et       A s  s e e n i n F i gu r e  4,  a m o ng  a l l  s t a n d - a l o n e cl a s s i f i er s ,  N B   h as  t h e  b es t  p er f o r m an ce  o n  u n b al an ced   d at as et  co m p ar ed  w i t h  o t h er  s t an d - al o n e cl as s i f i er   b y  7 8 . 3 %  F 1  m ea s u r e.  S V M  p er f o r m ed  al m o s t  t h e s a m e t o   N B   w i t h F m e a s u r e  78. 1% .  I t  i s  c l e a r  t o s e e  t h a t  K N N   w a s  t h e   m o s t   i nf e r i or  c l a s s i f i e r   w i t h on l y  74. 2%  F 1   m eas u r e.  Mean w h i l e,  R F  an d   M E  p er f o r m ed  b et t er  t h a n  K N N  b y  7 1 . 2 %  an d  7 4 . 3 %  F 1  m e as u r e r es p ect i v e l y.     A l m o s t  al l  o f  t h e en s e m b l e  m e t h o d s  h a v e h i g h er  F 1  m eas u r e o v er  s t an d - al o n e cl as s i f i er s  o n   u n b al a n ced  d at as et .  H o w e v er ,  o n  t h e h ar d  v o t i n g   s t r at eg y   w i t h  5  cl as s i f i er s  ( N B ,  K N N ,  ME ,  R F ,  S V M ) ,   w h o s e F 1   m ea s u r e i s  7 7 . 9 % ,  t h e en s e m b l m et h o d s  ca n   n o t   ex cee d  t h N B  p er f o r m an ce.   T h e d eci s i o n  i n  h ar d   v o tin g  is  e q u a ll y  d e te r m i n e d  b y  a l l o f  s ta n d - a l o ne  c l a s s i f i e r s .  T he  F 1  m e a s ur e  o f  ha r d  vo t i ng  m e t ho d  us ua l l y   v ar i es  b et w ee n   t h e  F 1   m eas u r e o f  b es t  cl as s i f i er  a n d  t h e F 1   m eas u r e o f   w o r s t  c l as s i f i er .  I t   i s   h ar d  f o r   t he  ha r d   v o t i n g   m et h o d  t o  g et  h i g h er  F 1  m eas u r e t h a n  t h e b es t  cl as s i f i er  b eacu s e t h e d i f f er e n ce i n  F 1  m ea s u r e i s  t o o   f ar  b et w een  t h e b es t  cl a s s i f i er  ( 7 8 . 3 % )  an d  t h w o r s t  cl as s i f i er  ( 6 8 . 2 % )  t h at  b ee n  c o m b i n ed .  I t  i s  n o t   h a ppe n e w h e n   w e  us e  s of t  v ot i ng   m e t h o d .  S o f v o ti n g   m e t h o d   w it h  5  c la s s i f ie r s  s till s u r p a s s  t h e   p e r f o r m a n c e  o f  a ll s ta n d - a l one  c l a s s i f i e r s  b y  78. 9%  F m e a s u r e .   A l t h oug h  c o m bi ni ng  a l l  of  t h e  c l a s s i f i e r s ,   s o f t   v o t i n g   g i v e v o t e s   f o r   each  cat eg o r y   b as ed   o n   i t s   a v er ag p r o b ab i l i t y   v al u f r o m   al l   o f  t h e cl as s i f i er s .   T h e r e  is  a  p o s s ib ilit y  t h a w in n in g  c a te g o r ie s  b a s e d  o n  h a r d   v o tin g   w ill lo s e  o n  s o f t v o ti n g  b e c a u s e  th e y   h a v e   l o w e r  a v e r a g e s  pr oba bi l i t y  t ha n  ot h e r  c a t e g or y .   S of t   v ot i n g s i m pl y  pr ov i de s  a   m or e  r obus t  v ot i ng  s c h e m e  a s   it is  o f te n  r e d u c es  o v er f i t  a n d  cr eat es  a s m o o t h er   m o d el .   T h e en s e m b l m e t h o d s  b y  u s i n g  o n l y   t h r ee b es t  cl as s i f i e r s  ( N B ,  S V M ,  an d  R F )  h av e t h e b es t   p e r f o r m a nc e   w he n u s i ng  ha r d  vo t i n g o r  s o f t  vo t i n g.  H a r d  vo t i ng a nd  s o f t  vo t i ng b a s e d  o n t hi s  s c he m e  ha ve   t h s a m F 1   m eas u r e,   7 9 . 8 % .   S i n ce en s e m b l m et h o d   i s   af f ect ed   b y   t h cl as s i f i er s   t h at   co m p i l ed   i t ,   u s i n g   o n l y  t h e b es t  cl as s i f i er  can  i m p r o v e t h e p o s s i b i l i t y  o f  en s e m b l e m e t h o d  t o  g et  b et t er  p er f o r m an ce.     M ean w h i l e,  t h r es u l t  o f  t h e   s eco n d   ex p er i m en t ,   w h i c h  i s   u s i n g  b al an ced   d at a s et ,   ca n  b e s een   i n   F i g u r e 5 .   A s  p r ed i ct ed ,  al l  o f   t h e cl a s s i f i cat i o n   m et h o d   g o t   h i g h er  F 1   m eas u r e o n  b al a n c ed  d at as et .  K N N  i s   s t i l l  t h e   w or s t  c l a s s i f i e r   w i t h F m e a s u r e  76. 8% .  R F  pe r f o m e s l i g h t l y  be t t e r   w i t h 77. 6%  F m e a s u r e .   S ur p r i s i ngl y,  M E  ha s  t h e  b es t  p er f o r m a n ce  w i t h  8 4 . 1 %  F 1   m eas u r v al u e.  N B  a n d  S V M   ar e s t i l l  b el o w  M E   w i t h   o n l y   s l i g h t   d i f f er en ce.   A l l   o f  t h en s e m b l m et h o d   h av al m o s t   t h s a m F 1   m e as u r v a l u a n d  al s o   p er f o r m  b et t er  t h an   al m o s t  al l  o f   t h s t a n d - al o n e  cl as s i f i er s .   T h es e t w o   e x ep er i m e n t s  s h o w ed   t h at   w ca n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   25 02 - 4752   I nd o ne s i a n J  E l e c  E ng  &  C o m p   Sc i ,   Vo l 11 , N o .   1 J ul y   201 8   :   2 64     299   298   i m p r o ve  t he  p e r f o r m a nc e  b y   us i n g e ns e m b l e   m e t ho d  e ve i f   no t   s i g ni f i c a nt .  N e ve r t he l e s s ,  e n s e m b l e   m e t ho d   s u r el y  r ed u ce t h e j eo p ar d y  o f   ch o o s i n g  a  w eek  cl a s s i f i er  t o   b e u s ed  f o r  d et ect i n g  n e w  t w e et s .       4.   CO NCL U S I O N   I t h i s  s t ud y,  w e   we  u s e d   en s e m b l e m et h o d   t o   f o r  H at e S p eech  D et ect i o n  i n  I n d o n e s i a n   l an g u a g e.   W e em p l o y ed  f i v e s t a n d - a lo n e  c la s s i f ic a tio n  a lg o r it h m s ,   in c l u d in g  N a ïv e  B a y e s ,  K - N ear es t  N ei g h b o u r s ,   M ax i m u m  E n t r o p y ,   R an d o m   F o r es t ,  an d  S u p p o r t  V ect o r   Mach i n es ,   a n d t w o e ns e m bl e   m e t h ods  on  T w i t t e r   h at e s p eech  d at as e t .     B y   u s i n g  u n b al an ce d at as et ,  t h e ex p er i m e n t  r es u l t s  s h o w  t h at  N v e B a y e s  o f f er ed  t h e b es t   p er f o r m a n ce a m o n g  al l   f i v e s t an d - al o n e cl as s i f i er s   w i t h  F 1  m ea s u r e v a l u e 7 8 . 3 % .   T h e ex p er i m e n t al  r es u l t s   al s o  s h o w  t h at  e n s e m b l e t ec h n i q u e ca n   i m p r o v e  t h e  cl as s i f i cat i o n  p er f o r m an ce.  T h e b es t  r es u l t  i s  ach i ev ed   w h e n  u s i n g  e n s e m b l e o f  t h r ee b es t  cl as s i f i er  ( N v e B a y es ,  S u p p o r t  V ect o r  M ach i n e,  a n d  R an d o m   F o r es t )   w i t h  F m e a s u r e  79. 8% .     M ean w h i l e,  as  p r ed i ct ed ,  al l  o f  t h e cl a s s i f i cat i o n   m et h o d  g o t  h i g h er  F 1   m eas u r w h en   us i ng  b al an ced  d at as et .   S u r p r i s i n g l y ,  Max i m u m  E n t r o p y   h as  t h e   b es t  p er f o r m a n ce i n  t h i s   s eco n d  ex p er i m e n t   w i t h   8 4 . 1 %  F 1  m eas u r e v al u e.  U s i n g  b al a n ced  d at as et ,  al l  o f  t h e en s e m b l m et h o d  h av e al m o s t  t h e s a m e F 1   m eas u r v al u e  an d  al s o  p er f o r m  b et t er  t h a n  al m o s t a ll o f  t h e  s ta n d - al o n e  cl as s i f i er s .  T h es e  t w o  ex ep er i m en t s   s ho w e d  t ha t  u s i ng e ns e m b l e   m e t ho d  c a n i m p r o ve   t he  p e r f o r m a nc e  o f  t he  s ys t e m .   A l t ho u gh  t he  i m p r o ve m e n t   i s  n o t   s i g n i f i ca n t ,   u s i n g   en s e m b l m et h o d  can   r ed u ce t h r i s k   o f  s el ect i n g   p o o r   cl as s i f i er   t o be   u s e f or   d et ect i n g   n e w  t w eet s  as   h at e s p eech  o r  n o t .   I n t he  f ut ur e   w o r k,  i ns t e a d  o f  o nl y   us i ng B O W  f e a t ur e s ,  a p p l yi n g e n s e m b l e s  o f  f e a t ur e  s e t   m a y b e  a   p r o m i s i n g  d i r ect i o n  t o  g et  b et t er  p er f o r m an ce.  S o m e f eat u r e s et  s u c h  as  n - gr a m ,  l e x i c o n,  P O S  t a g gi n g,  t e x ua l   f eat u r e o r  t w i t t er  s p eci f i f eat u r es  ca n  b e ap p l i ed  f o r  i m p r o v e m e n t .   A n o t h er  t y p e s  o f  f eat u r e l i k e W o r d 2 V ec  o r  P a r ag r ap h 2 V ec al s o  can  b e ap p l i ed  i n  t h e f u t u r e.       R EF ER EN C ES   [ 1]     W a r n e r  W ,  H i r s ch b er g  J ,   D et ect i n g  h at e s p eech   o n  t h W o r l d  W i d e  W e b .   I n   P r oc e e di ngs  of  t he   Se c on d   W or k s hop on L a ng ua ge   i n Soc i al  M e di a   20 12  J un  7 ( pp .   1 9 - 26) .  A s s oc i a t i on f or  C om put a t i o na l  L i ng ui s t i c s .     [ 2]     S ito r u s  A P ,   M ur f i  H ,  N ur r ohm a h S ,  A k ba r   A ,   S en s i n g  T r en d i n g  T o p i cs  i n  T w i t t er   f o r  G r eat er  J ak ar t A r ea ”,   I nt e r nat i o nal   J our n al   of  E l e c t r i c al  an d C om pu t e r  E n gi ne e r i n g ( I J E C E ) .   20 17  F e b 1 ;   7( 1) : 3 30 - 6.   [ 3]     B u r n a p   P ,  W illia m s  M L ,   C y b er  h at e s p eech  o n  t w i t t er :  A n  ap p l i cat i o n   o f  m ach i n e cl as s i f i cat i o n  an d  s t at i s t i ca l   m ode l i ng  f or  pol i c y  a nd de c i s i on   m a k i ng P o l i cy  &  I n t er n et .  201 5   J un 1;   7( 2) : 22 3 - 42 .   [ 4]     B ad j at i y a  P ,  G u p t a S ,  G u p t a M ,   V ar m a V ,   D e ep  l ear n i n g   f o r  h at e s p eech  d et ect i o n  i n  t w e et s .  In   P r oc e e di ngs  o f   t he  2 6t h I nt e r nat i on al  C o nf e r e nc e  on  W or l d  W i de  W e b C om p ani o n ,   2 01 7 A p r  3 ( pp .   7 59 - 7 60) .  I nt e r na t i o na l  W or l d   W i de  W e b C onf e r en ces  S t eer i n g   C o m m i t t ee.   [ 5]     W as ee m  Z ,  H o v y  D ,   H at e f u l  S y m b o l s  o r  H at ef u l  P eo p l e?  P r e d i ct i v e F eat u r es  f o r  H at e S p eech  D et ect i o n   o n   Tw itte r .  In S RW @  H L T - N A A C L  2016  J un  1 2 ( p p.   88 - 9 3) .   [ 6]     K w o k I ,  W a n g Y ,   L o cat e t h e H at e:  D et ect i n g  T w e et s  ag ai n s t  B l ack s .  I n   A A A I   2 01 J u l  1 4.   [ 7]     B ar b o s a L ,  F en g  J ,   R obus t  s e nt i m e nt  de t e c t i on  on t w i t t e r  f r o m  bi a s e d a nd no i s y  da t a .  In   P r oc e e di ngs  of   t he  2 3r d   I nt e r nat i o nal  C o nf e r e nc e  on C om put at i on al  L i ng ui s t i c s :   P os t e r s  201 0 A ug  23 ( pp.   36 - 44) .  A s s oc i a t i on  f or   C o m p u ta tio n a l L in g u is t ic s .   [ 8]     S .   H .  P r a tiw i,   “D et ect i o n  o f  H at e S p eech  ag ai n s t  R el i g i o n   o n  T w ee t  i n  t h e I n d o n es i an  L an g u ag e U s i n g  N v e B a y es   A l g or i t hm  a nd S u pp or t   V e c t or  M a c hi ne ,   B . S c.  T es i s ,  U n i v er s i t as  I n d o n es i a,  I n d o n es i a,  2 0 1 6 .   [ 9]     A l f i n a I ,  M u l i a R ,  F an an y  M I ,   E k an at a Y .   H at e S p ee ch  D et ect i o n   i n  t h e I n d o n es i an  L an g u ag e:  A  D at a s et  an d   P r e lim in a r y  S tu d y .   In   A dv anc e d C om pu t e r  Sc i e nc e  and I nf or m at i o n Sy s t e m s   ( I C A C SI S) ,  20 1 7 I nt e r nat i o na l   C onf e r e nc e  o n 2 01 7 . I E E E .   [ 1 0]     F a u z i  M A,  Ar i f i n  AZ ,  Go s a r i a   S C,   I n d o n e si a n  Ne w s C l a ssi f i c a t i o n  Usi n g  N v e B a y es  an d  T w o - P h as e F eat u r e   S el ect i o n  M o d el I n do ne s i an J o ur nal  of  E l e c t r i c al  E ngi ne e r i ng  a nd C om p ut e r  Sc i e nc e .  2 01 7 D e c   1; 8( 3) .   [ 1 1]     S uha r no C F ,  F a uz i  M A ,  P e r da n a  R S ,   K l as i f i k a s i  T ek s  B ah as a  I n d o n es i a P ad a D o k u m en  P en g ad u an  S am b at   O nl i ne  M e ng g una k a M e t od e  K - N ear es t  N ei g h b o r s  D an  C h i - S qua r e S ys t em i c:  I n f o r m at i on  S y s t e m  and  I nf or m at i c s  J our n al .   2 01 7 D e c  7; 3( 1) : 25 - 32.   [ 1 2]     E l - H al ees  A M ,   A r ab i c t ex t  cl as s i f i cat i o n  u s i n g  m ax i m u m   en t r o p y I U G  J our nal  of  N a t ur a l  St udi e s .  20 15    D e c  5; 15( 1) .   [ 1 3]     W u  Q,  Ye  Y,  Z h a n g  H,   Ng  M K ,  Ho   S S ,   F o r es T ex t er :  an  ef f i ci en t  r an d o m  f o r es t  al g o r i t h m   f o r  i m b al an ced  t ex t   cat eg o r i zat i o n .   K now l e dge - B a s ed  S ys t em s .  2 01 4 S e p 3 0; 6 7: 10 5 - 16 .   [ 1 4]     R o li F .   M u l tip le  c la s s if ie r  s y s te m s ”,   E nc y c l ope di a of  B i om e t r i c s .  20 15: 11 42 - 7.   [ 1 5]     Ad e v a  J G,   At x a  J P ,   Ca rri l l o M U ,   Z e ng ot i t a be ng oa  E A ,   A u to m a tic  te x t c la s s i f ic a tio n  to  s u p p o r t s y s t e m a tic  r e v ie w s   in  m e d ic in e ”,   E x pe r t  S y s t e m s  w i t h A ppl i c a t i o ns .  2 01 4 M a r   31 ; 4 1( 4 ) : 14 98 - 50 8.   [ 1 6]     Do n g  YS ,  Ha n  KS ,   A  co m p ar i s o n   o f  s ev er al  en s e m b l m et h o d s   f o r  t ex t  cat e g o r i zat i o n .  In   S er vi c e s  C om put i ng,   200 4. ( SC C  2 00 4) .   P r oc e e di n gs .   2 004  I E E E  I nt e r n at i on al  C o nf e r e n c e  on ,   20 04 S e p 15  ( pp .   4 19 - 4 2 2 ) .  I E E E .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nd o ne s i a n J  E l e c  E ng  &  C o m p   Sc i     I SSN :   2502 - 4752     E ns e m bl e  M e t hod f or  I n done s i an T w i t t e r  H at e  Spe e c h D e t e c t i on  ( M .  A li F a u z i )   299   [ 1 7]     La r k e y  LS ,   C r o f t  WB ,   C o m b in in g  c la s s if ie r s  in  te x t c a te g o r iz a tio n .  In   P r oc e e di ngs  of  t he  19t an nu al   i nt e r nat i o nal  A C M  SI G I R  c onf e r e nc e   on R e s e ar c an de v e l opm e nt  i n i nf or m a t i o n r e t r i e v al ,   19 96   A u g 18    ( pp.  2 89 - 2 9 7 ).  A CM .   [ 1 8]     T al a F ,   A  s t ud y  of  s t e m m i ng  e f f e c t s  on i nf or m a t i on r e t r i e v a l  i n B a ha s a  I ndo ne s i a .   I ns t i t ut e  f or  L o gi c ,  L an gu age   and  C om put at i on,   U n i v er s i t ei t  v an  A m s t er d a m ,   T h e N et h er l a nds .  2 003   J ul .   [ 1 9]     P r a m uk a nt or o E S ,  F a uz i  M A ,   C o m p a r a tiv e  a n a l y s is  o f  s tr in g  s i m ila r ity   a n d  c o r p u s - b a s e d  s im ila r it y   f o r  a u to m a tic   e ssa y  s c o r i n g  sy st e m  o n  e - l ear n i n g  g am i f i cat i o n ,   In   A dv a nc e d C om put e r   Sc i e nc e  a nd  I nf or m at i o Sy s t e m s   ( ICA CS IS ),  2 0 1 6  In t e r n a t i on al  C onf e r e nc e  o n ,   20 16 O c t   15 ( pp .  1 49 - 1 5 5 ) . I E E E .   [ 2 0]     F a u z i M A ,  A r if in  A ,  Y u n ia r ti A ,   T e r m   W e i g ht i ng  B e r ba s i s  I n de k s  B uk da n K e l a s   unt uk   P e r a ng k i ng a n D ok um e B e r ba ha s a  A r a b.  L ont a r  K om put e r ”,   J ur nal  I l m i a h T e k n ol o gi  I nf or m as i .  2 01 3; 5( 2) .   [ 2 1]     F a u z i , M .A ., U t o m o , D .C ., S e t i a w a n,  B . D .   a nd P r a m uk a nt or o,  E . S ,   A u to m a tic  Es s a y  S c o r in g  S y s te m  U s in g  N - G r a m   an d  C o s i n S i m i l ar i t y  f o r  G a m i f i cat i o n  B as ed  E - L ear n i n g ,   In   P r oc e e di ngs  of   t he  I nt e r na t i o nal  C on f e r e nc e   on A dv a nc e s  i n I m a ge  P r oc e s s i n g   ( p p.  15 1 - 1 5 5 ).  A CM .   [ 2 2]     F au zi   M A,  Ar i f i n  AZ ,  Y u n i a r t i   A,   A r a bi c  B ook  R e t r i e v a l  us i ng C l a s s  a nd B o ok  I nde x  B a s e d T e r m   W e i g ht i ng ”,   I nt e r nat i o nal  J our n al   of  E l e c t r i c al  an d C om pu t e r  E n gi ne e r i n g ( I J E C E ) ,   2 01 7 D e c  1; 7( 6) .   [ 2 3]     P ed r eg o s a F ,  V ar o q u au x  G ,   G r a m f o r t   A ,  M i ch el  V ,  T h i r i o n  B ,  G r i s el  O ,   B l o n d el  M ,   P r et t en h o f er  P ,  W ei s s  R ,   D ubo ur g  V ,   V a nde r pl a s  J ,   S c ik it - l ear n :  M ach i n e l ear n i n g  i n   P y t h o n ,   J our n al  of  M ac h i ne  L e ar ni n g R e s e ar c h 201 1;   12( O c t ) : 28 25 - 3 0.   Evaluation Warning : The document was created with Spire.PDF for Python.