T E L KO M NI K A ,  V ol . 14,   N o. 3,  S ept em ber  20 16,   pp.   10 52 ~ 105 8   I S S N :  1 693 - 6 930 ac c r edi t ed  A   b D IK T I,  D e c r e e  N o 58/ D I K T I / K ep/ 2013   D O I :   10. 12928/ T E LK O M N I K A . v 1 4 i 3 . 3150      10 52       R ec ei v ed   N ov e mber   25 ,  20 1 5 ;  R ev i s ed  J u ne   1 4 ,  2 01 6 ;  A c c ept e J un 2 9 ,  20 1 6   A   C o mpa r i s on  of R e t w e e t P r e di c ti o A p p r oa c h e s : T he   S upe r i or i t y  o f R a nd om  For e s t L e a r ni n g M e t ho d       H en d r a B u n yam i n * 1 T o m a s  T u n y s 2   1 D epar t m ent   of  I nf or m at i c s ,  M ar anat ha C hr i s t i an U n i v er s i t y   J l .  P r o f .  dr g.  S ur i a S u m ant r i  N o.  65 B andu ng ,   I ndo nes i a,  T el p / F a x : +6 2 - 222 0121 86/ 2 220 05 915    2 D epar t m ent   of  C o m put er  S c i e nc e C z ec h T ec hn i c a l  U ni v er s i t y   Z i k ov a 1903 / 4   1 66 3 6 P r ag ue  6,  C z ec h R e publ i c ,  T el p:  + 420 - 22435 757 6   * C or r es po ndi ng a ut ho r e - ma i l :  hendr a. bu ny am i n@ i t . m ar an at ha. ed u 1 , t u n y s to m @ fe l .c v u t. c z 2       A b st r act   W e  c o ns i der   t he  f ol l ow i n g r et w eet   pr edi c t i on t as k :  g i v e n  a t w eet ,  pr e di c t  w het her   i t   w i l l  b r et w eet e d.   I t he  p as t ,   a   w i de   r ange   of   l ear ni n m et h ods   an d   f eat ur es   ha s   been   pr o po s e d   f o r   th i s  ta s k . W e   pr ov i de  s y s t em at i c   c om par i s on  of   t he  per f or m anc of   t h e s l e ar ni n m et hod s   an f eat ur es   i t er m s   of   pr edi c t i o n a c c ur ac y  an d f ea t ur e i m por t a nc e.  S pe c i f i c a l l y ,  f r o m  eac h pr ev i ou s l y   pub l i s hed  a ppr oa c h w e t ak e   t he be s t   per f or m i n g f e at ur e s   a nd gr o up t hes e i n t o t w s et s :   us er  f eat ur es   and  t w eet  f eat ur es .  I n ad di t i on ,   w e c ont r a s t  f i v e l ea r ni n g m et h ods ,  bo t h l i near  an d non - l i ne ar .  O n t op of  t hat ,  w e ex am i ne t he adde d v al ue  of   pr ev i ou s l y   pr opo s ed  t i m e - s en s i t i v m od el i ng  appr oac h.   T t he  aut ho r s   k now l edge   t hi s   i s   t he  f i r s t   at t em pt  t o c ol l e c t  bes t  p er f o r m i ng f eat ur e s  and c ont r a s t   l i ne ar  and non - l i n ear  l ear ni n g m et hods .   W e   per f or m  our  c om p ar i s ons  on  a s i ngl e da t as et  a nd f i nd  t hat  us er  f eat ur e s  s uc h  as  t he  nu m ber  of  t i m es   a   us er   i s  l i s t e d,  n um ber   o f  f o l l ow er s ,   and  av er ag e n um ber  of  t w e et s  pu bl i s he d p er  da y  m os t  s t r ong l y   c ont r i but e t o pr edi c t i on a c c ur ac y   ac r o s s   s e l ec t ed  l ear n i ng  m et hods .   W e a l s o  f i n d t ha t  a  r andom  f or es t - bas e l e ar ni ng,   w h i c has   n ot   bee em pl o y e i pr ev i ou s   s t udi e s ,   a c h i ev es   t he  hi g he s t   pe r f o r m a nc am ong t he  l ear n i ng m et h od s  w e c on s i de r .   W e a l s o f i nd t hat  on t op of   pr op er l y  t une d l ear n i ng m et ho ds  t h e   benef i t s  of   t i m e - s en s i t i v e m od el i n g ar v er y  l i m i t ed.       Ke y w o rd s :  r et w e et  pr edi c t i on,  m ac hi n e l e ar ni ng a l gor i t hm s ,   per f or m an c e       C o p y r i g h t   ©   20 16 U n i ver si t a s A h mad  D ah l an .  A l l  r i g h t s r eser ved .       1 .  I n tr o d u c ti o n   S oc i a l  m edi a  l i k e T w i t t er   ha s  pr ov i de d a  p l at f or m   f or  s pr eadi ng  i nf or m at i on am ong  us er s   [ 1,   2] .   I t hi s   w or k   w f oc us   on  t he   r et w e et   pr e di c t i on   pr obl em .   G i v en  t w e et ,   w w o u ld   lik e   t o   pr edi c t   w h et h er   i t   w i l l   b r et w eet ed.   A pp l i c at i ons   of   t hi s   t as k   ar e,   f or   ex a m pl e,   t hel dec i s i o n   m a k er s  pr opagat e t h ei r   i s s ues  an d f ac i l i t at e  c om pani e s  t o pr om ot e t he i r  pr od uc t s .   A   w i d r ange  of   l ear n i ng   m et hods   and  f eat ur es   hav b een  pr o po s ed  f or   r et w ee t   pr edi c t i on ;  s ee,   e. g. ,   [3 - 7] .  I n a ddi t i o n,   di f f er ent  m odel i ng s et ups  h av e b een  pr opos ed ;  e. g. ,   P e t r o vi c ,   e t  a l. ,   [ 3]   pr opos e a t i m e - s ens i t i v e m odel  t hat  b ui l ds  s ep ar at e  m odel s  depe ndi ng  on   t he  t w eet ' s   c r eat i on  t i m and  s ho w   t hat   i t   s ubs t ant i al l y   i m pr ov es   per f or m anc ov er   t he  p as s i v e - aggr es s i v l e ar ni ng  al g or i t hm .   T hi s  l ar ge  v ar i et y   of  f eat ur es ,   l e ar ni ng m et hods ,  and   w a y s  of   m odel i ng t he t as k  c al l s  f or   a s y s t em at i c  c o m par i s on o n a s i ng l e d at as et .   T her ef o r e,  w e pr op os e   a s y s t em at i c  c o m par i s on   of  t he s el ec t e d l ear ni n g m et hods  and f eat ur es ,  bo t w i t h i n an d w i t h out   t im e - s ens i t i v e  f r am ew or k ,  al l  o n a  s i n gl e d at as et .   T o t h e a ut h or s  k no w l edg t hi s   i s  t h e f i r s t   at t em pt  t o c ol l ec t  b es t  p er f or m i ng f eat ur es  and c o nt r a s t  l i n ear  a nd  non - l i n ear  l ear ni n g m et hods .   W e   c ons i der   t he  f ol l o w i ng   r es ear c ques t i ons :   ( i )   W hi c of   t he  pr opos ed  l e ar ni n g   m et hods  i s  t he  m os t  ef f ec t i v e f or  t he r et w eet  pr ed i c t i o n t as k ( i i )   W hi c h o f  t he pr opos ed f eat ur es   ar e m os t  di s c r i m i nat i v e f eat ur es  f or  t he l e ar ni ng m et ho ds  c ons i der e d A nd ( i i i )  T o w hi c h d egr e does   t i m e - s ens i t i v m odel i ng  h el p i m pr ov e t he p er f or m anc of  l ear ni ng  m et hods  on  o ur   dat as et ?     P r i or   w or k  has  doc um ent e d s ev er al  t ec hn i q ues  t o s ol v e t he r et w e et  pr edi c t i on  pr obl em .   N av eed ,   e t   a l. ,   [ 5 ]   s t at t h at   t he  pr ob l em   of   f i ndi ng  " i nt er es t i ngn es s "   on  T w i t t er   i s   t he  s am as   pr edi c t i ng   w h et her   t w e et   w i l l   b r et w eet ed.   T hey   em pl o y   l og i s t i c   r e gr es s i on  t d t he   pr edi c t i on  a nd  f i nd  t hat   c on t ent   f eat ur es   s uc as   i ni t i al   negat i v s ent i m ent s   m a k e   t w ee t   m or l i k el y   t o b e r et w eet e d.   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NI K A     I S S N :  1 693 - 6 930       A  C o mpar i s on  of  R e t w ee t   P r ed i c t i o n A ppr oac hes :  T h S u per i or i t y   ( H endr a  B u ny ami n )   1053   P e t r o vi c ,   e t  a l. ,   [ 3]  c as t  t he  r et w eet   pr ed i c t i o n pr o bl em  as  a bi nar y  c l as s i f i c at i on pr obl em   w it h   a   t im e - s ens i t i v m odel i ng  a ppr o ac h.   T he y   ar gu t hat   t i m e - s ens i t i v m odel i ng   s ubs t ant i al l y   hel ps  i m pr ov per f or m anc e  ov er  p as s i v e - aggr es s i v e  al gor i t hm  on  t h e i r  d at as et .  T he y   a l s o c l ai m   t hat  s oc i a l  f eat ur es  t hat  ar e r el at ed t o a us er  i m pr ov e t he ac c ur ac y   of  t hei r  m odel  m or e t han   t w eet  f eat ur es .  O ur   w or k  ut i l i z es  t he t i m e - s ens i t i v e ( T S )   m odel i ng;   ho w ev er ,  t he  T S  m odel i ng  i n   out  d at as et  has   l i m i t ed c on t r i but i on  f or  o ur  pr ed i c t i on t a s k .     P r ed i c t i n r et w eet s   and   r epl i es   f or   a   g i v en  t w ee t   al s don b y   A r t z i ,   et   a l . ,   [6 ] S pec i f i c a l l y ,  f or   a gi v en t w eet ,  t h e y   di s c ov er   t hat  r em ov i ng s oc i al  f eat ur es   s uc as  num ber  o f   f ol l o w er s ,  n um ber  of   f ol l o w ees ,  and r a t i bet w een  t h e t w o c aus es  a b i g dr op i n t he i r  m odel ' s   pr edi c t i on  ac c ur ac y   o v er   m ode l s   t hat   i nc l ude  t hem .   C ar uan a ,   e t   a l. ,   [ 8]   m ent i on  r andom   f or es t - bas ed l e ar ni ng m et hod w i t hout  c al i br at i o n gi v e t he b e s t  av er ag e per f or m anc e ac r os s  al l   m et r i c s   and t es t  pr ob l em s ;   m or eo v e r ,  F er na nde z - D e l ga do ,   e t  a l. ,   [ 9]  c ons t r uc t  t hor oug h ex per i m ent s   and c onc l ude r an dom   f or es t - bas ed l e ar ni ng m et hod ac hi e v e t h e m ax i m u m  ac c ur a c y .  T her ef or e ,   w op t  t ut i l i z e  r and om  f o r es t - bas ed  l ear n i ng  m et hod  r at her   t ha n em pl o y   M A R T  i our   w or k .   Mor eo v er ,   i t  t ur ns  out  t h at  r andom  f or es t - bas ed l ear ni n m et hod,   w h i c h has  no t  b een em pl o y e d   i n pr e v i ous  s t u di es ,  gi v es  s uper i or  r es ul t s   i our  c om par i s on s t u d y .     H ong ,   e t   a l. ,   [ 4]   pr e di c t   w h et her   or   not   t w e et   w i l l   be  r et w eet ed  an ho w   m an y   t i m e s   a   t w eet   w i l l   be   r et w e et e d.   T he y   em pl o y   l o gi s t i c   r egr es s i on  i t he i r   w or k .   H o w   m any   t i m es   ne w   t w eet   w i l l   be r e t w ee t ed  ba s ed on  a c er t a i t hr es ho l d  i s  s t ud i ed  b y  J en der s ,   et  al . ,   [ 10] .  T he y   ut i l i z e   m odel s  s uc as  N a i v e - B a y es  a nd  gen er al i z ed   l i n ear  m odel .  O t h er   w or k   b y   G a o ,   et  al . ,   [ 11]  a l s o pr ed i c t  ho w  m any   t i m es  a t w e et   w i l l  r et w e et ed b y  a ppl y i ng a n ex t en ded r ei nf or c ed   P oi s s on  pr oc es s  m odel   w i t h t i m e m appi ng pr oc es s .     Z am an ,   et  al . ,   [ 1 2]  m eas ur es  t he p opu l ar i t y   of  a t w eet  t hr oug h t h e t i m e - s er i es  pat h  of  i t s   r et w eet s .  A  B a y es i an  pr ob abi l i s t i c  m odel  i s   de v el ope d f or  t he  ev ol u t i o n of  t h r et w eet s   an d   popu l ar i t y  of  a t w eet  i s  pr edi c t e d bas ed o n t he r et w eet  t i m es  and l oc al  n et w or k  or  " gr aph "   s t r uc t ur of   r et w eet er s .   Mac s k as s y ,   e t   a l. ,   [ 13 ]   t a t w eet s   w i t W i k i pedi c at egor i es   an gener at e pr of i l es  of  " t o pi c s  of  i nt er es t "  b as ed o n pa s t  c ont ent  p os t ed  and c o n s t r uc t  r et w eet   beha v i or  m odel s  f or  us er s .  T he y  ar g ue t h at  pe opl e' s  r et w eet i ng b eha v i or  i s  be t t er  ex pl a i n ed   t hr oug h m ul t i p l e d i f f er ent  m ode l s  r at her  t han  on e m odel .     Mor c hi d ,   et   a l. ,   [ 14]  s t ud y  t he beh av i or  of  t w e et s  t hat   hav e bee m a ssi ve l y   r et w e et ed i a s hor t  t i m e.  S p ec i f i c al l y ,  t he y  em pl o y   P r i nc i pa l  C om ponent  A nal y s i s  t o s el ec t  f eat ur es .   C om par ed t o o ur   w or k ,  t he y   ex t r ac t   l es s  num ber  of  f e at ur es  an d n um ber  of  l ear ni ng m et hods .     Xu ,   et   al . ,   [ 7]   an al y z us er   r et w eet   b eha v i or   at   i nd i v i d ual   l ev el   an ar gue  t h at   t h m os t   i m por t ant  f eat ur es  f or  gener al  pe op l e ar e s oc i al .  O u r  w or k  i s  s i m i l ar  t o t he i r s ;  ho w e v er ,  ou r   f oc us   i s   s pec i f i c al l y   t und er s t and  t w ee t s   f r o m   pol i t i c i ans   an w em pl o y   m or al g or i t hm s   t ha t   hav not   bee t es t e d,   s pec i f i c al l y   r an dom   f or es t - bas ed  l ear ni n m et hod,   an m o r m odel i ng  i n   our  ex per i m ent s .  Mor eo v e r ,  t he r and om   f or es t - bas ed l ear ni n g m et hod t hat   w e  em pl o y   gi v es   bet t er  pr ed i c t i o ac c ur ac y  t han ot her  al gor i t hm s   t h ey  em p l oy .       2.   M o d e l i n g  a n d  F e a tu r e s   I n t hi s  s ec t i on  w des c r i be  our  m odel i n g appr oac h f or  addr es s i n g t he r e t w ee t  pr e di c t i on   pr obl em  and c as t  t he  pr ob l em  as  a bi nar y  c l as s i f i c at i o n pr ob l em .     2 .1 M o d e l i n g  fo r  R e tw e e t P r e d i c ti o n   T abl e 1 d es c r i bes  4  gr ou p s  of  l ear ner s  t hat   w e em pl o y  i our  m odel i ng a ppr o ac h.         T abl e 1.   Lear n i n g a ppr oac h es .   G r oup of  l ear ner s   M odel     G l obal  l i near   G l obal  pas s i v e - aggr es s i v e   ( G - PA)   G l obal  l i near   s uppor t  v e c t or  ( G - L SV )   G l obal  l ogi s t i c  r egr es s i on  ( G - L R)   G l obal  non - l i near   G l obal  dec i s i on  t r ee ( G - DT )     G l obal  r ando m   f or es t  ( G - RF )     T S  p a s si ve - aggr es s i v e ( T S - PA )   T im e - s en s i t i v ( T S )  l i near   T S  l i near   s uppor t  v ec t or  ( T S - L SV)     T S  l ogi s t i c  r egr es s i on  ( T S - L R)   T im e - s en s i t i v ( T S )  non - l i near   T S  de c i s i on  t r ee ( T S - DT )     T S  r ando m   f or es t  ( T S - RF )   Evaluation Warning : The document was created with Spire.PDF for Python.
                            I SSN :  1 6 9 3 - 6 930   T E L KO M NI K A     V o l.   14 ,  N o 3,   S ept em ber  2016  :   10 52     1 058   1054   T he c l as s i f i c at i on r u l e f or  a gl o bal  l i ne ar  l e ar ner   i s :     = s ig n ( , )                                                                  ( 1)     W he r e   i s   t he  g l o bal   w ei ght   v ec t or ,     i s t he  f eat ur v ec t or   r epr es ent a t i o of   t w ee t ,   and,     is   t he pr e di c t i on .  T he c l as s i f i c at i o n r ul e f or  a g l ob al   no n - l i near  l ear n er  i s :     = a rg ma x { 0 , 1 } ( ( | ) ) ,                                                                    ( 2)     W h er   i s  a g l o bal  t r ee  m ode l  a nd    i s  t h e pr e di c t e c l as s  det er m i ned  as  t he  m ax i m u m  a  pos t er i or  ( MA P )  of  t he c l as s  di s t r i bu t i on t he    f a lls  in  t h e  le a f .   T im e - s ens i t i v e ( T S )   m odel i ng [ 2]  as s um es  t hat  t her e ar e s om e s pec i f i c  r ul es  w i t h i n   ev er y  ho ur  of  a da y  f or  t w eet s  be i n g r et w e et ed .  E ac hour   i n a d a y  c or r es p onds  t o a  l oc a l   m odel ,  t her ef or e,  T S  m odel i ng c o ns i s t s  of  one  g l ob al   m odel  ( ei t h er  eq uat i on  ( 1)   or  equ at i on ( 2) )   and  24  l oc al  m odel s .  T he T S  l i ne ar  l ear ner   i s  t he n :     = s ig n , + λ , ,                                                                ( 3)     W h er e,     i s  t he  l oc al   w e i gh t  v ec t or  a nd   λ   i s  t h w ei gh t  t h at  c or r es po nds  t o t he   num ber  of   t w eet s  t h at  t h e l oc al  m odel   has  s een d ur i n g t r a i ni ng,   di v i ded  b y  t he t ot a l  num ber  o f  t w eet s   i n t h e   t r ai n i ng s et .  F i na l l y ,  t he T S   non - l i n ear  l ear ner   i s  d ef i n e d as :     = a rg ma x { 0 , 1 } ( ( | ) + λ   ( | ) ) ,                                             ( 4)     W h er   i s  a l oc a l  t r e e m odel .     2 . 2 L e a r n i n g  M e th o d s   B as ed  on pr e v i ous  s t u di es  ( [ 3 - 5 ],  [7 ,   10] ) ,   w e pr op o s e 5 l e ar ni ng m et hods :  pa s s i v e - aggr es i v e   ( P A ) ,  l i near  s up por t  v ec t or  m ac hi ne ( LS V ) ,  l ogi s t i c  r egr es s i on ( LR ) ,   dec i s i o n t r ees   ( D T )  and r andom  f or es t - bas ed  l ear n i n g ( R F ) .  C om bi ne w i t t he  c hoi c e  f or  gl oba l   v s .  t i m e - s ens i t i v e m odel i n g,  t h i s   y i e l ds  a t ot al   of  10 a ppr oac h es ;  s ee T abl 1.     2 . 3 D esc r i p ti o n  o f F e a tu r e s   Li k t he  l e ar ni ng  a ppr oac h es ,   t he  f eat ur es   t h at   w c o ns i der   ar bas ed  on  n um ber   of   pr ev i ous  s t u di es ;  s ee T abl e  2.     T abl e   2 F eat ur es   and  t he i r  or i g i ns .   U ser  f eat u r es   N um ber   o f  f ol l ow er s   [1 5 ],   [3 ],   [4 ] , [6 ] ,  [7 ] , [1 0 ],   [1 2 ]   N um ber  o f   f r i ends   [1 5 ] ,   [3 ],   [4 ] , [6 ] ,  [7 ]   N um ber   o f  s t a t us e s   [1 5 ] ,  [3 ],   [7 ]   N um ber   o f  f av or i t es   [1 5 ] ,  [3 ]   N um ber  o f  u s er   l i s t ed   [3 ],  [ 7 ]   I s  a u s er  v er i f i ed?   [3 ],  [ 7 ]   P er c ent age  o f  r epl i e s   [ 6]   N um ber  o f   f ol l ow er s  /   N u m ber   of  f r i ends   [ 6]   A v er age num ber  of   t w eet s  per  day   [7 ],  [ 1 3 ]   A c c ount  age   [1 5 ] ,  [7 ]   T w eet  f eat u r es   N um ber  o f  ha s ht ag s   [1 5 ] ,   [3 ],   [6 ] , [7 ] ,  [1 0 ]   N um ber   o f  m ent i on s   [1 5 ] ,   [3 ],   [6 ] , [7 ] ,  [1 0 ]   Nu m b e r  o f  URL s   [4 ],  [ 1 0 ]   Lengt h of   a   t w eet   [3 ],  [ 6 ],  [1 0 ]   N ov el t y  s c or e   [3 ],  [ 3 ]   I s  a t w eet  a   r epl y ?   [3 ],  [ 7 ]   I s  a t w eet  a  di r ec t   m e s s age?   [ 5]   D oes  a  t w eet  c ont ai n  a ha s ht ag?   [ 5]   D oes  a  t w eet  c ont ai n  a U R L?   [ 5]   D oes  a  t w eet  c ont ai n  ‘ ?’  or  ‘ ! ?   [ 5]     W e  di v i de t he f eat ur es  i nt 2 c at eg or i es   as  f ol l o w s .   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NI K A     I S S N :  1 693 - 6 930       A  C o mpar i s on  of  R e t w ee t   P r ed i c t i o n A ppr oac hes :  T h S u per i or i t y   ( H endr a  B u ny ami n )   1055   2. 3. 1 .   U s e r F e a tu r e s   A   us er   c an   pos s es s   at t r i bu t es   t hat   m a k her   t w eet   m or l i k el y   t be   r et w e et e d.   W e   t r y   t c apt ur t hos at t r i b ut es   f r o m   i nf or m at i on  abou t   t he  us er   as   f ol l o w s :   ho w   m an y   peopl f ol l o w   t he us er  ( n um ber  of  f ol l ow er s ) ,  ho w  m an y  pe op l e t h e us er  f ol l o w s  ( num ber  of   f r i ends ) ,  ho w   m an y  s t a t us es  t he  us er  h as  ( num ber  of  s t at us es ) ,   ho w  m an y  f a v or i t e t w eet s  t he  us er   has   ( num ber   of   f av or i t es ) ,   ho w   m an y   t i m es   t he  us er   i s   l i s t ed  ( num ber   of   us er   l i s t ed) ,   w het h er   or   not   t he  us er  i s   v er i f i e d ( i s   a u s er  v er i f i e d?) .  F r om  al l   t w e e t s  aut hor ed  b y  a  us er ,   w e c om put e t he   r at i of  t w e et s  t h at  h av e r e pl i es  t o a l l  her  t w eet s  ( per c ent a ge of  r ep l i es ) ,  pr opor t i o n of  num ber  of   f ol l o w er s   t n um ber   of   f r i ends   ( num ber  of   f ol l o w er s /   num ber   of   f r i ends ) ,  ho w  m an y  t w eet s   t h us er  publ i s he d on a v er a g e per  da y  ( a v er age n um ber  of  t w eet s  per  d a y ) ,  a n d ho w  o l d her   ac c ount  a ge  of  a us er  i s  ( i n  da y s )   w hen s he p ub l i s he t he t w eet  ( ac c ou nt   age) .     2. 3. 2 .   T w eet   F eat u r es   W e   al s ex t r ac t   f eat ur es   about   a nd  f r om   t w ee t s   t hem s el v es .   W c ons i der   onl y   f eat ur es   t hat   h a v be en  s h o w i m p or t ant   i t he  ex i s t i ng   w or k .   T he  f eat ur es   f r o m   t w eet s   ar as   f ol l o w s :   num ber  of  has ht ags ,  m ent i ons ,  U R Ls ,  l engt h of  t h e t w eet ,  t he  no v e l t y  s c or e,   w he t her  or   not   t h e   t w eet   i s  a  r ep l y ,  a  di r ec t   m e s s age,   w he t her   or  no t  t he t w eet  c o nt a i ns   a h a s ht ag,  a  U R L,  a n   ex c l am at i on,   or  q ues t i on m ar k s .  N ov el t y  s c or e  i s  c om put e d as   t he  c os i n e d i s t a nc e be t w e en t he   T F - I D F  v ec t or  r epr es ent at i ons  of  t he t w eet  a nd  i t s   near es t  n ei ghb or  t w ee t  pu bl i s h ed a  da y   bef or e.         3.   E xp er i m en t al  S et u p   I n or der  t o und er s t and  w h a t   k i nd of  t w eet s   w ou l d be r e t w eet ed,   w e c r eat e d a dat a s et  as   f o llo w s . W e c ol l ec t ed l i s t s  of  D ut c h pol i t i c i ans  a nd p o l i t i c al  j our nal i s t s  f r o m  l i s t s   c ur at ed b y   De   I s s uemak er s ,  a D u t c h c o m m uni c at i ons  c ons u l t a nc y  c o m pan y ,   al o ng  w i t h t he i r  f ol l o w er s  an f o llo w e es .  T he t ot al   num ber  of  pol i t i c i ans  a nd j our na l i s t s  i s  3 04  and  t ot a l  n um ber  of  f ol l o w er s   and f ol l o w e es  i s  ar oun d 1. 4 m i l l i on .   W e c ol l ec t ed b ot h t w eet s  a nd us er  pr of i l es  f r om  S ept em ber   t o   D ec em ber   2,   2 01 b y   ut i l i z i ng   t he   T w i t t er   A P I .   W e   gat her ed   ar ou nd   m i l l i on   t w e et s .   O ur   t r ai n i ng  s et   c om pr i s es   t w ee t s   f r o m   S ept em ber   t D e c e m ber   ( ar ound  2. m i l l i o t w eet s )   an d   w e us e t w eet s  f r om  t he l as t  da y ,  D ec em ber  2nd  as  our  t es t  s et  ( ar o und  0. 3 m i l l i o n  t w eet s ) .     W e   l abel   a t w eet   as   r et w e et ed  or   not   r et w eet ed  b y  c hec k i ng  w het her   t he  t w ee t   has   or i gi na l  s t at us  i d.  I f  i t  h as  o ne,   w e ac q ui r e  t h e or i gi na l   t w eet   w i t h t he s t at us   i and  gi v e  i t  l a be l  1 .   I f   i t   has   n or i gi na l   s t at us   i d,   w l a be l   t h t w e et   0.   W s et   t hr es ho l d   v al u t o   da y s   t gi v e   t w eet   a c ha nc e t be r e t w e et ed.  T he pr opor t i o n of  r et w eet e d t w eet s  o v er a l l  i s  ar ound  33% .       T abl 3 T he b es t  s et t i ng s   af t er  5 - f ol d c r os s - v al i dat i o n   No   M ode l   S e tti n g   1   G - PA,  T S - PA   C =   0. 01,   l os s  =  s quar ed - hi nge   2   G - L SV,   T S - LS V   C =  10,  dual  =   f al s e   3   G - L R,  T S - LR   C =  10,  penal t y   =  l 2     4   G - D T ,  TS - DT   c r i t er i on =   ent r opy ,   s pl i t t er  =  be s t   5   G - R F ,  TS - RF   c r i t er i on =   gi ni ,  n_es t i m at or s  =  30       T abl e   4 F 1   ( % )  s c or es  af t er  5 - f ol d c r os s - v al i da t i o n o n t he t r a i ni ng s e t   M ode l   A v er ag e   ±   s td     M ode l   A v er ag e   ±   s td   G l obal  m odel s     T S  m odel s   G - PA   5 1 . 8 1 ± 0 . 0 2 2 9     TS - PA   5 2 . 5 4 ± 0 . 0 1 6 0   G - LS V   5 6 . 4 4 ± 0 . 0 0 1 0     TS - L SV   5 6 . 4 9 ± 0 . 0 0 1 1   G - LR   5 6 . 6 0 ± 0 . 0 0 1 1     TS - LR   5 6 . 6 6 ± 0 . 0 0 1 1   G - DT   6 9 . 1 8 ± 0 . 0 0 0 9     TS - DT   6 9 . 7 5 ± 0 . 0 0 1 2   G - RF   7 4 . 3 9 ± 0 . 0 0 0 6     TS - RF   7 5 . 4 2 ± 0 . 0 0 0 8       B ef or e w e r un t he pr e di c t i o n on t he t es t  s et ,   w e r un 5 - f ol d c r os s - v al i da t i o w i t h s el ec t ed   s et t i n gs  [ 16,   17]  f or  eac h c l as s i f i er  on our  t r ai n i ng s et .   T he pur pos e of  c r os s - v al i d at i o n i s  t o t un al l  t he m odel s  and f i nd t h e bes t  s et t i ng f r o m  eac h m odel .  T abl e 3 des c r i bes   t he bes t  s et t i n r es ul t i ng f r om   t he c r os s - v al i dat i on  on t h e t r ai ni ng s et .  T he c l as s i f i c at i on  per f or m anc e of  our   Evaluation Warning : The document was created with Spire.PDF for Python.
                            I SSN :  1 6 9 3 - 6 930   T E L KO M NI K A     V o l.   14 ,  N o 3,   S ept em ber  2016  :   10 52     1 058   1056   m odel s   af t er   c r os s - v al i d at i on  i s   s ho w i T abl 4.   W s ee  t hat   t he  n on - l i ne ar   m ode l s   ( D T ,   R F )   out p er f or m  t he l i ne ar   m odel s  ( P A ,  LS V ,  L R ) ,  and  t h at   t i m e - s ens i t i v m odel i ng  onl y   m ar gi nal l y   out p er f or m s  gl obal  m odel i n g on  t he  t r ai n i n g s et .   F or  s i gni f i c anc e t es t i n g,   w e us e a on e - t ai l ed  p ai r e d t - t es t  f or  c o m par i s ons  bet w een   gl o bal   l e ar ner s   an be t w ee t i m e - s ens i t i v l ear n er s ;   s i gn i f i c ant   d i f f er enc es   ar m ar k ed  us i ng    f or  s i gni f i c ant   di f f er enc es  at   = 0 . 0 1 . W e us e Mc N e m ar ' s  t e s t  t m eas ur e t he s i gn i f i c anc di f f er enc es  i n pr e di c t i on  ac c ur ac y  of  t he  gl o ba l  l ear n er s  and t he T S  l ear ner s .       4 R e s u l ts   4. 1.  P r ed i ct i o n   A cc u r acy   W e   r un  al l   m odel s   f r om   T a bl 1.  T abl e  5  s h o w s  t he   F 1   s c or e of  t he m odel s   w i t us er   f eat ur es  on l y ,  t w e et  f eat ur e s  onl y ,   and   w i t h b ot h  of  t he m  on t he t es t  s e t .   W e s ee t hat  t he  gl o ba l   and  t i m e - s ens i t i v r an dom   f or es t   m odel   ( G - R F )   and  ( T S - R F )   ac hi ev t h hi ghes t   per f or m anc e.   W e  al s o s ee t h at  us er  f eat u r es  out pe r f or m  t w eet  f eat ur es  and  t hat  t he i r  u ni o n o ut p er f or m s  bot h.     4. 2.  F e at u r S el ect i o n   I n or der   t u nd er s t and t he  ov er al l   c ont r i bu t i o n of   eac h i n di v i du al   f eat ur e f or   pr e di c t i on   ac c ur ac y ,   w e u t i l i z e  r ec ur s i v e  f eat ur e  el i m i nat i on ( R F E )  an d c om put gi ni  i m por t an c on  al l   f eat ur es  i n t he g l o ba l  l i ne ar  and  non - l i near  m odel s .  R F E  s t ar t s  b y  t r a i ni ng m ode l s   w i t h al l   f eat ur es .  T he f eat ur e   w hos e abs o l ut w ei ght  i s  t hen  f ound s m al l es t   i s  pr u ne d f r om  t he s et ;  R F E   c ont i n ues  l i k e t hi s  r ec ur s i v el y  unt i l  t her e i s  o nl y  o ne  f ea t ur e l ef t .  T hi s  l as t  f eat u r e i s  t he f i r s t - r ank ed f eat ur e i n T abl 6.  Meas ur i ng t he i m por t anc e  of  a f eat ur e i n d ec i s i o n t r ee or  r an dom   f or es t   equal s   c om put i ng  t h dec r eas of   i m pur i t y   of   t he  nod es   ov er   al l   t r e es   i t he  f or es t   [ 16] .   T he l o w er   d ec r eas i ng   is   hi gher  t h i m por t anc e of  t h e f eat ur i n t he  dec i s i on t r ee or  r an dom   f or es t .       T abl e   5 C om par i s on of  F 1   ( % )  s c or es  f r o m  di f f er ent  c l as s i f i er s  and f eat ur e s et s   on  t he t es t  s et .   I n t h e r i g ht m os t  c ol um n,  s t at i s t i c a l l y  s i gn i f i c ant  d i f f er enc es  w i t h  t he  pr e v i o us  r o w   ( i n t h e s am par t  of  t he  t ab l e)  ar e m ar k e w i t   M ode l   U ser  f eat u r es   T w eet  f eat u r es   Bo t h   G l obal  m odel s   G - PA   5 0 . 8 1   3 0 . 2 6   5 1 . 5 8   G - LS V   5 1 . 4 8   1 8 . 9 0   5 4 . 6 5   G - LR   5 5 . 1 8   2 3 . 0 1   5 8 . 5 5   G - DT   6 8 . 0 1   4 6 . 3 9   6 7 . 9 8   G - RF   6 9 . 6 3   3 8 . 7 8    .    T S  m odel s         TS - PA   5 1 . 1 5   3 0 . 3 1   5 1 . 8 4   TS - L SV   5 1 . 5 2   1 8 . 9 8   5 4 . 6 6   TS - LR   5 5 . 1 8   2 3 . 0 5   5 8 . 5 9   TS - DT   6 8 . 0 8   4 6 . 3 9   6 7 . 9 7   TS - RF   7 1 . 0 6   4 6 . 3 2    .        T abl e   6 T he t op - 5 - f eat ur e r ank i ngs  gen er at e d f r om  R F E  f or  gl o ba l  pas s i v e - a ggr es s i v e ( G - P A) ,   gl o bal  l i ne ar  s upp or t   v ec t or  ( G - LS V ) ,  a nd  gl o ba l  l og i s t i c   r egr es s i on ( G - LR )   Ra n k   G - PA   G - LS V   G - LR   1   N um ber  o f  u s er   l i s t ed   N um ber  o f  u s er   l i s t ed   N um ber  o f  u s er   l i s t ed   2   I s  a u s er  v er i f i ed?   #f ol l ow er s   #f ol l ow er s   3   #f ol l ow er s   A v er age #t w eet s / day   A v er age #t w eet s /  day   4   A v er age  #t w eet s  /   day   #f ol l ow er s  /   # f r i ends   #f ol l ow er s  /   # f r i ends   5   #f ol l ow er s  /   # f r i ends   Lengt h of  a   t w eet   I s  a u s er  v er i f i ed?   #t w eet s  =  nu m ber  of   t w eet s ,  #f ol l o w er s  =  nu m ber  of  f ol l ow er s ,  # f r i en ds  =  nu m ber  of  f r i end s       T abl e 6  s ho w s   t hat   t h nu m ber  o f   t i m es   a   us er   i s   l i s t ed,  t he  n um ber  of   f ol l o w er s ,   and   t he  av er age  num ber  of  t w eet s  p ubl i s he d p er  da y   ar e t h e f eat ur es  t hat  c ont r i b ut e m os t  t o t h pr edi c t i on ac c ur ac y .   M or e ov er ,  t he  i m por t ant  f eat ur es  of  our  gl o bal  r and om   f or es t  m odel  i n   T abl e 7 ar e s i m i l ar  t o t he  o nes  i d ent i f i ed  b y   R F E  f or  t h e l i ne ar  l e ar ner s .   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NI K A     I S S N :  1 693 - 6 930       A  C o mpar i s on  of  R e t w ee t   P r ed i c t i o n A ppr oac hes :  T h S u per i or i t y   ( H endr a  B u ny ami n )   1057   T abl e   7 T he t op - 5 - f eat ur i m por t anc e r ank i ngs  f or  gl o bal   dec i s i on t r ee c l as s i f i er  ( G - D T )  and  gl o bal  r and om   f or es t  c l as s i f i c at i on ( G - R F )  bas ed  on  gi ni   i m por t anc e   Ra n k   G - DT   G - RF   1   N um ber  o f  u s er   l i s t ed   N um ber   of  us e r  l i s t e d   2   A v er age t w eet s  per   day   N um ber   o f  f ol l ow er s   3   N ov el t y   A v er age t w eet s  per   day   4   A v er age t w eet s  per   day   N um ber  o f   f ol l ow er s  /   N u m ber   of  f r i ends   5   A c c ount  age   N ov el t y       I nt er es t i ng l y ,   b ot gr aphs   i F i g ur 1   s ho w   t h at   t her e   i s   m or t han   10%   i nc r eas of   F 1   s c or e ( bl ue l i ne)   w he w e a dd t he f eat ur e,  n um ber  of  t w eet s  pub l i s h ed.   W f i nd t hat  G - LS V  and   G - LR   w i t h s el ec t i ng  4 b es t   f eat ur es  pl us  ” num ber  of  t w eet s  p ubl i s he d”  c an  ac hi ev e per f or m anc c o m par abl w i t t he  p er f or m anc o f   bot m odel s   ut i l i z i ng  a l l   t h f e at ur es   ( gr ee n   das hed  l i n i F i gur e 1) .       F i gur e 1.   ( T op) :  F 1   sco r e s o f  G - LS V  t r ai ned  i nc r em ent a l l y   w i t h m or e f eat ur es  ( x - a x i s ) . ( B o tto m ) F 1   s c or es  of  G - LR .  F 1   s c or es  ar e c om put ed f r o m  5 - f ol d c r os s - v al i d at i on,  t he  or der   of  t he  f eat ur es  i s  det er m i ned b y  R F E  c om put ed f r o m  t he c or r es pond i n g m odel .  T he d as hed  gr een  l i ne  dep i c t s  t he F 1   s c or of  t he  c or r es pondi ng m odel   t r ai ne d on  t he  bes t  4  f eat ur es   +  t he n um ber  of   t w eet s  p ub l i s he d ( t h e f eat u r e c aus i n g t h e bo os t  i n F 1   s c or e f or  bot h m odel s )       4 .3 . T im e - sen s i t i v e M o d e l i n g   T im e - s e n s it iv e   m odel i n g g e ner al l y   y ie ld s   bet t er  per f or m anc e t han t he  gl oba l  m odel s ;  t h e   ex c ept i o n i s  G - D T ,   w hi c out p er f or m s  T S - D T  b y   0. 0 1% .  H o w ev er ,  t h e Mc N em ar  s i gn i f i c anc e   t es t  do es  not   i n di c at e t h at  a n y   of  t he d i f f er enc es  ar e s i gni f i c ant .       W e   al s c ar r i ed  out   ex per i m ent s   t f i nd  t he  opt i m al   gl ob al   λ   i equat i o ( 3)   and  ( 4)   as   t r y i n g i nd i v i dua l   λ   f or  eac h   l oc al  m odel   i s  i nt r ac t a bl e .   H o w e v er ,   t he  l oc al  m odel   i ns i d e t i m e - s ens i t i v e m odel i n is   s t i l l  u nab l e t o c ont r i but e t o  he l i m pr ov e t he pr edi c t i o ns .     W e   c onc l ude  t hat ,   on  our   dat as et  an u nl i k t he  f i nd i ngs   b y   P et r ov i c ,   et   al . ,   [ 3 ],   ti m e - s ens i t i v e m odel i n g has  a  v er y  l i m i t ed c ont r i but i o n t o t he o v er a l l   per f or m anc e   t he  us e of  a s t r on g   l ear n i n g m odel  i s  f ar  m or e i m por t ant .       5 .  C o n c l u s i o n   W e  pr ov i d e a  s t ud y  a nd c om par i s on of   r et w eet  pr e di c t i on  appr o ac hes .  T o t h bes t  of   our  k now l e dge ,  t hi s   i s  t h f i r s t  at t em pt  t o c o l l ec t   b es t  per f or m i ng f eat ur es  a nd c ont r as t   l i nea r   and non - l i n ear  l ear n i n g m et hods .   S pec i f i c a l l y ,   w e  ans w er  t hr ee r es e ar c h ques t i ons .  W e   dem ons t r at t hat ,   on  our   d at as et ,   r and om   f or es t - bas ed  l ear n i ng  m et hod,   w h i c has   not   bee n   em pl o y ed  i pr e v i o us  s t ud i es ,  out p er f or m s  al l  ot h er  l e ar ni n g m et hods  t hat   w e c o ns i der .   W f i nd   t hat   us er  f eat ur es  ar e  m or e  i m por t ant  t h an t w eet  f eat ur es  i n m ak i ng c or r ec t  pr edi c t i ons   and  t ha t   t he  bes t   t hr ee   f eat ur es   ar e:   num ber   of   t i m es   us er   i s   l i s t e d,   n um ber   of   f ol l o w er s ,   and   a v er a ge   num ber   of   t w eet s   pu bl i s he per   da y .   U s i ng  f eat ur s el ec t i on,   w f i nd  t h at   t h nu m ber   o f   t w eet s   Evaluation Warning : The document was created with Spire.PDF for Python.
                            I SSN :  1 6 9 3 - 6 930   T E L KO M NI K A     V o l.   14 ,  N o 3,   S ept em ber  2016  :   10 52     1 058   1058   pub l i s he d c om bi ned   w i t h t h e   f our  bes t  f eat ur es  l e ads  t o per f or m anc e l ev el s  of  G - LS V  an d G - LR   m odel s  t hat  ar e c om par a bl e  us i ng  al l  f eat ur es .  L a s t l y ,  t i m e - s ens i t i v e m odel i ng h as  l i m i t ed  benef i t s  o n o ur  dat as et .     A s  t o f ut ur w or k ,  w e pl a n t o s t ud y  t he  pot e nt i al  o f  s i gnal s  i nf er r ed f r o m  ex t er na l   s our c es  ( s uc h as  ne w s  or   W i k i pedi a)  f or  r et w e et  pr e di c t i on.       R ef er en ces   [1 ]   G oy al  S .  F ac eboo k ,  T w i t t er ,   G oogl e+ :  S o c i a l  N et w or k i ng.   I nt er nat i on al  J o ur na l  of  S oc i a l  N et w or k i ng   and V i r t ual  C om m uni t i e s .  201 2;   1( 1) .   [2 ]   K w ak  H ,  Lee C ,  P ar k  H ,  M oon S .   W h at  i s  T w i t t er ,  a S oc i al  N et w or k   or  a  N ew s  M edi a?   P r oc e e di n gs  of   t he 19 t h I nt er n at i o nal  C onf er e nc on  W o r l W i de   W e b.  R al e i gh,  N or t h  C ar ol i na,  U S A .  20 10 :   591 - 6 00.   [3 ]   Pe t ro v i c   S O s bor n M ,   Lav r enk V R T   t W i n!   P r edi c t in g   M es s age  P r opa gat i on   i T w i t t er Pro c ee di n gs  of  t h e F i f t h I nt er nat i o nal  C on f er en c e on  W e bl ogs  an d S oc i al  M edi a B ar c e l ona,  S pa i n 2011.   [4 ]   H ong L,  D an O ,  D av i s on B D .   P r edi c t i ng P o pul ar  M es s ages   i n T w i t t er .   I n t e r na t i on a l  W or l d   W ide  W eb  C onf er en c e s .   H y der a bad,  I ndi a.   201 1:   57 - 58 .   [5 ]   N av eed N ,  G ot t r o n T ,  K unegi s  J ,  A l had i  A C .   B ad N ew s  T r av el  F a s t :  A  C ont en t - ba s ed A nal y s i s   of   I nt er e s t i n gne s s  on  T w i t t er .   W e b S c i enc e C onf er en c e.  K obl e n z ,  G er m any .  20 11:   8.   [6 ]   Art z i  Y ,  Pa n t e l  P,  G a m o n  M .   P r edi c t i n g R e s pon s e s   t o M i c r obl o g P o s t s .  H um an  Lang uag T ec hnol o gi e s :   C onf er en c of   t he  N or t A m er i c a C hapt er   of   t he  A s s oc i at i on  of   C o m put at i o nal   Li ngu i s t i c s  P r o c ee di n gs .  M ont r eal ,  C a nada .  20 12:   602 - 6 06.   [7 ]   X u Z ,  Y ang Q .   A nal y z i ng U s er  R et w e et  B eh av i or  on T w i t t er .  T he I nt er nat i on al  C on f er en c e o n   A dv anc e s  i n  S oc i al  N et w or k  A nal y s i s  an d M i ni ng.  C a l gar y ,  C anada .  20 12:   46 - 5 0.   [8 ]   C ar uana  R ,   N i c ul e s c u - M iz il  A .   A E m pi r i c al   C om pa r i s on  of   S upe r v i s ed  Lear n i ng   A l gor i t hm s P r oc ee di n gs   of  t h e 23 r d I n t er nat i o nal  C onf er enc e o n M ac hi ne Le ar ni ng.  P i t t s bur g h,  U S A .  2006 :   1 61 - 168.   [9 ]   F er nan dez - D el ga do  M ,  C er nadas  E ,  B ar r o S ,  A m or i m  D .  D o w e need hundr ed s  of  c l as s i f i er s  t o s ol v r eal  w or l d c l as s i f i c a t i o n pr ob l em s ? T he  J our nal   of  M ac hi ne  Lear n i ng R e s ear c h .   2014 ;   1 5( 1) :   31 33 - 3181.   [ 10]   J end er s   M ,   K as nec i   G ,   N aum ann  F .   A nal y z i ng  and  P r edi c t i ng  V i r al   T w eet s In t e r n a t i o n al   W or l d  W ide  W e b  C on f er en c e s .  R i o  de  J an ei r o,  B r az i l .  2 013:   657 - 664.   [ 11]   G ao S ,  M a J ,  C hen Z .   M odel i ng an d P r edi c t i ng R et w ee t i n g D y nam i c s  on M i c r obl ogg i ng  P l at f or m s .   P r oc ee di n gs  of  t h e E i ght h A C M  I nt er nat i o nal  C o nf er e nc e o n   W eb S e ar c h and D at a M i ni ng .  N ew  Y or k   C i t y ,  U S A .  2015 : 107 - 116.     [ 12]   Z am a T ,   F o x   E B ,   B r adl ow   E T .   A   B ay es i an  A ppr oa c f or   P r edi c t i ng  t he  P op ul ar i t y   of   T w eet s .   T h A nnal s  of  A ppl i ed S t at i s t i c s .  2 014;   8( 3) :   1 583 - 1611 .   [ 13]   M a cska s sy  S A ,  M i ch e l so n  M .   W h y  d o P eo pl e R e t w eet ? A nt i - hom ophi l y   W i n s  t he  D a y P r o c eed i ng s  of   t he F i f t h I nt er n at i o nal  C onf er e nc on  W e b l o gs   and S oc i al  M edi a.  B ar c el on a,  S p ai n 201 1.   [ 14]   M or c hi M ,   D uf our   R ,   B ous quet   P - M ,   Li nar es   G ,   T or r es - M or eno  J - M .   F eat ur S el e c t i o us i ng   P r i nc i pal  C om pone nt  A nal y s i s  f or   m as s i v e r et w eet  de t ec t i o n.   P at t er n R e c og ni t i on  Let t er s .  201 4;   49 :   33 - 39.   [ 15]   S uh B ,  H ong L,  P i r ol l i  P ,  C hi  E H .   W an t  t o be R et w eet ed? L ar ge S c a l e A nal y t i c s  o n F ac t o r s  I m pac t i ng   R et w eet  i n T w i t t er  N et w or k .   2010 I E E E  S ec ond I n t er n a t i ona l  C onf er enc e on S o c i a l  C om put i ng  ( S oc i a l C om ) .  M i nneapo l i s ,  U S A .  2010 :   1 77 - 184 .   [ 16]   P edr ego s F ,  V ar o qua ux  G ,   G r am f or t  A ,  M i c hel  V ,  T hi r i on  B ,  G r i s e l  O ,  B l o ndel  M ,  P r et t enhof er  P ,   W e i s s  R ,  D ubo ur g V ,   V an der pl as   J ,  P a s s o s  A ,  C our nape a u D ,  B r uc her  M ,   P er r ot  M ,  D u c he s nay  E .   S c ik it - l e ar n:   M ac hi ne  L ear ni n i P y t ho n.   J our n al   o f   M ac hi ne  L ear n i ng  R e s ear c h .   201 1;   12:   2 825 - 2830.   [ 17]   W a n g L.  M ac hi n e Lear n i ng i n  B i g D at a.   I nt e r nat i ona l  J o ur n al  of  A dv anc es  i n A ppl i ed S c i enc e .  2016 :   4 (4 ).   [ 18]   B r ei m a n L.  R ando m  F or es t s .   M ac hi ne Le ar ni n g .  2 001;  45( 1) :   5 - 32.       Evaluation Warning : The document was created with Spire.PDF for Python.